Data Lake

Was ist ein Data Lake?

Ein Data Lake ist ein Speicher, der Rohdaten in ihrer ursprünglichen Form vorhält, in fast beliebigem Umfang, ohne ihnen zuerst eine Struktur aufzuzwingen. Strukturierte Tabellen, JSON-Logs, Bilder, Sensorwerte und Clickstream-Ereignisse können im selben See liegen. Sie entscheiden, wie die Daten geformt werden, wenn Sie sie lesen, nicht wenn Sie sie schreiben. Diese Flexibilität ist der ganze Punkt.

Das ist der zentrale Unterschied zwischen einem Data Lake und einem Data Warehouse. Ein Warehouse verlangt Struktur im Voraus und belohnt Sie mit schnellen, geregelten Abfragen. Ein See nimmt alles an und verschiebt die Struktur, was die Optionen offen hält, aber mehr Arbeit auf den abwälzt, der später Sinn daraus machen will. Ein Medienunternehmen könnte jedes Rohereignis aus seinen Apps in einen See kippen und später nur einen Teil in saubere Tabellen verwandeln, wenn eine bestimmte Analyse oder ein Modell es braucht. Seen liegen meist auf günstigem Objektspeicher wie Amazon S3, was "alles aufbewahren" erst bezahlbar macht.

Seen und Warehouses existieren oft nebeneinander. Viele Unternehmen landen Rohdaten in einem See und schieben dann verfeinerte, vertrauenswürdige Teilmengen für das Reporting in ein Warehouse. Das neuere "Lakehouse"-Muster versucht, beide zu verschmelzen, indem es Warehouse-artige Struktur und Governance über den Seespeicher legt.

Data Lakes bei Dallonses

Wir bauen Data Lakes für Kunden, die wirklich alles aufbewahren müssen: Teams, die Modelle trainieren, schwere Analysen fahren oder mit Daten arbeiten, die zu vielfältig sind, um in saubere Tabellen zu passen. Ein See ohne Disziplin wird zum Sumpf, deshalb setzen wir von Anfang an Katalogisierung, Zugriffskontrolle und Struktur dort ein, wo es zählt.

Meistens ist ein See ein Teil eines größeren Bildes. Wir kombinieren ihn mit einem Warehouse, damit Rohdaten und vertrauenswürdiges Reporting jeweils ein eigenes Zuhause haben, und machen die Grenze dazwischen klar. Echte Datenanalyse braucht sowohl die Freiheit, Rohdaten zu erkunden, als auch die Disziplin, saubere Zahlen zu berichten, und wir entwerfen die Architektur so, dass ein Kunde beides ohne das Durcheinander bekommt.

Sitzen Sie auf Rohdaten, die Sie noch nicht nutzen können? Machen wir etwas Nutzbares daraus.

Sprechen wir über Daten