Spring GDS 25. Jubiläum
Ein Logistikunternehmen, das in 190 Länder versendet, hat etwas gebaut, um an sich selbst zu liefern.
dbt ist ein Werkzeug, um Daten innerhalb eines Warehouse zu transformieren. Rohe Tabellen gehen hinein, saubere und modellierte Tabellen kommen heraus, und die Logik dazwischen wird als SQL-Select-Statements geschrieben, die dbt in die Tabellen und Views verwandelt, auf die sich Ihre Analysten und Dashboards stützen. Es übernimmt das T in ELT, den Transform-Schritt, nachdem die Daten bereits geladen wurden.
Was es auszeichnet, ist, dass es Software-Engineering-Disziplin in diese Arbeit bringt. Transformationen liegen in der Versionskontrolle. Modelle können sich gegenseitig referenzieren, und dbt ermittelt die Reihenfolge, in der sie laufen. Sie schreiben Tests, die Dinge behaupten wie „diese Spalte ist nie null" oder „diese ID ist eindeutig", und die Dokumentation wird aus dem Code selbst erzeugt. Ein Finanzteam, dessen Umsatzzahlen aus einem getesteten, versionierten dbt-Modell stammen statt aus einer von Hand bearbeiteten Tabelle, ist genau der Punkt. dbt speichert oder bewegt keine Daten, es orchestriert Transformationen auf Warehouses wie Snowflake, BigQuery oder Redshift.
Das Ergebnis ist eine Transformationsschicht, die Sie prüfen, testen und der Sie vertrauen können, statt eines Wirrwarrs aus einmaligen SQL-Skripten, an deren Entstehung sich niemand erinnert.
Wenn wir das Data Warehouse eines Kunden bauen, ist dbt meist die Art, wie wir die Transformationsschicht im Griff behalten. Wir modellieren die Daten in versioniertem SQL, fügen Tests hinzu, damit schlechte Daten laut scheitern statt ein Dashboard still zu vergiften, und dokumentieren die Modelle, sodass die nächste Person sie ohne Meeting versteht. Saubere Transformationen sind der unspektakuläre Grund, warum den Zahlen weiter unten vertraut werden kann.
Diese Arbeit verbindet unsere Data Lakes und Data Warehouses mit Datenanalyse und Visualisierung, denn die Tabellen, die dbt erzeugt, sind genau das, woraus die Dashboards lesen. Wir richten die Pipeline so ein, dass sie nach Zeitplan läuft, alarmiert, wenn ein Test bricht, und lesbar bleibt, während das Modell wächst. Globale Marken bringen uns Reporting, das stimmen muss, und dbt ist ein großer Teil davon, wie wir es so halten.
Müde von Dashboards, die auf SQL gebaut sind, dem niemand vertraut? Bauen wir die Schicht darunter neu.
Ein Logistikunternehmen, das in 190 Länder versendet, hat etwas gebaut, um an sich selbst zu liefern.
Eine Marke in ein funktionierendes Geschäft verwandeln.
Eine halbe Million Menschen. Eine App. Null Chaos.















