Spring GDS 25è Aniversari
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
ETL i ELT són dues maneres de treure dades dels sistemes d'origen i portar-les a un lloc on es puguin analitzar. Totes dues mouen les dades per tres passos: extreure-les d'una font, transformar-les en una forma utilitzable i carregar-les en una destinació. La diferència és l'ordre.
ETL significa extract, transform, load. Les dades es netegen i es reorganitzen abans d'aterrar al data warehouse, així que el que arriba ja ve estructurat i a punt per consultar. ELT dona la volta als dos darrers passos. Les dades en brut aterren primer, i després es transformen dins de la destinació fent servir el mateix còmput del magatzem. ELT es va tornar comú quan data warehouses al núvol com BigQuery i Snowflake van fer barat guardar-ho tot i transformar sota demanda. Un retailer que ajunta vendes d'un sistema de punt de venda, comandes web d'una plataforma d'ecommerce i inventari d'una tercera eina necessita els tres reconciliats abans que ningú es pugui refiar d'una xifra d'ingressos, i aquesta reconciliació és justament el que resol el pas de transformació.
Cap enfocament és millor de manera universal. ETL encaixa en casos amb governança estricta, camps sensibles que mai haurien d'aterrar en brut o esquemes fixos. ELT encaixa en la feina exploratòria on vols conservar les dades en brut i la llibertat de reorganitzar-les més tard. La majoria de stacks de dades moderns tiren cap a ELT, però molts pipelines barregen els dos segons la font.
Construïm els pipelines que alimenten el reporting i l'analítica d'una empresa, i escollim l'enfocament que encaixa amb les fonts reals en lloc de la moda del mes. Quan un client té sistemes nets, ben governats i regles de compliment estrictes, ETL evita que les dades sensibles aterrin mai en brut. Quan volen guardar-ho tot i esbrinar les preguntes després, ELT cap a un data warehouse al núvol els dona aquest marge.
La part difícil rarament és la càrrega. És la lògica de transformació que reconcilia deu sistemes que defineixen "client" cadascun a la seva manera. Ens asseiem amb la gent que té aquests sistemes, mapegem com es comporten les dades de debò i construïm pipelines que aguanten quan una font canvia de format sense avisar. L'analítica de dades neta depèn que aquesta capa funcioni, així que la tractem com a base, no com a fontaneria.
Tens dades repartides per sistemes que necessiten parlar-se? Connectem-les.
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Convertir una marca en un negoci que funciona.
Mig milió de persones. Una app. Zero caos.















