Spring GDS 25è Aniversari
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Un data pipeline és el camí que recorren les dades des d'on es creen fins a on es fan servir. Extreu dades de les fonts, les mou a través de la neteja o el reajustament que necessitin i les lliura a una destinació com un warehouse, un dashboard o un model de machine learning. Pensa-hi com el cablejat entre sistemes que, altrament, mai no compartirien res.
Els pipelines funcionen en dos modes principals. Els pipelines batch processen les dades segons un horari, cada hora o cada nit, cosa que serveix per a un reporting que no cal que sigui en directe. Els pipelines de streaming processen els esdeveniments a mesura que passen, cosa que importa quan una comprovació de frau o un recompte d'inventari en directe no poden esperar. Un pipeline sol incloure ingesta, transformació i orquestració, aquesta última la capa que decideix què s'executa i quan, i què passa quan un pas falla. Un negoci de subscripció podria fer córrer un pipeline batch nocturn que extreu els esdeveniments de pagament, els uneix als registres de compte i aterra una taula neta que el seu equip financer consulta cada matí.
El terme se solapa amb ETL i ELT, que descriuen patrons concrets dins d'un pipeline. El pipeline és el concepte més ampli. Inclou el maneig de fallades, els reintents, el monitoratge i la planificació que mantenen les dades fluint quan una font cau o un registre arriba malformat.
Dissenyem pipelines que sobreviuen al contacte amb la realitat. Les fonts es trenquen. Els esquemes canvien. Un proveïdor modifica una API sense avisar ningú. Incorporem els reintents, les alertes i la validació que atrapen aquestes fallades abans que arribin a un dashboard i corrompin en silenci un trimestre de reporting.
La majoria de la nostra feina de pipelines comença amb un client les dades del qual viuen en massa llocs per confiar-hi. Mapem el flux real, decidim on n'hi ha prou amb el batch i on el streaming es guanya la seva complexitat, i aixequem una cosa que el mateix equip del client pugui operar i ampliar. Una analítica de dades sòlida depèn del tot de la capa que té a sota, així que fem aquesta capa avorrida i fiable a propòsit.
Necessites que les teves dades es moguin amb fiabilitat entre sistemes? Construïm el pipeline.
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Convertir una marca en un negoci que funciona.
Mig milió de persones. Una app. Zero caos.















