Spring GDS 25è Aniversari
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Un data lake és un magatzem que guarda dades en cru en la seva forma original, a gairebé qualsevol escala, sense imposar-los una estructura primer. Taules estructurades, registres JSON, imatges, lectures de sensors i esdeveniments de clickstream poden conviure al mateix llac. Tu decideixes com donar forma a les dades quan les llegeixes, no quan les escrius. Aquesta flexibilitat és just el que el defineix.
Aquesta és la diferència central entre un data lake i un data warehouse. Un warehouse exigeix estructura per endavant i et recompensa amb consultes ràpides i governades. Un llac accepta qualsevol cosa i ajorna l'estructura, cosa que manté les opcions obertes però deixa més feina a qui després intenti donar-li sentit. Una empresa de mitjans podria abocar cada esdeveniment en cru de les seves apps en un llac i transformar després només una part en taules netes quan una anàlisi o un model concret ho necessiti. Els llacs solen recolzar-se en emmagatzematge d'objectes barat com Amazon S3, que és el que fa assequible el "guarda-ho tot".
Llacs i warehouses solen coexistir. Moltes empreses aterren les dades en cru en un llac i després empenyen subconjunts refinats i fiables a un warehouse per al reporting. El patró més recent del "lakehouse" intenta fondre tots dos, afegint estructura i governance d'estil warehouse sobre l'emmagatzematge del llac.
Construïm data lakes per a clients que de debò necessiten guardar-ho tot: equips que entrenen models, que executen anàlisis pesades o que treballen amb dades massa variades per cabre en taules polides. Un llac sense disciplina es converteix en un pantà, així que posem catalogació, control d'accés i estructura on importa des del principi.
La majoria de vegades un llac és una peça d'un quadre més gran. L'emparellem amb un warehouse perquè les dades en cru i el reporting fiable tinguin cadascun el seu lloc, i deixem clara la frontera entre tots dos. L'analítica de dades de debò necessita tant la llibertat d'explorar dades en cru com la disciplina de reportar números nets, i dissenyem l'arquitectura perquè el client tingui totes dues sense el desordre.
Assegut sobre dades en cru que encara no pots fer servir? Convertim-les en una cosa útil.
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Convertir una marca en un negoci que funciona.
Mig milió de persones. Una app. Zero caos.















