Spring GDS 25 Aniversario
Una empresa de logística que envía a 190 países construyó algo para enviarse a sí misma.
ETL y ELT son dos formas de sacar datos de los sistemas de origen y llevarlos a un sitio donde se puedan analizar. Las dos mueven los datos por tres pasos: extraerlos de una fuente, transformarlos en una forma utilizable y cargarlos en un destino. La diferencia es el orden.
ETL significa extract, transform, load. Los datos se limpian y se reorganizan antes de aterrizar en el data warehouse, así que lo que llega ya viene estructurado y listo para consultar. ELT da la vuelta a los dos últimos pasos. Los datos en bruto aterrizan primero, y luego se transforman dentro del destino usando el propio cómputo del almacén. ELT se volvió común cuando data warehouses en la nube como BigQuery y Snowflake hicieron barato guardarlo todo y transformar bajo demanda. Un retailer que junta ventas de un sistema de punto de venta, pedidos web de una plataforma de ecommerce e inventario de una tercera herramienta necesita los tres reconciliados antes de que nadie pueda fiarse de una cifra de ingresos, y esa reconciliación es justo lo que resuelve el paso de transformación.
Ningún enfoque es mejor de forma universal. ETL encaja en casos con gobernanza estricta, campos sensibles que nunca deberían aterrizar en bruto o esquemas fijos. ELT encaja en el trabajo exploratorio donde quieres conservar los datos en bruto y la libertad de reorganizarlos más tarde. La mayoría de stacks de datos modernos tiran hacia ELT, pero muchos pipelines mezclan los dos según la fuente.
Construimos los pipelines que alimentan el reporting y la analítica de una empresa, y elegimos el enfoque que encaja con las fuentes reales en lugar de la moda del mes. Cuando un cliente tiene sistemas limpios, bien gobernados y reglas de cumplimiento estrictas, ETL evita que los datos sensibles aterricen alguna vez en bruto. Cuando quieren guardarlo todo y averiguar las preguntas después, ELT hacia un data warehouse en la nube les da ese margen.
La parte difícil rara vez es la carga. Es la lógica de transformación que reconcilia diez sistemas que definen "cliente" cada uno a su manera. Nos sentamos con la gente que tiene esos sistemas, mapeamos cómo se comportan los datos de verdad y construimos pipelines que aguantan cuando una fuente cambia de formato sin avisar. La analítica de datos limpia depende de que esta capa funcione, así que la tratamos como base, no como fontanería.
¿Tienes datos repartidos por sistemas que necesitan hablarse? Conectémoslos.
Una empresa de logística que envía a 190 países construyó algo para enviarse a sí misma.
Convertir una marca en un negocio que funciona.
Medio millón de personas. Una app. Cero caos.















