Spring GDS 25è Aniversari
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
El web scraping és l'extracció automatitzada de dades de llocs web. Un programa demana una pàgina, llegeix el seu HTML i treu els valors concrets que vols, preus, llistats, ressenyes, dades de contacte, i els desa en una forma estructurada que pots fer servir de debò. És el que fas quan les dades que necessites estan publicades a la web però cap API te les entrega netes.
Els scrapers més simples descarreguen HTML i el parsegen. Molts llocs moderns renderitzen el seu contingut amb JavaScript després de carregar la pàgina, així que un scraper per a aquests fa servir un navegador headless com Playwright o Puppeteer per executar la pàgina igual que ho faria un navegador real abans de llegir-la. Un servei de comparació de preus, per exemple, podria scrapejar desenes de llocs de retailers de manera programada, normalitzar els formats i abocar el resultat en una única base de dades consultable. La sortida sovint es converteix en entrada per a analítica o per entrenar i alimentar models de machine learning.
El scraping ve amb restriccions reals. Els llocs canvien el seu marcatge, així que els scrapers es trenquen i necessiten manteniment. Els termes de servei, el robots.txt, els límits de taxa i la llei de protecció de dades marquen fronteres sobre què pots prendre i com. El scraping responsable respecta aquests límits, regula les seves peticions i prefereix una API oficial sempre que existeixi. La tècnica és potent, però viu en un espai on les línies legals i ètiques importen tant com el codi.
Construïm scrapers quan les dades que necessita un client són allà fora però tancades en pàgines en lloc d'APIs. Un client necessitava seguir com apareixien els seus productes en una llarga llista de marketplaces, sense un feed del qual estirar. Vam construir un pipeline de scraping sobre un navegador headless, vam resoldre els llocs que renderitzaven tard, vam normalitzar-ho tot en un sol esquema i el vam posar a córrer de manera programada amb alertes quan una font canviava de forma. Les dades van arribar netes i es van mantenir al dia.
Som francs sobre els límits, tant el manteniment tècnic com les línies legals, i dissenyem dins d'ells. Les dades scrapejades rarament van soles. Solen alimentar una aplicació web a mida o una capa d'anàlisi de dades on de debò mouen decisions. Construïdes per ser resilients quan els llocs canvien, regulades per ser bons ciutadans i connectades als sistemes que converteixen pàgines en brut en alguna cosa sobre la qual un client pot actuar.
Les dades que necessites són a la web però no en una API? Anem a treure-les netes.
Una empresa de logística que envia a 190 països va construir alguna cosa per enviar-se a si mateixa.
Convertir una marca en un negoci que funciona.
Mig milió de persones. Una app. Zero caos.















