Logo de Dallonses

Web scraping

Què és el web scraping?

El web scraping és l'extracció automatitzada de dades de llocs web. Un programa demana una pàgina, llegeix el seu HTML i treu els valors concrets que vols, preus, llistats, ressenyes, dades de contacte, i els desa en una forma estructurada que pots fer servir de debò. És el que fas quan les dades que necessites estan publicades a la web però cap API te les entrega netes.

Els scrapers més simples descarreguen HTML i el parsegen. Molts llocs moderns renderitzen el seu contingut amb JavaScript després de carregar la pàgina, així que un scraper per a aquests fa servir un navegador headless com Playwright o Puppeteer per executar la pàgina igual que ho faria un navegador real abans de llegir-la. Un servei de comparació de preus, per exemple, podria scrapejar desenes de llocs de retailers de manera programada, normalitzar els formats i abocar el resultat en una única base de dades consultable. La sortida sovint es converteix en entrada per a analítica o per entrenar i alimentar models de machine learning.

El scraping ve amb restriccions reals. Els llocs canvien el seu marcatge, així que els scrapers es trenquen i necessiten manteniment. Els termes de servei, el robots.txt, els límits de taxa i la llei de protecció de dades marquen fronteres sobre què pots prendre i com. El scraping responsable respecta aquests límits, regula les seves peticions i prefereix una API oficial sempre que existeixi. La tècnica és potent, però viu en un espai on les línies legals i ètiques importen tant com el codi.

Web scraping a Dallonses

Construïm scrapers quan les dades que necessita un client són allà fora però tancades en pàgines en lloc d'APIs. Un client necessitava seguir com apareixien els seus productes en una llarga llista de marketplaces, sense un feed del qual estirar. Vam construir un pipeline de scraping sobre un navegador headless, vam resoldre els llocs que renderitzaven tard, vam normalitzar-ho tot en un sol esquema i el vam posar a córrer de manera programada amb alertes quan una font canviava de forma. Les dades van arribar netes i es van mantenir al dia.

Som francs sobre els límits, tant el manteniment tècnic com les línies legals, i dissenyem dins d'ells. Les dades scrapejades rarament van soles. Solen alimentar una aplicació web a mida o una capa d'anàlisi de dades on de debò mouen decisions. Construïdes per ser resilients quan els llocs canvien, regulades per ser bons ciutadans i connectades als sistemes que converteixen pàgines en brut en alguna cosa sobre la qual un client pot actuar.

Les dades que necessites són a la web però no en una API? Anem a treure-les netes.

Parlem d'extracció de dades

Serveis relacionats


Preparat per a traballar junts?

Reserva una reunió
Aymón sostenint una revista Tools davant de la seva cara
Ari treballant en un portàtil a l'aire lliure envoltada de plantes
Vista superior d'un escriptori de fusta amb teclat, ratolí i auriculars
Il·lustració dibuixada a mà d'una mà chasquejant els dits
Nico recolzat contra un dispensador d'aigua al costat d'un extintor
Primer pla d'un ordinador obert amb placa de circuit i components sobre un escriptori de fusta
Bernat i Andreu col·laborant en un escriptori amb monitors i un portàtil
Il·lustració dibuixada a mà d'una mà oberta saludant
Aymón sostenint una revista Tools davant de la seva cara
Ari treballant en un portàtil a l'aire lliure envoltada de plantes
Vista superior d'un escriptori de fusta amb teclat, ratolí i auriculars
Il·lustració dibuixada a mà d'una mà chasquejant els dits
Nico recolzat contra un dispensador d'aigua al costat d'un extintor
Primer pla d'un ordinador obert amb placa de circuit i components sobre un escriptori de fusta
Bernat i Andreu col·laborant en un escriptori amb monitors i un portàtil
Il·lustració dibuixada a mà d'una mà oberta saludant