De récord: rastrear 1.000 millones de páginas web en 24 horas

Por @Alvy — 19 de julio de 2025

De récord: rastrear 1.000 millones de páginas en 24 horas Plantearse los problemas con grandes limitaciones agudiza el ingenio. En este caso Andrew Chan consiguió rastrear millones de páginas web en 24h simplemente porque se autoimpuso las cifras, inspirado por una idea de Michael Nielsen de 2012: 1.000 millones de páginas web en 24 horas (entonces fueron 250 millones en 40 horas).

La cosa resultó además muy barata: apenas unos 462 dólares, muy lejos de los miles o millones que podrían suponerse para un trabajo de este tipo. Usó un clúster de 12 nodos con una sola instancia de Redis, suficiente para recopilar todo el HTML (nada de imágenes) de la manera más rápida posible. Y además, respetando las directrices del robots.txt, como $god manda.