Por @Alvy —
Plantearse los problemas con grandes limitaciones agudiza el ingenio. En este caso Andrew Chan consiguió rastrear 1.000 millones de páginas web en 24h simplemente porque se autoimpuso las cifras, inspirado por una idea de Michael Nielsen de 2012 (entonces fueron 250 millones en 40 horas).
La cosa resultó además muy barata: apenas unos 462 dólares, muy lejos de los miles o millones que podrían suponerse para un trabajo de este tipo. Usó un clúster de 12 nodos con una sola instancia de Redis, suficiente para recopilar todo el HTML (nada de imágenes) de la manera más rápida posible. Y además, respetando las directrices del robots.txt, como $god manda.