Plantearse los problemas con grandes limitaciones agudiza el ingenio. En este caso Andrew Chan consiguió rastrear millones de páginas web en 24h simplemente porque se autoimpuso las cifras, inspirado por una idea de Michael Nielsen de 2012: 1.000 millones de páginas web en 24 horas (entonces fueron 250 millones en 40 horas).
La cosa resultó además muy barata: apenas unos 462 dólares, muy lejos de los miles o millones que podrían suponerse para un trabajo de este tipo. Usó un clúster de 12 nodos con una sola instancia de Redis, suficiente para recopilar todo el HTML (nada de imágenes) de la manera más rápida posible. Y además, respetando las directrices del robots.txt, como $god manda.
Por @Alvy — 19 de Julio de 2025
PUBLICIDAD
Oferta para patrocinadores en Microsiervos
Lo más visto recientemente
- Un avión de United Airlines se lleva por delante una farola y un camión de reparto durante un aterrizaje en Newark
- Criptoacojone en Francia: las cifras de la violencia siguen aumentando
- Buena suerte, pásalo bien, no mueras: una película que es más una advertencia acerca del negro futuro de la IA que sobre viajes en el tiempo
- El 30 de abril (y aledaños) como ensayo general del eclipse de Sol del 12 de agosto
- Falla el tercer lanzamiento de un New Glenn de Blue Origin aún a pesar de que han conseguido reutilizar con éxito la primera etapa
¿Interesante? No te pierdas…


