Plantearse los problemas con grandes limitaciones agudiza el ingenio. En este caso Andrew Chan consiguió rastrear millones de páginas web en 24h simplemente porque se autoimpuso las cifras, inspirado por una idea de Michael Nielsen de 2012: 1.000 millones de páginas web en 24 horas (entonces fueron 250 millones en 40 horas).
La cosa resultó además muy barata: apenas unos 462 dólares, muy lejos de los miles o millones que podrían suponerse para un trabajo de este tipo. Usó un clúster de 12 nodos con una sola instancia de Redis, suficiente para recopilar todo el HTML (nada de imágenes) de la manera más rápida posible. Y además, respetando las directrices del robots.txt, como $god manda.
Por @Alvy — 19 de Julio de 2025
PUBLICIDAD
Oferta para patrocinadores en Microsiervos
Lo más visto recientemente
- Cruce de cables: Por qué los ordenadores siguen teniendo carpetas y papeleras
- Un mapa de las ciudades y pueblos más brillantes y con peor contaminación lumínica de España
- Putt Day: para practicar un poco de minigolf a diario, sin tener que ir al campo
- Al principio, sólo había texto. Luego llegaron los códigos ANSI de colores para darle vida a los terminales
- Primer vuelo del Airbus A350-1000ULR, el que será el avión comercial con más alcance del mundo, capaz de unas 22 horas seguidas en el aire
¿Interesante? No te pierdas…
