Por @Alvy

De récord: rastrear 1.000 millones de páginas en 24 horasPlantearse los problemas con grandes limitaciones agudiza el ingenio. En este caso Andrew Chan consiguió rastrear 1.000 millones de páginas web en 24h simplemente porque se autoimpuso las cifras, inspirado por una idea de Michael Nielsen de 2012 (entonces fueron 250 millones en 40 horas).

La cosa resultó además muy barata: apenas unos 462 dólares, muy lejos de los miles o millones que podrían suponerse para un trabajo de este tipo. Usó un clúster de 12 nodos con una sola instancia de Redis, suficiente para recopilar todo el HTML (nada de imágenes) de la manera más rápida posible. Y además, respetando las directrices del robots.txt, como $god manda.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Wicho

La descripción
Los satélites de camino al espacio – Proyecto Kuiper

Hace unas horas un Falcon 9 de SpaceX colocaba en órbita 24 satélites de la constelación de acceso a Internet Kuiper de Amazon. Sí, es la competencia de Starlink, pero la pela es la pela.

Los satélites han quedado en una órbita de 465 km de altitud. Tras comprobar que funcionan correctamente usarán sus propulsores de efecto Hall para subir hasta los 630 km, la altitud operativa de la más alta de las tres capas de las que constará la constelación. Las otras dos estarán a 590 y 610 kilómetros respectivamente.

Este es el tercer lanzamiento de satélites del Proyecto Kuiper –los dos primeros fueron llevados a cabo en abril y junio con cohetes Atlas V de ULA– con lo que la constelación ya tiene 78 satélites en órbita. 80 si contamos los dos de prueba lanzados en 2023.

En total el Proyecto Kuiper tiene planeado tener algo más de 3.200 satélites en órbita, que si bien servirán para llevar el acceso a Internet de banda ancha a lugares en los que de otra forma no habría cobertura, también servirán para fastidiar un poco más el cielo nocturno al unirse a la fiesta de luces en movimiento de las constelaciones Starlink, OneWeb, y las constelaciones chinas Qianfan y Guowang. A pesar de que se supone que los Kuiper por fuera llevan una capa de material que debería reducir su brillo.

La descripción
El Proyecto Kuiper se ha mostrado extremadamente celoso a la hora de dejar ver imágenes de los satélites, hasta el punto de que no nos consta que haya ninguna circulando. Aunque sabemos que esta será la pinta de las antenas de 400 Mbps y que habrá otras más grandes capaces de dar hasta 1 Gbps – Proyecto Kuiper

En teoría Amazon tiene que tener la mitad en órbita antes de mediados de 2026, y le estaba costando porque no conseguían aumentar el ritmo de producción de satélites, aunque en los últimos tiempos parecen haber solucionado el problema. De todas formas he puesto en teoría porque con la administración amiga del presidente Trump a los mandos tengo mis muy serias dudas de que vayan a tener ningún problema aún si no llegan.

Amazon había comprado a principios de 2022 hasta 83 lanzamientos con distintos proveedores –Arianespace con el Ariane 6, Blue Origin con el New Glenn, y United Launch Alliance (ULA) con el Vulcan Centaur– pero como todos esos cohetes se han retrasado se ha visto obligada a mover algunos lanzamientos al Atlas V y algunos al Falcon 9.

La primera etapa del vehículo de lanzamiento Falcon 9 ha aterrizado con éxito en el espaciopuerto flotante A Shortfall of Gravitas en el que fue su primer lanzamiento. Aunque era el lanzamiento número 90 de SpaceX en lo que va de año.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Wicho

Portada del informeEsta mañana había montado un pollo por una actualización de los términos de servicio de WeTransfer que decía

Por la presente, usted nos concede una licencia perpetua, mundial, no exclusiva, libre de regalías, transferible y sublicenciable para utilizar su Contenido con el fin de operar, desarrollar, comercializar y mejorar el Servicio o las nuevas tecnologías o servicios, incluso para mejorar el rendimiento de los modelos de aprendizaje automático que mejoran nuestro proceso de moderación de contenidos […] Dicha licencia incluye el derecho a reproducir, distribuir, modificar, preparar trabajos derivados, difundir, comunicar en público, mostrar públicamente y ejecutar el Contenido. Usted no tendrá derecho a compensación alguna por el uso que hagamos del Contenido en virtud de las presentes Condiciones.

Que IANAL pero básicamente parecía indicar que WeTransfer podía hacer básicamente lo que le diera la gana con los archivos que pasan por el servicio tanto para entrenar modelos de aprendizaje automático como para generar contenido a partir de ellos.

Lo que, dejando aparte los derechos de cada uno sobre nuestro contenido, es un problemón cuando estás trabajando con alguien bajo un acuerdo de confidencialidad.

Sólo que como suele pasar en estos casos la empresa dijo que en realidad no habíamos entendido nada pero por si acaso dio marcha atrás.

Así que si ahora vas a la página en la que aparecen dice

Por la presente, usted nos concede una licencia libre de regalías para utilizar su Contenido con el fin de operar, desarrollar y mejorar el Servicio, todo ello de conformidad con nuestra Política de privacidad y cookies.

Lo que es menos malo pero aún así tiene lo suyo porque la Política de privacidad y cookies también tiene lo suyo y ahí puede caber casi cualquier uso.

Pero de todos modos hay una solución muy fácil por si en el futuro vuelven a cambiarlo o por si desconfías de esa marcha atrás, que es la de enviar lo que sea que envíes en un archivo comprimido protegido por una contraseña, contraseña que le tienes que dar a la persona a la que vaya destinado el envío por otros medios por si acaso.

Aunque también queda la opción de usar otros servicios similares como los que ha recopilado Laurielle, a saber:

Claro que habría que leerse los términos de uso de esos servicios porque, ya se sabe, cuando algo es gratis en Internet es porque el pago eres tú. O tus datos, que viene a ser lo mismo.

Compartir en Flipboard Publicar
PUBLICIDAD


Por @Alvy

Cloudflare plantea un escenario web en el que las empresas de IA y buscadores paguen por rastrear los contenidos / GPT-4o

La idea es sencilla e interesante de explorar: Cloudflare plantea una opción para que los robots que rastrean la Web para las empresas de IA y los buscadores paguen por acceder a los contenidos generados por empresas y creadores de todo tipo, compensándolos así económicamente.

Actualmente no ven un duro porque los gigantes básicamente se han están quedando con todas las visitas humanas que los editores pueden monetizar; les dan respuestas sin que nadie tenga que «salir» de ChatGPT o el buscador de Google, por poner dos ejemplos. Y rastrearon y entrenaron sin pagar; al fin y al cabo toda la Web era abierta.

La situación actual es un poco la dicotomía de siempre: muchas empresas no quieren cerrar sus contenidos pero tampoco quien «regalarlos». El hecho de que estén o hayan estado abiertos durante décadas es algo a estas alturas inevitable (las IAs se han entrenado con ellos) por lo que esta medida se aplicaría más bien a futuro. Y me da a mi que además no serviría de gran cosa porque formas de saltarse esas barreras hay miles, pero bueno.

Lo que Cloudflare denomina pay per crawl (pago por rastreo) es algo así como que las páginas solicitadas devuelvan el famoso «error 402»:

402 Payment Required

y luego se emplee un sistema de identificación, venta, conciliación y pasarela de pagos por el que las empresas que rastrean, que serían principalmente «las grandes» (Google, OpenAI, Microsoft, Meta…) pagaran por lo que leen, pagos que podrían entonces transferirse en las condiciones pactadas con los creadores de los contenidos (editoriales, bloggers, usuarios finales…)

El sistema parece bastante completo e incluye un montón de variaciones interesantes, tales como límites en los precios, licencias, granularidad, precios dinámicos, consideraciones distintas para búsquedas, entrenamiento de IAs, y demás.

Los interesados en esta idea pueden darse de alta como editores o «rastreadores» a la espera de novedades, porque el sistema está actualmente en versión beta privada, en pruebas.

Cloudflare tiene cierta ventaja al facilitar el acceso –de pago– a gran parte de los contenidos de la web mediante su CDN (red de distribución de contenidos), que es una especie de gran caché de todas las páginas web, al igual que hace con iniciativas como el DNS 1.1.1.1.

Relacionado:

Compartir en Flipboard Publicar
PUBLICIDAD