Por @Alvy — 14 de Diciembre de 2005

¿Se puede «comprar» una copia de la Web completa? Bueno, no te la podrás llevar en disquetes pero sí acceder a ella. Alexa que es una compañía propiedad de Amazon ha anunciado algo interesante. En Announcing the Alexa Web Search Platform Beta cuentan que a partir de ahora ofrecen su gigantesca base de datos de la Web bajo el nombre de Alexa Web Search Platform. Es un poco como el contenido completo de toda la World Wide Web, como lo que tienen Google, Yahoo y otros buscadores, cada cual habiéndolo conseguido rastreando pacientemente millones y millones de páginas durante años. Recopilada con sus robots desde 1996, la base de datos de Alexa puede ser interesante para aquellos interesados en desarrollar servicios de búsqueda o de cualquier otro tipo, sin que para hacerlo tengan que crear robots y dedicar «un ratillo» a leer las 5.000 u 8.000 millones de páginas ya existentes (probablemente muchas más). Alexa Web Search permite acceder a:

  • Tres copias online de la Web, de 100 terabytes cada una
  • Herramientas para buscar en ese contenido y crear subconjuntos de datos
  • Herramientas para compilar y subir código que se pueden procesar en sus servidores sobre el conjunto completo de los datos
  • Ingetración de tus propios datos en el índice
  • Acceder al sistema de búsqueda mediatne los Amazon Web Services

¿Cómo funciona y cuánto cuesta? Om Malik lo ha explicado así:

Amazon's Alexa Commoditizes Search - Cualquiera puede ahora utilizar los servidores de Alexa y su capacidad de procesamiento para trabajar sobre su índice y descubrir cosas, o crear un buscador temático «vertical», por ejemplo. También se pueden crear sobre esos datos nuevos tipos de buscadores o... bueno, cualquier cosa imaginable. ¿Cuánto cuesta? Un dólar por hora de CPU consumida. 1 dólar por gigabyte de almacenamiento. Un dólar por cada 50 gigabyte de datos procesados. Un dólar por cada gigabyte de datos enviados (si subes un nuevo servicio a su plataforma).

(Vía Om Malik on Broadband.)

Compartir en Flipboard  Compartir en Facebook  Tuitear