Los enlaces que mueren, los archivos que se pierden y la Web que desaparece página a página

Por @Alvy — 8 de septiembre de 2020

Hace unos meses Marcos abrió un hilo de Twitter explicando su sensación de que cada vez desaparecen más y más enlaces y contenido de URLs porque hay páginas que se cierran, cambian de dirección o simplemente se desvanecen. Si Ted Nelson levantara la cabeza y viera el hiperespacio de hipertexto así de roto se daría seguramente de cabezazos contra la pared.

Estuvimos comentando el tema porque no somos pocos los que hemos observado esta decadencia: yo mismo reviso cada día anotaciones antiguas de este blog para buscar efemérides, recordar temas y arreglar enlaces rotos cuando se puede. Y la sensación es desoladora: según mis cálculos más o menos uno de cada cuatro enlaces «principales» está 404 («desaparecido en combate») y lo mismo le ocurre a los vídeos de YouTube que se incrustan desde los canales originales en algunas anotaciones. Rescatarlos no siempre es fácil y requiere su tiempo.

Han desaparecido no sólo muchos blogs, también artículos de periódicos y revistas, páginas de empresas y sitios webs enteros. Los dominios a veces simplemente no funcionan o como mucho dejan un mensaje de fin/cierre/the end; en otros casos están caducados y en la peor de las situaciones, usurpados por sitios webs de spam, SEO de baratijo o incluso estafas. Esto último supone un problema porque muchas páginas de confianza enlazan sin saberlo a esos sitios desde hace años, transmitiéndoles mojo y reputación.

Estos días han aparecido varios artículos más al respecto, así que voy a recomendar algunos de ellos para dejar ver la profundidad del problema y el dolor de cabeza y pesadumbre que supondrá para los futuros «arqueólogos digitales»:

Archiving URLs en Gwern.net, una profusa explicación llena a su vez de enlaces y con un increíble diseño tipográfico «a la antigua usanza».
Why I Link to WayBackMachine Instead of Original Site en Hawaii GenTech, acerca de las razones prácticas para usar Archive.org al enlazar, un sitio más «respetuoso con la autoridad del hipertexto» que las webs dinámicas.
La velocidad de rotura de las URLs, el hilo original de Marcos en Twitter.

Aparte de las soluciones «manuales» consistentes en revisar concienzudamente los enlaces, retirar o redirigir lo que no sirva, añadir notas explicativas o buscar los contenidos en otros sitios (algo relativamente fácil en YouTube, donde la plaga son las continuas denuncias de los gigante de la música, el cine y los medios) otra opción es una de las que explican acerca de WayBackMachine. Allí hay millones y millones de copias de casi todas las páginas webs que existen, y además copias sucesivas a lo largo del tiempo. Se puede incluso comparar el antes y el después.

Este archivo resulta ser una «solución de baja tecnología» a otro de los obstáculos de la Web actual: como hay cada vez más sitios con muros de pago, la Web está más rota que antes: algunas personas y máquinas pueden acceder a un contenido y otras personas y otras máquinas no. Eso sin entrar en esos «jardines vallados sociales» que son Facebook, Twitter y similares, aunque ya hay quien está salvaguardando todo lo que se publica, incluso por temáticas (véase @GobiernoAlerta).

A veces saltarse el muro de esos jardines es tan fácil –aunque mucha gente no lo sepa– como abrir una ventana de navegación anónima (Control+Mayúsculas+N) antes de abrir la URL, o quizá borrar las cookies del navegador. Pero esto no sirve si se está siguiendo un enlace desde otro contenido. La solución rústica pero fiable es enlazar a la copia de Archive.org, que quizá sea un poco «peor» pero probablemente incluya todo el texto, quizá imágenes y mantendrá un formato más o menos legible. Y lo hará para siempre. Véase por ejemplo:

Hubble 30 Years: a Universe Being Born and Dying (NY Times, $)
Hubble 30 Years: a Universe Being Born and Dying (Archive.org)

Manejarse con las versiones de Archive.org es más incómodo y trabajoso, pero son un gran recurso, especialmente para investigadores, archivistas y amantes del coleccionismo digital o la completitud. Aunque el contenido de esas URLs no se actualiza una vez muere, no desparece. Puede ser útil y, no nos engañemos, las páginas de los periódicos normales tampoco es que se actualicen muy a menudo; más bien tienden a cambiar de sitio y desaparecer cada pocos años.

Relacionado: