Por @Alvy — 13 de Septiembre de 2005

Ayer hacia las 22.00 hora de Madrid el servidor de Microsiervos cayó en una especie de agujero negro. Tras las primeras alertas y comprobaciones, nos dimos cuenta de que en realidad todo Media Temple, nuestra empresa de alojamiento, había caído. Cientos de sites fueron afectados, incluyendo algunos tan conocidos como Stop Design, Reinvigorate, StyleGala, Authentic Geek y otros. Pero había más todavía: nos enteramos por MetaFilter que no sólo Media Temple había caído. Toda la ciudad de Los Angeles había caído a raíz de un fallo en una subestación eléctrica.

Al parecer un empleado cortó un cable de alimentación. [Los Angeles Times]
Cuando cosas como estas suceden además de quedarte sin servidor web te quedas sin correo. Como la empresa de hosting también está «caída» no puedes leer en su página web qué ha sucedido, no hay información de «estado de la red». No puedes poner un ticket para pedir soporte técnico ni hacer nada de nada. Sólo puedes llamar por teléfono si las líneas no están saturadas. La alternativa es navegar un poco, leer Google News para investigar qué ha sucedido, usar GMail para lo más urgente y tener paciencia. Esperar es casi la única opción. Yo probé a buscar algo en los «buscadores en tiempo real» como Technorati pero no había ningún post sobre Media Temple. Ahora aparecen algunas referencias incluyendo la que puse en mi «legalmente declarado muerto» blog en inglés en Typepad que sí funcionaba. También dejé una nota en Flickr para que se enteraran mis contactos.

Lo más gracioso del asunto es que se habló mucho estas semanas de la posible destrucción tecnológica causada por el Katrina, y hubo incluso rumores de que Bell South podría tener problemas en las líneas, etc. pero todo eso quedó descartado. Sabiendo que nuestro servidor está en Los Angeles, Wicho bromeaba con que igual la mala suerte se había cebado con EE.UU. y el Big One había arrasado Los Angeles.

Lo irónico del asunto es que Nacho encontró en la caché de Google durante el «apagón» una bonita explicación de cómo está preparado Media Temple para estas emergencias:

Media Temple - Con 4.000 amperios de suministro eléctrico de respaldo y 4 generadores turbo de 1,5 megawatios, nuestras instalaciones son independientes de los servicios de agua y electricidad de la ciudad. Podrían mantenerse operativos de forma autónoma durante 28 días. Estos generadores podrían garantizar el suministro energético a una ciudad de 20.000 personas.
Bonitas palabras publicitarias para conseguir clientes. Pero la realidad ha sido bien distinta: exactamente cuando a las 13.00, hora de Los Angeles, se cortó el suministro, Media Temple mordió el polvo. Desde luego no fue la única empresa, también Dreamhost cayó al completo con otros cientos de servidores alojados allí, y seguramente muchas otras compañías, porque la zona afectada fue bastante amplia y muchas empresas tecnológicas tienen allí su sede y sus data-centers.

Decir que ha sido una situación inusual y un problema generalizado ante el que no había nada que hacer tampoco es una excusa. Es cierto que un problema que afecta a media ciudad y la deja sumida en el caos circulatorio sin semáforos, con gente atrapada en ascensores, etc. es gravísimo y una buena excusa para justificar cualquier fallo. Pero también tenemos el reciente ejemplo de DirectNIC, una empresa con sede en Nueva Orleans que ha resistido la destrucción de la ciudad gracias a un equipo de técnicos atrincherado en la planta 10 de un edificio cercano al Superdome, con un generador diesel. Acampados allí con alimentos y armas han mantenido sus líneas y servidores en funcionamiento pese a estar sin enegría ni agua en una ciudad anegada al 80% por las aguas, tomada por el ejército y amenazada por el caos genealizado.

Lo que hemos aprendido de todo esto es que parece que en el fondo da igual si alojas tus servidores en un sitio caro y de renombre (Media Temple) o en otro barato y humilde (Dreamhost). Todos pueden morder el polvo. Cuando no hay energía para nadie, las ciudades, los servidores y líneas de comunicación sufren y son desconectados de la Red. El eslabon más débil es el que manda. Probablemente Media Temple pueda aguantar esos 28 días de forma autónoma ante inundaciones o terremotos con las excelentes instalaciones que tiene, pero si el siguiente eslabón de la cadena, en este caso sus proveedores de comunicaciones fallan, el problema es exactamente el mismo: desconexión total de los servidores.

La mítica leyenda sobre una Internet modelada de tal forma que es capaz de resistir ataques nucleares por su estructura de red en base a nodos independientes parece que no es tan bonita como siempre hemos querido creer: cualquier imbécil que corte por error el cable que no debe puede tumbar toda una ciudad durante horas.

Actualización: Media Temple ha publicado un FAQ sobre el incidente de suministro eléctrico en Los Angeles. Dicen que aunque a las 12.37 se cortó el suministro y se activó su sofisticado sistema de alimentación ininterrumpida (UPS). PERO una media hora después un «fallo humano» por parte de los trabajadores del Garland Building, el edificio donde se aloja, al «intentar asistir al sistema automático» provocó una caída total del sistema hacia las 13.00 (22.00 hora Madrid). Tuvieron que evacuar a los trabajadores mientras los ingenieros eléctricos del edificio trabajaban en el asunto. Tras dos horas la electricidad fue restaurada. Algunos sistemas de hosting tardaron varias horas más en volver a ser visibles debido a las labores de reinicio y comprobación de ficheros. Dicen haber aprendido mucho de la experiencia ;-)

Otra actualización: 16 horas después del incidente, han mandado un email a los clientes explicando todo el problema.

Compartir en Flipboard  Compartir en Facebook  Tuitear

35 comentarios

#1 — eme

Las redes tecnológicas cada vez son mejor estructuradas para resistir ataques intencionados o fallos locales. Las empresas cada vez invierten más en tecnología (véanse los amperios y megawatios que dicen tener los de MediaTemple), pero todo parece depender de una red "humana" de operarios que falla estrepitosamente. Lo mismo sucedió hace unos veranos en Italia, donde la red "humana" encargada de solucionar el desastre falló.

Hoy muchos de nosotros trabajamos en edificios inteligentes, las empresas tienen de sistemas expertos que actúan en situaciones de crisis, etc. Sin embargo, se pone al mando del sistema a un guardia de seguridad que no sabe a quien llamar cuando el generador del UPS falla.

#2 — Joseluis

Alvy, Internet resiste, es el "nodo Los Angeles" el que ha caido. Si, ya se que puede ser el famoso teorema del nodo gordo, pero si haces abstracción, es un nodo al fin y al cabo.

#3 — XXXL

Es tal cual dice el comentario nro 2, tal vez la red de MT estaba viva.. pero aislada del mundo que es lo mismo. Podria decirse que en vez de estar legalmente muerto, solo haya estado en estado vegetativo xD

#4 — dreamer

Esta claro que el "Plan de Contingencias" y el Plan de Continuidad de Negocio, ultimamente con tanta desgracia, estan en el "candelabro" ;). Creo que es un tema muy importante y que realmente estan casi sin explorar al menos de forma popular.

Ademas no afecta solo a sistemas de información sino a todos los sistemas.

El caso de Directnic (Ole sus ....!) no solo es un éxito por su previsión sino tambien por la motivación y entrega del equipo humano. Creo que esa es la receta y es un caso que hay que desmenuzar para poder aprender de él.

#5 — Alvy

#2 – Si estupendo que resista, pero si miles de sites se han quedado sin conexión y miles de personas sin teléfono, email, etc. durante unas pocas horas (que la verdad, tampoco ha sido para tanto, pero podría haber sido peor) eso es una «resistencia» un poco relativa, como dice #3. Y lo peor, sujeta al fallo humano como eslabón más débil, etc. como explica #1. Hay que poner SkyNet en marcha pero ya.

#6 — Edu

Vamos que al final nadie esta a salvo del Pepe Gotera de turno ;)

#7 — irra

Go directnic go! Esos son mis chicos! :))

#8 — joseluis

#5 La red resiste, yo llegaba a Málaga o Manchuria sin problemas. El que una sección de la red hubiera caido no era el problema, el problema estaba en que era TU sección de la red. Recuerdas el refrán arabe: "¿Cuando es el fin del mundo? El día que yo muera".
La red resiste hasta a los gobiernos que la quieren poner puertas (¿De que valen las puertas si no hay paredes?).

#9 — Iago

Será por mi desconocimiento pero no veo tan complicado tener una réplica (aunque no sea totalmente actualizada) de todos los servidores en otro ciudad, país o región.

A estos niveles no primordiales no hay problema pero a otros esta "réplica" si debería ser necesaria y supongo que ya se aplica.

Siempre podremos confiar en Directnic y sus muchachos :P

#10 — Mike

es normal que mediatemple y dreamhost y powweb y tantos otros hayan caido a la vez porque todos estan en el mismo edificio, el Garland: 1200W, 7th St. en Los Angeles.

#11 — Ruben

He visto esta mañana la noticia y me ha dejado alucinado cuando he oído que ha sido por el fallo de un empleado al cortar un cable.

Vaya pedazo de cable ha tenido que cortar, si tan solo cortando un cable se va al garete toda la luz de los Angeles ... :P

#12 — Wicho

¿Y dónde está Jack Bauer cuando se le necesia, aunque sea sólo para meterle unas «yoyas» al responsable del «fallo humano»?

#13 — otro

Los edificios inteligentes no tienen generadores necesarios para la autonomía energética de sus sistemas durante mucho mas de 2 horas.

El caso es que se dan contingencias "Anidadas"... porque el Sistema de Garland se cayó cuando trataron de asistir al sistema de emergencia.

Te imaginas que si no comes te vuelves tonto ? bueno a mi a veces me pasa.

Lo cierto es que deberian obligar por ley a poner "celulas solares" de apoyo en todos los edificios que den servicios publicos en la red.

Insisto...caminamos por el filo, un fogonazo solar y a freir esparragos todo lo construido por tanto nerd....

Moraleja: 2 nerds pueden construir un imperio como M$ pero un lunes malo de un posible geek puede fastidiar a 200 nerds y a 8000 geeks

#14 — Harm

Alvy, lo que dice de la "leyenda" de la Internet resistente a ataques nucleares, no es un leyenda, es un realidad.

Porque falle la red en Los Angeles, ¿ha dejado de funcionar el resto de la Internet? Pues eso es lo que dice la leyenda, que un ataque nuclear en una zona, no hace que deje de funcionar el resto, al no estar toda la red centralizada en un punto único.

Respecto al tema del mirroring de un site, eso lo llevan usando grandes corporaciones como Microsoft desde hace tiempo, y un evento de este tipo no les afectaria. Pero la gran pega es que es muy caro.

#15 — Alvy

Que no se malinterprete. Lo que yo digo es que esa leyenda tal vez está sobrevalorada. Vamos, que un tío ha cortao un cable y ha dejado a media ciudad sin luz y a cientos y cientos de sitios sin acceso durante seis horas (web, correos, servicios varios, etc). Si la zona de Internet donde estaban Media Temple y las otras empresas hubieran aguantado gracias a otras rutas, etc. genial. Pero otro fallo humano en cascada les ha dejado sin luz aunque aquello parece casi un silo antimisiles. Es como si ellos tuvieran luz pero el fallo humano hiciera que sus 4 ó 5 líneas de comunicación se quedan apagadas (que era lo primero que pensé). Vale que eso no es "toda la internet" pero creo que es algo significativo: un tío corta un cable, media ciudad y parte de Internet al garete. Si en vez de un tío es un nukazo ni me imagino la película. Excepto para casos rarísimos como la gente de DirectNIC que se lo tienen muy currado.

#16 — Boja

Dreamhost cuenta con una página de emergencia donde se informa de lo sucecido en casos similares.

#17 — Alvy

MT ha dicho que han aprendido y que pondrán una.

#18 — Wicho

14 - Alvy, lo que dice de la "leyenda" de la Internet resistente a ataques nucleares, no es un leyenda, es un realidad.

¡Huy lo que ha dicho!

El verdadero origen de Internet.

#19 — Joan

Los de MediaTemple han borrado de su web lo la autonomia de 28 dias, pero aun se puede ver en Google Caché.

Como siempre el error humano puede con la tecnología mas avanzada.

#20 — Erik

Me ha llamado la atención esto:

otro barato y humilde (Dreamhost)

¿En qué te basas para decir que dreamhost es "humilde"?

Tiene 2 años más de presencia en la web que (MT), tienen más pagerank y por lo que leo en los comentarios están en el mismo edificio.

Yo no he usado ninguno de los dos pero precisamente estoy buscando alojamiento y me gustaría saber si tuviste o has sabido de alguna mala experiencia con dreamhost.

#21 — raul2010

Mira este enlace. Todas las opiniones de este año son malas, mientras que en los años anteriores se pueden econtrar algunas buenas.

Con DreamHost, teniendo el sistema de marketing que tienen, es dificil que leas de un webmaster que le va mal, pues si tu contratas a través de su enlace, le descuentan dinero de su factura.

De esta manera, y salvando las distancias, se convierten en algo parecido a una sociedad piramidal, donde todo radica en que el timado debe timar a más gente para cubrir el dinero que ha perdido.

#22 — Alvy

Pues me baso en mi apreciación personal en base a lo que he oído y leído por ahí sobre precios y funcionamiento. Pero no, no lo he probado nunca.

Por ejemplo,

Dreamhost: « We're a small company. We don't accept investment money. We're profitable.»
Media Temple: We are an industry-leading, privately held, profitable web hosting and software application services company.
Eso es humildad por parte de DH precisamente.

O bien,

Dreamhost: We've already grown to over 300 servers, now hosting over 60,000 web sites
Mediatemple: Our server network is located in a 22,000 square foot underground telco grade IDC (Internet Data Center) facility. We serve a wide range of clients ranging from small "mom and pop" businesses to large Fortune 100 companies including Microsoft, Qantas Airways, Intuit, Sony, and more.
Eso es tener un tipo de clientes (DH: más bien pequeños diría yo, porque tocan a 200 por servidor), y otro (que no sabemos cuántos servidores tiene pero se puede imaginar simplemente por las marcas y por el tamaño de la planta del datacenter).

MT nació en 1998, DH en 1997. La diferencia es de sólo un año y no parece que 1997 para DH fuera especialmente relevante porque tenían un sólo Pentium, mientras que en el caso de MT parece como si ya hubieran «nacido grandes».

Y desde luego NO usaría el Pagerank como «criterio de humildad». Tal vez DH tiene PR8 en vez de PR7 porque ofrece un programa de asociados para revendedores de hosting o algo así. El PR o tráfico del sitio web de las empresas de alojamiento no es necesariamente lo más importante. Igual que no lo es el PR de los fabricantes de coches cuando quieras decidirte por comprar uno u otro. Compara los coches, no el PR de quien los fabrica que no tiene nada que ver.

En cualquier caso yo sólo conozco MT, y hasta ahora muy contentos, gente majilla y tal, conocemos a un chaval de un turno que habla español y es muy bueno… Es decir, que bien, excepto por cosillas como el incidente de ayer que a cualquier empresa le puede pasar. Pero vamos, que tampoco voy a ser yo quien les defienda. Ambas empresas probablemente exageran en su publicidad como todas, te venden la moto y son los mejores, y luego se comportan como todas, si llamas no quieren saber nada, todo es «ya lo arreglaremos», «ha sido culpa de un tío que pisó el cable», etc. Ayer como ves ambas estaban caídas, y en MT han tardado 16 horas en mandar por mail una explicación, DH no lo sé. Hoy MT ya está cambiando su web «a escondidas», eliminando las frases donde se auto-alababan por sus sistemas UPS y las instalaciones del edificio. En fin, lo típico de muchas empresas.

Echa un vistazo por ahí y compara características y precios a ver qué tal y elige. Lo bueno es que no es demasiado complicado cambiar de una empresa de hosting a otra hoy en día.

#23 — Cyberfrancis

Ya sabeis, las culpas a Homer Simpson xD, o no os acordáis del capítulo del efecto 2000, que tuvieron que abandonar el planeta xD

#24 — Erik

Muchas gracias por la respuesta, seguiré indagando.

No obstante, por lo poco que he visto, tengo dudas acerda del argumento del Pagerank, ya que son muchos los sitios que he visto con el "In partnership with MT" con enlaces directos.

No se como son los enlaces del programa ese de dreamhost pero vamos, creía que ese tipo de enlaces normalmente no sumaba PR.

#25 — jivanov

Bueno, basado en la pequeña disputa de cual es mejor, MediaTemple o Dreamhost.

MediaTemple habla de tener fortune 100 companies hosting.. y la verdad yo no vi ningun Fortune 100 Company sin website ayer... Ni microsoft, ni Sony, asi que para mi, son solo palabras de mercadeo basadas en algun contrato menor de algun tipo con estas compañias. Dreamhost, por otro lado, no necesita de tanta cosa para adquirir clientes.(humilde?)

Quizá estoy algo bias por tener todo mis hosting en Dreamhost, pero sinceramente lo considero mejor que Mediatemple.

#26 — Alvy

Por cierto una curiosidad que olvidé mencionar es que haciendo honor a la leyenda «estilo El Cid» también conocida como Microsiervos sirve páginas incluso después de muerto ayer durante las horas de caída se sirvieron unas 4.000 ó 5.000 páginas HTML, más o menos, desde los proxies de Telefónica España y Argentina por lo que vi. El efecto es curioso: el server falla, por lo que el proxy entrega la página que ya tenía (HTML estático), donde va el contador de StatCounter que como sí funciona, cuenta la página. Ventajas de la baja tecnología HTML. Realmente curioso.

#27 — Felipe

El apagón sólo fue el cebo de otros grandes acontecimientos que por fortuna no tuvieron éxito en Los ángeles.
Más información en la 5ª temporada de 24 ;)

#28 — Marcelo

Pequeñas Soluciones con RSS

1.- La empresa de hosting podría tener un feed RSS de incidentes o acciones que este ejecutando ( mantenimiento, cambio de equipos, problemas etc)
En este caso si la empresa de hosting hubiera tenido un feed RSS alojado en otro servidor hubiera podido mantener comunicado del estado de sus sistemas,los usuarios agradeceriamos estar informados de lo que pasa en nuestro hosting.

2.- Microsiervos podría tener asi mismo un feed que simplemente indique información con respecto a la infraestructura del blog
En el se podría colocar por ejemplo : nuevas características del blog, algunas bajas por mantenimiento o situaciones como la que de ayer.

Como vemos RSS es una solución simple en el tema de las notificaciones.

#29 — Alvy

Bueno, en (1) estamos de acuerdo y de hecho Media Temple ha dicho que algo de eso va a poner, una página o similar. Es un lío porque tienes que hacerlo en un «sitio distinto» y tal, pero vamos se puede hacer. La tipica pagina /status/ bien necesaria es.

En el caso (2) de Microsiervos, bueno, la verdad es que te diré sinceramente que esos temas técnicos no son lo más importante, de veras una caída de seis horas de un weblog personal no es nada relevante en el universo... Vamos, que esto no es el CERN ni la NASA ni la página de EL PAIS ni un AMAZON que pierda ventas cada segundo, quiero decir... no es nada como para que necesitemos sistemas de avisos y alertas para lectores de ese estilo. Lo más parecido es la página de portada de la categoría General donde sale todo lo de mantenimento y el Feed RSS General que idem. Pero como es obvio si todo se cae está en el mismo sitio, bye bye, y no vamos a tener otro hosting sólo para emergencias, he, ni que fuéramos el transbordador espacial... Pero seguro que para algunas empresas como dices la idae es buena, y el RSS útil (aunque mejor un http://status.xyz.com normal y corriente. Además el RSS con un poco de suerte está en la caché de los proxies y los agregadores como Bloglines de turno (por ej. si ponemos el típico post: «A las 11.00 vamos a cambiar de versión, igual se rompe esto» como ha sido el caso un ratillo.)

Yo a los más allegados ya les avisé por Flickr y SMS y Gmail, pero sobre todo por las risas de ver todo Los Angeles caído ;-)

#30 — Marcelo

Mi intención solamente era mostrar que se pueden tener soluciones simples utilizando RSS, no necesariamente necesitas tener otro hosting para colocar un archivo RSS puedes tenerlo en Blooger o empresas que proveen publicación y alojamiento gratuito de feeds como Nooked, por otro lado se que muchas veces bloglines no actualiza continuamente los feeds ya le ha pasado eso a mi feed en un par de oportunidades.
Es cierto que estas soluciones que indico pueden ser mas para empresas pero viene bien de vez en cuando saber que tenemos alternativas.

#31 — Alvy

Sí, al final incluso servicios gratis para momentos de emergencia van genial, Blogger, etc. A mi el Gmail me vino estupendo ayer por ejemplo.

#32 — Rajkumar

Yo uso un servidor que me cuesta 36$ al año (3$ mes: aprox 2.40 euros mes). No me ha fallado practicamente nunca.
Ya que decimos que no somo Amazon o la Nasa, no entiendo lo de pagar mucho más por una fiabilidad del 99,9999 comparada al 99,9900 por ciento, si es que alguien es capaz de medirla.
Sobre el correo: mi primera norma es no utilizar la de mi servidor ni la del isp.
Ejemplo: Si se tiene el dominio (www.TuApellido.com), se coge un email gratuito en yahoo y tambien un email para filtrar en www.despammed.com. Se le da a todo el mundo la cuenta email en despammed.com que lo reenvia a yahoo o a TuApellido.com. Si falla yahoo, se reenvia al otro servidor y viceversa.

Progapanda: yo uso www.webhostingbuzz.com

#33 — Alvy

La alternativa de tener muchos correos para casos así está bien, pero necesitas también tener a ser posible sincronizadas las agendas o al menos los mails más importantes. Yo tengo mi Gmail, Yahoo Mail, etc. por si las moscas también. Y cuentas en casi todos los servicios de blogs, idem. Más importante puede ser prepararse por si un día hay una caída de tu ISP (y tener configurado un acceso por GPRS por ej.) o por si se caen los DNSs (y usar el truco de navegar por IPs), además de tener en papel todos los teléfonos importantes y otras cosas. Creo que acabaré haciendo un Kit de Supervivencia de Baja Tecnología al respecto, casi todo es gratis y barato! ;-)

#34 — Nacho

ya que estamos: Cómo contruir un generador con una segadora ;-)

#32 agradecemos la sugerencia pero no sólo es cuestión de fiabilidad 99, también es de requerimientos y otros factores. Por ejemplo, un plan tipo el de 36 euros que mencionas se quedaría un poco corto respecto a lo que "come" Microsiervos sólo en transferencia y que este mes va camino de los 90GB ;-)

#35 — JoshWink

Trabajo con DirectNIC desde hace años, no son los mas baratos pero ofrecen un gran servicio y soporte, en español también ;) pero # vaya, no sabía yo eso del motor diesel!!! esos tipos tienen lo que hay que tener!!

Con respecto a lo demás, donde yo trabajo jamás ha pasado algo similar, hay un datacenter con unos 200 servidores y solo en una ocasión ha habido una caida generalizada y fue por cortesía de telefónica, fallos eléctricos haberlos haylos, pero hay unidades SAI y un generador para las emergencias. Seguro que el lugar donde trabajo no es ni una cuarta parte de lo que es Media Temple, por tanto no me termino de creer la historia de que "uno ha cortao un cablecito...". Me suena a fallo humano y de los gordos.