Los datos relacionados con la pandemia de la Covid-19 son un caos. Pero no sólo en España, en todas partes del mundo

Por @Alvy — 31 de julio de 2020

Covid-19 / Global Cases / Departamento de Ciencia e Ingeniería de Sistemas de la Universidad Johns Hopkins,

Decía un viejo chiste que probablemente algo no funciona cuando tarda menos en llegarte a casa una pizza encargada por teléfono que una ambulancia tras llamar a urgencias.

La pandemia del coronavirus y la Covid-19 ha destapado muchos puntos débiles de los sistemas sanitarios, las infraestructuras y la economía de muchos países. Y aunque suene increíble, a pesar de tener semanas o meses de aviso, casi todos han acabado cometiendo los mismos errores. Además de eso hay algo que afecta a países grandes y pequeños: la gestión de los datos relacionados con la pandemia es un caos.

El caos de datos en versión «Made in Spain»

Las quejas en España han sido muy visibles gracias a todos los expertos y medios que están haciendo el seguimiento. Véanse algunos: @pmarsupia, @datadista, @matthewbennett, @kikollan, @jjmerelo… Meses después de que comenzara este infierno, los datos sobre la pandemia se siguen publicado mal, se siguen publicando tarde y son muchas veces inconsistentes.

Medio año después del comienzo de la pandemia no se conoce ni siquiera el número de fallecidos reales: estaría entre los más de 28.000 «oficiales» que manejan diversos paneles informativos y los más de 43.000 o 44.000 registrados como «exceso de mortalidad» por los informes del Sistema de Monitorización de la Mortalidad diaria (MoMo) y el Instituto Nacional de Estadística (INE). No es que la cifra exacta en sí sea muy importante, pero es como lo de la pizza: probablemente es señal de que algo no funciona.

Las excusas para explicar estos problemas han sido muy variadas:

Datos que proceden de diversas fuentes: hospitales, residencias, funerarias, etcétera. Los recogen los ayuntamientos y autonomías y esas regiones «notifican» entonces al Ministerio de Salud.
Hay diferentes «definiciones» de las circunstancias de cada tipo de fallecimiento, prueba médica o estado de los pacientes según la metodología usada y las regiones.
También hay diferentes formas de notificar: hemos visto formularios en papel, webs, reuniones presenciales…
Cambios de criterio. Recálculo de series históricas. Lagunas en los datos.
Errores de todo tipo en los datos, a veces corregidos días o semanas después.
Falta de datos relevantes como el número de camas en hospitales, UCIs y centros médicos y de cuarentena en general; falta de datos segmentados para su análisis (sexo, edad…), etcétera.
Falta de personal o de tiempo para procesar o notificar los datos. Esto es muy evidente en las «caídas» de los fines de semana y el lunes: los últimos datos se publican los viernes por la mañana y no se actualizan hasta el lunes; las cifras de los martes casi siempre son más altas por esta razón.

A todo esto hay que sumarle que los datos finales suelen publicarse como «notas de prensa» en formato PDF, Word, a veces con gráficos o tablas, pero no siempre. Y no están en un formato abierto y accesible, ni en un sólo repositorio centralizado: cada Comunidad Autónoma tiene su propia web y forma de publicar los datos, los ministerios y el Gobierno tienen otros sitios. Esto complica sobremanera la labor de quienes necesitan analizarlos. Al principio se intentaban corregir, pero quienes analizaban los datos han ido desesperando y abandonando ante el caos y las inconsistencias.

Es extraño que esto suceda en un país ejemplar en el tratamiento de los datos en eventos como las elecciones generales, donde se recogen millones de datos individuales dispersos y se agregan sin mayores problemas a las pocas horas del cierre de los colegios electorales. ¿Acaso una pandemia global no se considera lo suficientemente «importante» como para reorganizar todos los medios disponibles?

Datos, datos, más datos y algunas fuentes

Las fuentes de información y los datos cambian; también los sitios que los procesan y su fiabilidad. Añádanse los intereses particulares de administraciones, analistas, cuestiones políticas y económicas y las razones geoestratégicos de cada país entre otras cuestiones. Mézclequese todo y se obtendrá el «cacao maravillao».

Casos acumulados per capita de fallecimientos por Covid-19 en diversos países desde el comienzo de la pandemia / OurWorldInData.org
Fallecimientos por millón de habitantes (acumulados, lineal) en diversos países desde el comienzo de la pandemia del coronavirus de la Covid-19 / Gráfica: OurWorldInData.

Veamos algunos ejemplos de los que se mencionan a menudo:

• Explorador de Datos de la Pandemia del coronavirus de Our World In Data. Es todavía probablemente la mejor herramienta: permite una visualización personalizada con muchísimas opciones (qué países se quieren analizar, cómo mostrar los datos y en qué periodo) y además tiene todas las comparaciones pertinentes: por totales acumulados, per capita, promedios semanales y quincenales… La primera opción que ofrece es casi una declaración de principios: descargar todos los datos en abierto desde Github, en algunos casos con muchos detalles si están disponibles (rangos de edades, antecedentes de pacientes fumadores, camas de hospital y lavabos por cada 1.000 habitantes, etc.) Pero ojo: su flexibilidad es también su punto débil; haciendo bueno aquello de «si retuerces suficientemente los datos obtendrás las estadísticas que quieras». Si se quieren comparar dos o más países para ver qué ha sucedido, cuál es la situación actual o cómo pueden evolucionar se puede elegir entre mostrar los datos acumulados, los promedios de los últimos días, o los valores per capita (ej. fallecimientos por cada millón de habitantes), ampliar o reducir los rangos de fechas, mostrarlos en lineal o logarítmico, etcétera. Alguno coincidirá con lo que se quiera transmitir, y se han visto circular auténticas burradas en ese sentido… con el «sello» del prestigio de Our World In Data. Así que toda esa información debe ser analizada con mucho cuidado y detalle para que no desinforme más que informe.

• Mapa del Coronavirus Global de la Universidad Johns Jopkins. Fue el primero que surgió allá en enero. Sigue siendo visualmente impactante y bastante abierto sobre la procedencia de sus datos, una decena de fuentes a nivel internacional aunque dicen que algunas «ya no son fiables» incluyendo las de la OMS, el CDC estadounidense y el CDC europeo (?) La lista de fuentes está en Github. A veces se menciona simplemente como «un estudio/datos de la Johns Hopkins» pero en realidad no genera datos propios, sino que agrega los que recoge de esas fuentes. Al ser de código abierto le surgieron muchos clones, algunos con mejores y otros con peores fuentes de datos.

• Panel de Worldometers sobre coronavirus. Fue uno de los primeros que todos descubrimos que era interesante y cómodo. Es básicamente una gran tabla país por país fácil de leer y reordenar con un clic. Es tan cómodo que el 90% de las veces que veas a alguien citar un dato estará sacado de aquí; normalmente se menciona a modo de ránking («el país con más fallecidos», «el que tiene más casos por millón de habitantes») etcétera. Sus datos proceden también de muy variadas fuentes, enviadas por gente indicando de dónde provienen (por ejemplo enlazando a un periódico o a una web oficial; alguien lo revisa antes de publicarlo y se cita en la lista Latest News). Solían ser datos muy fiables al principio; probablemente mucha más gente colaboraba y todo estaba bastante al día, casi en tiempo real según se conocía la información (yo mismo he enviado datos tras ver ruedas de prensa en la televisión y los datos se publicaban a los pocos minutos). Pero desde hace meses esto ya no es así: hay muchos datos congelados y los fines de semana apenas se actualiza. Sumado a los retrasos de las fuentes locales y a que la gente puede haberse aburrido de colaborar, quedan números a veces un poco desactualizados. No obstante tiene su utilidad: el dato de la sección Ayer suele ser bastante preciso a partir de las 8am hora española; lo mismo que los rankings y tasas más o menos correctos (siempre que se exceptúen Andorra y San Marino que tienen cifras atípicas, debidas a unos pocos casos entre muy, muy pocos habitantes). Además muestra muy convenientemente el dato de la población de los países, lo que ayuda a comparar tasas «por habitante» rápidamente.

• Datasets de incidencia de la COVID-19 en España de Datadista. Este es probablemente el mejor conjunto de datos abiertos sobre la situación en España en la actualidad. ¿Proviene de una sección de élite de algún de departamento de inteligencia supersecreto? ¿De algún laboratorio futurista del INE? No. Son un grupo de insurrectos periodistas de datos. Datadista ha hecho básicamente lo que el gobierno central y los autonómicos no han sabido hacer: recopilar, limpiar y republicar en formatos abiertos y estándar todos los datos relevantes tan pronto como estaban disponibles. No se me ocurre ninguna razón lógica para no hacerlo así. En Datadista mencionan al menos siete fuentes como origen de los datos, cuya fiabilidad ya advierten que varía. El principal reto al que se enfrentan es que en esto de los datos sucede como con las fotocopiadoras: si entra basura, sale basura. En otras palabras: si los datos originales están mal, o no se facilitan, no se los pueden inventar. Todo lo más pueden corregirlos a posteriori o publicarlos con advertencias. Pero al menos son más accesibles.

Es increíble que a nadie se le ocurriera aliviar el problema de los datos «fichando» a tiempo completo a un equipo como el de Datadista. Algo así como cuando en las películas buscan a la profesora experta en exobiología o en lenguajes extraños porque han llegado los aliens. Aquí los aliens nos están comiendo y no sabemos ni cuánta gente se han zampado ya.

Un caos de información a nivel global

«Mal de muchos, consuelo de tontos». Lo debió acuñar un visionario.

Para bien o para mal, en España no somos los únicos. Wired publicaba un artículo titulado Los datos sobre la Covid-19 en EEUU son una ’catástrofe de la información’ donde se explica… Más o menos lo mismo que ha sucedido en España. ¡Oh, sorpresa!

Tras la crisis se esconde una dura realidad: los datos de la Covid-19 en los EE.UU., de hecho, casi todos los datos de salud pública, son caóticos: no son una tubería, sino una maraña. Si la nación tuviera un sistema único y continuo para recolectar, almacenar y analizar datos de salud, el Departamento de Salud y el equipo de Coordinación contra el Coronavirus habrían tenido muchos menos problemas desentrañando los datos de la Covid-19 de los Centros de Control de Enfermedades (CDC) estatales (…) La falta de un sistema integral de datos está perjudicando la respuesta del coronavirus (…) Cada condado, ciudad y estado tiene sistemas de datos distintos, que reúnen y publican en un panel de datos, o varios (…) Los datos que presenta cada estado son inconsistentes, incompletos e inaccesibles (…)

Las mismas quejas que en España y Estados Unidos se han recogido en otros países, grandes y pequeños. Por no hablar de que hay continentes enteros como África y gran parte de Asia y Sudamérica donde casi todo es una gran incógnita. Al menos tienen la excusa de ser países en desarrollo y con problemas vitales más acuciantes que las webs con ficheros de datos en CSV.

Es un hecho que problemas como el «efecto fin de semana» se observan a nivel mundial en las cifras de los paneles cada día: ya sea Estados Unidos, Suecia o España, los datos (fallecimientos, contagios, etcétera) se «congelan» los viernes, o descienden notablemente el fin de semana y repuntan los lunes y martes. Pero sabemos que al virus le da igual que sea viernes, sábado, domingo o lunes: afecta igual; quita la vida igual. Simplemente es que quienes procesan los datos no trabajan, no los actualizan o no los comunican.

No deja de ser paradójico que en un mundo donde empresas como Google, Amazon, Apple y Facebook garantizan la información en tiempo real sobre cientos de sistemas que agregan información como descargas, ventas de productos, impactos publicitarios o comunicaciones con vídeo y hasta realidad virtual, unos pocas tablas de números tarden tanto en viajar, agregarse y visualizarse adecuadamente. Sobre todo cuando tantas vidas y tantas economías dependen de ello. ¿No podrían contratar más gente para los fines de semana? ¿No debería ser la OMS la entidad que coordinara todo esto por el bien mundial?

Intereses científicos, políticos, económicos, estratégicos y geoestratégicos

A nadie se escapa que en medio del drama de toda esta situación confluyen muchos intereses diferentes no siempre compatibles con la claridad de información:

La ciencia necesita los datos más precisos posibles sobre lo que está sucediendo: de eso dependen sus modelos matemáticos, los patrones que pueden reconocer y las previsiones que pueden hacer. Sin esos datos puede no haber curas, ni vacunas, ni futuro. Los que investigan no sólo están en hospitales; también en laboratorios privados. Y no sólo en España, en todas partes del globo. Quién sabe si la solución al problema se está pasando por alto porque en algún lugar del planeta no haya información suficiente y de calidad sobre el problema y los casos, síntomas o situaciones que ya están en los archivos.
El gobierno y los políticos pueden tener su propia agenda. Idealmente deberían facilitar a la ciudadanía la misma información que los científicos, pero en ocasiones puede ser contraproducente: puede causar pánicos, desesperanza o daños económicos; esto lleva a modular o embellecer los datos según convenga; no digo «mentir» porque se malinterpreta, pero ahí lo dejo. O a la inversa, puede interesar afear los datos por intereses políticos: para atacar a otro partido, para compararse con países similares, para quejarse de la gestión, para practicar el acoso y derribo o porque estás jodidamente zumbado como los antivacunas, anticovid y antichips como los que creen que nos van a implantar chips las fuerzas del mal y el anticristo. Curiosamente toda esta «modulación de datos» puede hacerse sin retorcer demasiado los datos ni falsificarlos de forma muy obvia. Lo hemos visto hacer ya.
Desde el punto de vista económico y estratégico, una de las más importantes derivadas de la pandemia, los datos son también sumamente relevantes. Pueden servir para atraer turistas, inversores o ayudas externas; cambiar una fase de desescalada de fecha unas semanas, abrir o cerrar aeropuertos u hoteles, admitir el turismo o no hacerlo; pueden suponer millones y millones de euros y buena parte del producto interior bruto de un país. Casi nadie admitirá que eso tiene un equivalente en vidas humanas en caso de rebrotes porque «queda mal», pero es así. De modo que según los criterios económicos y morales de cada uno se elegirá la versión que más convenga: «es por salud» vs. «es por la economía», una dicotomía falsa que se ha analizado poco (excepto quizá en Estados Unidos, donde es más habitual). Para colmo, de momento en España no tenemos ni una cosa ni la otra.
Geoestratégicamente el mundo es como es. Desde el primer momento lo hemos visto: países donde se ha gestionado la pandemia con cierto oscurantismo (Rusia, China…) y otros que han sido más «honestos» (Dinamarca, Noruega, Alemania…) Casi todos los datos publicados se han cuestionado; siempre se pueden comparar las cifras oficiales de fallecimientos de cada país con las de enterramientos/incineraciones de sus registros civiles y calcular así los «excesos de muertes» como en los informes MoMo. En Wuhan (China) saltó la liebre por el tema de el excesivo número de urnas para las cenizas de los fallecidos y de las funerarias trabajando a destajo 24 horas al día; la cifra variaba de los 4.000 fallecimientos «oficiales» ~~a unos 40.000 no reconocidos~~ [ver notas]. Entre los países con más dudas sobre la realidad de sus datos oficiales están España, Reino Unido, Perú, Bélgica, Italia, Países Bajos, Brasil, Suecia e incluso Estados Unidos y Francia. La geoestrategia puede querer hacer descender la cifras reales por muchas razones; nadie quiere tener la peor imagen, ser el país más «infectado» o perder el turismo, su prestigio o su capacidad de negociación internacional. Así que eso también puede llevar a la modulación o –directamente– a la ocultación de datos negativos. Y si te pillan con el carrito del helado, siempre puedes decir que es que tus definiciones y criterios son «distintos» y que tus cuentas «las haces a tu manera». Quizá el mejor ejemplo sea Chile, que en un momento dato contabilizaba a sus muertos como «recuperados» porque «eran personas que habían dejado de ser contagiantes» [ver notas]. Uno de los mayores momentos WTF de la pandemia y sus datos.

No deja de ser paradójico que en un mundo en el que cada día valoramos más los datos y la información fiable, donde se lucha contra las «fake news» y la desinformación, donde los datos se compran y venden al mejor postor por su alto valor, no seamos capaces de procesarlos y usarlos contra el mayor enemigo de las últimas décadas. En vez de sistemas funcionales y fiables que estén continuamente procesándolos para orientarnos y ayudarnos tenemos información incompleta y/o sesgada. Podemos recibir en directo imágenes de las sondas marcianas desde doscientos millones de kilómetros de distancia, pero parece imposible saber qué sucede en los hospitales y centros de salud del país con los contagios y los fallecimientos.

Actualización (2 de agosto de 2020) – Un par de matizaciones aportadas por lectores que leyeron el artículo:

Juan nos recordó que «Los 40.000 muertos de Wuhan son sólo una cifra especulativa: en el el ‘caso de las urnas’ sólo comprobaron una funeraria (donde más gente falleció en Wuhan) y de ahí extrapolan al resto del país».
Ricardo nos dice que «en Chile nunca se contaron los fallecidos como ‘recuperados’. La información proviene de un error puntual del ministro en un informe diario, donde detallaba casos diarios, acumulados, activos, recuperados y fallecidos.»

En ambos casos tienen razón. Quizá haber citado estos casos puntuales como ejemplo de las dudas que hay sobre ciertos datos ha sido la mejor elección, al no tratarse de ejemplos especialmente significativos sino más bien especulativos o errores humanos. Se podrían encontrar otros similares, pero incluso dejando totalmente aparte estos dos casos hay ciertas dudas sobre los recuentos en China y otros países, incluyendo España, principalmente por la metodología.