Ante la dificultad para seguir los datos de la epidemia con el propósito de intentar hacer cualquier tipo de proyección que sea de utilidad, ésta es la última actualización que hacemos (con datos del 22 de abril a media noche). Comentamos la situación al lector. Para hacer estas actualizaciones que iniciamos en La Plazuela el 20 de marzo, todos los días a medianoche se han ido recogiendo los datos correspondientes a la jornada de fuentes que hasta ahora se han mostrado solventes. El dato que proporciona el Ministerio de Sanidad cuando comparece por la mañana, que hace disponible en su web en forma de informes diarios y que es el que se suele citar en los medios, no es el definitivo del día ya que distintas autonomías facilitan sus datos por la tarde, como se ha venido explicando en estas actualizaciones. En la historia de esta epidemia, los ciudadanos preocupados con lo que estaba pasando China a partir del lejano, ahora nos lo parece, mes de enero, enseguida aprendimos a dirigirnos a la página oficial de la Comisión de Salud del gobierno del país oriental para consultar los informes que emitían puntualmente a una hora que coincidía aproximadamente con la medianoche española (informes que leíamos gracias a Google Translate ya que, naturalmente, están en chino; al menos las fechas y las cifras no había que traducirlas). Fue bastante decepcionante comprobar que, cuando se empezaron a detectar casos todos los días en España (a partir del 24 de febrero) había que recurrir a fuentes secundarias para informarse de la progresión de la epidemia en nuestro país. Al principio, y esto es una medida de cómo funcionamos, la página web de referencia que usábamos muchos era la del diario deportivo As, que se encargaba de recoger la información salpicada en las noticias aparecidas en la prensa cotidiana para poner una cifra de nuevos casos detectados al final del día. El primer informe del Ministerio, o al menos el primero de los que guardo en el disco duro, es del 26 de febrero, porque ahora mismo en la web oficial el más antiguo es el del 28 (que además es distinto a la copia guardada de cuando salió en su día, con pequeñas diferencias numéricas, no he comprobado los demás informes en este sentido). Los datos del Ministerio ya entonces no recogían la totalidad de casos diarios reportados al final del día, que entonces se contaban solo por decenas, por lo que la fuente para saber la situación de la jornada tenía que seguir siendo obligatoriamente la prensa. Pronto otras páginas se sumaron a recopilar esta información dispersa, especialmente útil fue enseguida la web especializada ConSalud.es, que replicaba las cifras del diario As, a veces con ligeras discrepancias ya que era fácil en aquellos momentos que una noticia de una provincia o localidad concreta pasara desapercibida. Solíamos tomar entonces la cifra más alta de un abanico de fuentes disponibles, asumiendo que las cifras más bajas se deberían a haber pasado por alto algún dato. Pronto se vio que la página de RTVE, en su "Mapa del coronavirus en España", era también una buena fuente que recopilaba, junto con las anteriores, el dato del final del día, que publicaba alrededor de las 23:30 h de cada jornada. Otros medios generalistas (El País, El Mundo, etc.) construyeron enseguida también su propia página de referencia recopilatoria de la información diaria, tomándose entonces cotidianamente el dato más alto de las distintas fuentes disponibles, por las razones expuestas, aunque en las últimas semanas el de RTVE solía bastar.
Desde que estalló la crisis en China ya habían aparecido organismos que recopilaban la información a escala internacional, destacando desde el primer momento los investigadores de la universidad John Hopkins, en Baltimore (Estados Unidos), que pronto constuyeron un mapa global que ha sido citado e imitado por doquier. En él se recogían y se podían descargar las cifras oficiales aportadas por los diferentes gobiernos, hecho por el que sus series no coincidían exactamente con los datos diarios recopilados al final de cada día en España, por las razones expuestas. Enseguida aparecieron otras fuentes globales, entre las que destacan las páginas Worldometers.info y Ourworldindata.org, dos sitios que se dedican habitualmente a recopilar datos estadísticos de todo tipo. Cuando se vio que la serie de datos recogidos de los medios cada día a medianoche coincidía casi exactamente con la mostrada en la web de Worldometers, esta pasó a ser la fuente de referencia. En las últimas semanas se comprobaba día tras día como el dato coincidía en esta web con el de la página de RTVE, que era citada como fuente cuando el propio Worldometer/coronavirus era actualizado cada jornada poco después de pasada la medianoche.
Hasta ahí todo normal. Los datos ya sabíamos (al menos desde el 14 de marzo) que no eran de una calidad apabullante debido a los cambios metodológicos que habían sufrido, especialmente en lo referente a infecciones detectadas, pero se podía trabajar con ellos ya que no había grandes artefactos más allá de la lógica variabilidad estadística, visibles al menos, y se suponía que los errores de estimación podían considerarse más o menos homogéneos a lo largo de las series, especialmente en lo que se refería al número de fallecidos (que ya sabemos desde hace tiempo que están minusvalorados, pero había que suponer que lo estaban de forma aproximadamente homogénea en el conjunto de la serie).
Sin embargo el pasado domingo, día 18, algo llamó la atención. El dato recopilado la medianoche anterior (194416 infectados y 20639 fallecidos, como tengo apuntado en mi hoja de cálculo), tomado de RTVE y Worldometers, había cambiado por la mañana en la primera de esas webs. En concreto se reportaban solo algo más de 100 infectados respecto a día anterior, frente a 4, 5 ó 6000 que se estaban dando en los días anteriores, dato por tanto no creíble, y, lo más llamativo, una cifra de fallecidos inferior a la del día anterior. Es decir, de repente, faltaban fallecidos respecto al dato previo. Un par de días antes la administración sanitaria catalana había informado de que cambiaba el método de cómputo para los fallecidos, pasando a utilizar los datos de las funerarias en lugar de los de los hospitales, lo cuál suponía un incremento notable en la cifra, cosa que en realidad era lo contrario a lo observado. Esto había motivado que el Ministerio emitiese una orden o recomendación para intentar homogeneizar criterios (cosa que obviamente se tenía que haber hecho desde el principio, no como recomendación, sino como obligación, dada la crucial necesidad de datos de calidad para poder gestionar con conocimiento de causa la epidemia). Desde ese momento, en España hay oficialmente varias series de datos distintas, dos o más de dos ya que los datos vienen desde entonces, en realidad ya desde antes, plagados de asteriscos, anotaciones al pie y salvedades que hay que tener en cuenta para sacar algo útil de ellos, cosa que a estas alturas se ha vuelto labor prácticamente imposible. En la web ConSalud.es por ejemplo en este momento (13:00 h, día 23 de abril) se informa de lo siguiente, aspecto, el de las "particularidades regionales", que no es la única fuente de heterogeneidad a estas alturas:
– Según el Ministerio de Sanidad, actualmente hay 213.024 casos de coronavirus en España y 22.157 fallecidos
– Según las cifras de las comunidades autónomas, se elevan a 298.041 casos y 26.864 fallecidos
Cuando todo esto se intenta enlazar con la serie de datos que llevábamos hasta ese momento, la cosa se complica. En Worldometers.info han intentado homogeneizar su serie de datos, corrigiendo hacia atrás las cifras entre los días 16 y 19 de abril (sin especificar el criterio seguido), pero el resultado no es compatible con los datos que traíamos hasta este último cambio, como se muestra en la Tabla 1, donde tenemos en las primeras dos columnas los datos antes de la corrección y en las otras los datos corregidos (en Worldometers):
No es creíble por ejemplo que los días 16 y 17 solo hubiera unos 300 fallecidos en España si vemos que la tendencia que traíamos hasta entonces, de unos 500 fallecidos, resurge el día 18. Si intentamos mantener la serie tal y como la traíamos hasta el día 19 para pasar a añadir los datos siguientes ya corregidos, vemos que nos salen cifras negativas de fallecidos, cosa obviamente imposible.
En definitiva, la serie de datos está rota. Y se ha roto en un momento crucial, que es cuando podríamos detectar la forma concreta de la cola de caída para intentar predecir con precisión el final de la epidemia, por lo que el ajuste razonable de cualquier tipo de modelo de proyección se hace imposible, o al menos no sin un esfuerzo adicional de filtrado y selección de datos que obligaría a mayores complicaciones y sobre todo a la asunción poco objetiva de supuestos. Este hecho ha motivado que distintos organismos e investigadores que estaban intentando modelizar la epidemia hayan desistido de hacerlo ante la poca fiabilidad de los datos. Parece razonable por tanto que el que suscribe, que no pasa de aficionado, deba dejar de hacerlo también: doctores tiene la Iglesia.
Como último ejercicio, sin dar las últimas cifras totales, que se pueden consultar en las distintas fuentes citadas, se ha ajustado el modelo que veníamos usando hasta ahora con los datos de la serie de Worldometers.info por tener alguna referencia final. Adjunto las gráficas, que ya se han explicado en anteriores entregas, para disponer al menos de una última imagen congelada de hasta dónde hemos podido llegar con las predicciones y para comparar con lo que traíamos en las actualizaciones anteriores. En las gráficas, como en anteriores actualizaciones, se pueden consultar las fechas para 95 y 99% de fallecidos totales predichos y para los umbrales de 50 y 10 fallecidos diarios o menos, según el modelo. Se observa un repunte en los últimos datos que hace que el modelo se ajuste mal, como se ve en las gráficas (puntos negros, datos, fuera de la linea roja, que es lo predicho), pero el problema es que, por lo explicado, no sabemos qué caso hay que hacer a ese repunte o, lo que es lo mismo, a las bajadas anteriores que hacen quizá que ahora repunte, por lo tanto es imposible asegurar nada ya.
No me resisto a hacer un último comentario, con el convencimiento de que lo poco positivo que nos puede traer esta crisis es el aprendizaje que obtengamos de ella para el futuro. Una sociedad sin estadísticas fiables es, en primer lugar, una sociedad intrínsecamente desinformada. No estaría mal que se tomase nota de esta idea de una vez. Porque, además, sin asépticas cifras, razonablemente fiables, obtenidas con criterios exclusivamente técnicos, ajenas por tanto a la batallla politiquera habitual de la que muchos ciudadanos ya estamos, sinceramente, bastante hartos, es imposible gestionar con seriedad absolutamente nada.