Limitaciones de los datos del Coronavirus (COVID-19) en México

Limitaciones de los datos del Coronavirus (COVID-19) en México

Apr 19, 2020

Nota: Esta información ya no es relevante desde que la Secretaría de Salud de México publicó los datos en formato abierto el 12 de Abril de 2020. Sin embargo, es bueno documentar la gran cantidad de trabajo que se tenía que hacer para la limpieza y extracción de datos.

Diariamente, a las 19:00 horas, se emite una Conferencia de Prensa, donde se presenta el informe diario sobre la situación del Coronavirus (COVID-19) en México. Dicha conferencia es encabezada comúnmente por Hugo López-Gatell, Subsecretario de Prevención y Promoción de la Salud.

Mientras se lleva a cabo la conferencia, la Secretaría de Salud de México, a través de la Dirección General de Epidemiología, publica documentos actualizados aquí. Dichos documentos tienen tres formatos diferentes: un comunicado técnico diario (ejemplo), una tabla de casos sospechosos al día de corte (ejemplo) y una tabla de casos positivos al día de corte (ejemplo) en formato PDF.

Si bien existe un historial de los comunicados técnicos diarios aquí, las tablas de casos positivos y sospechosos desaparecen por alguna razón 🤷 del sitio oficial después de unos días. Remover los documentos del sitio oficial no es el único problema para analizar los datos, publicarlos en formato PDF hace el proceso de análisis muy difícil. Los videos de Serendipia explican a que me refiero en una excelente manera.

La información de los casos negativos así como de las defunciones solo se publica como un acumulado total a nivel nacional en los comunicados técnicos diarios. Sin embargo, existe un mapa, también publicado por la Secretaría de Salud de México donde se puede visualizar (con colores) la situación de cada estado.

Recopilación de los Datos

A partir del 28 de Marzo empecé este proyecto de extracción y limpieza de datos de las tablas diarias de casos positivos y sospechosos de COVID-19 en México. De igual manera, a partir del día 4 de Abril se obtiene de manera automática los datos oficiales de los casos negativos y defunciones por estado a partir del mapa.

Tablas Diarias de Casos Positivos y Sospechosos

Como ya se mencionó, el primer reto encontrado para recopilar todas los documentos de COVID-19 en México fue que, por algún motivo, algunos de los documentos PDF originales son removidos del sitio de la Secretaría de Salud de México. Se consiguió obtener los documentos faltantes (del ~15 de Marzo al 28 Marzo) a través de fuentes no oficiales (que inteligentemente archivaron los documentos oficiales):

Transformación de las Tablas Diarias de Casos Positivos y Sospechosos

Las tablas publicadas por la Secretaría de Salud de México datos tienen un formato PDF. Eso hace practicamente imposible analizar dichos datos sin primero transformar los archivos a un formato amigable (CSV, XLSX, API).

Para empezar, los documentos PDF publicados son muy pesados (tardan mucho en cargar). Se está utilizando una solución automática para la compresión de los PDF. Anteriormente se comprimían manualmente usando la excelente herramienta en línea SmallPDF . Los archivos que se pueden encontrar en este sitio son al menos 50% mas ligeros que los originalmente publicados.

Nota: Optimizar los archivos no altera el contenido del mismo, simplemente reduce el tamaño, lo cual ayuda al usuario final.

Existen diferentes formas de poder transformar archivos PDF a CSV, por ejemplo herramientas en línea. @Carranco-sga utiliza una elegante solución con el lenguaje de programación Julia. @Covidctdmx presenta otra interesante solución en un script en Bash.

El proceso que se utilizó para este proyecto fue la de primero transformar el PDF a TXT utilizando pdftotext, parte de Poppler, para entonces convertir el TXT a CSV. Anteriormente se convertía a HTML utilizando pdf2htmlEX, para posteriormente parsear dicho HTML a formato CSV. Este proceso era lento y no tan portable.

Adicional a la extracción de información en CSV, se da un valor agregado a los mismos al normalizar de los datos. Para obtener más información acerca de la normalización de los datos que se está empleando, haz click aquí.

Casos Negativos y Defunciones por Estado

Durante la conferencia de prensa diaria la Secretaría de Salud de México provee el número acumulado de casos positivos, negativos, sospechosos y defunciones a nivel nacional. De manera “abierta”, publican las tablas de todos casos positivos y sospechosos como ya se mencionó. Sin embargo, para obtener el número de casos negativos y defunciones desagregados por estado, la única manera que he encontrado hasta hoy (11 de Abril) es a través de este mapa. La información utilizada por el mapa (en formato JSON) es extraída desde el 4 de Abril. Los datos de los casos negativos anteriores al 4 de Abril fueron capturados manualmente. Si encuentras algún error, me puedes contactar por Twitter.

Código Fuente

El código fuente este proceso para puede ser encontrado aquí.