Normalización de los Datos

Normalización de los Datos

Ultima actualización: 2020-04-10.

Como muchas bases de datos existentes, los datos originales en los documentos PDF contienen muchas inconsistencias. Como valor agregado de covid19in.mx, se agregaron columnas adicionales a los archivos CSV proporcionados por este sitio. En dichas columnas se podrá encontrar los datos originales normalizados para análisis más sencillo.

Las columnas con sufijo _Normalizado fueron transformadas de la siguiente manera:

  • El texto estará en mayúsculas.
  • Los acentos fueron removidos.
  • El estado se encontrará en código de 3 letras en formato ISO.
  • La columna sexo tendrá un valor de M para el sexo Masculino, y F para el sexo femenino.
  • Las fechas se encontrarán en formato ISO YYYY-MM-DD.

Información adicional acerca de normalización de columnas en particular:

Especificación

Los archivos CSV contienen las siguientes columnas:

  • Caso: Numero de Caso asignado a cada fila. Notar que este Numero varia día a día.
  • Estado: Información original de la columna Estado.
  • Localidad: Información original de la columna (Si fue publicada).
  • Sexo: Información original de la columna Sexo.
  • Edad: Información original de la columna Edad.
  • Fecha_Sintomas: Información original de la columna Inicio de Fecha de Síntomas.
  • Situacion: Información original de la columna Identificación de COVID-19 por RTPCR en tiempo real.
  • Procedencia: País (o Contacto) del origen de cada caso. Nota: Esta columna fue removida desde el 8 de Abril.
  • Fecha_Llegada: Información original de la columna Fecha de llegada a México. Nota: Esta columna fue removida desde el 6 de Abril.
  • Estado_Normalizado: Código ISO de tres letras de cada estado. Más información de la normalización del estado aquí.
  • Localidad_Normalizado: Columna con los datos de la columna original Localidad en mayúsculas y sin acento.
  • Sexo_Normalizado: El valor sera F o M. Más información de la normalización de la columna sexo en particular aquí.
  • Fecha_Sintomas_Normalizado: Fecha de síntomas en formato ISO YYYY-MM-DD. Más información de la normalización de fechas aquí.
  • Fecha_Sintomas_Corregido: True o False (se planea cambiar a 1/NA) en un futuro próximo. Más información de la normalización de fechas aquí.
  • Situacion_Normalizado: Situación en mayúsculas. Posibles valores CONFIRMADO o SOSPECHOSO.
  • Procedencia_Normalizado: La procedencia normalizada en mayúsculas. Más información de la normalización de Procedencia en particular aquí.
  • Fecha_Llegada_Normalizado": Fecha de llegada en formato ISO YYYY-MM-DD. Más información de la normalización de fechas en particular aquí.

Ejemplo

CasoEstadoLocalidadSexoEdadFecha_SintomasSituacionProcedenciaFecha_LlegadaEstado_NormalizadoLocalidad_NormalizadoSexo_NormalizadoFecha_Sintomas_NormalizadoFecha_Sintomas_CorregidoSituacion_NormalizadoProcedencia_NormalizadoFecha_Llegada_Normalizado
1CIUDAD DE MÉXICOM3522/02/2020confirmadoItalia22/02/2020CMXM2020-02-22FalseCONFIRMADOITALIA2020-02-22
2SINALOA*M4122/02/2020confirmadoItalia21/02/2020SINM2020-02-22FalseCONFIRMADOITALIA2020-02-21
3CIUDAD DE MÉXICOM5923/02/2020confirmadoItalia22/02/2020CMXM2020-02-23FalseCONFIRMADOITALIA2020-02-22
4COAHUILA*F2027/02/2020confirmadoItalia25/02/2020COAF2020-02-27FalseCONFIRMADOITALIA2020-02-25
5CHIAPASF1825/02/2020confirmadoItalia25/02/2020CHPF2020-02-25FalseCONFIRMADOITALIA2020-02-25