No pretendo mostrar modelos complicados que usan algoritmos complejos para predecir el futuro con más o menos variabilidad de acierto.
Creo que puedo enseñar a jugar con datos y explicar, desde la simplicidad, lo que es un modelo de predicción y un análisis de datos.
Aclaro el uso que le voy a dar a dos términos durante este artículo:
- Valor absoluto: aquel que mide unidades
- Valor relativo: aquel que compara unidades contra un total
Si hablo de un crecimiento relativo del 25% en 2 poblaciones, podría afirmar que el crecimiento ha sido el mismo para ambas poblaciones.
Si una de ellas tenía una población de 100 habitantes, y la otra de 1.000.000, estaríamos teniendo un crecimiento absoluto de 25 en la población 1 y de 250.000 en la población 2.
David Hernández, Socio de ACFYD Análisis explica, desde la simplicidad, lo que es un modelo de predicción y un análisis de datos tomando como ejemplo la evolución de la pandemia y datos de incidencia. Clic para tuitearMe voy a tomar la licencia, con ánimo de mostrar, no de analizar, y menos de juzgar, de simplificar la evolución del Covid y jugar con los datos de incidencia.
Estoy escribiendo estas líneas a 24/02/2022 y, por precaución, tomaré datos hasta el 15/02/2022.*
https://cnecovid.isciii.es/covid19/#documentaci%C3%B3n-y-datos
Con la información detallada en el documento: https://cnecovid.isciii.es/covid19/resources/metadata_tecnica_ccaa_prov_res.pdf
Cuando se trabaja con datos, primero hay que pensar qué se quiere obtener de esos datos, y ordenar el análisis para que la información no sea una mera cadena de números sin sentido:
Todo modelo de predicción parte de series históricas para intuir el futuro.
En una pandemia, sin la posibilidad de recurrir a series históricas, se tienen que basar inicialmente en comportamientos similares para, posteriormente, irse ajustando según se vaya disponiendo de datos.
Así, podemos observar la necesidad de un cambio de uso de datos diarios a datos agrupados por cada 14 días para corregir incidencias diarias en la transmisión de los datos.
En el siguiente gráfico podemos ver, en valores absolutos la medición de la incidencia diaria:
Hay picos que desaparecen si trabajamos con datos acumulados a 14 días:
El efecto todavía es mayor si lo que medimos es la variación diaria de casos:
Dónde existen muchas incidencias en la notificación de los datos que complican el seguimiento de la pandemia.
Contra la variación diaria de datos acumulados a 14 días:
Dónde podemos visualizar los periodos de Ola/ Contra-Ola existentes durante esta pandemia, siendo las Olas las que marcan las subidas de la incidencia, y las Contra-Olas los descensos de las mismas.
Hasta ahora hemos estado viendo datos absolutos: ¿qué sucede si tomamos la variación relativa?:
Quitando la primera Ola, dónde los datos podían ser más erráticos, la pandemia es muy parecida y predecible hasta cierto punto.
Es hora de crear un modelo:
Primero analizamos una serie histórica, como puede ser la Ola de diciembre de 2020:
He incluido todas las variables mencionadas hasta el momento:
- N.º de casos acumulados a 14 días
- Variación absoluta diaria de la serie
- Variación relativa diaria de la serie
Luego observar:
1) 28/11/2020, cambia la tendencia en la variación de datos y empieza a crecer, lo que marca el final de la Ola previa
2) 10/12/2020, empiezan a existir incrementos positivos cada vez mayores, marcando el inicio de una nueva Ola.
3) 16/01/2021, las variaciones positivas empiezan a ser menores de forma constante.
4) 19/01/2021, la tendencia a la baja se confirma tras varios días seguidos de descenso.
5) 25/01/2021, 9 días después de observar la tendencia a la baja, se produce la primera variación negativa. Hemos pasado al pico de la Ola. A partir de aquí veremos como las variaciones negativas irán incrementándose hasta dar por concluida definitivamente esta Ola.
Ahora vamos a predecir la Ola de diciembre de 2021:
1) 07/09/2021, cambia la tendencia en la variación de datos y empieza a crecer. Podemos pensar que ha concluido la Ola previa.
2) 16/10/2021, empiezan a existir incrementos positivos cada vez mayores. Tenemos que considerar la posibilidad de una nueva Ola.
3) 29/12/2021, las variaciones positivas empiezan a ser menores de forma constante. Aún es pronto y hay que tener cuidado, pero puede que la cresta de la Ola esté cerca.
4) 04/01/2022, la tendencia a la baja se confirma tras varios días seguidos de descenso. Podemos pensar que el pico de la Ola está cerca.
5) 19/01/2022: 20 días después de observar la tendencia a la baja, se produce la primera variación negativa. Podemos pensar que ahora toca un descenso prolongado de esta Ola.
A 15/02/2022:
Por supuesto sólo estamos jugando,
Para analizar los datos e influir sobre la evolución de la pandemia, tendría que, por ejemplo, segmentar por edad y por lugar de la infección, incluir variables como el clima o la aparición de nuevas cepas en otros países; y ver la variación que la predicción experimenta, para tomar medidas como el cierre de los lugares de ocio, las mascarillas, un plan de vacunación, etc…
Por David Hernández, Socio de ACFYD Análisis, S.L.