miércoles, 31 de marzo de 2021

Interpretemos bien las gráficas

La pandemia nos ha transformado todos si no en expertos en epidemiología, por lo menos en personas que buscan toda la información posible sobre el sujeto. Conceptos que hasta 2020 nos eran completamente extraños (Incidencia Acumulada a 14 días, R0, ola epidémica, pico de la curva,...) ahora nos "suenan", incluso si a veces no estamos tan seguros de su significado o de su definición precisa. La epidemiología es un sujeto complejo y supone analizar mucha información. En búsqueda de esta información recurrimos a menudo a gráficas, muchas veces a gráficas publicadas en periódicos y diseñada por personas cuyos conocimientos en análisis de datos no podemos averiguar.

Las gráficas son un muy bien instrumento para conseguir información: nos proporcionan una visión global (gestalt) de los datos que una secuencia de números no nos pueden dar, una que nos hace entender, a primera vista, el comportamiento general de un fenómeno.

Pero hay que tener cuidado: los gráficos pueden ayudar a comprender pero pueden también engañar y darnos una impresión falsa que invalidará todos los razonamientos que hagamos en la base de esa información. Y hay que tener doblemente cuidado con la posibilidad que los gráficos se utilicen intencionalmente para manipular la información, para dar una impresión que no se corresponde a lo que dicen los datos.

Una manera muy común de provocar una impresión incorrecta es el uso de una escala expandida. Consideremos dos grupos de 150 personas en que se puede producir un fenómeno dado. En el primer grupo el fenómeno se produce en 105 personas, mientras en el segundo grupo se produce en 115. La diferencia entre los dos grupos es de 10 personas, un 5% del total. Los dos gráficos de la Figura 1 representan esta situación, pero en dos escalas muy diferente. El primero tiene en el eje de las ordenadas una escala de 0 a 120, y muestra que la diferencia entre los dos grupos es muy pequeña. El segundo expande la escala, y sólo muestra en ordenadas los valores de 100 a 120. En esta gráfica la diferencia entre los dos grupos aparece mucho más grande de lo que es en realidad: nos da una impresión equivocada.

Esto no quiere decir que la escala expandida sea un mal o que no tenga su utilidad. Consideremos el caso en que tenemos 10.000 personas y cada día cierto número de personas hacen algo (para fijar las ideas: contamos cuantas personas toman café sin leche por la mañana---los datos que pongo son completamente inventados y los uso sólo para mostrar las características de los gráficos; no tienen nada que ver con la vida real). El gráfico de la Figura 2 muestra un valor prácticamente constante: de las 10.000 personas, unas 5.000 toman café sin leche por la mañana.

 

Si ahora expandimos la escala y ponemos en ordenadas los valores entre 4.500 y 5.500 conseguimos la gráfica de la Figura 3


Aquí es evidente que los datos tienen una periodicidad semanal: el fin de semana menos personas desayunan con café sin leche (quizás porqué tienen más tiempo para desayunar y e toman un café con leche y una tostada...). Se trata de algo que casi no se notaba en la gráfica de la Figura 2 y que la expansión de la escala ha puesto en evidencia. En este caso la expansión de la escala, lejos de engañarnos, nos ha ayudado a ver algo que con la escala completa no veíamos.

 

 

Otra solución que puede ser útil o engañosa según se usa es el uso de una escala logarítmica. En una gráfica como la que hemos visto ahora, distancias iguales en el dibujo corresponden a intervalos iguales. En una escala logarítmica, intervalos iguales corresponden a intervalos que se multiplican cada vez por 10. Así, por ejemplo, el intervalo entre 1 y 10 tiene el mismo espacio que el intervalo entre 10 y 100 y el entre 100 y 1000: a medida que los números se hacen grandes, el espacio dedicado a cada número se reduce. Esto puede llevar a no evaluar bien las diferencias entre fenómenos. Las tres curvas de la Figura 4 muestran la variación del precio de tres productos (de fantasía) a lo largo del año. La primera impresión que nos da la gráfica es que precio del producto B está a la mitad entre los productos A y C. En realidad, si dibujamos la gráfica en una escala lineal, conseguimos el resultado de la Figura 5

 


                           


El producto B cuesta 10 veces el producto A, y el producto C cuesta 10 veces el producto B. El diagrama nos daba una impresión equivocada. El diagrama también nos da la impresión que el crecimiento está reduciendo su velocidad, mientras el diagrama de la Figura 5 nos muestra que no es así. Por otro lado está claro que algo se está reduciendo, pero… ¿Qué? Para ver esto hay que considerar otro tipo de curva y de fenómeno: los fenómenos exponenciales.

 

Como en el caso anterior, esto no quiere decir que un diagrama logarítmico no sea útil. Un caso pertinente son los datos de una pandemia. Una pandemia, en sus inicios, tiene un comportamiento exponencial, es decir, el número de casos es una función del tiempo del tipo \begin{equation} C(t) = e^{\beta_t t} \end{equation}

donde $\beta_t$ es el parámetro que determina la velocidad de propagación de la epidemia: si $\beta$ es constante, la epidemia se extiende de manera incontrolada, si $\beta$ se reduce con el tiempo, la epidemia está frenando su expansión. El problema es que la función exponencial crece tan rápidamente que puede ser difícil observar este efecto. Consideremos la Figura 6 (en un diagrama lineal): ¿qué hace la exponencial? ¿Está frenando o no?

 


En este diagrama es difícil decirlo. Por otro lado, en un diagrama logarítmico lo que se representa es el logaritmo de la función: 

 

\begin{equation} \log C(t) = \log e^{\beta t} = \beta t \end{equation}

 

Es decir, una exponencial se transforma en una línea recta, con una pendiente constante. Si visualizamos los datos de la Figura 6 en un diagrama logarítmico, observamos el comportamiento de la Figura 7


donde está claro que la epidemia está frenando su crecimiento. Una manera aún más clara de determinar el comportamiento de una curva exponencial es mirar el aumento en porcentaje de un día para otro. Esto, excepto un factor 100, es una aproximación de 

\begin{equation} \frac{1}{C(t)}\frac{d}{dt} C(t) = \frac{\beta e^{\beta t}}{ e^{\beta t}} = \beta \end{equation}

 

En este caso, si la epidemia sigue un andamiento exponencial, veremos una línea horizontal. La Figura 8 muestra este valor para la primera ola de la pandemia en España (curva azul oscuro contínua).

 


Al principio la curva es muy irregular: cuando los casos son pocos, pocas variaciones aleatorias suponen grandes cambios. A medida que el número de casos aumenta, la curva se hace más regular, y se nota un claro descenso: desde finales de Marzo la pandemia empezaba a estar controlada.

 

Las gráficas son un instrumento muy útil en cuanto proporcionan una visión intuitiva, a primera vista, del comportamiento de un fenómeno. Pero, por la misma razón, también se prestan a manipular la información y a dar impresiones equivocadas. Por esto es importante, siempre, fijarse bien en los detalles de cualquier representación gráfica, y juzgar si la representación que se está mirando ofrece una imagen fiel de los datos o no. En caso de duda, mejor fijarse en los números: menos intuitivos, pero que nunca mienten.