jueves, 6 de mayo de 2021

Interpretar bien las medias

 

La estadística tiene, en ciertos círculos, una mala reputación, la de la disciplina según que "si tu te comes dos pollos y yo ninguno, hemos comido un pollo cada uno". Esto es cierto a un nivel muy superficial, pero, si personas sin escrúpulos pueden usar la estadística para hacer esta afirmación (y peores), la estadística también nos ofrece instrumentos para averiguar que, en el caso del pollo, la situación no es tan idílica.

La afirmación que acabamos de hacer se basa en la media aritmética de un conjunto de valores. La media de un conjunto de números, que llamaremos $x_1,\ldots,x_n$ es simplemente la suma de los valores dividida por el número de valores que tenemos. La media se indica normalmente con $\bar{x}$, y se puede escribir como (*):

\begin{equation} \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n} \sum_{i=1}^n x_i \end{equation}

Supongamos por ejemplo que tenemos un conjunto de 10 personas, que tienen altura, en cm:
pesona altura
1 140
2 195
3 150
4 180
5 160
6 185
7 160
8 180
9 175
10 175
La altura media de estas personas es

\begin{equation} \bar{h} = \frac{1}{10}(140+195+150+180+160+185+160+180+175+175) = \frac{1700}{10} = 170 \end{equation}

Consideremos ahora otro grupo de 10 personas
persona altura
1 170
2 170
3 170
4 170
5 170
6 170
7 170
8 170
9 170
10 170
Es fácil ver que en este caso también la altura media es de $170$ cm pero, en este caso, nos encontramos frente a una situación bastante diferente: mientras en primer caso las alturas eran muy variadas, de 140 a 195 cm y, en efecto, nadie medía 170 cm, ahora tods miden 170 cm. Las diferencia entre las dos situaciones se puede evidenciar por medio de un histograma: en abscisa ponemos todos los posible valores que la altura puede tomar (en este caso, será suficiente poner valores entre 140 y 195 cm) y en ordenada, por cada valor, el número de personas cuya altura tiene ese valor. Los resultados están en la Figura 1. Aquí es evidente que las dos situaciones son muy diferentes, en la primera las alturas están muy "desperdiciadas" alrededor de la media.

Lo que necesitamos ahora es una medida de este efecto, un número que nos diga cuanto "desperdiciados" son los datos alrededor de la media. Esta medida es la varianza. La varianza es definida como la media de los cuadrados de las distancias entre cada elemento y la media. Es decir, si tenemos los elementos $x_1,\ldots,x_n$, y su media es $\bar{x}$, la varianza $\sigma^2$ se define como(**)

\begin{equation} \sigma^2 = \frac{1}{n} \left[ (x_1-\bar{x})^2 + \cdots + (x_n-\bar{x})^2 \right] = \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x})^2 \end{equation}

La varianza nos da la indicación que buscábamos de la dispersión de los valores alrededor de la media. El el primer caso arriba, la varianza es

\begin{equation} \sigma^2 = \frac{1}{10}\left[ (140-170)^2+(195-170)^2+(150-170)^2+ (180-170)^2+(160-170)^2 \\ +(185-170)^2+ (160-170)^2+(180-170)^2+(175-170)^2+ (175-170)^2\right] = 260 \end{equation}

En el segundo caso, todos los factores son $(170-170)^2=0$, por tanto $\sigma^2=0$.

La varianza nos ayuda a resolver el caso del pollo: es cierto que, mediamente, nos comemos un pollo cada uno, pero en el caso "de justicia", en que efectivamente nos comemos un pollo cada uno, la varianza es cero, en el caso en que uno se come dos pollos y el otro ninguno, la varianza es $1$.

La media, como medida estad&iacite;stica, tiene otro problema: es muy sensible a la presencia de pocos valores muy alejados de ella, los llamados outliers. Consideramos un barrio con 10 familias. Nueve de ellas ganan 10.000 Euros al año, la d´cima gana 1.000.000 de Euros. Si queremos dar una valoración global de ese barrio no diríamos que se trata de un barrio rico: casi todo el mundo gana muy poco dinero. Sin embargo, si calculamos el sueldo anual medio en este barrio conseguimos

\begin{equation} \bar{s} = \frac{1}{10} (9 \times 10.000 + 1.000.000) = 109.000 \end{equation}

Un sueldo medio de más de 100.000 Euros al año nos puede hacer pensar que el barrio es rico mientras, en realidad, no lo es (y esto, claramente, puede perjudicar a las 9 familias a la hora de recibir ayudas o de establecer el IBI en sus viviendas). El problema está en esa única familia que gana tanto dinero que sube la media para todos. En este caso la varianza nos avisa que algo está pasando

\begin{equation} \sigma^2 = \frac{1}{10} \left[ 9*(10.000-109.000)^2 + (1.000.000-109.000)^2\right] = 88.209.000.000 \end{equation}

En este caso, una medida más fiable nos la da la mediana. La mediana de este conjunto es simplemente el sueldo tal que la mitad de las familias gana un sueldo menor o igual a la mediana, y la mitad gana un sueldo mayor o igual. En este caso, la mitad de las familias (5 familias) gana 10.000 Euros (o menos, pero esto no nos interesa en este caso) y la mitad gana 10.000 Euros o más. Por tanto el sueldo mediano en el barrio que nos interesa es de 10.000 Euros al año: el barrio no es rico.


(*) El símbolo $\sum$ se usa en matemáticas para indicar una suma de valores. Los habitantes de Madrid lo reconocerán en el símbolo de la comunidad: $\Sigma{M}$, donde $M$ indica los habitantes de Madrid y el símbolo $\Sigma$ indica "la suma de todos", así como recita el lema asociado al logo.

(**) El cuadrado es necesario. Si no lo ponemos, se puede demostrar que los elementos más grandes que la media compensan exactamente los menores que la media, por tanto el resultado sería siempre cero. Es decir, sean cual sean los valores $x_i$ y su media $\bar{x}$, es

\begin{equation} \frac{1}{n} \sum_{i=1}^n (x_i-\bar{x}) = 0 \end{equation}