Corrección de Bessel

En estadística, la corrección de Bessel — así llamada por su creador, el astrónomo y matemático alemán Friedrich Bessel (1784-1846) — consiste en el uso de (n − 1) en lugar de n en las fórmulas de la varianza muestral y de la desviación típica muestral (siendo n el número de observaciones de una muestra). Corrige el sesgo estadístico en la estimación de la varianza poblacional, y algunos (pero no todos) los sesgos en la estimación de la desviación estándar poblacional.

Conceptos clave: población y muestra

Cuando se quiere estimar la desviación estándar como indicador estadístico de una población a partir de una muestra (lógicamente, porque no se dispone de datos sobre la población completa), es importante distinguir los conceptos de población (un conjunto, generalmente muy amplio de datos, como por ejemplo, "la estatura de todas las alumnas de una determinada edad de un país"), y de muestra (un subconjunto, generalmente pequeño, formado por algunos elementos pertenecientes a la población total, como por ejemplo, "las estaturas de las alumnas de la edad considerada de un determinado colegio"). Los términos poblacional y muestral se asocian a su vez a los conceptos anteriormente citados de población y de muestra.

Bessel se dedicaba a la astronomía, y una parte importante de su trabajo era estimar las órbitas de distintos objetos astronómicos (es decir, necesitaba conocer los parámetros de una población formada por las posiciones que definen la trayectoria de uno de estos objetos astronómicos), generalmente a partir de muy pocas observaciones (una pequeña muestra de posiciones del objeto), que generalmente tenía que tratar estadísticamente para reducir el efecto de los errores asociados a la toma de datos.

La varianza muestral se estima como la media aritmética de los cuadrados de las desviaciones de los valores de la muestra respecto a la media muestral. En este cálculo se usa el factor multiplicador 1/n (correspondiente al concepto de media aritmética)— que como se analiza más adelante, es un estimador sesgado a la baja de la varianza poblacional. Para corregir este efecto, Bessel multiplicaba por n/(n − 1) (equivalentemente, usando 1/(n − 1) en lugar de 1/n en la fórmula del estimador). El costo de esta corrección es que el estimador insesgado es uniformemente mayor que el sesgado. A veces^[1]^[2] el factor n/(n − 1) es llamado Corrección de Bessel.

Un aspecto sutil de esta corrección implica que, mientras que la varianza muestral (usando la corrección de Bessel) es un estimador insesgado de la varianza poblacional, su raíz cuadrada (o sea, la desviación estándar muestral) sigue siendo un estimador sesgado de la desviación estándar poblacional. Ya que la raíz cuadrada es una función cóncava, se produce un sesgo por defecto debido a la desigualdad de Jensen. No hay una fórmula general para evitar el sesgo de la estimación de la desviación estándar poblacional, aunque hay varios factores correctores para distribuciones particulares, como en el caso de la distribución normal. Una aproximación del factor corrector exacto en la distribución normal se da usando el factor (n − 1.5) en la fórmula. El sesgo decae cuadráticamente (en lugar de linealmente, como en la forma que no usa la corrección de Bessel).

Puede entenderse la Corrección de Bessel intuitivamente, a partir de los grados de libertad del vector de residuos

(x_{1}-{\overline {x}},\,\dots ,\,x_{n}-{\overline {x}}),

donde ${\overline {x}}$ es la media muestral. Mientras que hay n muestras independientes, hay solamente n − 1 residuos independientes, que suman 0. Es decir, calculados n − 1 residuos, es inmediato conocer el residuo restante, cuyo valor es la suma de los otros residuos cambiado de signo. Esta circunstancia es debida a la propiedad de la media aritmética que se utiliza en el cálculo de los residuos, que hace que estos siempre sumen 0.

Por último, debe resaltarse que a medida que el número de elementos de las muestras utilizadas es mayor, la diferencia entre las estimaciones corregidas y sin corregir (es decir, la diferencia entre la raíz de 1/n y la raíz de 1/(n-1)), es cada vez más pequeña. Sin embargo, el efecto de la corrección es especialmente relevante para muestras pequeñas (formadas por 10 o menos observaciones), como las que Bessel manejaba habitualmente.

La fuente del sesgo

Supóngase que la media de cierta población es 2050, pero el estadístico no la conoce. Por lo tanto, la estima basado en una pequeña muestra elegida al azar de entre la población:

2051,\quad 2053,\quad 2055,\quad 2050,\quad 2051\,

Se puede calcular la media muestral:

{\frac {1}{5}}\left(2051+2053+2055+2050+2051\right)=2052

Este valor puede servir como un estimador insesgado de la media poblacional, que es desconocida. Ahora, hay que enfrentarse al problema de estimar la varianza poblacional. O sea, de estimar el promedio entre el cuadrado de las desviaciones respecto a 2050. Si el estadístico supiera que la media poblacional es de 2050, entonces podría proceder de la siguiente forma:

{\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2050)^{2}+(2053-2050)^{2}+(2055-2050)^{2}+(2050-2050)^{2}+(2051-2050)^{2}\right]\\=\;&{\frac {36}{5}}=7.2\end{aligned}}

Pero el estimador de la media poblacional del que dispone el estadístico es la media muestral 2052, no 2050. En consecuencia, solo puede calcular:

{\begin{aligned}{}&{\frac {1}{5}}\left[(2051-2052)^{2}+(2053-2052)^{2}+(2055-2052)^{2}+(2050-2052)^{2}+(2051-2052)^{2}\right]\\=\;&{\frac {16}{5}}=3.2\end{aligned}}

La estimación es substancialmente menor. Por lo tanto surge el interrogante: el estimador de la varianza poblacional calculado usando la media muestral, ¿es siempre menor que la verdadera varianza poblacional? La respuesta es que sí, excepto cuando la media muestral sea igual a la media poblacional.

En términos intuitivos, se busca la suma de los cuadrados de las diferencias respecto a la media poblacional, pero el estadístico termina calculando la suma de los cuadrados de las diferencias de los valores de cada observación respecto a la media muestral, que es, como se verá a continuación, el valor que minimiza la suma de las diferencias al cuadrado. Por lo tanto, a menos que la muestra tenga como media un valor igual al de la media poblacional, su estimador siempre subestimará la varianza poblacional.

Para ver cómo se produce esta circunstancia, se usa una identidad simple en álgebra:

(a+b)^{2}=a^{2}+2ab+b^{2}\,

Con $a$ se representa la desviación de una observación individual con respecto a la media muestral, y con $b$ se representa la diferencia entre la media muestral y la media poblacional. Nótese que lo que se ha hecho ha sido simplemente descomponer la desviación respecto a la media poblacional (que es desconocida) en dos componentes: la desviación respecto a la media muestral -que se conoce- y la desviación adicional respecto a la media poblacional -que se desconoce-. Ahora, aplicando esta identidad, se descompone:

{\begin{aligned}{[}\,\underbrace {2053-2050} _{\begin{smallmatrix}{\text{Desviación de}}\\{\text{la media}}\\{\text{poblacional}}\end{smallmatrix}}\,]^{2}&=[\,\overbrace {(\,\underbrace {2053-2052} _{\begin{smallmatrix}{\text{desviación de}}\\{\text{la media muestral}}\end{smallmatrix}}\,)} ^{{\text{Esto es }}a.}+\overbrace {(2052-2050)} ^{{\text{Esto es }}b.}\,]^{2}\end{aligned}}

Operando los cuadrados:

{\begin{aligned}&=\overbrace {(2053-2052)^{2}} ^{{\text{Esto es }}a^{2}.}+\overbrace {2(2053-2052)(2052-2050)} ^{{\text{Esto es }}2ab.}+\overbrace {(2052-2050)^{2}} ^{{\text{Esto es }}b^{2}.}\end{aligned}}

Ahora se aplica esta fórmula desarrollada a las 5 observaciones, y se analiza el patrón resultante:

{\begin{aligned}\overbrace {(2051-2052)^{2}} ^{{\text{Esto es }}a^{2}.}\ +\ \overbrace {2(2051-2052)(2052-2050)} ^{{\text{Esto es }}2ab.}\ +\ \overbrace {(2052-2050)^{2}} ^{{\text{Esto es }}b^{2}.}\\(2053-2052)^{2}\ +\ 2(2053-2052)(2052-2050)\ +\ (2052-2050)^{2}\\(2055-2052)^{2}\ +\ 2(2055-2052)(2052-2050)\ +\ (2052-2050)^{2}\\(2050-2052)^{2}\ +\ 2(2050-2052)(2052-2050)\ +\ (2052-2050)^{2}\\(2051-2052)^{2}\ +\ \underbrace {2(2051-2052)(2052-2050)} _{\begin{smallmatrix}{\text{La suma de los valores en esta}}\\{\text{columna del medio debe ser 0.}}\end{smallmatrix}}\ +\ (2052-2050)^{2}\end{aligned}}

La suma de los valores de la columna del medio debe ser cero, porque la suma de las desviaciones respecto a la media muestral debe ser cero. Dado que la columna del medio se anula, entonces se observa que

La suma de los valores en la primera columna (a²) es la suma de los cuadrados de las diferencias entre los valores de la variable y la media muestral.

La suma de todos los valores de las dos columnas que quedan, (a² y b²) es la suma de los cuadrados de las diferencias entre los valores de la variable y su media poblacional, debido a la forma en que se comenzó con la primera observación, [2053 − 2050]², haciéndose lo mismo con las siguientes cuatro observaciones.

La suma de todas las columnas debe ser mayor que la suma de los valores de la primera columna, ya que todos los valores que no se eliminaron son positivos (excepto cuando la media poblacional y la media muestral coinciden, en cuyo caso todos los números de la última columna serán 0).

Por lo tanto, la suma de los cuadrados de las diferencias respecto a la media poblacional siempre será mayor que la suma de las desviaciones al cuadrado respecto a la media muestral (excepto cuando la media poblacional y la media muestral coincidan, en cuyo caso ambas son iguales). Es por esto que la suma de los cuadrados de las desviaciones respecto a la media muestral resulta ser un estimador sesgado a la baja de la varianza poblacional.

Notación y terminología

Esta corrección es tan común, que los términos "varianza muestral" y "desvío estándar muestral" se refieren frecuentemente al estimador corregido, usando n − 1. Sin embargo se debe ser cauto: algunas calculadoras y paquetes estadísticos pueden dar la opción de usar ambos estimadores, o solamente la versión menos usual. Para mayor precisión, en este artículo se denomina "desviación estándar muestral" a la desviación estándar muestral, que por definición usa n, y está sesgado con respecto a la desviación estándar poblacional.

Este artículo usa los siguientes símbolos y definiciones:

μ es la media poblacional

{\overline {x}}\,

es la media muestral

σ² es la varianza poblacional

s_n² es el estimador sesgado de la varianza (sin la corrección de Bessel)

s² es el estimador insesgado de la varianza poblacional (con la corrección de Bessel)

Las desviaciones estándar se obtienen aplicando la raíz cuadrada a sus varianzas respectivas. Ya que las desviaciones estándar producen sesgo, la terminología "no corregido" o "corregido" se prefiere para los estimadores de la varianza poblacional.

s_n es la desviación estándar muestral no corregida (sin la corrección de Bessel)

s es la desviación estándar muestral corregida (con el estimador de Bessel), que está menos sesgado, pero sigue estando sesgado

Fórmulas

La media muestral se calcula como:

{\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.

La varianza muestral sesgada tiene la fórmula:

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}\left(x_{i}^{2}\right)}{n}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{n^{2}}}.

Y la varianza muestral no sesgada se escribe como:

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}={\frac {\sum _{i=1}^{n}\left(x_{i}^{2}\right)}{n-1}}-{\frac {\left(\sum _{i=1}^{n}x_{i}\right)^{2}}{(n-1)n}}=\left({\frac {n}{n-1}}\right)\,s_{n}^{2}

Pruebas de consistencia

A continuación se incluyen dos pruebas de la consistencia de la corrección de Bessel como factor apropiado para evitar el sesgo de la varianza muestral:

Prueba de consistencia [1]

Como dato de partida, se usa la identidad $E[x^{2}]=\mu ^{2}+\sigma ^{2}$ que se sirve de las definiciones de la desviación estándar y de la esperanza matemática.

Una observación muy útil es que para cualquier distribución, la varianza es igual a la mitad del valor esperado de $(x_{1}-x_{2})^{2}$ cuando $x_{1},x_{2}$ son muestras independientes. Para probar esta observación, basta saber que $E[x_{1}x_{2}]=E[x_{1}]E[x_{2}]$ (lo que se deduce del hecho de que son variables independientes), así como de la linealidad del valor esperado:

E[(x_{1}-x_{2})^{2}]=E[x_{1}^{2}]-E[2x_{1}x_{2}]+E[x_{2}^{2}]=(\sigma ^{2}+\mu ^{2})-2\mu ^{2}+(\sigma ^{2}+\mu ^{2})=2\sigma ^{2}

Entonces, se demuestra que la diferencia cuadrática esperada de dos muestras de la población

x_{1},\ldots ,x_{n}

es igual a

(n-1)/n

multiplicada por la diferencia cuadrática esperada de dos muestras de la distribución original. Para ver esto, se debe tener en cuenta que cuando se selecciona

x_{u}

y

x_{v}

a través de u, v siendo números enteros seleccionados de manera independiente y uniforme de 1 a n, una fracción

n/n^{2}=1/n

de veces se tendrá que u = v, y por lo tanto, la diferencia cuadrática muestral es cero independientemente de la distribución original. En el

1-1/n

restante de ocasiones, el valor de

E[(x_{u}-x_{v})^{2}]

es la diferencia cuadrática esperada entre dos muestras no relacionadas de la distribución original. Por lo tanto, al dividir la diferencia cuadrática esperada de la muestra por

(1-1/n)

, o multiplicar de manera equivalente por

1/(1-1/n)=n/(n-1),

, se obtiene una estimación insesgada de la diferencia cuadrática esperada original.

Prueba de consistencia [2]

Utilizando la identidad para la varianza,

{\begin{aligned}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}&=\sum _{i=1}^{n}\left(x_{i}-{\frac {1}{n}}\sum _{j=1}^{n}x_{j}\right)^{2}\\&=\sum _{i=1}^{n}x_{i}^{2}-n\left({\frac {1}{n}}\sum _{j=1}^{n}x_{j}\right)^{2}\\&=\sum _{i=1}^{n}x_{i}^{2}-n{\overline {x}}^{2}\end{aligned}}

entonces

{\begin{aligned}\operatorname {E} \left(\sum _{i=1}^{n}\left[x_{i}-\mu -\left({\overline {x}}-\mu \right)\right]^{2}\right)&=\operatorname {E} \left(\sum _{i=1}^{n}(x_{i}-\mu )^{2}-n({\overline {x}}-\mu )^{2}\right)\\&=\sum _{i=1}^{n}\operatorname {E} \left((x_{i}-\mu )^{2}\right)-n\operatorname {E} \left(({\overline {x}}-\mu )^{2}\right)\\&=\sum _{i=1}^{n}\operatorname {Var} \left(x_{i}\right)-n\operatorname {Var} \left({\overline {x}}\right)\end{aligned}}

y por definición,

{\begin{aligned}\operatorname {E} (s^{2})&=\operatorname {E} \left(\sum _{i=1}^{n}{\frac {(x_{i}-{\overline {x}})^{2}}{n-1}}\right)\\&={\frac {1}{n-1}}\operatorname {E} \left(\sum _{i=1}^{n}\left[x_{i}-\mu -\left({\overline {x}}-\mu \right)\right]^{2}\right)\\&={\frac {1}{n-1}}\left[\sum _{i=1}^{n}\operatorname {Var} \left(x_{i}\right)-n\operatorname {Var} \left({\overline {x}}\right)\right]\end{aligned}}

Teniendo en cuenta que, dado que x₁, x₂, · · · , x_n son una muestra aleatoria de una distribución con variación σ², se deduce que para cada i = 1, 2, . . . , n:

\operatorname {Var} (x_{i})=\sigma ^{2}

y también

\operatorname {Var} ({\overline {x}})=\sigma ^{2}/n

Esta es una propiedad de la varianza de las variables no correlacionadas, que surge de la fórmula de Bienaymé. El resultado requerido se obtiene sustituyendo estas dos fórmulas:

\operatorname {E} (s^{2})={\frac {1}{n-1}}\left[\sum _{i=1}^{n}\sigma ^{2}-n(\sigma ^{2}/n)\right]={\frac {1}{n-1}}(n\sigma ^{2}-\sigma ^{2})=\sigma ^{2}.\,

Véase también

Referencias

↑ W.J. Reichmann, W.J. (1961) Use and abuse of statistics, Methuen. Reprinted 1964–1970 by Pelican. Appendix 8.
↑ Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entry for "Variance (data)")

Enlaces externos

Weisstein, Eric W. «Bessel's Correction». En Weisstein, Eric W, ed. MathWorld (en inglés). Wolfram Research.

Datos: Q526938

[1] W.J. Reichmann, W.J. (1961) Use and abuse of statistics, Methuen. Reprinted 1964–1970 by Pelican. Appendix 8.

[2] Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP. ISBN 978-0-19-954145-4 (entry for "Variance (data)")

[1]

[2]