Diferencia entre revisiones de «Frecuencia acumulada»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
ConPermiso (discusión · contribs.)
m Revertidos los cambios de ConPermiso a la última edición de
 
Línea 1: Línea 1:
#REDIRECT [[Frecuencia estadística]]
La '''frecuencia acumulada''' o ''frecuencia acumulativa'' es la [[Frecuencia estadística|frecuencia]] de ocurrencia de valores de un [[fenómeno]] menores que un ''valor de referencia''. El [[fenómeno]] puede ser un [[Variable estadística|variable aleatoria]] que varia en el tiempo o en el espacio. <br />
La frecuencia acumulada se llama también ''frecuencia de no-excedencia''. <br />
El análisis de la frecuencia acumulada se hace con el propósito de obtener una idea de cuantas veces ocurriría un cierto fenómeno <ref> Benson, M.A. 1960. Caracteristics of frequency curves based on a theoretical 1000 year record. In: T.Dalrymple (ed.), Flood frequency analysis. U.S. Geological Survey Water Supply paper 1543-A, pp. 51-71 </ref> , lo que puede ser instrumental en describir o explicar una situación en la cual el fenómeno juega un papel importante, o en planificar intervenciones.
[[Archivo:GohanaCum.JPG|thumb|250px|Ilustración gráfica de la distribución de frecuencia acumulada, la distribución adaptada de probabilidad acumulada, y los intervalos de confianza.]]

==Principios==
===Definición===
El análisis de la frecuencia acumulada se aplica a una colección de datos observados de un fenómeno (''X'') <ref name="Ritz"> ''Frequency and Regression Analysis''. Chapter 6 in: H.P.Ritzema (ed., 1994), ''Drainage Principles and Applications'', Publ. 16, pp. 175-224, International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands. ISBN 90 70754 3 39 . Bajar de la página : [http://www.waterlog.info/articles.htm] , bajo no. 12, o directamente como PDF : [http://www.waterlog.info/pdf/freqtxt.pdf] </ref> . La colección puede ser en dependencia del tiempo (por ejemplo la lluvia medida en un sitio) o del espacio (por ejemplo cosechas de cultivos en el área), o puede tener otra dependencia.

La ''frecuencia acumulada'' (''Fc'') es la [[frecuencia estadística]] con que el valor de un [[variable aleatoria]] (''X'') es menor que o igual a un valor de referencia (''Xr''). <br />
La ''frecuencia acumulativa relativa'' se se deja escribir como ''Fc''(''X''<''Xr''), y se calcula de:
*<big>''Fc''(''X''<''Xr'')&nbsp;=&nbsp;''M''<sub>''X''</sub> / ''N''</big>
donde ''M''<sub>X</sub> es el número de datos ''X'' con un valor menor que o igual a ''Xr'', y ''N'' es número total de los datos. <br />
La expresión previa se puede anotar en breve como:
*<big>''Fc''&nbsp;=&nbsp;''M'' / ''N''</big>
Cuando ''Xr''=''Xmin'', donde ''Xmin'' es el valor mínimo observado, se ve que ''Fc''=1/''N'', porque ''M''=1. Por otro lado, cuando ''Xr''=''Xmax'', donde ''Xmax'' es el valor máximo observado, se ve que ''Fc''=1, porque ''M''=''N''.

===Ajuste===
Para crear la posibilidad que ''X''>''Xmax'', se puede emplear un denominador ''N''+1 en vez de ''N'':
*<big>''Fc''&nbsp;=&nbsp;''M'' / (''N''+1)</big>
[[Archivo:CumulativeFrequency.PNG|thumb|250px|Ilustración gráfica de la frecuencia acumulada de datos ordenados por magnitud.]]
Existen otras propuestas para el denominador ''N+1'', pero éstas a la vez son consideradas incorrectas. <ref> Makkonen, L. 2008. Communications in Statistics - Theory and Methods, 37: 460-467 </ref>

===Ordenación por magnitud===
Una manerea alternativa para calcular ''Fc'' es mediante ordenación de los datos por magnitud.
Cuando los datos ''X'' están ordenados por magnitud en una ''serie ascendente'', primero el mínimo y al fin el máximo, y ''Ra'' es el número de rango de ''X'' en la serie, la frecuencia acumulada relativa se escribe como:
*<big>''Fc''&nbsp;=&nbsp;''Ra''/(''N''+1)</big>
Por otro lado, cuando los datos están ordenados en una secuencia ''descendente'', primero el máximo y finalmente el mínimo, y ''Rd'' es el número de rango, la expresión de frecuencia acumulada relativa es:
*<big>''Fc''&nbsp;=&nbsp;1&nbsp;&minus;&nbsp;''Rd''/(''N''+1)</big>


==Pronóstico==
===Incertitud===
Se puede cuestionar si la distribución de frecuencias acumuladas es utilizable para predicciones. Por ejemplo, es que se puede predecir cuantas veces una cierta descarga de un río será sobrepasado en los años 2000 a 2050, dado un serie de descargas medidas durante los años 1950 a 2000. La respuesta es: ''sí'', a condición que las circunstancias ambientales del río se se cambiarán. Cuando las condiciones ambientales se alteran (por ejemplo por medidas de [[ingeniería civil]], [[Ingeniería hidráulica]], o por modificación del comportamiento de la [[lluvia]] debido a un [[cambio climático]], el pronóstico sera sujeto de un ''error sistemático''. Aún, cuando no hayan alteraciones sistemáticas, el pronóstico puede ser sujeto a un ''error [[Azar|al azar]]'', porque las descargas obeservadas durante 1950 a 2000 por casualidad podrían haber sido mayores o menores que normal, y al contrario las descargas de 2000 a 2050 por casualidad podrán ser menores o mayores de lo normal.

===Intervalos de confianza===
[[Archivo:Binomial distribution pmf.svg|thumb|250px|La distribución binomial es simétrica solamente cuando p = 0.5]]
Para determinar la confianza de predicciones a base de una distribución de frecuencias acumuladas observadas se pueden construir [[Intervalo de confianza|intervalos de confianza]] que indican el rango probable del error al azar. En el caso de frecuencia acumulada hay solo dos posibilidades: un valor de referencia ''X'' es excedido o no. La suma de los dos siempre es 1 o 100%. Por ello la [[distribución binomial]] se deja utilizar para estimar el intervalo de confianza.

En la distribución binomial, la [[desviación estándar]] ''Sd'' esta dado como:
*<big>''Sd''&nbsp;=√{''P''(1&minus;''P'')/''N''}</big>
donde ''P'' es la [[probabilidad]] de ocurencia, y ''N'' es el número de datos. Se ve que la desviación estándar disminuye cuando mas grande el número de observaciones ''N''. Confiando en la hipótesis que el valor de ''Fc'' es una buena [[estimador]] de ''P'' (lo que a su vez podría ser causa de error), el valor de ''Sd'' se deja calcular como:
*<big>''Sd''&nbsp;=&nbsp;√{''Fc''(1&minus;''Fc'')/''N''}</big>

La determinación del [[intervalo de confianza]] de ''Fc'' emplea la [[prueba t de Student]] utilizando la [[distribución t de Student]]. El valor de ''t'' depende del numero de datos y el [[nivel de confianza]] del intervalo de confianza. El límite inferior (''Li'') y el límite superior (''Ls'') del intervalo de confianza de ''Fc'' bajo la condición que éste tenga una distribución simétrica se calculan como:
*<big>''Li''&nbsp; =&nbsp;''Fc''&nbsp;&minus;&nbsp;''t . Sd''</big>
*<big>''Ls''&nbsp;=&nbsp;''Fc''&nbsp;+&nbsp;''t . Sd''</big>

No obstante, aunque la distribución binomial es simétrica alrededor del medio (cuando ''Fc'' es 0.5), ella se vuelve mas y mas ladeado cuando ''Fc'' se aproxima a 0 o 1. Por ello se puede usar ''Fc'' y 1-''Fc'' como ''factores de ponderación'' en la asignación de ''t.Sd'' a ''Li'' y ''Ls'' :
*<big>''Li''&nbsp; =&nbsp;''Fc''&nbsp;&minus;&nbsp;2 ''Fc . t . Sd''</big>
*<big>''Ls''&nbsp;=&nbsp;''Fc''&nbsp;+&nbsp;2 (1&minus;''Fc'')'' . t . Sd''</big>
y se ve que cuando ''Fc'' es 0.5 estas expresiones son equivalentes a las dos previas.
{| class="wikitable"
| '''Ejemplo''' <br /> ''N'' = 25, ''Fc'' = 0.8, ''T'' = 5, ''Sd'' = 0.08, nivel de confianza es 90%, ''t'' = 1.71, ''Li'' = 0.70, ''Ls'' = 0.85 <br /> Entonces se concluye con 90% de confianza que 0.70 < ''Fc'' < 0.85 <br /> Todavía existe 10% de probabilidad que ''Fc'' < 0.70, o ''Fc'' > 0.85
|}

==Adaptación a distribuciones de probabilidad==
[[Archivo:Normal distribution cdf.png|thumb|250px|Diferentes distribuciones normales, cumulativas, de probabilidad con sus parámetros]]
A fin de formular la distribución de frecuencia acumulativa como una ecuación matemática evitando la presentación de una tabla, se adapta esta distribución a una [[distribución de probabilidad]] acumulativa. <ref name="Ritz" /> <br />
La ecuación también ayuda en la [[interpolación]] y la [[extrapolación]].
Sin embargo, la extrapolación de una distribución de frecuencia puede ser un fuente de errores. Un posible error es que la distribución de frecuencia no sigue la distribución de probabilidad afuera del rango observado. <br />
Cualquier ecuación que da el valor 1 cuando [[Integración|integrado]] de un límite inferior a un límite superior, que corresponden con los datos, puede servir como distribución de probabilidad. <br />
Existen dos procedimientos para la acomodación de distribuciones de probabilidad <ref name="Ritz" /> :
*el método [[Parámetro estadístico|paramétrico]], determinando los parámetros como medio y desviación estándar de los datos ''X''
*el método de [[Regresión lineal|regresión]], linearizando la distribución de probabilidad por una transformación y determinando los parámetros con una regresión lineal de ''Fc'' transformado (''Fc'' se obtiene del metodo de ordenación por magnitud) sobre los datos ''X'' transformados
Aplicación de ambos métodos empleando por ejemplo la:
*[[distribución normal]]
*[[distribución log-normal]]
*[[distribución exponencial]]
*[[distribución de Gumbel]]
normalmente no produce resultados que difieren [[Significatividad estadística|significativamente]]. Ademas, diferentes distribuciones de probabilidad pueden arrojar resultados similares con diferencias relativamente pequeñas en comparación con el ancho del intervalo de confianza. Entonces no siempre es fácil decidir cual distribución rinde los mejores resultados.

==Histogramas==
[[Archivo:Gohana-Interval.jpg|thumb|250px|[[Histograma]] derivada de la distribucion adaptada de probabilidad acumulada]]
Los datos observados se dejan ordenar en clases o grupos. Cada grupo tiene un límite inferior y un límite superior. Cuando un grupo contiene ''m'' datos y el número total de datos es ''N'', la [[frecuencia estadística]] del grupo (''Fg'') se determina como:
* <big>''Fg''&nbsp;=&nbsp;''m''/''N'' </big>
o en porcentaje:
* <big> ''Fg''&nbsp;(%)=&nbsp;100''m''/''N'' </big>
La presentación de todas las clases en un gráfico da una ''distribución de frecuencias'' o [[histograma]]. Histogramas que originan de la misma colección de datos y que tienen otros límites de clases son diferentes. <br />
Las histogramas se pueden derivar también de la distribución adaptada de probabilidad:
*<big>''Fg<sub>f</sub>'' = ''Fc<sub>f</sub>'' (''X''<''Cs'') - ''Fc<sub>f</sub>'' (''X''<''Ci'') </big>
donde la subscripción ''f'' indica la derivación de la distribución de probabilidad adaptada, mientras ''Cs'' es el límite superior y ''Ci'' el límite inferior de la clase. <br />Puede haber una diferencia entre ''Fg<sub>f</sub>'' y ''Fg'' (véase la figura).

==Período de retorno==
[[Archivo:Normal-Return.jpg|thumb|250px|La curva de períodos de retorno con intervalos de confianza. La curva crece exponencialmente.]]
La frecuencia acumulada ''Fc'' se puede llamar también ''frecuencia de no-excedencia''. La ''frecuencia de excedencia'' se define como:
*<big>''Fe''&nbsp;=&nbsp;1&nbsp;&minus;&nbsp;''Fc''</big>
El [[período de retorno]] (''período de recurrencia'', ''período de repetición'') se defina como:
*<big>''T''&nbsp;=&nbsp;1/''Fe'' </big>
indicando el numero esperado de observaciones se tiene que hacer antes de encontrar de nuevo un valor del variable estudiado mayor que el valor usado en la determinacion de ''T''. <br />
El límite superior de confianza (''Ts'') y el límite inferior (''Ti'') del período de retorno ''T'' son respectivamente:
*<big>''Ts''= 1/(1&minus;''Ls'') </big>
*<big>''Ti''= 1/(1&minus;''Li'') </big>
Para valores extremos del variable estudiado, ''Ls'' se aproxima a 1 y un cambio pequeño de ''Ls'' da lugar a un cambio grande de ''Ts''. Por ello, el período de retorno estimado para eventos extremos está sujeto a un error [[azar|al azar]] grande. Ademas, los intervalos de confianza calculados son válidos a largo plazo. Para pronósticos a corto plazo los intervalos pueden ser mas amplios. Junto con la suguridad limitada (menos de 100%) usada en la prueba-t, esto explica por ejemplo porque una lluvia con período de recurrencia de 100 años podría manifestarse 2 veces en 10 años.

La noción estricta de ''período de retorno'' solo tiene significado cuando se trata de un fenómeno que depende del tiempo. En este caso el período de retorno corresponde al tiempo de espera hasta que el evento de excedencia ocurre de nuevo. La unidad de tiempo iguala a la unidad de tiempo de las mediciones del fenómeno. Por ejemplo, para lluvias diarias el período se mide en días, y para lluvias anuales en años.

==Software==
[[Archivo:SanLor.jpg|thumb|250px|Distribución de frecuencia acumulada con discontinuidad]]
Facilitando la adaptación a distribuciones de probabilidad se desarrolló el [[programa de computadora]] ''CumFreq'' <ref> ''Cumfreq, a program for cumulative frequency analysis'', bajada libre de : [http://www.waterlog.info/cumfreq.htm] <br />
Para ejemplos de aplicaciones de CumFreq véase : ''Drainage Research in Farmers' Fields: Analysis of Data''. Part of project “Liquid Gold” of the International Institute for Land Reclamation and Improvement (ILRI), Wageningen, The Netherlands : [http://www.waterlog.info/pdf/analysis.pdf] </ref> . El modelo utiliza varias distribuciones bien conocidas y selecciona la mas conveniente. CumFreq produce gráficos con valores observados, la expresión matemática de la distribución, sus parámetros, el intervalo de confianza, los períodos de retorno y el histograma con número de clases elegido por el usuario. La distribución normal y sus derivados se determina a base de una [[Análisis numérico|solución numérica]] porque la solución analítica de ella no existe.

El modelo provee la opción de introducir una ''discontinuidad'', separando el rango de datos en dos partes con distribuciones diferentes. El programa determina el punto de quiebra, prueba varias distribuciones y determina el resultado final con el método de los [[mínimos cuadrados]]. La introducción de la continuidad es útil cuando la cola de la distribución, y los valores extremos, desvían de la distribución de la masa mediana de los datos. La introducción también ha sido instrumental para el análisis de las lluvias en el norte de Perú donde el clima depende del comportamiento del corriente [[El Niño]] en el [[océano Pacífico]]. Cuando El Niño se extiende mas allá del sur de [[Ecuador]] llegando a la costa Peruana, el clima en el norte de Perú se vuelve [[Clima tropical|trópico húmedo]]. Cuando El Niño no llega al Perú, el clima es [[Clima semiárido|semi-árido]]. Por esta razón, las lluvias extremas exhiben una distribución de frecuencia diferente de las lluvias moderadas.

==Referencias==
{{listaref}}

[[Categoría:Estadística]]
[[Categoría:Estadística descriptiva]]
[[Categoría:Distribuciones de probabilidad]]

[[en:Cumulative frequency analysis]]

Revisión actual - 11:32 30 may 2010