Estadisticas Hidrológicas
Estadisticas Hidrológicas
Estadisticas Hidrológicas
NUCLEO BOLÍVAR
ESCUELA DE CIENCIAS DE LA TIERRA
DEPARTAMENTO DE INGENIERÍA CIVIL
CÁTEDRA: HIDROLOGIA BASICA
ESTADÍSTICAS HIDROLÓGICAS
1. ESTADÍSTICA
Estudia los métodos científicos para recoger, organizar, resumir y analizar datos así
como para sacar conclusiones válidas y tomar decisiones razonables basada en el
análisis.
Las poblaciones pueden ser finitas o infinitas. Una población es finita cuando tiene un
número determinado de individuos, por ejemplo el conjunto de panes que produce una
panadería en un día. Mientras que una población es infinita cuando no tiene un límite
definido, por ejemplo el número de hojas que pueden caer de los árboles de un bosque
tropical.
2.3 Variables: se entiende a una característica, cualidad, fenómeno, etc. que varía, se
modifica o cambia, es decir, que puede tomar cualquiera de los valores de un grupo
determinado.
Una variable que solo puede tener valores fijos entre dos valores dados se denomina
variable discreta. Por ejemplo, el número de hijos en una familia puede ser 0, 1, 2, 3,
4, etc., pero no puede ser 2.5 ni 4.67, ni 5.873, etc., es decir, no puede ser la fracción de
la unidad.
Otro ejemplo: El numero N de hijos de una familia pueden ser 0, 1, 2, 3… Pero no 1.5 o
2.679. Es una variable discreta. Pero la Altura H de una persona, Que Puede ser 68
pulgadas, 65.5 pulgadas o 62.7648 pulgadas, dependiendo de la presión de la medida,
en una variable continua.
Muchos de los procesos hidrológicos son tan complejos que una forma de interpretarlos
y analizarlos es por métodos probabilístico. Los eventos hidrológicos parecieran ser
incertidumbre de la naturaleza y son el resultado de un conjunto de eventos al azar
estocásticos. Las ciencias físicas que normalmente se estudian consideran proceso
determinísticos es decir que si se repite el experimento η veces se obtendrán un mismo
resultado. Pero en la realidad, si se consideran todos los parámetros se observan los
procesos físicos son estocásticos. La hidrología por sus innumerables posibles
situaciones puede estudiada desde este punto de vista.
4. PROBABILIDAD
Los objetivos básicos de la estadística y/o probabilidad en la hidrología son entre otros:
Se definen como:
Las probabilidades de excedencia son una medida probabilística basada en datos de una
serie histórica, que permite distinguir las características hidrológicas de una cuenca. Es
decir, es el valor que indica en el porcentaje en el que los datos históricos registrados
son iguales o mayores al que corresponde a dicho valor.
Dentro de un grupo de datos hay, generalmente, valores que representan al grupo total.
Esos valores están hacia el centro del grupo de datos por lo que se les denomina
medidas de tendencia central. Las medidas de tendencia central más comunes son la
media aritmética, la mediana y la moda. Aunque hay varias medias (media aritmética,
media geométrica, media harmónica, media ponderada, etc.) nos referiremos solo a la
media aritmética que es la más común y por tanto la más usada. Hay otras medidas de
tendencia central que no trataremos por ser, generalmente, más especializadas, tal como
la media cuadrática, los cuartiles, deciles y percentiles (en su conjunto llamados
cuantiles). Los percentiles también se les llaman porcientos o porcentajes.
6.1.1 Promedio aritmético o media aritmética (μ): es el primer momento alrededor
del origen. También llamada promedio y en inglés “average”, se simboliza por medio de
una x con una barra arriba. Se calcula dividiendo los valores de todos los elementos o
individuos, generalmente llamados en estadística, “observaciones”, entre el número de
dichas observaciones. Se calcula mediante la expresión:
Dónde:
xi es valor observado de la variable.
N es el número de observaciones.
6.1.2 Mediana (M): es el valor de la variable que deja con igual probabilidad de
ocurrencia (0.50) los valores abajo y arriba de ella, por lo tanto, la mediana resulta
atractiva, en el caso de series que se apartan de la normal.
a) Número de datos impar: 4, 7, 8, 9, 11, 14, 18, 23, 31. La mediana es 11 porque
siendo 9 datos el quinto dato (11) es el que deja igual número de observaciones a
cada lado.
b) Número de datos par: 2, 5, 6, 8, 9, 12, 15, 19, 22, 34. la mediana es 10.5, es decir
la media aritmética de los dos valores medios (9 + 12 = 21, entre 2 = 10.5).
6.1.3 Moda: La moda de un grupo de datos numéricos es el valor que ocurre con mayor
frecuencia, es decir, el valor que más se repite, puede que un grupo de datos numéricos
no tenga moda, es decir, cuando no hay un valor que se repite más que los otros. Se le
llama amodal. Si tiene una moda se le denomina unimodal Por otra parte, puede haber
un grupo de datos numéricos que tenga más de una moda, en este caso de le llama
bimodal si son dos las modas como ocurre con la precipitación pluvial anual de muchos
países tropicales o con la insolación diaria en la ciudad de Mérida, Venezuela. Si tiene
más de dos modas se les denomina, genéricamente, polimodales, porque tienen muchas
modas (los llamados “picos”), como serían la tensión arterial (sistólica o diastólica), la
precipitación pluvial mes por mes de alguna región húmeda, la representación gráfica de
un sismógrafo o de un electrocardiograma, etc. Ejemplos son:
Amodal: 1, 3, 4, 7, 9, 11, 14, 17, 20, 25, 37, 43. No tiene moda.
Unimodal: 2, 4, 6, 7, 9, 12, 12, 12, 16, 22, 35. 66. La moda es 12.
Bimodal: 3, 6, 8, 9, 12, 14, 14, 14, 16, 19, 22, 26, 28, 28, 28, 28, 39, 43. Las modas son
14 y 28.
Polimodal: 3, 6, 8, 9, 11, 11, 11, 15, 15, 15, 15, 18, 23, 26, 29, 29, 29, 31. En esta caso
tiene tres modas que son 11, 15 y 29.
En una distribución normal, simétrica, hay solo una moda, no hay sesgo y la curva tiene
forma de campana simétrica. En esta curva la media, la moda y la mediana coinciden en
el mismo punto o valor central.
Los tres parámetros (la media aritmética, la mediana y la moda) son iguales para
distribuciones simétricas. Para series pequeñas, se justifica el uso de la mediana, porque
el promedio se afecta en ellas mucho más por los valores extremos y es además más
robusta. En la práctica hidrológica en series que se apartan de la distribución normal es
común usar los logaritmos de la variable. En hidrología se tienen frecuentemente
muestras de distintos tamaños N1, N2, N3 ... NR y se necesita obtener el promedio
Las medidas de dispersión miden como los valores de una variable se dispersan
alrededor del valor central o media aritmética de la serie, es decir, representan una
distribución alrededor de un valor medio. El grado en el cual los datos numéricos
tienden a esparcirse alrededor de un valor general se denomina variación o dispersión de
los datos. Hay varias formas de medir esa variación o dispersión. Entre las más
comúnmente usadas están el rango, la desviación media, el rango semi-intercuartil, el
rango del percentil 10-90, el coeficiente de variación, la varianza y la desviación
standard. Dentro de estos nos referiremos a los más usados en las publicaciones sobre
investigación científica:
El rango de un grupo de datos es la diferencia que existe entre el valor mayor y el valor
menor de dichos datos. Por ejemplo, en un grupo de notas de un examen el valor mayor
fue 19 puntos y el valor menor fue 5 puntos , entonces el rango de las notas es: 19 – 5 =
14 puntos.
La varianza, que se simboliza por sigma minúscula al cuadrado, σ2, para la población y
s2 para la muestra, de varias formas
x
x n
2
2
s2
n 1
En el ejemplo anterior, tenemos como media 12.42 al cual le restaremos cada uno de los
valores (por ejemplo: 15 – 12.42 = 2.58; 7 – 12.42 = -5.42 y así sucesivamente hasta
llegar a los 12 datos), luego cada uno de esos valores se eleva al cuadrado (por ejemplo:
2.582 = 6.6564; -5.422 = 29.3764 y así sucesivamente), luego se suman todos estos
valores cuadrados y la suma (en este caso 192.9166) se divide entre el número de grados
de libertad (11) que resulta en 17.901509 que redondeamos a 17.90. Lógicamente es el
mismo resultado que por método anterior. Existen otros métodos para calcular la
varianza, pero estos son los más comúnmente usados.
x
x n
2
2
s= s2 s=
n 1
En nuestro caso será la raíz cuadrada de 17.90, es decir, s = 17.90 es ±4.2308392 que
redondearemos a ±4.23. Es importante destacar que las unidades de medición de la
desviación standard son, lógicamente, las mismas que las unidades de los datos
originales, es decir, si estamos midiendo las edades en años, las unidades de la
desviación standard estarán expresadas en años. En las publicaciones, informes,
reportes, etc., generalmente, se expresan los valores de la media y las desviaciones
standard como sigue: la media ± la desviación standard y las unidades de medición, por
ejemplo, x ± s, en el caso de las edades en años sería: 12.42 ± 4.23 años
En una población o muestra con distribución normal cuya curva tiene forma de campana
simétrica, el 68.27% de los valores caen dentro de la media más o menos una desviación
standard, es decir que si en nuestro caso la distribución fuese normal, 68.27% de los
valores estarían entre 12.42±4.23, o sea entre 8.19 y 16.65. Esta operación nos indica
que las notas de los estudiantes están muy dispersas y que no siguen la distribución
normal.
6.2.4 Desviación media (σM): Es la media aritmética del valor absoluto de los errores.
Se calcula con la siguiente expresión.
s
CV =
x
6.2.6 Variabilidad: la variabilidad puede ser presentada por el rango de los valores o
por el promedio de las desviaciones con respecto al promedio .sin embargo, el
parámetro de importancia estadística es el promedio del cuadrado de las desviaciones
con respecto al promedio. a este término se le llama varianza y se define como
𝑁
ơ2 = ∑(𝑋𝑖 − µ)2
𝑖=1
Si el promedio de la población µ no es conocida se puede utilizar el promedio de la
muestra 𝑥⃗ , así
𝑁
2
1
𝑆 = ∑(𝑋𝑖 − 𝑥̅ )2
𝑁−1
𝑖−1
6.2.7 Sesgo: Se denomina sesgo al grado de asimetría que tiene la curva de una
distribución de datos numéricos. Una distribución simétrica muestra la propiedad de que
los momentos impares con cero. Una distribución sesgada, por el contrario presenta u
exceso de peso hacia unos de los lado del centro. El tercer momento de la distribución
es utilizado para el sesgo.
𝑁
1
𝛼 = ∑(𝑥𝑖 − µ)3
𝑁
𝑖−1
𝑁
𝑁
a= ∑(𝑥𝑖 − 𝑥̅ )3
(𝑁 − 1) (𝑁 − 2)
𝑖−1
Un coeficiente de sesgo c se representa por 𝛼/ơ3 o por 𝑎/𝑠 3 para distribución simétrica
el tercer momento es cero y 𝐶𝑠 = 0. Para la derecha 𝐶𝑠 > 0 y para sesgo ala izquierda
𝐶𝑠 < 0.
7. DISTRIBUCION DE PROBABILIDAD
Muchas distribuciones de probabilidades teóricas bien definidas han sido utilizadas para
describir ciertos procesos hidrológicos y las más comunes han sido aplicadas con éxito a
cierto grupo de fenómenos hidrológicos. A continuación se presentan las más utilizadas.
N!
P(X) = P X (1 − P)N−X
X! (X − X)!
7.1.3 Distribución Normal: La distribución normal (Gaussiana) surge del teorema del
límite del valor central, el cual establece que una variable aleatoria x está
normalmente distribuida con el promedio μ y la desviación estándar σ. La función
de distribución de probabilidad (frecuencia acumulada) proporciona la
probabilidad de que X sea menor o igual a x así:
Para la distribución Pearson tipo III, se deberá calcular la media, la desviación estándar
y el coeficiente de asimetría:
Aplicaciones en Hidrología
La distribución pearson tipo III es de gran utilidad en hidrología, siendo algunas de sus
principales aplicaciones:
Como referencia para comparar varias distribuciones teóricas de ajuste con una
distribución empírica.
Análisis de errores aleatorios en las observaciones o mediciones hidrológicas.
Para aplicar inferencia estadística
Para realizar ajustes de distribución empírica de variables hidrológicas de
precipitación, caudales, temperatura, etc., tales como valores anuales, mensuales
o valores acumulados anuales, mensuales.
Existen dos distribuciones probabilísticas que son la más utilizadas para estos estudios:
la distribución de Gumbel y la de log Pearson tipo III :
Aplicaciones en hidrología
donde,