PROBABILIDADE E ESTATÍSTICA APLICADAS À
HIDROLOGIA
Mauro Naghettini
Maria Manuela Portela
DECivil, IST, 2011
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
PROBABILIDADE E ESTATÍSTICA APLICADAS À HIDROLOGIA
Mauro Naghettini
Professor Associado, Escola de Engenharia da Universidade Federal de Minas Gerais, Belo Horizonte, Brasil.
Maria Manuela Portela
Professora Auxiliar, Instituto Superior Técnico da Universidade Técnica de Lisboa, Portugal.
(Nota: o presente texto foi produzido a partir de capítulo homónimo do livro Hidrologia Aplicada, a ser publicado entre 2011 e
2012 pela Associação Brasileira de Recursos Hídricos, ABRH. O intuito é o de proporcionar noções fundamentais de
probabilidades e estatística aplicadas à hidrologia, incluindo conceitos relacionados com a análise de incertezas)
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Índice do texto
Pág.
1. Introdução................................................................................................................................... 1
2. Caracterização preliminar das incertezas presentes nos fenómenos hidrológicos ...................... 2
3. Definições básicas....................................................................................................................... 7
3.1. Nota prévia .......................................................................................................................... 7
3.2. Espaço de resultados ou espaço amostral............................................................................ 7
3.3. Acontecimento aleatório...................................................................................................... 7
3.4. Complementar de um acontecimento aleatório ................................................................... 7
3.5. Combinação de acontecimentos aleatórios. União e intersecção ........................................ 8
3.6. Probabilidade....................................................................................................................... 8
3.7. Dependência e independência estatísticas........................................................................... 9
3.8. Variáveis aleatórias discretas e contínuas............................................................................ 9
4. Funções distribuição de probabilidade...................................................................................... 11
5. Medidas descritivas populacionais das variáveis aleatórias...................................................... 14
5.1. Nota prévia ........................................................................................................................ 14
5.2. Valor esperado................................................................................................................... 14
5.3. Variância, desvio-padrão e coeficiente de variação da população.................................... 15
5.4. Coeficiente de assimetria................................................................................................... 16
6. Modelos de distribuição de probabilidades de variáveis aleatórias discretas ........................... 18
6.1 Nota prévia ........................................................................................................................ 18
6.2. Distribuição geométrica. Período de retorno..................................................................... 18
6.3 Distribuição Binomial. Risco hidrológico .......................................................................... 21
7. Modelos de distribuição de probabilidades de variáveis aleatórias contínuas.......................... 24
8. Estimação de parâmetros e de quantis das distribuições de probabilidade............................... 30
8.1 Procedimento geral. Método dos momentos ..................................................................... 30
8.2 Factores de probabilidade.................................................................................................. 32
9. Análise de frequência de variáveis hidrológicas....................................................................... 34
9.1 Nota prévia ........................................................................................................................ 34
9.2. Análise de frequência com base na apreciação visual do ajustamento (em gráficos de
probabilidade). Probabilidade empírica de não-excedência.............................................. 34
9.3. Apreciação da qualidade do ajustamento e escolha do modelo distributivo. Teste de
Kolmogorov-Smirnov e do Qui-Quadrado......................................................................... 38
9.4. Avaliação das incertezas associadas às estimativas de quantis ......................................... 45
10. Correlação e regressão simples de variáveis hidrológicas ....................................................... 49
i
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Referências bibliográficas ............................................................................................................. 57
Índice de Tabelas
1
Precipitações diárias máximas anuais, Pdma, no posto udométrico de Pavia (20I/01G), na
bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos, entre 1911/12 e 2004/05.
2
Principais estatísticas amostrais ou descritivas, respectivas fórmulas de cálculo, significados
e valores tendo por base a amostra de precipitações diárias máximas anuais da Tabela 1.
3
Número de ‘faces’ resultantes do lançamento simultâneo de duas moedas.
4
Principais modelos de distribuição de probabilidades de variáveis aleatórias contínuas
hidrológicas e hidrometeorológicas.
5
Principais características das distribuições de probabilidades de variáveis aleatórias
contínuas hidrológicas e hidrometeorológicas.
6
Função
Φ (z ) = 1
distribuição
2π
z
−∞
(
de
probabilidade,
FDP,
da
distribuição
Normal
padrão,
)
exp − z 2 2 dz .
7
Expressões de cálculo dos factores de frequência K FDIST para diversas distribuições.
8
Fórmulas para estimação de probabilidades empíricas de não excedência.
9
Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a Tabela
1. Probabilidades empíricas de não-excedência, P(X x)=F(x), de acordo com a fórmula de
Gringorten apresentada na Tabela 8.
10 Valores críticos da estatística do teste de Kolmogorov Smirnov em função da dimensão da
amostra, N, e do nível do significância, α, DN, .
11 Quantis da distribuição do Qui-Quadrado em função do número de graus de liberdade, ν, e
do nível de confiança, (1-α), χ2ν,(1- ).
12 Partições (número e limites) do domínio da função distribuição de probabilidade, F(x), na
aplicação do teste do Qui-Quadrado em função da dimensão da amostra, N (adaptada de
Henriques, 1990).
13 Aplicação dos testes de Kolmogorov-Smirnov, KS, e do Qui-Quadrado, χ2, à amostra de
precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) da Tabela 1.
14 Intervalo de confiança a 95%, para a estimativa fornecida pela lei de Gumbel para a
precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) com a
probabilidade de não-excedência de 99% (período de retorno de 100 anos).
15 Pares de valores de caudais instantâneos, Q, e das correspondentes alturas hidrométricas, h,
relativos a uma estação hidrométrica.
16 Cálculo dos parâmetros da curva de vazão definida por Q = a (h − h 0 ) b .
ii
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Índice de Figuras
1
Variabilidade temporal das precipitações diárias máximas anuais (mm) no posto udométrico
de Pavia (20I/01G), na bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos,
entre 1911/12 e 2004/05.
2
Funções massa e acumulada de probabilidades da variável aleatória discreta X do exemplo
da Tabela 3.
3
Funções densidade e acumulada de probabilidades de uma variável contínua.
4
Função densidade de probabilidade da variável aleatória contínua X.
5
Exemplos de funções densidade (ou massa) de probabilidade simétricas e assimétrica.
6
Cheias máximas anuais como ilustração de um processo de Bernoulli.
7
Esquema de desvio provisório de um rio.
8
Modelo GEV: relação entre κ e γX.
9
Papel de probabilidade da lei Normal.
10 Probabilidades empíricas de não-excedência fornecidas pelas fórmulas da Tabela 8 para duas
amostras, uma, com 50 elementos (à esquerda) e, outra, com 20 elementos (à direita).
11 Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a Tabela
1. Probabilidades de não-excedência, P(X x)=F(x) empíricas (fórmula de Gringorten) e de
acordo com as leis Normal, de Gumbel e log-Normal para papeis de probabilidade das leis
Normal – gráfico superior – e de Gumbel – gráfico inferior.
12 Aplicação do teste de Kolmogorov-Smirnov, KS, à amostra de precipitações diárias máximas
anuais no posto udométrico de Pavia (20I/01G) da Tabela 1. Representação gráfica do valor
da estatística do teste.
13 Intervalos de confiança a 95%, para os quantis fornecidos pela lei de Gumbel para as
precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G).
14 Histogramas das estimativas fornecidas pelas séries sintéticas (em número de W=5000) da
precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) para a
probabilidade de não excedência de 99% .
15 Alguns exemplos de associações denotando correlação entre as variáveis Y e X.
16 Coeficientes de regressão pelo método dos mínimos quadrados.
17 Curvas de vazão para os dois possíveis modelos definidos no exercício 16.
Índice de Exercícios
Pág.
Exercício 1....................................................................................................................................... 9
Exercício 2..................................................................................................................................... 13
Exercício 3..................................................................................................................................... 15
Exercício 4..................................................................................................................................... 15
iii
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Exercício 5..................................................................................................................................... 16
Exercício 6..................................................................................................................................... 20
Exercício 7..................................................................................................................................... 21
Exercício 8..................................................................................................................................... 22
Exercício 9..................................................................................................................................... 27
Exercício 10................................................................................................................................... 29
Exercício 11................................................................................................................................... 31
Exercício 12................................................................................................................................... 31
Exercício 13................................................................................................................................... 33
Exercício 14................................................................................................................................... 43
Exercício 15................................................................................................................................... 54
Exercício 16................................................................................................................................... 54
iv
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
v
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
1. Introdução
Os fenómenos naturais, nomeadamente, hidrológicos contêm incertezas que lhes são
inerentes sendo que existem duas fontes para tais incertezas: (i) a aleatoriedade natural
associada às possíveis ocorrências (ou realizações) de um certo fenómeno; e (ii) e as
imperfeições e/ou insuficiências do conhecimento humano sobre os processos que determinam
tais ocorrências. As incertezas do primeiro tipo – ou aleatórias – podem ser expressas em termos
da maior ou menor variabilidade de uma ou mais das variáveis (ou grandezas mensuráveis)
associadas ao fenómeno em estudo. As incertezas do segundo tipo resultam da interpretação
imperfeita ou imprecisa da realidade subjacente ao referido fenómeno, por parte dos modelos
teóricos e/ou físicos utilizados para o caracterizar.
As incertezas aleatórias não podem ser reduzidas ou modificadas porque são intrínsecas à
variabilidade dos fenómenos em observação. Em geral, essas incertezas apenas podem ser
parcialmente estimadas pelo padrão da variabilidade exibido pelas amostras referentes a
realizações desses fenómenos ou das variáveis que nele intervêm. Já as incertezas que decorrem
das limitações do conhecimento humano acerca dos mencionados fenómenos podem ser
reduzidas, seja pela obtenção de dados e de informação adicionais, seja pela especificação de
novos modelos teóricos (ou físicos) mais conformes com a realidade. Em ambos os casos, os
conceitos e métodos da teoria de probabilidades e da estatística constituem conhecimentos
indispensáveis para lidar com as incertezas e para as interpretar (Ang e Tang, 2007).
As consequências que as incertezas acarretam no projecto e no planeamento de estruturas e
sistemas de engenharia, em geral, e de engenharia de recursos hídricos, com particular ênfase,
são muito importantes. De facto, num contexto de incerteza, o projecto e o planeamento de
estruturas e sistemas de aproveitamento e de controlo de recursos hídricos envolvem riscos, os
quais envolvem probabilidades de ocorrência de certos acontecimentos críticos e das suas
respectivas consequências, e, finalmente, a formulação de processos de tomada de decisões. De
modo ideal, a tomada de uma decisão, por exemplo, quanto às dimensões do descarregador de
superfície de uma barragem, deveria levar em consideração: (i) a probabilidade de que, ao longo
da vida útil do empreendimento, o caudal máximo para o qual foi projectado seja ultrapassado
pelas caudais de cheia que efectivamente se constate ser necessário descarregar; (ii) as possíveis
consequências da eventual subestimação do caudal de projecto; e (iii) a formulação de planos de
tomada de decisões assentes em soluções de compromisso entre avaliações quantitativas dos
riscos, custos e benefícios das diversas soluções alternativas estudadas.
Assim, num quadro completo e racional de tomada de decisões relacionadas com o projecto
e o planeamento de infra-estruturas e de sistemas de recursos hídricos, é preciso levar em
consideração as incertezas associadas aos fenómenos hidrológicos intervenientes. A teoria de
probabilidades e a estatística constituem um campo de saber e fornecem ferramentas adequadas
para interpretar as características de alguns desses fenómenos e para equacionar parte da
incerteza que lhes possa estar associada.
No presente documento sistematizaram-se alguns dos conceitos daquela teoria mais
relevantes e frequentemente intervenientes em estudos do âmbito da engenharia dos recursos
hídricos, com ênfase para a hidrologia. Pretendendo-se que se trate de um documento didáctico,
foram incluídos exemplos e exercícios de aplicação de modo a tornar mais explícitos
aqueles conceitos.
1
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
2. Caracterização preliminar das incertezas presentes nos fenómenos hidrológicos
As ocorrências de muitos dos fenómenos relevantes no âmbito da engenharia dos recursos
hídricos, incluindo a componente de hidrologia, contêm incertezas aleatórias, que não podem ser
previstas com absoluta precisão. Em geral, esses fenómenos são caracterizados por uma ou mais
variáveis mensuráveis na natureza (ou em laboratório), de modo normalizado e sistemático. Sob
as mesmas condições de observação, os dados ou registos de uma mesma variável podem
apresentar valores muito diferenciados entre si, alguns com menor frequência e outros com
maior. A variabilidade dos dados apresenta um certo padrão, o qual exemplifica apenas uma
realização ou amostra da variação intrínseca do fenómeno natural a que se referem tais dados.
Considere a amostra de precipitações diárias máximas anuais, Pdma, apresentadas na
Tabela 1, relativa ao posto udométrico de Pavia (20I/01G) (localizado na bacia hidrográfica do
rio Tejo) no período de 94 anos hidrológicos, entre 1911/12 e 2004/05. Recorda-se que tal
amostra é constituída por um valor por ano hidrológico, a máxima precipitação em 24 h em cada
ano. Como é do conhecimento geral, em Portugal o ano hidrológico decorre entre 1 de Outubro e
30 de Setembro.
Tabela 1 – Precipitações diárias máximas anuais, Pdma, no posto udométrico de Pavia (20I/01G), na
bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos, entre 1911/12 e 2004/05.
Ano
hidrológico
1911/12
1912/13
1913/14
1914/15
1915/16
1916/17
1917/18
1918/19
1919/20
1920/21
1921/22
1922/23
1923/24
1924/25
1925/26
1926/27
1927/28
1928/29
1929/30
Pdma
(mm)
24.2
31.3
32.5
33.5
20.2
38.2
36.7
35.2
92.3
30.0
25.2
50.4
35.7
40.5
10.3
40.2
8.1
10.2
14.2
Ano
hidrológico
1930/31
1931/32
1932/33
1933/34
1934/35
1935/36
1936/37
1937/38
1938/39
1939/40
1940/41
1941/42
1942/43
1943/44
1944/45
1945/46
1946/47
1947/48
1948/49
Pdma
(mm)
15.3
40.2
20.4
20.2
32.8
43.2
29.8
42.8
45.0
34.2
32.8
46.3
31.9
34.2
24.3
71.4
37.4
31.4
24.3
Ano
hidrológico
1949/50
1950/51
1951/52
1952/53
1953/54
1954/55
1955/56
1956/57
1957/58
1958/59
1959/60
1960/61
1961/62
1962/63
1963/64
1964/65
1965/66
1966/67
1967/68
Pdma
(mm)
43.8
58.2
34.6
40.2
20.8
69.0
44.0
27.2
37.2
36.7
49.0
38.9
59.6
63.3
41.2
46.6
84.2
29.5
70.2
Ano
hidrológico
1968/69
1969/70
1970/71
19710/72
1972/73
1973/74
1974/75
1975/76
1976/77
1977/78
1978/79
1979/80
1980/81
1981/82
1982/83
1983/84
1984/85
1985/86
1986/87
Pdma
(mm)
43.7
36.2
29.8
60.2
28.0
31.4
38.4
29.4
34.0
47.0
57.0
36.5
84.2
45.0
95.5
48.5
38.0
38.6
26.0
Ano
hidrológico
1987/88
1988/89
1989/90
1990/91
1991/92
1992/93
1993/94
1994/95
1995/96
1996/97
1997/98
1998/99
1999/00
2000/01
2001/02
2002/03
2003/04
2004/05
Pdma
(mm)
27.0
58.0
27.8
37.5
35.2
27.5
28.5
52.0
56.8
80.0
29.0
55.2
48.4
33.2
27.4
27.4
18.2
34.2
O padrão de variabilidade temporal das precipitações diárias máximas anuais apresentadas
na anterior tabela pode ser visualizado pelo diagrama de série temporal ou diagrama
cronológico da Figura 1 (a) e, de forma mais elaborada, pelo histograma da Figura 1 (b).
Para construir o histograma da Figura 1(b) obtiveram-se as ocorrências ou as frequências
absolutas com que os sucessivos valores da precipitação estão compreendidos entre os limites de
diferentes intervalos de classe para o que foram consideradas classes com amplitude de 12.5
mm. O resultado, em cada classe, do quociente entre a correspondente frequência absoluta e o
número total de valores da amostra ou dimensão da amostra, N, a saber no exemplo da Figura 1,
2
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
N=94, é a frequência relativa nesse intervalo de classe (eixo principal das ordenadas no
diagrama do lado direito), que, na figura, foi expressa em percentagem. Para fixar o número de
intervalos de classe do histograma adoptou-se a regra de Sturges, ou seja, NIC = 1 + 3.3 log 10 ( N) ,
na qual NIC denota o número recomendado daqueles intervalos e N tem o significado antes
explicitado.
(b) Histogramas amostral e teórico de frequências relativas e densidade
de probabilidade
(a) Diagrama da série temporal ou diagrama cronológico
Precipitação diária máxima anual, Pdma (mm)
Frequência relativa (%)
45
Histograma
40
amostral
35
100
80
Densidade de probabilidade (%)
3.5
3.0
2.5
30
60
Histograma teórico e
densidade de probabilidade
25
20
40
1.5
15
1.0
10
20
0.5
5
0
1911
0
1921
1931
1941
1951
1961
1971
1981
1991
2001
0.0
0.0
Ano civil de início do ano hidrológico
2.0
12.5
25.0
37.5
50.0
62.5
75.0
87.5
100.0
Precipitações diárias máximas anuais (mm)
Figura 1 – Variabilidade temporal das precipitações diárias máximas anuais (mm) no posto udométrico
de Pavia (20I/01G), na bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos,
entre 1911/12 e 2004/05.
Suponha-se agora que, tendo em vista um problema de análise de cheias, se pretendia
estimar o caudal de ponta de cheia para a precipitação diária máxima anual de 103 mm, superior
a qualquer valor da amostra da Tabela 1. Com base unicamente nessa amostra, poder-se-ia
concluir que, não tendo ocorrido no passado um valor dessa ordem de grandeza, seria
improvável que o mesmo se realizasse no futuro, especialmente estando-se em presença de uma
amostra consideravelmente longa. Em contrapartida, poder-se-ia admitir que, não obstante esta
última constatação, se a amostra tivesse maior dimensão ou se respeitasse a outro intervalo de
tempo, eventualmente conteria valores iguais ou mesmo superiores a 103 mm.
Para averiguar se poderão ou não ocorrer valores para além dos contidos numa dada
amostra é necessário obter, de algum modo, o padrão completo de variabilidade da variável a
que se refere essa amostra (ou seja, o histograma de um número infinito de observações da
mesma) através de um função teórica de distribuição de probabilidade ou, de modo equivalente,
da correspondente função teórica de densidade de probabilidade, para o que é necessário
estabelecer os modelos matemáticos que exprimem essas funções, com estimação, a partir da
amostra, dos respectivos parâmetros.
Um exemplo de uma dessas funções, no caso em menção, referente à lei de Gumbel de dois
parâmetros (objecto do item 4), está indicado na Figura 1(b) pela curva a vermelho que, lida em
correspondência com o eixo secundário das ordenadas (eixo de densidade de probabilidade),
representa a função densidade de probabilidade de tal lei. A mesma curva lida em
correspondência com o eixo principal das ordenadas (eixo de frequência relativa) traduz o
histograma teórico, também de acordo com a mencionada lei.
3
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Embora o estudo e o ajuste de modelos paramétricos sejam tratados apenas em itens
subsequentes, anota-se, desde já, que a probabilidade de ocorrer uma precipitação diária máxima
anual superior a 103 mm segundo a lei de Gumbel com parâmetros estimados a partir da amostra
apresentada na Tabela 1, é de 0.5%, ou seja, embora pequena, não é nula. A anterior
probabilidade pode ser entendida como significando que, em média, nos próximos 200 anos,
poderá ocorrer uma dessas precipitações em um ano qualquer.
Poder-se-ia dar o caso de o critério de projecto requerer uma precipitação mais
excepcional, por exemplo, susceptível de ocorrer em qualquer um dos próximos 1000 anos. Uma
precipitação de projecto tão elevada asseguraria condições de dimensionamento certamente mais
robustas. Contudo, convém sublinhar, que, por regra, a decisão de adoptar um critério de
projecto mais excepcional implica, por um lado, maiores custos de construção e, por outro lado,
risco de falha ou mesmo de colapso menor. A opção por um dado valor de projecto, para além de
reflectir eventuais condicionalismos legais (tais como normas ou regulamentos), deve decorrer de
uma análise de custos/benefícios e riscos, avaliados tendo em conta o horizonte da vida útil
esperada para a estrutura hidráulica em cujo dimensionamento intervém, a par com as
consequências da falha/colapso dessa estrutura.
Um processo complementar para caracterizar de modo sintético a variabilidade de uma
série temporal de uma variável hidrológica, como a apresentada na Tabela 1, utiliza as designadas
estatísticas amostrais ou estatísticas descritivas que não são mais do que medidas numéricas,
calculadas a partir da amostra, que “descrevem” as características essenciais do histograma, tais
como a abcissa de seu centro geométrico, a dispersão com que os pontos amostrais se distribuem
em torno do valor central e a eventual assimetria entre as caudas inferior e superior do diagrama.
A Tabela 2 contém o resumo das principais estatísticas amostrais, as fórmulas de cálculo
dessas estatísticas e, especificamente para a amostra de precipitações diárias máximas anuais da
Tabela 1, os respectivos valores numéricos. Explicitam-se, ainda, os significados das estatísticas
enquanto descritores da forma do histograma.
As principais medidas de tendência central são a média, a moda e a mediana. A primeira
corresponde à abcissa do centro geométrico do histograma, enquanto a moda é o valor mais
frequente da amostra e é dada pela abcissa da maior ordenada do polígono de frequências. Este
polígono é formado pela junção dos pontos médios dos topos dos rectângulos que constituem o
histograma, para o que é necessário considerar duas classes adicionais, uma em cada
extremidade, ambas com ordenadas nulas. Por sua vez, a mediana de uma amostra classificada
por ordem crescente – {x(1), x(2), … , x(N)} tal que x(i) é inferior ou igual a x(i+1) – corresponde ao
elemento de ordem (N+1)/2, se N é ímpar, ou à média aritmética entre os elementos de ordens
(N/2) e [(N/2)+1], se N é par.
Uma das principais medidas de dispersão é a variância, a qual é dada pela média dos
quadrados das diferenças entre os elementos amostrais e a respectiva média, multiplicada pelo
factor N/(N-1) para corrigir o chamado viés. A raiz quadrada da variância é o desvio-padrão,
sendo que o quociente entre este desvio e a média recebe a designação de coeficiente de
variação, grandeza adimensional muito útil para comparar as dispersões relativas de diferentes
variáveis.
Outra grandeza adimensional de grande utilidade para a análise estatística de variáveis
hidrológicas é o coeficiente de assimetria, calculado conforme também indicado na Tabela 2.
Relativamente a tal coeficiente, anota-se que, no caso de acontecimentos hidrológicos extremos,
a soma das diferenças cúbicas entre os elementos da amostra e a respectiva média é
4
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
frequentemente positiva, em consequência de os valores mais elevados estarem muito mais
afastados da média do que os valores que lhe são inferiores. Como estão em causa diferenças ao
cubo, resulta um coeficiente de assimetria positivo. É este o caso do histograma da Figura 1 (b) e
de tantos outros histogramas de amostras de variáveis hidrológicas, o que torna necessário o
estudo de distribuições de probabilidade capazes de reproduzir essa assimetria, como, por
exemplo a de Gumbel a que se refere a curva de densidade de probabilidade representada
naquela figura. Contudo, pode dar-se o caso de uma amostra exibir um coeficiente de assimetria,
quer nulo, sendo o correspondente histograma simétrico, quer negativo, traduzido, neste caso, por
uma cauda inferior do histograma relativamente mais prolongada/estendida do que a cauda
superior.
Tabela 2 – Principais estatísticas amostrais ou descritivas, respectivas fórmulas de cálculo, significados e
valores tendo por base a amostra de precipitações diárias máximas anuais da Tabela 1.
Designação
Tipo
Notação
Média
Tendência
central
X
Moda
Tendência
central
XMO
Elemento da amostra com
maior frequência
Mediana ou 2º
quartil
Tendência
central
XMD ou
Q2
50% dos valores ordenados
abaixo e 50 % acima
1º quartil
Cauda
inferior
Q1
Mediana dos 50% menores
valores
3º quartil
Cauda
superior
Q3
Mediana dos 50% maiores
valores
Amplitude
interquartis
Dispersão
AIQ
AIQ = Q3 − Q1
Momento
central de
ordem r
-
m 'r
Variância
Dispersão
S 2X
Desvio-padrão
Dispersão
SX
Coeficiente de
variação
Dispersão
CV
Coeficiente de
Assimetria
assimetria
Coeficiente de
curtose
Fórmula cálculo ou conceito
X=
m 'r =
S 2X =
g
k
N
g=
N
xi
i=1
Abcissa do centro
geométrico do
histograma
Abcissa da maior
ordenada do polígono de
frequências
Abcissa que divide ao
meio a área do
histograma
Abcissa que divide em
25-75% a área do
histograma
Abcissa que divide em
75-25% a área do
histograma
Amplitude entre as
abscissas Q3 e Q1
Potência r da média dos
desvios em relação à
média
Média dos desvios
quadráticos, em relação à
média
(x i − X )r
i =1
N
m '2
N −1
Valor para a
amostra da
Tabela 1
39.5 mm
40.2 mm
36.4 mm
34.2 mm
38.4 mm
4.2 mm
295.9 mm2
S X = S 2X
Raiz quadrada do desvio
quadrático médio
17.2 mm
SX
X
Desvio-padrão expresso
em fracção da média
0.436
Coeficiente adimensional
1.149
Coeficiente adimensional
(achatamento)
1.699
CV =
k=
Curtose
1
N
1
N
Interpretação
N 2 m '3
(N − 1)(N − 2 )(SX )3
( N + 1) N 2 m'4
(N − 1) ( N − 2) (N − 3) (SX )4
3 ( N + 1) 2
−
(N − 2) (N − 3)
5
−
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Em complemento dos elementos precedentes referentes à análise preliminar de dados
hidrológicos, recomenda-se a consulta do capítulo 2 do livro de Naghettini e Pinto (2007), sendo
que tal livro se encontra disponível na sua versão completa, mediante acesso à seguinte URL:
http://www.cprm.gov.br/publique/cgi/cgilua.exe/sys/start.htm?infoid=981&sid=36.
A prática profissional associada à engenharia dos recursos hídricos exige a formulação de
modelos matemáticos com o objectivo de representar/caracterizar os processos físicos e, assim,
possibilitar a tomada de decisões, por exemplo, quanto ao planeamento e ao projecto dos
sistemas para aproveitamento e/ou controlo das disponibilidades hídricas de superfície. No
essencial, tais modelos podem ser determinísticos e não determinísticos, sendo que, naquele
primeiro tipo se incluem os modelos empíricos e os fisicamente baseados, e, no segundo tipo, os
modelos probabilísticos e os estocásticos, Quintela e Portela (2002).
Uma vez que os modelos são representações imperfeitas e aproximadas da realidade, as
estimativas e as previsões a que conduzem estão necessariamente sujeitas a imprecisões e,
portanto, contêm incertezas. Como antes mencionado, essas incertezas decorrem da insuficiente
monitorização e/ou conhecimento associado ao processo físico em causa e, sempre que possível,
devem se consideradas em simultâneo com as incertezas aleatórias, intrínsecas do processo, para
assegurar uma completa caracterização das incertezas e das suas implicações nos actos de
tomada de decisões de engenharia (Ang e Tang, 2007). Algumas dessas incertezas podem ser
reduzidas pela aquisição de dados adicionais e/ou pela formulação de modelos alternativos,
expectavelmente mais aptos a representar o fenómeno em estudo.
Ao pretender-se caracterizar as precipitações diárias máximas anuais no posto de
Pavia (20I/01G) a que se refere a Tabela 1 mediante adopção da lei de probabilidades de
Gumbel, conforme antes considerado, introduz-se, necessariamente uma simplificação na
interpretação do processo natural que produz tais precipitações que, porventura, poderiam ser
melhor descritas por uma outra função de distribuição de probabilidade ou mesmo por uma
combinação de várias dessas funções. Mesmo que a distribuição de Gumbel constituísse a
verdadeira síntese matemática do processo físico conducente àquelas precipitações, tal
distribuição possui parâmetros, cujas estimativas são obtidas a partir de uma amostra com
dimensão sempre muito limitada face à infinitude do universo de onde provém, pelo que aqueles
parâmetros necessariamente diferem dos verdadeiros, embora desconhecidos, parâmetros do
universo.
Em consequência das anteriores incertezas, ao afirmar-se que à precipitação diária máxima
anual de 103 mm (ou seja, ao quantil de 103 mm) está associada a probabilidade de excedência
de 0.5%, está simplesmente a falar-se de um valor esperado, ou seja, de um valor médio em
torno do qual se pode construir um intervalo de valores que conterá o verdadeiro e desconhecido
valor do quantil, com uma certa confiança, por exemplo, de 95%. A inclusão destas e de outras
incertezas na prática da engenharia de recursos hídricos requer alguns fundamentos da teoria de
probabilidades e estatística que a seguir se descrevem.
6
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
3. Definições básicas
3.1. Nota prévia
Apresentam-se a seguir algumas definições básicas e os principais fundamentos que
enquadram as aplicações da teoria de probabilidades e estatística à hidrologia.
3.2. Espaço de resultados ou espaço amostral
O espaço de resultados ou espaço amostral é o conjunto de todos os resultados
elementares, mutuamente exclusivos e colectivamente exaustivos de uma experiência aleatória.
Em geral, denota-se esse conjunto por Ω distinguindo-se entre espaços numeráveis e não
numeráveis e entre espaços finitos e infinitos. Um acontecimento é um qualquer subconjunto do
espaço amostral.
Exemplos:
(i) Ω1:{número de dias chuvosos num ano}≡{ 0, 1, 2, ... , 365} → espaço amostral
numerável e finito;
(ii) Ω2:{número de dias consecutivos sem chuva}≡{ 0, 1, 2, ... } → espaço amostral
numerável e infinito;
(iii) Ω3:{precipitação diária máxima anual no posto udométrico de Pavia ≡{P; P∈R+} →
espaço amostral não numerável e infinito.
3.3. Acontecimento aleatório
Um acontecimento aleatório é uma situação específica que se pretende que ocorra cada vez
que se realiza uma experiência aleatória. Um acontecimento aleatório pode ser um elemento ou
um subconjunto do espaço amostral Ω.
Exemplos:
(i) A:{média da precipitação nos dias com chuva no posto udométrico de Pavia (20I/01G)
no ano hidrológico de 1916/17};
(ii) B:{número anual de dias com chuva no posto udométrico de Pavia (20I/01G) durante
a década de 1980 a 1990}.
3.4. Complementar de um acontecimento aleatório
O complementar, Ec, de um acontecimento aleatório, E, é o acontecimento que ocorre
quando não ocorre E. O complementar é, portanto, o conjunto formado por todos os elementos
pertencentes a Ω e que não pertencem a E.
Exemplo:
Se a experiência aleatória consistisse na contagem do número anual de dias com chuva no
posto udométrico de Pavia a que se refere a Tabela 1 e se, para o ano hidrológico de
1916/17, resultasse no evento de 82 dias com chuva, ter-se-ia Ec:{0, 1, 2, ... , 80, 81, 83, 84,
... , 365}.
7
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
3.5. Combinação de acontecimentos aleatórios. União e intersecção
•
União
A união de dois acontecimentos A e B, representada por A∪B, é o conjunto formado pelos
elementos pertencentes a A ou a B ou a ambos. Por exemplo, se A se refere aos anos em que, em
dada estação hidrométrica, ocorreram caudais instantâneos superiores a 80 m3/s e B aos anos em
que a máxima precipitação diária num posto udométrico situado na bacia hidrográfica daquela
estação hidrométrica foi superior a 40 mm, então A∪B representa os elementos de A ou B ou de
ambos.
•
Intersecção
A intersecção de dois acontecimentos A e B, representada por A∩B, é o conjunto formado
pelos elementos que simultaneamente pertencem a A e a B. No exemplo anterior, a intersecção
de A com B designa os anos em que simultaneamente ocorreram caudais instantâneos superiores
a 80 m3/s e máximas precipitações diárias superiores a 40 mm. Se a intersecção de A com B é um
conjunto vazio, ou seja, se A∩B=∅, então os acontecimentos não ocorrem simultaneamente,
recebendo a designação de acontecimentos mutuamente exclusivos, incompatíveis ou disjuntos.
Qualquer acontecimento e o seu complementar, A e Ac, constituem exemplos de acontecimentos
disjuntos.
3.6. Probabilidade
Uma vez definidos o espaço amostral e os acontecimentos aleatórios, pode associar-se uma
probabilidade a cada um desses acontecimentos, podendo entender-se por tal uma medida
relativa da sua possibilidade de ocorrer, compreendida entre os valores extremos de 0
(impossibilidade de ocorrência ou acontecimento impossível) e de 1 (certeza de ocorrência ou
acontecimento certo).
Segundo a definição mais usual, a probabilidade de um acontecimento A de um espaço
amostral Ω, P(A), é um número não negativo que deve satisfazer os seguintes axiomas:
(a) 0 P(A) 1;
(b) P(Ω)=1; e
(c) para qualquer sequência de acontecimentos mutuamente exclusivos E1, E2, ... E∞, a
probabilidade da união desses acontecimentos é igual à soma das respectivas
probabilidades individuais, ou seja, Ρ
(
∞
i =1
)
Ei =
∞
i =1
Ρ (E i ) .
Dos anteriores axiomas, decorrem os seguintes corolários:
• P(Ac)=1-P(A)
• P(Ø)=0
• Se A e B são dois acontecimentos do espaço amostral Ω e A ⊂ B , então P(A) P(B).
• Desigualdade de Boole (ou limite da união): se A1, A2, ... , Ak são acontecimentos
definidos num espaço amostral, então, Ρ
8
(
∞
i =1
)
Ai ≤
∞
i =1
Ρ( Ai ) .
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
• Regra da adição de probabilidades: se A e B são dois acontecimentos do espaço
amostral Ω, então, Ρ( A ∪ B) = Ρ( A) + Ρ( B) − Ρ ( A ∩ B ) .
3.7. Dependência e independência estatísticas
Um acontecimento A depende estatisticamente de B se o facto de B ocorrer altera a
probabilidade de A ocorrer. Neste caso, a probabilidade de que o acontecimento A ocorra, dado
que o acontecimento B ocorreu, é referida como probabilidade condicional de A dado B e
denotada por P(A B). Em termos formais, é calculada por P(A B) = P(A ∩ B ) P(B ) . Ao
contrário, se a probabilidade de ocorrência do acontecimento A não é afectada pela ocorrência
de B, ou seja, se P( A B) = P(A ) , então A é dito estatisticamente independente de B sendo a
probabilidade da ocorrência simultânea dos acontecimentos A e B dada por P(A∩B)=P(A).P(B).
Exercício 1 – Considera-se que dois acontecimentos naturais podem produzir a ruptura de uma dada barragem situada
numa região pouco monitorizada do ponto de vista hidrológico e sujeita a tremores de terra: a ocorrência de um
caudal de ponta de cheia superior ao caudal de projecto do descarregador de superfície (acontecimento A) e o
colapso estrutural devido a um tremor de terra (acontecimento B). Admitindo que as probabilidades anuais dos
anteriores acontecimentos são, respectivamente, P(A)=0.02 e que P(B)=0.01, estime a probabilidade da barragem
romper num ano qualquer.
Solução: A ruptura da barragem pode ser devida a uma cheia, a um tremor de terra ou à acção conjunta dos dois
acontecimentos; tratando-se, portanto, de um acontecimento composto pela união dos acontecimentos A e B, a
respectiva probabilidade é dada por Ρ (A ∪ B) = Ρ( A) + Ρ (B) − Ρ (A ∩ B) , sendo que não se conhece Ρ (A ∩ B) . No
pressuposto de que, mesmo que exista alguma dependência estatística entre A e B, Ρ (A ∩ B) deverá apresentar um
valor muito baixo e atendendo à desigualdade de Boole, resulta, de modo conservador, que
Ρ (A ∪ B ) ≅ Ρ (A ) + Ρ ( B) =0.02+0.01=0.03. Admitindo-se que os acontecimentos A e B são independentes, obter-seia Ρ (A ∪ B) = Ρ ( A ) + Ρ ( B) − P ( A ) P ( B) = 0.0298 .
3.8. Variáveis aleatórias discretas e contínuas
Seja E uma experiência aleatória e Ω o respectivo espaço amostral. Por variável aleatória
entende-se uma função X que associa a cada elemento s∈Ω um número x(s).
Para melhor explicitar o significado de X, considere-se a experiência E: {lançamento
simultâneo de duas moedas distinguíveis entre si} cujo espaço amostral é Ω:{ff, cc, fc, cf}, onde
f simboliza ‘face’ ou ‘cara’, e c ‘coroa’. Se a variável X for definida como o número de
‘faces’/‘caras’ decorrentes da mencionada experiência, os seus valores possíveis são os indicados
na Tabela 3.
Tabela 3 – Número de ‘faces’ resultantes do lançamento simultâneo de duas moedas.
Acontecimento
A:{ff}
B:{cc}
C:{fc}
D:{cf}
Valores da variável aleatória X
x=2
x=0
x=1
x=1
9
Probabilidade de ocorrência
0.25
0.25
0.25
0.25
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Em condições normais de realização da experiência, os acontecimentos A, B, C e D são
considerados equiprováveis, ou seja, P(A)=P(B)=P(C)=P(D)=0.25. As probabilidades de que a
variável aleatória X assuma cada um dos seus possíveis valores são: P(X=2)=P(A)=0.25,
P(X=0)=P(B)=0.25 e P(X=1)=P(C∪D)=P(C)+P(D)=0.50; observe-se que os acontecimentos C
e D são disjuntos e, em consequência, P(C ∩ D) = 0. Neste exemplo, a variável aleatória X
apenas pode assumir valores positivos e inteiros, em conformidade com as possíveis realizações
da experiência E, no espaço amostral Ω. Em geral, a notação usada para expressar a
probabilidade de uma variável aleatória X assumir um dado valor x é P(X = x )=p X (x ) ou
simplesmente P(X = x )=p(x ) .
•
Variável aleatória discreta
Uma variável aleatória discreta pode assumir somente valores inteiros, correspondendo a
espaços amostrais finitos ou infinitos, porém susceptíveis de serem enumerados, ou seja, espaços
amostrais numeráveis. No caso da experiência E:{lançamento simultâneo de duas moedas
distinguíveis entre si} a que se refere a Tabela 3, sendo X o número de ‘caras’ obtidas num
lançamento, X é uma variável aleatória discreta.
•
Variável aleatória contínua
Uma variável aleatória contínua pode assumir qualquer valor real num dado intervalo,
correspondendo a espaços amostrais finitos ou infinitos, porém não numeráveis. Exemplificandose, considere a experiência A:{medição da precipitação diária num dado posto udométrico}. A
variável aleatória X representativa da precipitação diária máxima anual nesse posto é uma
variável aleatória contínua pois, teoricamente, pode assumir qualquer valor real entre 0 e ∞,
embora com diferentes probabilidades.
10
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
4. Funções de distribuição de probabilidade
As funções de distribuição de probabilidade são funções que descrevem o
“comportamento” de uma variável aleatória, discreta ou contínua.
Assim, para caracterizar as probabilidades associadas aos possíveis valores de variáveis
aleatórias, X, do tipo discreto, P(X = x )=p X (x ) , utilizam-se as designadas funções de
probabilidade ou funções massa de probabilidade, fmp. Qualquer fmp tem de satisfazer as
seguintes condições:
(i) p X ( x ) ≥ 0, ∀x ;e
p X (x ) = 1, ∀ x .
(ii)
A soma das ordenadas de uma fmp relativas aos sucessivos valores de x, conduz à
designada
função
acumulada
de
probabilidades,
FAP
ou
seja,
FX ( x ) = Ρ(X ≤ x ) = x ≤ x p X ( x i ) = x ≤ x p( x i ) ,. A Figura 2 ilustra as duas anteriores funções
i
i
tendo por base o exemplo da Tabela 3.
FX ( x ) =
p X (x)
pX (x)
1.0
1.0
0.5
0.5
0.0
0
1
2
0.0
0
x
1
2
x
Figura 2 – Funções massa e acumulada de probabilidades da variável aleatória discreta X do exemplo da
Tabela 3.
Se a variável aleatória X puder assumir qualquer valor real, ou seja, se for do tipo contínuo,
a função equivalente à fmp é denominada por função densidade de probabilidade, fdp. Esta
função não negativa, em geral denotada por f X ( x ) ou simplesmente por f(x), está exemplificada
na Figura 3, representando o caso limite de um polígono de frequências para uma amostra de
tamanho infinito e, portanto, com as amplitudes dos intervalos de classe a tender para zero.
É importante notar que, contrariamente à função fmp relativa ao caso discreto, a fdp num
dado ponto x0, f X ( x 0 ) não fornece a probabilidade de X para o argumento x0 e, sim, a
intensidade com que a probabilidade de ocorrerem valores menores ou iguais do que x0 se altera
na vizinhança desse argumento.
11
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
f X (x)
a
b
x
FX (x)
1
b
Ρ( a < x ≤ b ) =
f X ( x) dx = FX (b) − FX ( a)
a
a
b
Figura 3 – Funções densidade e acumulada de probabilidades de uma variável contínua.
A área entre dois limites a e b, definidos no eixo das abcissas representativo dos possíveis
valores da variável aleatória contínua, X, fornece a probabilidade de a variável estar
compreendida entre esses limites, como ilustrado na Figura 3. Portanto, para uma fdp f X ( x ) , é
válida a equação:
b
Ρ(a < X < b ) = Ρ(a ≤ X ≤ b ) = f X ( x ) dx = FX ( b) − FX ( a) = F( b) − F(a ) ..............................(1)
a
Consequentemente, ao fazer-se convergir o limite inferior da anterior integração, a, para o
correspondente limite superior, b, a representação da área do gráfico entre aqueles limites tende,
por assim dizer, para uma recta no plano real com área, por princípio, nula. Conclui-se, portanto,
que, para uma variável aleatória contínua X, P(X=x)=0.
Em correspondência com o caso discreto, a função acumulada de probabilidade, também
simplesmente designada por função distribuição de probabilidade, FDP, de uma variável
aleatória contínua X, representada por FX(x) ou simplesmente por F(x), fornece a probabilidade
associada a valores inferiores ou iguais ao argumento x, ou seja, a probabilidade de
não-excedência de x, Ρ(X ≤ x ) . Inversamente, a fdp correspondente pode ser obtida pela
diferenciação de FX(x), em relação a x. Tal como no caso discreto, a FDP de uma variável
aleatória contínua é uma função não decrescente, sendo válidas as expressões FX(- )=0 e
FX(+ )=1.
12
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Exercício 2 – Considere que a Figura 4 representa a função densidade de probabilidade da variável aleatória
contínua ‘caudal médio diário máximo anual (m3/s)’, numa dada estação hidrométrica. Determine: (a) P(X<100 m3/s);
(b) P(X>300 m3/s).
Solução:
f X (x )
(a) Se fX(x) é uma função densidade de probabilidades, a
área do triângulo deve ser igual a 1. Assim, (400y)/2=1, o
que resulta em y=1/200. Logo, P(X ≤ 100 m3/s),
correspondente à área do triângulo até a abcissa 100, é
(100y)/2=0.25.
y
z
0
100
300
400
x
Figura 4 – Função densidade de probabilidade
da variável aleatória contínua X.
(b) P(X>300), ou [1- P(X ≤ 300)], corresponde à área do
triângulo à direita da abcissa 300. A ordenada z pode ser
calculada por semelhança de triângulos, ou seja,
(y/z)=300/100, o que resulta em z=1/600. Logo,
P(X>300)=0.083.
13
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
5. Medidas descritivas populacionais das variáveis aleatórias
5.1. Nota prévia
A população de uma variável aleatória X corresponde ao universo ou espaço amostral dos
todos os seus possíveis resultados, cujas frequências de ocorrências podem ser sintetizadas por
uma fmp pX(x) ou por uma fdp, f X ( x ) , consoante X é uma variável aleatória discreta ou
contínua, respectivamente. Em ambos os casos e de modo equivalente às estatísticas descritivas
de uma amostra extraída daquela população, objecto do item 2, as características de forma das
funções pX(x) ou f X ( x ) podem ser sintetizadas por meio de medidas descritivas populacionais.
Tais medidas são obtidas através de médias, ponderadas por p X ( x ) ou f X (x ) , de funções da
variável aleatória e incluem o valor esperado, a variância e o coeficiente de assimetria, entre
outras.
5.2. Valor esperado
O valor esperado ou a esperança matemática de X é o resultado da soma de todos os
valores possíveis da variável aleatória, ponderados por p X ( x ) ou por f X ( x ) . O valor esperado,
denotado por E[X], equivale à média populacional, X, indicando, portanto, a abcissa do centro
de massa ou centróide das funções p X ( x ) ou f X ( x ) , pelo que tem as mesmas unidades de X. A
definição formal de E[X] é dada por:
E[X] = µ X =
x i p X (x i )
∀ x i .......................................................................................(2)
i
para o caso discreto; e por
+∞
E[X ] = µ X =
−∞
x f X ( x ) dx .................................................................................................(3)
para o caso contínuo.
O valor esperado pode ser entendido como um operador matemático e ser generalizado
para qualquer função g(X) da variável aleatória X, conforme expresso pelas equações (4) e (5)
para X discreta ou contínua, respectivamente.
E[g(X )] =
g (x i ) p X (x i )
∀ x i ......................................................................................(4)
i
E[g(X )] =
+∞
−∞
g(x ) f X (x ) dx ...................................................................................................(5)
As principais propriedades do operador valor esperado E(.) são:
• E[c]=c, para c constante.
• E[cg(X)]=cE[g(X)], para c constante e g(X) com o significado antes apresentado.
• E[c1g1(X) ± c2 g2(X)]=c1E[g1(X)] ± c2E[g2(X)], para c1 e c2 constantes e g1(X) e g2(X)
funções de X.
• E[g1(X)]
E[g2(X)], se g1(X)
g2(X).
14
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Exercício 3 – Calcule o valor esperado para a função massa de probabilidades especificada pela Figura 2.
Solução: A aplicação da equação (2) resulta em E[X]= X=0×0.25+1×0.50+2×0.25=1 que, de facto, é o centróide da
função massa de probabilidades.
Exercício 4 – Considere uma variável aleatória contínua X, cuja função densidade de probabilidade é dada por
f X (x ) = 1 θ exp (− x θ) , para x 0 e 0, tratando-se, portanto, da distribuição de probabilidade exponencial, que,
de facto, é uma família de curvas, a depender do valor numérico do parâmetro θ. Nessas condições: (a) calcule o
valor esperado de X; (b) supondo que o valor numérico de θ é igual a 2, calcule a probabilidade associada a valores
da variável aleatória superiores a 3, ou seja, P(X > 3 ) ; e (c) supondo que θ=2, calcule a mediana da variável
aleatória exponencial X.
Solução: (a) Para a distribuição em questão, E[X] = µ X =
ser resolvida por partes, ou seja, dv = (1 θ)exp (− x θ) dx
∞
∞
0
0
udv = uv ] ∞
0 − vdu = − x exp (− x θ )
∞
∞
0
x f X (x )dx =
∞
(x θ) exp (− x θ)dx . Esta integração pode
v = − exp (− x θ) e u = x
du = dx . Resulta, assim,
0
∞
] 0 − θ exp(− x θ)] 0 = θ . Portanto, para a forma paramétrica exponencial, o
valor esperado, ou seja, a média da população X é igual ao parâmetro ; por outras palavras, a abcissa do centróide
da função densidade de probabilidade, fdp, exponencial é θ. (b) A probabilidade pedida é calculada por
P(X > 3) = 1 − P (X ≤ 3) = 1 − FX (3) em que FX (x ) é a função distribuição de probabilidade, FDP, dada por
FX (x ) =
x
(1 θ)exp (− x θ)dx e cuja solução é FX (x ) = 1 − exp (− x θ) . Para os dados do exercício,
P(X > 3) = 1 − 1 + exp (− 3 2) = 0.2231 . (c) A mediana é o valor de x que corresponde a
P(X ≥ x ) = P(X ≤ x ) = FX (x ) = 0.50 . Invertendo-se a função FX (x ) , obtém-se x (F ) = − θ ln (1 − F) . Para os dados do
exercício, a mediana é x (0.50) = −2 ln(1 − 0.50) = 1.39 .
0
5.3. Variância, desvio-padrão e coeficiente de variação da população
A variância da população de uma variável aleatória X, representada por Var[X] ou por
σX , é definida como sendo o momento central de segunda ordem, ou 2, e corresponde à medida
populacional mais frequentemente utilizada para caracterizar a dispersão das funções massa,
pX(x), ou densidade, f X ( x ) de probabilidade. Obtém-se, assim:
2
[
] [
]
Var [X ] = σ 2X = µ 2 = E (X − µ X ) 2 = E (X − E[X] ) 2 ............................................................(6)
Expandindo o quadrado contido na anterior equação e usando as propriedades do
operador esperança matemática, resulta:
[ ]
Var [X] = σ 2X = µ 2 = E X 2 − (E[X]) 2 ....................................................................................(7)
Logo, a variância populacional de uma variável aleatória X é igual ao valor esperado do
quadrado dessa variável menos o quadrado do valor esperado de X, ou seja, o quadrado da média
de X. A variância de X tem as mesmas unidades de X2 e as seguintes propriedades:
• Var[c]=0, para c constante.
• Var[cX]=c2Var[X].
• Var[cX+d]=c2Var[X], para d constante.
15
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
De modo equivalente às estatísticas descritivas amostrais, o desvio-padrão da população
2
X é a raiz quadrada (positiva) da variância, σ X , possuindo, portanto, as mesmas unidades de X.
Define-se, igualmente, uma medida relativa adimensional da dispersão de pX(x) ou f X ( x ) por
meio do coeficiente de variação populacional CVX , dado por:
CVX =
σX
µX
.............................................................................................................................(8)
Exercício 5 – Calcule a variância, o desvio-padrão e o coeficiente de variação para a função massa de probabilidade
especificada pela Figura 2.
A aplicação da equação (7) requer o cálculo de E[X2] para o qual resulta
x 2i p X (x i ) = 02×0.25+12×0.5+22×0.25=1.5. Atendendo a que, de acordo com o exercício 3, E[X]= X=1,
Solução:
E [X2] =
i
obtém-se para a equação (7), Var [X] =
variação, CVX = 0.71/1.0=0.71.
2
X
=1.5-1.02=0.5. O desvio padrão é, portanto,
X=
0.71 e o coeficiente de
5.4. Coeficiente de assimetria
O coeficiente de assimetria
definida por
γX =
[
µ3
E (X − µ X )
=
3
(σX )
(σX ) 3
3
]
X
de uma variável aleatória X é uma grandeza adimensional
................................................................................................(9)
O numerador do segundo membro da equação (9) é o momento central de ordem 3, ou
seja, é o valor esperado do cubo dos desvios da variável aleatória X em relação à respectiva
média X, podendo ser positivo, negativo ou nulo. Se tal numerador e, consequentemente, o
coeficiente de assimetria, forem nulos, a função densidade (ou massa) de probabilidade será
simétrica. Se os valores de X superiores à média X estiverem relativamente muito mais afastados
do que os inferiores, os cubos dos desvios positivos irão prevalecer sobre os negativos e o
coeficiente X será positivo, configurando uma função densidade (ou massa) com assimetria
positiva. Caso contrário, ter-se-á uma função densidade (ou massa) de probabilidade com
assimetria negativa.
A Figura 5 ilustra três funções densidades de probabilidade: uma simétrica, portanto, com
o coeficiente de assimetria nulo, outra com assimetria positiva igual a =1.14 a e a terceira com a
assimetria negativa de =-1.14.
Outras medidas, como os momentos de ordens superiores a 3 e o coeficiente de curtose,
embora constituam importantes complementos para a caracterização da forma das funções
densidade (ou massa) de probabilidade, encontram aplicações menos frequentes na modelação de
variáveis aleatórias hidrológicas. Ao leitor interessado em aprofundar os seus conhecimentos
sobre estes tópicos, recomenda-se a consulta dos livros de Rao e Hamed (2000) e Hosking e
Wallis (1997).
16
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
fdp
0.45
Coef. assimetria nulo
Coef. assimetria de 1.14
Coef. assimetria de -1.14
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
-2
-1
0
1
2
3
4
5
6
7
8
x
Figura 5 – Exemplos de funções densidade (ou massa) de probabilidade simétricas e assimétrica.
17
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
6. Modelos de distribuição de probabilidades de variáveis aleatórias discretas
6.1. Nota prévia
Um modelo de distribuição de probabilidades é uma forma matemática abstracta capaz de
representar, de modo conciso, as variações contidas numa amostra de uma variável aleatória. Um
modelo de distribuição de probabilidades também é uma forma paramétrica, ou seja, é um
modelo matemático contendo parâmetros, cujos valores numéricos o definem completamente e o
particularizam para uma dada amostra de uma variável aleatória. Uma vez estimados os valores
numéricos desses parâmetros, o modelo de distribuição de probabilidades passa a caracterizar o
comportamento plausível da variável aleatória a que respeita aquela amostra podendo, como tal,
ser utilizado para interpolar ou extrapolar probabilidades e/ou quantis não contidos na mesma.
Os principais modelos de variáveis aleatórias discretas que encontram aplicações em
hidrologia estão relacionados com repetições independentes dos chamados processos de
Bernoulli. Estes modelos são as distribuições geométrica e binomial que a seguir se descrevem
de modo sucinto.
6.2. Distribuição geométrica. Período de retorno
Por prova de Bernoulli entende-se a experiência aleatória em que somente dois resultados
dicotómicos são possíveis: “sucesso” ou “falha”, “sim” ou “não”, “0” ou “1”, “positivo” ou
“negativo” são exemplos. Tal conceito serve de base a várias distribuições teóricas.
Suponha-se que a escala temporal associada a uma determinada variável aleatória foi
discretizada em intervalos com amplitude definida, por exemplo, em intervalos anuais. Suponhase também que, em cada intervalo de tempo, possa ocorrer um único ‘sucesso’, com
probabilidade p, ou uma única ‘falha’, com probabilidade (1-p), e que essas probabilidades não
são afectadas pelas ocorrências anteriores, nem afectem as ocorrências posteriores. O processo
composto pela anterior sequência de repetições independentes de uma prova de Bernoulli
constitui uma sucessão de provas de Bernoulli.
Para melhor ilustrar a aplicação dos processos de Bernoulli à hidrologia, considere que o
caudal médio diário correspondente ao extravasamento/transbordamento de uma secção
transversal de um curso de água é Q0, conforme se esquematiza na Figura 6. Considere, ainda,
que, em tal secção, o regime fluvial se encontra em regime natural (ou seja, não é influenciado
pelo Homem), que se dispõe na mesma de registos contínuos durante N anos de caudais médios
diários - série completa de caudais médios diários – e que, para analisar as condições de
transbordamento da secção, se constitui a série de caudais médios diários máximos anuais
formada em cada ano pelo máximo caudal médio diário nesse ano, Q max – série reduzida de
Q max , com dimensão N, representada na Figura 6. Em qualquer ano i, com 1 i N, o ‘sucesso’,
em termos de transbordamento, é dado pelo acontecimento S: Qmax
> Q0 , sendo a ‘falha' o
i
{
{
}
}
acontecimento complementar F: Qmax
≤ Q0 . Tratando-se de um problema de génese de cheias
i
num trecho fluvial em regime natural, é válido admitir que a probabilidade de ocorrência de um
‘sucesso’ (ou de uma ‘falha’), em um ano qualquer, não é afectada pelas ocorrências em anos
anteriores e em nada afecta as ocorrências em anos posteriores. Supondo que a probabilidade
anual do acontecimento S : Qmax
> Q0 é igual a p, verifica-se, assim, o preenchimento de todos
i
os requisitos para considerar essa sequência independente como um processo de Bernoulli.
{
}
18
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
2
Q max
1
Qimax
k
Q0
sucesso
Q0
falha
....
1 2
i
N
Índice de ano
Figura 6 – Cheias máximas anuais como ilustração de um processo de Bernoulli.
A variável aleatória discreta Y correspondente à distribuição geométrica refere-se ao
número inteiro de experiências (ou intervalos discretos de tempo) necessários para que um único
‘sucesso’ ocorra. Portanto, se o valor da variável é Y=y, isto significa que ocorreram (y-1)
‘falhas’ antes da ocorrência do ‘sucesso’, exactamente, na y-ésima tentativa. As funções massa e
acumulada da distribuição geométrica são dadas pelas seguintes equações:
p Y (y ) = p(y ) = p (1 − p ) y−1, y = 1, 2, 3, ...∞ e 0 < p < 1 ..........................................................(10)
FY ( y ) = F( y) =
y
p (1 − p ) i −1, y = 1, 2, 3, ..., ∞ .....................................................................(11)
i =1
nas quais a probabilidade anual de ocorrência de um ‘sucesso’, p, representa o único parâmetro
da distribuição. Demonstra-se que valor esperado de uma variável geométrica, resultado da
soma infinita de termos, decorrente da aplicação da equação (2), é
E[Y] =
1
..........................................................................................................................(12)
p
ou seja, quando o número de repetições (ou intervalos discretos de tempo) tende para infinito, o
valor médio de uma variável geométrica é o inverso da probabilidade de ‘sucesso’ p.
Introduza-se, neste ponto, um conceito de grande importância em hidrologia, que é o de
período de retorno. Para tanto, considere-se que, nas condições da Figura 6, a variável designa
o número de anos entre ‘sucessos’ (transbordamentos) consecutivos. Adoptando-se para origem
da escala de tempos o ano do primeiro ‘sucesso’, a Figura 6 indica que seriam necessários 1=3
anos para uma nova ocorrência do acontecimento S: Qmax
i = 4 > Q 0 . A partir do segundo ‘sucesso’,
2=1 ano e assim sucessivamente até k =5 anos. Se, por hipótese, N=50 anos e se nesse período
de tempo tivessem ocorrido 5 ‘sucessos’, depreender-se-ia que o número de anos que, em média,
{
19
}
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
separaria as ocorrências de caudais superiores a Q0 seria de τ =10 anos, significando que o
caudal Q0 é superado com a frequência anual média de 1 a cada 10 anos.
É fácil verificar que a variável se enquadra integralmente na definição de uma variável
aleatória discreta geométrica e que, portanto, a ela se podem associar as características
populacionais definidas pelas equações (10), (11) e (12). Em particular, pode definir-se o período
de retorno, denotado por T e expresso em anos, como o valor esperado da variável geométrica .
Com essa definição e usando a equação (12), resulta:
T = E[τ] =
1
....................................................................................................................(13)
p
O período de retorno, T, não se refere, portanto, a um ‘tempo cronológico’. De facto, T é
uma medida da tendência central dos ‘tempos cronológicos’. Por outras palavras, o período de
retorno, T, associado a um certo acontecimento de referência de um processo de Bernoulli
necessariamente definido numa base temporal anual, corresponde ao número médio de anos
necessários para que o acontecimento ocorra num ano qualquer desses anos e é igual ao
inverso da probabilidade de esse acontecimento ocorrer num ano qualquer desses anos, ou
seja, é igual ao inverso da probabilidade anual de ocorrência desse acontecimento.
Em hidrologia, o conceito de período de retorno é vulgarmente utilizado, por exemplo, no
estudo probabilístico de acontecimentos máximos anuais, tais como caudais instantâneos ou
diários máximos anuais ou, ainda, precipitações máximas anuais com dada duração. Tais
variáveis aleatórias são contínuas e, portanto, têm o seu comportamento definido por funções
densidade de probabilidade genericamente designadas por f X (x ) . Se, para uma dessas variáveis,
denotada por X, se definir um quantil de referência xT, de modo que o ‘sucesso’ seja a ocorrência
de valores superiores a xT, então, o período de retorno, T, associado a esse quantil de referência á
dado pelo número médio de anos necessário para que o acontecimento {X>xT} ocorra uma vez,
num qualquer desses anos. De acordo com a equação (13), resulta que o período de retorno
corresponde ao inverso de P(X>xT), ou seja, ao inverso de [1− FX (x T )] .
Exercício 6 – Considere a situação descrita no exercício 2, na qual a variável X se refere ao caudal médio diário
máximo anual (m3/s). Determine: (a) o período de retorno para x=300 m3/s; e (b) o caudal médio diário máximo anual
com o período de retorno T=50 anos.
Solução: (a) Estando-se em presença de uma variável definida numa base anual é válido aplicar a noção de período
de retorno. Atendendo a que tal período é dado pelo inverso da probabilidade de excedência e tendo-se estimado no
exercício 2 que P(X>300)=0.083 resulta que o período de retorno associado a esse caudal é de T=1/0.083=12.05
anos. (b) Ao período de retorno de T=50 anos corresponderá um caudal x50 compreendido entre 300 e 400 m3/s já que
P(X>x50)=[1- P(X ≤ x50)]=0.02. De entre as possíveis vias de resolução do problema, optou-se por atender à equação
da recta que passa pelos pontos (100; 1/200) e (400; 0) dada por fX(x)=f(x)=-x/60000+1/150. De acordo com o
pretendido, a área do triângulo com base dada pelo segmento de recta definido pelas abcissas x50 e 400 e com altura
dada por f(x50)=-x50/60000+1/150 é igual a 0.02, ou seja (400-x50)(-x50/60000+1/150)/2=0.02. A anterior equação do
segundo grau tem duas raízes, uma maior do que 400 m3/s e que, portanto, está fora do domínio de definição de X, e a
outra de sensivelmente x50=351 m3/s e que constitui a solução do problema. Nesse ponto, o valor de fX(x) é de
aproximadamente 0.000817, verificando-se que se obtém de facto para a área do triângulo 0.000817 (400351)/2=0.02.
20
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
6.3 Distribuição Binomial. Risco hidrológico
Ainda referente ao processo de Bernoulli anteriormente descrito, considere-se que a
variável aleatória discreta Y representa o número de ‘sucessos’, de entre N possibilidades (ou
intervalos discretos de tempo). A variável Y pode ter qualquer valor entre 0, 1, ... , N. Em
resultado da hipótese de independência entre as experiências de Bernoulli, cada ponto do espaço
amostral com y ‘sucessos’ e (N-y) ‘falhas’ terá probabilidade de ocorrência igual a p y (1 − p )N − y .
Entretanto, os y ‘sucessos’ e as (N-y) ‘falhas’ podem ser combinados de N! [y! (N − y )! ] modos
diferentes, cada um deles com probabilidade igual a p y (1 − p )N − y . Portanto, a fmp da variável Y é
dada por
p Y (y ) =
N y
N!
p y (1 − p )N − y =
p (1 − p )N − y , y = 0,1, ... , N e 0 < p < 1 ........................ (14)
y
y !(N − y )!
que constitui a distribuição binomial, com parâmetros N e p. A FAP da distribuição binomial
fornece a probabilidade de X ser menor ou igual ao argumento x e é dada por
FY ( y ) =
y
i =0
N i
p (1 − p )N − i , y = 0,1, 2, ..., N .................................................................................... (15)
i
O valor esperado e a variância da distribuição binomial são respectivamente iguais a Np e
Np(1-p). A fmp binomial é simétrica quando p=0.5 e apresenta assimetria positiva, se p<0.5, e
negativa, em caso contrário.
Exercício 7 – Nas condições da Figura 6, suponha-se que a dimensão da séries caudais médios diários máximos
caudais, Qmax, é de N=10 anos e que o período de retorno associado ao caudal Q0 é de 4 anos. Pergunta-se: (a) qual é
a probabilidade de que o caudal Q0 tenha sido superado exactamente em 2 dos 10 anos? (b) qual é a probabilidade de
que o caudal Q0 tenha sido superado em pelo menos 2 dos 10 anos?
Solução: É fácil verificar que o cenário ilustrado pela Figura 6 se adequa a um processo de Bernoulli e a variável
‘número de sucessos em N anos’, a uma variável binomial Y. (a) A probabilidade de que o caudal Q0 tenha sido
superado exactamente 2 vezes em 10 anos pode ser calculada directamente pela equação 14, sabendo-se que a
probabilidade anual p (de ‘sucesso’) é o inverso do período de retorno T=4 anos, ou seja, p=0,25. Logo,
p Y (2) = [10! (2! 8!)]0.25 2 ( 1 − 0.25) 8 = 0.2816. (b) A probabilidade de que o caudal Q0 tenha sido excedido pelo menos
2 vezes em 10 anos é igual à probabilidade de que o acontecimento tenha ocorrido 2, 3, 4, ... , 10 vezes, em 10 anos,
ou seja, é igual à soma dos resultados da função massa para todos os argumentos compreendidos entre 2 e 10,
inclusive. Entretanto, tal cálculo é equivalente ao cálculo do complementar, em relação a 1 ocorrência, da soma das
probabilidades de que o acontecimento não tenha ocorrido ou que tenha ocorrido apenas 1 vez. Portanto, nesse
entendimento, Ρ(Y ≥ 2) = 1 − Ρ(Y < 2) = 1 − pY (0) − pY (1) = 0.7560 .
Um conceito associado ao período de retorno refere-se à definição de risco hidrológico, tal
como aplicado em projectos de estruturas hidráulicas de controlo de cheias ou de desvio
provisório de um curso de água durante as obras de construção de uma barragem.
Seja xT o valor da variável hidrológica, por exemplo, caudal de ponta de cheia, para o
período de retorno T. Nestas condições, o risco hidrológico, R, não é mais do que a probabilidade
de ocorrer um ou mais valores da variável hidrológica iguais ou superiores a xT num período de N
anos. Em geral, o quantil de referência xT corresponde à cheia para a qual foi projectada a
estrutura hidráulica, enquanto o período de N anos corresponde à sua vida útil da obra ou período
durante o qual é necessário assegurar o desvio do curso de água. A dedução da expressão do
21
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
risco hidrológico, R, pode recorrer à distribuição binomial. Com efeito, a probabilidade de que
pelo menos um ‘sucesso’ ocorra num período de N anos é equivalente à probabilidade do
acontecimento complementar, em relação a 1, de que nenhum ‘sucesso’ ocorra nesse período.
Portanto, usando a notação Y para o número de ‘sucessos’ em N anos, tem-se que
R = Ρ(Y ≥ 1) = 1 − Ρ(Y = 0 ) = 1 −
N 0
p (1 − p ) N − 0 ............................................................(16)
0
Se o quantil de referência xT tem período de retorno T, a probabilidade de um ‘sucesso’, em
um ano qualquer, é igual a 1 T . Substituindo este resultado na equação (16), segue-se que
1
R =1− 1−
T
N
................................................................................................................(17)
Um raciocínio alternativo, embora simplificado, para alcançar a noção de risco hidrológico
utiliza fundamentalmente o conceito de período de retorno e a independência temporal dos
“sucessos” ou dos “insucessos”. Com efeito, representando xT o valor da variável hidrológica
com o período de retorno T, a probabilidade de, em qualquer ano, ocorrer xT é, como antes
afirmado, igual a 1/T. Logo, a probabilidade de xT não ocorrer em qualquer ano é 1-1/T.
Atendendo a que a não ocorrência de xT num dado ano em nada altera a probabilidade de não
ocorrer no ano ou nos anos seguintes (pois os acontecimentos são independentes) concluiu-se
que a probabilidade de xT não ocorrer em nenhum dos N anos do período considerado é de
(1-1/T)N. Logo, o risco hidrológico, sendo a probabilidade de xT ocorrer uma ou mais vezes
durante esses N anos, não é mais do que o acontecimento complementar daquele outro
acontecimento, correspondendo-lhe, portanto, uma probabilidade complementar, do que
precisamente resulta a equação 17.
Se o risco hidrológico foi fixado à priori, por exemplo, em função da tipologia, da
importância e das dimensões da estrutura hidráulica, bem como das consequências (incluindo
eventual danos materiais e perda de vidas humanas) do seu eventual colapso, pode empregar-se a
equação 17 para determinar o período de retorno que deve ser adoptado como critério de
projecto, em face do período de vida útil da obra de N anos a que tal critério de projecto se
aplica.
Exercício 8 – A Figura 7 mostra o esquema do desvio provisório de um rio durante a construção de uma barragem,
compreendendo a execução de duas ensecadeiras A e B e de um túnel de desvio provisório inserido na margem
direita e iniciando-se a montante da ensecadeira de montante e finalizando a jusante da ensecadeira de jusante.
A
B
T
Figura 7 – Esquema de
desvio provisório de um rio.
Deste modo e até dadas condições de projecto, não
existirão caudais circulantes no trecho fluvial
compreendido entre ensecadeiras. Suponha-se que o
período de construção da obra é de 5 anos e que o risco de
inundação do trecho fluvial entre ensecadeiras foi fixado
em 10% (probabilidade de a capacidade de vazão do túnel
ser excedida e de as ensecadeiras serem galgadas uma ou
mais vezes durante o período de construção de apenas
10%). Com base nesses elementos, determine o período de
retorno do caudal de ponta de projecto a considerar no
dimensionamento do túnel e na fixação da cota do topo das
ensecadeiras.
22
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Solução: A inversão da equação 17 fornece para T:
T=
1
1 − (1 − R )1 N
Para R=0.10 e N=5 a anterior equação conduz a T=47.95 anos. Deste modo, a secção transversal do túnel e a cota do
topo das ensecadeiras devem ser dimensionadas para o caudal de ponta de cheia com período de retorno de
aproximadamente 50 anos.
23
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
7. Modelos de distribuição de probabilidades de variáveis aleatórias contínuas
De modo análogo às variáveis aleatórias discretas, existe um grande conjunto de modelos
probabilísticos para as variáveis aleatórias contínuas, com funções densidade de probabilidade,
fdp, e distribuição de probabilidade, FDP, definidas por parâmetros. A partir desse conjunto,
elaboraram-se as Tabelas 4 e 5 contendo uma lista não exaustiva dos modelos com maior
aplicação às variáveis hidrológicas, bem como a especificação dos respectivos parâmetros e
características principais.
De acordo com as características intrínsecas mais vulgarmente patentes nas amostras de
certas variáveis hidrológicas, especificam-se, seguidamente, alguns dos modelos probabilísticos
que previsivelmente melhor se adequam a essas variáveis. Assim, (i) as distribuições Normal e
log-Normal ou de Galton são frequentemente aplicáveis a valores anuais da precipitação e do
escoamento; (ii) as distribuições log-Normal, de Gumbel para máximos ou Gumbel Max (por
regra, referenciada apenas por distribuição de Gumbel), Pearson III, log-Pearson III e
Generalizada de Valores Extremos (GEV), a valores extremos máximos, tais como, precipitações
máximas anuais com dada duração ou caudais instantâneos máximos anuais; e (iii) os modelos de
Gumbel para mínimos ou Gumbel Min e de Weibull, a valores mínimos, por exemplo, de
estiagem, tais como caudais médios diários ou, ainda, em períodos de 7 dias, uns e outros,
mínimos anuais. A previsível adequação de alguns modelos a dadas variáveis hidrológicas
decorre, quer de considerações teóricas, quer de certas características de forma das distribuições
de probabilidades, com ênfase, para as referentes à assimetria.
Anota-se que a distribuição log-Normal aplica o formalismo da distribuição Normal à
transformada logarítmica da variável aleatória objecto desta última distribuição, passando-se
outro tanto entre as distribuições log-Pearson III e Pearson III.
A adequação da distribuição Normal à descrição de algumas variáveis hidrológicas resulta
do chamado teorema do limite central, segundo o qual a soma (ou a média) de um grande
número de variáveis aleatórias independentes tende a ser normalmente distribuída. Raciocínio
análogo pode ser elaborado para a distribuição log-Normal, no que respeita ao produto de um
grande número de variáveis independentes.
No caso de valores máximos ou mínimos, a teoria de valores extremos fornece as bases
teóricas para a utilização dos modelos que dela derivam, nomeadamente, as distribuições Gumbel
Max e GEV, para máximos, e as de Gumbel Min e Weibull, para mínimos. Apesar de a aplicação
dessas considerações teóricas às variáveis hidrológicas não ser isenta de controvérsia – ver, por
exemplo, Benjamin e Cornell (1970) ou Naghettini e Pinto (2007) –, por regra, os modelos das
Tabelas 4 e 5 e as indicações de algumas das suas potenciais aplicações são adequadas.
Para ilustrar o cálculo de probabilidades com distribuições de variáveis aleatórias
contínuas, considere-se o caso da distribuição Normal a qual descreve o comportamento de uma
variável aleatória contínua X que se dispõe simetricamente em torno de um valor central (a
média), com funções densidade, fdp, e distribuição, FDP, de probabilidades definidas pelos
parâmetros de posição (média), µX, e de escala (desvio-padrão), σX, de acordo com as equações
da Tabela 4.
24
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 4 – Principais modelos de distribuição de probabilidades de variáveis aleatórias contínuas hidrológicas e hidrometeorológicas.
Distribuição
Aplicação
Variável
Função distribuição de
probabilidade, FDP
[Fx(x) ou FY(y)]
Função densidade de probabilidade, fdp
[fx(x) ou fY(y)]
Domínio
Parâmetro
Posição
Escala
Forma
σX
-------
x
Normal
M/T
log-Normal
ou de Galton
M/T
Max
X
Y = ln(X)
f X ( x) =
( −∞, +∞ )
f Y ( y) =
[ 0, +∞ )
1
σ X 2π
1
σ Y 2π
exp −
exp −
com Z =
2
X
( −∞,+∞ )
f X (x ) =
1
x−β
x −β
exp −
− exp −
α
α
α
Pearson III
Max
X
α ≥ 0: [δ,∞)
α<0: (-∞,δ]
f X (x ) =
1
x−δ
α Γ(β) α
log-Pearson
III
Max
Y = ln(X)
αY ≥ 0: [exp( δY ),∞)
αY<0: (-∞,exp( δY
)]
κ<0: x > (β + α ) κ
GEV
Max
X
κ<0: x < (β + α ) κ
f Y ( y) =
f X (x ) =
1
y − δY
α Y Γ(β) α Y
1
x −β
1− κ
α
α
exp − exp −
µY
exp − 1 − κ
x −β
α
(>0)
f X (x )dx
δ
α
f Y (y )dy
δY
αY
β
(>0)
β
(>0)
δY
1κ
exp − 1 − κ
x−β
α
Min
X
( −∞,+∞ )
Weibull
Min
X
[ 0, +∞ )
Observações:
f X (x ) =
1
x −β
x−β
exp
− exp
α
α
α
f X (x ) =
α x
β β
α −1
exp −
x
β
1 − exp − exp
α
1 − exp −
x −β
α
x
β
α
-------
α
α
∞
0
x β−1 exp( − x )dx (ver resolução do Exercício 10 e o Anexo 4 de Naghettini e Pinto, 2007).
3) A distribuição GEV, para κ=0, torna-se na distribuição de Gumbel Max ou simplesmente de Gumbel.
25
------β
(>0)
βY
(>0)
κ
-------
β
α
(>0)
(>0)
1) Distribuições adequadas a amostras de valores: M/T, médios ou de totais anuais; Max e Min: extremos, incluindo, respectivamente, máximos anuais e mínimos anuais.
2) Γ(β)=função Gama completa para o argumento β ou Γ (β) =
-------
1κ
κ=0: GEV≡Gumbel
Gumbel Min
α
β
δ
y
y − δY
αY
1 κ −1
x −β
α
σY
(>0)
x
x−δ
α
exp −
(>0)
σX
y
−∞
Max
β Y −1
X − µX
f Y (y )dy
Gumbel Max
(ou apenas
Gumbel)
exp −
µX
−∞
1 y − µY
2
σY
β −1
f X (x ) dx ou Φ (z )
2
1 x − µX
2
σX
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 5 – Principais características das distribuições de probabilidades de variáveis aleatórias contínuas hidrológicas e hidrometeorológicas.
Parâmetro
Distribuição
Variável
Normal
X
Posição
Escala
Forma
Média E[X] ou, havendo
variável transformada Y,
médias E[X] e E[Y]
µX
σX
(>0)
-------
µX
X
log-Normal
ou de Galton
Gumbel Max
(ou apenas
Gumbel)
Pearson III
log-Pearson
III
Y=
ln(X)
µY
Gumbel Min
(ver obs. 1)
α
X
β
(>0)
X
δ
α
-------
Y=
ln(X)
X
σ 2X
0
σ 2Y
2
[ ( ) ]
σ 2X = µ 2X exp σ 2Y − 1
δY
αY
αβ + δ
α 2β
(>0)
β
exp (δ Y )
Y
(>0)
1
1− α Y
βY
1
1 − 2α Y
e2δ Y
α
(>0)
κ
β+
exp [µ Y + z (F )σ Y ]
γY = 0
com z (F ) = Φ −1 (F )
+1,1396
β − α ln [− ln (F )]
2
Não há forma analítica
simples para a função
(ver Rao e Hamed, 2000)
( )
βY
−
1
1−αY
2β Y
[ ] − 3 E[X]E[X ] + 2 {E[X]}
E X3
α
κ
2
[Γ(1 + 2κ) − Γ
3
2
3 2
{Var [X ]}
(ver Griffis e Stedinger, 2007)
Não há forma analítica
simples para a função
(ver Rao e Hamed, 2000)
2
α Y 2 βY
α
[1 − Γ(1 + κ )]
κ
µ Y + z(F ) σ Y
β
(ver Griffis e Stedinger, 2007)
α Y βY + δY
β
γ X = 3 CVX + ( CVX ) com
σ
CVX = X = exp σ 2Y − 1
µX
σ 2Y
π 2α 2
6
Função de quantis
x(F) ou havendo variável
transformada Y, funções
de quantis x(F) e y(F)
µ X + z(F ) σ X
com
z(F ) = Φ −1 (F )
3
β + 0.577216 α
β
X
βY
2
(1 + κ )]
[− Γ(1 + 3 κ ) + 3Γ(1 + κ )Γ(1 + 2 κ ) −
][
]
− 2Γ 3 (1 + κ ) / Γ (1 + 2 κ) − Γ 2 (1 + κ )
32
β+
{
α
1 − [− ln (F )] k
κ
multiplicar o resultado por -1 se κ for negativo.
X
β
Weibull
(ver obs. 1)
-------
Coeficiente de assimetria γ X ou,
havendo variável transformada Y,
coeficientes de assimetria γ X e γ Y
µY
GEV
(ver obs. 1)
σY
(>0)
µ X = exp µ Y +
Variância Var[X] ou, havendo
variável transformada Y,
variâncias Var[X] e Var [Y]
X
-------
α
(>0)
-------
β
α
(>0)
(>0)
π 2α2
6
β − 0.577216 α
1
βΓ 1+
α
Observação: 1) Γ(β)=função Gama completa para o argumento β ou Γ (β) =
2
1
β Γ 1+
− Γ2 1 +
α
α
2
∞
0
β + α ln [− ln (F )]
-1.1396
Γ 1+
3
2
1
1
− 3Γ 1 + Γ 1 +
+ 2Γ3 1 +
α
α
α
α
Γ 1+
2
1
− Γ2 1 +
α
α
3
β [− ln (F)]1 / α
x β−1 exp( − x )dx (ver resolução do Exercício 10 e o Anexo 4 de Naghettini e Pinto, 2007).
26
}
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
A FDP de uma variável normal requer uma integração sem solução analítica sendo que a
correspondente solução numérica depende, por sua vez, dos valores numéricos dos parâmetros
µX e σX. O cálculo de probabilidades de variáveis aleatórias normais é facilitado pela utilização
da variável normal reduzida Z.
Com efeito, se X é uma variável Normal e Z é uma combinação linear de X, da forma
Z = (X − µ X ) σ X , então a variável Z, também é distribuída segundo uma lei Normal com
parâmetros µZ=0 e σZ=1. A distribuição de Z é geralmente referida como distribuição Normal
padrão N~(0,1) e a variável Z, por normal reduzida. A integração numérica da função densidade
de probabilidade da distribuição N~(0,1), para distintos argumentos z, Φ(z), encontra-se tabelada
– Tabela 6.
Dada a simetria da fdp da lei Normal e, obviamente, da lei Normal padrão, a um argumento
negativo, -z, simétrico de um outro tabelado, z, corresponde uma probabilidade de
não-excedência, Φ(-z) complementar da tabelada para aquele outro valor, ou seja, Φ(-z)=1-Φ(z).
A função Φ(z) consta também das funções implementadas no software Microsoft Excel
(DIST.NORMP e NORMSDIST nas versões, respectivamente, em Português e em Inglês). O
exercício 9 exemplifica o cálculo de probabilidades para a distribuição Normal.
Exercício 9 – Considere que a variável escoamento anual (m3/s) num dado curso de água em regime natural é
normalmente distribuída com média de 100 m3/s e desvio-padrão de 50 m3/s. Calcule (a) a probabilidade de
ocorrerem caudais inferiores ou iguais a 50 m3/s, ou seja, P(Q ≤ 50)=F(50); e (b) o escoamento anual com o período
de retorno T=50 anos.
Solução: (a) Por meio da transformação Z = (X − µ X ) σ X , verifica-se que a probabilidade pedida é dada por
P(Q ≤ 50)=F(50)=P(z ≤ (50-100)/50)=P(z ≤ -1)= Φ(− 1) . A Tabela 6, referente à distribuição Normal padrão, fornece
Φ( z) apenas para valores positivos de z, sendo necessário recorrer à propriedade da simetria da distribuição Normal,
ou seja, Φ(− 1) =1- Φ(+ 1) =1-0.8413=0.1587. (b) De acordo com a definição de período de retorno aplicada a uma
variável aleatória definida numa base anual, resulta que T=1/(1-F) em que F designa a probabilidade de nãoexcedência. Para T=50 anos, obtém-se F(q)=P(Q ≤ q)=0.98. De acordo com a Tabela 6 para Φ( z) =0.98 obtém-se, por
interpolação linear, z=2.054. Logo, o caudal q com T=50 anos corresponde ao quantil q=100+2.054×50 ≈ 203 m3/s.
Conforme antes mencionado, as amostras de algumas variáveis hidrológicas, tais como de
precipitações ou de caudais máximos anuais apresentam, em geral, coeficientes de assimetria
positivos e histogramas assimétricos à direita (ver Figura 5), em consequência de os processos
naturais subjacentes aos acontecimentos hidrometeorológicos e hidrológicos raros e extremos
serem normalmente caracterizados por desvios, em relação à média, dos valores extremos
superiores a essa média, consideravelmente maiores do que os desvios dos valores extremos
inferiores à média. Para o caso de valores máximos anuais, as Tabelas 4 e 5 identificam as
distribuições mais frequentemente empregadas, a saber, os modelos log-Normal ou de Galton e
de Gumbel Max (ou simplesmente de Gumbel), descritos por dois parâmetros, e os modelos
Pearson III, log-Pearson III e GEV, com três parâmetros. Deste grupo, com excepção da
distribuição Gumbel Max, cujo coeficiente de assimetria, γX, é fixo e igual a +1.1396, as
distribuições restantes possuem coeficientes de assimetria variáveis, facto que as torna mais
flexíveis no que concerne à forma (ver Tabela 5).
27
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 6 – Função distribuição de probabilidade, FDP, da distribuição Normal padrão,
Φ (z ) = 1
2π
z
−∞
(
)
exp − z 2 2 dz .
z
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.0
0.5000
0.5040
0.5080
0.5120
0.5160
0.5199
0.5239
0.5279
0.5319
0.5359
0.1
0.5398
0.5438
0.5478
0.5517
0.5557
0.5596
0.5606
0.5675
0.5714
0.5753
0.2
0.5793
0.5832
0.5871
0.5910
0.5948
0.5987
0.6026
0.6064
0.6103
0.6141
0.3
0.6179
0.6217
0.6255
0.6293
0.6331
0.6368
0.6406
0.6443
0.6480
0.6517
0.4
0.6554
0.6591
0.6628
0.6664
0.6700
0.6736
0.6772
0.6808
0.6844
0.6879
0.5
0.6915
0.6950
0.6985
0.7019
0.7054
0.7088
0.7123
0.7157
0.7190
0.7224
0.6
0.7257
0.7291
0.7324
0.7357
0.7389
0.7422
0.7454
0.7486
0.7517
0.7549
0.7
0.7580
0.7611
0.7642
0.7673
0.7704
0.7734
0.7764
0.7794
0.7823
0.7852
0.8
0.7881
0.7910
0.7939
0.7967
0.7995
0.8023
0.8051
0.8078
0.8106
0.8133
0.9
0.8159
0.8186
0.8212
0.8238
0.8264
0.8289
0.8315
0.8340
0.8365
0.8389
1.0
0.8413
0.8438
0.8461
0.8585
0.8508
0.8531
0.8554
0.8577
0.8599
0.8621
1.1
0.8643
0.8665
0.8686
0.8708
0.8729
0.8749
0.8770
0.8790
0.8810
0.8830
1.2
0.8849
0.8869
0.8888
0.8907
0.8925
0.8944
0.8962
0.8980
0.8997
0.9015
1.3
0.9032
0.9049
0.9066
0.9082
0.9099
0.9115
0.9137
0.9147
0.9162
0.9177
1.4
0.9192
0.9207
0.9222
0.9236
0.9251
0.9265
0.9279
0.9292
0.9306
0.9319
1.5
0.9332
0.9345
0.9357
0.9370
0.9382
0.9394
0.9406
0.9418
0.9429
0.9441
1.6
0.9452
0.9463
0.9474
0.9484
0.9495
0.9505
0.9515
0.9525
0.9535
0.9545
1.7
0.9554
0.9564
0.9573
0.9582
0.9591
0.9599
0.9608
0.9616
0.9625
0.9633
1.8
0.9641
0.9649
0.9656
0.9664
0.9671
0.9678
0.9686
0.9693
0.9699
0.9706
1.9
0.9713
0.9719
0.9726
0.9732
0.9738
0.9744
0.9750
0.9756
0.9761
0.9767
2.0
0.9772
0.9778
0.9783
0.9788
0.9793
0.9798
0.9803
0.9808
0.9812
0.9817
2.1
0.9821
0.9826
0.9830
0.9834
0.9838
0.9842
0.9846
0.9850
0.9854
0.9857
2.2
0.9861
0.9864
0.9868
0.9871
0.9875
0.9878
0.9881
0.9884
0.9887
0.9890
2.3
0.9893
0.9896
0.9898
0.9901
0.9904
0.9906
0.9909
0.9911
0.9913
0.9916
2.4
0.9918
0.9920
0.9922
0.9925
0.9927
0.9929
0.9931
0.9932
0.9934
0.9936
2.5
0.9938
0.9940
0.9941
0.9943
0.9945
0.9946
0.9948
0.9949
0.9951
0.9952
2.6
0.9953
0.9955
0.9956
0.9957
0.9959
0.9960
0.9961
0.9962
0.9963
0.9964
2.7
0.9965
0.9966
0.9967
0.9968
0.9969
0.9970
0.9971
0.9972
0.9973
0.9974
2.8
0.9974
0.9975
0.9976
0.9977
0.9977
0.9978
0.9979
0.9979
0.9980
0.9981
2.9
0.9981
0.9982
0.9982
0.9983
0.9984
0.9984
0.9985
0.9985
0.9986
0.9986
3.0
0.9987
0.9987
0.9987
0.9988
0.9988
0.9989
0.9989
0.9989
0.9990
0.9990
3.1
0.9990
0.9991
0.9991
0.9991
0.9992
0.9992
0.9992
0.9992
0.9993
0.9993
3.2
0.9993
0.9993
0.9994
0.9994
0.9994
0.9994
0.9994
0.9995
0.9995
0.9995
3.3
0.9995
0.9995
0.9995
0.9996
0.9996
0.9996
0.9996
0.9996
0.9996
0.9997
3.4
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9997
0.9998
Julga-se pertinente introduzir aqui uma importante ressalva relativa aos modelos Pearson
III, Log-Pearson III e GEV. Com efeito, tais modelos podem apresentar coeficientes de
assimetria negativos (dependendo dos valores numéricos de seus parâmetros), conducentes a
funções de distribuição de probabilidade que, de algum modo, definem limites superiores para os
valores máximos da variável em estudo a que correspondem probabilidades de excedência, para
28
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
todos os efeitos, iguais a zero. Nestes casos particulares, atendendo à incerteza inerente à
estimação de parâmetros populacionais a partir das amostras, em geral pequenas, de variáveis
hidrológicas, é prudente não recomendar o emprego de distribuições limitadas superiormente.
O exercício 10 ilustra o cálculo de probabilidades para a lei Generalizada de Valores
Extremos (GEV).
Exercício 10 – Seja X a variável aleatória ‘caudal médio diário máximo anual’. Suponha-se que, numa dada secção
da rede hidrográfica, E[X]=500 m3/s, Var[X]=47 025 (m3/s)2 e X=1.40. Tendo por base a lei Generalizada de
Extremos, GEV, calcule o caudal médio diário máximo anual com o período de retorno 100 anos.
Solução: Conforme decorre das equações da Tabela 5 referentes à lei GEV, a relação entre o parâmetro de forma κ e
o coeficiente de assimetria γX é biunívoca sendo apresentada no gráfico da Figura 8. Para X=1.40 resulta ≈ -0.04.
Recorrendo novamente à Tabela 5, nomeadamente, às equações da GEV que relacionam Var[X] com α e E[X] com α
e β, obtém-se primeiramente =159.97 e, seguidamente, fazendo intervir este resultado, =401.09. Anota-se que o
software Microsoft Excel dispõe de uma função estatística – LNGAMA, na versão em Português, e GAMMLN, na
versão em Inglês – que corresponde ao logaritmo neperiano da função Gama para um dado argumento, pelo que a
exponencial dessa função fornece para esse argumento. O caudal médio diário máximo anual com o período de
retorno de T=100 anos é dado pela função de quantis da GEV (última coluna da Tabela 5), ou seja, x(100)=1209 m3/s.
Coeficiente de assimetria, γ
20
18
16
14
12
10
8
6
4
2
0
-0.35
-0.25
-0.15
-0.05
0.05
0.15
0.25
0.35
Parâmetro de forma, κ
Figura 8 – Modelo GEV: relação entre κ e γX.
29
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
8. Estimação de parâmetros e de quantis das distribuições de probabilidade
8.1 Procedimento geral. Método dos momentos
Tomada a decisão quanto ao modelo de distribuição de probabilidades a aplicar à amostra
de uma variável aleatória e determinados os valores numéricos dos parâmetros que o definem, é
possível calcular as probabilidades associadas a quaisquer valores da variável em questão.
Importa, contudo, registar que, mesmo que tal modelo represente fidedignamente a variável
aleatória, só seria possível conhecer os verdadeiros valores numéricos dos seus parâmetros se
toda a população tivesse sido amostrada, o que, na prática e pelo menos no que respeita às
variáveis hidrológicas, é impossível.
Assim, na posse de apenas uma amostra finita de observações de uma variável aleatória –
como a amostra de precipitações diárias máximas anuais apresentada na Tabela 1 –, pretenderse-á, por regra: (i) identificar o modelo de distribuição de probabilidades da população donde
provém a amostra; e (ii) proceder à estimativa dos valores numéricos dos parâmetros que
descrevem tal modelo. Os métodos que permitem estabelecer a associação entre a realidade física
contida num conjunto de observações (ou seja, numa amostra) e a concepção abstracta de um
modelo probabilístico são geralmente denominados de inferência estatística.
A população é, de certa forma um conceito abstracto, pois remete para um conjunto
infinito de elementos potencialmente observáveis, mas que não existem no sentido físico. Por
outro lado, a amostra é constituída por um conjunto de N observações reais { x1 , x 2 , ..., x N }, as
quais se supõem terem sido aleatoriamente sorteadas, uma a uma, de modo independente entre
si, de uma única população, cujo comportamento probabilístico é dado por uma certa função
densidade de probabilidades fX(x) ou f(x), definida por parâmetros θ1 ,θ 2 , ... ,θk . Nas anteriores
condições de amostragem, { x1 , x 2 , ..., x N } constitui uma amostra aleatória simples (AAS). As
observações { x1 , x 2 , ..., x N } representam os factos concretos, a partir dos quais, são obtidas as
estimativas das características populacionais, tais como a média, a variância e o coeficiente de
assimetria, assim como as inferências sobre a respectiva distribuição de probabilidades e sobre os
valores dos seus parâmetros.
Em alguns casos, a forma de fX(x) pode ser deduzida a partir das características físicas do
fenómeno em questão ou de algumas estatísticas amostrais. Entretanto, mesmo que fX(x) tenha
sido correctamente postulada, as estimativas θˆ 1 , θˆ 2 , ... , θˆ i , ... , θˆ k , dos
seus parâmetros
θ1 , θ2 , ... , θi , ... , θk , têm de ser necessariamente inferidas a partir de uma amostra. Se outras
amostras, todas com a mesma dimensão N da anterior amostra, estivessem disponíveis seria de
esperar que cada uma delas produzisse estimativas, θ̂i , distintas dos parâmetros da distribuição,
θi . Se as amostras com dimensão N susceptíveis de serem constituídas fossem em grande
número, as sucessivas estimativas assim obtidas para cada um daqueles parâmetros constituiriam,
elas próprias, uma variável aleatória e, portanto, uma distribuição da estatística amostral em
causa, a qual teria de conter o verdadeiro valor populacional desse parâmetro, embora de forma
mais ou menos dispersa, em conformidade com o grau de incerteza decorrente do processo de
estimação dos parâmetros populacionais a partir de amostras finitas de tamanho N.
Há uma variedade de métodos de estimação de parâmetros, entre os quais se destacam: (i)
o método dos momentos; (ii) o método da máxima verosimilhança; (iii) o método dos momentosL; (iv) o método da máxima entropia; (v) o método dos mínimos quadrados; e (vi) o método
30
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
generalizado dos momentos. No presente documento apenas o método dos momentos será
objecto de apresentação, por ser o método mais frequente utilizado e de mais fácil
implementação. Ao leitor interessado noutros métodos de estimação de parâmetros de
distribuições estatísticas, recomendam-se as seguintes referências: Rao e Hamed (2000), Hosking
e Wallis (1997), Meylan et al. (2008) e o capítulo 6 de Naghettini e Pinto (2007).
O método dos momentos consiste em igualar os momentos amostrais aos momentos
populacionais. O resultado dessa operação fornece as estimativas dos parâmetros da distribuição
de probabilidades em questão. Formalmente, sejam { x1 , x 2 , ..., x N } as observações constituintes
de uma amostra aleatória simples constituída a partir de uma população de uma variável
aleatória com função densidade de probabilidade com k parâmetros, representada por
f X ( x; θ1,θ 2 ,..., θ i ,..., θ k ) ou, numa anotação simplificada, por f ( x; 1, 2,..., i ,..., k ) . Se j e mj
representam, respectivamente, os momentos populacionais e amostrais, o sistema fundamental k
equações a k incógnitas do método dos momentos é dado por:
µi ( θ1,θ 2 ,...,θ i ,...,θ k ) = m j com i=1, 2,...,k .............................................................................(18)
As soluções θˆ 1,θˆ 2 ,...,θˆ i ,...,θˆ k do anterior sistema de equações constituem as estimativas dos
parâmetros i pelo método dos momentos. Os exercícios a seguir exemplificam a aplicação de tal
método.
Exercício 11 – Seja x1, x2, x3, ... , xN uma amostra aleatória simples retirada da população de uma variável aleatória
X, cuja função densidade de probabilidade, com um único parâmetro, , é dada por f X (x;θ) = (θ + 1) x θ para 0 ≤ x ≤ 1 .
Pede-se para: (a) determinar o estimador de pelo método dos momentos; e (b) supondo-se que a amostra de X seja
constituída pelos seguintes elementos {0.20; 0.90; 0.05; 0.47; 0.56; 0.80; 0.35}, calcular o valor do anterior
estimador, ou seja, a estimativa de pelo método dos momentos, θ e a probabilidade de X ser maior do que 0.8.
Solução: (a) De acordo com o método dos momentos, havendo apenas um parâmetro a estimar, então, o momento de
ordem 1 fornecerá esse parâmetro, ou seja, 1=m1. De acordo com a equação (3), o primeiro momento populacional é
dada por µ1 =E(X)=
seja, m1 =(1 N )
1
0
x (θ + 1)x θdx = (θ + 1) (θ + 2) sendo que o primeiro momento amostral é a média da amostra, ou
N
x=
i =1 i
( )(
)
X . Logo, θ + 1 θ + 2 = X
θ = (2X − 1) (1 − X ) . A última equação dá o estimador de
pelo método dos momentos. (b) A amostra fornecida conduz a X = 0.4757 . Entrando com este resultado na equação
antes determinada para o estimador de , obtêm-se θˆ = (2 × 0.4757 − 1) (1 − 0.4757 ) = −0.0926 . A função distribuição de
probabilidade, FDP, é dada por FX (x ) = F(x) =
x
0
(
+ 1) x dx = x
+1
. Logo P(X>0.8)=1-P(X ≤ 0.8)=1-F (0.8)=1-
0.8167=0.1833.
Exercício 12 – Considere a amostra de precipitações diárias máximas anuais no posto udométrico de Pavia
(20I/01G) a que se refere a Tabela 1. Conforme se explicitou na Tabela 2, foram estimadas as seguintes estatísticas
amostrais: média, X = 39.5 mm ; desvio-padrão, s X = 17.2 mm ; e coeficiente de assimetria, g X = 1.149. Determine:
(a) os estimadores dos parâmetros da distribuição de Gumbel para máximos (ou simplesmente distribuição de
Gumbel) pelo método dos momentos; e (b) as estimativas dos anteriores parâmetros. Calcule: (c) a probabilidade de
a precipitação diária máxima anual ser superior a 65 mm; e (d) a precipitação diária máxima anual com o período de
retorno de 100 anos.
Solução: (a) Conforme se explicita na Tabela 5, a distribuição de Gumbel é definida pelos parâmetros α e β, os quais
se relacionam com os dois primeiros momentos da população pelas equações µ1 = E[X] = β + 0.5772 α e
31
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
µ 2 = Var [X ] = π 2α 2 6 . Igualando a variância da amostra, s X 2 , à da população, µ2, e resolvendo a segunda das
anteriores equações em ordem a α obtém-se o estimador α = 6 s X π . Igualando a média da amostra, X , à da
população, µ1, introduzindo o estimador α na primeira das anteriores equações e resolvendo-a em ordem a β obtémse o estimador β = X − 0.5772 α . (b) α e β constituem os estimadores pelo método dos momentos dos parâmetros
da lei de Gumbel. As correspondentes estimativas obtêm-se muito simplesmente atendendo aos valores numéricos dos
momentos amostrais, X e s X , em conformidade com a amostra em estudo, do que resulta
α = 6 s X π = 6 17.2 π = 13.4 e β = X − 0.5772 α = 39.5 − 0.5772 × 13.4 = 31.8 . (c) Atendendo a que P(X>65)=1F(65), bem como à equação de quantis da lei de Gumbel (apresentada na Tabela 5) e às anteriores estimativas dos
parâmetros α e β dessa distribuição, obtém-se que P(X>65)=1-F(65)= =1-0.9196=0.0804. (d) Para o período de
retorno T=100 anos, correspondente à probabilidade de não-excedência de F(xT)=0.99, a função de quantis da Tabela
5 fornece x100=93.5 mm. Nota: o anterior procedimento de cálculo pode ser estendido às distribuições log-Normal ou
de Galton e GEV, a partir das equações de momentos e de quantis da Tabela 5. No caso particular da distribuição
GEV, pode usar-se a Figura 8, para uma primeira estimativa do parâmetro de forma κ a partir da estimativa do
coeficiente de assimetria g=1.149. Em seguida ou alternativamente, pode obter-se uma maior precisão na estimativa
de κ, com base em aproximações sucessivas, mediante uso da função LNGAMA/GAMMLN do software Microsoft
Excel, referida a propósito daquela figura.
8.2 Factores de probabilidade
Uma abordagem, introduzida por Chow (1954), e que facilita muito o cálculo dos quantis,
refere-se à utilização dos factores de probabilidade. Segundo essa abordagem, o quantil xT, da
variável aleatória X, para a probabilidade de não-excedência, F, ou, de modo equivalente para o
correspondente período de retorno, T tal que T=1/(1-F), pode ser estimado através de:
x T = µ X + K FDIST σ X ...........................................................................................................(19)
em que K FDIST denota o factor de probabilidade, dependente de F e da distribuição estatística
para a qual se pretende estimar quantis. Se a média e o desvio-padrão populacionais, a saber, µX
e σX, forem substituídos pelas suas respectivas estimativas amostrais, X e s X , a abordagem
passa a ser uma extensão do método dos momentos e a equação (19) toma a forma:
x T = X + K FDIST s X ..............................................................................................................(20)
a qual exprime o facto de os produtos dos factores de probabilidade pelo desvio-padrão, s X ,
representam desvios crescentes, em relação à média amostral, X , à medida que as
probabilidades de não-excedência e, consequentemente, os períodos de retorno, aumentam.
A Tabela 7 apresenta as equações mais vulgares para cálculo dos factores de
probabilidade para as distribuições Normal, log-Normal, de Gumbel, GEV, Pearson III e
log-Pearson III. Observa-se que, no caso das leis Normal e log-Normal o factor de probabilidade
para dado valor da probabilidade de não-excedência, F, ou, de modo equivalente, para o valor
correspondente do período de retorno, T, é igual ao valor da normal reduzida para esse valor de
F, z, conforme se sistematizou na Tabela 7. Anota-se que as equações da Tabela 7 fornecem
exactamente os mesmos resultados para os quantis estimados pelas funções de quantis da
Tabela 5.
32
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 7 – Expressões de cálculo dos factores de probabilidade K FDIST para diversas distribuições.
Factor de probabilidade
Distribuição
(DIST)
F
( K DIST )
Normal
K FNormal
log-Normal ou
de Galton
GEV
Observação
x F = X + K FNormal s X
Z(F): Tabela 6
(
= z (F)
x F = exp Y +
K FNormal sY
)
com Y = ln (X )
6
{0.577216 + ln [ln (1/ F)]}
π
F
[rigorosamente, K Gumbel
depende da dimensão da
amostra, N, Kite (1988)]
K FGumbel ≅ −
Gumbel
Equação de quantis
( xF)
K FGEV =
κ
κ
{Γ(1 + κ) − [− ln(F)] }
x F = X + K FGumbel sX
-------
F
x F = X + K GEV
sX
-------
κ
Γ (1 + 2 κ ) − Γ 2 (1 + κ )
Z(F): Tabela 6
Transformação de Wilson-Hilferty
K FPearson ≅
2
gX
Pearson-III
K FNormal −
gX
6
3
gX
+1 −1
6
Na transformação de WilsonHilferty g X < 2 . Para outras
assimetrias consultar Rao e
Hamed (2000)
x F = X + K FPearson s X
Alternativa
3
1 T
( K Normal −
3
1
− 1) k 3 + K TNormal k 4 + k5
3
2
K FPearson ≅ K TNormal + ( K TNormal − 1) k +
− 6 K TNormal ) k 2 −
2
( K TNormal
Na equação alternativa
k=
log-Pearson III
2
gY
K FNormal −
gY
6
gx
6
Z(F): Tabela 6
Transformação de Wilson-Hilferty
K FPearson ≅
Z(F): Tabela 6
3
gY
+1 −1
6
(
x F = exp Y + K FPearson s Y
Alternativa
2
3
1
K FPearson ≅ K TNormal + ( K TNormal − 1) k + ( K TNormal −
3
2
1
− 6 K TNormal ) k 2 − ( K TNormal − 1) k 3 + K TNormal k 4 + k 5
3
com Y = ln (X )
)
Na transformação de WilsonHilferty g Y < 2 Para outras
assimetrias consultar Rao e
Hamed (2000)
Na equação alternativa
k=
gy
6
Exercício 13 – Estime a precipitação média diária máxima anual com o período de retorno de 100 anos a que se
refere a alínea (d) do exercício 12 no pressuposto de aplicação da lei de Pearson III.
Solução: Conforme se especificou no exercício 12, as estatísticas amostrais são X = 39.5 mm , s X = 17.2 mm e
g X = 1.149. Assim, recorrendo ao factor de probabilidade e às expressões pertinentes da Tabela 7, obtém-se
.99
.99
sucessivamente: T=100 anos; F=1-1/T=0.99; K 0Normal
=z(0.99)=2.326 (Tabela 6); K 0Pearson
= 3.1266 . Portanto, a
precipitação diária máxima anual com o período de retorno de 100 anos de acordo com a lei de Pearson III é dada
por: x T = X + K100
Pearson s X = 39.5 + 3.1266 × 17.2 = 93.3 mm.
33
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
9. Análise de frequência de variáveis hidrológicas
9.1 Nota prévia
A análise de frequência de amostras de variáveis hidrológicas tem por objectivo estimar
valores dessas variáveis para dadas probabilidades de não-excedência, F, ou, de modo
equivalente, para dados períodos de retorno, T, adoptados como critério de projecto para o que
utiliza distribuições de probabilidade supostamente capazes de descrever as variáveis. Os
resultados de tal análise intervêm na solução de inúmeros problemas da engenharia hidráulica e
não só, tais como a caracterização das ocorrências extremas associadas a cheias e a secas; o
projecto de descarregadores de cheias de barragens; o dimensionamento de albufeiras de
regularização, de diques de protecção marginal ao longo dos cursos de água ou de obras de
drenagem de vias de comunicação; o projecto de pontes, por exemplo, no que respeita à fixação
do vão livre ou da cota do tabuleiro ou, ainda, o estudo das erosões em torno dos pilares; etc.
As amostras utilizadas na análise de frequência devem ser representativas da variável a
que se referem, não apresentando erros de observação ocasionais e/ou sistemáticos1, devendo ter
um número suficiente de elementos que permita realizar extrapolações merecedoras de
confiança. Além disso, é necessário assegurar que se tratam de amostras aleatórias simples, ou
seja, que os dados são homogéneos2 e independentes, além de ‘sorteados’ ao acaso.
A condição de homogeneidade pretende assegurar que todas as observações tenham sido
extraídas de uma mesma população, descrita por uma única distribuição de probabilidades. Por
exemplo, para o caso de análise de escoamento, em condições de cheia ou não, pretende-se
assegurar que o uso e a ocupação da bacia hidrográfica não tenham sido significativamente
modificados ou, ainda, que não tenham sido implantadas estruturas hidráulicas que tenham
alterado o regime do escoamento natural. Por outro lado, a condição de independência procura
assegurar que não existe dependência serial entre os elementos que constituem a amostra,
tornando-a apta a ser analisada mediante aplicação de procedimentos da análise estatística. Os
testes estatísticos de significância para verificar a adequação das amostras aos anteriores
requisitos encontram-se descritos no capítulo 7 de Naghettini e Pinto (2007).
9.2. Análise de frequência com base na apreciação visual do ajustamento (em gráficos
de probabilidade). Probabilidade empírica de não-excedência
Para proceder à análise de frequência de uma amostra, concretamente, para identificar as
distribuições estatísticas susceptíveis de serem aplicadas a essa amostra é frequente recorrer-se
ao ajustamento visual, tendo por base a representação gráfica dos pontos da amostra e das leis
1
Uma amostra de uma variável aleatória é consistente se, ao longo do respectivo período de observação, não existe
alteração do erro sistemático de medição da grandeza a que se refere a amostra. Constituem exemplos de quebra de
consistência a mudança de local do aparelho de medição da precipitação (udómetro) ou a criação de obstáculos
junto ao mesmo ou o incorrecto nivelamento na mudança do sistema de registos de alturas ou níveis hidrométricos
(Quintela, 1996).
2
Uma amostra de uma variável hidrológica diz-se homogénea quando, ao longo do respectivo período de observação,
não existirem alteração nos factores que condicionam o fenómeno traduzido pela grandeza a que se refere a amostra.
No pressuposto de que, à escala do tempo abrangido pela amostra, não ocorreram mudanças climáticas, as quebras
de homogeneidade, a registarem-se, devem-se a alterações em factores físicos, tais como os associados à
desflorestação ou ainda os decorrentes da construção de barragens. Em certas circunstâncias, é possível eliminar
uma quebra de homogeneidade, procedendo à reconstituição da amostra natural (Quintela, 1996).
34
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
teóricas postuladas para representar essa amostra. Para o efeito, é necessário atribuir a cada
ponto da amostra uma probabilidade empírica de não-excedência, F (na designação inglesa,
plotting position). Em geral, o ajustamento gráfico utiliza os designados papéis de probabilidade,
nos quais os eixos das ordenadas estão graduados nas unidades dos elementos das amostra e os
eixos das abcissas, em escalas transformadas de probabilidades, tais que, para a lei a que se
refere cada um desses papéis, a relação entre os valores da variável aleatória e as respectivas
probabilidades teóricas de não-excedência é linear. Os principais papéis de probabilidade
referem-se às distribuições Exponencial, Normal, log-Normal e de Gumbel, e todos assentam no
mesmo princípio: escala das abcissas de modo a linearizar a mencionada relação para a
distribuição de probabilidades a que se refere o papel.
A Figura 9 exemplifica o papel de probabilidades Normal sendo que o segmento de recta aí
representada fornece as probabilidades de não-excedência para os valores da amostra a que se
refere o eixo das ordenadas. No caso da lei Normal, a linearização da relação resulta muito
simplesmente de atribuir a cada estimativa da variável aleatória o valor da normal reduzida para a
probabilidade de não-excedência correspondente a essa estimativa. Para melhor elucidar o
conceito de papel de probabilidade incluíram-se na Figura 9, por assim dizer, três eixos das
abcissas: dois na parte inferior do gráfico – um linear em valores da normal reduzida, z – e outro,
com os valores correspondentes da probabilidade de não-excedência, F, a qual, no eixo superior
foi transcrita em termos dos períodos de retorno, T, que lhe correspondem.
1.1
1.4
2.0
3.3
10.0
100.0
0.10
0.30
0.50
0.70
0.90
0.99
1000.0
T (anos)
Variável
aleatória, X
3.0
-2.0
-1.0
0.0
1.0
2.0
0.999 F=P(X≤ x)
3.0
z
Figura 9 – Papel de probabilidade da lei Normal.
Como mencionado, na representação em papel de probabilidade, a cada valor de uma
amostra é associada uma probabilidade empírica de não-excedência, F (plotting position, como
antes especificado). Se a amostra representasse toda a população, a probabilidade de
não-excedência associada a cada elemento seu seria dada pelo quociente entre o número de
elementos da amostra inferiores ou iguais ao considerado e a dimensão da amostra, N (ou seja,
seria a fracção dos elementos da amostra com valor inferior ou igual a cada elemento seu).
Numa amostra sem valores repetidos, se i representasse o número de ordem de um dado
elemento após ordenação dos elementos dessa amostra por valores crescentes, tal probabilidade
35
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
seria simplesmente dada por i/N. De acordo com essa noção, a probabilidade de ocorrerem
elementos com valor, tanto inferior ao elemento com menor valor da amostra, como superior ao
elemento com maior valor da amostra seria nula (acontecimentos impossíveis). Em face de
amostras finitas representativas de populações infinitas, o pressuposto de que nunca poderão
ocorrer elementos com valores para além da gama de valores patente na amostra não tem
sentido. Surgiram, assim, fórmulas de estimação de probabilidades empíricas que corrigem esse
pressuposto. Tais fórmulas fazem intervir o número de ordem i de cada elemento da amostra,
após ordenação dos elementos da mesma por valores crescentes (i igual a 1 para o menor valor
da amostra e igual a N, para o maior valor) e são frequentemente casos particulares da seguinte
fórmula geral, em que i e N têm os significados antes especificados e ω é uma constante
compreendida entre 0 e 1 e que determina a qualidade do ajustamento entre probabilidades
empíricas e teóricas de acordo com as leis postuladas:
F = P( X ≤ x ) =
i−ω
...............................................................................................(21)
n +1 − 2 ω
A fórmula a aplicar deve atender à distribuição teórica que se supõe ser válida para a população
de onde provém a amostra em estudo. A Tabela 8 apresenta algumas das fórmulas de cálculo de
probabilidades empíricas de não-excedência, os correspondentes valores de ω e recomendações
quanto à sua aplicabilidade.
Tabela 8 – Fórmulas para estimação de probabilidades empíricas de não-excedência.
Fórmula
i
F=
N +1
i − 0.44
F=
N + 0.12
i − 0.375
F=
N + 0.25
i − 0.5
F=
N
i − 0.40
F=
N + 0.20
Autor
Valor de ω . Atributos de aplicação
Weibull
ω=0.000. Probabilidades de excedência não
enviesadas para todas as distribuições
Gringorten
ω=0.440. Usada para quantis das
distribuições de Gumbel, GEV e Weibull
Blom
ω=0.375. Quantis não enviesados para as
distribuições Normal e Log-Normal
Hazen
ω=0.500. Usada para quantis da distribuição
Pearson III
Cunnane
ω=0.400. Quantis aproximadamente não
enviesados para todas as distribuições
Na Figura 10 comparam-se as probabilidades empíricas de não-excedência obtidas pelas
fórmulas da Tabela 8 para duas amostras, uma com 50 elementos (gráfico do lado esquerdo) e
outra com 20 elementos (gráfico do lado direito). À semelhança do papel de probabilidade da lei
Normal, os eixos das abcissas de ambos os gráficos foram graduados numa escala linear de
valores da normal reduzida. Como se pode observar, os resultados fornecidos pelas diferentes
fórmulas apenas surgem diferenciados (pontos representativos das diferentes probabilidades
nitidamente não coincidentes) para probabilidades extremas – muito baixas ou muito elevadas –,
distinguindo-se tanto mais, quanto menor a dimensão da amostra a que respeitam.
36
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Probabilidade empírica de não-excedência F
Probabilidade empírica de não-excedência F
1.0
1.0
Weibull
0.8
Weibull
Gringorten
0.8
Gringorten
Blom
Blom
Hazen
0.6
Hazen
0.6
Cunnane
Cunnane
0.4
0.4
0.2
0.2
0.0
-3
-2
-1
0
1
2
0.0
3
-3
Normal reduzida, z
-2
-1
0
1
2
3
Normal reduzida, z
Figura 10 – Probabilidades empíricas de não-excedência fornecidas pelas fórmulas da Tabela 8 para
duas amostras, uma, com 50 elementos (à esquerda) e, outra, com 20 elementos (à direita).
Sistematizam-se, seguidamente, as etapas requeridas pela representação, para uma dada
amostra, da distribuição das probabilidades empíricas de não-excedência:
(i) ordenação dos valores da amostra por valores crescentes;
(ii) atribuição, a cada valor já ordenado, xi, da respectiva probabilidade empírica de nãoexcedência, Fi por aplicação de uma das fórmulas da Tabela 8;
(iii) selecção de um tipo de papel de probabilidades consoante a expectativa da lei com
melhor ajuste (exponencial, Normal, log-Normal ou Gumbel), embora, desconhecendose tal lei, se possa adoptar o papel de probabilidades da lei Normal;
(iv) representação gráfica dos pares de valores (Fi, xi).
A Tabela 9 e a Figura 11 exemplificam a estimação da distribuição empírica das
precipitações diárias máximas amuais no posto udométrico de Pavia (20I/01G) a que se refere a
Tabela 1, mediante o recurso à fórmula de Gringorten e aos papéis de probabilidade das leis
Normal (gráfico superior) e de Gumbel (gráfico inferior).
Nos gráficos da Figura 11 os eixos das abcissas são lineares tendo sido completados por um
segundo eixo secundário, no topo de cada gráfico, graduado em probabilidades de
não-excedência, F. Incluíram-se, nos gráficos, as curvas resultantes do ajustamento das
distribuições Normal, de Gumbel e log-Normal aos pontos da amostra. Tais curvas foram
calculadas recorrendo à técnica dos factores de probabilidade, conforme antes descrito. Como
resulta da observação dos gráficos, no papel de probabilidade da lei Normal (gráfico superior) tal
lei é representada por um segmento de recta, acontecendo outro tanto com a lei de Gumbel,
quando é utilizado o papel dessa lei (gráfico inferior).
37
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 9 – Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a
Tabela 1. Probabilidades empíricas de não-excedência, P(X ≤ x)=F(x), de acordo com a fórmula de
Gringorten apresentada na Tabela 8.
i
1
2
3
4
5
6
8
8
9
10
11
13
13
14
15
16
17
19
19
Pdma P(X ≤ x)=
=F(x)
(mm)
8.1
0.0059
10.2
0.0166
10.3
0.0272
14.2
0.0378
15.3
0.0484
18.2
0.0591
20.2
0.0803
20.2
0.0803
20.4
0.0909
20.8
0.1016
24.2
0.1122
24.3
0.1334
24.3
0.1334
25.2
0.1441
26.0
0.1547
27.0
0.1653
27.2
0.1759
27.4
0.1972
27.4
0.1972
Pdma P(X ≤ x)=
=F(x)
(mm)
27.5
0.2078
27.8
0.2184
28.0
0.2291
28.5
0.2397
29.0
0.2503
29.4
0.2609
29.5
0.2716
29.8
0.2928
29.8
0.2928
30.0
0.3034
31.3
0.3141
31.4
0.3353
31.4
0.3353
31.9
0.3459
32.5
0.3566
32.8
0.3778
32.8
0.3778
33.2
0.3884
33.5
0.3991
i
20
21
22
23
24
25
26
28
28
29
30
32
32
33
34
36
36
37
38
39
42
42
42
43
45
45
46
47
48
50
50
51
52
53
54
55
56
57
0.10
Precipitação diária
máxima anual (mm)
Pdma P(X ≤ x)=
=F(x)
(mm)
34.0
0.4097
34.2
0.4416
34.2
0.4416
34.2
0.4416
34.6
0.4522
35.2
0.4734
35.2
0.4734
35.7
0.4841
36.2
0.4947
36.5
0.5053
36.7
0.5266
36.7
0.5266
37.2
0.5372
37.4
0.5478
37.5
0.5584
38.0
0.5691
38.2
0.5797
38.4
0.5903
38.6
0.6009
i
0.30 0.50 0.70
Pdma P(X ≤ x)=
=F(x)
(mm)
38.9
0.6116
40.2
0.6434
40.2
0.6434
40.2
0.6434
40.5
0.6541
41.2
0.6647
42.8
0.6753
43.2
0.6859
43.7
0.6966
43.8
0.7072
44.0
0.7178
45.0
0.7391
45.0
0.7391
46.3
0.7497
46.6
0.7603
47.0
0.7709
48.4
0.7816
48.5
0.7922
49.0
0.8028
i
58
61
61
61
62
63
64
65
66
67
68
70
70
71
72
73
74
75
76
0.90
0.99
0.999
Pdma P(X ≤ x)=
=F(x)
(mm)
50.4
0.8134
52.0
0.8241
55.2
0.8347
56.8
0.8453
57.0
0.8559
58.0
0.8666
58.2
0.8772
59.6
0.8878
60.2
0.8984
63.3
0.9091
69.0
0.9197
70.2
0.9303
71.4
0.9409
80.0
0.9516
84.2
0.9728
84.2
0.9728
92.3
0.9834
95.5
0.9941
i
77
78
79
80
81
82
83
84
85
86
87
88
89
90
92
92
93
94
F=P(X ≤ x)
125
100
75
Normal
50
Gumbel
log-Normal
25
Amostra
0
-3
-2
-1
0
1
0.10 0.30 0.50 0.70
Precipitação diária
máxima anual (mm)
0.90
2
3
0.99
4
z
0.999 F=P(X ≤ x)
125
100
75
50
Normal
25
Gumbel
log-Normal
Amostra
0
-3
-2
-1
0
1
2
3
4
5
K Gumbel
Figura 11 – Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a
Tabela . Probabilidades de não-excedência empíricas (fórmula de Gringorten) e de acordo com as leis
Normal, de Gumbel e log-Normal para papeis de probabilidade das leis Normal – gráfico superior – e de
Gumbel – gráfico inferior.
38
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
9.3. Apreciação da qualidade do ajustamento e escolha do modelo distributivo. Teste de
Kolmogorov-Smirnov e do Qui-Quadrado
Em face de uma dada amostra, a representação gráfica em papel de probabilidade das
distribuições, por um lado, empírica e, por outro lado, teóricas referentes às leis se afiguram
capazes de representar aquela amostra permite avaliar visualmente a adequação de cada uma
daquelas leis à amostra e, assim, apreciar a qualidade do ajustamento de um dado modelo
distributivo teórico relativamente a outro(s), principalmente no ramo das curvas de frequência
que maiores consequências poderão ter nas decisões de engenharia: cauda superior, para
máximos e para valores extremos, e cauda inferior, para mínimos.
A opção por um modelo distributivo apela a alguma prudência e a um certo
conservadorismo, do que deve resultar a escolha, em circunstâncias praticamente equivalentes,
do modelo mais exigente em termos de valores de projecto, facto tanto mais justificável quanto
as decisões de engenharia requerendo a análise de probabilidades contêm incertezas intrínsecas.
Outra importante preocupação na comparação de modelos probabilísticos refere-se ao número
dos respectivos parâmetros. Em geral, os modelos de três parâmetros apresentam maior
flexibilidade e, com isso, maior adequação ou “aderência” aos pontos das amostras. Entretanto, a
maior aderência é obtida à custa de um terceiro parâmetro, cuja estimação a partir da amostra,
introduz incertezas adicionais. Se não há grande diferença entre os quantis dos modelos de dois
ou de três parâmetros, deve ser dada preferência ao modelo com o menor número de parâmetros,
a despeito da sua relativamente menor aderência aos dados – princípio da parcimónia de
parâmetros.
Além da apreciação visual baseada na representação gráfica em papel de probabilidades,
existem diversos testes estatísticos de significância aplicáveis à avaliação da qualidade do
ajustamento de um modelo distributivo teórico a uma certa amostra os quais, em linhas gerais,
verificam se os dados dessa amostra são compatíveis com aquele modelo.
Os testes mais conhecidos são os testes de aderência ou de ajustamento do Qui-Quadrado,
de Kolmogorov-Smirnov, de Anderson-Darling e de Filliben. Embora propiciem uma avaliação
quantitativa do grau de aderência, estes testes apresentam as seguintes deficiências: (i) não são
objectivamente decisivos no que respeita à qualidade do ajustamentos das caudas superiores das
distribuições de valores máximos, onde, em geral existem poucos pontos amostrais; e (ii) não
foram concebidos para comparar, em termos relativos e por meio das suas estatísticas, as
diferentes distribuições teóricas aplicadas a uma dada amostra.
O presente item aborda apenas a aplicação dos testes de Kolmogorov-Smirnov, KS, e do
Qui-Quadrado, χ 2 , ao ajustamento de leis teóricas a amostras. Ao leitor interessado noutros
testes e meios para avaliar a qualidade do ajustamento (diagramas de momentos convencionais e
de momentos-L), recomenda-se a consulta das referências Rao e Hamed (2000), Meylan et al.
(2008) e do capítulo 7 de Naghettini e Pinto (2007).
Os testes de ajustamento “confrontam” (por meio “operadores” designados por estatísticas
dos testes) a informação contida numa amostra com a que decorre do pressuposto de uma função
de distribuição de probabilidades, mediante a análise da chamada hipótese nula ( H0 ) de que o
modelo distributivo teórico se ajusta bem aos pontos daquela amostra e que as diferenças
encontradas são fortuitas, ou seja, decorrentes de meras flutuações amostrais, não sendo,
portanto, estatisticamente significativas.
39
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Uma de duas decisões resulta do anterior confronto: a de ‘não rejeitar’ ou a de ‘rejeitar’ a
veracidade da hipótese H0 de a lei teórica postulada se ajustar aos pontos da amostra. Importa
realçar que o teste nunca permite “aceitar” tal lei teórica uma vez que a decisão de “não rejeitar”
implica apenas que não existem elementos significativos que invalidem a hipótese nula H0 .
Na aplicação de um teste de ajustamento é necessário fixar a priori um certo nível de
significância, α, ou seja, a probabilidade, por regra pequena – entre 1 e 5% –, de se tomar uma
decisão incorrecta (rejeitar H0 ajustando-se bem o modelo distributivo). Ao complementar do
nível de significância, α, ou seja, a (1-α) atribuiu-se a designação de nível de confiança.
A estatística do teste de ajustamento de Kolmogorov-Smirnov, KS, é dada pela máxima
diferença entre as funções de probabilidades acumuladas empírica e teórica de variáveis
aleatórias contínuas. O teste não é aplicável a variáveis aleatórias discretas.
Considere-se que X representa uma variável aleatória contínua, de cuja população se
extraiu a amostra { x1 , x 2 , ... , x N }. A hipótese nula a ser testada é dada por
H0 : P(X ≤ x ) = FX ( x ) = F( x ) , ou seja, pretende-se averiguar se F(x) é uma distribuição de
probabilidade adequada à descrição do comportamento probabilístico da variável X. Para
implementar o teste KS, classificam-se os elementos da amostra { x1 , x 2 , ... , x N } por ordem
crescente, de modo a constituir a sequência {x (1) , x ( 2 ) , ... , x (m ) , , x ( N ) } na qual 1 ≤ m ≤ N denota
a ordem de classificação. Para cada elemento x ( m ) a distribuição empírica é fornecida pela
proporção de valores amostrais inferiores ou iguais a x ( m ) , ou seja, é igual a m/N. Para tal
elemento calcula-se também a respectiva probabilidade de não-excedência teórica, F( x ( m ) ),
aplicando os métodos anteriormente descritos, por ventura, baseados na inversão, em ordem à
variável aleatória, das equações que utilizam o factor de probabilidade. Os anteriores cálculos são
efectuados para os sucessivos valores x ( m ) , A estatística do teste KS, D, é dada por
DN = max m / N − F(x (m ) ) ..............................................................................................(22)
− ∞ < x <∞
correspondendo, portanto, ao valor absoluto da maior diferença entre as probabilidades empírica
e teórica.
Se H0 é verdadeira, quando N
, a estatística D N tenderá para zero. Por outro lado, se
N é um valor finito, a estatística D N deverá ser da ordem de grandeza de 1
N e, portanto, a
quantidade N D N não irá tender a zero, mesmo para valores muito elevados de N. Para
amostras com dimensão superior a 40, os valores críticos da estatística de teste D N são
1.3581 N , para o nível de significância de =0.05, e 1.6276 N , para =0.01. Para amostras
com dimensão inferior a 40, os valores críticos de D N devem ser obtidos na Tabela 10. Se a
estatística calculada pela equação (21) for maior do que o valor crítico tabelado, as diferenças
são, de facto, significativas para o nível de significância α e, portanto, a decisão é a de rejeitar a
hipótese H0. Em caso contrário, a hipótese nula não deve ser rejeitada.
40
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 10 - Valores críticos da estatística do teste de Kolmogorov-Smirnov em função da dimensão da
amostra, N, e do nível do significância, α, DN, .
N
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
DN, 0.10
0.369
0.352
0.338
0.325
0.314
0.304
0.295
0.286
0.279
0.271
0.265
0.259
0.253
0.247
0.242
DN, 0.05
0.409
0.391
0.375
0.361
0.349
0.338
0.327
0.318
0.309
0.301
0.294
0.287
0.281
0.275
0.269
DN, 0.02
0.457
0.437
0.419
0.404
0.390
0.377
0.366
0.355
0.346
0.337
0.329
0.321
0.314
0.307
0.301
DN, 0.01
0.489
0.468
0.449
0.432
0.418
0.404
0.392
0.381
0.371
0.361
0.352
0.344
0.337
0.330
0.323
N
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
25
0.238
0.264
0.295
0.317
>40
DN, 0.10
0.233
0.229
0.225
0.221
0.218
0.214
0.211
0.208
0.205
0.202
0.199
0.196
0.194
0.191
0.189
1.22
N
DN, 0.05
0.259
0.254
0.250
0.246
0.242
0.238
0.234
0.231
0.227
0.224
0.221
0.218
0.215
0.213
0.210
1.36
N
DN, 0.02
0.290
0.284
0.279
0.275
0.270
0.266
0.262
0.258
0.254
0.251
0.247
0.244
0.241
0.238
0.235
1.52
N
DN, 0.01
0.311
0.305
0.300
0.295
0.290
0.285
0.281
0.277
0.273
0.269
0.265
0.262
0.258
0.255
0.252
1.63
N
Na aplicação do teste do Qui-Quadrado, χ 2 , o domínio da função de distribuição é dividido
em M intervalos de partição sendo que o teste compara os números de elementos da amostra
efectivamente contidos nos sucessivos intervalos com as esperanças matemáticas, ou seja, com
os valores esperados, dos números desses elementos, avaliados em conformidade com o modelo
postulado. A estatística do teste χ 2 é definida por:
2
M
(O j − E j )2
j=1
Ej
χ =
............................................................................................................(23)
em que O j é o número de elementos da amostra efectivamente contidos no intervalo j e E j , o
valor esperado do número de elementos no mesmo intervalo j, dado por E j = N Pj em que Pj é a
amplitude do intervalo j expressa em probabilidade e N, a dimensão da amostra.
O teste estatístico pode formular-se do seguinte modo: rejeitar H0 com um nível de
confiança (1-α) se χ 2 > χ 2(1−α ) , em que χ (21−α ) é o quantil (1-α) da distribuição χ 2 – Tabela 11.
Os valores da estatística χ 2 dependem do número de limites, M, e dos limites dos intervalos
de partição do domínio da função de distribuição de probabilidade, F. Não existem, contudo,
regras para seleccionar o número de intervalos e a amplitude de cada intervalo. Mann e Wald
(1942), citados em Henriques (1990), recomendam a partição dos M intervalos de modo a que as
probabilidades associadas a cada intervalo sejam idênticas. Sendo M o número de intervalos, os
limites de cada intervalo devem ser definidos por forma a se ter E j = N/M (j=1, 2, …, M).
Atendendo a este critério, a estatística do teste χ2 simplifica-se para:
χ2 =
M
N
M
j =1
O2j − N .............................................................................................................(24)
Na Tabela 12 apresentam-se as partições da função de distribuição de probabilidade,
FX ( x ) ou F( x ) , em função da dimensão da amostra, N, sugeridas por Henriques (1990).
41
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 11 – Quantis da distribuição do Qui-Quadrado em função do número de graus de liberdade, ν, e
do nível de confiança, (1-α), χ 2ν,(1- )..
Nível de significância, α
Graus de
liberdade, ν
0.995
0.975
0.900
0.500
0.100
0.050
0.025
0.010
0.005
0.001
0.995
0.999
Nível de confiança, 1- α
0.005
0.025
0.100
0.500
0.900
0.950
0.975
0.990
1
0.000
0.001
0.016
0.455
2.706
3.841
5.024
6.635
7.879
10.827
2
0.010
0.051
0.211
1.386
4.605
5.991
7.378
9.210
10.597
13.815
3
0.072
0.216
0.584
2.366
6.251
7.815
9.348
11.345
12.838
16.266
4
0.207
0.484
1.064
3.357
7.779
9.488
11.143
13.277
14.860
18.466
5
0.412
0.831
1.610
4.351
9.236
11.070
12.832
15.086
16.750
20.515
6
0.676
1.237
2.204
5.348
10.645
12.592
14.449
16.812
18.548
22.457
7
8
0.989
1.344
1.690
2.180
2.833
3.490
6.346
7.344
12.017
13.362
14.067
15.507
16.013
17.535
18.475
20.090
20.278
21.955
24.321
26.124
9
1.735
2.700
4.168
8.343
14.684
16.919
19.023
21.666
23.589
27.877
10
2.156
3.247
4.865
9.342
15.987
18.307
20.483
23.209
25.188
29.588
11
2.603
3.816
5.578
10.341
17.275
19.675
21.920
24.725
26.757
31.264
12
3.074
4.404
6.304
11.340
18.549
21.026
23.337
26.217
28.300
32.909
13
3.565
5.009
7.041
12.340
19.812
22.362
24.736
27.688
29.819
34.527
14
4.075
5.629
7.790
13.339
21.064
23.685
26.119
29.141
31.319
36.124
15
16
4.601
5.142
6.262
6.908
8.547
9.312
14.339
15.338
22.307
23.542
24.996
26.296
27.488
28.845
30.578
32.000
32.801
34.267
37.698
39.252
17
5.697
7.564
10.085
16.338
24.769
27.587
30.191
33.409
35.718
40.791
18
6.265
8.231
10.865
17.338
25.989
28.869
31.526
34.805
37.156
42.312
19
6.844
8.907
11.651
18.338
27.204
30.144
32.852
36.191
38.582
43.819
20
7.434
9.591
12.443
19.337
28.412
31.410
34.170
37.566
39.997
45.314
21
8.034
10.283
13.240
20.337
29.615
32.671
35.479
38.932
41.401
46.796
22
8.643
10.982
14.041
21.337
30.813
33.924
36.781
40.289
42.796
48.268
23
24
9.260
9.886
11.689
12.401
14.848
15.659
22.337
23.337
32.007
33.196
35.172
36.415
38.076
39.364
41.638
42.980
44.181
45.558
49.728
51.179
25
10.520
13.120
16.473
24.337
34.382
37.652
40.646
44.314
46.928
52.619
26
11.160
13.844
17.292
25.336
35.563
38.885
41.923
45.642
48.290
54.051
27
11.808
14.573
18.114
26.336
36.741
40.113
43.195
46.963
49.645
55.475
28
12.461
15.308
18.939
27.336
37.916
41.337
44.461
48.278
50.994
56.892
29
13.121
16.047
19.768
28.336
39.087
42.557
45.722
49.588
52.335
58.301
30
13.787
16.791
20.599
29.336
40.256
43.773
46.979
50.892
53.672
59.702
Tabela 12 – Partições (número e limites) do domínio da função distribuição de probabilidade, F(x), na
aplicação do teste do Qui-Quadrado em função da dimensão da amostra, N
(adaptada de Henriques, 1990)
Probabilidades F(x) correspondentes aos limites dos M intervalos de partição
N
M
15-20
5
0.000
0.200
0.400
0.600
0.800
1.000
20-25
6
0.000
0.167
0.333
0.500
0.667
0.833
1.000
25-30
7
0.000
0.143
0.286
0.429
0.571
0.714
0.857
1.000
30-40
8
0.000
0.125
0.250
0.375
0.500
0.625
0.725
0.875
1.000
40-50
9
0.000
0.111
0.222
0.333
0.444
0.556
0.667
0.778
0.889
1.000
>50
10
0.000
0.100
0.200
0.300
0.400
0.500
0.600
0.700
0.800
0.900
42
1.000
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Quando E j depende de m parâmetros estimados a partir da amostra por um método
diferente do método da máxima verosimilhança, a estatística do teste χ 2 tem, aproximadamente
a distribuição χ 2 com um número de graus de liberdade compreendido entre M-1 e M-m-1, se H0
for verdadeira.
Observa-se que o teste de Kolmogorov-Smirnov, KS, faz uso mais completo dos dados
disponíveis do que o teste do Qui-Quadrado, χ 2 . Com efeito, sendo a distribuição postulada
contínua, o teste KS examina o ajustamento em cada um dos pontos da amostra, enquanto que o
teste do Qui-Quadrado apenas o faz para cada uma das partições do domínio da função de
distribuição.
Exercício 14 – Considere a amostra de precipitações diárias máximas anuais no posto udométrico de Pavia
(20I/01G) a que se refere a Tabela 1. Conforme se explicitou na Tabela 2, foram estimadas as seguintes estatísticas
amostrais: média, X = 39.5 mm , desvio-padrão, s X = 17.2 mm e coeficiente de assimetria, g X = 1.149. Por aplicação
2
dos testes de Kolmogorov-Smirnov (KS) e do Qui-Quadrado, χ , aprecie a qualidade do ajustamento da lei Gumbel à
mencionada amostra. Adopte o nível de significância de 5%.
Solução: A primeira parte da Tabela 13, incluída na página seguinte, contém os sucessivos resultados da aplicação do
teste de Kolmogorov-Smirnov, KS, à amostra em estudo. Tais resultados estão parcialmente representados na Figura
12, que permite visualizar o valor da estatística do teste.
Função distribuição de probabilidade, m/N e F(x(m))
1.0
0.8
Series1
m/N
Series2
F(x(m))
0.6
0.4
0.2
0.0
0.0
20.0
40.0
60.0
80.0
100.0
Precipitação diária máxima anual (mm)
Figura 12 – Aplicação do teste de Kolmogorov-Smirnov, KS, à amostra de precipitações diárias máximas anuais no
posto udométrico de Pavia (20I/01G) da Tabela 1. Representação gráfica do valor da estatística do teste.
Conforme se indica na Tabela 13, para o nível de significância adoptado, a estatística do teste (0.0704) é inferior ao
correspondente valor crítico (0.1403) pelo que a decisão é a de não rejeitar o ajustamento da distribuição de Gumbel
à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G)
A segunda parte da Tabela 13 refere-se à aplicação do teste do Qui-Quadrado. Atendendo à dimensão da amostra
(94), foram adoptadas 10 partições com amplitude de 0.10, conducentes a um número esperado de elementos da
amostra por intervalo de 9.4. Para a nível de significância de 5%, a estatística do teste (6.8511) é inferior ao valor da
distribuição χ 2, tanto para M-1=9 como para M-m-1=7 graus de liberdade, uma vez que foram estimados dois
parâmetros a partir da amostra. Q decisão é também a de não rejeitar o ajustamento da distribuição de Gumbel à
amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G).
43
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 13 – Aplicação dos testes de Kolmogorov-Smirnov, KS, e do Qui-Quadrado, χ 2, à amostra de
precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) da Tabela 1.
a) Teste de Kolmogorov-Smirnov, KS
m
x(m)
m/N
F(x(m) )
|m/N - F(x(m))|
m
x(m)
m/N
1
2
3
4
5
6
8
8
9
10
11
13
13
14
15
16
17
19
19
20
21
22
23
24
25
26
28
28
29
30
32
32
8.1
10.2
10.3
14.2
15.3
18.2
20.2
20.2
20.4
20.8
24.2
24.3
24.3
25.2
26.0
27.0
27.2
27.4
27.4
27.5
27.8
28.0
28.5
29.0
29.4
29.5
29.8
29.8
30.0
31.3
31.4
31.4
0.0106
0.0213
0.0319
0.0426
0.0532
0.0638
0.0851
0.0851
0.0957
0.1064
0.1170
0.1383
0.1383
0.1489
0.1596
0.1702
0.1809
0.2021
0.2021
0.2128
0.2234
0.2340
0.2447
0.2553
0.2660
0.2766
0.2979
0.2979
0.3085
0.3191
0.3404
0.3404
0.0029
0.0068
0.0071
0.0247
0.0331
0.0642
0.0940
0.0940
0.0973
0.1042
0.1729
0.1752
0.1752
0.1961
0.2155
0.2407
0.2458
0.2509
0.2509
0.2535
0.2613
0.2666
0.2798
0.2932
0.3039
0.3066
0.3147
0.3147
0.3202
0.3557
0.3584
0.3584
0.0077
0.0144
0.0248
0.0178
0.0201
0.0004
0.0089
0.0089
0.0016
0.0022
0.0559
0.0369
0.0369
0.0472
0.0560
0.0704
0.0649
0.0488
0.0488
0.0408
0.0379
0.0325
0.0351
0.0378
0.0380
0.0300
0.0169
0.0169
0.0117
0.0365
0.0180
0.0180
33
34
36
36
37
38
39
42
42
42
43
45
45
46
47
48
50
50
51
52
53
54
55
56
57
58
61
61
61
62
63
31.9
32.5
32.8
32.8
33.2
33.5
34.0
34.2
34.2
34.2
34.6
35.2
35.2
35.7
36.2
36.5
36.7
36.7
37.2
37.4
37.5
38.0
38.2
38.4
38.6
38.9
40.2
40.2
40.2
40.5
41.2
0.3511
0.3617
0.3830
0.3830
0.3936
0.4043
0.4149
0.4468
0.4468
0.4468
0.4574
0.4787
0.4787
0.4894
0.5000
0.5106
0.5319
0.5319
0.5426
0.5532
0.5638
0.5745
0.5851
0.5957
0.6064
0.6170
0.6489
0.6489
0.6489
0.6596
0.6702
F(x(m) ) |m/N - F(x(m))|
m
x(m)
m/N
0.3721
0.3886
0.3968
0.3968
0.4077
0.4159
0.4295
0.4349
0.4349
0.4349
0.4456
0.4617
0.4617
0.4749
0.4880
0.4959
0.5010
0.5010
0.5139
0.5189
0.5215
0.5341
0.5390
0.5440
0.5489
0.5562
0.5872
0.5872
0.5872
0.5942
0.6101
64
65
66
67
68
70
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
92
92
93
94
42.8
43.2
43.7
43.8
44.0
45.0
45.0
46.3
46.6
47.0
48.4
48.5
49.0
50.4
52.0
55.2
56.8
57.0
58.0
58.2
59.6
60.2
63.3
69.0
70.2
71.4
80.0
84.2
84.2
92.3
95.5
0.6809
0.6915
0.7021
0.7128
0.7234
0.7447
0.7447
0.7553
0.7660
0.7766
0.7872
0.7979
0.8085
0.8191
0.8298
0.8404
0.8511
0.8617
0.8723
0.8830
0.8936
0.9043
0.9149
0.9255
0.9362
0.9468
0.9574
0.9787
0.9787
0.9894
1.0000
0.0211
0.0269
0.0138
0.0138
0.0141
0.0116
0.0146
0.0119
0.0119
0.0119
0.0118
0.0170
0.0170
0.0144
0.0120
0.0148
0.0309
0.0309
0.0287
0.0342
0.0423
0.0404
0.0461
0.0518
0.0575
0.0608
0.0617
0.0617
0.0617
0.0654
0.0601
Estatística do teste, máx |m/n -F(x(m) )|:
0.0704
Valor crítico da estatística do teste para o nível do significância, , de 5%:
0.1403
F(x(m) ) |m/N - F(x(m))|
0.6450
0.6533
0.6636
0.6656
0.6696
0.6892
0.6892
0.7133
0.7187
0.7257
0.7491
0.7507
0.7586
0.7797
0.8018
0.8403
0.8569
0.8589
0.8683
0.8701
0.8822
0.8871
0.9093
0.9397
0.9447
0.9493
0.9730
0.9802
0.9802
0.9891
0.9914
b) Teste do Qui-Quadrado, χ 2
Partição do domínio da
função distribuição de
probabilidade
Factor de probabilidade da
lei de Gumbel
Valor da variável aleatória
Fi
Fi+1
Ki
Ki+1
xi
xi+1
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
--1.1003
-0.8211
-0.5948
-0.3819
-0.1643
0.0737
0.3538
0.7194
1.3046
-1.1003
-0.8211
-0.5948
-0.3819
-0.1643
0.0737
0.3538
0.7194
1.3046
--
-∞
20.56
25.36
29.25
32.92
36.66
40.75
45.57
51.86
61.93
20.56
25.36
29.25
32.92
36.66
40.75
45.57
51.86
61.93
+∞
Estatística do teste, χ 2 =
M
j =1
(O j − E j )2 = M
Ej
N
Valor crítico da estatística do teste para o nível de
significância, α, de 5%
44
M
j =1
Número de elementos
por classe
Efectivo, Esperado,
Oj
Ej=M/N
9
5
10
12
12
14
8
7
8
9
2
Oj − N :
Para ν =M-1=9 graus de liberdade
Para ν =M-m-1=7 graus de liberdade
9.4
6.851
16.919
14.067
0.0359
0.0382
0.0385
0.0471
0.0538
0.0555
0.0555
0.0420
0.0473
0.0509
0.0381
0.0471
0.0499
0.0394
0.0280
0.0001
0.0059
0.0028
0.0040
0.0128
0.0114
0.0172
0.0056
0.0142
0.0086
0.0025
0.0155
0.0015
0.0015
0.0002
0.0086
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
9.4. Avaliação das incertezas associadas às estimativas de quantis
A estimativa do quantil x F , relativo à probabilidade de não excedência, F, obtido por um
método de estimação contém, independentemente desse método, erros que são inerentes às
incertezas presentes na estimação das características e dos parâmetros populacionais a partir de
amostras de dimensão N, necessariamente reduzida face à infinitude daquela população, como já
repetidamente afirmado. Uma medida frequentemente usada para quantificar a variabilidade
intrínseca de x F , e, portanto, indicar a confiança das estimativas de quantis de variáveis
hidrológicas, é dada pelo erro padrão da estimativa, SF, definido por:
[
SF = E { x F − E [ x F ] }2
]
..............................................................................................(25)
O erro padrão da estimativa leva em conta apenas os erros oriundos do processo de
estimação a partir de amostras finitas e, portanto, não considera o eventual erro devido à
selecção de uma distribuição de probabilidades inadequada. Admitindo que a distribuição FX(x)
tenha sido correctamente especificada, o erro padrão da estimativa compreende os erros
inerentes às estimativas dos parâmetros de FX(x). Os diferentes métodos de estimação
produzirão diferentes erros-padrão das estimativas. O método de estimação com maior
eficiência, do ponto de vista estatístico, é o que resultar no menor valor de SF.
A teoria estatística de amostragem demonstra que a distribuição de x F é assimptoticamente
Normal, com média igual à estimativa do quantil, x F , e desvio-padrão SF, quando a dimensão da
amostra tende para infinito, ou seja, N
. No que respeita a amostras finitas com dimensão N, o
anterior resultado teórico pode ser usado para construir intervalos de confiança aproximados,
para o nível 100(1- )%, cujos limites são expressos por:
x̂ F ± zα 2 SF .......................................................................................................................(26)
onde zα 2 representa a variável Normal padrão para a probabilidade de não-excedência de α 2 .
A dificuldade de aplicar o procedimento descrito para estimar intervalos de confiança
associados a estimativas de quantis decorre do cálculo de SF que é muito complexo para todos os
métodos de estimação e para quase todas as distribuições, com particular ênfase para as de três
parâmetros – ver Kite (1988), Rao e Hamed (2000) e o capítulo 6 de Naghettini e Pinto (2007).
Uma alternativa para associar intervalos de confiança a quantis, muito menos complexa do
que a aproximação expressa pela equação (26), utiliza a geração, por recurso à técnica de
Monte Carlo, de um grande número de amostras com o mesmo tamanho N da amostra original –
amostras sintéticas da dimensão N – com estimação a partir de cada uma dessas amostras, do
quantil pretendido, ao qual é posteriormente associado uma distribuição empírica de
probabilidades.
Suponha-se que, à amostra { x1 , x 2 , ..., x N }, se ajustou uma distribuição de probabilidades
genérica FX(x), cujos parâmetros θ1 ,θ 2 ,..., θ k foram estimados a partir de um método qualquer de
estimação designado por EM. A aplicação da técnica de Monte Carlo tendo em vista construir
intervalos de confiança em torno das estimativas de k quantis x Fk processa-se de acordo com as
seguintes etapas sequenciais:
45
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
i
Para cada valor de (j), variável entre 1 (primeira amostra sintética) e W (última
amostra sintética, com W muito grande, da ordem dos milhares, por exemplo, 5000),
geração da amostra sintética de ordem (j) com dimensão N, mediante a geração de N
números aleatórios uniformes entre 0 e 1, u (i j) , com i=1, …, N, sendo N a dimensão
das amostra, quer original, quer sintética de ordem (j).
ii
No entendimento de que, para a amostra sintética de ordem (j), cada um dos anteriores
N valores de u (i j) representa uma probabilidade de não-excedência, ou seja,
u (i j) = F( j) ( x i ) = Fi( j) , cálculo dos N quantis x̂ i( j) , com i=1, …, N, seja por inversão
directa da função Fi( j) , seja recorrendo ao método dos factores de probabilidade,
conforme Tabela 7, num e noutro caso, tendo por base as estimativas dos parâmetros
obtidas a partir da amostra original, θ1 ,θ 2 ,..., θ k .
iii Da etapa precedente resulta uma amostra sintética de dimensão N, x̂ i( j) , de um
conjunto W dessas amostras, com W muito elevado, da ordem dos milhares, conforme
antes explicitado.
iv
Estritamente com base na amostra sintética de ordem (j) e mediante utilização do
método de estimação EM, cálculo das estimativas dos parâmetros θ1( j) ,θ2( j) ,..., θ(kj) , e,
conhecidos estes parâmetros, dos quantis pretendidos, x (Fjk) , seja por inversão da função
Fi( j) , seja recorrendo ao método dos factores de probabilidade, conforme Tabela 7,
num e noutro caso, tendo por base as estimativas dos parâmetros obtidas a partir da
amostra sintética de ordem (j), θ1( j) ,θ(2j) ,..., θ(kj) ;
v
Repetição das etapas (i) a (iv) para W amostras sintéticas (W=1, …, 5000, …).
vi No final do anterior processo, dispõe-se, para cada quantil x Fk , de W estimativas, x F( jk) ,
com j=1, … W, as quais são ordenadas por ordem, por exemplo, crescente.
vii Sendo W muito grande, para definir os limites do intervalo de confiança a 100 (1α/2)% para cada um desses quantis basta reter os quantis com ordens de classificação
W(α/2) e W(1-α/2).
A Tabela 14 e a Figura 13 ilustram a obtenção, segundo a lei de Gumbel, com parâmetros
estimados pelo método dos momentos, dos intervalos de confiança a 95% dos quantis das
precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) a que se refere a
Tabela 1.
A anterior tabela exemplifica o procedimento de cálculo de acordo com as etapas
anteriormente descritas, no pressuposto de geração de W=5000 séries sintéticas de precipitações
diárias máximas anuais, cada uma com dimensão igual à da série histórica, ou seja, com N=94
valores. Por razões óbvias, apenas se incluíram uns escassos resultados referentes às primeiras
cinco e às últimas cinco séries sintéticas, nomeadamente, alguns dos números aleatórios
uniformes gerados entre 0 e 1 (primeiro quadro da tabela) e as correspondentes estimativas de
precipitações diárias máximas anuais avaliadas por recurso ao método dos factores de
probabilidade para a lei de Gumbel, atendendo à média e ao desvio-padrão da série histórica.
46
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Tabela 14 – Intervalo de confiança a 95%, para a estimativa fornecida pela lei de Gumbel para a
precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) com a probabilidade de
não-excedência de 99% (período de retorno de 100 anos).
Séries de 94 números aleatórios uniformes entre 0 e 1
Ano
Número de orde m da sé rie
1
0.548
0.585
0.542
0.882
0.511
0.749
0.755
0.759
0.624
0.040
…
0.964
0.400
0.659
0.632
0.638
0.148
0.430
0.389
0.308
0.732
0.597
1
2
3
4
5
6
7
8
9
10
…
84
85
86
87
88
89
90
91
92
93
94
2
0.142
0.618
0.975
0.053
0.069
0.896
0.567
0.525
0.335
0.009
…
0.425
0.512
0.332
0.692
0.301
0.973
0.094
0.601
0.074
0.631
0.599
3
0.710
0.658
0.426
0.356
0.901
0.113
0.847
0.278
0.127
0.111
…
0.936
0.390
0.499
0.121
0.016
0.716
0.428
0.750
0.944
0.692
0.876
4
0.254
0.266
0.697
0.572
0.151
0.873
0.426
0.890
0.078
0.849
…
0.589
0.015
0.547
0.290
0.873
0.706
0.482
0.731
0.410
0.072
0.083
5
0.832
0.088
0.077
0.705
0.540
0.105
0.788
0.728
0.661
0.742
…
0.622
0.899
0.683
0.226
0.071
0.154
0.332
0.671
0.880
0.165
0.700
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
4996
0.869
0.283
0.040
0.841
0.247
0.476
0.999
0.538
0.204
0.205
…
0.134
0.463
0.940
0.361
0.196
0.151
0.404
0.665
0.995
0.076
0.695
4997
0.336
0.609
0.553
0.930
0.426
0.028
0.832
0.814
0.286
0.662
…
0.746
0.556
0.445
0.312
0.678
0.694
0.584
0.058
0.958
0.818
0.922
4998
0.502
0.296
0.549
0.586
0.165
0.679
0.647
0.809
0.394
0.525
…
0.095
0.204
0.209
0.620
0.674
0.765
0.602
0.017
0.519
0.256
0.105
4999
0.805
0.361
0.858
0.920
0.164
0.681
0.908
0.379
0.251
0.185
…
0.038
0.382
0.951
0.603
0.981
0.012
0.176
0.843
0.791
0.548
0.206
5000
0.908
0.527
0.545
0.911
0.945
0.552
0.572
0.363
0.299
0.298
…
0.125
0.288
0.096
0.503
0.581
0.551
0.196
0.440
0.150
0.869
0.472
Séries sintéticas de precipitações diárias máximas anuais com dimensão de 94 anos (mm)
Ano
Número de orde m da sé rie
1
2
3
4
5
6
7
8
9
10
…
84
85
86
87
88
89
90
91
92
93
94
1
38.58
40.12
38.32
59.56
37.10
48.36
48.79
49.03
41.81
16.02
…
76.17
32.91
43.49
42.18
42.47
23.07
34.03
32.52
29.55
47.37
40.61
2
22.79
41.53
80.82
17.25
18.58
61.35
39.35
37.64
30.53
11.09
…
33.83
37.13
30.43
45.17
29.30
79.83
20.19
40.81
18.91
42.16
40.72
3
46.13
43.44
33.86
31.33
62.06
21.27
55.78
28.43
22.01
21.16
…
68.12
32.54
36.64
21.72
12.70
46.47
33.94
48.45
70.14
45.14
58.91
4
27.52
27.99
45.40
39.57
23.18
58.56
33.86
60.56
19.17
56.00
…
40.28
12.49
38.52
28.88
58.52
45.92
35.96
47.30
33.27
18.74
19.51
5
54.44
19.83
19.10
45.84
38.23
20.83
50.96
47.12
43.58
47.98
…
41.75
61.85
44.68
26.42
18.72
23.34
30.44
44.04
59.31
23.84
45.56
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
…
4996
58.03
28.61
16.06
55.26
27.25
35.75
123.16
38.16
25.55
25.58
…
22.38
35.27
68.96
31.49
25.18
23.21
33.06
43.75
103.30
19.07
45.33
4997
30.57
41.16
38.76
67.02
33.88
14.69
54.43
52.95
28.73
43.61
…
48.22
38.91
34.58
29.70
44.44
45.24
40.05
17.72
73.92
53.26
65.42
4998
36.75
29.10
38.59
40.16
23.86
44.46
42.90
52.51
32.71
37.63
…
20.25
25.51
25.72
41.65
44.22
49.39
40.83
12.88
37.41
27.60
20.85
4999
52.27
31.50
56.96
64.99
23.79
44.58
63.11
32.16
27.41
24.73
…
15.82
32.27
71.86
40.90
84.52
11.75
24.32
55.48
51.21
38.55
25.61
5000
63.17
37.71
38.46
63.59
70.26
38.71
39.57
31.56
29.23
29.18
…
21.94
28.81
20.35
36.79
39.92
38.70
25.18
34.40
23.17
58.02
35.59
Média (mm)
41.52
38.23
38.02
37.25
40.32
…
40.18
40.23
39.55
37.86
41.08
Des vio-padrão (mm)
22.22
16.45
17.36
15.26
17.33
…
20.99
16.16
16.98
16.15
16.94
Estimativa para F=0.99 (mm) 111.22
89.84
92.46
85.11
94.68
…
106.01
90.94
92.82
88.52
94.20
Estimativa para F=0.99, ou s eja, para T=100 anos
Estimativa para F=0.99, ou seja, para T=100 anos
Ordem da
série
s intética
Para cada s érie
sintética
Ordenada por valores
crecentes
Ordem da
série
sintética
Para c ada série
s intética
Ordenada por valores
c rec entes
1
2
3
…
118
119
120
121
122
123
124
125
125
126
127
128
129
130
…
4869
(mm)
111.22
89.84
92.46
…
86.53
104.94
87.80
100.62
98.83
93.92
102.46
88.63
88.46
88.39
91.60
92.87
97.35
103.22
…
94.10
(mm)
71.20
72.00
72.50
…
76.90
77.00
77.08
79.60
80.52
80.74
80.77
80.79
82.45
82.74
82.87
82.98
83.32
83.75
…
106.90
4870
4871
4872
4873
4874
4875
4876
4877
4878
4879
4880
4881
4882
4883
4884
4885
…
4998
4999
5000
(mm)
78.31
96.75
92.96
95.96
84.25
87.20
93.10
90.49
89.64
93.83
91.25
92.78
99.82
91.27
90.65
105.09
…
92.82
88.52
94.20
(mm)
106.53
107.00
107.30
107.40
107.50
107.56
108.00
108.30
108.50
108.80
109.20
109.50
110.00
110.84
111.00
111.10
…
113.70
113.90
114.00
Nota: Os limites do intervalo de confiança estão destacados a negrito e sombreado.
47
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Pdma (mm)
180
160
140
0.10
0.30 0.50
0.70
0.90
0.99
0.999
0.9999
F=P(X ≤ x)
Quantil ou média das 5000 estimativas
do quantil
Intervalo de confiança a 95%:
Eq. (25) e (26)
Geração de 5000 séreis sintéticas
120
100
80
60
40
20
0
-2
-1
0
1
2
3
4
5
6
7
KF Gumbel
Figura 13 – Intervalos de confiança a 95%, para os quantis fornecidos pela lei de Gumbel para as
precipitações diárias máximas anuais no
posto udométrico de Pavia (20I/01G).
Resultaram, assim, 5000 séries sintéticas de precipitações diárias máximas anuais (segundo
quadro da tabela), sendo que se incluíram na tabela as médias e os desvios-padrões das séries aí
parcialmente exemplificadas, bem como as respectivas estimativas das precipitações máximas
diárias anuais para a probabilidade de não-excedência de 0.99 (período de retorno de 100 anos),
obtidas também por aplicação do método dos factores de probabilidade, mas, agora, fazendo
intervir as estatísticas amostrais (média e desvio-padrão) de cada uma das sucessivas séries
sintéticas.
O terceiro quadro incluído na Tabela 14 exemplifica o procedimento de cálculo do
intervalo de confiança da precipitação para o quantil de 99%. Conforme aí indicado, obtidas as
5000 estimativas das precipitações máximas diárias anuais para a probabilidade de nãoexcedência de 0.99 e ordenadas tais estimativas por valores crescentes, os limites do intervalo de
confiança, por exemplo, a 5% são dados pelas estimativas que ocupam as posições ordenadas
0.025 × 5000 = 125 e 0.975 × 5000 = 4875 , com os valores de, respectivamente, 80.79 e 107.56
mm, destacados na tabela. Recorda-se que, em conformidade com o Exercício 12, a estimativa
da precipitação diária máxima anual fornecida pelo método dos momentos baseado no factor de
probabilidade para aquela probabilidade de não-excedência foi de 93.5 mm.
A Figura 13 contém as curvas que definem os limites do intervalo de confiança a 95% para
a generalidade dos quantis fornecidos, por um lado, pela geração de 5000 séries sintéticas, de
acordo com o procedimento exemplificado na Tabela 15 e, por outro lado, por aplicação das
equações (25) e (26), para o que foi necessário especificar o erro padrão, SF, para o que se
utilizou a seguinte equação, válida no caso de aplicação do método dos momentos a uma
distribuição estatística de dois parâmetros:
48
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
2
SX 2
KF
S =
1 + K F γ1 +
( γ 2 − 1) ...............................................................................(27)
N
4
2
T
em que N é a dimensão da amostra; KF, o factor de probabilidade; S2X , a variância da amostra; e
γ1 e γ 2 os coeficientes de assimetria e de curtose da população que, para a lei de Gumbel, são
iguais a, respectivamente, 1.1396 e 5.4.
A Figura 13 suscita algumas observações pertinentes, a primeira das quais relativa ao
segmento de recta assinalada a preto. Conforme se explicitou na legenda da figura, tal segmento
representa:
• os quantis estimados por aplicação do método dos momentos baseado no factor de
probabilidade a partir das estimativas da média e do desvio-padrão da amostra (39.5 mm
e 17.2 mm, respectivamente, conforme Tabela 2), sendo que coincide exactamente com
o segmento de recta referente à lei de Gumbel incluído no gráfico inferior da Figura 11;
• a menos de desvios praticamente imperceptíveis, a média das 5000 estimativas de cada
um dos sucessivos quantis.
Importa recordar que está em causa um segmento de recta e não uma curva pois trata-se de
uma representação da função de distribuição de probabilidade da lei de Gumbel em papel de
probabilidade dessa mesma lei.
Concluiu-se, assim, que sendo o número de séries sintéticas suficientemente elevado, as
médias das estimativas dos sucessivos quantis que resultam das séries sintéticas coincidem com
as estimativas desses quantis fornecidas pela amostra histórica.
A título exemplificativo, obteve-se a Figura 14 que contém o histograma das
5000 estimativas da precipitação que decorrem das séries sintéticas para a probabilidade de
não-excedência de 0.99. A tais estimativas ajustou-se a lei Normal, conforme representado na
figura. A média dessas estimativas – com o valor indicado na figura de cerca de 93.2 mm – é
praticamente coincidente com a estimativa do quantil obtida a partir da amostra, dada por:
x T = X + K FGumbel s X = 39.5 + 3.137 × 17.2 = 93.5 mm .......................................................(28)
resultado, aliás, antes obtido no Exercício 12, não obstante o método de estimação então
aplicado ter sido diferente.
Retomando a análise da Figura 13, verifica-se que os limites fornecidos pelo recurso à
geração de 5000 de séries sintéticas ou por aplicação das equações (25) e (26) são praticamente
coincidentes, sendo que aquela técnica, embora computacionalmente exigente, assenta num
formalismo matemático simples e facilmente aplicável a diferentes distribuições obviando a
grande complexidade de cálculo do erro padrão da estimativa, SF, conforme antes referido.
Importa anotar que o esforço computacional exigido pela técnica de Monte Carlo pode ser
minimizado pela aplicação Pythia-Statistical Analysis do software gratuito Hydrognomon,
desenvolvido pela Universidade Técnica de Atenas e disponível para download a partir de acesso
à URL http://hydrognomon.org/download.html.
49
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Frequência
absoluta
Quantis para a probabilidade de não-excedência de 0.99 (mm)
Figura 14 – Histograma das estimativas fornecidas pelas séries sintéticas (em número de W=5000) da
precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) para a
probabilidade de não-excedência de 99%.
Observa-se, por fim, que, tal como representado na Figura 13, os limites do intervalo de
confiança a 95% se distanciam progressiva e significativamente da curva de quantis, à medida
que a probabilidade de não-excedência e, logo, o período de retorno aumentam. Com efeito e tal
como anteriormente explicitado, para F=0.99 (T=100 anos), o intervalo a 95% associado à
correspondente estimativa da precipitação diária máxima anual, de 93.5 mm, é [80.79 mm,
107.56 mm], apresentando, portanto, desvios, relativamente àquela estimativa, sensivelmente
entre -13.6 e +15.0 %, de modo a conter as incertezas devidas à estimação de parâmetros e de
quantis. O entendimento associado ao anterior intervalo é de que o mesmo contém o verdadeiro,
embora desconhecido, quantil da precipitação para o período de retorno de 100 anos, com a
probabilidade de 95%.
O afastamento progressivo das curvas que definem os intervalos de confiança para
probabilidades de não-excedência crescentes reflecte as incertezas progressivamente maiores
subjacentes à análise de frequência com amostras finitas de tamanho N. Esta constatação aponta
no sentido de ser necessário um cuidado especial na extrapolação da curva de frequências para
probabilidades de não-excedência correspondentes a períodos de retorno muito superiores à
dimensão, N, da amostra disponível. Embora dependendo da qualidade do ajustamento a uma
amostra de tamanho N, de modo geral, não se recomenda a extrapolação da curva de
frequências para períodos de retorno superiores a 4N. Se essa extrapolação for mesmo
necessária, poder-se-á recorrer a métodos complementares, incluindo a análise regional de
frequências, que, de algum modo, introduz alguma compensação nas amostras de pequeno
tamanho, pela agregação de informações referentes a outras estações de monitorização,
localizadas numa mesma região considerada homogénea no que respeita ao fenómeno traduzido
pela variável hidrológica para a qual se pretendem estimar quantis. Para detalhes sobre a análise
regional de frequências, o leitor pode consultar Hosking e Waliis (1997) e o capítulo 10 de
Naghettini e Pinto (2007).
50
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
10. Correlação e regressão simples de variáveis hidrológicas
Na prática da engenharia de recursos hídricos, com alguma frequência, é necessário
estabelecer a forma e o grau da associação entre duas ou mais variáveis, como, por exemplo, no
estudo das relações entre: (i) as intensidades médias, as durações e as frequências associadas a
precipitações intensas; (ii) os módulos dos caudais médios diários em diferentes bacias e as áreas
de drenagem dessas bacias; (iii) as alturas anuais médias da precipitação e as altitudes dos postos
udométricos; ou (iv) os níveis hidrométricos e os caudais afluentes numa estação hidrométrica,
entre outros exemplos.
Para tanto é necessário analisar o comportamento simultâneo das duas variáveis aleatórias
em presença, Y e X, verificando se a variação (no sentido do aumento ou da diminuição) de uma
delas está associada à variação (no mesmo sentido ou em sentidos contrários) da outra, ou
mesmo, se não há qualquer dependência estatística entre as variáveis.
Uma medida quantitativa do grau de associação linear entre Y e X é dada pelo coeficiente
de correlação de Pearson (frequentemente, designado apenas por coeficiente de correlação),
cuja estimativa, a partir de uma amostra de pares de valores {xi, yi; i=1, 2, …, N}, é dada por:
[1 (N − 1)]
S
rxy = XY =
SXSY
N
i =1
(x i − X )(yi − Y )
SXSY
....................................................................(29)
onde SXY denota a covariância de X e Y (expressa, portanto, nas unidades de X e de Y) e SX e SY,
os respectivos desvios-padrão.
Contrariamente à covariância, o coeficiente de correlação linear de Pearson é
adimensional e varia entre -1 e +1. Deste modo, as unidades de X e Y não afectam o valor do
coeficiente de correlação. Caso os pares {xi, yi} se alinhem perfeitamente ao longo de uma recta
com declive positivo, ter-se-á uma correlação linear positiva perfeita, sendo o coeficiente de
correlação igual a 1. A correlação linear negativa perfeita ocorre quando os pares {xi, yi} se
alinham perfeitamente ao longo de uma recta com declive negativo, sendo o coeficiente de
correlação neste caso é igual a -1. O significado de valores intermediários do coeficiente é fácil e
intuitivamente perceptível.
A Figura 15 apresenta alguns hipotéticos diagramas de dispersão de duas variáveis, com as
respectivas estimativas do coeficiente de correlação. Nota-se que um valor nulo para o
coeficiente de correlação não implica que não haja nenhuma associação entre X e Y. De facto,
tal como ilustrado na Figura 15 apesar de r=0, pode haver associação não linear entre as
variáveis.
Ainda a respeito de coeficiente de correlação, cabe sublinhar que um elevado valor de r,
embora estatisticamente significativo, não implica necessariamente numa relação de causa e
efeito entre as variáveis. De facto, um elevado coeficiente de correlação indica simplesmente que
há uma associação na variação conjunta daquelas variáveis, a qual pode ser explicada, por
exemplo, por ocorrências de um factor causal comum a ambas.
A simples visualização de um diagrama de dispersão pode sugerir, muitas vezes, a
existência de uma relação funcional entre as variáveis Y e X, o que introduz o problema de se
determinar a função que formaliza essa dependência. Uma técnica estatística para o efeito
disponível é a análise de regressão.
51
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
r=0.00
r=0.90
r=0.70
r=1.00
Figura 15 – Alguns exemplos de associações denotando correlação entre as variáveis Y e X.
Nesse contexto, suponha-se que a variação de Y, denominada variável dependente (de
resposta ou explicada), possa ser compreendida e modelada a partir da variação de X, chamada
variável independente (ou explicativa). A forma funcional, ou modelo de regressão, que
relaciona Y e X, deve ser capaz de explicar uma parcela significativa da variação conjunta de
ambas variáveis. Contudo, pela natureza das dependências estatísticas, parte da variação pode
permanecer inexplicada, devendo ser atribuída ao acaso. Noutros termos, admite-se a existência
de uma função que explica, em termos médios, a variação de Y a partir de X. Os pares de
observação {xi, yi} apresentarão uma variação aleatória em torno da linha estabelecida pela
função de regressão, que é denominada variação residual. Portanto, a equação que define o
modelo de regressão fornece o valor médio de Y em função de X. Se a forma funcional do
modelo de regressão for conhecida (ou prescrita), haverá que estimar os coeficientes (ou
parâmetros) da equação (ou modelo) de regressão.
Admita-se que a equação de regressão entre Y e X seja descrita por uma recta:
Y = α + β X + ε ..................................................................................................................(30)
onde e são os coeficientes de regressão e ε denota os erros ou resíduos da regressão. Os
coeficientes e têm de ser estimados a partir dos pares de observações {xi, yi; i=1, 2, …, N},
resultando na seguinte estimativa:
ŷ i = αˆ + βˆ x i = a + bx i ........................................................................................................(31)
onde ŷ i é o valor estimado da variável dependente a partir de valor observado x i da variável
independente e αˆ = a e βˆ = b as estimativas dos coeficientes de regressão.
O método mais usual para realizar a estimação de α e β é o método dos mínimos
quadrados, cujo objectivo é encontrar a função de regressão que minimiza a soma dos
quadrados dos desvios (ou resíduos quadráticos) entre os pontos observados e os calculados
pela função ajustada, como se esquematiza na Figura 16.
52
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Figura 16 – Coeficientes de regressão pelo método dos mínimos quadrados
De acordo com o anterior método, para o ponto com ordem de i, a distância quadrática é
dada por:
ei2 = ( yi − a − bx i )2 = yi2 − 2 yi a − 2 yi bx i + a 2 + 2abx i + b 2 x 2i ............................................(32)
Logo, para todos os N elementos da amostra, resulta:
N 2
ε =
i=1 i
Z=
+ Na 2 + 2ab
N 2
y − 2a
i=1 i
N
i=1
xi + b2
N
y − 2b
i=1 i
N
i=1
N
i=1
( x i yi ) +
x 2i
..............................................................(33)
Como Z = f (a, b ) , os valores dos coeficientes a e b que minimizam a soma dos quadrados
dos desvios são obtidos igualando a zero as derivadas parciais de Z em relação àqueles
coeficientes. Esta operação resulta no seguinte sistema de duas equações e duas incógnitas:
N
N
y − Na − b
x =0
i=1 i
i=1 i
N
N
N 2
(x y ) − a
x −b
x =0
i=1 i i
i=1 i
i=1 i
..................................................................................(34)
cujas soluções são as estimativas de α e β, dadas pelas seguintes equações:
N
a=
b=
i =1
yi
N
N
N
i=1
N
N
−b
i =1
N
(x i yi ) −
N
xi
2
i
x −
i=1
N
(
= Y − b X ......................................................................................(35)
N
y
i=1 i
N
x
i =1 i
)
i =1
2
xi
....................................................................................(36)
Algumas funções não lineares podem ser linearizadas mediante o uso de transformações
adequadas, permitindo, assim, a aplicação das equações da regressão linear simples. Um exemplo
é a função potencial do tipo Y = aXb , a qual, mediante aplicação de logaritmos pode ser
transformada no modelo linear Z = k + bV , no qual Z = ln Y , k = ln a e V = ln X . As equações
(35) e (36) podem, então, ser aplicadas às variáveis transformadas Z e V.
53
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Para modelos lineares e não lineares, a qualidade do ajustamento é avaliada pelo
coeficiente de determinação, R2, dado pela equação:
2
R = 1−
N
i=1
N
i=1
(y i − ŷ i )2
(yi − Y )2
.....................................................................................................(37)
O coeficiente de determinação representa a fracção da variância total de Y que foi
explicada pelo modelo de regressão. Um valor próximo de 1 significa que o modelo de regressão
é quase perfeito. Ao contrário, se próximo de zero, significa que o modelo de regressão tem
pouquíssimo valor ao tentar explicar a variância de Y. No caso de um modelo linear, o quadrado
do coeficiente de correlação, R, avaliado pela equação (29), corresponde também ao coeficiente
de determinação. Ao leitor interessado em detalhes sobre outras funções não lineares, testes
estatísticos referentes aos coeficientes de correlação e de regressão, análise dos resíduos da
regressão e extensão dos conceitos aqui apresentados para mais de uma variável explicativa,
sugere-se a consulta de Montgomery e Peck (1992) e do capítulo 9 de Naghettini e Pinto (2007).
Exercício 15 – Deduzir as equações normais para o seguinte modelo parabólico Q = a + b h + c h 2 .
Solução: A variável dependente é Q e a independente é h, com três coeficientes de regressão (a, b, c). Procedendo
exactamente de acordo com as equações (32) e (33), obtém-se a uma expressão relativa à soma dos desvios
quadráticos Z, a qual, neste caso, é uma função de a, b e c. As equações normais resultam de se igualarem a zero as
derivadas parciais de Z, em relação a a, b e c, com obtenção do seguinte sistema de equações:
Q = Na + b
(Q h ) = a
h2
h+c
h2 + c
h+b
(Q h 2 ) = a
h2 + b
h3
h3 + c
h4
Exercício 16 - A Tabela 15 contém os caudais instantâneos, Q, considerados no estabelecimento da curva de vazão
numa dada estação hidrométrica, bem como as alturas hidrométricas, h, para esses caudais. Estabeleça a equação da
curva de vazão: a) usando o modelo de regressão parabólica dado por Q = a + b h + c h 2 ; b) considerando que a sua
forma é do tipo Q = a (h − h 0 ) b .
Tabela 15 – Pares de valores de caudais instantâneos, Q, e das correspondentes alturas hidrométricas, h, relativos a
uma estação hidrométrica.
h(m)
Q (m3/s)
h(m)
Q (m3/s)
h(m)
Q (m3/s)
h(m)
Q (m3/s)
0.5
12
1.91
170
4.73
990
8.21
2540
0.8
40
2.36
240
4.87
990
8.84
2840
1.19
90
2.7
300
5.84
1260
9.64
3320
1.56
120
4.07
680
7.19
1920
----
----
Solução: a) A solução das equações normais de regressão (ver exercício 15) necessita dos seguintes
valores N=15,
Q = 15512.00 m3/s,
h =64.41 m,
(Q h ) =113432.00 m4/s,
(Q h 2 ) =905380.75 m5/s,
h 2 = 408.18 m2,
h 3 =3045.57 m3 e
h 4 =24564.94 m4. A substituição destes valores nas equações normais
do modelo parabólico conduz às estimativas dos coeficientes de regressão a=-33.1195, b=53.6034 e c=30.7612. A
Figura 17 mostra o gráfico do modelo de regressão ajustado à amostra de pares de valores (h,Q). O coeficiente de
54
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
determinação, calculado pela equação (37), resulta em R2=0.9989 e significa a parcela da variância dos caudais
instantâneos que foi explicada pelas alturas hidrométricas.
Altura hidrométrica h (m)
12
10
8
6
Registos
Series3
Q = -33.1195 + 53.6034 h + 30.7612 h2
Series1
Series2
Q = 54.0125 (h-0.0124)1.8219
4
2
0
0
500
1000
1500
2000
2500
3000
3500
4000
4500
Caudal, Q (m3/s)
Figura 17 – Curvas de vazão para os dois possíveis modelos definidos no exercício 16.
b) Aplicando logaritmos à equação Q = a (h − h 0 ) b , resulta ln Q = ln a + b ln (h − h 0 ) que traduz a equação de uma
recta em que as abcissas são os valores de ln (h − h 0 ) e as ordenadas, os de ln Q . Deste modo, é válido aplicar a
análise de regressão linear simples aos pares de valores ( ln (h − h 0 ) , ln Q ). Existem, contudo, três parâmetros da
curva de vazão a estimar – a, b, h0 – ou seja, mais um do que os susceptíveis de serem directamente obtidas por
aquela análise. Para resolver o problema, basta arbitrar o valor de h0 que mais aproxima de uma recta a relação entre
ln (h − h 0 ) e ln Q, e aplicar a análise de regressão linear para estimar os restantes dois parâmetros. Para cada valor
de h0 arbitrado resulta uma equação para a curva de vazão que, aplicada às alturas hidrométricas utilizadas no seu
estabelecimento, h, conduz a estimativas de caudais, Q , que naturalmente diferem dos caudais que também foram
utilizados naquele estabelecimento, Q. A solução do problema traduzir-se-á no conjunto de três
parâmetros - a, b, h0 - que obedeçam a um certo critério de optimização, por exemplo, maximizar a correlação entre
os caudais observados, Q, e os estimados a partir da curva de vazão, Q . A Tabela 16 exemplifica o cálculo descrito.
Tabela 16 – Cálculo dos parâmetros da curva de vazão definida por Q = a (h − h 0 ) b .
h
(m)
0.5
0.8
1.19
1.56
1.91
2.36
2.7
4.07
4.73
4.87
5.84
7.19
8.21
8.84
9.64
Q
h0 (m)
3
(m)
(m /s)
12
40
90
120
170
240
300
680
990
990
1260
1920
2540
2840
3320
ln a
a
b
Coeficiente de correlação entre Q e Q
-1.000000
ln Q
ln (h-h0)
2.48
0.41
3.69
0.59
4.50
0.78
4.79
0.94
5.14
1.07
5.48
1.21
5.70
1.31
6.52
1.62
6.90
1.75
6.90
1.77
7.14
1.92
7.56
2.10
7.84
2.22
7.95
2.29
8.11
2.36
2.1707
8.7644
2.6022
h0(m)
Q
3
(m)
(m /s)
25.17
4.90
13.78
27.88
47.21
81.87
116.20
338.06 0.000000
499.83
539.25
865.08
1486.19
2098.92
2544.18
3187.53
0.989470
ln Q
Q
3
(m /s)
-0.69 14.78
-0.22 35.00
0.17
72.49
0.44 119.10
0.65 172.63
0.86 254.45
0.99 325.68
1.40 691.24
1.55 910.56
1.58 960.59
1.76 1340.28
1.97 1962.52
2.11 2503.03
2.18 2866.46
2.27 3360.01
ln (h-h0 )
2.48
3.69
4.50
4.79
5.14
5.48
5.70
6.52
6.90
6.90
7.14
7.56
7.84
7.95
8.11
3.9645
52.6951
1.8338
0.999459
55
…
…
…
h0(m)
(m)
0.012404
ln Q
Q
3
(m /s)
-0.72 14.59
-0.24 35.97
0.16
74.15
0.44 121.43
0.64 175.59
0.85 258.16
0.99 329.89
1.40 696.76
1.55 916.20
1.58 966.20
1.76 1345.19
1.97 1964.83
2.10 2502.02
2.18 2862.78
2.26 3352.24
ln (h-h0)
2.48
3.69
4.50
4.79
5.14
5.48
5.70
6.52
6.90
6.90
7.14
7.56
7.84
7.95
8.11
3.9892
54.0125
1.8219
0.999462
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Conforme indicado na tabela, partiu-se de um valor inicial de h0=-1.000, depois do que se alterou para h0=0.000, com
obtenção, após várias iterações, do valor final de sensivelmente h0=0.0124, correspondente aos valores, também
finais, dos parâmetros da curva de vazão de a=54.0125 e b=1.8219, obtidos a partir dos valores intermédios
de
y=
ln Q =90.6970 ,
x=
ln (h − h 0 ) =16.9381 ,
(x y) =
[ln (h − h 0 ) ln Q] =124.1603 e
x2 =
[ln ( h − h 0 )] 2 =31.0621 .
Na solução, o coeficiente de correlação entre caudais observados, Q, e
estimados a partir da curva de vazão, Q , é igual a R=0.99946 e o correspondente coeficiente de determinação de
R2=0.9989, ou seja, para a precisão numérica adoptada, igual ao do modelo parabólico. A curva de vazão para o
modelo definido por Q = a (h − h 0 ) b está também representada na Figura 17. Anota-se que, estando-se em presença
de um problema de análise de regressão linear, embora no campo de transformada logarítmicas, os coeficientes de
regressão que figuram nas equações (35) e (36) podem ser obtidos a partir da amostra de pares de valores utilizados
naquela análise por funções implementadas no software Microsoft Excel, designadamente pela função
INTERCEPÇÃO (versão em Português) ou INTERCEPT (versão em Inglês) para a ordenada na origem, a, e função
INCLINAÇÃO (versão em Português) ou SLOPE (versão em Inglês), para o declive da recta de regressão, b.
56
PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA
Referências bibliográficas
Ang, A.H.S.; W. T. Tang (2007). Probability concepts in engineering. Emphasis on Applications
to Civil and Environmental Engineering, 2a Edição, John Wiley & Sons Inc., Nova
Iorque, EUA.
Benjamin, J.; C. A. Cornell (1970). Probability, statistics and decisions for Civil Engineers,
McGraw-Hill, Nova Iorque, EUA.
Chow, V. T. (1954). “The log-probability law and its engineering applications”, Proceedings of
the American Society of Civil Engineers 80, Paper No. 536, p. 1-25.
Griffis, V. W.; J. R. Stedinger (2007). “Log-Pearson type 3 distribution and its application in
flood frequency analysis. II: parameter etimation methods”, Journal of Hydrologic
Engineering, Vol. 12, No 5, p. 492-500.
Henriques, A. G. (1990). Modelos de distribuição de frequências de caudais de cheia.
Dissertação de Doutoramento em Engenharia Civil, Instituto Superior Técnico, Lisboa.
Hosking, J. R. M.; J. R. Wallis (1997). Regional frequency analysis: an approach based on Lmoments. Cambridge University Press, Cambridge, Reino Unido.
Kite, G.W. (1988). Frequency and risk analysis in Hydrology, Water Resources Publications,
Littleton (CO), EUA.
Meylan P., A. C. Favre; A. Musy (2008). Hydrologie fréquentielle – une science prédictive,
Presses Polytechniques et Universitaires Romandes, Lausanne, Suiça.
Montgomery D. C.; E. A. Peck (1992). Introduction to linear regression analysis, 2a Edição,
John Wiley & Sons, Nova Iorque, EUA.
Naghettini M.; E. J. A. Pinto (2007). Hidrologia estatística, CPRM, Belo Horizonte (MG).
Rao A. R.; K. Hamed (2000). Flood frequency analysis, CRC Press, Boca Raton (FL), EUA.
Quintela, A.C.; Portela, M.M. (2002). “A modelação hidrológica em Portugal nos últimos 25
anos do século XX nas perspectivas determinística, probabilística e estocástica”, Revista
Brasileira de Recursos Hídricos, RBRH, Vol. 7 (4) Edição Comemorativa, pp. 51-64,
ISSN 1414 381X, Brasil.
57