Academia.eduAcademia.edu

Probabilidade e Estatística Aplicadas à Hidrologia

PROBABILIDADE E ESTATÍSTICA APLICADAS À HIDROLOGIA Mauro Naghettini Maria Manuela Portela DECivil, IST, 2011 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA PROBABILIDADE E ESTATÍSTICA APLICADAS À HIDROLOGIA Mauro Naghettini Professor Associado, Escola de Engenharia da Universidade Federal de Minas Gerais, Belo Horizonte, Brasil. Maria Manuela Portela Professora Auxiliar, Instituto Superior Técnico da Universidade Técnica de Lisboa, Portugal. (Nota: o presente texto foi produzido a partir de capítulo homónimo do livro Hidrologia Aplicada, a ser publicado entre 2011 e 2012 pela Associação Brasileira de Recursos Hídricos, ABRH. O intuito é o de proporcionar noções fundamentais de probabilidades e estatística aplicadas à hidrologia, incluindo conceitos relacionados com a análise de incertezas) PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Índice do texto Pág. 1. Introdução................................................................................................................................... 1 2. Caracterização preliminar das incertezas presentes nos fenómenos hidrológicos ...................... 2 3. Definições básicas....................................................................................................................... 7 3.1. Nota prévia .......................................................................................................................... 7 3.2. Espaço de resultados ou espaço amostral............................................................................ 7 3.3. Acontecimento aleatório...................................................................................................... 7 3.4. Complementar de um acontecimento aleatório ................................................................... 7 3.5. Combinação de acontecimentos aleatórios. União e intersecção ........................................ 8 3.6. Probabilidade....................................................................................................................... 8 3.7. Dependência e independência estatísticas........................................................................... 9 3.8. Variáveis aleatórias discretas e contínuas............................................................................ 9 4. Funções distribuição de probabilidade...................................................................................... 11 5. Medidas descritivas populacionais das variáveis aleatórias...................................................... 14 5.1. Nota prévia ........................................................................................................................ 14 5.2. Valor esperado................................................................................................................... 14 5.3. Variância, desvio-padrão e coeficiente de variação da população.................................... 15 5.4. Coeficiente de assimetria................................................................................................... 16 6. Modelos de distribuição de probabilidades de variáveis aleatórias discretas ........................... 18 6.1 Nota prévia ........................................................................................................................ 18 6.2. Distribuição geométrica. Período de retorno..................................................................... 18 6.3 Distribuição Binomial. Risco hidrológico .......................................................................... 21 7. Modelos de distribuição de probabilidades de variáveis aleatórias contínuas.......................... 24 8. Estimação de parâmetros e de quantis das distribuições de probabilidade............................... 30 8.1 Procedimento geral. Método dos momentos ..................................................................... 30 8.2 Factores de probabilidade.................................................................................................. 32 9. Análise de frequência de variáveis hidrológicas....................................................................... 34 9.1 Nota prévia ........................................................................................................................ 34 9.2. Análise de frequência com base na apreciação visual do ajustamento (em gráficos de probabilidade). Probabilidade empírica de não-excedência.............................................. 34 9.3. Apreciação da qualidade do ajustamento e escolha do modelo distributivo. Teste de Kolmogorov-Smirnov e do Qui-Quadrado......................................................................... 38 9.4. Avaliação das incertezas associadas às estimativas de quantis ......................................... 45 10. Correlação e regressão simples de variáveis hidrológicas ....................................................... 49 i PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Referências bibliográficas ............................................................................................................. 57 Índice de Tabelas 1 Precipitações diárias máximas anuais, Pdma, no posto udométrico de Pavia (20I/01G), na bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos, entre 1911/12 e 2004/05. 2 Principais estatísticas amostrais ou descritivas, respectivas fórmulas de cálculo, significados e valores tendo por base a amostra de precipitações diárias máximas anuais da Tabela 1. 3 Número de ‘faces’ resultantes do lançamento simultâneo de duas moedas. 4 Principais modelos de distribuição de probabilidades de variáveis aleatórias contínuas hidrológicas e hidrometeorológicas. 5 Principais características das distribuições de probabilidades de variáveis aleatórias contínuas hidrológicas e hidrometeorológicas. 6 Função Φ (z ) = 1 distribuição 2π z −∞ ( de probabilidade, FDP, da distribuição Normal padrão, ) exp − z 2 2 dz . 7 Expressões de cálculo dos factores de frequência K FDIST para diversas distribuições. 8 Fórmulas para estimação de probabilidades empíricas de não excedência. 9 Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a Tabela 1. Probabilidades empíricas de não-excedência, P(X x)=F(x), de acordo com a fórmula de Gringorten apresentada na Tabela 8. 10 Valores críticos da estatística do teste de Kolmogorov Smirnov em função da dimensão da amostra, N, e do nível do significância, α, DN, . 11 Quantis da distribuição do Qui-Quadrado em função do número de graus de liberdade, ν, e do nível de confiança, (1-α), χ2ν,(1- ). 12 Partições (número e limites) do domínio da função distribuição de probabilidade, F(x), na aplicação do teste do Qui-Quadrado em função da dimensão da amostra, N (adaptada de Henriques, 1990). 13 Aplicação dos testes de Kolmogorov-Smirnov, KS, e do Qui-Quadrado, χ2, à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) da Tabela 1. 14 Intervalo de confiança a 95%, para a estimativa fornecida pela lei de Gumbel para a precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) com a probabilidade de não-excedência de 99% (período de retorno de 100 anos). 15 Pares de valores de caudais instantâneos, Q, e das correspondentes alturas hidrométricas, h, relativos a uma estação hidrométrica. 16 Cálculo dos parâmetros da curva de vazão definida por Q = a (h − h 0 ) b . ii PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Índice de Figuras 1 Variabilidade temporal das precipitações diárias máximas anuais (mm) no posto udométrico de Pavia (20I/01G), na bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos, entre 1911/12 e 2004/05. 2 Funções massa e acumulada de probabilidades da variável aleatória discreta X do exemplo da Tabela 3. 3 Funções densidade e acumulada de probabilidades de uma variável contínua. 4 Função densidade de probabilidade da variável aleatória contínua X. 5 Exemplos de funções densidade (ou massa) de probabilidade simétricas e assimétrica. 6 Cheias máximas anuais como ilustração de um processo de Bernoulli. 7 Esquema de desvio provisório de um rio. 8 Modelo GEV: relação entre κ e γX. 9 Papel de probabilidade da lei Normal. 10 Probabilidades empíricas de não-excedência fornecidas pelas fórmulas da Tabela 8 para duas amostras, uma, com 50 elementos (à esquerda) e, outra, com 20 elementos (à direita). 11 Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a Tabela 1. Probabilidades de não-excedência, P(X x)=F(x) empíricas (fórmula de Gringorten) e de acordo com as leis Normal, de Gumbel e log-Normal para papeis de probabilidade das leis Normal – gráfico superior – e de Gumbel – gráfico inferior. 12 Aplicação do teste de Kolmogorov-Smirnov, KS, à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) da Tabela 1. Representação gráfica do valor da estatística do teste. 13 Intervalos de confiança a 95%, para os quantis fornecidos pela lei de Gumbel para as precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G). 14 Histogramas das estimativas fornecidas pelas séries sintéticas (em número de W=5000) da precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) para a probabilidade de não excedência de 99% . 15 Alguns exemplos de associações denotando correlação entre as variáveis Y e X. 16 Coeficientes de regressão pelo método dos mínimos quadrados. 17 Curvas de vazão para os dois possíveis modelos definidos no exercício 16. Índice de Exercícios Pág. Exercício 1....................................................................................................................................... 9 Exercício 2..................................................................................................................................... 13 Exercício 3..................................................................................................................................... 15 Exercício 4..................................................................................................................................... 15 iii PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Exercício 5..................................................................................................................................... 16 Exercício 6..................................................................................................................................... 20 Exercício 7..................................................................................................................................... 21 Exercício 8..................................................................................................................................... 22 Exercício 9..................................................................................................................................... 27 Exercício 10................................................................................................................................... 29 Exercício 11................................................................................................................................... 31 Exercício 12................................................................................................................................... 31 Exercício 13................................................................................................................................... 33 Exercício 14................................................................................................................................... 43 Exercício 15................................................................................................................................... 54 Exercício 16................................................................................................................................... 54 iv PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA v PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 1. Introdução Os fenómenos naturais, nomeadamente, hidrológicos contêm incertezas que lhes são inerentes sendo que existem duas fontes para tais incertezas: (i) a aleatoriedade natural associada às possíveis ocorrências (ou realizações) de um certo fenómeno; e (ii) e as imperfeições e/ou insuficiências do conhecimento humano sobre os processos que determinam tais ocorrências. As incertezas do primeiro tipo – ou aleatórias – podem ser expressas em termos da maior ou menor variabilidade de uma ou mais das variáveis (ou grandezas mensuráveis) associadas ao fenómeno em estudo. As incertezas do segundo tipo resultam da interpretação imperfeita ou imprecisa da realidade subjacente ao referido fenómeno, por parte dos modelos teóricos e/ou físicos utilizados para o caracterizar. As incertezas aleatórias não podem ser reduzidas ou modificadas porque são intrínsecas à variabilidade dos fenómenos em observação. Em geral, essas incertezas apenas podem ser parcialmente estimadas pelo padrão da variabilidade exibido pelas amostras referentes a realizações desses fenómenos ou das variáveis que nele intervêm. Já as incertezas que decorrem das limitações do conhecimento humano acerca dos mencionados fenómenos podem ser reduzidas, seja pela obtenção de dados e de informação adicionais, seja pela especificação de novos modelos teóricos (ou físicos) mais conformes com a realidade. Em ambos os casos, os conceitos e métodos da teoria de probabilidades e da estatística constituem conhecimentos indispensáveis para lidar com as incertezas e para as interpretar (Ang e Tang, 2007). As consequências que as incertezas acarretam no projecto e no planeamento de estruturas e sistemas de engenharia, em geral, e de engenharia de recursos hídricos, com particular ênfase, são muito importantes. De facto, num contexto de incerteza, o projecto e o planeamento de estruturas e sistemas de aproveitamento e de controlo de recursos hídricos envolvem riscos, os quais envolvem probabilidades de ocorrência de certos acontecimentos críticos e das suas respectivas consequências, e, finalmente, a formulação de processos de tomada de decisões. De modo ideal, a tomada de uma decisão, por exemplo, quanto às dimensões do descarregador de superfície de uma barragem, deveria levar em consideração: (i) a probabilidade de que, ao longo da vida útil do empreendimento, o caudal máximo para o qual foi projectado seja ultrapassado pelas caudais de cheia que efectivamente se constate ser necessário descarregar; (ii) as possíveis consequências da eventual subestimação do caudal de projecto; e (iii) a formulação de planos de tomada de decisões assentes em soluções de compromisso entre avaliações quantitativas dos riscos, custos e benefícios das diversas soluções alternativas estudadas. Assim, num quadro completo e racional de tomada de decisões relacionadas com o projecto e o planeamento de infra-estruturas e de sistemas de recursos hídricos, é preciso levar em consideração as incertezas associadas aos fenómenos hidrológicos intervenientes. A teoria de probabilidades e a estatística constituem um campo de saber e fornecem ferramentas adequadas para interpretar as características de alguns desses fenómenos e para equacionar parte da incerteza que lhes possa estar associada. No presente documento sistematizaram-se alguns dos conceitos daquela teoria mais relevantes e frequentemente intervenientes em estudos do âmbito da engenharia dos recursos hídricos, com ênfase para a hidrologia. Pretendendo-se que se trate de um documento didáctico, foram incluídos exemplos e exercícios de aplicação de modo a tornar mais explícitos aqueles conceitos. 1 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 2. Caracterização preliminar das incertezas presentes nos fenómenos hidrológicos As ocorrências de muitos dos fenómenos relevantes no âmbito da engenharia dos recursos hídricos, incluindo a componente de hidrologia, contêm incertezas aleatórias, que não podem ser previstas com absoluta precisão. Em geral, esses fenómenos são caracterizados por uma ou mais variáveis mensuráveis na natureza (ou em laboratório), de modo normalizado e sistemático. Sob as mesmas condições de observação, os dados ou registos de uma mesma variável podem apresentar valores muito diferenciados entre si, alguns com menor frequência e outros com maior. A variabilidade dos dados apresenta um certo padrão, o qual exemplifica apenas uma realização ou amostra da variação intrínseca do fenómeno natural a que se referem tais dados. Considere a amostra de precipitações diárias máximas anuais, Pdma, apresentadas na Tabela 1, relativa ao posto udométrico de Pavia (20I/01G) (localizado na bacia hidrográfica do rio Tejo) no período de 94 anos hidrológicos, entre 1911/12 e 2004/05. Recorda-se que tal amostra é constituída por um valor por ano hidrológico, a máxima precipitação em 24 h em cada ano. Como é do conhecimento geral, em Portugal o ano hidrológico decorre entre 1 de Outubro e 30 de Setembro. Tabela 1 – Precipitações diárias máximas anuais, Pdma, no posto udométrico de Pavia (20I/01G), na bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos, entre 1911/12 e 2004/05. Ano hidrológico 1911/12 1912/13 1913/14 1914/15 1915/16 1916/17 1917/18 1918/19 1919/20 1920/21 1921/22 1922/23 1923/24 1924/25 1925/26 1926/27 1927/28 1928/29 1929/30 Pdma (mm) 24.2 31.3 32.5 33.5 20.2 38.2 36.7 35.2 92.3 30.0 25.2 50.4 35.7 40.5 10.3 40.2 8.1 10.2 14.2 Ano hidrológico 1930/31 1931/32 1932/33 1933/34 1934/35 1935/36 1936/37 1937/38 1938/39 1939/40 1940/41 1941/42 1942/43 1943/44 1944/45 1945/46 1946/47 1947/48 1948/49 Pdma (mm) 15.3 40.2 20.4 20.2 32.8 43.2 29.8 42.8 45.0 34.2 32.8 46.3 31.9 34.2 24.3 71.4 37.4 31.4 24.3 Ano hidrológico 1949/50 1950/51 1951/52 1952/53 1953/54 1954/55 1955/56 1956/57 1957/58 1958/59 1959/60 1960/61 1961/62 1962/63 1963/64 1964/65 1965/66 1966/67 1967/68 Pdma (mm) 43.8 58.2 34.6 40.2 20.8 69.0 44.0 27.2 37.2 36.7 49.0 38.9 59.6 63.3 41.2 46.6 84.2 29.5 70.2 Ano hidrológico 1968/69 1969/70 1970/71 19710/72 1972/73 1973/74 1974/75 1975/76 1976/77 1977/78 1978/79 1979/80 1980/81 1981/82 1982/83 1983/84 1984/85 1985/86 1986/87 Pdma (mm) 43.7 36.2 29.8 60.2 28.0 31.4 38.4 29.4 34.0 47.0 57.0 36.5 84.2 45.0 95.5 48.5 38.0 38.6 26.0 Ano hidrológico 1987/88 1988/89 1989/90 1990/91 1991/92 1992/93 1993/94 1994/95 1995/96 1996/97 1997/98 1998/99 1999/00 2000/01 2001/02 2002/03 2003/04 2004/05 Pdma (mm) 27.0 58.0 27.8 37.5 35.2 27.5 28.5 52.0 56.8 80.0 29.0 55.2 48.4 33.2 27.4 27.4 18.2 34.2 O padrão de variabilidade temporal das precipitações diárias máximas anuais apresentadas na anterior tabela pode ser visualizado pelo diagrama de série temporal ou diagrama cronológico da Figura 1 (a) e, de forma mais elaborada, pelo histograma da Figura 1 (b). Para construir o histograma da Figura 1(b) obtiveram-se as ocorrências ou as frequências absolutas com que os sucessivos valores da precipitação estão compreendidos entre os limites de diferentes intervalos de classe para o que foram consideradas classes com amplitude de 12.5 mm. O resultado, em cada classe, do quociente entre a correspondente frequência absoluta e o número total de valores da amostra ou dimensão da amostra, N, a saber no exemplo da Figura 1, 2 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA N=94, é a frequência relativa nesse intervalo de classe (eixo principal das ordenadas no diagrama do lado direito), que, na figura, foi expressa em percentagem. Para fixar o número de intervalos de classe do histograma adoptou-se a regra de Sturges, ou seja, NIC = 1 + 3.3 log 10 ( N) , na qual NIC denota o número recomendado daqueles intervalos e N tem o significado antes explicitado. (b) Histogramas amostral e teórico de frequências relativas e densidade de probabilidade (a) Diagrama da série temporal ou diagrama cronológico Precipitação diária máxima anual, Pdma (mm) Frequência relativa (%) 45 Histograma 40 amostral 35 100 80 Densidade de probabilidade (%) 3.5 3.0 2.5 30 60 Histograma teórico e densidade de probabilidade 25 20 40 1.5 15 1.0 10 20 0.5 5 0 1911 0 1921 1931 1941 1951 1961 1971 1981 1991 2001 0.0 0.0 Ano civil de início do ano hidrológico 2.0 12.5 25.0 37.5 50.0 62.5 75.0 87.5 100.0 Precipitações diárias máximas anuais (mm) Figura 1 – Variabilidade temporal das precipitações diárias máximas anuais (mm) no posto udométrico de Pavia (20I/01G), na bacia hidrográfica do rio Tejo, no período de 94 anos hidrológicos, entre 1911/12 e 2004/05. Suponha-se agora que, tendo em vista um problema de análise de cheias, se pretendia estimar o caudal de ponta de cheia para a precipitação diária máxima anual de 103 mm, superior a qualquer valor da amostra da Tabela 1. Com base unicamente nessa amostra, poder-se-ia concluir que, não tendo ocorrido no passado um valor dessa ordem de grandeza, seria improvável que o mesmo se realizasse no futuro, especialmente estando-se em presença de uma amostra consideravelmente longa. Em contrapartida, poder-se-ia admitir que, não obstante esta última constatação, se a amostra tivesse maior dimensão ou se respeitasse a outro intervalo de tempo, eventualmente conteria valores iguais ou mesmo superiores a 103 mm. Para averiguar se poderão ou não ocorrer valores para além dos contidos numa dada amostra é necessário obter, de algum modo, o padrão completo de variabilidade da variável a que se refere essa amostra (ou seja, o histograma de um número infinito de observações da mesma) através de um função teórica de distribuição de probabilidade ou, de modo equivalente, da correspondente função teórica de densidade de probabilidade, para o que é necessário estabelecer os modelos matemáticos que exprimem essas funções, com estimação, a partir da amostra, dos respectivos parâmetros. Um exemplo de uma dessas funções, no caso em menção, referente à lei de Gumbel de dois parâmetros (objecto do item 4), está indicado na Figura 1(b) pela curva a vermelho que, lida em correspondência com o eixo secundário das ordenadas (eixo de densidade de probabilidade), representa a função densidade de probabilidade de tal lei. A mesma curva lida em correspondência com o eixo principal das ordenadas (eixo de frequência relativa) traduz o histograma teórico, também de acordo com a mencionada lei. 3 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Embora o estudo e o ajuste de modelos paramétricos sejam tratados apenas em itens subsequentes, anota-se, desde já, que a probabilidade de ocorrer uma precipitação diária máxima anual superior a 103 mm segundo a lei de Gumbel com parâmetros estimados a partir da amostra apresentada na Tabela 1, é de 0.5%, ou seja, embora pequena, não é nula. A anterior probabilidade pode ser entendida como significando que, em média, nos próximos 200 anos, poderá ocorrer uma dessas precipitações em um ano qualquer. Poder-se-ia dar o caso de o critério de projecto requerer uma precipitação mais excepcional, por exemplo, susceptível de ocorrer em qualquer um dos próximos 1000 anos. Uma precipitação de projecto tão elevada asseguraria condições de dimensionamento certamente mais robustas. Contudo, convém sublinhar, que, por regra, a decisão de adoptar um critério de projecto mais excepcional implica, por um lado, maiores custos de construção e, por outro lado, risco de falha ou mesmo de colapso menor. A opção por um dado valor de projecto, para além de reflectir eventuais condicionalismos legais (tais como normas ou regulamentos), deve decorrer de uma análise de custos/benefícios e riscos, avaliados tendo em conta o horizonte da vida útil esperada para a estrutura hidráulica em cujo dimensionamento intervém, a par com as consequências da falha/colapso dessa estrutura. Um processo complementar para caracterizar de modo sintético a variabilidade de uma série temporal de uma variável hidrológica, como a apresentada na Tabela 1, utiliza as designadas estatísticas amostrais ou estatísticas descritivas que não são mais do que medidas numéricas, calculadas a partir da amostra, que “descrevem” as características essenciais do histograma, tais como a abcissa de seu centro geométrico, a dispersão com que os pontos amostrais se distribuem em torno do valor central e a eventual assimetria entre as caudas inferior e superior do diagrama. A Tabela 2 contém o resumo das principais estatísticas amostrais, as fórmulas de cálculo dessas estatísticas e, especificamente para a amostra de precipitações diárias máximas anuais da Tabela 1, os respectivos valores numéricos. Explicitam-se, ainda, os significados das estatísticas enquanto descritores da forma do histograma. As principais medidas de tendência central são a média, a moda e a mediana. A primeira corresponde à abcissa do centro geométrico do histograma, enquanto a moda é o valor mais frequente da amostra e é dada pela abcissa da maior ordenada do polígono de frequências. Este polígono é formado pela junção dos pontos médios dos topos dos rectângulos que constituem o histograma, para o que é necessário considerar duas classes adicionais, uma em cada extremidade, ambas com ordenadas nulas. Por sua vez, a mediana de uma amostra classificada por ordem crescente – {x(1), x(2), … , x(N)} tal que x(i) é inferior ou igual a x(i+1) – corresponde ao elemento de ordem (N+1)/2, se N é ímpar, ou à média aritmética entre os elementos de ordens (N/2) e [(N/2)+1], se N é par. Uma das principais medidas de dispersão é a variância, a qual é dada pela média dos quadrados das diferenças entre os elementos amostrais e a respectiva média, multiplicada pelo factor N/(N-1) para corrigir o chamado viés. A raiz quadrada da variância é o desvio-padrão, sendo que o quociente entre este desvio e a média recebe a designação de coeficiente de variação, grandeza adimensional muito útil para comparar as dispersões relativas de diferentes variáveis. Outra grandeza adimensional de grande utilidade para a análise estatística de variáveis hidrológicas é o coeficiente de assimetria, calculado conforme também indicado na Tabela 2. Relativamente a tal coeficiente, anota-se que, no caso de acontecimentos hidrológicos extremos, a soma das diferenças cúbicas entre os elementos da amostra e a respectiva média é 4 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA frequentemente positiva, em consequência de os valores mais elevados estarem muito mais afastados da média do que os valores que lhe são inferiores. Como estão em causa diferenças ao cubo, resulta um coeficiente de assimetria positivo. É este o caso do histograma da Figura 1 (b) e de tantos outros histogramas de amostras de variáveis hidrológicas, o que torna necessário o estudo de distribuições de probabilidade capazes de reproduzir essa assimetria, como, por exemplo a de Gumbel a que se refere a curva de densidade de probabilidade representada naquela figura. Contudo, pode dar-se o caso de uma amostra exibir um coeficiente de assimetria, quer nulo, sendo o correspondente histograma simétrico, quer negativo, traduzido, neste caso, por uma cauda inferior do histograma relativamente mais prolongada/estendida do que a cauda superior. Tabela 2 – Principais estatísticas amostrais ou descritivas, respectivas fórmulas de cálculo, significados e valores tendo por base a amostra de precipitações diárias máximas anuais da Tabela 1. Designação Tipo Notação Média Tendência central X Moda Tendência central XMO Elemento da amostra com maior frequência Mediana ou 2º quartil Tendência central XMD ou Q2 50% dos valores ordenados abaixo e 50 % acima 1º quartil Cauda inferior Q1 Mediana dos 50% menores valores 3º quartil Cauda superior Q3 Mediana dos 50% maiores valores Amplitude interquartis Dispersão AIQ AIQ = Q3 − Q1 Momento central de ordem r - m 'r Variância Dispersão S 2X Desvio-padrão Dispersão SX Coeficiente de variação Dispersão CV Coeficiente de Assimetria assimetria Coeficiente de curtose Fórmula cálculo ou conceito X= m 'r = S 2X = g k N g= N xi i=1 Abcissa do centro geométrico do histograma Abcissa da maior ordenada do polígono de frequências Abcissa que divide ao meio a área do histograma Abcissa que divide em 25-75% a área do histograma Abcissa que divide em 75-25% a área do histograma Amplitude entre as abscissas Q3 e Q1 Potência r da média dos desvios em relação à média Média dos desvios quadráticos, em relação à média (x i − X )r i =1 N m '2 N −1 Valor para a amostra da Tabela 1 39.5 mm 40.2 mm 36.4 mm 34.2 mm 38.4 mm 4.2 mm 295.9 mm2 S X = S 2X Raiz quadrada do desvio quadrático médio 17.2 mm SX X Desvio-padrão expresso em fracção da média 0.436 Coeficiente adimensional 1.149 Coeficiente adimensional (achatamento) 1.699 CV = k= Curtose 1 N 1 N Interpretação N 2 m '3 (N − 1)(N − 2 )(SX )3 ( N + 1) N 2 m'4 (N − 1) ( N − 2) (N − 3) (SX )4 3 ( N + 1) 2 − (N − 2) (N − 3) 5 − PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Em complemento dos elementos precedentes referentes à análise preliminar de dados hidrológicos, recomenda-se a consulta do capítulo 2 do livro de Naghettini e Pinto (2007), sendo que tal livro se encontra disponível na sua versão completa, mediante acesso à seguinte URL: http://www.cprm.gov.br/publique/cgi/cgilua.exe/sys/start.htm?infoid=981&sid=36. A prática profissional associada à engenharia dos recursos hídricos exige a formulação de modelos matemáticos com o objectivo de representar/caracterizar os processos físicos e, assim, possibilitar a tomada de decisões, por exemplo, quanto ao planeamento e ao projecto dos sistemas para aproveitamento e/ou controlo das disponibilidades hídricas de superfície. No essencial, tais modelos podem ser determinísticos e não determinísticos, sendo que, naquele primeiro tipo se incluem os modelos empíricos e os fisicamente baseados, e, no segundo tipo, os modelos probabilísticos e os estocásticos, Quintela e Portela (2002). Uma vez que os modelos são representações imperfeitas e aproximadas da realidade, as estimativas e as previsões a que conduzem estão necessariamente sujeitas a imprecisões e, portanto, contêm incertezas. Como antes mencionado, essas incertezas decorrem da insuficiente monitorização e/ou conhecimento associado ao processo físico em causa e, sempre que possível, devem se consideradas em simultâneo com as incertezas aleatórias, intrínsecas do processo, para assegurar uma completa caracterização das incertezas e das suas implicações nos actos de tomada de decisões de engenharia (Ang e Tang, 2007). Algumas dessas incertezas podem ser reduzidas pela aquisição de dados adicionais e/ou pela formulação de modelos alternativos, expectavelmente mais aptos a representar o fenómeno em estudo. Ao pretender-se caracterizar as precipitações diárias máximas anuais no posto de Pavia (20I/01G) a que se refere a Tabela 1 mediante adopção da lei de probabilidades de Gumbel, conforme antes considerado, introduz-se, necessariamente uma simplificação na interpretação do processo natural que produz tais precipitações que, porventura, poderiam ser melhor descritas por uma outra função de distribuição de probabilidade ou mesmo por uma combinação de várias dessas funções. Mesmo que a distribuição de Gumbel constituísse a verdadeira síntese matemática do processo físico conducente àquelas precipitações, tal distribuição possui parâmetros, cujas estimativas são obtidas a partir de uma amostra com dimensão sempre muito limitada face à infinitude do universo de onde provém, pelo que aqueles parâmetros necessariamente diferem dos verdadeiros, embora desconhecidos, parâmetros do universo. Em consequência das anteriores incertezas, ao afirmar-se que à precipitação diária máxima anual de 103 mm (ou seja, ao quantil de 103 mm) está associada a probabilidade de excedência de 0.5%, está simplesmente a falar-se de um valor esperado, ou seja, de um valor médio em torno do qual se pode construir um intervalo de valores que conterá o verdadeiro e desconhecido valor do quantil, com uma certa confiança, por exemplo, de 95%. A inclusão destas e de outras incertezas na prática da engenharia de recursos hídricos requer alguns fundamentos da teoria de probabilidades e estatística que a seguir se descrevem. 6 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 3. Definições básicas 3.1. Nota prévia Apresentam-se a seguir algumas definições básicas e os principais fundamentos que enquadram as aplicações da teoria de probabilidades e estatística à hidrologia. 3.2. Espaço de resultados ou espaço amostral O espaço de resultados ou espaço amostral é o conjunto de todos os resultados elementares, mutuamente exclusivos e colectivamente exaustivos de uma experiência aleatória. Em geral, denota-se esse conjunto por Ω distinguindo-se entre espaços numeráveis e não numeráveis e entre espaços finitos e infinitos. Um acontecimento é um qualquer subconjunto do espaço amostral. Exemplos: (i) Ω1:{número de dias chuvosos num ano}≡{ 0, 1, 2, ... , 365} → espaço amostral numerável e finito; (ii) Ω2:{número de dias consecutivos sem chuva}≡{ 0, 1, 2, ... } → espaço amostral numerável e infinito; (iii) Ω3:{precipitação diária máxima anual no posto udométrico de Pavia ≡{P; P∈R+} → espaço amostral não numerável e infinito. 3.3. Acontecimento aleatório Um acontecimento aleatório é uma situação específica que se pretende que ocorra cada vez que se realiza uma experiência aleatória. Um acontecimento aleatório pode ser um elemento ou um subconjunto do espaço amostral Ω. Exemplos: (i) A:{média da precipitação nos dias com chuva no posto udométrico de Pavia (20I/01G) no ano hidrológico de 1916/17}; (ii) B:{número anual de dias com chuva no posto udométrico de Pavia (20I/01G) durante a década de 1980 a 1990}. 3.4. Complementar de um acontecimento aleatório O complementar, Ec, de um acontecimento aleatório, E, é o acontecimento que ocorre quando não ocorre E. O complementar é, portanto, o conjunto formado por todos os elementos pertencentes a Ω e que não pertencem a E. Exemplo: Se a experiência aleatória consistisse na contagem do número anual de dias com chuva no posto udométrico de Pavia a que se refere a Tabela 1 e se, para o ano hidrológico de 1916/17, resultasse no evento de 82 dias com chuva, ter-se-ia Ec:{0, 1, 2, ... , 80, 81, 83, 84, ... , 365}. 7 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 3.5. Combinação de acontecimentos aleatórios. União e intersecção • União A união de dois acontecimentos A e B, representada por A∪B, é o conjunto formado pelos elementos pertencentes a A ou a B ou a ambos. Por exemplo, se A se refere aos anos em que, em dada estação hidrométrica, ocorreram caudais instantâneos superiores a 80 m3/s e B aos anos em que a máxima precipitação diária num posto udométrico situado na bacia hidrográfica daquela estação hidrométrica foi superior a 40 mm, então A∪B representa os elementos de A ou B ou de ambos. • Intersecção A intersecção de dois acontecimentos A e B, representada por A∩B, é o conjunto formado pelos elementos que simultaneamente pertencem a A e a B. No exemplo anterior, a intersecção de A com B designa os anos em que simultaneamente ocorreram caudais instantâneos superiores a 80 m3/s e máximas precipitações diárias superiores a 40 mm. Se a intersecção de A com B é um conjunto vazio, ou seja, se A∩B=∅, então os acontecimentos não ocorrem simultaneamente, recebendo a designação de acontecimentos mutuamente exclusivos, incompatíveis ou disjuntos. Qualquer acontecimento e o seu complementar, A e Ac, constituem exemplos de acontecimentos disjuntos. 3.6. Probabilidade Uma vez definidos o espaço amostral e os acontecimentos aleatórios, pode associar-se uma probabilidade a cada um desses acontecimentos, podendo entender-se por tal uma medida relativa da sua possibilidade de ocorrer, compreendida entre os valores extremos de 0 (impossibilidade de ocorrência ou acontecimento impossível) e de 1 (certeza de ocorrência ou acontecimento certo). Segundo a definição mais usual, a probabilidade de um acontecimento A de um espaço amostral Ω, P(A), é um número não negativo que deve satisfazer os seguintes axiomas: (a) 0 P(A) 1; (b) P(Ω)=1; e (c) para qualquer sequência de acontecimentos mutuamente exclusivos E1, E2, ... E∞, a probabilidade da união desses acontecimentos é igual à soma das respectivas probabilidades individuais, ou seja, Ρ ( ∞ i =1 ) Ei = ∞ i =1 Ρ (E i ) . Dos anteriores axiomas, decorrem os seguintes corolários: • P(Ac)=1-P(A) • P(Ø)=0 • Se A e B são dois acontecimentos do espaço amostral Ω e A ⊂ B , então P(A) P(B). • Desigualdade de Boole (ou limite da união): se A1, A2, ... , Ak são acontecimentos definidos num espaço amostral, então, Ρ 8 ( ∞ i =1 ) Ai ≤ ∞ i =1 Ρ( Ai ) . PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA • Regra da adição de probabilidades: se A e B são dois acontecimentos do espaço amostral Ω, então, Ρ( A ∪ B) = Ρ( A) + Ρ( B) − Ρ ( A ∩ B ) . 3.7. Dependência e independência estatísticas Um acontecimento A depende estatisticamente de B se o facto de B ocorrer altera a probabilidade de A ocorrer. Neste caso, a probabilidade de que o acontecimento A ocorra, dado que o acontecimento B ocorreu, é referida como probabilidade condicional de A dado B e denotada por P(A B). Em termos formais, é calculada por P(A B) = P(A ∩ B ) P(B ) . Ao contrário, se a probabilidade de ocorrência do acontecimento A não é afectada pela ocorrência de B, ou seja, se P( A B) = P(A ) , então A é dito estatisticamente independente de B sendo a probabilidade da ocorrência simultânea dos acontecimentos A e B dada por P(A∩B)=P(A).P(B). Exercício 1 – Considera-se que dois acontecimentos naturais podem produzir a ruptura de uma dada barragem situada numa região pouco monitorizada do ponto de vista hidrológico e sujeita a tremores de terra: a ocorrência de um caudal de ponta de cheia superior ao caudal de projecto do descarregador de superfície (acontecimento A) e o colapso estrutural devido a um tremor de terra (acontecimento B). Admitindo que as probabilidades anuais dos anteriores acontecimentos são, respectivamente, P(A)=0.02 e que P(B)=0.01, estime a probabilidade da barragem romper num ano qualquer. Solução: A ruptura da barragem pode ser devida a uma cheia, a um tremor de terra ou à acção conjunta dos dois acontecimentos; tratando-se, portanto, de um acontecimento composto pela união dos acontecimentos A e B, a respectiva probabilidade é dada por Ρ (A ∪ B) = Ρ( A) + Ρ (B) − Ρ (A ∩ B) , sendo que não se conhece Ρ (A ∩ B) . No pressuposto de que, mesmo que exista alguma dependência estatística entre A e B, Ρ (A ∩ B) deverá apresentar um valor muito baixo e atendendo à desigualdade de Boole, resulta, de modo conservador, que Ρ (A ∪ B ) ≅ Ρ (A ) + Ρ ( B) =0.02+0.01=0.03. Admitindo-se que os acontecimentos A e B são independentes, obter-seia Ρ (A ∪ B) = Ρ ( A ) + Ρ ( B) − P ( A ) P ( B) = 0.0298 . 3.8. Variáveis aleatórias discretas e contínuas Seja E uma experiência aleatória e Ω o respectivo espaço amostral. Por variável aleatória entende-se uma função X que associa a cada elemento s∈Ω um número x(s). Para melhor explicitar o significado de X, considere-se a experiência E: {lançamento simultâneo de duas moedas distinguíveis entre si} cujo espaço amostral é Ω:{ff, cc, fc, cf}, onde f simboliza ‘face’ ou ‘cara’, e c ‘coroa’. Se a variável X for definida como o número de ‘faces’/‘caras’ decorrentes da mencionada experiência, os seus valores possíveis são os indicados na Tabela 3. Tabela 3 – Número de ‘faces’ resultantes do lançamento simultâneo de duas moedas. Acontecimento A:{ff} B:{cc} C:{fc} D:{cf} Valores da variável aleatória X x=2 x=0 x=1 x=1 9 Probabilidade de ocorrência 0.25 0.25 0.25 0.25 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Em condições normais de realização da experiência, os acontecimentos A, B, C e D são considerados equiprováveis, ou seja, P(A)=P(B)=P(C)=P(D)=0.25. As probabilidades de que a variável aleatória X assuma cada um dos seus possíveis valores são: P(X=2)=P(A)=0.25, P(X=0)=P(B)=0.25 e P(X=1)=P(C∪D)=P(C)+P(D)=0.50; observe-se que os acontecimentos C e D são disjuntos e, em consequência, P(C ∩ D) = 0. Neste exemplo, a variável aleatória X apenas pode assumir valores positivos e inteiros, em conformidade com as possíveis realizações da experiência E, no espaço amostral Ω. Em geral, a notação usada para expressar a probabilidade de uma variável aleatória X assumir um dado valor x é P(X = x )=p X (x ) ou simplesmente P(X = x )=p(x ) . • Variável aleatória discreta Uma variável aleatória discreta pode assumir somente valores inteiros, correspondendo a espaços amostrais finitos ou infinitos, porém susceptíveis de serem enumerados, ou seja, espaços amostrais numeráveis. No caso da experiência E:{lançamento simultâneo de duas moedas distinguíveis entre si} a que se refere a Tabela 3, sendo X o número de ‘caras’ obtidas num lançamento, X é uma variável aleatória discreta. • Variável aleatória contínua Uma variável aleatória contínua pode assumir qualquer valor real num dado intervalo, correspondendo a espaços amostrais finitos ou infinitos, porém não numeráveis. Exemplificandose, considere a experiência A:{medição da precipitação diária num dado posto udométrico}. A variável aleatória X representativa da precipitação diária máxima anual nesse posto é uma variável aleatória contínua pois, teoricamente, pode assumir qualquer valor real entre 0 e ∞, embora com diferentes probabilidades. 10 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 4. Funções de distribuição de probabilidade As funções de distribuição de probabilidade são funções que descrevem o “comportamento” de uma variável aleatória, discreta ou contínua. Assim, para caracterizar as probabilidades associadas aos possíveis valores de variáveis aleatórias, X, do tipo discreto, P(X = x )=p X (x ) , utilizam-se as designadas funções de probabilidade ou funções massa de probabilidade, fmp. Qualquer fmp tem de satisfazer as seguintes condições: (i) p X ( x ) ≥ 0, ∀x ;e p X (x ) = 1, ∀ x . (ii) A soma das ordenadas de uma fmp relativas aos sucessivos valores de x, conduz à designada função acumulada de probabilidades, FAP ou seja, FX ( x ) = Ρ(X ≤ x ) = x ≤ x p X ( x i ) = x ≤ x p( x i ) ,. A Figura 2 ilustra as duas anteriores funções i i tendo por base o exemplo da Tabela 3. FX ( x ) = p X (x) pX (x) 1.0 1.0 0.5 0.5 0.0 0 1 2 0.0 0 x 1 2 x Figura 2 – Funções massa e acumulada de probabilidades da variável aleatória discreta X do exemplo da Tabela 3. Se a variável aleatória X puder assumir qualquer valor real, ou seja, se for do tipo contínuo, a função equivalente à fmp é denominada por função densidade de probabilidade, fdp. Esta função não negativa, em geral denotada por f X ( x ) ou simplesmente por f(x), está exemplificada na Figura 3, representando o caso limite de um polígono de frequências para uma amostra de tamanho infinito e, portanto, com as amplitudes dos intervalos de classe a tender para zero. É importante notar que, contrariamente à função fmp relativa ao caso discreto, a fdp num dado ponto x0, f X ( x 0 ) não fornece a probabilidade de X para o argumento x0 e, sim, a intensidade com que a probabilidade de ocorrerem valores menores ou iguais do que x0 se altera na vizinhança desse argumento. 11 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA f X (x) a b x FX (x) 1 b Ρ( a < x ≤ b ) = f X ( x) dx = FX (b) − FX ( a) a a b Figura 3 – Funções densidade e acumulada de probabilidades de uma variável contínua. A área entre dois limites a e b, definidos no eixo das abcissas representativo dos possíveis valores da variável aleatória contínua, X, fornece a probabilidade de a variável estar compreendida entre esses limites, como ilustrado na Figura 3. Portanto, para uma fdp f X ( x ) , é válida a equação: b Ρ(a < X < b ) = Ρ(a ≤ X ≤ b ) = f X ( x ) dx = FX ( b) − FX ( a) = F( b) − F(a ) ..............................(1) a Consequentemente, ao fazer-se convergir o limite inferior da anterior integração, a, para o correspondente limite superior, b, a representação da área do gráfico entre aqueles limites tende, por assim dizer, para uma recta no plano real com área, por princípio, nula. Conclui-se, portanto, que, para uma variável aleatória contínua X, P(X=x)=0. Em correspondência com o caso discreto, a função acumulada de probabilidade, também simplesmente designada por função distribuição de probabilidade, FDP, de uma variável aleatória contínua X, representada por FX(x) ou simplesmente por F(x), fornece a probabilidade associada a valores inferiores ou iguais ao argumento x, ou seja, a probabilidade de não-excedência de x, Ρ(X ≤ x ) . Inversamente, a fdp correspondente pode ser obtida pela diferenciação de FX(x), em relação a x. Tal como no caso discreto, a FDP de uma variável aleatória contínua é uma função não decrescente, sendo válidas as expressões FX(- )=0 e FX(+ )=1. 12 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Exercício 2 – Considere que a Figura 4 representa a função densidade de probabilidade da variável aleatória contínua ‘caudal médio diário máximo anual (m3/s)’, numa dada estação hidrométrica. Determine: (a) P(X<100 m3/s); (b) P(X>300 m3/s). Solução: f X (x ) (a) Se fX(x) é uma função densidade de probabilidades, a área do triângulo deve ser igual a 1. Assim, (400y)/2=1, o que resulta em y=1/200. Logo, P(X ≤ 100 m3/s), correspondente à área do triângulo até a abcissa 100, é (100y)/2=0.25. y z 0 100 300 400 x Figura 4 – Função densidade de probabilidade da variável aleatória contínua X. (b) P(X>300), ou [1- P(X ≤ 300)], corresponde à área do triângulo à direita da abcissa 300. A ordenada z pode ser calculada por semelhança de triângulos, ou seja, (y/z)=300/100, o que resulta em z=1/600. Logo, P(X>300)=0.083. 13 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 5. Medidas descritivas populacionais das variáveis aleatórias 5.1. Nota prévia A população de uma variável aleatória X corresponde ao universo ou espaço amostral dos todos os seus possíveis resultados, cujas frequências de ocorrências podem ser sintetizadas por uma fmp pX(x) ou por uma fdp, f X ( x ) , consoante X é uma variável aleatória discreta ou contínua, respectivamente. Em ambos os casos e de modo equivalente às estatísticas descritivas de uma amostra extraída daquela população, objecto do item 2, as características de forma das funções pX(x) ou f X ( x ) podem ser sintetizadas por meio de medidas descritivas populacionais. Tais medidas são obtidas através de médias, ponderadas por p X ( x ) ou f X (x ) , de funções da variável aleatória e incluem o valor esperado, a variância e o coeficiente de assimetria, entre outras. 5.2. Valor esperado O valor esperado ou a esperança matemática de X é o resultado da soma de todos os valores possíveis da variável aleatória, ponderados por p X ( x ) ou por f X ( x ) . O valor esperado, denotado por E[X], equivale à média populacional, X, indicando, portanto, a abcissa do centro de massa ou centróide das funções p X ( x ) ou f X ( x ) , pelo que tem as mesmas unidades de X. A definição formal de E[X] é dada por: E[X] = µ X = x i p X (x i ) ∀ x i .......................................................................................(2) i para o caso discreto; e por +∞ E[X ] = µ X = −∞ x f X ( x ) dx .................................................................................................(3) para o caso contínuo. O valor esperado pode ser entendido como um operador matemático e ser generalizado para qualquer função g(X) da variável aleatória X, conforme expresso pelas equações (4) e (5) para X discreta ou contínua, respectivamente. E[g(X )] = g (x i ) p X (x i ) ∀ x i ......................................................................................(4) i E[g(X )] = +∞ −∞ g(x ) f X (x ) dx ...................................................................................................(5) As principais propriedades do operador valor esperado E(.) são: • E[c]=c, para c constante. • E[cg(X)]=cE[g(X)], para c constante e g(X) com o significado antes apresentado. • E[c1g1(X) ± c2 g2(X)]=c1E[g1(X)] ± c2E[g2(X)], para c1 e c2 constantes e g1(X) e g2(X) funções de X. • E[g1(X)] E[g2(X)], se g1(X) g2(X). 14 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Exercício 3 – Calcule o valor esperado para a função massa de probabilidades especificada pela Figura 2. Solução: A aplicação da equação (2) resulta em E[X]= X=0×0.25+1×0.50+2×0.25=1 que, de facto, é o centróide da função massa de probabilidades. Exercício 4 – Considere uma variável aleatória contínua X, cuja função densidade de probabilidade é dada por f X (x ) = 1 θ exp (− x θ) , para x 0 e 0, tratando-se, portanto, da distribuição de probabilidade exponencial, que, de facto, é uma família de curvas, a depender do valor numérico do parâmetro θ. Nessas condições: (a) calcule o valor esperado de X; (b) supondo que o valor numérico de θ é igual a 2, calcule a probabilidade associada a valores da variável aleatória superiores a 3, ou seja, P(X > 3 ) ; e (c) supondo que θ=2, calcule a mediana da variável aleatória exponencial X. Solução: (a) Para a distribuição em questão, E[X] = µ X = ser resolvida por partes, ou seja, dv = (1 θ)exp (− x θ) dx ∞ ∞ 0 0 udv = uv ] ∞ 0 − vdu = − x exp (− x θ ) ∞ ∞ 0 x f X (x )dx = ∞ (x θ) exp (− x θ)dx . Esta integração pode v = − exp (− x θ) e u = x du = dx . Resulta, assim, 0 ∞ ] 0 − θ exp(− x θ)] 0 = θ . Portanto, para a forma paramétrica exponencial, o valor esperado, ou seja, a média da população X é igual ao parâmetro ; por outras palavras, a abcissa do centróide da função densidade de probabilidade, fdp, exponencial é θ. (b) A probabilidade pedida é calculada por P(X > 3) = 1 − P (X ≤ 3) = 1 − FX (3) em que FX (x ) é a função distribuição de probabilidade, FDP, dada por FX (x ) = x (1 θ)exp (− x θ)dx e cuja solução é FX (x ) = 1 − exp (− x θ) . Para os dados do exercício, P(X > 3) = 1 − 1 + exp (− 3 2) = 0.2231 . (c) A mediana é o valor de x que corresponde a P(X ≥ x ) = P(X ≤ x ) = FX (x ) = 0.50 . Invertendo-se a função FX (x ) , obtém-se x (F ) = − θ ln (1 − F) . Para os dados do exercício, a mediana é x (0.50) = −2 ln(1 − 0.50) = 1.39 . 0 5.3. Variância, desvio-padrão e coeficiente de variação da população A variância da população de uma variável aleatória X, representada por Var[X] ou por σX , é definida como sendo o momento central de segunda ordem, ou 2, e corresponde à medida populacional mais frequentemente utilizada para caracterizar a dispersão das funções massa, pX(x), ou densidade, f X ( x ) de probabilidade. Obtém-se, assim: 2 [ ] [ ] Var [X ] = σ 2X = µ 2 = E (X − µ X ) 2 = E (X − E[X] ) 2 ............................................................(6) Expandindo o quadrado contido na anterior equação e usando as propriedades do operador esperança matemática, resulta: [ ] Var [X] = σ 2X = µ 2 = E X 2 − (E[X]) 2 ....................................................................................(7) Logo, a variância populacional de uma variável aleatória X é igual ao valor esperado do quadrado dessa variável menos o quadrado do valor esperado de X, ou seja, o quadrado da média de X. A variância de X tem as mesmas unidades de X2 e as seguintes propriedades: • Var[c]=0, para c constante. • Var[cX]=c2Var[X]. • Var[cX+d]=c2Var[X], para d constante. 15 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA De modo equivalente às estatísticas descritivas amostrais, o desvio-padrão da população 2 X é a raiz quadrada (positiva) da variância, σ X , possuindo, portanto, as mesmas unidades de X. Define-se, igualmente, uma medida relativa adimensional da dispersão de pX(x) ou f X ( x ) por meio do coeficiente de variação populacional CVX , dado por: CVX = σX µX .............................................................................................................................(8) Exercício 5 – Calcule a variância, o desvio-padrão e o coeficiente de variação para a função massa de probabilidade especificada pela Figura 2. A aplicação da equação (7) requer o cálculo de E[X2] para o qual resulta x 2i p X (x i ) = 02×0.25+12×0.5+22×0.25=1.5. Atendendo a que, de acordo com o exercício 3, E[X]= X=1, Solução: E [X2] = i obtém-se para a equação (7), Var [X] = variação, CVX = 0.71/1.0=0.71. 2 X =1.5-1.02=0.5. O desvio padrão é, portanto, X= 0.71 e o coeficiente de 5.4. Coeficiente de assimetria O coeficiente de assimetria definida por γX = [ µ3 E (X − µ X ) = 3 (σX ) (σX ) 3 3 ] X de uma variável aleatória X é uma grandeza adimensional ................................................................................................(9) O numerador do segundo membro da equação (9) é o momento central de ordem 3, ou seja, é o valor esperado do cubo dos desvios da variável aleatória X em relação à respectiva média X, podendo ser positivo, negativo ou nulo. Se tal numerador e, consequentemente, o coeficiente de assimetria, forem nulos, a função densidade (ou massa) de probabilidade será simétrica. Se os valores de X superiores à média X estiverem relativamente muito mais afastados do que os inferiores, os cubos dos desvios positivos irão prevalecer sobre os negativos e o coeficiente X será positivo, configurando uma função densidade (ou massa) com assimetria positiva. Caso contrário, ter-se-á uma função densidade (ou massa) de probabilidade com assimetria negativa. A Figura 5 ilustra três funções densidades de probabilidade: uma simétrica, portanto, com o coeficiente de assimetria nulo, outra com assimetria positiva igual a =1.14 a e a terceira com a assimetria negativa de =-1.14. Outras medidas, como os momentos de ordens superiores a 3 e o coeficiente de curtose, embora constituam importantes complementos para a caracterização da forma das funções densidade (ou massa) de probabilidade, encontram aplicações menos frequentes na modelação de variáveis aleatórias hidrológicas. Ao leitor interessado em aprofundar os seus conhecimentos sobre estes tópicos, recomenda-se a consulta dos livros de Rao e Hamed (2000) e Hosking e Wallis (1997). 16 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA fdp 0.45 Coef. assimetria nulo Coef. assimetria de 1.14 Coef. assimetria de -1.14 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 -2 -1 0 1 2 3 4 5 6 7 8 x Figura 5 – Exemplos de funções densidade (ou massa) de probabilidade simétricas e assimétrica. 17 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 6. Modelos de distribuição de probabilidades de variáveis aleatórias discretas 6.1. Nota prévia Um modelo de distribuição de probabilidades é uma forma matemática abstracta capaz de representar, de modo conciso, as variações contidas numa amostra de uma variável aleatória. Um modelo de distribuição de probabilidades também é uma forma paramétrica, ou seja, é um modelo matemático contendo parâmetros, cujos valores numéricos o definem completamente e o particularizam para uma dada amostra de uma variável aleatória. Uma vez estimados os valores numéricos desses parâmetros, o modelo de distribuição de probabilidades passa a caracterizar o comportamento plausível da variável aleatória a que respeita aquela amostra podendo, como tal, ser utilizado para interpolar ou extrapolar probabilidades e/ou quantis não contidos na mesma. Os principais modelos de variáveis aleatórias discretas que encontram aplicações em hidrologia estão relacionados com repetições independentes dos chamados processos de Bernoulli. Estes modelos são as distribuições geométrica e binomial que a seguir se descrevem de modo sucinto. 6.2. Distribuição geométrica. Período de retorno Por prova de Bernoulli entende-se a experiência aleatória em que somente dois resultados dicotómicos são possíveis: “sucesso” ou “falha”, “sim” ou “não”, “0” ou “1”, “positivo” ou “negativo” são exemplos. Tal conceito serve de base a várias distribuições teóricas. Suponha-se que a escala temporal associada a uma determinada variável aleatória foi discretizada em intervalos com amplitude definida, por exemplo, em intervalos anuais. Suponhase também que, em cada intervalo de tempo, possa ocorrer um único ‘sucesso’, com probabilidade p, ou uma única ‘falha’, com probabilidade (1-p), e que essas probabilidades não são afectadas pelas ocorrências anteriores, nem afectem as ocorrências posteriores. O processo composto pela anterior sequência de repetições independentes de uma prova de Bernoulli constitui uma sucessão de provas de Bernoulli. Para melhor ilustrar a aplicação dos processos de Bernoulli à hidrologia, considere que o caudal médio diário correspondente ao extravasamento/transbordamento de uma secção transversal de um curso de água é Q0, conforme se esquematiza na Figura 6. Considere, ainda, que, em tal secção, o regime fluvial se encontra em regime natural (ou seja, não é influenciado pelo Homem), que se dispõe na mesma de registos contínuos durante N anos de caudais médios diários - série completa de caudais médios diários – e que, para analisar as condições de transbordamento da secção, se constitui a série de caudais médios diários máximos anuais formada em cada ano pelo máximo caudal médio diário nesse ano, Q max – série reduzida de Q max , com dimensão N, representada na Figura 6. Em qualquer ano i, com 1 i N, o ‘sucesso’, em termos de transbordamento, é dado pelo acontecimento S: Qmax > Q0 , sendo a ‘falha' o i { { } } acontecimento complementar F: Qmax ≤ Q0 . Tratando-se de um problema de génese de cheias i num trecho fluvial em regime natural, é válido admitir que a probabilidade de ocorrência de um ‘sucesso’ (ou de uma ‘falha’), em um ano qualquer, não é afectada pelas ocorrências em anos anteriores e em nada afecta as ocorrências em anos posteriores. Supondo que a probabilidade anual do acontecimento S : Qmax > Q0 é igual a p, verifica-se, assim, o preenchimento de todos i os requisitos para considerar essa sequência independente como um processo de Bernoulli. { } 18 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 2 Q max 1 Qimax k Q0 sucesso Q0 falha .... 1 2 i N Índice de ano Figura 6 – Cheias máximas anuais como ilustração de um processo de Bernoulli. A variável aleatória discreta Y correspondente à distribuição geométrica refere-se ao número inteiro de experiências (ou intervalos discretos de tempo) necessários para que um único ‘sucesso’ ocorra. Portanto, se o valor da variável é Y=y, isto significa que ocorreram (y-1) ‘falhas’ antes da ocorrência do ‘sucesso’, exactamente, na y-ésima tentativa. As funções massa e acumulada da distribuição geométrica são dadas pelas seguintes equações: p Y (y ) = p(y ) = p (1 − p ) y−1, y = 1, 2, 3, ...∞ e 0 < p < 1 ..........................................................(10) FY ( y ) = F( y) = y p (1 − p ) i −1, y = 1, 2, 3, ..., ∞ .....................................................................(11) i =1 nas quais a probabilidade anual de ocorrência de um ‘sucesso’, p, representa o único parâmetro da distribuição. Demonstra-se que valor esperado de uma variável geométrica, resultado da soma infinita de termos, decorrente da aplicação da equação (2), é E[Y] = 1 ..........................................................................................................................(12) p ou seja, quando o número de repetições (ou intervalos discretos de tempo) tende para infinito, o valor médio de uma variável geométrica é o inverso da probabilidade de ‘sucesso’ p. Introduza-se, neste ponto, um conceito de grande importância em hidrologia, que é o de período de retorno. Para tanto, considere-se que, nas condições da Figura 6, a variável designa o número de anos entre ‘sucessos’ (transbordamentos) consecutivos. Adoptando-se para origem da escala de tempos o ano do primeiro ‘sucesso’, a Figura 6 indica que seriam necessários 1=3 anos para uma nova ocorrência do acontecimento S: Qmax i = 4 > Q 0 . A partir do segundo ‘sucesso’, 2=1 ano e assim sucessivamente até k =5 anos. Se, por hipótese, N=50 anos e se nesse período de tempo tivessem ocorrido 5 ‘sucessos’, depreender-se-ia que o número de anos que, em média, { 19 } PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA separaria as ocorrências de caudais superiores a Q0 seria de τ =10 anos, significando que o caudal Q0 é superado com a frequência anual média de 1 a cada 10 anos. É fácil verificar que a variável se enquadra integralmente na definição de uma variável aleatória discreta geométrica e que, portanto, a ela se podem associar as características populacionais definidas pelas equações (10), (11) e (12). Em particular, pode definir-se o período de retorno, denotado por T e expresso em anos, como o valor esperado da variável geométrica . Com essa definição e usando a equação (12), resulta: T = E[τ] = 1 ....................................................................................................................(13) p O período de retorno, T, não se refere, portanto, a um ‘tempo cronológico’. De facto, T é uma medida da tendência central dos ‘tempos cronológicos’. Por outras palavras, o período de retorno, T, associado a um certo acontecimento de referência de um processo de Bernoulli necessariamente definido numa base temporal anual, corresponde ao número médio de anos necessários para que o acontecimento ocorra num ano qualquer desses anos e é igual ao inverso da probabilidade de esse acontecimento ocorrer num ano qualquer desses anos, ou seja, é igual ao inverso da probabilidade anual de ocorrência desse acontecimento. Em hidrologia, o conceito de período de retorno é vulgarmente utilizado, por exemplo, no estudo probabilístico de acontecimentos máximos anuais, tais como caudais instantâneos ou diários máximos anuais ou, ainda, precipitações máximas anuais com dada duração. Tais variáveis aleatórias são contínuas e, portanto, têm o seu comportamento definido por funções densidade de probabilidade genericamente designadas por f X (x ) . Se, para uma dessas variáveis, denotada por X, se definir um quantil de referência xT, de modo que o ‘sucesso’ seja a ocorrência de valores superiores a xT, então, o período de retorno, T, associado a esse quantil de referência á dado pelo número médio de anos necessário para que o acontecimento {X>xT} ocorra uma vez, num qualquer desses anos. De acordo com a equação (13), resulta que o período de retorno corresponde ao inverso de P(X>xT), ou seja, ao inverso de [1− FX (x T )] . Exercício 6 – Considere a situação descrita no exercício 2, na qual a variável X se refere ao caudal médio diário máximo anual (m3/s). Determine: (a) o período de retorno para x=300 m3/s; e (b) o caudal médio diário máximo anual com o período de retorno T=50 anos. Solução: (a) Estando-se em presença de uma variável definida numa base anual é válido aplicar a noção de período de retorno. Atendendo a que tal período é dado pelo inverso da probabilidade de excedência e tendo-se estimado no exercício 2 que P(X>300)=0.083 resulta que o período de retorno associado a esse caudal é de T=1/0.083=12.05 anos. (b) Ao período de retorno de T=50 anos corresponderá um caudal x50 compreendido entre 300 e 400 m3/s já que P(X>x50)=[1- P(X ≤ x50)]=0.02. De entre as possíveis vias de resolução do problema, optou-se por atender à equação da recta que passa pelos pontos (100; 1/200) e (400; 0) dada por fX(x)=f(x)=-x/60000+1/150. De acordo com o pretendido, a área do triângulo com base dada pelo segmento de recta definido pelas abcissas x50 e 400 e com altura dada por f(x50)=-x50/60000+1/150 é igual a 0.02, ou seja (400-x50)(-x50/60000+1/150)/2=0.02. A anterior equação do segundo grau tem duas raízes, uma maior do que 400 m3/s e que, portanto, está fora do domínio de definição de X, e a outra de sensivelmente x50=351 m3/s e que constitui a solução do problema. Nesse ponto, o valor de fX(x) é de aproximadamente 0.000817, verificando-se que se obtém de facto para a área do triângulo 0.000817 (400351)/2=0.02. 20 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 6.3 Distribuição Binomial. Risco hidrológico Ainda referente ao processo de Bernoulli anteriormente descrito, considere-se que a variável aleatória discreta Y representa o número de ‘sucessos’, de entre N possibilidades (ou intervalos discretos de tempo). A variável Y pode ter qualquer valor entre 0, 1, ... , N. Em resultado da hipótese de independência entre as experiências de Bernoulli, cada ponto do espaço amostral com y ‘sucessos’ e (N-y) ‘falhas’ terá probabilidade de ocorrência igual a p y (1 − p )N − y . Entretanto, os y ‘sucessos’ e as (N-y) ‘falhas’ podem ser combinados de N! [y! (N − y )! ] modos diferentes, cada um deles com probabilidade igual a p y (1 − p )N − y . Portanto, a fmp da variável Y é dada por p Y (y ) = N y N! p y (1 − p )N − y = p (1 − p )N − y , y = 0,1, ... , N e 0 < p < 1 ........................ (14) y y !(N − y )! que constitui a distribuição binomial, com parâmetros N e p. A FAP da distribuição binomial fornece a probabilidade de X ser menor ou igual ao argumento x e é dada por FY ( y ) = y i =0 N i p (1 − p )N − i , y = 0,1, 2, ..., N .................................................................................... (15) i O valor esperado e a variância da distribuição binomial são respectivamente iguais a Np e Np(1-p). A fmp binomial é simétrica quando p=0.5 e apresenta assimetria positiva, se p<0.5, e negativa, em caso contrário. Exercício 7 – Nas condições da Figura 6, suponha-se que a dimensão da séries caudais médios diários máximos caudais, Qmax, é de N=10 anos e que o período de retorno associado ao caudal Q0 é de 4 anos. Pergunta-se: (a) qual é a probabilidade de que o caudal Q0 tenha sido superado exactamente em 2 dos 10 anos? (b) qual é a probabilidade de que o caudal Q0 tenha sido superado em pelo menos 2 dos 10 anos? Solução: É fácil verificar que o cenário ilustrado pela Figura 6 se adequa a um processo de Bernoulli e a variável ‘número de sucessos em N anos’, a uma variável binomial Y. (a) A probabilidade de que o caudal Q0 tenha sido superado exactamente 2 vezes em 10 anos pode ser calculada directamente pela equação 14, sabendo-se que a probabilidade anual p (de ‘sucesso’) é o inverso do período de retorno T=4 anos, ou seja, p=0,25. Logo, p Y (2) = [10! (2! 8!)]0.25 2 ( 1 − 0.25) 8 = 0.2816. (b) A probabilidade de que o caudal Q0 tenha sido excedido pelo menos 2 vezes em 10 anos é igual à probabilidade de que o acontecimento tenha ocorrido 2, 3, 4, ... , 10 vezes, em 10 anos, ou seja, é igual à soma dos resultados da função massa para todos os argumentos compreendidos entre 2 e 10, inclusive. Entretanto, tal cálculo é equivalente ao cálculo do complementar, em relação a 1 ocorrência, da soma das probabilidades de que o acontecimento não tenha ocorrido ou que tenha ocorrido apenas 1 vez. Portanto, nesse entendimento, Ρ(Y ≥ 2) = 1 − Ρ(Y < 2) = 1 − pY (0) − pY (1) = 0.7560 . Um conceito associado ao período de retorno refere-se à definição de risco hidrológico, tal como aplicado em projectos de estruturas hidráulicas de controlo de cheias ou de desvio provisório de um curso de água durante as obras de construção de uma barragem. Seja xT o valor da variável hidrológica, por exemplo, caudal de ponta de cheia, para o período de retorno T. Nestas condições, o risco hidrológico, R, não é mais do que a probabilidade de ocorrer um ou mais valores da variável hidrológica iguais ou superiores a xT num período de N anos. Em geral, o quantil de referência xT corresponde à cheia para a qual foi projectada a estrutura hidráulica, enquanto o período de N anos corresponde à sua vida útil da obra ou período durante o qual é necessário assegurar o desvio do curso de água. A dedução da expressão do 21 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA risco hidrológico, R, pode recorrer à distribuição binomial. Com efeito, a probabilidade de que pelo menos um ‘sucesso’ ocorra num período de N anos é equivalente à probabilidade do acontecimento complementar, em relação a 1, de que nenhum ‘sucesso’ ocorra nesse período. Portanto, usando a notação Y para o número de ‘sucessos’ em N anos, tem-se que R = Ρ(Y ≥ 1) = 1 − Ρ(Y = 0 ) = 1 − N 0 p (1 − p ) N − 0 ............................................................(16) 0 Se o quantil de referência xT tem período de retorno T, a probabilidade de um ‘sucesso’, em um ano qualquer, é igual a 1 T . Substituindo este resultado na equação (16), segue-se que 1 R =1− 1− T N ................................................................................................................(17) Um raciocínio alternativo, embora simplificado, para alcançar a noção de risco hidrológico utiliza fundamentalmente o conceito de período de retorno e a independência temporal dos “sucessos” ou dos “insucessos”. Com efeito, representando xT o valor da variável hidrológica com o período de retorno T, a probabilidade de, em qualquer ano, ocorrer xT é, como antes afirmado, igual a 1/T. Logo, a probabilidade de xT não ocorrer em qualquer ano é 1-1/T. Atendendo a que a não ocorrência de xT num dado ano em nada altera a probabilidade de não ocorrer no ano ou nos anos seguintes (pois os acontecimentos são independentes) concluiu-se que a probabilidade de xT não ocorrer em nenhum dos N anos do período considerado é de (1-1/T)N. Logo, o risco hidrológico, sendo a probabilidade de xT ocorrer uma ou mais vezes durante esses N anos, não é mais do que o acontecimento complementar daquele outro acontecimento, correspondendo-lhe, portanto, uma probabilidade complementar, do que precisamente resulta a equação 17. Se o risco hidrológico foi fixado à priori, por exemplo, em função da tipologia, da importância e das dimensões da estrutura hidráulica, bem como das consequências (incluindo eventual danos materiais e perda de vidas humanas) do seu eventual colapso, pode empregar-se a equação 17 para determinar o período de retorno que deve ser adoptado como critério de projecto, em face do período de vida útil da obra de N anos a que tal critério de projecto se aplica. Exercício 8 – A Figura 7 mostra o esquema do desvio provisório de um rio durante a construção de uma barragem, compreendendo a execução de duas ensecadeiras A e B e de um túnel de desvio provisório inserido na margem direita e iniciando-se a montante da ensecadeira de montante e finalizando a jusante da ensecadeira de jusante. A B T Figura 7 – Esquema de desvio provisório de um rio. Deste modo e até dadas condições de projecto, não existirão caudais circulantes no trecho fluvial compreendido entre ensecadeiras. Suponha-se que o período de construção da obra é de 5 anos e que o risco de inundação do trecho fluvial entre ensecadeiras foi fixado em 10% (probabilidade de a capacidade de vazão do túnel ser excedida e de as ensecadeiras serem galgadas uma ou mais vezes durante o período de construção de apenas 10%). Com base nesses elementos, determine o período de retorno do caudal de ponta de projecto a considerar no dimensionamento do túnel e na fixação da cota do topo das ensecadeiras. 22 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Solução: A inversão da equação 17 fornece para T: T= 1 1 − (1 − R )1 N Para R=0.10 e N=5 a anterior equação conduz a T=47.95 anos. Deste modo, a secção transversal do túnel e a cota do topo das ensecadeiras devem ser dimensionadas para o caudal de ponta de cheia com período de retorno de aproximadamente 50 anos. 23 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 7. Modelos de distribuição de probabilidades de variáveis aleatórias contínuas De modo análogo às variáveis aleatórias discretas, existe um grande conjunto de modelos probabilísticos para as variáveis aleatórias contínuas, com funções densidade de probabilidade, fdp, e distribuição de probabilidade, FDP, definidas por parâmetros. A partir desse conjunto, elaboraram-se as Tabelas 4 e 5 contendo uma lista não exaustiva dos modelos com maior aplicação às variáveis hidrológicas, bem como a especificação dos respectivos parâmetros e características principais. De acordo com as características intrínsecas mais vulgarmente patentes nas amostras de certas variáveis hidrológicas, especificam-se, seguidamente, alguns dos modelos probabilísticos que previsivelmente melhor se adequam a essas variáveis. Assim, (i) as distribuições Normal e log-Normal ou de Galton são frequentemente aplicáveis a valores anuais da precipitação e do escoamento; (ii) as distribuições log-Normal, de Gumbel para máximos ou Gumbel Max (por regra, referenciada apenas por distribuição de Gumbel), Pearson III, log-Pearson III e Generalizada de Valores Extremos (GEV), a valores extremos máximos, tais como, precipitações máximas anuais com dada duração ou caudais instantâneos máximos anuais; e (iii) os modelos de Gumbel para mínimos ou Gumbel Min e de Weibull, a valores mínimos, por exemplo, de estiagem, tais como caudais médios diários ou, ainda, em períodos de 7 dias, uns e outros, mínimos anuais. A previsível adequação de alguns modelos a dadas variáveis hidrológicas decorre, quer de considerações teóricas, quer de certas características de forma das distribuições de probabilidades, com ênfase, para as referentes à assimetria. Anota-se que a distribuição log-Normal aplica o formalismo da distribuição Normal à transformada logarítmica da variável aleatória objecto desta última distribuição, passando-se outro tanto entre as distribuições log-Pearson III e Pearson III. A adequação da distribuição Normal à descrição de algumas variáveis hidrológicas resulta do chamado teorema do limite central, segundo o qual a soma (ou a média) de um grande número de variáveis aleatórias independentes tende a ser normalmente distribuída. Raciocínio análogo pode ser elaborado para a distribuição log-Normal, no que respeita ao produto de um grande número de variáveis independentes. No caso de valores máximos ou mínimos, a teoria de valores extremos fornece as bases teóricas para a utilização dos modelos que dela derivam, nomeadamente, as distribuições Gumbel Max e GEV, para máximos, e as de Gumbel Min e Weibull, para mínimos. Apesar de a aplicação dessas considerações teóricas às variáveis hidrológicas não ser isenta de controvérsia – ver, por exemplo, Benjamin e Cornell (1970) ou Naghettini e Pinto (2007) –, por regra, os modelos das Tabelas 4 e 5 e as indicações de algumas das suas potenciais aplicações são adequadas. Para ilustrar o cálculo de probabilidades com distribuições de variáveis aleatórias contínuas, considere-se o caso da distribuição Normal a qual descreve o comportamento de uma variável aleatória contínua X que se dispõe simetricamente em torno de um valor central (a média), com funções densidade, fdp, e distribuição, FDP, de probabilidades definidas pelos parâmetros de posição (média), µX, e de escala (desvio-padrão), σX, de acordo com as equações da Tabela 4. 24 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 4 – Principais modelos de distribuição de probabilidades de variáveis aleatórias contínuas hidrológicas e hidrometeorológicas. Distribuição Aplicação Variável Função distribuição de probabilidade, FDP [Fx(x) ou FY(y)] Função densidade de probabilidade, fdp [fx(x) ou fY(y)] Domínio Parâmetro Posição Escala Forma σX ------- x Normal M/T log-Normal ou de Galton M/T Max X Y = ln(X) f X ( x) = ( −∞, +∞ ) f Y ( y) = [ 0, +∞ ) 1 σ X 2π 1 σ Y 2π exp − exp − com Z = 2 X ( −∞,+∞ ) f X (x ) = 1 x−β x −β exp − − exp − α α α Pearson III Max X α ≥ 0: [δ,∞) α<0: (-∞,δ] f X (x ) = 1 x−δ α Γ(β) α log-Pearson III Max Y = ln(X) αY ≥ 0: [exp( δY ),∞) αY<0: (-∞,exp( δY )] κ<0: x > (β + α ) κ GEV Max X κ<0: x < (β + α ) κ f Y ( y) = f X (x ) = 1 y − δY α Y Γ(β) α Y 1 x −β 1− κ α α exp − exp − µY exp − 1 − κ x −β α (>0) f X (x )dx δ α f Y (y )dy δY αY β (>0) β (>0) δY 1κ exp − 1 − κ x−β α Min X ( −∞,+∞ ) Weibull Min X [ 0, +∞ ) Observações: f X (x ) = 1 x −β x−β exp − exp α α α f X (x ) = α x β β α −1 exp − x β 1 − exp − exp α 1 − exp − x −β α x β α ------- α α ∞ 0 x β−1 exp( − x )dx (ver resolução do Exercício 10 e o Anexo 4 de Naghettini e Pinto, 2007). 3) A distribuição GEV, para κ=0, torna-se na distribuição de Gumbel Max ou simplesmente de Gumbel. 25 ------β (>0) βY (>0) κ ------- β α (>0) (>0) 1) Distribuições adequadas a amostras de valores: M/T, médios ou de totais anuais; Max e Min: extremos, incluindo, respectivamente, máximos anuais e mínimos anuais. 2) Γ(β)=função Gama completa para o argumento β ou Γ (β) = ------- 1κ κ=0: GEV≡Gumbel Gumbel Min α β δ y y − δY αY 1 κ −1 x −β α σY (>0) x x−δ α exp − (>0) σX y −∞ Max β Y −1 X − µX f Y (y )dy Gumbel Max (ou apenas Gumbel) exp − µX −∞ 1 y − µY 2 σY β −1 f X (x ) dx ou Φ (z ) 2 1 x − µX 2 σX PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 5 – Principais características das distribuições de probabilidades de variáveis aleatórias contínuas hidrológicas e hidrometeorológicas. Parâmetro Distribuição Variável Normal X Posição Escala Forma Média E[X] ou, havendo variável transformada Y, médias E[X] e E[Y] µX σX (>0) ------- µX X log-Normal ou de Galton Gumbel Max (ou apenas Gumbel) Pearson III log-Pearson III Y= ln(X) µY Gumbel Min (ver obs. 1) α X β (>0) X δ α ------- Y= ln(X) X σ 2X 0 σ 2Y 2 [ ( ) ] σ 2X = µ 2X exp σ 2Y − 1 δY αY αβ + δ α 2β (>0) β exp (δ Y ) Y (>0) 1 1− α Y βY 1 1 − 2α Y e2δ Y α (>0) κ β+ exp [µ Y + z (F )σ Y ] γY = 0 com z (F ) = Φ −1 (F ) +1,1396 β − α ln [− ln (F )] 2 Não há forma analítica simples para a função (ver Rao e Hamed, 2000) ( ) βY − 1 1−αY 2β Y [ ] − 3 E[X]E[X ] + 2 {E[X]} E X3 α κ 2 [Γ(1 + 2κ) − Γ 3 2 3 2 {Var [X ]} (ver Griffis e Stedinger, 2007) Não há forma analítica simples para a função (ver Rao e Hamed, 2000) 2 α Y 2 βY α [1 − Γ(1 + κ )] κ µ Y + z(F ) σ Y β (ver Griffis e Stedinger, 2007) α Y βY + δY β γ X = 3 CVX + ( CVX ) com σ CVX = X = exp σ 2Y − 1 µX σ 2Y π 2α 2 6 Função de quantis x(F) ou havendo variável transformada Y, funções de quantis x(F) e y(F) µ X + z(F ) σ X com z(F ) = Φ −1 (F ) 3 β + 0.577216 α β X βY 2 (1 + κ )] [− Γ(1 + 3 κ ) + 3Γ(1 + κ )Γ(1 + 2 κ ) − ][ ] − 2Γ 3 (1 + κ ) / Γ (1 + 2 κ) − Γ 2 (1 + κ ) 32 β+ { α 1 − [− ln (F )] k κ multiplicar o resultado por -1 se κ for negativo. X β Weibull (ver obs. 1) ------- Coeficiente de assimetria γ X ou, havendo variável transformada Y, coeficientes de assimetria γ X e γ Y µY GEV (ver obs. 1) σY (>0) µ X = exp µ Y + Variância Var[X] ou, havendo variável transformada Y, variâncias Var[X] e Var [Y] X ------- α (>0) ------- β α (>0) (>0) π 2α2 6 β − 0.577216 α 1 βΓ 1+ α Observação: 1) Γ(β)=função Gama completa para o argumento β ou Γ (β) = 2 1 β Γ 1+ − Γ2 1 + α α 2 ∞ 0 β + α ln [− ln (F )] -1.1396 Γ 1+ 3 2 1 1 − 3Γ 1 + Γ 1 + + 2Γ3 1 + α α α α Γ 1+ 2 1 − Γ2 1 + α α 3 β [− ln (F)]1 / α x β−1 exp( − x )dx (ver resolução do Exercício 10 e o Anexo 4 de Naghettini e Pinto, 2007). 26 } PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA A FDP de uma variável normal requer uma integração sem solução analítica sendo que a correspondente solução numérica depende, por sua vez, dos valores numéricos dos parâmetros µX e σX. O cálculo de probabilidades de variáveis aleatórias normais é facilitado pela utilização da variável normal reduzida Z. Com efeito, se X é uma variável Normal e Z é uma combinação linear de X, da forma Z = (X − µ X ) σ X , então a variável Z, também é distribuída segundo uma lei Normal com parâmetros µZ=0 e σZ=1. A distribuição de Z é geralmente referida como distribuição Normal padrão N~(0,1) e a variável Z, por normal reduzida. A integração numérica da função densidade de probabilidade da distribuição N~(0,1), para distintos argumentos z, Φ(z), encontra-se tabelada – Tabela 6. Dada a simetria da fdp da lei Normal e, obviamente, da lei Normal padrão, a um argumento negativo, -z, simétrico de um outro tabelado, z, corresponde uma probabilidade de não-excedência, Φ(-z) complementar da tabelada para aquele outro valor, ou seja, Φ(-z)=1-Φ(z). A função Φ(z) consta também das funções implementadas no software Microsoft Excel (DIST.NORMP e NORMSDIST nas versões, respectivamente, em Português e em Inglês). O exercício 9 exemplifica o cálculo de probabilidades para a distribuição Normal. Exercício 9 – Considere que a variável escoamento anual (m3/s) num dado curso de água em regime natural é normalmente distribuída com média de 100 m3/s e desvio-padrão de 50 m3/s. Calcule (a) a probabilidade de ocorrerem caudais inferiores ou iguais a 50 m3/s, ou seja, P(Q ≤ 50)=F(50); e (b) o escoamento anual com o período de retorno T=50 anos. Solução: (a) Por meio da transformação Z = (X − µ X ) σ X , verifica-se que a probabilidade pedida é dada por P(Q ≤ 50)=F(50)=P(z ≤ (50-100)/50)=P(z ≤ -1)= Φ(− 1) . A Tabela 6, referente à distribuição Normal padrão, fornece Φ( z) apenas para valores positivos de z, sendo necessário recorrer à propriedade da simetria da distribuição Normal, ou seja, Φ(− 1) =1- Φ(+ 1) =1-0.8413=0.1587. (b) De acordo com a definição de período de retorno aplicada a uma variável aleatória definida numa base anual, resulta que T=1/(1-F) em que F designa a probabilidade de nãoexcedência. Para T=50 anos, obtém-se F(q)=P(Q ≤ q)=0.98. De acordo com a Tabela 6 para Φ( z) =0.98 obtém-se, por interpolação linear, z=2.054. Logo, o caudal q com T=50 anos corresponde ao quantil q=100+2.054×50 ≈ 203 m3/s. Conforme antes mencionado, as amostras de algumas variáveis hidrológicas, tais como de precipitações ou de caudais máximos anuais apresentam, em geral, coeficientes de assimetria positivos e histogramas assimétricos à direita (ver Figura 5), em consequência de os processos naturais subjacentes aos acontecimentos hidrometeorológicos e hidrológicos raros e extremos serem normalmente caracterizados por desvios, em relação à média, dos valores extremos superiores a essa média, consideravelmente maiores do que os desvios dos valores extremos inferiores à média. Para o caso de valores máximos anuais, as Tabelas 4 e 5 identificam as distribuições mais frequentemente empregadas, a saber, os modelos log-Normal ou de Galton e de Gumbel Max (ou simplesmente de Gumbel), descritos por dois parâmetros, e os modelos Pearson III, log-Pearson III e GEV, com três parâmetros. Deste grupo, com excepção da distribuição Gumbel Max, cujo coeficiente de assimetria, γX, é fixo e igual a +1.1396, as distribuições restantes possuem coeficientes de assimetria variáveis, facto que as torna mais flexíveis no que concerne à forma (ver Tabela 5). 27 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 6 – Função distribuição de probabilidade, FDP, da distribuição Normal padrão, Φ (z ) = 1 2π z −∞ ( ) exp − z 2 2 dz . z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5606 0.5675 0.5714 0.5753 0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 1.0 0.8413 0.8438 0.8461 0.8585 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9137 0.9147 0.9162 0.9177 1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993 3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995 3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997 3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 Julga-se pertinente introduzir aqui uma importante ressalva relativa aos modelos Pearson III, Log-Pearson III e GEV. Com efeito, tais modelos podem apresentar coeficientes de assimetria negativos (dependendo dos valores numéricos de seus parâmetros), conducentes a funções de distribuição de probabilidade que, de algum modo, definem limites superiores para os valores máximos da variável em estudo a que correspondem probabilidades de excedência, para 28 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA todos os efeitos, iguais a zero. Nestes casos particulares, atendendo à incerteza inerente à estimação de parâmetros populacionais a partir das amostras, em geral pequenas, de variáveis hidrológicas, é prudente não recomendar o emprego de distribuições limitadas superiormente. O exercício 10 ilustra o cálculo de probabilidades para a lei Generalizada de Valores Extremos (GEV). Exercício 10 – Seja X a variável aleatória ‘caudal médio diário máximo anual’. Suponha-se que, numa dada secção da rede hidrográfica, E[X]=500 m3/s, Var[X]=47 025 (m3/s)2 e X=1.40. Tendo por base a lei Generalizada de Extremos, GEV, calcule o caudal médio diário máximo anual com o período de retorno 100 anos. Solução: Conforme decorre das equações da Tabela 5 referentes à lei GEV, a relação entre o parâmetro de forma κ e o coeficiente de assimetria γX é biunívoca sendo apresentada no gráfico da Figura 8. Para X=1.40 resulta ≈ -0.04. Recorrendo novamente à Tabela 5, nomeadamente, às equações da GEV que relacionam Var[X] com α e E[X] com α e β, obtém-se primeiramente =159.97 e, seguidamente, fazendo intervir este resultado, =401.09. Anota-se que o software Microsoft Excel dispõe de uma função estatística – LNGAMA, na versão em Português, e GAMMLN, na versão em Inglês – que corresponde ao logaritmo neperiano da função Gama para um dado argumento, pelo que a exponencial dessa função fornece para esse argumento. O caudal médio diário máximo anual com o período de retorno de T=100 anos é dado pela função de quantis da GEV (última coluna da Tabela 5), ou seja, x(100)=1209 m3/s. Coeficiente de assimetria, γ 20 18 16 14 12 10 8 6 4 2 0 -0.35 -0.25 -0.15 -0.05 0.05 0.15 0.25 0.35 Parâmetro de forma, κ Figura 8 – Modelo GEV: relação entre κ e γX. 29 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 8. Estimação de parâmetros e de quantis das distribuições de probabilidade 8.1 Procedimento geral. Método dos momentos Tomada a decisão quanto ao modelo de distribuição de probabilidades a aplicar à amostra de uma variável aleatória e determinados os valores numéricos dos parâmetros que o definem, é possível calcular as probabilidades associadas a quaisquer valores da variável em questão. Importa, contudo, registar que, mesmo que tal modelo represente fidedignamente a variável aleatória, só seria possível conhecer os verdadeiros valores numéricos dos seus parâmetros se toda a população tivesse sido amostrada, o que, na prática e pelo menos no que respeita às variáveis hidrológicas, é impossível. Assim, na posse de apenas uma amostra finita de observações de uma variável aleatória – como a amostra de precipitações diárias máximas anuais apresentada na Tabela 1 –, pretenderse-á, por regra: (i) identificar o modelo de distribuição de probabilidades da população donde provém a amostra; e (ii) proceder à estimativa dos valores numéricos dos parâmetros que descrevem tal modelo. Os métodos que permitem estabelecer a associação entre a realidade física contida num conjunto de observações (ou seja, numa amostra) e a concepção abstracta de um modelo probabilístico são geralmente denominados de inferência estatística. A população é, de certa forma um conceito abstracto, pois remete para um conjunto infinito de elementos potencialmente observáveis, mas que não existem no sentido físico. Por outro lado, a amostra é constituída por um conjunto de N observações reais { x1 , x 2 , ..., x N }, as quais se supõem terem sido aleatoriamente sorteadas, uma a uma, de modo independente entre si, de uma única população, cujo comportamento probabilístico é dado por uma certa função densidade de probabilidades fX(x) ou f(x), definida por parâmetros θ1 ,θ 2 , ... ,θk . Nas anteriores condições de amostragem, { x1 , x 2 , ..., x N } constitui uma amostra aleatória simples (AAS). As observações { x1 , x 2 , ..., x N } representam os factos concretos, a partir dos quais, são obtidas as estimativas das características populacionais, tais como a média, a variância e o coeficiente de assimetria, assim como as inferências sobre a respectiva distribuição de probabilidades e sobre os valores dos seus parâmetros. Em alguns casos, a forma de fX(x) pode ser deduzida a partir das características físicas do fenómeno em questão ou de algumas estatísticas amostrais. Entretanto, mesmo que fX(x) tenha sido correctamente postulada, as estimativas θˆ 1 , θˆ 2 , ... , θˆ i , ... , θˆ k , dos seus parâmetros θ1 , θ2 , ... , θi , ... , θk , têm de ser necessariamente inferidas a partir de uma amostra. Se outras amostras, todas com a mesma dimensão N da anterior amostra, estivessem disponíveis seria de esperar que cada uma delas produzisse estimativas, θ̂i , distintas dos parâmetros da distribuição, θi . Se as amostras com dimensão N susceptíveis de serem constituídas fossem em grande número, as sucessivas estimativas assim obtidas para cada um daqueles parâmetros constituiriam, elas próprias, uma variável aleatória e, portanto, uma distribuição da estatística amostral em causa, a qual teria de conter o verdadeiro valor populacional desse parâmetro, embora de forma mais ou menos dispersa, em conformidade com o grau de incerteza decorrente do processo de estimação dos parâmetros populacionais a partir de amostras finitas de tamanho N. Há uma variedade de métodos de estimação de parâmetros, entre os quais se destacam: (i) o método dos momentos; (ii) o método da máxima verosimilhança; (iii) o método dos momentosL; (iv) o método da máxima entropia; (v) o método dos mínimos quadrados; e (vi) o método 30 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA generalizado dos momentos. No presente documento apenas o método dos momentos será objecto de apresentação, por ser o método mais frequente utilizado e de mais fácil implementação. Ao leitor interessado noutros métodos de estimação de parâmetros de distribuições estatísticas, recomendam-se as seguintes referências: Rao e Hamed (2000), Hosking e Wallis (1997), Meylan et al. (2008) e o capítulo 6 de Naghettini e Pinto (2007). O método dos momentos consiste em igualar os momentos amostrais aos momentos populacionais. O resultado dessa operação fornece as estimativas dos parâmetros da distribuição de probabilidades em questão. Formalmente, sejam { x1 , x 2 , ..., x N } as observações constituintes de uma amostra aleatória simples constituída a partir de uma população de uma variável aleatória com função densidade de probabilidade com k parâmetros, representada por f X ( x; θ1,θ 2 ,..., θ i ,..., θ k ) ou, numa anotação simplificada, por f ( x; 1, 2,..., i ,..., k ) . Se j e mj representam, respectivamente, os momentos populacionais e amostrais, o sistema fundamental k equações a k incógnitas do método dos momentos é dado por: µi ( θ1,θ 2 ,...,θ i ,...,θ k ) = m j com i=1, 2,...,k .............................................................................(18) As soluções θˆ 1,θˆ 2 ,...,θˆ i ,...,θˆ k do anterior sistema de equações constituem as estimativas dos parâmetros i pelo método dos momentos. Os exercícios a seguir exemplificam a aplicação de tal método. Exercício 11 – Seja x1, x2, x3, ... , xN uma amostra aleatória simples retirada da população de uma variável aleatória X, cuja função densidade de probabilidade, com um único parâmetro, , é dada por f X (x;θ) = (θ + 1) x θ para 0 ≤ x ≤ 1 . Pede-se para: (a) determinar o estimador de pelo método dos momentos; e (b) supondo-se que a amostra de X seja constituída pelos seguintes elementos {0.20; 0.90; 0.05; 0.47; 0.56; 0.80; 0.35}, calcular o valor do anterior estimador, ou seja, a estimativa de pelo método dos momentos, θ e a probabilidade de X ser maior do que 0.8. Solução: (a) De acordo com o método dos momentos, havendo apenas um parâmetro a estimar, então, o momento de ordem 1 fornecerá esse parâmetro, ou seja, 1=m1. De acordo com a equação (3), o primeiro momento populacional é dada por µ1 =E(X)= seja, m1 =(1 N ) 1 0 x (θ + 1)x θdx = (θ + 1) (θ + 2) sendo que o primeiro momento amostral é a média da amostra, ou N x= i =1 i ( )( ) X . Logo, θ + 1 θ + 2 = X θ = (2X − 1) (1 − X ) . A última equação dá o estimador de pelo método dos momentos. (b) A amostra fornecida conduz a X = 0.4757 . Entrando com este resultado na equação antes determinada para o estimador de , obtêm-se θˆ = (2 × 0.4757 − 1) (1 − 0.4757 ) = −0.0926 . A função distribuição de probabilidade, FDP, é dada por FX (x ) = F(x) = x 0 ( + 1) x dx = x +1 . Logo P(X>0.8)=1-P(X ≤ 0.8)=1-F (0.8)=1- 0.8167=0.1833. Exercício 12 – Considere a amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) a que se refere a Tabela 1. Conforme se explicitou na Tabela 2, foram estimadas as seguintes estatísticas amostrais: média, X = 39.5 mm ; desvio-padrão, s X = 17.2 mm ; e coeficiente de assimetria, g X = 1.149. Determine: (a) os estimadores dos parâmetros da distribuição de Gumbel para máximos (ou simplesmente distribuição de Gumbel) pelo método dos momentos; e (b) as estimativas dos anteriores parâmetros. Calcule: (c) a probabilidade de a precipitação diária máxima anual ser superior a 65 mm; e (d) a precipitação diária máxima anual com o período de retorno de 100 anos. Solução: (a) Conforme se explicita na Tabela 5, a distribuição de Gumbel é definida pelos parâmetros α e β, os quais se relacionam com os dois primeiros momentos da população pelas equações µ1 = E[X] = β + 0.5772 α e 31 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA µ 2 = Var [X ] = π 2α 2 6 . Igualando a variância da amostra, s X 2 , à da população, µ2, e resolvendo a segunda das anteriores equações em ordem a α obtém-se o estimador α = 6 s X π . Igualando a média da amostra, X , à da população, µ1, introduzindo o estimador α na primeira das anteriores equações e resolvendo-a em ordem a β obtémse o estimador β = X − 0.5772 α . (b) α e β constituem os estimadores pelo método dos momentos dos parâmetros da lei de Gumbel. As correspondentes estimativas obtêm-se muito simplesmente atendendo aos valores numéricos dos momentos amostrais, X e s X , em conformidade com a amostra em estudo, do que resulta α = 6 s X π = 6 17.2 π = 13.4 e β = X − 0.5772 α = 39.5 − 0.5772 × 13.4 = 31.8 . (c) Atendendo a que P(X>65)=1F(65), bem como à equação de quantis da lei de Gumbel (apresentada na Tabela 5) e às anteriores estimativas dos parâmetros α e β dessa distribuição, obtém-se que P(X>65)=1-F(65)= =1-0.9196=0.0804. (d) Para o período de retorno T=100 anos, correspondente à probabilidade de não-excedência de F(xT)=0.99, a função de quantis da Tabela 5 fornece x100=93.5 mm. Nota: o anterior procedimento de cálculo pode ser estendido às distribuições log-Normal ou de Galton e GEV, a partir das equações de momentos e de quantis da Tabela 5. No caso particular da distribuição GEV, pode usar-se a Figura 8, para uma primeira estimativa do parâmetro de forma κ a partir da estimativa do coeficiente de assimetria g=1.149. Em seguida ou alternativamente, pode obter-se uma maior precisão na estimativa de κ, com base em aproximações sucessivas, mediante uso da função LNGAMA/GAMMLN do software Microsoft Excel, referida a propósito daquela figura. 8.2 Factores de probabilidade Uma abordagem, introduzida por Chow (1954), e que facilita muito o cálculo dos quantis, refere-se à utilização dos factores de probabilidade. Segundo essa abordagem, o quantil xT, da variável aleatória X, para a probabilidade de não-excedência, F, ou, de modo equivalente para o correspondente período de retorno, T tal que T=1/(1-F), pode ser estimado através de: x T = µ X + K FDIST σ X ...........................................................................................................(19) em que K FDIST denota o factor de probabilidade, dependente de F e da distribuição estatística para a qual se pretende estimar quantis. Se a média e o desvio-padrão populacionais, a saber, µX e σX, forem substituídos pelas suas respectivas estimativas amostrais, X e s X , a abordagem passa a ser uma extensão do método dos momentos e a equação (19) toma a forma: x T = X + K FDIST s X ..............................................................................................................(20) a qual exprime o facto de os produtos dos factores de probabilidade pelo desvio-padrão, s X , representam desvios crescentes, em relação à média amostral, X , à medida que as probabilidades de não-excedência e, consequentemente, os períodos de retorno, aumentam. A Tabela 7 apresenta as equações mais vulgares para cálculo dos factores de probabilidade para as distribuições Normal, log-Normal, de Gumbel, GEV, Pearson III e log-Pearson III. Observa-se que, no caso das leis Normal e log-Normal o factor de probabilidade para dado valor da probabilidade de não-excedência, F, ou, de modo equivalente, para o valor correspondente do período de retorno, T, é igual ao valor da normal reduzida para esse valor de F, z, conforme se sistematizou na Tabela 7. Anota-se que as equações da Tabela 7 fornecem exactamente os mesmos resultados para os quantis estimados pelas funções de quantis da Tabela 5. 32 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 7 – Expressões de cálculo dos factores de probabilidade K FDIST para diversas distribuições. Factor de probabilidade Distribuição (DIST) F ( K DIST ) Normal K FNormal log-Normal ou de Galton GEV Observação x F = X + K FNormal s X Z(F): Tabela 6 ( = z (F) x F = exp Y + K FNormal sY ) com Y = ln (X ) 6 {0.577216 + ln [ln (1/ F)]} π F [rigorosamente, K Gumbel depende da dimensão da amostra, N, Kite (1988)] K FGumbel ≅ − Gumbel Equação de quantis ( xF) K FGEV = κ κ {Γ(1 + κ) − [− ln(F)] } x F = X + K FGumbel sX ------- F x F = X + K GEV sX ------- κ Γ (1 + 2 κ ) − Γ 2 (1 + κ ) Z(F): Tabela 6 Transformação de Wilson-Hilferty K FPearson ≅ 2 gX Pearson-III K FNormal − gX 6 3 gX +1 −1 6 Na transformação de WilsonHilferty g X < 2 . Para outras assimetrias consultar Rao e Hamed (2000) x F = X + K FPearson s X Alternativa 3 1 T ( K Normal − 3 1 − 1) k 3 + K TNormal k 4 + k5 3 2 K FPearson ≅ K TNormal + ( K TNormal − 1) k + − 6 K TNormal ) k 2 − 2 ( K TNormal Na equação alternativa k= log-Pearson III 2 gY K FNormal − gY 6 gx 6 Z(F): Tabela 6 Transformação de Wilson-Hilferty K FPearson ≅ Z(F): Tabela 6 3 gY +1 −1 6 ( x F = exp Y + K FPearson s Y Alternativa 2 3 1 K FPearson ≅ K TNormal + ( K TNormal − 1) k + ( K TNormal − 3 2 1 − 6 K TNormal ) k 2 − ( K TNormal − 1) k 3 + K TNormal k 4 + k 5 3 com Y = ln (X ) ) Na transformação de WilsonHilferty g Y < 2 Para outras assimetrias consultar Rao e Hamed (2000) Na equação alternativa k= gy 6 Exercício 13 – Estime a precipitação média diária máxima anual com o período de retorno de 100 anos a que se refere a alínea (d) do exercício 12 no pressuposto de aplicação da lei de Pearson III. Solução: Conforme se especificou no exercício 12, as estatísticas amostrais são X = 39.5 mm , s X = 17.2 mm e g X = 1.149. Assim, recorrendo ao factor de probabilidade e às expressões pertinentes da Tabela 7, obtém-se .99 .99 sucessivamente: T=100 anos; F=1-1/T=0.99; K 0Normal =z(0.99)=2.326 (Tabela 6); K 0Pearson = 3.1266 . Portanto, a precipitação diária máxima anual com o período de retorno de 100 anos de acordo com a lei de Pearson III é dada por: x T = X + K100 Pearson s X = 39.5 + 3.1266 × 17.2 = 93.3 mm. 33 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 9. Análise de frequência de variáveis hidrológicas 9.1 Nota prévia A análise de frequência de amostras de variáveis hidrológicas tem por objectivo estimar valores dessas variáveis para dadas probabilidades de não-excedência, F, ou, de modo equivalente, para dados períodos de retorno, T, adoptados como critério de projecto para o que utiliza distribuições de probabilidade supostamente capazes de descrever as variáveis. Os resultados de tal análise intervêm na solução de inúmeros problemas da engenharia hidráulica e não só, tais como a caracterização das ocorrências extremas associadas a cheias e a secas; o projecto de descarregadores de cheias de barragens; o dimensionamento de albufeiras de regularização, de diques de protecção marginal ao longo dos cursos de água ou de obras de drenagem de vias de comunicação; o projecto de pontes, por exemplo, no que respeita à fixação do vão livre ou da cota do tabuleiro ou, ainda, o estudo das erosões em torno dos pilares; etc. As amostras utilizadas na análise de frequência devem ser representativas da variável a que se referem, não apresentando erros de observação ocasionais e/ou sistemáticos1, devendo ter um número suficiente de elementos que permita realizar extrapolações merecedoras de confiança. Além disso, é necessário assegurar que se tratam de amostras aleatórias simples, ou seja, que os dados são homogéneos2 e independentes, além de ‘sorteados’ ao acaso. A condição de homogeneidade pretende assegurar que todas as observações tenham sido extraídas de uma mesma população, descrita por uma única distribuição de probabilidades. Por exemplo, para o caso de análise de escoamento, em condições de cheia ou não, pretende-se assegurar que o uso e a ocupação da bacia hidrográfica não tenham sido significativamente modificados ou, ainda, que não tenham sido implantadas estruturas hidráulicas que tenham alterado o regime do escoamento natural. Por outro lado, a condição de independência procura assegurar que não existe dependência serial entre os elementos que constituem a amostra, tornando-a apta a ser analisada mediante aplicação de procedimentos da análise estatística. Os testes estatísticos de significância para verificar a adequação das amostras aos anteriores requisitos encontram-se descritos no capítulo 7 de Naghettini e Pinto (2007). 9.2. Análise de frequência com base na apreciação visual do ajustamento (em gráficos de probabilidade). Probabilidade empírica de não-excedência Para proceder à análise de frequência de uma amostra, concretamente, para identificar as distribuições estatísticas susceptíveis de serem aplicadas a essa amostra é frequente recorrer-se ao ajustamento visual, tendo por base a representação gráfica dos pontos da amostra e das leis 1 Uma amostra de uma variável aleatória é consistente se, ao longo do respectivo período de observação, não existe alteração do erro sistemático de medição da grandeza a que se refere a amostra. Constituem exemplos de quebra de consistência a mudança de local do aparelho de medição da precipitação (udómetro) ou a criação de obstáculos junto ao mesmo ou o incorrecto nivelamento na mudança do sistema de registos de alturas ou níveis hidrométricos (Quintela, 1996). 2 Uma amostra de uma variável hidrológica diz-se homogénea quando, ao longo do respectivo período de observação, não existirem alteração nos factores que condicionam o fenómeno traduzido pela grandeza a que se refere a amostra. No pressuposto de que, à escala do tempo abrangido pela amostra, não ocorreram mudanças climáticas, as quebras de homogeneidade, a registarem-se, devem-se a alterações em factores físicos, tais como os associados à desflorestação ou ainda os decorrentes da construção de barragens. Em certas circunstâncias, é possível eliminar uma quebra de homogeneidade, procedendo à reconstituição da amostra natural (Quintela, 1996). 34 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA teóricas postuladas para representar essa amostra. Para o efeito, é necessário atribuir a cada ponto da amostra uma probabilidade empírica de não-excedência, F (na designação inglesa, plotting position). Em geral, o ajustamento gráfico utiliza os designados papéis de probabilidade, nos quais os eixos das ordenadas estão graduados nas unidades dos elementos das amostra e os eixos das abcissas, em escalas transformadas de probabilidades, tais que, para a lei a que se refere cada um desses papéis, a relação entre os valores da variável aleatória e as respectivas probabilidades teóricas de não-excedência é linear. Os principais papéis de probabilidade referem-se às distribuições Exponencial, Normal, log-Normal e de Gumbel, e todos assentam no mesmo princípio: escala das abcissas de modo a linearizar a mencionada relação para a distribuição de probabilidades a que se refere o papel. A Figura 9 exemplifica o papel de probabilidades Normal sendo que o segmento de recta aí representada fornece as probabilidades de não-excedência para os valores da amostra a que se refere o eixo das ordenadas. No caso da lei Normal, a linearização da relação resulta muito simplesmente de atribuir a cada estimativa da variável aleatória o valor da normal reduzida para a probabilidade de não-excedência correspondente a essa estimativa. Para melhor elucidar o conceito de papel de probabilidade incluíram-se na Figura 9, por assim dizer, três eixos das abcissas: dois na parte inferior do gráfico – um linear em valores da normal reduzida, z – e outro, com os valores correspondentes da probabilidade de não-excedência, F, a qual, no eixo superior foi transcrita em termos dos períodos de retorno, T, que lhe correspondem. 1.1 1.4 2.0 3.3 10.0 100.0 0.10 0.30 0.50 0.70 0.90 0.99 1000.0 T (anos) Variável aleatória, X 3.0 -2.0 -1.0 0.0 1.0 2.0 0.999 F=P(X≤ x) 3.0 z Figura 9 – Papel de probabilidade da lei Normal. Como mencionado, na representação em papel de probabilidade, a cada valor de uma amostra é associada uma probabilidade empírica de não-excedência, F (plotting position, como antes especificado). Se a amostra representasse toda a população, a probabilidade de não-excedência associada a cada elemento seu seria dada pelo quociente entre o número de elementos da amostra inferiores ou iguais ao considerado e a dimensão da amostra, N (ou seja, seria a fracção dos elementos da amostra com valor inferior ou igual a cada elemento seu). Numa amostra sem valores repetidos, se i representasse o número de ordem de um dado elemento após ordenação dos elementos dessa amostra por valores crescentes, tal probabilidade 35 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA seria simplesmente dada por i/N. De acordo com essa noção, a probabilidade de ocorrerem elementos com valor, tanto inferior ao elemento com menor valor da amostra, como superior ao elemento com maior valor da amostra seria nula (acontecimentos impossíveis). Em face de amostras finitas representativas de populações infinitas, o pressuposto de que nunca poderão ocorrer elementos com valores para além da gama de valores patente na amostra não tem sentido. Surgiram, assim, fórmulas de estimação de probabilidades empíricas que corrigem esse pressuposto. Tais fórmulas fazem intervir o número de ordem i de cada elemento da amostra, após ordenação dos elementos da mesma por valores crescentes (i igual a 1 para o menor valor da amostra e igual a N, para o maior valor) e são frequentemente casos particulares da seguinte fórmula geral, em que i e N têm os significados antes especificados e ω é uma constante compreendida entre 0 e 1 e que determina a qualidade do ajustamento entre probabilidades empíricas e teóricas de acordo com as leis postuladas: F = P( X ≤ x ) = i−ω ...............................................................................................(21) n +1 − 2 ω A fórmula a aplicar deve atender à distribuição teórica que se supõe ser válida para a população de onde provém a amostra em estudo. A Tabela 8 apresenta algumas das fórmulas de cálculo de probabilidades empíricas de não-excedência, os correspondentes valores de ω e recomendações quanto à sua aplicabilidade. Tabela 8 – Fórmulas para estimação de probabilidades empíricas de não-excedência. Fórmula i F= N +1 i − 0.44 F= N + 0.12 i − 0.375 F= N + 0.25 i − 0.5 F= N i − 0.40 F= N + 0.20 Autor Valor de ω . Atributos de aplicação Weibull ω=0.000. Probabilidades de excedência não enviesadas para todas as distribuições Gringorten ω=0.440. Usada para quantis das distribuições de Gumbel, GEV e Weibull Blom ω=0.375. Quantis não enviesados para as distribuições Normal e Log-Normal Hazen ω=0.500. Usada para quantis da distribuição Pearson III Cunnane ω=0.400. Quantis aproximadamente não enviesados para todas as distribuições Na Figura 10 comparam-se as probabilidades empíricas de não-excedência obtidas pelas fórmulas da Tabela 8 para duas amostras, uma com 50 elementos (gráfico do lado esquerdo) e outra com 20 elementos (gráfico do lado direito). À semelhança do papel de probabilidade da lei Normal, os eixos das abcissas de ambos os gráficos foram graduados numa escala linear de valores da normal reduzida. Como se pode observar, os resultados fornecidos pelas diferentes fórmulas apenas surgem diferenciados (pontos representativos das diferentes probabilidades nitidamente não coincidentes) para probabilidades extremas – muito baixas ou muito elevadas –, distinguindo-se tanto mais, quanto menor a dimensão da amostra a que respeitam. 36 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Probabilidade empírica de não-excedência F Probabilidade empírica de não-excedência F 1.0 1.0 Weibull 0.8 Weibull Gringorten 0.8 Gringorten Blom Blom Hazen 0.6 Hazen 0.6 Cunnane Cunnane 0.4 0.4 0.2 0.2 0.0 -3 -2 -1 0 1 2 0.0 3 -3 Normal reduzida, z -2 -1 0 1 2 3 Normal reduzida, z Figura 10 – Probabilidades empíricas de não-excedência fornecidas pelas fórmulas da Tabela 8 para duas amostras, uma, com 50 elementos (à esquerda) e, outra, com 20 elementos (à direita). Sistematizam-se, seguidamente, as etapas requeridas pela representação, para uma dada amostra, da distribuição das probabilidades empíricas de não-excedência: (i) ordenação dos valores da amostra por valores crescentes; (ii) atribuição, a cada valor já ordenado, xi, da respectiva probabilidade empírica de nãoexcedência, Fi por aplicação de uma das fórmulas da Tabela 8; (iii) selecção de um tipo de papel de probabilidades consoante a expectativa da lei com melhor ajuste (exponencial, Normal, log-Normal ou Gumbel), embora, desconhecendose tal lei, se possa adoptar o papel de probabilidades da lei Normal; (iv) representação gráfica dos pares de valores (Fi, xi). A Tabela 9 e a Figura 11 exemplificam a estimação da distribuição empírica das precipitações diárias máximas amuais no posto udométrico de Pavia (20I/01G) a que se refere a Tabela 1, mediante o recurso à fórmula de Gringorten e aos papéis de probabilidade das leis Normal (gráfico superior) e de Gumbel (gráfico inferior). Nos gráficos da Figura 11 os eixos das abcissas são lineares tendo sido completados por um segundo eixo secundário, no topo de cada gráfico, graduado em probabilidades de não-excedência, F. Incluíram-se, nos gráficos, as curvas resultantes do ajustamento das distribuições Normal, de Gumbel e log-Normal aos pontos da amostra. Tais curvas foram calculadas recorrendo à técnica dos factores de probabilidade, conforme antes descrito. Como resulta da observação dos gráficos, no papel de probabilidade da lei Normal (gráfico superior) tal lei é representada por um segmento de recta, acontecendo outro tanto com a lei de Gumbel, quando é utilizado o papel dessa lei (gráfico inferior). 37 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 9 – Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a Tabela 1. Probabilidades empíricas de não-excedência, P(X ≤ x)=F(x), de acordo com a fórmula de Gringorten apresentada na Tabela 8. i 1 2 3 4 5 6 8 8 9 10 11 13 13 14 15 16 17 19 19 Pdma P(X ≤ x)= =F(x) (mm) 8.1 0.0059 10.2 0.0166 10.3 0.0272 14.2 0.0378 15.3 0.0484 18.2 0.0591 20.2 0.0803 20.2 0.0803 20.4 0.0909 20.8 0.1016 24.2 0.1122 24.3 0.1334 24.3 0.1334 25.2 0.1441 26.0 0.1547 27.0 0.1653 27.2 0.1759 27.4 0.1972 27.4 0.1972 Pdma P(X ≤ x)= =F(x) (mm) 27.5 0.2078 27.8 0.2184 28.0 0.2291 28.5 0.2397 29.0 0.2503 29.4 0.2609 29.5 0.2716 29.8 0.2928 29.8 0.2928 30.0 0.3034 31.3 0.3141 31.4 0.3353 31.4 0.3353 31.9 0.3459 32.5 0.3566 32.8 0.3778 32.8 0.3778 33.2 0.3884 33.5 0.3991 i 20 21 22 23 24 25 26 28 28 29 30 32 32 33 34 36 36 37 38 39 42 42 42 43 45 45 46 47 48 50 50 51 52 53 54 55 56 57 0.10 Precipitação diária máxima anual (mm) Pdma P(X ≤ x)= =F(x) (mm) 34.0 0.4097 34.2 0.4416 34.2 0.4416 34.2 0.4416 34.6 0.4522 35.2 0.4734 35.2 0.4734 35.7 0.4841 36.2 0.4947 36.5 0.5053 36.7 0.5266 36.7 0.5266 37.2 0.5372 37.4 0.5478 37.5 0.5584 38.0 0.5691 38.2 0.5797 38.4 0.5903 38.6 0.6009 i 0.30 0.50 0.70 Pdma P(X ≤ x)= =F(x) (mm) 38.9 0.6116 40.2 0.6434 40.2 0.6434 40.2 0.6434 40.5 0.6541 41.2 0.6647 42.8 0.6753 43.2 0.6859 43.7 0.6966 43.8 0.7072 44.0 0.7178 45.0 0.7391 45.0 0.7391 46.3 0.7497 46.6 0.7603 47.0 0.7709 48.4 0.7816 48.5 0.7922 49.0 0.8028 i 58 61 61 61 62 63 64 65 66 67 68 70 70 71 72 73 74 75 76 0.90 0.99 0.999 Pdma P(X ≤ x)= =F(x) (mm) 50.4 0.8134 52.0 0.8241 55.2 0.8347 56.8 0.8453 57.0 0.8559 58.0 0.8666 58.2 0.8772 59.6 0.8878 60.2 0.8984 63.3 0.9091 69.0 0.9197 70.2 0.9303 71.4 0.9409 80.0 0.9516 84.2 0.9728 84.2 0.9728 92.3 0.9834 95.5 0.9941 i 77 78 79 80 81 82 83 84 85 86 87 88 89 90 92 92 93 94 F=P(X ≤ x) 125 100 75 Normal 50 Gumbel log-Normal 25 Amostra 0 -3 -2 -1 0 1 0.10 0.30 0.50 0.70 Precipitação diária máxima anual (mm) 0.90 2 3 0.99 4 z 0.999 F=P(X ≤ x) 125 100 75 50 Normal 25 Gumbel log-Normal Amostra 0 -3 -2 -1 0 1 2 3 4 5 K Gumbel Figura 11 – Precipitações diárias máximas anuais no posto udométrico de Pavia, de acordo com a Tabela . Probabilidades de não-excedência empíricas (fórmula de Gringorten) e de acordo com as leis Normal, de Gumbel e log-Normal para papeis de probabilidade das leis Normal – gráfico superior – e de Gumbel – gráfico inferior. 38 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 9.3. Apreciação da qualidade do ajustamento e escolha do modelo distributivo. Teste de Kolmogorov-Smirnov e do Qui-Quadrado Em face de uma dada amostra, a representação gráfica em papel de probabilidade das distribuições, por um lado, empírica e, por outro lado, teóricas referentes às leis se afiguram capazes de representar aquela amostra permite avaliar visualmente a adequação de cada uma daquelas leis à amostra e, assim, apreciar a qualidade do ajustamento de um dado modelo distributivo teórico relativamente a outro(s), principalmente no ramo das curvas de frequência que maiores consequências poderão ter nas decisões de engenharia: cauda superior, para máximos e para valores extremos, e cauda inferior, para mínimos. A opção por um modelo distributivo apela a alguma prudência e a um certo conservadorismo, do que deve resultar a escolha, em circunstâncias praticamente equivalentes, do modelo mais exigente em termos de valores de projecto, facto tanto mais justificável quanto as decisões de engenharia requerendo a análise de probabilidades contêm incertezas intrínsecas. Outra importante preocupação na comparação de modelos probabilísticos refere-se ao número dos respectivos parâmetros. Em geral, os modelos de três parâmetros apresentam maior flexibilidade e, com isso, maior adequação ou “aderência” aos pontos das amostras. Entretanto, a maior aderência é obtida à custa de um terceiro parâmetro, cuja estimação a partir da amostra, introduz incertezas adicionais. Se não há grande diferença entre os quantis dos modelos de dois ou de três parâmetros, deve ser dada preferência ao modelo com o menor número de parâmetros, a despeito da sua relativamente menor aderência aos dados – princípio da parcimónia de parâmetros. Além da apreciação visual baseada na representação gráfica em papel de probabilidades, existem diversos testes estatísticos de significância aplicáveis à avaliação da qualidade do ajustamento de um modelo distributivo teórico a uma certa amostra os quais, em linhas gerais, verificam se os dados dessa amostra são compatíveis com aquele modelo. Os testes mais conhecidos são os testes de aderência ou de ajustamento do Qui-Quadrado, de Kolmogorov-Smirnov, de Anderson-Darling e de Filliben. Embora propiciem uma avaliação quantitativa do grau de aderência, estes testes apresentam as seguintes deficiências: (i) não são objectivamente decisivos no que respeita à qualidade do ajustamentos das caudas superiores das distribuições de valores máximos, onde, em geral existem poucos pontos amostrais; e (ii) não foram concebidos para comparar, em termos relativos e por meio das suas estatísticas, as diferentes distribuições teóricas aplicadas a uma dada amostra. O presente item aborda apenas a aplicação dos testes de Kolmogorov-Smirnov, KS, e do Qui-Quadrado, χ 2 , ao ajustamento de leis teóricas a amostras. Ao leitor interessado noutros testes e meios para avaliar a qualidade do ajustamento (diagramas de momentos convencionais e de momentos-L), recomenda-se a consulta das referências Rao e Hamed (2000), Meylan et al. (2008) e do capítulo 7 de Naghettini e Pinto (2007). Os testes de ajustamento “confrontam” (por meio “operadores” designados por estatísticas dos testes) a informação contida numa amostra com a que decorre do pressuposto de uma função de distribuição de probabilidades, mediante a análise da chamada hipótese nula ( H0 ) de que o modelo distributivo teórico se ajusta bem aos pontos daquela amostra e que as diferenças encontradas são fortuitas, ou seja, decorrentes de meras flutuações amostrais, não sendo, portanto, estatisticamente significativas. 39 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Uma de duas decisões resulta do anterior confronto: a de ‘não rejeitar’ ou a de ‘rejeitar’ a veracidade da hipótese H0 de a lei teórica postulada se ajustar aos pontos da amostra. Importa realçar que o teste nunca permite “aceitar” tal lei teórica uma vez que a decisão de “não rejeitar” implica apenas que não existem elementos significativos que invalidem a hipótese nula H0 . Na aplicação de um teste de ajustamento é necessário fixar a priori um certo nível de significância, α, ou seja, a probabilidade, por regra pequena – entre 1 e 5% –, de se tomar uma decisão incorrecta (rejeitar H0 ajustando-se bem o modelo distributivo). Ao complementar do nível de significância, α, ou seja, a (1-α) atribuiu-se a designação de nível de confiança. A estatística do teste de ajustamento de Kolmogorov-Smirnov, KS, é dada pela máxima diferença entre as funções de probabilidades acumuladas empírica e teórica de variáveis aleatórias contínuas. O teste não é aplicável a variáveis aleatórias discretas. Considere-se que X representa uma variável aleatória contínua, de cuja população se extraiu a amostra { x1 , x 2 , ... , x N }. A hipótese nula a ser testada é dada por H0 : P(X ≤ x ) = FX ( x ) = F( x ) , ou seja, pretende-se averiguar se F(x) é uma distribuição de probabilidade adequada à descrição do comportamento probabilístico da variável X. Para implementar o teste KS, classificam-se os elementos da amostra { x1 , x 2 , ... , x N } por ordem crescente, de modo a constituir a sequência {x (1) , x ( 2 ) , ... , x (m ) , , x ( N ) } na qual 1 ≤ m ≤ N denota a ordem de classificação. Para cada elemento x ( m ) a distribuição empírica é fornecida pela proporção de valores amostrais inferiores ou iguais a x ( m ) , ou seja, é igual a m/N. Para tal elemento calcula-se também a respectiva probabilidade de não-excedência teórica, F( x ( m ) ), aplicando os métodos anteriormente descritos, por ventura, baseados na inversão, em ordem à variável aleatória, das equações que utilizam o factor de probabilidade. Os anteriores cálculos são efectuados para os sucessivos valores x ( m ) , A estatística do teste KS, D, é dada por DN = max m / N − F(x (m ) ) ..............................................................................................(22) − ∞ < x <∞ correspondendo, portanto, ao valor absoluto da maior diferença entre as probabilidades empírica e teórica. Se H0 é verdadeira, quando N , a estatística D N tenderá para zero. Por outro lado, se N é um valor finito, a estatística D N deverá ser da ordem de grandeza de 1 N e, portanto, a quantidade N D N não irá tender a zero, mesmo para valores muito elevados de N. Para amostras com dimensão superior a 40, os valores críticos da estatística de teste D N são 1.3581 N , para o nível de significância de =0.05, e 1.6276 N , para =0.01. Para amostras com dimensão inferior a 40, os valores críticos de D N devem ser obtidos na Tabela 10. Se a estatística calculada pela equação (21) for maior do que o valor crítico tabelado, as diferenças são, de facto, significativas para o nível de significância α e, portanto, a decisão é a de rejeitar a hipótese H0. Em caso contrário, a hipótese nula não deve ser rejeitada. 40 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 10 - Valores críticos da estatística do teste de Kolmogorov-Smirnov em função da dimensão da amostra, N, e do nível do significância, α, DN, . N 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 DN, 0.10 0.369 0.352 0.338 0.325 0.314 0.304 0.295 0.286 0.279 0.271 0.265 0.259 0.253 0.247 0.242 DN, 0.05 0.409 0.391 0.375 0.361 0.349 0.338 0.327 0.318 0.309 0.301 0.294 0.287 0.281 0.275 0.269 DN, 0.02 0.457 0.437 0.419 0.404 0.390 0.377 0.366 0.355 0.346 0.337 0.329 0.321 0.314 0.307 0.301 DN, 0.01 0.489 0.468 0.449 0.432 0.418 0.404 0.392 0.381 0.371 0.361 0.352 0.344 0.337 0.330 0.323 N 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 25 0.238 0.264 0.295 0.317 >40 DN, 0.10 0.233 0.229 0.225 0.221 0.218 0.214 0.211 0.208 0.205 0.202 0.199 0.196 0.194 0.191 0.189 1.22 N DN, 0.05 0.259 0.254 0.250 0.246 0.242 0.238 0.234 0.231 0.227 0.224 0.221 0.218 0.215 0.213 0.210 1.36 N DN, 0.02 0.290 0.284 0.279 0.275 0.270 0.266 0.262 0.258 0.254 0.251 0.247 0.244 0.241 0.238 0.235 1.52 N DN, 0.01 0.311 0.305 0.300 0.295 0.290 0.285 0.281 0.277 0.273 0.269 0.265 0.262 0.258 0.255 0.252 1.63 N Na aplicação do teste do Qui-Quadrado, χ 2 , o domínio da função de distribuição é dividido em M intervalos de partição sendo que o teste compara os números de elementos da amostra efectivamente contidos nos sucessivos intervalos com as esperanças matemáticas, ou seja, com os valores esperados, dos números desses elementos, avaliados em conformidade com o modelo postulado. A estatística do teste χ 2 é definida por: 2 M (O j − E j )2 j=1 Ej χ = ............................................................................................................(23) em que O j é o número de elementos da amostra efectivamente contidos no intervalo j e E j , o valor esperado do número de elementos no mesmo intervalo j, dado por E j = N Pj em que Pj é a amplitude do intervalo j expressa em probabilidade e N, a dimensão da amostra. O teste estatístico pode formular-se do seguinte modo: rejeitar H0 com um nível de confiança (1-α) se χ 2 > χ 2(1−α ) , em que χ (21−α ) é o quantil (1-α) da distribuição χ 2 – Tabela 11. Os valores da estatística χ 2 dependem do número de limites, M, e dos limites dos intervalos de partição do domínio da função de distribuição de probabilidade, F. Não existem, contudo, regras para seleccionar o número de intervalos e a amplitude de cada intervalo. Mann e Wald (1942), citados em Henriques (1990), recomendam a partição dos M intervalos de modo a que as probabilidades associadas a cada intervalo sejam idênticas. Sendo M o número de intervalos, os limites de cada intervalo devem ser definidos por forma a se ter E j = N/M (j=1, 2, …, M). Atendendo a este critério, a estatística do teste χ2 simplifica-se para: χ2 = M N M j =1 O2j − N .............................................................................................................(24) Na Tabela 12 apresentam-se as partições da função de distribuição de probabilidade, FX ( x ) ou F( x ) , em função da dimensão da amostra, N, sugeridas por Henriques (1990). 41 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 11 – Quantis da distribuição do Qui-Quadrado em função do número de graus de liberdade, ν, e do nível de confiança, (1-α), χ 2ν,(1- ).. Nível de significância, α Graus de liberdade, ν 0.995 0.975 0.900 0.500 0.100 0.050 0.025 0.010 0.005 0.001 0.995 0.999 Nível de confiança, 1- α 0.005 0.025 0.100 0.500 0.900 0.950 0.975 0.990 1 0.000 0.001 0.016 0.455 2.706 3.841 5.024 6.635 7.879 10.827 2 0.010 0.051 0.211 1.386 4.605 5.991 7.378 9.210 10.597 13.815 3 0.072 0.216 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266 4 0.207 0.484 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466 5 0.412 0.831 1.610 4.351 9.236 11.070 12.832 15.086 16.750 20.515 6 0.676 1.237 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457 7 8 0.989 1.344 1.690 2.180 2.833 3.490 6.346 7.344 12.017 13.362 14.067 15.507 16.013 17.535 18.475 20.090 20.278 21.955 24.321 26.124 9 1.735 2.700 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877 10 2.156 3.247 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588 11 2.603 3.816 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264 12 3.074 4.404 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909 13 3.565 5.009 7.041 12.340 19.812 22.362 24.736 27.688 29.819 34.527 14 4.075 5.629 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124 15 16 4.601 5.142 6.262 6.908 8.547 9.312 14.339 15.338 22.307 23.542 24.996 26.296 27.488 28.845 30.578 32.000 32.801 34.267 37.698 39.252 17 5.697 7.564 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791 18 6.265 8.231 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312 19 6.844 8.907 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819 20 7.434 9.591 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314 21 8.034 10.283 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796 22 8.643 10.982 14.041 21.337 30.813 33.924 36.781 40.289 42.796 48.268 23 24 9.260 9.886 11.689 12.401 14.848 15.659 22.337 23.337 32.007 33.196 35.172 36.415 38.076 39.364 41.638 42.980 44.181 45.558 49.728 51.179 25 10.520 13.120 16.473 24.337 34.382 37.652 40.646 44.314 46.928 52.619 26 11.160 13.844 17.292 25.336 35.563 38.885 41.923 45.642 48.290 54.051 27 11.808 14.573 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475 28 12.461 15.308 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892 29 13.121 16.047 19.768 28.336 39.087 42.557 45.722 49.588 52.335 58.301 30 13.787 16.791 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702 Tabela 12 – Partições (número e limites) do domínio da função distribuição de probabilidade, F(x), na aplicação do teste do Qui-Quadrado em função da dimensão da amostra, N (adaptada de Henriques, 1990) Probabilidades F(x) correspondentes aos limites dos M intervalos de partição N M 15-20 5 0.000 0.200 0.400 0.600 0.800 1.000 20-25 6 0.000 0.167 0.333 0.500 0.667 0.833 1.000 25-30 7 0.000 0.143 0.286 0.429 0.571 0.714 0.857 1.000 30-40 8 0.000 0.125 0.250 0.375 0.500 0.625 0.725 0.875 1.000 40-50 9 0.000 0.111 0.222 0.333 0.444 0.556 0.667 0.778 0.889 1.000 >50 10 0.000 0.100 0.200 0.300 0.400 0.500 0.600 0.700 0.800 0.900 42 1.000 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Quando E j depende de m parâmetros estimados a partir da amostra por um método diferente do método da máxima verosimilhança, a estatística do teste χ 2 tem, aproximadamente a distribuição χ 2 com um número de graus de liberdade compreendido entre M-1 e M-m-1, se H0 for verdadeira. Observa-se que o teste de Kolmogorov-Smirnov, KS, faz uso mais completo dos dados disponíveis do que o teste do Qui-Quadrado, χ 2 . Com efeito, sendo a distribuição postulada contínua, o teste KS examina o ajustamento em cada um dos pontos da amostra, enquanto que o teste do Qui-Quadrado apenas o faz para cada uma das partições do domínio da função de distribuição. Exercício 14 – Considere a amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) a que se refere a Tabela 1. Conforme se explicitou na Tabela 2, foram estimadas as seguintes estatísticas amostrais: média, X = 39.5 mm , desvio-padrão, s X = 17.2 mm e coeficiente de assimetria, g X = 1.149. Por aplicação 2 dos testes de Kolmogorov-Smirnov (KS) e do Qui-Quadrado, χ , aprecie a qualidade do ajustamento da lei Gumbel à mencionada amostra. Adopte o nível de significância de 5%. Solução: A primeira parte da Tabela 13, incluída na página seguinte, contém os sucessivos resultados da aplicação do teste de Kolmogorov-Smirnov, KS, à amostra em estudo. Tais resultados estão parcialmente representados na Figura 12, que permite visualizar o valor da estatística do teste. Função distribuição de probabilidade, m/N e F(x(m)) 1.0 0.8 Series1 m/N Series2 F(x(m)) 0.6 0.4 0.2 0.0 0.0 20.0 40.0 60.0 80.0 100.0 Precipitação diária máxima anual (mm) Figura 12 – Aplicação do teste de Kolmogorov-Smirnov, KS, à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) da Tabela 1. Representação gráfica do valor da estatística do teste. Conforme se indica na Tabela 13, para o nível de significância adoptado, a estatística do teste (0.0704) é inferior ao correspondente valor crítico (0.1403) pelo que a decisão é a de não rejeitar o ajustamento da distribuição de Gumbel à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) A segunda parte da Tabela 13 refere-se à aplicação do teste do Qui-Quadrado. Atendendo à dimensão da amostra (94), foram adoptadas 10 partições com amplitude de 0.10, conducentes a um número esperado de elementos da amostra por intervalo de 9.4. Para a nível de significância de 5%, a estatística do teste (6.8511) é inferior ao valor da distribuição χ 2, tanto para M-1=9 como para M-m-1=7 graus de liberdade, uma vez que foram estimados dois parâmetros a partir da amostra. Q decisão é também a de não rejeitar o ajustamento da distribuição de Gumbel à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G). 43 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 13 – Aplicação dos testes de Kolmogorov-Smirnov, KS, e do Qui-Quadrado, χ 2, à amostra de precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) da Tabela 1. a) Teste de Kolmogorov-Smirnov, KS m x(m) m/N F(x(m) ) |m/N - F(x(m))| m x(m) m/N 1 2 3 4 5 6 8 8 9 10 11 13 13 14 15 16 17 19 19 20 21 22 23 24 25 26 28 28 29 30 32 32 8.1 10.2 10.3 14.2 15.3 18.2 20.2 20.2 20.4 20.8 24.2 24.3 24.3 25.2 26.0 27.0 27.2 27.4 27.4 27.5 27.8 28.0 28.5 29.0 29.4 29.5 29.8 29.8 30.0 31.3 31.4 31.4 0.0106 0.0213 0.0319 0.0426 0.0532 0.0638 0.0851 0.0851 0.0957 0.1064 0.1170 0.1383 0.1383 0.1489 0.1596 0.1702 0.1809 0.2021 0.2021 0.2128 0.2234 0.2340 0.2447 0.2553 0.2660 0.2766 0.2979 0.2979 0.3085 0.3191 0.3404 0.3404 0.0029 0.0068 0.0071 0.0247 0.0331 0.0642 0.0940 0.0940 0.0973 0.1042 0.1729 0.1752 0.1752 0.1961 0.2155 0.2407 0.2458 0.2509 0.2509 0.2535 0.2613 0.2666 0.2798 0.2932 0.3039 0.3066 0.3147 0.3147 0.3202 0.3557 0.3584 0.3584 0.0077 0.0144 0.0248 0.0178 0.0201 0.0004 0.0089 0.0089 0.0016 0.0022 0.0559 0.0369 0.0369 0.0472 0.0560 0.0704 0.0649 0.0488 0.0488 0.0408 0.0379 0.0325 0.0351 0.0378 0.0380 0.0300 0.0169 0.0169 0.0117 0.0365 0.0180 0.0180 33 34 36 36 37 38 39 42 42 42 43 45 45 46 47 48 50 50 51 52 53 54 55 56 57 58 61 61 61 62 63 31.9 32.5 32.8 32.8 33.2 33.5 34.0 34.2 34.2 34.2 34.6 35.2 35.2 35.7 36.2 36.5 36.7 36.7 37.2 37.4 37.5 38.0 38.2 38.4 38.6 38.9 40.2 40.2 40.2 40.5 41.2 0.3511 0.3617 0.3830 0.3830 0.3936 0.4043 0.4149 0.4468 0.4468 0.4468 0.4574 0.4787 0.4787 0.4894 0.5000 0.5106 0.5319 0.5319 0.5426 0.5532 0.5638 0.5745 0.5851 0.5957 0.6064 0.6170 0.6489 0.6489 0.6489 0.6596 0.6702 F(x(m) ) |m/N - F(x(m))| m x(m) m/N 0.3721 0.3886 0.3968 0.3968 0.4077 0.4159 0.4295 0.4349 0.4349 0.4349 0.4456 0.4617 0.4617 0.4749 0.4880 0.4959 0.5010 0.5010 0.5139 0.5189 0.5215 0.5341 0.5390 0.5440 0.5489 0.5562 0.5872 0.5872 0.5872 0.5942 0.6101 64 65 66 67 68 70 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 92 92 93 94 42.8 43.2 43.7 43.8 44.0 45.0 45.0 46.3 46.6 47.0 48.4 48.5 49.0 50.4 52.0 55.2 56.8 57.0 58.0 58.2 59.6 60.2 63.3 69.0 70.2 71.4 80.0 84.2 84.2 92.3 95.5 0.6809 0.6915 0.7021 0.7128 0.7234 0.7447 0.7447 0.7553 0.7660 0.7766 0.7872 0.7979 0.8085 0.8191 0.8298 0.8404 0.8511 0.8617 0.8723 0.8830 0.8936 0.9043 0.9149 0.9255 0.9362 0.9468 0.9574 0.9787 0.9787 0.9894 1.0000 0.0211 0.0269 0.0138 0.0138 0.0141 0.0116 0.0146 0.0119 0.0119 0.0119 0.0118 0.0170 0.0170 0.0144 0.0120 0.0148 0.0309 0.0309 0.0287 0.0342 0.0423 0.0404 0.0461 0.0518 0.0575 0.0608 0.0617 0.0617 0.0617 0.0654 0.0601 Estatística do teste, máx |m/n -F(x(m) )|: 0.0704 Valor crítico da estatística do teste para o nível do significância, , de 5%: 0.1403 F(x(m) ) |m/N - F(x(m))| 0.6450 0.6533 0.6636 0.6656 0.6696 0.6892 0.6892 0.7133 0.7187 0.7257 0.7491 0.7507 0.7586 0.7797 0.8018 0.8403 0.8569 0.8589 0.8683 0.8701 0.8822 0.8871 0.9093 0.9397 0.9447 0.9493 0.9730 0.9802 0.9802 0.9891 0.9914 b) Teste do Qui-Quadrado, χ 2 Partição do domínio da função distribuição de probabilidade Factor de probabilidade da lei de Gumbel Valor da variável aleatória Fi Fi+1 Ki Ki+1 xi xi+1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 --1.1003 -0.8211 -0.5948 -0.3819 -0.1643 0.0737 0.3538 0.7194 1.3046 -1.1003 -0.8211 -0.5948 -0.3819 -0.1643 0.0737 0.3538 0.7194 1.3046 -- -∞ 20.56 25.36 29.25 32.92 36.66 40.75 45.57 51.86 61.93 20.56 25.36 29.25 32.92 36.66 40.75 45.57 51.86 61.93 +∞ Estatística do teste, χ 2 = M j =1 (O j − E j )2 = M Ej N Valor crítico da estatística do teste para o nível de significância, α, de 5% 44 M j =1 Número de elementos por classe Efectivo, Esperado, Oj Ej=M/N 9 5 10 12 12 14 8 7 8 9 2 Oj − N : Para ν =M-1=9 graus de liberdade Para ν =M-m-1=7 graus de liberdade 9.4 6.851 16.919 14.067 0.0359 0.0382 0.0385 0.0471 0.0538 0.0555 0.0555 0.0420 0.0473 0.0509 0.0381 0.0471 0.0499 0.0394 0.0280 0.0001 0.0059 0.0028 0.0040 0.0128 0.0114 0.0172 0.0056 0.0142 0.0086 0.0025 0.0155 0.0015 0.0015 0.0002 0.0086 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 9.4. Avaliação das incertezas associadas às estimativas de quantis A estimativa do quantil x F , relativo à probabilidade de não excedência, F, obtido por um método de estimação contém, independentemente desse método, erros que são inerentes às incertezas presentes na estimação das características e dos parâmetros populacionais a partir de amostras de dimensão N, necessariamente reduzida face à infinitude daquela população, como já repetidamente afirmado. Uma medida frequentemente usada para quantificar a variabilidade intrínseca de x F , e, portanto, indicar a confiança das estimativas de quantis de variáveis hidrológicas, é dada pelo erro padrão da estimativa, SF, definido por: [ SF = E { x F − E [ x F ] }2 ] ..............................................................................................(25) O erro padrão da estimativa leva em conta apenas os erros oriundos do processo de estimação a partir de amostras finitas e, portanto, não considera o eventual erro devido à selecção de uma distribuição de probabilidades inadequada. Admitindo que a distribuição FX(x) tenha sido correctamente especificada, o erro padrão da estimativa compreende os erros inerentes às estimativas dos parâmetros de FX(x). Os diferentes métodos de estimação produzirão diferentes erros-padrão das estimativas. O método de estimação com maior eficiência, do ponto de vista estatístico, é o que resultar no menor valor de SF. A teoria estatística de amostragem demonstra que a distribuição de x F é assimptoticamente Normal, com média igual à estimativa do quantil, x F , e desvio-padrão SF, quando a dimensão da amostra tende para infinito, ou seja, N . No que respeita a amostras finitas com dimensão N, o anterior resultado teórico pode ser usado para construir intervalos de confiança aproximados, para o nível 100(1- )%, cujos limites são expressos por: x̂ F ± zα 2 SF .......................................................................................................................(26) onde zα 2 representa a variável Normal padrão para a probabilidade de não-excedência de α 2 . A dificuldade de aplicar o procedimento descrito para estimar intervalos de confiança associados a estimativas de quantis decorre do cálculo de SF que é muito complexo para todos os métodos de estimação e para quase todas as distribuições, com particular ênfase para as de três parâmetros – ver Kite (1988), Rao e Hamed (2000) e o capítulo 6 de Naghettini e Pinto (2007). Uma alternativa para associar intervalos de confiança a quantis, muito menos complexa do que a aproximação expressa pela equação (26), utiliza a geração, por recurso à técnica de Monte Carlo, de um grande número de amostras com o mesmo tamanho N da amostra original – amostras sintéticas da dimensão N – com estimação a partir de cada uma dessas amostras, do quantil pretendido, ao qual é posteriormente associado uma distribuição empírica de probabilidades. Suponha-se que, à amostra { x1 , x 2 , ..., x N }, se ajustou uma distribuição de probabilidades genérica FX(x), cujos parâmetros θ1 ,θ 2 ,..., θ k foram estimados a partir de um método qualquer de estimação designado por EM. A aplicação da técnica de Monte Carlo tendo em vista construir intervalos de confiança em torno das estimativas de k quantis x Fk processa-se de acordo com as seguintes etapas sequenciais: 45 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA i Para cada valor de (j), variável entre 1 (primeira amostra sintética) e W (última amostra sintética, com W muito grande, da ordem dos milhares, por exemplo, 5000), geração da amostra sintética de ordem (j) com dimensão N, mediante a geração de N números aleatórios uniformes entre 0 e 1, u (i j) , com i=1, …, N, sendo N a dimensão das amostra, quer original, quer sintética de ordem (j). ii No entendimento de que, para a amostra sintética de ordem (j), cada um dos anteriores N valores de u (i j) representa uma probabilidade de não-excedência, ou seja, u (i j) = F( j) ( x i ) = Fi( j) , cálculo dos N quantis x̂ i( j) , com i=1, …, N, seja por inversão directa da função Fi( j) , seja recorrendo ao método dos factores de probabilidade, conforme Tabela 7, num e noutro caso, tendo por base as estimativas dos parâmetros obtidas a partir da amostra original, θ1 ,θ 2 ,..., θ k . iii Da etapa precedente resulta uma amostra sintética de dimensão N, x̂ i( j) , de um conjunto W dessas amostras, com W muito elevado, da ordem dos milhares, conforme antes explicitado. iv Estritamente com base na amostra sintética de ordem (j) e mediante utilização do método de estimação EM, cálculo das estimativas dos parâmetros θ1( j) ,θ2( j) ,..., θ(kj) , e, conhecidos estes parâmetros, dos quantis pretendidos, x (Fjk) , seja por inversão da função Fi( j) , seja recorrendo ao método dos factores de probabilidade, conforme Tabela 7, num e noutro caso, tendo por base as estimativas dos parâmetros obtidas a partir da amostra sintética de ordem (j), θ1( j) ,θ(2j) ,..., θ(kj) ; v Repetição das etapas (i) a (iv) para W amostras sintéticas (W=1, …, 5000, …). vi No final do anterior processo, dispõe-se, para cada quantil x Fk , de W estimativas, x F( jk) , com j=1, … W, as quais são ordenadas por ordem, por exemplo, crescente. vii Sendo W muito grande, para definir os limites do intervalo de confiança a 100 (1α/2)% para cada um desses quantis basta reter os quantis com ordens de classificação W(α/2) e W(1-α/2). A Tabela 14 e a Figura 13 ilustram a obtenção, segundo a lei de Gumbel, com parâmetros estimados pelo método dos momentos, dos intervalos de confiança a 95% dos quantis das precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G) a que se refere a Tabela 1. A anterior tabela exemplifica o procedimento de cálculo de acordo com as etapas anteriormente descritas, no pressuposto de geração de W=5000 séries sintéticas de precipitações diárias máximas anuais, cada uma com dimensão igual à da série histórica, ou seja, com N=94 valores. Por razões óbvias, apenas se incluíram uns escassos resultados referentes às primeiras cinco e às últimas cinco séries sintéticas, nomeadamente, alguns dos números aleatórios uniformes gerados entre 0 e 1 (primeiro quadro da tabela) e as correspondentes estimativas de precipitações diárias máximas anuais avaliadas por recurso ao método dos factores de probabilidade para a lei de Gumbel, atendendo à média e ao desvio-padrão da série histórica. 46 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Tabela 14 – Intervalo de confiança a 95%, para a estimativa fornecida pela lei de Gumbel para a precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) com a probabilidade de não-excedência de 99% (período de retorno de 100 anos). Séries de 94 números aleatórios uniformes entre 0 e 1 Ano Número de orde m da sé rie 1 0.548 0.585 0.542 0.882 0.511 0.749 0.755 0.759 0.624 0.040 … 0.964 0.400 0.659 0.632 0.638 0.148 0.430 0.389 0.308 0.732 0.597 1 2 3 4 5 6 7 8 9 10 … 84 85 86 87 88 89 90 91 92 93 94 2 0.142 0.618 0.975 0.053 0.069 0.896 0.567 0.525 0.335 0.009 … 0.425 0.512 0.332 0.692 0.301 0.973 0.094 0.601 0.074 0.631 0.599 3 0.710 0.658 0.426 0.356 0.901 0.113 0.847 0.278 0.127 0.111 … 0.936 0.390 0.499 0.121 0.016 0.716 0.428 0.750 0.944 0.692 0.876 4 0.254 0.266 0.697 0.572 0.151 0.873 0.426 0.890 0.078 0.849 … 0.589 0.015 0.547 0.290 0.873 0.706 0.482 0.731 0.410 0.072 0.083 5 0.832 0.088 0.077 0.705 0.540 0.105 0.788 0.728 0.661 0.742 … 0.622 0.899 0.683 0.226 0.071 0.154 0.332 0.671 0.880 0.165 0.700 … … … … … … … … … … … … … … … … … … … … … … … 4996 0.869 0.283 0.040 0.841 0.247 0.476 0.999 0.538 0.204 0.205 … 0.134 0.463 0.940 0.361 0.196 0.151 0.404 0.665 0.995 0.076 0.695 4997 0.336 0.609 0.553 0.930 0.426 0.028 0.832 0.814 0.286 0.662 … 0.746 0.556 0.445 0.312 0.678 0.694 0.584 0.058 0.958 0.818 0.922 4998 0.502 0.296 0.549 0.586 0.165 0.679 0.647 0.809 0.394 0.525 … 0.095 0.204 0.209 0.620 0.674 0.765 0.602 0.017 0.519 0.256 0.105 4999 0.805 0.361 0.858 0.920 0.164 0.681 0.908 0.379 0.251 0.185 … 0.038 0.382 0.951 0.603 0.981 0.012 0.176 0.843 0.791 0.548 0.206 5000 0.908 0.527 0.545 0.911 0.945 0.552 0.572 0.363 0.299 0.298 … 0.125 0.288 0.096 0.503 0.581 0.551 0.196 0.440 0.150 0.869 0.472 Séries sintéticas de precipitações diárias máximas anuais com dimensão de 94 anos (mm) Ano Número de orde m da sé rie 1 2 3 4 5 6 7 8 9 10 … 84 85 86 87 88 89 90 91 92 93 94 1 38.58 40.12 38.32 59.56 37.10 48.36 48.79 49.03 41.81 16.02 … 76.17 32.91 43.49 42.18 42.47 23.07 34.03 32.52 29.55 47.37 40.61 2 22.79 41.53 80.82 17.25 18.58 61.35 39.35 37.64 30.53 11.09 … 33.83 37.13 30.43 45.17 29.30 79.83 20.19 40.81 18.91 42.16 40.72 3 46.13 43.44 33.86 31.33 62.06 21.27 55.78 28.43 22.01 21.16 … 68.12 32.54 36.64 21.72 12.70 46.47 33.94 48.45 70.14 45.14 58.91 4 27.52 27.99 45.40 39.57 23.18 58.56 33.86 60.56 19.17 56.00 … 40.28 12.49 38.52 28.88 58.52 45.92 35.96 47.30 33.27 18.74 19.51 5 54.44 19.83 19.10 45.84 38.23 20.83 50.96 47.12 43.58 47.98 … 41.75 61.85 44.68 26.42 18.72 23.34 30.44 44.04 59.31 23.84 45.56 … … … … … … … … … … … … … … … … … … … … … … … 4996 58.03 28.61 16.06 55.26 27.25 35.75 123.16 38.16 25.55 25.58 … 22.38 35.27 68.96 31.49 25.18 23.21 33.06 43.75 103.30 19.07 45.33 4997 30.57 41.16 38.76 67.02 33.88 14.69 54.43 52.95 28.73 43.61 … 48.22 38.91 34.58 29.70 44.44 45.24 40.05 17.72 73.92 53.26 65.42 4998 36.75 29.10 38.59 40.16 23.86 44.46 42.90 52.51 32.71 37.63 … 20.25 25.51 25.72 41.65 44.22 49.39 40.83 12.88 37.41 27.60 20.85 4999 52.27 31.50 56.96 64.99 23.79 44.58 63.11 32.16 27.41 24.73 … 15.82 32.27 71.86 40.90 84.52 11.75 24.32 55.48 51.21 38.55 25.61 5000 63.17 37.71 38.46 63.59 70.26 38.71 39.57 31.56 29.23 29.18 … 21.94 28.81 20.35 36.79 39.92 38.70 25.18 34.40 23.17 58.02 35.59 Média (mm) 41.52 38.23 38.02 37.25 40.32 … 40.18 40.23 39.55 37.86 41.08 Des vio-padrão (mm) 22.22 16.45 17.36 15.26 17.33 … 20.99 16.16 16.98 16.15 16.94 Estimativa para F=0.99 (mm) 111.22 89.84 92.46 85.11 94.68 … 106.01 90.94 92.82 88.52 94.20 Estimativa para F=0.99, ou s eja, para T=100 anos Estimativa para F=0.99, ou seja, para T=100 anos Ordem da série s intética Para cada s érie sintética Ordenada por valores crecentes Ordem da série sintética Para c ada série s intética Ordenada por valores c rec entes 1 2 3 … 118 119 120 121 122 123 124 125 125 126 127 128 129 130 … 4869 (mm) 111.22 89.84 92.46 … 86.53 104.94 87.80 100.62 98.83 93.92 102.46 88.63 88.46 88.39 91.60 92.87 97.35 103.22 … 94.10 (mm) 71.20 72.00 72.50 … 76.90 77.00 77.08 79.60 80.52 80.74 80.77 80.79 82.45 82.74 82.87 82.98 83.32 83.75 … 106.90 4870 4871 4872 4873 4874 4875 4876 4877 4878 4879 4880 4881 4882 4883 4884 4885 … 4998 4999 5000 (mm) 78.31 96.75 92.96 95.96 84.25 87.20 93.10 90.49 89.64 93.83 91.25 92.78 99.82 91.27 90.65 105.09 … 92.82 88.52 94.20 (mm) 106.53 107.00 107.30 107.40 107.50 107.56 108.00 108.30 108.50 108.80 109.20 109.50 110.00 110.84 111.00 111.10 … 113.70 113.90 114.00 Nota: Os limites do intervalo de confiança estão destacados a negrito e sombreado. 47 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Pdma (mm) 180 160 140 0.10 0.30 0.50 0.70 0.90 0.99 0.999 0.9999 F=P(X ≤ x) Quantil ou média das 5000 estimativas do quantil Intervalo de confiança a 95%: Eq. (25) e (26) Geração de 5000 séreis sintéticas 120 100 80 60 40 20 0 -2 -1 0 1 2 3 4 5 6 7 KF Gumbel Figura 13 – Intervalos de confiança a 95%, para os quantis fornecidos pela lei de Gumbel para as precipitações diárias máximas anuais no posto udométrico de Pavia (20I/01G). Resultaram, assim, 5000 séries sintéticas de precipitações diárias máximas anuais (segundo quadro da tabela), sendo que se incluíram na tabela as médias e os desvios-padrões das séries aí parcialmente exemplificadas, bem como as respectivas estimativas das precipitações máximas diárias anuais para a probabilidade de não-excedência de 0.99 (período de retorno de 100 anos), obtidas também por aplicação do método dos factores de probabilidade, mas, agora, fazendo intervir as estatísticas amostrais (média e desvio-padrão) de cada uma das sucessivas séries sintéticas. O terceiro quadro incluído na Tabela 14 exemplifica o procedimento de cálculo do intervalo de confiança da precipitação para o quantil de 99%. Conforme aí indicado, obtidas as 5000 estimativas das precipitações máximas diárias anuais para a probabilidade de nãoexcedência de 0.99 e ordenadas tais estimativas por valores crescentes, os limites do intervalo de confiança, por exemplo, a 5% são dados pelas estimativas que ocupam as posições ordenadas 0.025 × 5000 = 125 e 0.975 × 5000 = 4875 , com os valores de, respectivamente, 80.79 e 107.56 mm, destacados na tabela. Recorda-se que, em conformidade com o Exercício 12, a estimativa da precipitação diária máxima anual fornecida pelo método dos momentos baseado no factor de probabilidade para aquela probabilidade de não-excedência foi de 93.5 mm. A Figura 13 contém as curvas que definem os limites do intervalo de confiança a 95% para a generalidade dos quantis fornecidos, por um lado, pela geração de 5000 séries sintéticas, de acordo com o procedimento exemplificado na Tabela 15 e, por outro lado, por aplicação das equações (25) e (26), para o que foi necessário especificar o erro padrão, SF, para o que se utilizou a seguinte equação, válida no caso de aplicação do método dos momentos a uma distribuição estatística de dois parâmetros: 48 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 2 SX 2 KF S = 1 + K F γ1 + ( γ 2 − 1) ...............................................................................(27) N 4 2 T em que N é a dimensão da amostra; KF, o factor de probabilidade; S2X , a variância da amostra; e γ1 e γ 2 os coeficientes de assimetria e de curtose da população que, para a lei de Gumbel, são iguais a, respectivamente, 1.1396 e 5.4. A Figura 13 suscita algumas observações pertinentes, a primeira das quais relativa ao segmento de recta assinalada a preto. Conforme se explicitou na legenda da figura, tal segmento representa: • os quantis estimados por aplicação do método dos momentos baseado no factor de probabilidade a partir das estimativas da média e do desvio-padrão da amostra (39.5 mm e 17.2 mm, respectivamente, conforme Tabela 2), sendo que coincide exactamente com o segmento de recta referente à lei de Gumbel incluído no gráfico inferior da Figura 11; • a menos de desvios praticamente imperceptíveis, a média das 5000 estimativas de cada um dos sucessivos quantis. Importa recordar que está em causa um segmento de recta e não uma curva pois trata-se de uma representação da função de distribuição de probabilidade da lei de Gumbel em papel de probabilidade dessa mesma lei. Concluiu-se, assim, que sendo o número de séries sintéticas suficientemente elevado, as médias das estimativas dos sucessivos quantis que resultam das séries sintéticas coincidem com as estimativas desses quantis fornecidas pela amostra histórica. A título exemplificativo, obteve-se a Figura 14 que contém o histograma das 5000 estimativas da precipitação que decorrem das séries sintéticas para a probabilidade de não-excedência de 0.99. A tais estimativas ajustou-se a lei Normal, conforme representado na figura. A média dessas estimativas – com o valor indicado na figura de cerca de 93.2 mm – é praticamente coincidente com a estimativa do quantil obtida a partir da amostra, dada por: x T = X + K FGumbel s X = 39.5 + 3.137 × 17.2 = 93.5 mm .......................................................(28) resultado, aliás, antes obtido no Exercício 12, não obstante o método de estimação então aplicado ter sido diferente. Retomando a análise da Figura 13, verifica-se que os limites fornecidos pelo recurso à geração de 5000 de séries sintéticas ou por aplicação das equações (25) e (26) são praticamente coincidentes, sendo que aquela técnica, embora computacionalmente exigente, assenta num formalismo matemático simples e facilmente aplicável a diferentes distribuições obviando a grande complexidade de cálculo do erro padrão da estimativa, SF, conforme antes referido. Importa anotar que o esforço computacional exigido pela técnica de Monte Carlo pode ser minimizado pela aplicação Pythia-Statistical Analysis do software gratuito Hydrognomon, desenvolvido pela Universidade Técnica de Atenas e disponível para download a partir de acesso à URL http://hydrognomon.org/download.html. 49 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Frequência absoluta Quantis para a probabilidade de não-excedência de 0.99 (mm) Figura 14 – Histograma das estimativas fornecidas pelas séries sintéticas (em número de W=5000) da precipitação diária máxima anual no posto udométrico de Pavia (20I/01G) para a probabilidade de não-excedência de 99%. Observa-se, por fim, que, tal como representado na Figura 13, os limites do intervalo de confiança a 95% se distanciam progressiva e significativamente da curva de quantis, à medida que a probabilidade de não-excedência e, logo, o período de retorno aumentam. Com efeito e tal como anteriormente explicitado, para F=0.99 (T=100 anos), o intervalo a 95% associado à correspondente estimativa da precipitação diária máxima anual, de 93.5 mm, é [80.79 mm, 107.56 mm], apresentando, portanto, desvios, relativamente àquela estimativa, sensivelmente entre -13.6 e +15.0 %, de modo a conter as incertezas devidas à estimação de parâmetros e de quantis. O entendimento associado ao anterior intervalo é de que o mesmo contém o verdadeiro, embora desconhecido, quantil da precipitação para o período de retorno de 100 anos, com a probabilidade de 95%. O afastamento progressivo das curvas que definem os intervalos de confiança para probabilidades de não-excedência crescentes reflecte as incertezas progressivamente maiores subjacentes à análise de frequência com amostras finitas de tamanho N. Esta constatação aponta no sentido de ser necessário um cuidado especial na extrapolação da curva de frequências para probabilidades de não-excedência correspondentes a períodos de retorno muito superiores à dimensão, N, da amostra disponível. Embora dependendo da qualidade do ajustamento a uma amostra de tamanho N, de modo geral, não se recomenda a extrapolação da curva de frequências para períodos de retorno superiores a 4N. Se essa extrapolação for mesmo necessária, poder-se-á recorrer a métodos complementares, incluindo a análise regional de frequências, que, de algum modo, introduz alguma compensação nas amostras de pequeno tamanho, pela agregação de informações referentes a outras estações de monitorização, localizadas numa mesma região considerada homogénea no que respeita ao fenómeno traduzido pela variável hidrológica para a qual se pretendem estimar quantis. Para detalhes sobre a análise regional de frequências, o leitor pode consultar Hosking e Waliis (1997) e o capítulo 10 de Naghettini e Pinto (2007). 50 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA 10. Correlação e regressão simples de variáveis hidrológicas Na prática da engenharia de recursos hídricos, com alguma frequência, é necessário estabelecer a forma e o grau da associação entre duas ou mais variáveis, como, por exemplo, no estudo das relações entre: (i) as intensidades médias, as durações e as frequências associadas a precipitações intensas; (ii) os módulos dos caudais médios diários em diferentes bacias e as áreas de drenagem dessas bacias; (iii) as alturas anuais médias da precipitação e as altitudes dos postos udométricos; ou (iv) os níveis hidrométricos e os caudais afluentes numa estação hidrométrica, entre outros exemplos. Para tanto é necessário analisar o comportamento simultâneo das duas variáveis aleatórias em presença, Y e X, verificando se a variação (no sentido do aumento ou da diminuição) de uma delas está associada à variação (no mesmo sentido ou em sentidos contrários) da outra, ou mesmo, se não há qualquer dependência estatística entre as variáveis. Uma medida quantitativa do grau de associação linear entre Y e X é dada pelo coeficiente de correlação de Pearson (frequentemente, designado apenas por coeficiente de correlação), cuja estimativa, a partir de uma amostra de pares de valores {xi, yi; i=1, 2, …, N}, é dada por: [1 (N − 1)] S rxy = XY = SXSY N i =1 (x i − X )(yi − Y ) SXSY ....................................................................(29) onde SXY denota a covariância de X e Y (expressa, portanto, nas unidades de X e de Y) e SX e SY, os respectivos desvios-padrão. Contrariamente à covariância, o coeficiente de correlação linear de Pearson é adimensional e varia entre -1 e +1. Deste modo, as unidades de X e Y não afectam o valor do coeficiente de correlação. Caso os pares {xi, yi} se alinhem perfeitamente ao longo de uma recta com declive positivo, ter-se-á uma correlação linear positiva perfeita, sendo o coeficiente de correlação igual a 1. A correlação linear negativa perfeita ocorre quando os pares {xi, yi} se alinham perfeitamente ao longo de uma recta com declive negativo, sendo o coeficiente de correlação neste caso é igual a -1. O significado de valores intermediários do coeficiente é fácil e intuitivamente perceptível. A Figura 15 apresenta alguns hipotéticos diagramas de dispersão de duas variáveis, com as respectivas estimativas do coeficiente de correlação. Nota-se que um valor nulo para o coeficiente de correlação não implica que não haja nenhuma associação entre X e Y. De facto, tal como ilustrado na Figura 15 apesar de r=0, pode haver associação não linear entre as variáveis. Ainda a respeito de coeficiente de correlação, cabe sublinhar que um elevado valor de r, embora estatisticamente significativo, não implica necessariamente numa relação de causa e efeito entre as variáveis. De facto, um elevado coeficiente de correlação indica simplesmente que há uma associação na variação conjunta daquelas variáveis, a qual pode ser explicada, por exemplo, por ocorrências de um factor causal comum a ambas. A simples visualização de um diagrama de dispersão pode sugerir, muitas vezes, a existência de uma relação funcional entre as variáveis Y e X, o que introduz o problema de se determinar a função que formaliza essa dependência. Uma técnica estatística para o efeito disponível é a análise de regressão. 51 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA r=0.00 r=0.90 r=0.70 r=1.00 Figura 15 – Alguns exemplos de associações denotando correlação entre as variáveis Y e X. Nesse contexto, suponha-se que a variação de Y, denominada variável dependente (de resposta ou explicada), possa ser compreendida e modelada a partir da variação de X, chamada variável independente (ou explicativa). A forma funcional, ou modelo de regressão, que relaciona Y e X, deve ser capaz de explicar uma parcela significativa da variação conjunta de ambas variáveis. Contudo, pela natureza das dependências estatísticas, parte da variação pode permanecer inexplicada, devendo ser atribuída ao acaso. Noutros termos, admite-se a existência de uma função que explica, em termos médios, a variação de Y a partir de X. Os pares de observação {xi, yi} apresentarão uma variação aleatória em torno da linha estabelecida pela função de regressão, que é denominada variação residual. Portanto, a equação que define o modelo de regressão fornece o valor médio de Y em função de X. Se a forma funcional do modelo de regressão for conhecida (ou prescrita), haverá que estimar os coeficientes (ou parâmetros) da equação (ou modelo) de regressão. Admita-se que a equação de regressão entre Y e X seja descrita por uma recta: Y = α + β X + ε ..................................................................................................................(30) onde e são os coeficientes de regressão e ε denota os erros ou resíduos da regressão. Os coeficientes e têm de ser estimados a partir dos pares de observações {xi, yi; i=1, 2, …, N}, resultando na seguinte estimativa: ŷ i = αˆ + βˆ x i = a + bx i ........................................................................................................(31) onde ŷ i é o valor estimado da variável dependente a partir de valor observado x i da variável independente e αˆ = a e βˆ = b as estimativas dos coeficientes de regressão. O método mais usual para realizar a estimação de α e β é o método dos mínimos quadrados, cujo objectivo é encontrar a função de regressão que minimiza a soma dos quadrados dos desvios (ou resíduos quadráticos) entre os pontos observados e os calculados pela função ajustada, como se esquematiza na Figura 16. 52 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Figura 16 – Coeficientes de regressão pelo método dos mínimos quadrados De acordo com o anterior método, para o ponto com ordem de i, a distância quadrática é dada por: ei2 = ( yi − a − bx i )2 = yi2 − 2 yi a − 2 yi bx i + a 2 + 2abx i + b 2 x 2i ............................................(32) Logo, para todos os N elementos da amostra, resulta: N 2 ε = i=1 i Z= + Na 2 + 2ab N 2 y − 2a i=1 i N i=1 xi + b2 N y − 2b i=1 i N i=1 N i=1 ( x i yi ) + x 2i ..............................................................(33) Como Z = f (a, b ) , os valores dos coeficientes a e b que minimizam a soma dos quadrados dos desvios são obtidos igualando a zero as derivadas parciais de Z em relação àqueles coeficientes. Esta operação resulta no seguinte sistema de duas equações e duas incógnitas: N N y − Na − b x =0 i=1 i i=1 i N N N 2 (x y ) − a x −b x =0 i=1 i i i=1 i i=1 i ..................................................................................(34) cujas soluções são as estimativas de α e β, dadas pelas seguintes equações: N a= b= i =1 yi N N N i=1 N N −b i =1 N (x i yi ) − N xi 2 i x − i=1 N ( = Y − b X ......................................................................................(35) N y i=1 i N x i =1 i ) i =1 2 xi ....................................................................................(36) Algumas funções não lineares podem ser linearizadas mediante o uso de transformações adequadas, permitindo, assim, a aplicação das equações da regressão linear simples. Um exemplo é a função potencial do tipo Y = aXb , a qual, mediante aplicação de logaritmos pode ser transformada no modelo linear Z = k + bV , no qual Z = ln Y , k = ln a e V = ln X . As equações (35) e (36) podem, então, ser aplicadas às variáveis transformadas Z e V. 53 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Para modelos lineares e não lineares, a qualidade do ajustamento é avaliada pelo coeficiente de determinação, R2, dado pela equação: 2 R = 1− N i=1 N i=1 (y i − ŷ i )2 (yi − Y )2 .....................................................................................................(37) O coeficiente de determinação representa a fracção da variância total de Y que foi explicada pelo modelo de regressão. Um valor próximo de 1 significa que o modelo de regressão é quase perfeito. Ao contrário, se próximo de zero, significa que o modelo de regressão tem pouquíssimo valor ao tentar explicar a variância de Y. No caso de um modelo linear, o quadrado do coeficiente de correlação, R, avaliado pela equação (29), corresponde também ao coeficiente de determinação. Ao leitor interessado em detalhes sobre outras funções não lineares, testes estatísticos referentes aos coeficientes de correlação e de regressão, análise dos resíduos da regressão e extensão dos conceitos aqui apresentados para mais de uma variável explicativa, sugere-se a consulta de Montgomery e Peck (1992) e do capítulo 9 de Naghettini e Pinto (2007). Exercício 15 – Deduzir as equações normais para o seguinte modelo parabólico Q = a + b h + c h 2 . Solução: A variável dependente é Q e a independente é h, com três coeficientes de regressão (a, b, c). Procedendo exactamente de acordo com as equações (32) e (33), obtém-se a uma expressão relativa à soma dos desvios quadráticos Z, a qual, neste caso, é uma função de a, b e c. As equações normais resultam de se igualarem a zero as derivadas parciais de Z, em relação a a, b e c, com obtenção do seguinte sistema de equações: Q = Na + b (Q h ) = a h2 h+c h2 + c h+b (Q h 2 ) = a h2 + b h3 h3 + c h4 Exercício 16 - A Tabela 15 contém os caudais instantâneos, Q, considerados no estabelecimento da curva de vazão numa dada estação hidrométrica, bem como as alturas hidrométricas, h, para esses caudais. Estabeleça a equação da curva de vazão: a) usando o modelo de regressão parabólica dado por Q = a + b h + c h 2 ; b) considerando que a sua forma é do tipo Q = a (h − h 0 ) b . Tabela 15 – Pares de valores de caudais instantâneos, Q, e das correspondentes alturas hidrométricas, h, relativos a uma estação hidrométrica. h(m) Q (m3/s) h(m) Q (m3/s) h(m) Q (m3/s) h(m) Q (m3/s) 0.5 12 1.91 170 4.73 990 8.21 2540 0.8 40 2.36 240 4.87 990 8.84 2840 1.19 90 2.7 300 5.84 1260 9.64 3320 1.56 120 4.07 680 7.19 1920 ---- ---- Solução: a) A solução das equações normais de regressão (ver exercício 15) necessita dos seguintes valores N=15, Q = 15512.00 m3/s, h =64.41 m, (Q h ) =113432.00 m4/s, (Q h 2 ) =905380.75 m5/s, h 2 = 408.18 m2, h 3 =3045.57 m3 e h 4 =24564.94 m4. A substituição destes valores nas equações normais do modelo parabólico conduz às estimativas dos coeficientes de regressão a=-33.1195, b=53.6034 e c=30.7612. A Figura 17 mostra o gráfico do modelo de regressão ajustado à amostra de pares de valores (h,Q). O coeficiente de 54 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA determinação, calculado pela equação (37), resulta em R2=0.9989 e significa a parcela da variância dos caudais instantâneos que foi explicada pelas alturas hidrométricas. Altura hidrométrica h (m) 12 10 8 6 Registos Series3 Q = -33.1195 + 53.6034 h + 30.7612 h2 Series1 Series2 Q = 54.0125 (h-0.0124)1.8219 4 2 0 0 500 1000 1500 2000 2500 3000 3500 4000 4500 Caudal, Q (m3/s) Figura 17 – Curvas de vazão para os dois possíveis modelos definidos no exercício 16. b) Aplicando logaritmos à equação Q = a (h − h 0 ) b , resulta ln Q = ln a + b ln (h − h 0 ) que traduz a equação de uma recta em que as abcissas são os valores de ln (h − h 0 ) e as ordenadas, os de ln Q . Deste modo, é válido aplicar a análise de regressão linear simples aos pares de valores ( ln (h − h 0 ) , ln Q ). Existem, contudo, três parâmetros da curva de vazão a estimar – a, b, h0 – ou seja, mais um do que os susceptíveis de serem directamente obtidas por aquela análise. Para resolver o problema, basta arbitrar o valor de h0 que mais aproxima de uma recta a relação entre ln (h − h 0 ) e ln Q, e aplicar a análise de regressão linear para estimar os restantes dois parâmetros. Para cada valor de h0 arbitrado resulta uma equação para a curva de vazão que, aplicada às alturas hidrométricas utilizadas no seu estabelecimento, h, conduz a estimativas de caudais, Q , que naturalmente diferem dos caudais que também foram utilizados naquele estabelecimento, Q. A solução do problema traduzir-se-á no conjunto de três parâmetros - a, b, h0 - que obedeçam a um certo critério de optimização, por exemplo, maximizar a correlação entre os caudais observados, Q, e os estimados a partir da curva de vazão, Q . A Tabela 16 exemplifica o cálculo descrito. Tabela 16 – Cálculo dos parâmetros da curva de vazão definida por Q = a (h − h 0 ) b . h (m) 0.5 0.8 1.19 1.56 1.91 2.36 2.7 4.07 4.73 4.87 5.84 7.19 8.21 8.84 9.64 Q h0 (m) 3 (m) (m /s) 12 40 90 120 170 240 300 680 990 990 1260 1920 2540 2840 3320 ln a a b Coeficiente de correlação entre Q e Q -1.000000 ln Q ln (h-h0) 2.48 0.41 3.69 0.59 4.50 0.78 4.79 0.94 5.14 1.07 5.48 1.21 5.70 1.31 6.52 1.62 6.90 1.75 6.90 1.77 7.14 1.92 7.56 2.10 7.84 2.22 7.95 2.29 8.11 2.36 2.1707 8.7644 2.6022 h0(m) Q 3 (m) (m /s) 25.17 4.90 13.78 27.88 47.21 81.87 116.20 338.06 0.000000 499.83 539.25 865.08 1486.19 2098.92 2544.18 3187.53 0.989470 ln Q Q 3 (m /s) -0.69 14.78 -0.22 35.00 0.17 72.49 0.44 119.10 0.65 172.63 0.86 254.45 0.99 325.68 1.40 691.24 1.55 910.56 1.58 960.59 1.76 1340.28 1.97 1962.52 2.11 2503.03 2.18 2866.46 2.27 3360.01 ln (h-h0 ) 2.48 3.69 4.50 4.79 5.14 5.48 5.70 6.52 6.90 6.90 7.14 7.56 7.84 7.95 8.11 3.9645 52.6951 1.8338 0.999459 55 … … … h0(m) (m) 0.012404 ln Q Q 3 (m /s) -0.72 14.59 -0.24 35.97 0.16 74.15 0.44 121.43 0.64 175.59 0.85 258.16 0.99 329.89 1.40 696.76 1.55 916.20 1.58 966.20 1.76 1345.19 1.97 1964.83 2.10 2502.02 2.18 2862.78 2.26 3352.24 ln (h-h0) 2.48 3.69 4.50 4.79 5.14 5.48 5.70 6.52 6.90 6.90 7.14 7.56 7.84 7.95 8.11 3.9892 54.0125 1.8219 0.999462 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Conforme indicado na tabela, partiu-se de um valor inicial de h0=-1.000, depois do que se alterou para h0=0.000, com obtenção, após várias iterações, do valor final de sensivelmente h0=0.0124, correspondente aos valores, também finais, dos parâmetros da curva de vazão de a=54.0125 e b=1.8219, obtidos a partir dos valores intermédios de y= ln Q =90.6970 , x= ln (h − h 0 ) =16.9381 , (x y) = [ln (h − h 0 ) ln Q] =124.1603 e x2 = [ln ( h − h 0 )] 2 =31.0621 . Na solução, o coeficiente de correlação entre caudais observados, Q, e estimados a partir da curva de vazão, Q , é igual a R=0.99946 e o correspondente coeficiente de determinação de R2=0.9989, ou seja, para a precisão numérica adoptada, igual ao do modelo parabólico. A curva de vazão para o modelo definido por Q = a (h − h 0 ) b está também representada na Figura 17. Anota-se que, estando-se em presença de um problema de análise de regressão linear, embora no campo de transformada logarítmicas, os coeficientes de regressão que figuram nas equações (35) e (36) podem ser obtidos a partir da amostra de pares de valores utilizados naquela análise por funções implementadas no software Microsoft Excel, designadamente pela função INTERCEPÇÃO (versão em Português) ou INTERCEPT (versão em Inglês) para a ordenada na origem, a, e função INCLINAÇÃO (versão em Português) ou SLOPE (versão em Inglês), para o declive da recta de regressão, b. 56 PROBABILIDADES E ESTATÍSTICA APLICADAS À HIDROLOGIA Referências bibliográficas Ang, A.H.S.; W. T. Tang (2007). Probability concepts in engineering. Emphasis on Applications to Civil and Environmental Engineering, 2a Edição, John Wiley & Sons Inc., Nova Iorque, EUA. Benjamin, J.; C. A. Cornell (1970). Probability, statistics and decisions for Civil Engineers, McGraw-Hill, Nova Iorque, EUA. Chow, V. T. (1954). “The log-probability law and its engineering applications”, Proceedings of the American Society of Civil Engineers 80, Paper No. 536, p. 1-25. Griffis, V. W.; J. R. Stedinger (2007). “Log-Pearson type 3 distribution and its application in flood frequency analysis. II: parameter etimation methods”, Journal of Hydrologic Engineering, Vol. 12, No 5, p. 492-500. Henriques, A. G. (1990). Modelos de distribuição de frequências de caudais de cheia. Dissertação de Doutoramento em Engenharia Civil, Instituto Superior Técnico, Lisboa. Hosking, J. R. M.; J. R. Wallis (1997). Regional frequency analysis: an approach based on Lmoments. Cambridge University Press, Cambridge, Reino Unido. Kite, G.W. (1988). Frequency and risk analysis in Hydrology, Water Resources Publications, Littleton (CO), EUA. Meylan P., A. C. Favre; A. Musy (2008). Hydrologie fréquentielle – une science prédictive, Presses Polytechniques et Universitaires Romandes, Lausanne, Suiça. Montgomery D. C.; E. A. Peck (1992). Introduction to linear regression analysis, 2a Edição, John Wiley & Sons, Nova Iorque, EUA. Naghettini M.; E. J. A. Pinto (2007). Hidrologia estatística, CPRM, Belo Horizonte (MG). Rao A. R.; K. Hamed (2000). Flood frequency analysis, CRC Press, Boca Raton (FL), EUA. Quintela, A.C.; Portela, M.M. (2002). “A modelação hidrológica em Portugal nos últimos 25 anos do século XX nas perspectivas determinística, probabilística e estocástica”, Revista Brasileira de Recursos Hídricos, RBRH, Vol. 7 (4) Edição Comemorativa, pp. 51-64, ISSN 1414 381X, Brasil. 57