LibroINM 2capitulos PDF
LibroINM 2capitulos PDF
LibroINM 2capitulos PDF
(2004)
ISBN: 84-8320-281-6
Universidad de Cantabria
Instituto Nacional de Meteorologa
Indice general
Prefacio
IX
Acr
onimos y Terminologa Utilizados
I
XII
Introducci
on
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
4
7
8
8
10
11
11
12
14
15
16
17
18
21
24
24
24
26
28
30
INDICE GENERAL
VI
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
T
ecnicas Estadsticas Est
andar
30
31
31
32
34
38
39
41
45
2. T
ecnicas Estadsticas. An
alisis y Exploraci
on de Datos
2.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2. Probabilidad y Variables Aleatorias . . . . . . . . . . . . .
2.2.1. Funciones de Probabilidad . . . . . . . . . . . . . .
2.2.2. Probabilidades Conjuntas . . . . . . . . . . . . . .
2.2.3. Probabilidades Marginales y Condicionadas . . . .
2.3. Generadores de Tiempo (Weather Generators) . . . . . .
2.3.1. Generadores Estoc
asticos de Precipitacion . . . . .
2.3.2. Modelos de Intensidad del Evento . . . . . . . . .
2.4. Dependencia e Independencia de Variables . . . . . . . . .
2.4.1. Correlaci
on e Informacion Mutua . . . . . . . . . .
2.5. Componentes Principales y EOF . . . . . . . . . . . . . .
2.5.1. MeteoLab: Componentes Principales y EOF . . . .
2.5.2. Elecci
on del N
umero de Componentes . . . . . . .
2.5.3. Efectos de la Escala Temporal . . . . . . . . . . .
2.6. Tecnicas de Agrupamiento . . . . . . . . . . . . . . . . . .
2.6.1. Tecnicas Jer
arquicas . . . . . . . . . . . . . . . . .
2.6.2. Tecnicas Particionales . . . . . . . . . . . . . . . .
2.6.3. MeteoLab: Tecnicas de Agrupamiento . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
47
47
48
49
52
54
56
56
59
61
64
68
74
79
81
82
83
85
89
3. T
ecnicas Estadsticas. Modelizaci
on y Predicci
on
3.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . .
3.2. Downscaling Estadstico . . . . . . . . . . . . . . .
3.3. Tecnicas Estadsticas para Series Temporales . . .
3.3.1. Modelos Autoregresivos . . . . . . . . . . .
3.3.2. MeteoLab: Modelos Autoregresivos. . . . . .
3.3.3. Series Ca
oticas. Tecnicas de Inmersion . . .
3.3.4. Modelos de Markov . . . . . . . . . . . . .
3.4. Regresion . . . . . . . . . . . . . . . . . . . . . . .
3.4.1. Regresion Lineal . . . . . . . . . . . . . . .
3.4.2. Regresion Lineal M
ultiple . . . . . . . . . .
3.4.3. Regresion No Lineal . . . . . . . . . . . . .
3.4.4. MeteoLab: Regresion . . . . . . . . . . . . .
3.5. Correlaci
on Can
onica . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
94
95
96
97
100
101
101
104
106
107
109
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
VII
3.5.1. Predicci
on con Correlacion Canonica . . . . . . . .
3.5.2. MeteoLab: Correlacion Canonica . . . . . . . . . .
3.5.3. Efectos de la Escala Temporal . . . . . . . . . . .
3.6. Aplicaci
on al Downscaling. MOS y Perfect Prog . . . . . .
3.6.1. Modelos Globales y Locales. Dependencia Espacial
3.7. Tecnicas Locales de An
alogos . . . . . . . . . . . . . . . .
3.7.1. Influencia del Perodo de Reanalisis Utilizado . . .
3.7.2. MeteoLab: Tecnicas Locales de Analogos . . . . . .
3.8. Comparaci
on de Tecnicas en el Corto Plazo . . . . . . . .
III
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 111
. 111
. 115
. 117
. 118
. 120
. 121
. 122
. 124
T
ecnicas de Aprendizaje Autom
atico
127
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5. Redes Neuronales
5.1. Introducci
on . . . . . . . . . . . . . . . . . . . . .
5.2. Estructura de una Red Neuronal . . . . . . . . .
5.3. Aprendizaje y Validaci
on . . . . . . . . . . . . .
5.4. Perceptrones (Redes de una Capa) . . . . . . . .
5.4.1. Algoritmo de Aprendizaje. La Regla Delta
5.4.2. Mejoras y Modificaciones . . . . . . . . .
5.5. Redes Multi-Capa . . . . . . . . . . . . . . . . .
5.5.1. El Algoritmo de Retro-propagacion . . . .
5.5.2. MeteoLab: El Sistema de Lorenz . . . . .
175
. 175
. 176
. 178
. 180
. 180
. 182
. 186
. 187
. 193
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
129
129
130
132
135
135
137
138
139
140
146
147
148
150
151
153
155
156
160
162
165
169
INDICE GENERAL
VIII
IV
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Ap
endices
6. Implementaci
on Operativa. El Sistema PROMETEO
6.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . .
6.2. Sistema Operativo en el INM . . . . . . . . . . . . . . .
6.2.1. Configuraci
on e Inicializacion del Sistema . . . .
6.2.2. Explotaci
on Operativa . . . . . . . . . . . . . . .
6.2.3. Acceso Web a las Predicciones . . . . . . . . . .
6.3. Casos de Estudio . . . . . . . . . . . . . . . . . . . . . .
6.4. Validaci
on. Retroalimentacion del Sistema . . . . . . . .
6.4.1. Validaci
on Operativa de Prometeo . . . . . . . .
. 194
. 195
. 196
. 198
. 201
. 206
. 209
. 215
223
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
225
. 225
. 226
. 227
. 229
. 230
. 231
. 235
. 236
7. Verificaci
on de Sistemas de Predicci
on Probabilstica
7.1. Introducci
on . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2. Tipos de Predicciones . . . . . . . . . . . . . . . . . . . .
7.2.1. Predicciones Deterministas . . . . . . . . . . . . .
7.2.2. Predicciones Probabilsticas . . . . . . . . . . . . .
7.3. Aspectos de la Calidad de una Prediccion . . . . . . . . .
7.4. Verificaci
on de Predicciones Deterministas . . . . . . . . .
7.4.1. Predicciones Binarias . . . . . . . . . . . . . . . .
7.5. Verificaci
on de Predicciones Probabilsticas . . . . . . . .
7.5.1. Brier Score . . . . . . . . . . . . . . . . . . . . . .
7.5.2. Brier Skill Score . . . . . . . . . . . . . . . . . . .
7.6. Predicciones Binarias Probabilsticas . . . . . . . . . . . .
7.6.1. Curvas ROC (Relative Operating Characteristics)
7.6.2. Valor Economico . . . . . . . . . . . . . . . . . . .
7.7. MeteoLab: Validaci
on . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
241
. 241
. 242
. 243
. 243
. 244
. 248
. 250
. 253
. 253
. 255
. 256
. 256
. 259
. 262
Bibliografa
265
Indice de Palabras
276
Prefacio
Durante las u
ltimas decadas se ha producido un crecimiento vertiginoso de
la capacidad de c
alculo y almacenamiento de los ordenadores, as como un abaratamiento de esta tecnologa. Estos hechos han desencadenado un crecimiento
vertiginoso de cantidad de informacion que se almacena diariamente en distintas bases de datos (simulaciones cientficas, observaciones, etc.), y ha hecho
mas facil y r
apido el acceso masivo a las mismas (por ejemplo, en tiempo real a
traves de Internet o de GRID; ver Foster and Kesselman (2003)). Estas bases
de datos contienen conocimiento u
til para numerosos problemas, y se requieren tecnicas especiales para explorarlas y analizarlas de forma eficiente. En el
ambito de la Meterologa se han utilizado las tecnicas estadsticas de forma
sistematica para abordar distintos problemas de modelizacion y prediccion a
partir de observaciones y/o de salidas de modelos numericos (ver, por ejemplo,
Ayuso, 1994). Sin embargo, el gran volumen de datos del que se dispone hoy
da hace que estas tecnicas resulten inapropiadas en numerosos problemas de
interes.
La necesidad de metodos eficientes y automaticos para explorar bases de
datos ha motivado un r
apido avance en
areas del ambito de la Estadstica y, mas
concretamente, de la Inteligencia Artificial. El objetivo es desarrollar metodos
de aprendizaje que operen de forma automatica a partir de un conjunto de
datos, preprocesando de forma r
apida y fiable la informacion para capturar
distintos patrones de conocimiento (reglas, grafos de dependencias, modelos
neuronales, etc.) que sean apropiados para resolver un problema; de esta forma
se compacta la informaci
on disponible, haciendola manejable. Se trata tambien
de que estas tecnicas operen de forma automatica, precisando de la mnima
intervenci
on humana. Durante los u
ltimos a
nos se ha producido un notable
desarrollo de este tipo de herramientas en distintas areas de conocimiento:
aprendizaje autom
atico (machine learning), computacion neuronal, estadstica,
computaci
on paralela, bases de datos, etc. En la decada de los noventa se
popularizo el termino Minera de Datos (Data Mining) para referirse a este area
interdisciplinar, y Aprendizaje Estadstico (Statistical Learning) para referirse a
los metodos estadsticos desarrollados con el objetivo de facilitar el aprendizaje
automatico.
Dos de las tecnicas m
as populares en este campo son las redes probabilsticas y las redes neuronales. Las redes probabilsticas son modelos apropiados
ix
INDICE GENERAL
para el tratamiento de problemas con incertidumbre, y utilizan tecnicas estadsticas modernas de inferencia y estimacion para ajustar los parametros a
los datos y obtener conclusiones en base a los modelos resultantes. Por otra parte, las redes neuronales son modelos de inspiracion biologica que aprenden
tratando de reproducir la realidad codificada en un conjunto de datos. Estas
tecnicas responden a dos lneas de investigacion distintas dentro del ambito del
aprendizaje autom
atico y de la minera de datos, proporcionando una vision
global de este campo.
Este libro se propone presentar una vision actual de estas herramientas y
mostrar su relaci
on con las tecnicas estadsticas estandar utilizadas en las ciencias atmosfericas. Para ello, se analizaran desde ambas perspectivas distintos
problemas de interes, como la prediccion local de fenomenos meteorologicos, la
mejora de resoluci
on de las salidas de los modelos numericos (downscaling), la
generacion de series climatologicas mediante simuladores estocasticos de tiempo (weather generators), el relleno de lagunas en los datos, la prediccion por
conjuntos, etc.
Este libro est
a organizado en tres partes. La primera parte es introductoria
y tiene un u
nico captulo (Cap. 1), que presenta una introduccion general a
la predicci
on numerica del tiempo, analizando los distintos tipos de modelos
utilizados hoy da en la prediccion operativa, incluyendo las tecnicas de prediccion por conjuntos. En este captulo tambien se describen los datos disponibles
relativos a observaciones y reanalisis de modelos numericos.
La segunda parte del libro est
a dedicada a los metodos estadsticos estandar
que han sido profusamente utilizados en las ciencias atmosfericas; esta parte
no trata de ser una gua completa del tema, pues existen excelentes textos para
ello (ver, por ejemplo von Storch and Zwiers, 1999), sino describir de forma
breve y pr
actica los metodos m
as habituales y los problemas donde se aplican.
Los Captulos 2 y 3 describen las tecnicas estadsticas estandar de exploracion
y analisis de datos, y de modelizaci
on y prediccion, respectivamente.
La tercera parte del libro se centra en las tecnicas de aprendizaje automatico, que generalizan algunas de las tecnicas estandar anteriores. Los Captulos 4
y 5 describen el fundamento te
orico y las aplicaciones practicas de dos tecnicas
recientes: redes probabilsticas y redes neuronales. Estas tecnicas ilustran los
nuevos conceptos y metodos de aprendizaje supervisado y no supervisado que
se vienen aplicando desde la decada de los ochenta para trabajar con problemas
complejos de forma eficiente y sencilla.
La u
ltima parte incluye dos apendices. En el primero de ellos (Cap. 6) se
describe una aplicaci
on operativa de prediccion basada en los metodos descritos
en el libro, y que est
a operativa en el INM. Por u
ltimo, en el Cap. 7, se analiza el
problema de la validaci
on de predicciones probabilsticas, donde se introducen
algunas medidas que son utilizadas a lo largo del libro.
Al final del libro se incluye una extensa bibliografa para consultas adicionales, as como un ndice para la b
usqueda de palabras clave en los temas tratados.
La pagina Web del grupo (grupos.unican.es/ai/meteo) ofrecera informacion
actualizada de los distintos temas tratados en el libro.
INDICE GENERAL
XI
Por u
ltimo, queremos agradecer la ayuda y comentarios de todos nuestros
compa
neros, especialmente de Cristina Primo y Bartolome Orfila, as como
el apoyo institucional del Instituto Nacional de Meteorologa (INM) y de la
Universidad de Cantabria (UC) para el desarrollo de este trabajo.
XII
INDICE GENERAL
El libro est
a especialmente dedicado a toda la gente que nos ha ense
nado
a aprender lo que sabemos y a valorar lo que tenemos, especialmente a los
Profesores Enrique Castillo Ron y Miguel Angel Rodrguez.
Jose M. Gutierrez
Rafael Cano
Antonio S. Cofi
no
Carmen M. Sordo
Santander, junio de 2004
A continuaci
on se describen algunos acronimos y terminologa utilizados en
los distintos captulos de este libro.
ARPS. Advanced Regional Prediction System, www.caps.ou.edu/ARPS.
BS. Brier Score; error cuadr
atico medio de la probabilidad predicha menos
la probabilidad observada (ver Cap. 7).
BSS. Brier Skill Score; ndice de pericia que se obtiene como 1BSP/BSR,
donde BSP es el BS de la prediccion y BSR es el BS de un sistema de
referencia, normalmente la climatologa. Ver Cap. 7.
COAMPS. US Navys Coupled Ocean/Atmosphere Mesoscale Prediction
System, www.nrlmry.navy.mil/projects/coamps.
CP. Componente principal. Ver Sec. 2.5.
DEMETER. Proyecto Europeo Development of a European Multimodel
Ensemble system for seasonal to inTERannual prediction.
Downscaling. Mejora de resoluci
on (o interpolacion) de una prediccion de
un modelo numerico efectuada en una rejilla.
ECMWF. Centro europeo para prediccion a plazo medio (European Center for Medium-Range Weather Forecast), www.ecmwf.org.
ENSO. Patr
on de oscilaci
on de El Ni
no-Pacfico Sur (El Ni
no-Southern
Oscillation). Ver Sec. 2.5.
EOF. Funci
on emprica ortogonal (Empirical Ortogonal Function). Termino sin
onimo utilizado para el analisis de Componentes Principales en la
comunidad de las ciencias atmosfericas. Ver Sec. 2.5.
xiii
INDICE GENERAL
XIV
ERA. Rean
alisis del ECMWF. Un reanalisis es un experimento de simulacion numerica de la circulacion atmosferica para un largo perodo de
tiempo con un mismo modelo numerico, asimilando toda la informacion
disponible. Ver Sec. 1.9.4.
EPS. Sistema de prediccion por conjuntos (Ensemble Prediction System).
Ver Sec. 1.6.1.
FPC. Funci
on de probabilidad conjunta p(x1 , . . . , xn ).
GCOS. Global Climate Observing System. www.wmo.ch/web/gcos.
GSN, GCOS Surface Network. Ver Sec. 1.9.
HIRLAM. Modelo de
area limitada de alta resolucion (High Resolution
Limited Area Model) hirlam.knmi.nl.
INM. Instituto Nacional de Meteorologa, www.inm.es.
LAN. Red de
area local (Local Area Network).
MM5. Penn State/NCAR Mesoscale Model, box.mmm.ucar.edu/mm5.
NAO. Oscilaci
on del Atl
antico Norte (North Atlantic Oscillation). Ver
Sec. 2.5.
NCEP. National Centers for Environmental Prediction:
www.ncep.noaa.gov.
NHC. National Hurricane Center, www.nhc.noaa.gov.
RMSE. Error cuadr
atico medio (Root Mean Square Error).
ROC, curva. Relative Operating Characteristic. Curva obtenida a partir
de los aciertos y las falsas alarmas de un sistema de prediccion binario.
Ver Cap. 7.
RSM. Modelo regional espectral del NCEP (Regional Spectral Model).
SLP. Presi
on a nivel del mar (Sea Level Pressure).
SOM. Redes auto-organizativas (Self-Organizing Maps) para agrupamiento y visualizaci
on de datos. Ver sec. 5.8.
SST. Temperatura de la superficie del agua del mar (Sea Surface Temperature).
UTC. Coordenadas universales de tiempo (Universal Time Coordinates).
WAN. Red de
area extendida (Wide Area Network), en contraposicion a
las LAN.
INDICE GENERAL
XV
Parte I
Introducci
on
CAPITULO 1
Modelos y Datos Atmosfericos
1.1. Introduccion
El esfuerzo investigador llevado a cabo en las tres u
ltimas decadas ha permitido un gran avance en el desarrollo de modelos de circulacion atmosferica que
incorporan las parametrizaciones de los fenomenos fsicos relevantes, adecuados
a las escalas espaciales a que dichos modelos se aplican. Por otra parte, la aplicacion operativa de estos modelos ha sido posible gracias a la disponibilidad de
mejores y m
as complejos sistemas de observacion (subsistema de observacion
terrestre: SYNOP, SHIP, TEMP, AIREP, DRIBU, etc. y subsistema espacial:
SATEM, SATOB, etc., disponibles varias veces al da). Estos datos observacionales pueden ser asimilados en los modelos gracias al desarrollo y uso sucesivo
de metodos de interpolaci
on
optima y metodos de asimilacion variacionales 3D
y 4D, puestos a punto con el fin de establecer con la menor incertidumbre posible las condiciones iniciales a partir de las cuales se integran los modelos de
prediccion.
Como resultado de este trabajo, se dispone en la actualidad de eficientes
modelos atmosfericos que se utilizan para la elaboracion de un amplio abanico
de predicciones con distintas resoluciones espaciales y distintos alcances temporales. Por una parte, los modelos de mayor resolucion y de area limitada
se utilizan principalmente para la prediccion a corto y medio plazo, mientras
que, en el otro extremo, los modelos acoplados oceano-atmosfera de circulacion
general se aplican para la prediccion de anomalas en la prediccion estacional
y para la preparaci
on de escenarios climaticos en funcion de diversos supuestos
de forzamiento radiativo (duplicaci
on del nivel de CO2 , etc.).
3
En este captulo se describen brevemente las caractersticas mas importantes de los modelos y procesos involucrados en la prediccion numerica del
tiempo. Las salidas de estos modelos se utilizan en el resto del libro como datos
de entrada, o predictores, en los distintos metodos propuestos. En la Seccion
1.2 se describen brevemente los principales procesos fsicos que intervienen en
la dinamica atmosferica. En la Sec. 1.3 se analizan algunos aspectos y limitaciones de la resoluci
on numerica de estas ecuaciones. Por ejemplo, la Sec.
1.3.1 analiza el problema de la asimilacion de datos, y la Sec. 1.3.2 describe
algunas de las parametrizaciones b
asicas que se suelen utilizar en los modelos
(y en la discretizaci
on del esquema numerico) para incluir los procesos fsicos
de menor escala que escapan a la resolucion de la discretizacion (turbulencia,
etc.). La Sec. 1.4 analiza los fen
omenos y escalas que influyen en la variabilidad atmosferica. En la Sec. 1.5 se describen las caractersticas (resolucion,
alcance, etc.) de los principales tipos de modelos utilizados en prediccion operativa. En la Sec. 1.6 se analiza el problema de la no linealidad y el caos, y la
Sec. 1.6.1 describe el esquema practico de la prediccion por conjuntos utilizado
para tener en cuenta este problema. La Sec. 1.7 describe el estado actual de
las predicciones operativas que se obtienen diariamente con todos los modelos
y tecnicas anteriormente descritos; por otra parte, en la Sec. 1.8 se comentan
brevemente las lneas de mayor interes en este campo de cara al futuro. Finalmente, la Secci
on 1.9 describe los datos observacionales (series climatologicas)
y atmosfericos (simulaciones de modelos) que se utilizan en este libro.
1.2. LAS ECUACIONES DE LA ATMOSFERA
(1.1)
(1.2)
(1.3)
1 d
+ v =0
= ( v),
(1.4)
dt
t
ya que u/x = x1 dx/dt.
La ecuaci
on de conservaci
on de vapor de agua determina que la variacion
total de vapor de agua en una parcela de aire se debe exclusivamente a
procesos internos de evaporaci
on E (fuente) y/o condensacion C (sumidero):
dq
=EC
(1.5)
dt
donde q es la proporci
on en masa de vapor de agua en la parcela de aire
(g/kg). Si esta ecuaci
on se multiplica por , se expande seg
un (1.1), y
se suma a la ecuaci
on de conservacion de masa (1.4) multiplicada por q,
queda
q
= ( v q) + (E C).
(1.6)
t
De la misma forma que se ha incluido una ecuacion de conservacion para
el vapor de agua, se podra incluir cualquier otra ecuacion de conservacion
para otros elementos como agua lquida, ozono, etc., mientras tambien se
incluyan sus correspondientes fuentes y sumideros.
La ecuaci
on de estado de los gases ideales aplicada a la atmosfera impone
la siguiente relaci
on entre las variables de estado termodinamicas:
p = R T,
(1.7)
1. MODELOS Y DATOS ATMOSFERICOS
donde p es la presi
on (mb
o Hpa), T la temperatura (o C o K), R es
la constante de los gases ideales, y es el volumen especfico (m3 /kg),
inverso de la densidad (kg/m3 ).
Conservaci
on de energa: El foco principal de calor para la atmosfera es
la superficie terrestre (calentada por el Sol), entendiendo como tal tierra
y oceano. Este calor absorbido por la atmosfera se emplea en variar su
temperatura, su densidad o ambas cosas a la vez; es decir, si se aplica
una tasa de calor Q por unidad de masa a una parcela de aire (cal/s g),
esta energa es empleada en aumentar la energa interna Cv T y producir
un trabajo de expansi
on
d
dT
+p ,
(1.8)
dt
dt
donde los coeficientes de calor especfico a volumen constante (Cv ) y a
presi
on constante (Cp ) se relacionan mediante Cp = Cv + R. Haciendo
uso de la ecuaci
on de estado se puede obtener una forma alternativa de
la ecuaci
on de conservacion de energa:
Q = Cv
Q = Cp
dT
dp
.
dt
dt
(1.9)
Conservaci
on del Momento:
dv
= p + F 2 v;
dt
(1.10)
La aceleraci
on sobre la unidad de masa es debida a cuatro fuerzas: gradiente de presi
on (p), gravedad aparente (), rozamiento (F ) y
Coriolis (2 v).
Por tanto, resumiendo lo anterior, se tienen siete ecuaciones y siete incognitas: v = (u, v, w), T , p, = 1/ y q:
dv
dt
t
p
= p + F 2 v
(1.11)
= ( v)
(1.12)
= RT
dT
dp
Q = Cp
dt
dt
q
= ( v q) + (E C)
t
(1.13)
(1.14)
(1.15)
1.2. LAS ECUACIONES DE LA ATMOSFERA
de la predicci
on numerica del tiempo es obtener el estado de la circulacion atmosferica en un tiempo futuro a partir de la condicion inicial actual. Para ello
es necesario disponer de un modelo numerico capaz de integrar las ecuaciones
y que incluya los intercambios energeticos (en la capa lmite) mas importantes
(radiacion, turbulencia, calor latente, etc.). Dada la no linealidad y complejidad
de las ecuaciones primitivas, en la practica se suele recurrir a distintas aproximaciones que simplifican la resoluci
on numerica y eliminan inestabilidades
numericas.
1. MODELOS Y DATOS ATMOSFERICOS
NUMERICA
1.3. RESOLUCION
DE LAS ECUACIONES
numerico simula su evolucion, para obtener una prediccion en un estado futuro. Esta condici
on inicial se establece a partir de la interpolacion sobre los
puntos de rejilla del modelo de las observaciones disponibles; este proceso de
obtencion de la condici
on inicial a partir de las observaciones se denomina asimilaci
on. El principal problema de este proceso es que la cantidad de datos
disponibles no es suficiente para inicializar el modelo en todos sus grados de
libertad (por ejemplo, un modelo con una resolucion tpica de 1o de resolucion
horizontal y 20 niveles verticales podra tener 180 360 20 = 1.3 106 puntos
de rejilla, en cada uno de los cuales est
an definidas 7 variables, con lo que ten7
dramos aproximadamente 10 grados de libertad). Para una ventana temporal
de 3 horas, existen normalmente entre 104 y 105 observaciones de la atmosfera, dos ordenes de magnitud menor que el n
umero de grados de libertad del
modelo. Mas a
un, la distribuci
on espacial y temporal de las observaciones no
es uniforme, existiendo regiones en Eurasia y Norteamerica con muchos datos,
y regiones en el Hemisferio Sur con pocos datos. Por tanto, se hace necesario
usar informaci
on adicional (llamado fondo, first-guess o informacion a priori)
para preparar las condiciones iniciales de la prediccion. Inicialmente se usaba
la climatologa como first-guess, pero al mejorar la pericia de las predicciones, se utiliza una prediccion a corto plazo como first-guess en los sistemas de
asimilacion de datos operacionales (ciclos de analisis).
Para los modelos globales, el first-guess es la prediccion del modelo a las
6 horas, xp (un array 4-dimensional) que es interpolada a los puntos de observacion mediante un operador H(xp ) y convertida al mismo tipo que las
variables observadas y 0 . Las diferencias entre las observaciones y el first-guess
y 0 H(xp ) son los incrementos observacionales o mejoras, y el analisis x0 se
obtiene a
nadiendo las mejoras al first-guess del modelo con unos pesos W que
son determinados en base a las covarianzas de los errores estadsticos de la
prediccion y observaci
on:
x0 = xp + W [y 0 H(xp )]
(1.16)
10
de la atmosfera. La funci
on del modelo es transportar informacion de zonas con
muchos datos, a zonas con pocos datos y ofrecer una estimacion del estado de
la atmosfera.
Los errores que se cometen en el proceso de asimilacion imponen una incertidumbre en el plazo de prediccion, dada por la no linealidad de la atmosfera
(y, por tanto, de los modelos que aproximan su dinamica). Este problema se
vuelve importante en el plazo medio y en la prediccion estacional y obliga a
formular la predicci
on en terminos probabilsticos. La prediccion por conjuntos (ensemble forecast), que se analiza en una seccion posterior, es una tecnica
practica para mejorar la prediccion teniendo en cuenta esta incertidumbre.
(1.17)
donde q es la proporci
on de vapor de agua y masa de aire seco, x e y coordenadas horizontales, p es la presion, t el tiempo, u y v son las componentes
de la velocidad horizontal del aire (viento), w = dp
dt es la velocidad vertical
en coordenadas de presi
on, y el producto de las variables prima representa el
transporte turbulento de humedad desde las escalas no resueltas por la rejilla
1.4. VARIABILIDAD ATMOSFERICA
11
usada en la discretizaci
on; con la barra horizontal (q) se representan promedios
espaciales sobre la rejilla del modelo. A la parte izquierda de (1.17) se la denomina din
amica del modelo, y se calcula explcitamente. La parte derecha de
(1.17) se denomina fsica del modelo. La ecuacion de la humedad incluye los
efectos de los procesos fsicos tales como evaporacion (E) y condensacion (C),
y transferencias turbulentas de humedad que tienen lugar a escalas peque
nas
que no pueden ser resueltas explcitamente por la dinamica.
Escala
Duracin
Fenmenos Atmosfricos
Macro-a
15.000 km
1 mes
Macro-b
5.000 km
1 semana
Depresiones y anticiclones.
Macro-g
500 km
2 das
Frentes, huracanes.
Meso-b
100 km
6 horas
Meso-g
5 km
1 hora
Meso-d
500 m
30 mn.
Micro-b
50 m
5 mn.
Micro-g
2m
1 seg.
12
1.4. VARIABILIDAD ATMOSFERICA
13
-2
-4
1900 1905 1910 1915 1920 1925 1930 1935 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000
Figura 1.2: Indice de Oscilacion del Sur (SOI) durante el siglo XX. El ndice de un
mes se define como (T D)/S, donde T y D son las anomalas mensuales en Tait y
Darwin, respectivamente y S es la varianza de T D para el mes dado.
Figura 1.3: Precipitacion en el Pacfico durante el episodio fuerte de El Nino (EneroMarzo de 1998). La figura izquierda muestra la precipitaci
on total y la figura derecha
la desviaci
on en tanto por uno respecto del valor medio (FUENTE: NCEP).
1. MODELOS Y DATOS ATMOSFERICOS
14
cias m
as graves del fen
omeno de El Ni
no, estan un fuerte incremento de
las lluvias producidas sobre el sur de los EEUU y en Per
u, lo que provoca destructivas inundaciones, as como sequas en el Pacfico Oeste, a
veces asociadas a grandes incendios en Australia. Por ejemplo, la Fig. 1.3
muestra los efectos de El Ni
no 1998 sobre la precipitacion en el Pacfico.
En la Tabla 1.1 se muestran algunos de los patrones de oscilacion mas
importantes. Adem
as, se han descubierto distintas teleconexiones entre estos
patrones y la variabilidad fenomenol
ogica observada en regiones del globo distantes y que parecen estar interrelacionadas de forma compleja (ver, por ejemplo, Mo and Livezey, 1986). Por ejemplo, existen evidencias de que el ciclo
ENSO, adem
as de estar implicado de forma directa con las precipitaciones en
Sudamerica y sequas en Australia, esta relacionado con episodios de lluvias
monzonicas en Asia (Hendon, 2001); esto supone la existencia de una teleconexion entre ambos fen
omenos.
Indice
EA
EAJET
WP
EP
NP
P NA
EA/W R
SCA
T NH
P OL
PT
SZ
ASU
Descripci
on
Patr
on del Atl
antico Este
Patr
on del chorro del Atl
antico Este
Patr
on del Pacfico Oeste
Patr
on del Pacfico Este
Patr
on del Pacfico Norte
Patr
on Pacfico-NorteAmerica
Patr
on del Atl
antico Este-Rusia Oeste
Patr
on Escandinavia
Patr
on Tropical del Hemisferio Norte
Patr
on Polar-Eurasia
Patr
on de Transici
on del Pacfico
Patr
on Subtropical zonal
Patr
on de Verano de Asia
Tabla 1.1: Algunos de los patrones atmosfericos mas importantes (para mas detalle
ver www.cpc.ncep.noaa.gov/products).
1.5. TIPOS DE MODELOS NUMERICOS
DEL TIEMPO
15
0.3
0.5
3
5
10
10
15
Nivel
Presion (mb)
20
50
100
25
200
300
30
500
1000
35
40
45
50
60
Figura 1.4: Rejilla global de 2.5o de resolucion horizontal utilizada por modelos de
circulaci
on general sobre todo el globo; el tama
no de la rejilla es 144 73 = 10512
puntos. (derecha) Dos perfiles verticales con 31 y 60 niveles de altura geopotencial
(expresados en milibares mb, y en n
umeros de nivel del modelo, respectivamente). La
altura m
axima mostrada (0.1 mb) es de aproximadamente 64 km.
1. MODELOS Y DATOS ATMOSFERICOS
16
70
60
60
50
50
40
40
30
30
20
10
10
20
30
30
30
0
20
1000
10
2000
10
20
3000
4000
5000
30
m
1.5. TIPOS DE MODELOS NUMERICOS
DEL TIEMPO
17
necesitan ser lo m
as precisas posibles y por ello se toman interpolando la salida
de un modelo global. Normalmente las condiciones de contorno se actualizan
durante el transcurso de la prediccion para imponer sobre el modelo regional
la dinamica sin
optica simulada por el modelo global.
En algunos casos, se define un anidamiento de rejillas de tama
no decreciente y resoluci
on creciente y las integraciones se realizan de forma anidada
aprovechando las salidas de una rejilla como condiciones de contorno de la siguiente. Por ejemplo, el NCEP anida un modelo de baja resolucion (ET A-12)
con distintas rejillas de alta resoluci
on (8 km) sobre zonas de interes (ver Fig.
1.6).
Figura 1.6: Rejillas anidadas con el modelo ETA-12 (lnea solida): Western U.S.,
Central U.S., Alaska, Hawaii, Puerto Rico. (FUENTE: NCEP/NOAA).
18
y su calibraci
on para la zona geografica de interes es determinante para el
buen funcionamiento del modelo. As se han desarrollado varios modelos nohidrostaticos que se utilizan rutinariamente para la prediccion de fenomenos
de mesoscala. Los m
as usados son ARPS (Advanced Regional Prediction System), MM5 (Penn State/NCAR Mesoscale Model, Version 5), RSM (NCEP
Regional Spectral Model) y COAMPS (US Navys Coupled Ocean/Atmosphere
Mesoscale Prediction System).
En la Fig. 1.7 se muestra la orografa de la Pennsula Iberica con una resolucion de 0.2o (aprox. 20 km) y la orografa de la Cornisa Cantabrica con una
resolucion de 0.0083o (aprox. 1 km). Esta u
ltima resolucion es la que permite
caracterizar de forma apropiada la orografa de esta zona.
1.6. NO LINEALIDAD Y CAOS EN LA ATMOSFERA
19
x = (y x)
y = r x y x z
(1.18)
z = x y b z
1. MODELOS Y DATOS ATMOSFERICOS
20
de los parametros = 10, b = 8/3, y r = 28, el sistema presenta una dinamica caotica. Partiendo de la condici
on inicial (x(0), y(0), z(0)) = (10, 5, 35) y
utilizando un metodo de integraci
on de Runge-Kutta de cuarto orden y paso de
integracion t = 102 se obtiene la evolucion del sistema en el espacio de fases
que se encuentra dibujado en la Fig. 1.8(a). Por otra parte, las Fig. 1.8(b)-(d)
muestran la evoluci
on en el tiempo de las tres variables.
15
x(t)
(a)
(b)
-15
z(t)
20
y(t)
(c)
-20
40
y(
t)
x(t)
(d)
z(t)
10
0
10
20
Figura 1.8: (a) Atractor del sistema de Lorenz. (b)-(d) Orbitas descritas por cada
una de las tres variables del sistema.
x l = (yl xl )
y l = xl yl xl zl + D (yl+1 + yl1 2yl ), l = 1, . . . , L.
zl = xl yl bzl
1.6. NO LINEALIDAD Y CAOS EN LA ATMOSFERA
21
22
1.6. NO LINEALIDAD Y CAOS EN LA ATMOSFERA
23
24
OPERATIVA
1.7. ESTADO ACTUAL DE LA PREDICCION
25
Figura 1.10: (superior) Orografa de los modelos HIRLAM de 0.5o y 0.2o utilizados
por el INM en la predicci
on operativa. (inferior) Salida de precipitaci
on para un
alcance de 24 horas (D+1) del modelo con una resoluci
on de 0.5o (FUENTE: Instituto
Nacional de Meteorologa).
(a)
(b)
(c)
Figura 1.11: Campos de precipitacion previstos para D+1 por (a) el modelo AVN
del NCEP; y el modelo MM5 utilizado por Meteo Galicia con (b) 30 y (c) 10 km de
resuluci
on. (FUENTE: P
agina web de Meteo Galicia).
26
De forma an
aloga, en EEUU el NCEP (National Centers for Environmental
Prediction, www.ncep.noaa.gov) realiza una prediccion global que distribuye
libremente a traves de Internet, y que es luego utilizada por distintos centros
regionales en diversas aplicaciones. Por ejemplo la Fig. 1.11 muestra el campo
de precipitaci
on estimado por el modelo del NCEP y los campos estimados por
el modelo regional MM5 utilizado en Meteo Galicia meteo.usc.es con 30 y 10
km de resoluci
on.
En Espa
na, son numerosos los grupos de investigacion que llevan a cabo
integraciones a corto plazo sobre regiones concretas de nuestra geografa. Por
ejemplo la red Iberica MM5 redibericamm5.uib.es aglutina a los grupos de
investigaci
on que utilizan en modelo MM5 para distintos estudios de modelizacion y predicci
on.
OPERATIVA
1.7. ESTADO ACTUAL DE LA PREDICCION
27
Figura 1.12: Nueve primeros miembros de la prediccion por conjuntos del ECMWF
previstos el da 29/12/2003 con un alcance de 72 horas. Se muestra la presi
on a nivel
del mar. (FUENTE: ECMWF).
Figura 1.13: Prediccion probabilstica del evento precip. > 10 mm obtenida con los
50 miembros del EPS (FUENTE: ECMWF).
28
Por otra parte, el NCEP tambien produce de forma operativa predicciones por conjuntos a medio plazo (hasta 15 das) utilizando el Global Forecast
System model (GFS) (ver www.nco.ncep.noaa.gov/pmb/products/).
Paralelamente al crecimiento de los recursos computacionales, especialmente la capacidad de c
omputo, la resoluci
on de los modelos se va incrementando,
permitiendo mejorar la resoluci
on de las costosas simulaciones por conjuntos
de alcance medio. Por ejemplo, la resolucion del modelo actual del ECMWF es
cuatro veces superior a la del modelo anterior puesto en marcha en Diciembre
de 1992, y se ha constatado que este aumento de resolucion ha mejorado sustancialmente la predicci
on probabilstica de la precipitacion (ver Buizza et al.,
2001, para m
as detalles). Por tanto, es previsible que en el futuro cercano la
prediccion a corto plazo y la prediccion por conjuntos a plazo medio se fundan en una sola predicci
on, extendiendo la aplicabilidad de la prediccion por
conjuntos (de hecho, se est
an dando ya las primeras experiencias de extender la predicci
on por conjuntos al corto plazo, buscando tecnicas perturbativas
apropiadas).
OPERATIVA
1.7. ESTADO ACTUAL DE LA PREDICCION
29
(a)
(b)
Figura 1.14: Prediccion por conjuntos del fenomeno de El Nino con un conjunto
de 51 miembros. (a) La predicci
on realizada en abril muestra una anomala positiva
hasta octubre; (b) los miembros de la predicci
on realizada en julio no coinciden en
una misma predicci
on. La figura inferior muestra la probabilidad (en tanto por ciento)
predicha el 1 de agosto de que la temperatura a 2m se encuentre en el tercil superior
(anomala positiva) en el perodo SON 2003. (FUENTE: ECWMF)
30
31
32
33
1. MODELOS Y DATOS ATMOSFERICOS
34
(a)
45 N
(b)
NORTE
EBRO
DUERO
40 N
CATALU
A
TAJO
J C A R
GUADIANA
SEGURA
GUADALQUIVIR
SUR
35 N
10 W
5 W
5 E
(c)
(d)
Figura 1.17: (a) Orografa de Espana peninsular y Baleares y sus (b) cuencas hidrogr
aficas principales. (c) Red principal de estaciones del INM, (d) red secundaria
(pluviometrica y termopluviometrica).
4. En la red principal existen otras muchas variables que se podran incluir entre las observaciones. Algunas de ellas son: Intensidad m
axima y duracion de precipitaci
on, recorrido del viento, cantidad y tipo
de nubosidad, humedad media, y visibilidad.
35
>>
>>
>>
>>
Example1.Network={GSN};
Example1.Stations={Europe.stn};
Example1.Variable={Precip};
[data,Example1]=loadStations(Example1,ascfile,1);
1. MODELOS Y DATOS ATMOSFERICOS
36
Una vez definida la estructura del ejemplo, la funcion loadStations permite cargar los datos indicados. Como salida se obtiene la matriz de datos data,
que tiene tantas columnas como n
umero de estaciones, y tantas filas como das
disponibles en la base de datos (rellenando con NaN los das para los que no
hay observaci
on); y la estructura completada Example1 en la que se incluyen
varios campos nuevos:
>> Example1
Example1 =
Network:
Stations:
Variable:
Info:
StartDate:
EndDate:
StepDate:
{GSN}
{Europe.stn}
{Precip}
[1x1 struct]
01-Jan-1879
31-Dec-2001
24:00
El campo Info es una estructura que contiene las caractersticas relativas a cada
una de las estaciones (identificativo, nombre, longitud y latitud, fecha de inicio
de los datos, fecha de fin, n
umero de datos, lagunas). Por ejemplo, podemos
consultar el nombre de la primera estacion Example1.Info.Name(1,:), etc.
Tambien es posible dibujar la localizaci
on de las estaciones cargadas utilizando
el comando drawStations:
>> drawAreaStations(Example1)
37
>> drawObservations(data,Example1)
El comando loadStations tiene un parametro opcional, dates, que permite indicar el rango de fechas en que se desean cargar los datos; en caso de
ser omitido se cargan las observaciones de todas las fechas extremas registradas (como en el ejemplo anterior). El siguiente ejemplo muestra la forma de
especificar un rango de fechas y cargar los datos solo en ese perodo. De esa
forma, los parametros StartDate y EndDate de la estructura definida en el
ejemplo (Example1 en este caso) abarcaran el perodo considerado para todas
las estaciones:
>> date={1-Jan-2000,31-Dec-2000};
>> [data,Example1]=loadStations(Example1,dates,date,ascfile,1);
>> [Example1.StartDate; Example1.EndDate]
ans =
01-Jan-2000
31-Dec-2000
1. MODELOS Y DATOS ATMOSFERICOS
38
>>
>>
>>
>>
>>
>>
Example2.Network={INM};
Example2.Stations={completas.stn};
Example2.Variable={Vx};
[data,Example2]=loadStations(Example2,zipfile,1);
drawAreaStations(Example2);
drawObservations(data,Example2);
39
Figura 1.21: Datos de precipitacion en las estaciones de la red secundaria del INM
de la Cuenca Norte.
40
(1.19)
41
(1.21)
(a)
70
60
50
40
30
20
-60
-40
60 N
-20
0
60 N
(b)
(c)
50 N
50 N
40 N
40 N
30N
30N
20 W
20
10 W
10E
20 E
20 W
10 W
10E
20 E
Figura 1.22: Distintas areas que cubren la pennsula Iberica: (a) Rejilla de larga
escala (macro-) de 2.5 2.5 de latitud y longitud correspondiente al Atl
antico
Norte; (b) rejilla peninsular (meso-) 1 1 de latitud y longitud; (c) rejilla meso-
1 1 para la cuenca Norte de la Pensnsula Iberica (cada una de las doce cuencas
tiene su propia rejilla).
42
lon=-60:2.5:15
lat=25:2.5:70
nod=1:589
lvl=0
tim=12
par=151
src=$METEOLAB_HOME/../NWPData/ERA40/SurfaceGlobe25_SST_SLP/
startDate=01-Sep-1957
endDate=31-Aug-2002
lon y lat son las coordenadas del dominio de trabajo (en este caso el Atlantico
Norte), a partir del cual se entresaca un subdominio determinado en el parametro nod (numerados de izquierda a derecha y de arriba abajo). La segunda parte
del fichero define los datos a considerar: lvl son los niveles de presion (definidos
en mb), tim las horas de analisis y par las variables (los codigos del ECMWF
para las distintas variables se pueden consultar en www.ecmwf.int), 151 corresponde a la presi
on a nivel del mar. A continuacion se indican las fechas de inicio
y fin de los datos que se utilizan (la de este ejemplo se corresponden con las
fechas de ERA40). Por u
ltimo, se indica la ruta donde se hallan los datos, en
formato GRIB (se puede utilizar la variable de entorno $METEOLAB HOME, que
se asigna al directorio de MeteoLab al iniciar la sesion con init).
La funci
on readDomain lee la estructura del dominio definida en el fichero domain.cfg de la zona definida (las zonas disponibles estan definidas en
el fichero MeteoLab/Patterns/Zones.txt). Por ejemplo, una vez cargada se
puede dibujar el dominio definido:
>> dmn=readDomain(Nao);
>> drawAreaPattern(dmn);
Dado el gran volumen de informacion necesario para definir los patrones atmosfericos, MeteoLab trabaja con componentes principales para comprimir los
patrones; las componentes del patron anterior han sido previamente generadas
y se proporcionan con MeteoLab (ver Sec. 2.5). As, se puede cargar un campo
definido para un nivel de presion, una hora y un da determinados a partir de
un n
umero especificado de componentes principales (ver Fig. 1.23, derecha):
>> dates={01-Aug-1992,01-Aug-1992};
>> [field,info]=getFieldfromEOF(dmn,ncp,50,...
>>
var,151,time,12,level,0,dates,dates);
>> drawGrid(field(1:end,:),dmn)
43
Figura 1.23: (izquierda) Nodos de grid correspondientes a la zona del Atlantico Norte;
(derecha) datos reconstruidos de geopotencial en 1000mb a las 0Z para el da 1 de
Agosto de 1992.
>> dmn=readDomain(IberiaPrecip);
>> ctl.fil=IberiaPrecip.ctl;
>> ctl.cam=dmn.src;
1. MODELOS Y DATOS ATMOSFERICOS
44
>>
>>
>>
>>
>>
>>
>>
date=datevec(datenum(01-Jan-1999):datenum(31-Dec-1999));
[patterns,fcDate]=getFRCfromGRIB(ctl,dmn,date,00,00);
%Adding large scale and convective precip and drawing the fields
precip=1000*(patterns(:,findVarPosition(142,30,0,dmn))+...
patterns(:,findVarPosition(143,30,0,dmn)));
precip=sum(precip,1); %Accumulated precipitation
drawGrid(precip,dmn);
Por u
ltimo, MeteoLab permite trabajar con dominios irregulares. Por ejemplo, la figura siguiente muestra el dominio y un campo asociados a la cuenca
norte de la pennsula Iberica (ver PatternsData/Iberia/NortherBasin).
Figura 1.25: (izquierda) Nodos de grid correspondientes a la zona cuencaNorte; (derecha) datos reconstruidos de geopotencial en 1000mb a las 0Z para la cuenca Norte
el da 1 de Enero de 1990.
Junto con los re-analisis de modelos numericos que cubren perodos continuos de tiempo, tambien se han elaborado bases de datos de observaciones sin
lagunas y homogeneizadas sobre rejillas. Por ejemplo Chen et al. (2002) describe la elaboraci
on de una base de datos con medias mensuales de precipitaci
on
en superficie para una rejilla de 2.5o de resolucion sobre el globo.
Parte II
T
ecnicas Estadsticas
Est
andar
45
CAPITULO 2
Tecnicas Estadsticas. Analisis y Exploracion de
Datos
2.1. Introduccion
En este captulo se describen brevemente algunas herramientas estadsticas
basicas para la exploraci
on y el analisis de datos meteorologicos y climatologicos. Estas tecnicas han sido utilizadas profusamente para explorar, comprender
y simplificar los datos disponibles en un problema dado, analizando las relaciones de dependencia entre variables y eliminando la redundancia. En el captulo
siguiente se analizan tecnicas estadsticas de modelizacion y prediccion que operan sobre estos datos simplificados, permitiendo obtener modelos que expliquen
las relaciones observadas en los datos. Otras tecnicas estadsticas no lineales
mas avanzadas ser
an descritas a lo largo del libro. Para una informacion m
as
detallada de la aplicaci
on de tecnicas estadsticas en este ambito se remite al
lector a Ayuso (1994), Wilks (1995) y von Storch and Zwiers (1999).
Este captulo comienza con una breve introduccion a la probabilidad y las
variables aleatorias, ilustrada con m
ultiples ejemplos (Sec. 2.2). A continuacion,
la Sec. 2.3 muestra la aplicaci
on practica de estos conceptos para la simulacion
de series climatol
ogicas (weather generators), manteniendo las principales caractersticas estadsticas de la serie original. La Sec. 2.4 analiza el concepto
de dependencia entre variables desde un punto de vista lineal y no lineal. La
Sec. 2.5 describe el metodo de componentes principales (y las correspondientes
funciones ortogonales empricas), utilizadas para eliminar la dependencia y redundancia en los datos, representando estos en un espacio de dimension inferior
donde las variables (o componentes) son independientes. La Sec. 2.6 describe
distintas tecnicas de agrupamiento.
47
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
48
NE
SE
SW
NW
Total
Anual
S
Ll
1014 516
64
57
225
661
288
825
1591 2059
Invierno
S
Ll
190 99
24
18
98 223
49 150
361 490
Primavera
S
Ll
287 166
6
4
18
119
95
277
406 566
Verano
S
Ll
360 162
1
9
15
71
108 251
484 493
Oto
no
S
Ll
177 89
33
26
94 248
36 147
340 510
Tabla 2.1: Datos de precipitacion: lluvia (Ll) o seco (S), estacion del ano, y direccion
del viento (NE, SE, SW, y NW) registrados en Santander (aeropuerto de Parayas)
entre 1979 y 1989 (N = 3650).
49
En este ejemplo se usan variables categoricas que toman como valor una
determinada categora (por ejemplo, primavera, verano, oto
no o invierno) pero,
en la practica, los sucesos de mayor interes suelen estar asociados a alguna
variable numerica relacionada con el experimento (por ejemplo la cantidad de
precipitaci
on, P recip). El concepto de variable aleatoria permite tratar estas
situaciones asignando un n
umero real a cada suceso del espacio muestral (por
ejemplo, la cantidad de precipitaci
on, en mm). Cuando el rango de la variable
aleatoria es un n
umero finito o contable de elementos, esta se denomina discreta
y, en caso contrario se denomina continua.
Dependiendo del tipo de problema, algunas variables pueden considerarse
tanto discretas, como continuas. Por ejemplo, la precipitacion puede considerarse como variable discreta, con estados {0,1} (correspondiente a la ausencia o
presencia del evento de precipitaci
on), pero tambien puede considerarse como
variable continua; en este caso el rango sera el intervalo [0, ) (correspondiente
a la cantidad de precipitaci
on).
Las siguientes funciones permiten caracterizar la probabilidad de que una
variable tome distintos valores (o intervalos de valores) en su rango.
f (x)dx.
(2.2)
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
50
Para
total sea la unidad, estas funciones han de cumplir:
R
P que la probabilidad
p(x)
=
1,
f
(x)
=
1.
x
x
Ejemplo 2.2 (Car
acter dual de la precipitaci
on). Si se consideran los
datos de ausencia o presencia de precipitaci
on se tendr
a una variable binaria
cuya funci
on de probabilidad podr
a obtenerse a partir de las frecuencias de los
distintos estados de la variable, seg
un lo visto en (2.1). Las Figuras 2.1(a) y
(b) muestran la funci
on de probabilidad de esta variable para las localidades
de Almera y Santander, respectivamente, obtenidas a partir de series de valores como las mostradas en la Tabla 2.1. Por otra parte, tambien es frecuente
discretizar la cantidad de precipitaci
on considerando distintos umbrales para la
misma; una discretizaci
on bastante habitual se establece en base a los umbrales: 0, 2 , 10, y 30 mm. Las Figuras 2.1(c) y (d) muestran las correspondientes
funciones de probabilidad para las estaciones anteriores.
(a) Almera
fr(x)
(c) Almera
fr(x)
6832
6000
6832
6000
4000
4000
2000
2000
1020
596
0
(-Inf,0]
3935
3917
319
88
19
(2,10] (10,30] (30,94]
x
(d) Santander
(b) Santander
fr(x)
(0,2]
fr(x)
3000
3000
2000
2000
1000
1000
3917
3917
1735
1407
674
119
(-Inf,0]
(0,2]
Figura 2.1: Variable binaria ocurrencia de precipitacion en (a) Almera y (b) Santander. Variables discretas resultantes de una discretizaci
on por umbrales de la cantidad de precipitaci
on en (c) Almera y (d) Santander. f r(x) denota la frecuencia
absoluta.
51
fexp (x; ) =
fgam (x; a, b) =
1
ba (a)
(2.3)
xa1 ex/b .
(2.4)
El par
ametro es la media de los datos de precipitaci
on (6.38 en el caso de
Santander y 4.12 en Almera) y a y b son los par
ametros de forma y escala de
la distribuci
on gamma, respectivamente ( = ba, 2 = b2 a); observese que para
a = 1 la funci
on Gamma se reduce a una exponencial. La Fig. 2.2 muestra los
histogramas empricos de la cantidad de precipitaci
on en Almera y Santander,
as como las funciones de densidad exponenciales ajustadas a estos datos. En
esta figura puede verse que estas funciones subestiman la cola de la funci
on. Por
otra parte, la Fig. 2.3 muestra las densidades exponencial y gamma ajustadas
con los datos de precipitaci
on en Santander.
0.25
0.2
(a) Almera
f(x)
(b) Santander
f(x)
0.2
0.15
0.15
0.1
0.1
0.05
0.05
0
0
0
10
20
40
50
40
50
x 30
x 30
Figura 2.2: Funciones de densidad exponencial y probabilidades empricas obtenidas
a partir de los datos de (a) Almera y (b) Santander.
10
20
0.2
Exponencial
Gamma (2 parmetros)
f(Precip)
0.15
0.1
0.05
10
20
30
Precip
40
50
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
52
xa
para variables discretas y continuas, respectivamente. Por tanto, F (x) es monotona creciente, F () = 0, F () = 1 y P (a < X b) = F (b) F (a).
Por ejemplo, integrando la funci
on de densidad exponencial (2.3) se obtiene
su funcion de distribuci
on analticamente:
F (x) = 1 e
(2.5)
La Fig. 2.4 muestra distintas funciones de distribucion asociadas con las funciones de probabilidad y densidad anteriores.
F(x)
F(x)
1
0.8990
0.8
0.8
0.7198
0.6
0.6
0.4989
0.4
0.4
0.2
0.2
0
0
(a)
10
20
x 30
40
50
(b)
0
10
20
x 30
40
50
Estas funciones son las que nos permiten simular de forma simple y eficiente
muestras de valores de la variable, conservando las propiedades estadsticas
basicas de las mismas. Este tema se analizara en detalle en la Sec. 2.3 para su
aplicacion a los generadores estoc
asticos de tiempo.
an xn bn
53
Santander--Santiago
Santander--Bilbao
3000
4000
2000
2000
1000
0
0
1
1
2
Santander--Almeria
4000
2000
0
1
54
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
Por otra parte, si X e Y son dos conjuntos disjuntos del conjunto de variables
tales que p(y) > 0, entonces la probabilidad condicional, o funcion de probabilidad condicionada de X dado Y = y, viene dada por
p(x|Y = y) =
p(x, y)
.
p(y)
(2.8)
(2.10)
Esta formula es de gran interes para poder expresar una funcion de probabilidad como producto de funciones marginales y condicionadas que, en algunos
casos, utilizando ciertas condiciones de independencia que posea un modelo
dado, podr
an simplificarse dando lugar a modelos probabilsticos mas sencillos.
Esta idea se desarrolla en detalle en el Cap. 4.
Ejemplo 2.4 (Probabilidades condicionadas). A partir de la Tabla 2.1, se
puede f
acilmente calcular la probabilidad de lluvia (marginal), o la probabilidad
de lluvia una vez que se sabe que la racha de viento es del SW (condicionada):
P (Lluvia) = 2059/3650 = 0.564.
P (Lluvia|SW ) = P (Lluvia, SW )/P (SW ) = 661/886 = 0.746.
Las probabilidades anteriores indican que el conocimiento de la variable viento
aporta informaci
on para el conocimiento de la variable lluvia, ya que la probabilidad de esta aumenta (y disminuye) con direcciones concretas del viento.
Este concepto de dependencia entre variables se desarrolla en la Sec. 2.4.
55
El siguiente ejemplo de Matlab ilustra estos conceptos aplicados a un conjunto de datos de precipitaci
on del GSN descritos en la Sec. 1.9.2.
56
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
(2.11)
57
(2.12)
donde p = p10 para el caso de rachas secas y p = 1 p11 para rachas lluviosas.
Ejemplo 2.5 (Weather Generators. Ocurrencia de Precipitaci
on). Supongamos que se dispone de una serie de datos diarios de precipitaci
on de una
estaci
on (por ejemplo la estaci
on de Santander, en decimas de mm):
0, 0, 1, 2, 1, 1, 34, 0, 30, 25,320, 76, 3, 4, 0, 0, 1, 0, 14, 258, 41, 285,
0, 0, 1, 98, 52, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 21, 64,
44, 0, 0, 0, 50, 31,43, 36, 303,14, 1, 0, 0, 0, 185, 309, 477, 261, 111, 0,
6, 22, 1, 10, 99, 8, 15, 4, 18, 3, 2, 32, 0, 1, 1, 27, 47, 0, 1, 0, 70, 95, 0,
1, 72.
32, 0,
0, 12,
32, 3,
30, 1,
0,
0,
1,
1,
1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1,
0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1,
1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1,
0, 1, 0, 1, 1, 0, 1, 1, 1, 1.
58
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
pseudo-aleatorio a1 : P re1 = 0 si a1 < p0 = 0.38 y P re1 = 1 en caso contrario (supongamos que el primer n
umero aleatorio era 0.15 y que, por tanto
P re1 = 0). A continuaci
on se considera el siguiente n
umero pseudo-aleatorio
(sup
ongase que a2 = 0.486); como el da anterior fue seco y como a2 p11 , se
tiene un nuevo cero en la serie, y se contin
ua repitiendo el mismo proceso. El
siguiente c
odigo de Matlab muestra la forma de realizar este proceso:
Example.Network={MyStations};
Example.Stations={dailyPrecip.stn};
Example.Variable={common};
[data,Example]=loadStations(Example,ascfile,1);
data=data(:,1);
% Selecting the first stataion: Barcelona
Pre(find(data==0),1)=0;
Pre(find(data>0),1)=1;
c=zeros(2,2);
for k=2:size(Pre,1)
i=Pre(k-1)+1;
j=Pre(k)+1;
c(i,j)=c(i,j)+1;
end
p10=c(1,2)/(c(1,1)+c(1,2)); %P(1|0)=P(1,0)/P(0);
p11=c(2,2)/(c(2,1)+c(2,2)); %P(1|1)=P(1,1)/P(1);
p0=sum(Pre(:,1)==0)/size(Pre,1);
N=size(Pre,1); %Length of the simulated series
x=zeros(N,1); u=rand;
%Simulating the first day
if u<=p0, x(1,1)=1;
else x(1,1)=0;
end
%Simulating the rest of the serie
for i=2:N,
u=rand;
if (x(i-1)==0) & (u<=p10)
x(i,1)=1;
end
if (x(i-1)==1) & (u<=p11)
x(i,1)=1;
end
end
59
exp
+
exp
(2.13)
f (x) =
1
1
2
2
media = 1 + (1 )2 y varianza 2 = 21 + (1 )22 + (1 )(1 2 ).
Este distribuci
on proporciona mejores ajustes globales a los datos de precipitacion diaria pues una de las exponenciales se centra en el cero y la otra en los
valores extremos (ver Wilks, 1999a, para mas detalles).
Una vez elegida la distribuci
on m
as conveniente, es necesario simular un
valor para cada uno de los das donde el modelo de Markov ha generado una
ocurrencia de precipitaci
on. Este problema se reduce a obtener una muestra
aleatoria a partir de una distribuci
on de probabilidad concreta.
Simulacion de Variables Aleatorias
Los ordenadores proporcionan n
umeros pseudo-aleatorios distribuidos de
forma uniforme. Sin embargo, en la practica interesa obtener una muestra de
n
umeros aleatorios distribuidos seg
un una cierta funcion de densidad f (x) (por
ejemplo, exponencial, Gamma, doble exponencial, etc.). Para ello se utiliza la
funcion de distribuci
on correspondiente
F (x) = p(X x) =
Zx
f (x)dx.
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
60
u2
0.8
0.6
0.4
u1
0.2
0
0
0.5
x1
x2
1.5
Figura 2.6: Generando muestras de una poblacion con funcion de densidad h(x)
utilizando la funci
on de distribuci
on H(x).
0,
1,
1,
0,
1,
0,
1,
1,
1,
0,
1,
1,
0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0,
1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1,
0, 0, 1, 1, 1, 1, 1, 1, 1
Se estima el par
ametro de esta distribuci
on (la media ) a partir de las cantidades de precipitaci
on de los das en que ha llovido en la serie mostrada en el
Ejemplo 2.5 ( = 61.98). Dado que
x = F 1 (y) = Ln(1 y)
(2.15)
un muestra de 71 n
umeros aleatorios uniformes (y) determinar
a la muestra
de cantidades de precipitaci
on (x) requerida. Combinando este resultado con la
61
(2.16)
62
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
Figura 2.7: (arriba) Simulacion de una variable de precipitacion discreta (con cuatro
estados); (debajo) simulaci
on de la cantidad de precipitaci
on. Se muestran las series
original y simulada.
(2.17)
(2.19)
63
NE
SE
SW
NW
Total
Anual
S
Ll
1014 516
64
57
225
661
288
825
1591 2059
Llena
S
Ll
255 137
12
12
59 165
51 192
377 506
C. Menguante
S
Ll
208
106
16
16
65
166
77
231
366
519
C. Creciente
S
Ll
297
132
22
12
58
175
82
225
459
544
Nueva
S
Ll
254 141
14
17
43 155
78 177
389 490
Tabla 2.2: Datos de precipitacion (lluvia (Ll) o no lluvia (S)), fase lunar y direccion
del viento registrados en Santander (aeropuerto de Parayas) entre 1979 hasta 1989
(N = 3650).
64
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
r=
yi y
xy
1 X xi x
(
)(
)=
,
n 1 i=1 x
y
x y
xX
donde la base del logaritmo determina la unidad en la que se mide la informacion de los datos. Si dicha base es 10 se mide en Dits, si es 2 en Bits, etc.
A partir de la definici
on, considerando las propiedades de la probabilidad, se
puede deducir que H(x) 0, y sera nula solo cuando toda la probabilidad de
la variable se concentre en un u
nico valor. Otra medida muy importante es la
entropa relativa o entropa diferencial, tambien llamada distancia de KullbackLeibler, que mide la distancia entre dos posibles distribuciones de probabilidad,
p y q, de una misma variable aleatoria X, y se define como:
Dkl(p, q) =
xX
p(x)logb
p(x)
q(x)
(2.21)
65
que una variable contiene sobre otra, es decir, I(X;Y) es la informacion que X
contiene sobre Y. Se define la informacion mutua como:
IM (X, Y ) =
XX
p(x, y)logb
xX yY
p(x, y)
p(x)p(y)
(2.22)
es decir, se tiene que IM (X, Y ) = Dkl(p(x, y), p(x)p(y)), que sera nula cuando
p(x, y) = p(x)p(y), es decir, cuando X e Y sean variables aleatorias independientes. Tambien, a partir de las propiedades de la probabilidad se puede deducir
que, IM (X, Y ) = H(X) H(X|Y ) = H(X) + H(Y ) H(X, Y ).
800
800
600
600
Precip.
Precip.
400
200
200
0
14
400
16
18
20
22
24
26
0
12
28
14
16
18
20
22
24
26
28
30
SST Paita
SST Chicama
Descarga
1500
1000
500
0
0
100
200
300
400
500
600
700
Precip.
Figura 2.8: Precipitacion en la ciudad de Piura frente a las SST en Chicama y Paita
y el caudal del ro Piura.
A continuaci
on se procede a calcular cuantitativamente estas relaciones de
dependencia. En primer lugar, se calcula la correlaci
on dos a dos de todas las
variables, obteniendose una medida de la relaci
on lineal existente entre ellas:
66
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
Precip. Piura
SST Paita
SST Chicama
Desc. Piura
Precip. Piura
1
SST Paita
0.519
1
SST Chicama
0.586
0.806
1
Desc. Piura
0.884
0.584
0.636
1
Precip.Piura
SST Paita
2.054
SST Chicama
1.868
Caudal Piura
2.059
100
67
Canarias
Baleares
Norte
Duero
Tajo
Guadiana
Guadalquivir
Sur
Segura
Levante
Ebro
Catalana
(a)
100
0.9
(b)
90
90
0.8
80
80
0.7
70
70
0.6
60
60
0.5
50
50
0.4
40
40
0.3
30
30
0.2
20
20
10
10
20
40
60
80
100
0.1
0
20
40
60
80
100
Figura 2.9: (a) Correlacion y (b) informacion mutua entre los registros de precipitaci
on de cada par de ciudades en una red de 105 estaciones en Espa
na.
68
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
(a)
Cuenca Norte
Cuenca Duero
15
20
15
10
5
(b)
Cuenca Norte
10
Cuenca Duero
20
(c)
20
20
15
15
10
10
5
5
10
15
20
Cuenca Norte
10
Cuenca Duero
15
20
Figura 2.10: (a) Correlacion entre estaciones en las cuencas Norte y Duero. (b)
Correlaci
on condicionada al caso Precipitaci
on en Palencia = 0 mm. (c) Correlaci
on
condicionada a Precipitaci
on en Palencia > 10 mm
69
preservando el m
aximo de varianza de la muestra. Para ello, la base del nuevo
espacio se forma con aquellos vectores donde la muestra proyectada presenta
mayor varianza. Los vectores de esta base son de enorme utilidad en meteorologa, pues los primeros de ellos pueden corresponder a patrones dominantes
como la NAO (en el sentido de la variabilidad de la muestra que representan).
Se parte de una muestra de m datos
xk = (xk1 , ..., xkn )T , k = 1, . . . , m,
(2.23)
i=1
(2.25)
donde <> denota el promedio aritmetico. Esta matriz de varianzas y covarianzas es cuadrada y simetrica por lo que se puede calcular una nueva base
ortogonal encontrando sus autovalores i (que seran reales) y los correspondientes autovectores fi :
Cx fi = i fi , i = 1, . . . , n.
(2.26)
70
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
autovectores fi . Adem
as F es una matriz ortogonal y F T es su inversa. De esta
manera, si hacemos la proyecci
on:
f11 . . . f1n
x1k
.. ..
x
k = F T xk = ...
(2.28)
. .
fn1
...
fnn
xnk
xk F F T xk =
f11
..
.
..
.
f1n
...
...
fd1
..
.
..
.
fdn
f11
.
.
.
fd1
......
......
f1n
.. x ,
. k
fdn
(2.29)
(2.30)
71
datos atmosfericos se han de estandarizar por separado los valores correspondientes a cada punto de rejilla, de forma que la variabilidad del patron en toda
la extension espacial sea homogenea. Otro procedimiento para tener en cuenta
este problema consiste en utilizar la matriz de correlaciones en lugar de la de
varianza-covarianza para realizar el analisis (Noguer, 1994).
Recientemente se han descrito en la literatura extensiones no lineales de
esta tecnica que proyectan los datos mediante combinaciones no lineales de
las variables originales maximizando la varianza explicada o minimizando el
error cuadr
atico. Uno de los metodos no lineales mas populares son las redes
neuronales de cuello de botella (Kramer, 1991). Estos modelos tienen mayor
flexibilidad que las tecnicas lineales, pero en contraprestacion tienen algunas
deficiencias, como la perdida de ortogonalidad en los vectores de la base y el
coste computacional necesario para entrenar los modelos resultantes (en el Cap.
5 se analizan en m
as detalle estos modelos). Otra tecnica reciente aplicada a este
problema son los metodos basados en n
ucleos (kernel methods), que tambien
dan lugar a modelos no lineales pero con un menor coste computacional en su
entrenamiento (ver Sch
olkopf et al., 1998, para mas detalles)
Ejemplo 2.10 (EOFs). En este ejemplo se realiza un an
alisis de componentes
principales de dos muestras de datos x = (x, y, z) y u = (u, v), donde x, y y
u son variables aleatorias uniformes, z = y + x/2 + 1 y v = u + 2 donde 1
y 2 son variables aleatorias gausianas. En los ejemplos anteriores, una de las
variables es dependiente de las restantes. En Matlab, se genera f
acilmente una
muestra de tama
no N = 100 para este problema
>> N=100; x=rand(N,1); y=rand(N,1).*2;
>> z=y+x./2+randn(N,1).*(1/8);
>> datos1=[x y z];
>> u=rand(N,1);
>> v=2*u+randn(N,1).*(1/4);
>> datos2=[u v];
Una vez generados los datos, se procede a calcular los valores singulares de
su matriz de covarianzas. La funci
on svd de Matlab realiza la descomposici
on
en valores singulares de una matriz X, dando como salida tres matrices, U, S
y V de modo que: X = U S V T , donde S es una matriz diagonal que contiene
los autovalores y cada columna de V es el autovector correspondiente (U = V
para matrices simetricas):
>> [res1,valsing1,eof1]=svd(cov(datos1));
>> [res2,valsing2,eof2]=svd(cov(datos2));
72
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
(a)
2
1
0
0.75
0.5
0.25
0.5
(b)
2
1
0
0.2
0.4
0.6
0.8
EOF
1
2
3
% varianza explicada
88.93
10.05
1.01
% varianza explicada
97.30
2.69
73
la regi
on de El Ni
no (EN), y la zona de America Austral (Austral), respectivamente. Los datos disponibles cubren el perodo 1959-1999 correspondiente al
rean
alisis ERA40. La siguiente tabla muestra la varianza explicada por las cuatro primeras EOF en cada caso, ilustrando las diferencias entre las distintas
zonas:
AN
32.91
19.14
14.40
8.86
75.31
EOF1
EOF2
EOF3
EOF4
Acumulado
EN
59.90
12.71
7.69
5.26
85.66
Austral
25.90
22.62
20.52
9.86
78.90
45 N
45 S
135 W
90 W
45 W
Figura 2.12: Zonas geograficas correspondientes al Atlantico Norte, El Nino, y America Austral. Las rejillas (2.5o 2.5o ) muestran los puntos de grid utilizados para caracterizar los patrones de presi
on a nivel del mar.
En los tres casos existe una enorme redundancia en los datos, y una proporci
on muy peque
na de las variables permite explicar una alto porcentaje de la
varianza. La zona EN es la que mayor redundancia muestra (la primera EOF
explica cerca del 60 % de la varianza), mientras que las zonas AN y Austral presentan una varianza acumulada similar; sin embargo, esta varianza est
a igualmente distribuida entre las tres primeras EOFs en el caso Austral, mientras
que decae uniformemente en el AN. Esto nos muestra que la presi
on en los
tr
opicos tiene mucha m
as correlaci
on espacial que en latitudes medias y, a su
vez, la correlaci
on en latitudes medias se expresa de forma distinta en distintas
regiones del globo.
La evoluci
on temporal de las CPs nos da un idea de la frecuencia de variaci
on temporal de los fen
omenos caracterizados por la correspondiente EOF.
Por ejemplo la Figura 2.13 muestra la evoluci
on de la CPs para la regi
on del
AN. Puede observarse la frecuencia anual de la primera EOF, mientras que las
74
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
CP1
0
-20
-40
40
20
0
-20
-40
CP2
40
20
CP3
0
-20
-40
CP4
20
0
-20
0
75
150
225
300
375
450
525
X 10
day number
Figura 2.13: Evolucion temporal de las cuatro primeras CPs en la zona del AN.
75
112
02
995
11
1084
1006467
1
10
29
104
1010
81
10
3
97
1001
10
10121
1
102
1006
103
10 1021032
19 5
13
995
10
981
993
1000
98
1006
103
972
9
95362
10
992
16
38
10
99
1021
1016
1006
1027
10701060
10
19
1032
10
13
1006
104
971
979
899
88
4
994
1009
1024 1017
102
99100
6 9
22
10
10
05
4
98 971
958
1002
10
13
1021
13
10
1060
986
1021
1032
1021
1034
964
4
103
7
4
10
09
1009
993
978
962
94631
9 5
91
986
10
1025
05
10
8 0
99 99
982
974
966
958
Figura 2.14: Cuatro primeras EOF correspondientes al area geografica del Atlantico
Norte (AN) y de America Austral (Austral).
76
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
valores propios asociados a las EOF. Toda esta informacion puede ser almacenada para utilizarse posteriormente seg
un se ha descrito en la Sec.1.9.5; para
ello, basta con tener cargados los campos (matriz fields en el ejemplo siguiente), e indicar el camino en el que se desea que se desea guardar la informacion
en la opci
on path.
>> dmn=readDomain(Nao);
>> [EOF,CP,MN,DV,OP]=computeEOF(X,ncp,50,path,dmn.path);
>> [EOF,CP,MN,DV]=getEOF(dmn,ncp,50);
Con los datos cargados se pueden dibujar las primeras EOF (y las u
ltimas)
y las CPs de cada uno de los das disponibles (1958-2001 en este caso):
>>
>>
>>
>>
>>
drawGrid(EOF(:,1:4),dmn,iscontourf,1);
drawGrid(EOF(:,[25 50]),dmn,iscontourf,1);
figure
subplot(2,1,1); plot(CP(:,1));
subplot(2,1,2); plot(CP(:,50));
Figura 2.15: Patrones de las cuatro primeras EOF. La primera EOF representa el
patr
on bimodal de la NAO.
77
Figura 2.16: Patrones de las EOF numero 25 y 50. Los patrones se van volviendo
m
as ruidosos a medida que aumenta la posici
on de la EOF.
Figura 2.17: Coeficiente de la EOF (o CPs) numeros 1 y 50 para la serie de patrones diarios correspondientes al perodo 1958-2001. La primera CP ocupa la posici
on
superior y se ve que posee m
as estructura que la otra.
>>
>>
>>
>>
>>
>>
>>
>>
>>
figure
subplot(2,1,1)
f=fft(CP(:,1)); loglog(abs(f(2:end/2,:)))
subplot(2,1,2)
f=fft(CP(:,50)); loglog(abs(f(2:end/2,:)))
figure
period=365;
a=aveknt(CP(:,1),period);
plot(a(1,1:period:end))
78
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
Figura 2.18: (arriba) Espectro de potencias en coordenadas logartmicas para las CPs
1 y 50; en el primer caso se observa un regimen de crecimiento potencial, mientras que
la serie de coeficientes de la u
ltima CP es similar a un ruido blanco. (abajo) Promedio
anual del coeficiente de la primera EOF entre los a
nos 1958 y 2001.
Por u
ltimo, se pueden comparar los campos originales reconstruidos con
distintos n
umero de CPs. En el siguiente ejemplo, se consideran 50 y 4 CPs,
respectivamente, para reconstruir los campos originales de presion a nivel del
mar.
>>
>>
>>
>>
>>
days=[size(CP,1), 1];
pat=((CP*EOF).*repmat(DV,[days 1]))+repmat(MN,days);
patAprox=((CP(:,1:4)*EOF(:,1:4)).*repmat(DV,days))+repmat(MN,days);
drawGrid(pat(1:9,:),dmn);
drawGrid(patAprox(1:9,:),dmn);
Se puede ver que los campos reconstruidos a partir de solo cuatro CPs estan
muy suavizados.
79
Figura 2.19: Reconstruccion de los nueve primeros das del ano 1958 utilizando 50
(arriba) y 4 (abajo) componentes principales.
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
80
Z
T
U
V
RH
0.4
0.3
0.02
0.2
0.01
0.1
0
10
15
20
25
0
0
10
15
% of Principal Components
20
25
Figura 2.20: Error RMSE de reconstruccion para cada una de las cinco variables en
el Modelo 1 (el error es calculado para los campos 3D normalizados) frente al n
umero
de CPs (variando desde 1 % de la dimensi
on del vector original, al 25 %).
Por ejemplo, se puede adoptar como criterio que los errores de reconstruccion sean inferiores a los errores de asimilacion habituales en los modelos
numericos. En la Fig. 2.20 se observa que utilizando tan solo un 10 % de las
variables originales se tiene un error de reconstruccion menor del 2 % de la
desviacion est
andar de los campos 3D, cifra inferior a los errores promedio de
asimilacion. Un criterio alternativo para seleccionar el n
umero apropiado de
componentes principales sera utilizar la distancia promedio entre los patrones
vecinos en una base de datos de re-analisis.
Otro criterio m
as pr
actico para seleccionar el n
umero optimo de CPs sera
elegir el que proporcione mejores resultados de validacion cuando se aplique
un metodo concreto. Por ejemplo, en algunos ejemplos de este libro, se aborda
el problema de la prediccion meteorol
ogica probabilstica local. Por tanto, un
criterio a seguir para elegir el n
umero optimo de CPs sera en base al menor
error de validaci
on. Por ejemplo, la Fig. 2.21 muestra la evolucion del ndice
de pericia de Brier (Brier Skill Score, BSS; ver Cap. 7) en funcion del n
umero
de CPs consideradas al aplicar un metodo estandar de prediccion local denominado k-NN (ver Cap. 3.2). Esta figura indica que el n
umero de componentes
relevantes para el metodo es sustancialmente bajo (menor de 25 para umbrales
bajos de precipitaci
on). As mismo, se observa que a medida que el evento es
mas raro (por ejemplo P recip > 20mm), el n
umero de componentes optimo se
incrementa sustancialmente. Este ejemplo ilustra que el n
umero de componentes principales relevantes depende sustancialmente del problema que se desea
resolver y del metodo utilizado para su resolucion.
81
0.5
0.4
BSS
0.3
0.2
> 0.1mm
> 2mm
> 10mm
> 20mm
0.1
0
0
25
50
75
100
125
150
Nmero de CPs
Figura 2.21: Evolucion del Brier Skill Score (BSS) para la prediccion de los eventos
P recip > 0.1mm, 2, 10, y 20mm.
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
82
(b) Precipitacin
100
(a)
% Varianza explicada
% Varianza explicada
100
80
60
40
Estado de la Atmsfera
Temperatura mxima
Racha mxima
Precipitacin
20
80
60
40
Precipitacin/24h
Precipitacin/10das
Precipitacin/30das
Precipitacin/90das
20
0
0
0
20
40
60
%CPs
80
100
20
80
100
100
% Varianza explicada
% Varianza explicada
60
%CPs
100
90
80
70
60
50
Temperatura mxima/24h
Temperatura mxima/10das
Temperatura mxima/30das
40
30
40
20
40
60
%CPs
80
100
80
60
40
Racha mxima/24h
Racha mxima/10das
Racha mxima/30das
Racha mxima/90das
20
0
0
20
40
60
%CPs
80
100
Figura 2.22: Porcentaje de varianza explicada en funcion del numero de EOFs consideras para patrones atmosfericos, temperatura, precipitaci
on y racha m
axima.
Por otra parte, las Figuras 2.22(b)-(d) muestran el aumento de la correlaci
on espacial al considerar promedios temporales (medias diarias, decenal,
mensual y estacional) de esas mismas variables. Por tanto, a medida que crece
la escala temporal donde el patr
on est
a promediado, decrece el n
umero de CPs
necesario para alcanzar un umbral requerido. Por tanto, estudios de escala estacional, o de cambio clim
atico, que trabajan con promedios mensuales de las
variables requerir
an un n
umero menor de CPs que estudios que requieran el
uso de patrones diarios.
2.6. TECNICAS
DE AGRUPAMIENTO
83
iCq
mi ci + mj cj
,
mi + mj
(2.32)
(2.33)
84
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
El u
ltimo termino es el u
nico que permanece constante si cambiamos Ci y Cj
por el centro de gravedad D. Entonces, la reduccion de la varianza sera:
Vij = mi ||ci d||2 + mj ||cj d||2 .
(2.34)
= mi ||ci
=
mi ci + mj cj 2
mi ci + mj cj 2
|| + mj ||cj
||
mi + mj
mi + mj
mi mj
||ci cj ||2 .
mi + mj
(2.35)
2.6. TECNICAS
DE AGRUPAMIENTO
85
(a)
44
(b)
40
Norte
Duero
Tajo
Guadiana
Guadalquivir
Mediterraneo
Ebro
36
-10
-5
-10
-5
Figura 2.23: (a) Red de 54 estaciones automaticas en Espana; (b) Estaciones correspondientes a cada una de las siete cuencas hidrogr
aficas principales consideradas en
este ejemplo: Norte, Duero, Tajo, Guadiana, Guadalquivir-Sur, Mediterraneo, y Ebro.
86
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
44
42
40
38
36
10
1 LA CORUA
1 ROZAS
1 PARAYAS
1 SANTANDER
1 SONDICA
1 GIJON
1 OVIEDO
1 ORENSE
1 SAN SEBASTIN
1 FUENTERRABA
2 NAVACERRADA
1 SANTIAGO
1 VIGO
5 SEVILLA_A
5 SEVILLA_B
5 JEREZ
5 TARIFA
5 MLAGA
2 LEN
2 BURGOS
2 SORIA
2 SEGOVIA
2 VALLADOLID_A
2 VALLADOLID_B
7 VITORIA
7 PAMPLONA
4 BADAJOZ
4 HINOJOSA
1 PONFERRADA 4 CIUDAD REAL
3 CCERES
4 HUELVA
6 MURCIA_A
6 MURCIA_B
6 CARTAGENA
6 MURCIA_C
6 ALICANTE_A
6 ALICANTE_B
7 LOGROO
7 DAROCA
7 ZARAGOZA
6 VALENCIA_A
6 VALENCIA_B
6 CASTELLN
2 SALAMANCA
2 VILA
2 ZAMORA
7 TORTOSA
7 HUESCA
3 MADRID
3 TOLEDO
3 MADRID
5 ALMERA
5 GRANADA
2.6. TECNICAS
DE AGRUPAMIENTO
87
{x1 , . . . , xn }, y un n
umero determinado de grupos m, el algoritmo de las kmedias calcula un conjunto de prototipos d-dimensionales, {v1 , . . . , vm }, o centroides, cada uno de ellos caracterizando a un grupo de datos Ci X formado
por los vectores para los cuales vi es el prototipo mas cercano. Esta tarea es
realizada siguiendo un procedimiento iterativo, el cual comienza con un con0
junto inicial de centroides v10 , . . . , vm
, elegidos aleatoriamente (ver Pe
na et al.,
1999, para una descripci
on y comparacion de diferentes procedimientos de inicializacion). El objetivo del algoritmo es minimizar globalmente la distancia
intra-grupos:
X X
kxj vi k2
(2.36)
i=1,...,m xj Ci
Ya que una b
usqueda exhaustiva del mnimo es prohibitiva, se calcula un mnimo local mediante un ajuste iterativo de los centroides de los grupos, y reasignando cada patr
on al centroide m
as cercano. En la iteracion (r + 1)-esima,
cada uno de los vectores xj es asignado al grupo i-esimo, donde i = argminc k
xj vic k, y los prototipos son actualizados por medio de los correspondientes
patrones:
X
xj /#Ci ,
vir+1 =
xj Ci
88
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
PC2
(a)
PC1
PC2
(b)
PC1
Figura 2.25: Agrupamiento del re-analisis ERA-15 con el algoritmo de k-medias considerando 100 grupos para (a) Modelo 1, (b) Modelo 3. El grafo muestra los patrones
diarios y los centroides proyectados en el espacio de las dos primeras componentes
principales. Tambien se muestran las lneas de separaci
on entre grupos (estas lneas
corresponden al diagrama de Voronoi asociado a los centroides).
2.6. TECNICAS
DE AGRUPAMIENTO
89
>> dmn=readDomain(Nao);
>> [EOF,CP,MN,DV]=getEOF(dmn,ncp,50);
la funci
on makeClustering permite aplicar los algoritmos descritos en las
secciones anteriores (junto con una tecnica neuronal que se describira en la
Sec. 5.8). Esta funci
on requiere el n
umero de grupos que se desean calcular,
as como el tipo de agrupamiento deseado (en este caso k-medias, kmeans)
>> Clustering=makeClustering(CP,Kmeans,50)
Clustering =
NumberCenters:
Type:
Centers:
PatternsGroup:
PatternDistanceGroupCenter:
SizeGroup:
Group:
50
KMeans
[50x50 double]
[16436x1 double]
[16436x1 double]
{50x1 cell}
{50x1 cell}
Esta funci
on proporciona como salida una estructura (en este caso bajo el
nombre de Clustering) con campos relativos al n
umero de clases o grupos
(Clustering.NumberCenters), tipo de agrupamiento, prototipos de cada uno
de los grupos (Clustering.Centers), ndice del grupo al que pertenece cada
uno de los patrones (Clustering.PatternsGroup), distancia de cada patron
al prototipo de su grupo, tama
no de cada grupo y, finalmente, ndices de los
patrones que pertenecen a cada grupo.
A continuaci
on se dibujan los patrones y los centros obtenidos por el agrupamiento proyectados sobre las dos primeras componentes principales.
>>figure
>>plot(CP(:,1),CP(:,2),b.)
>>hold on
>>plot(Clustering.Centers(:,1),Clustering.Centers(:,2),...
ko,...
MarkerSize,6,...
MarkerEdgeColor,[0 0 0],...
MarkerFaceColor,[1 0 0])
90
DE DATOS
2. TECNICAS
ESTADISTICAS. ANALISIS
Y EXPLORACION
Figura 2.26: Agrupamiento del re-analisis ERA40 con el algoritmo de k-medias considerando 50 grupos para la zona NAO. El grafo muestra los patrones diarios y los
centros proyectados en el espacio de las dos primeras componentes principales.
CAPITULO 7
Verificacion de Sistemas de Prediccion
Probabilstica
7.1. Introduccion
En la actualidad se producen una gran variedad de predicciones meteorologicas de distintos fen
omenos, utilizando una amplia gama de modelos y
metodos. Tradicionalmente estas predicciones se obtenan de forma determinista, es decir, sin tener en cuenta la incertidumbre asociada. Sin embargo,
en las u
ltimas decadas se ha puesto de manifiesto la necesidad de formular la
prediccion meteorol
ogica en terminos probabilsticos, para tener en cuenta la
influencia de las distintas fuentes de incertidumbre que afectan a la prediccion
(ver Cap. 1 para m
as detalles). Este cambio ha hecho necesario el desarrollo
de nuevas medidas de validaci
on para cuantificar la calidad de este tipo de
predicciones, teniendo en cuenta su caracter probabilstico, as como la propia
naturaleza de la predicci
on (a corto o medio plazo, estacional, multi-modelo,
etc.). La siguiente tabla ilustra la complejidad de la prediccion numerica actual,
con las distintas opciones que se utilizan de forma operativa.
Alcance
Fen
omeno
Tipo
Modelo
M
etodo
Corto
Precipitaci
on Determinista Area limitada Estadstico
Medio
Racha m
axima Probabilstica
Global
Din
amico
Mensual
Temp. max.
Discreta
Acoplado
Ensemble
Estacional
Temp. min.
Continua
...
Multimodelo
Clim
atico
Meteoros ...
...
...
...
241
242
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
En este captulo se analizan los metodos mas comunes para evaluar la bondad de las predicciones, sin tener en cuenta el sistema empleado para su obtencion, sino s
olo su naturaleza (discreta/continua, determinista/probabilstica).
Murphy (1993) define la bondad de una prediccion en base a tres aspectos:
Consistencia: no se generan predicciones contradictorias,
Calidad : concordancia entre la prediccion y la observacion y
Utilidad : valor real (economico, etc.) de la prediccion para un usuario.
Para tener en cuenta estos aspectos a la hora de validar un sistema, es necesario disponer de criterios de verificacion (o validacion) apropiados, que proporcionen medidas objetivas de los distintos ascpectos de la bondad. Ademas,
cuando las predicciones estan distribuidas espacialmente (por ejemplo, un conjunto de predicciones locales en una red de estaciones), la verificacion tambien
ha de considerar esta caracterstica (ver Ebert and McBride, 2000). Por otra
parte, tambien es importante tener en cuenta que la calidad de un sistema
puede variar seg
un la adversidad del evento a predecir, la geografa de la zona, etc. Por tanto, en general es necesario cuantificar tanto la calidad global
espacio-temporal, como la calidad condicionada a determinados eventos y zonas. Finalmente, tambien hay que distinguir los diferentes usuarios a quienes
va dirigida la validaci
on (medidas facilmente interpretables para el p
ublico en
general, o medidas m
as informativas para una audiencia tecnica). Las medidas de verificaci
on resultantes se utilizan para propositos tan distintos como
proporcionar informaci
on del error de los modelos disponibles a los usuarios de
productos meteorol
ogicos, comparar distintos modelos operativos en una epoca
o situacion dada, analizar la eficiencia de las nuevas versiones de los modelos
operativos, estudiar la viabilidad economica de un cierto modelo, etc.
En este captulo se describen algunas de las medidas e ndices de verificacion mas utilizados en las ciencias atmosfericas, que permiten tener en cuenta
las caractersticas mencionadas anteriormente. En la Sec. 7.2 se analizan los
distintos tipos de predicciones en base a su caracter discreto/continuo y determinista/probabilstico; en la Sec. 7.3 se describen distintos aspectos sobre la
calidad de las predicciones. A continuacion, las secciones 7.4 y 7.5 analizan la
calidad de las predicciones en el caso determinista y probabilstico, respectivamente. Finalmente, las secciones 7.6.1 y 7.6.2 describen dos metodos especficos
para valorar la calidad de una prediccion probabilstica teniendo en cuenta sus
aciertos y fallos para un determinado evento y el valor economico de los mismos para un usuario especfico. Finalmente, la Sec. 7.7 describe el modulo de
validacion implementado en la herramienta MeteoLab, que incluye los distintos
ndices descritos en este captulo.
Para una descripci
on m
as completa de este tema, el lector puede consultar
Jolliffe and Stephenson (2003), o Wilks (1995) (Cap. 7).
243
ve), categ
oricas (seco, lluvia debil, lluvia moderada y lluvia fuerte), variables
continuas (temperatura), e incluso mixtas (como la precipitacion, ver Ej. 2.2).
Ademas, una misma variable puede considerarse como binaria, categorica o
continua seg
un la situacion particular de estudio. Por ejemplo, es muy com
un
transformar una variable en binaria considerando un umbral de interes para la
misma: temperaturas inferiores a 0o C, viento > 90km/h, etc. Para cada uno
de estos grupos de variables se efect
uan distintos tipos de prediccion.
(7.1)
(7.2)
donde <> denota el valor medio para un perodo dado, y o(t) denota un
valor estimado (predicho) para o(t).
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
Probabilidad
244
(a)
0.10
0.7
0.08
0.5
0.06
0.4
0.3
0.04
0.2
0.02
0
(b)
0.6
10
15
20
Precipitacion (mm)
25
30
0.1
0
[0, 1)
[1, 5)
Precipitacin
Figura 7.1: (a) Prediccion probabilstica para la variable continua precipitacion. (b)
Predicci
on probabilstica correspondiente a la variable categ
orica: seco, lluvia debil,
lluvia moderada, y lluvia fuerte.
precipitaci
on, considerada de dos formas distintas: (a) como variable continua
y (b) como variable categ
orica con cuatro estados.
Los metodos de prediccion anteriores, basados en persistencia y climatologa, tambien pueden utilizarse como metodos de prediccion probabilstica,
utilizando la distribuci
on de probabilidad definida por los das anteriores (persistencia) o por el perodo climatologico (climatologa) para la prediccion.
Desde un punto de vista operativo, cualquier prediccion determinista puede considerarse como un caso particular de una probabilstica sin mas que
asignar probabilidad uno al estado o valor previsto y cero al resto. Recprocamente, cualquier prediccion probabilstica puede convertirse en determinista
de diversas maneras: bien estimando un estado para una variable discreta (el
mas probable, el que supere un umbral de probabilidad, etc.), o un valor para
una continua (la media, el percentil 75 %, etc.). Estos recursos se utilizan con
mucha frecuencia para simplificar la prediccion y la verificacion.
7.3. ASPECTOS DE LA CALIDAD DE UNA PREDICCION
245
c1
p11
p21
c1
Previsto c2
...
cm pm1
Observado
c2 . . . cm
p12 . . . p1m
p22 . . . p2m
...
pm2 . . . pmm
(7.3)
su interpretaci
on y utilidad meteorol
ogica es muy distinta y, por ello, los ndices
de verificaci
on son complementarios y aportan informacion interesante desde
distintos puntos de vista.
En funci
on del tipo de probabilidad que utilizan (conjunta, marginal o condicionada), los ndices de verificaci
on se pueden dividir en tres grandes grupos
Wilson (2001):
Los que utilizan la funci
on de probabilidad conjunta para analizar globalmente la correspondencia entre pares observacion-prediccion. El bias,
la correlaci
on, el RMSE y el Skill, descritos a continuacion, pertenecen a
este grupo.
Los que utilizan probabilidades condicionadas a valores concretos de la
predicci
on. La fiabilidad, la resoluci
on y la definici
on pertenecen a este
grupo.
Los que utilizan probabilidades condicionadas a valores concretos de la
observaci
on. La discriminaci
on y la incertidumbre, son de este tipo.
A continuaci
on se describen algunas de las medidas de calidad mas importantes correspondientes a estos tres grupos (ver Murphy, 1993):
Sesgo (bias), o desviaci
on sistem
atica: Referido a la concordancia entre
la predicci
on media y la observacion media; las medidas de sesgo, como
la diferencia promedio entre la prediccion y la observacion, se calculan a
partir de p(o) y p(
o), y se definen de modo que un sesgo positivo indica una
sobreestimaci
on del valor a predecir, mientras un sesgo negativo indica
una subestimaci
on (por ejemplo, se predice menos cantidad de lluvia de
la que realmente ocurre).
246
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
Asociaci
on: Indica el grado de relacion lineal entre observacion y prediccion. La covarianza y la correlaci
on son medidas de asociacion.
Precisi
on (accuracy): Relativa a la concordancia entre el valor previsto y
el observado realmente, promediada sobre una muestra de parejas individuales de predicciones y observaciones; se calculan a partir de P (
o, o).
Medidas de precisi
on son, por ejemplo, el error absoluto medio, el error
cuadr
atico medio, el Brier Score, etc.
Habilidad (skill), o precisi
on relativa: Es la precision de un sistema referida a otro que se toma como referencia (por ejemplo, climatologa o
persistencia). Se definen de modo que un valor positivo (negativo) indica
que el sistema es m
as (menos) h
abil que el de referencia. El Brier Skill
Score es el ndice m
as conocido de esta categora.
En el caso particular de predicciones asociadas a eventos binarios (por ejemplo
si y no), un u
nico valor numerico de la probabilidad (por ejemplo p(
o = si) = p)
define la predicci
on, ya que p(
o = si) + p(
o = no) = 1. En ese caso, existen
dos medidas especiales que caracterizan los dos aspectos mas importantes de
la predicci
on, que determinan si es o no perfecta:
Fiabilidad (reliability), o bias condicional, o calibracion: Para que la predicci
on de un cierto evento binario sea fiable, la probabilidad prevista y la
observada deben coincidir lo m
aximo posible en todo el rango de valores
de probabilidad; cuando no es as, se habla de bias condicionado. La fiabilidad se puede representar gr
aficamente considerando una discretizacion
del rango de probabilidades previstas p (por ejemplo en 10 intervalos:
[0, 0.1), [0.1, 0.2), . . .) y dibujando p = p(
o = si) frente a p(o = si|
p), es
decir, frente a la frecuencia relativa de las ocasiones en que ocurrio el
evento cuando la probabilidad predicha para el mismo era p. Por ejemplo, la Fig. 7.2 muestra la fiabilidad para distintas predicciones obtenidas
con el sistema Prometeo (ver Cap. 6). Cuanto mas cerca este la curva
de la diagonal, m
as fiable sera el sistema; si la curva esta por debajo de
la diagonal, entonces la prediccion sobreestima el evento, mientras que si
esta por encima entonces la prediccion subestima (ocurrio mas veces de
lo que se preve). En el caso de la Fig. 7.2, se puede decir que el sistema
subestima la observacion. Por otra parte, son menos fiables las predicciones de eventos raros (poco frecuentes), como precip > 20 mm. Es muy
importante estudiar la fiabilidad de los sistemas para diferentes eventos,
ya que los eventos raros casi nunca se predicen con probabilidades altas,
manifestando una notable perdida de fiabilidad que debe ser corregida.
Cuando se tiene una prediccion extendida espacialmente (como en la Fig.
7.2, que muestra el resultado para 184 estaciones distintas), entonces existen dos formas de obtener una u
nica curva de fiabilidad. La mas sencilla
consiste en promediar las curvas individuales; sin embargo, en este caso se
pueden compensar efectos de sobreestimacion y subestimacion dado lugar a una curva promedio falsa. La otra alternativa es considerar las 184
7.3. ASPECTOS DE LA CALIDAD DE UNA PREDICCION
(a) Fiabilidades individuales
0.8
0.6
0.4
0.2
0
0.2
0.4
0.6
0.8
probabilidad observada
probabilidad observada
0.8
0.6
0.4
0.2
0
0.2
probabilidad prevista
0.6
0.4
0.2
184 localidades de la Pennsula,
Baleares y Canarias
0.2
0.4
0.6
0.8
0.6
0.8
probabilidad observada
probabilidad observada
0.8
0.4
probabilidad prevista
247
0.8
0.6
0.4
0.2
0
probabilidad prevista
0.2
0.4
0.6
0.8
probabilidad prevista
Figura 7.2: Curvas de fiabilidad para la prediccion sobre 184 estaciones de los eventos
(a)-(b) precip > 0.1 mm y (c)-(d) precip > 20 mm.
248
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
0.6
Frecuencia relativa
0.5
0.4
0.3
0.2
0.1
0
Probabilidad Prevista
1X
(oi oi ) =< (oi oi ) > .
n i=1
(7.4)
DE PREDICCIONES DETERMINISTAS
7.4. VERIFICACION
249
(7.6)
Probabilidad acumulada
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-8
-6
-4
-2
Anomala de Temperatura
Figura 7.4: El mismo error puede ser muy diferente medido en el espacio de la variable
y en el espacio de probabilidad.
250
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
RM SE
,
RM SEref
(7.7)
No
DE PREDICCIONES DETERMINISTAS
7.4. VERIFICACION
251
(7.8)
(7.9)
F AR(u) = P (
o = 0|o = 1) =
+
Observese que un ndice de fallos mas natural sera P (o = 0|
o = 1), es
decir, la probabilidad de que no ocurra el evento cuando se ha predicho.
Sin embargo, en este caso, el ndice sera especfico de cada sistema.
Precisi
on: Mide la proporci
on de aciertos y puede ser maximizada prediciendo siempre la categora m
as com
un. En regiones donde el evento
es muy raro, se hace practicamente la unidad, debido al gran n
umero de
aciertos negativos. No aporta informacion para eventos raros. Esta definida de la siguiente forma y su rango es [0, 1]:
ACC =
+
+++
(7.10)
La precisi
on de un sistema que nunca predice el evento es 1 pc .
0.7
Probabilidad climatolgica
0.6
0.5
Sistema I (10%)
Sistema II (50%)
Sistema NO (100%)
Vigo
Vigo
Regin Hmeda
0.4
0.3
0.2
0.1
Regin Arida
0
0.5
0.55
0.6
0.65
0.7
0.75
0.8
0.85
0.9
0.95
Precisin(ACC)
252
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
++
(7.11)
Aunque es m
as equilibrado que el ACC esta definido en [0, 1], y sus mayores valores se dan en aquellas localidades donde el evento es mas com
un. El
CSI es nulo para aquellos sistemas que nunca predicen el evento, mientras
que el CSI de un sistema que siempre predice el evento es /( + ) = pc .
Al igual que la precisi
on, es muy inestable para eventos raros.
0.7
Sistema I (10%)
Sistema II (50%)
Sistema SI (0%)
Probabilidad climatolgica
0.6
Regin Hmeda
0.5
0.4
0.3
0.2
0.1
Regin Arida
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
DE PREDICCIONES PROBABILISTICAS
7.5. VERIFICACION
253
(7.12)
donde pi = P (
oi = si), y oi es 1 si ocurre el evento y 0 en caso contrario. El
valor de BS es nulo para una prediccion perfecta. Si se quieren comparar las
precisiones de dos sistemas, es conveniente normalizar el BS, por ejemplo con
el valor que toma para un sistema climatologico (Talagrand, 1997).
Es muy usual utilizar la descomposicion del Brier score como suma de tres
componentes, relacionadas con la fiabilidad, la resolucion y la incertidumbre.
Para ello, se descompone (7.12) de la siguiente forma:
(pi oi )2 = fi (pi 1)2 + (1 fi )p2i
donde fi = p(oi = 1|pi ), es decir, el n
umero de casos observados de entre los
previstos con probabilidad pi (vease Murphy (1973)). As:
BS =< (pi fi )2 > + < (fi pc )2 > +pc (1 pc ) = BSf BSr + I,
donde pc es la probabilidad clim
atica del evento, BSf es la componente de fiabilidad, BSr la componente de resoluci
on, e I la componente de incertidumbre.
El BS da una idea del error promedio cometido en una prediccion; por tanto,
este ndice es poco representativo cuando esta descompensada la frecuencia de
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
254
ocurrencia y de no ocurrencia del evento. En ese caso, el BS es solo representativo del evento m
as frecuente y, por tanto, es confuso utilizar este ndice para
validar conjuntamente la prediccion del evento, ya que habra que ponderar los
casos raros para que tuviesen peso en la validacion.
Por otra parte, cuando las predicciones estan espacial y temporalmente
distribuidas, son difciles de interpretar ya que no es facil ofrecer parametros
que resuman la informaci
on de manera realista; la informacion ofrecida por los
promedios espaciales suele estar fuertemente sesgada en favor de los eventos
mas numerosos; por tanto, la informacion en forma de matrices y tablas es
completa pero difcil de interpretar y los mapas tienen el mismo problema. Una
forma sencilla de visualizar el comportamiento extendido de dichas medidas es
dibujar el valor de la medida frente a su probabilidad climatologica para cada
localidad (un mismo evento puede ser muy com
un en unas localidades y muy
raro en otras); de esta manera, los eventos raros quedan en la parte inferior
del grafico, independientemente de su localizacion espacial. Estos diagramas de
precisi
on-probabilidad son muy u
tiles para poner de manifiesto muchas de las
virtudes y debilidades de las diferentes medidas de verificacion.
0.7
Brier Score Climatologa
Brier Skill Score
0.6
probabilidad climatolgica
0.5
0.4
0.3
0.2
0.1
0.1
0.2
Score
0.3
0.4
0.5
0.6
Figura 7.7: Grafico compuesto con los brier scores y el correspondiente brier skill score
para la predicci
on en 184 estaciones de cuatro eventos asociados a la precipitaci
on.
DE PREDICCIONES PROBABILISTICAS
7.5. VERIFICACION
255
P (o = 1|p) P (o = 1|pc )
1 P (o = 1|pc )
(7.14)
BSA =
1 X 2
o = pc ;
m i=1 i
(7.15)
256
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
257
1
Sistema I (10%)
0.6
Sistema II (50%)
0.6
0.4
0.4
0.2
0.2
0.2
0.4
0.6
Sistema I (10%)
Sistema III (up=pc)
0.8
HIR
HIR
0.8
0.8
Sistema II (50%)
0.2
0.4
0.8
0.8
0.8
0.6
Sistema I (10%)
HIR
HIR
0.6
FAR
FAR
0.6
0.4
0.4
0.2
0.2
Sistema I (10%)
Sistema II (50%)
0
0.2
0.4
0.6
FAR
0.8
Sistema II (50%)
0
0.2
0.4
0.6
0.8
FAR
Figura 7.8: Curvas ROC para cuatro eventos de precipitacion en una red de 183
estaciones completas del INM.
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
258
cada umbral de probabilidad, el mejor sistema sera aquel cuya tasa HIR sea
mas alta para un mismo nivel de FAR.
Roc Skill Area (RSA)
En el ejemplo anterior, las curvas ROC proporcionan una descripcion cualitativa global del sistema. Sin embargo, en aplicaciones practicas interesa obtener
un ndice numerico para poder comparar unos sistemas con otros. El a
rea encerrada bajo la curva es un buen ndice global de la pericia del modelo. Un
sistema de predicci
on climatologico definira un area de 0.5, asociada a la diagonal. Por ello, se suele utilizar como ndice de pericia asociado a la curva
ROC el valor 2 RocArea 1 (Roc Skill Area, RSA). As el valor maximo del
ndice es 1 (predicci
on perfecta) y el valor cero se alcanza para una prediccion
climatologica aleatoria.
La Fig. 7.9 muestra el
area ROC correspondiente a las 184 estaciones por
separado, indicando una fuerte dependencia del area ROC con la probabilidad
climatica del evento. De esto se desprende la conclusion de que un promedio
espacial de
areas ROC favorece a aquellos sistemas que predigan mejor en las
zonas donde el evento es m
as frecuente.
Precipitacin > [0.1] mm, 184 localidades, PPS: ProMeteo
0.5
probabilidad climatolgica
probabilidad climatolgica
0.6
0.5
0.4
0.3
0.2
0.1
0
0.5
Eventos Raros
0.6
0.7
0.8
Roc Area
0.9
0.2
0.1
Eventos Raros
0.6
0.7
0.8
Roc Area
0.9
0.1
probabilidad climatolgica
probabilidad climatolgica
0.3
0
0.5
0.2
0.15
0.1
0.05
Eventos Raros
0
0.5
0.4
0.6
0.7
0.8
Roc Area
0.9
0.08
0.06
0.04
Eventos Raros
0.02
0
0.5
0.6
0.7
0.8
Roc Area
0.9
Figura 7.9: Ejemplo de areas ROC obtenidas para cuatro eventos de precipitacion
en 183 estaciones completas del INM.
259
260
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
lado, si ocurre el evento y no se toma ninguna accion ,se produce una perdida
P . El gasto total se puede obtener a traves de la tabla de contingencia del
sistema:
Acci
on
Preventiva
Si
No
Ocurrencia
Si
No
C
C
P
0
Tabla 7.1: Gastos asociados a las distintas combinaciones de los eventos: ocurrencia
del fen
omeno y toma o no de acciones preventivas.
De acuerdo con la tabla, el gasto total derivado de utilizar el sistema de prediccion probabilstica sera:
G = C + C + P
(7.17)
(7.18)
Si el sistema de predicci
on probabilstica fuese perfecto, entonces HIR = 1 y
F AR = 0, por lo que:
Gperf ecto = Pc C
(7.19)
y utilizando como sistema de prediccion probabilstica de referencia el climatologico se tiene:
Gclimatico = min{C, Pc P }
(7.20)
ya que, el gasto generado por las acciones preventivas nunca debera superar el
lmite P Pc .
En base a todo lo anterior, el valor econ
omico de una predicci
on para un
perodo dado se define como la raz
on entre los incrementos (respecto de la
climatologa) de los gastos del sistema en estudio y de un sistema perfecto, y
su rango es [, 1]:
V =
G Gclimatico
Gperf ecto Gclimatico
(7.21)
(7.22)
261
1
Pc: 0.28
0.6
0.4
II
0.2
0.2
0.4
0.6
0.8
R = Coste/Perdidas
HK Score
HK Score(Pc)
Pc: 0.17
0.8
Valor Economico
Valor Economico
0.8
0.6
I
0.4
0.2
0
II
0
0.2
0.4
0.6
0.8
R = Coste/Perdidas
1
HK Score
HK Score(Pc)
Pc: 0.04
0.6
0.4
0.2
HK Score
HK Score(Pc)
Pc: 0.01
0.8
Valor Economico
0.8
Valor Economico
HK Score
HK Score(Pc)
0.6
0.4
I
0.2
II
0.2
0.4
0.6
0.8
R = Coste/Perdidas
II
1
0.2
0.4
0.6
0.8
R = Coste/Perdidas
Figura 7.10: Curvas de valor economico para diferentes eventos. Para costes bajos
es mejor el sistema I, pero para costes altos es mejor el sistema II.
(7.23)
luego:
V (up , Pc ) = HIR F AR = BHK
(7.24)
262
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
dmn=readDomain(Iberia); Stations.Network={GSN};
Stations.Stations={Spain.stn};
Stations.Variable={Precip};
%Training data
dates={1-Jan-1960,31-Dec-1998};
[EOF,CP]=getEOF(dmn,ncp,50,dates,dates);
[dataE,Stations]=loadStations(Stations,dates,dates,ascfile,1);
%Test data
dates={1-Jan-1999,31-Dec-1999};
[EOF,CPT]=getEOF(dmn,ncp,50,dates,dates);
[dataT,Stations]=loadStations(Stations,dates,dates,ascfile,1);
umbral=5; i=find(~isnan(dataE)); dataE(i)=dataE(i)>umbral;
i=find(~isnan(dataT)); dataT(i)=dataT(i)>umbral;
O=[];P=[];
for j=1:1:180
%[AnalogPat,Neig,NeigDist]=getAnalogous(CPT(j,:),CP,10,knn,[]);
[AnalogPat,Neig,NeigDist]=getAnalogous(CPT(j,:),CP,200,knn,[]);
O=[O;dataT(j,:)];
P=[P;nanmean(dataE(Neig,:))];
end
Validation=makeValidation(O(:,1),P(:,1));
7.7. METEOLAB: VALIDACION
263
La funci
on makeValidation utilizada en el codigo anterior proporciona una
estructura que contiene toda la informacion sobre la validacion probabilstica,
ndices BS de la climatologa y de la prediccion, ndice BSS, area de la curva
ROC, HIR, FAR, etc. Por ejemplo, utilizando el metodo de analogos con 200
vecinos, la validaci
on obtenida se puede obtener como:
Validation =
PC: 0.2889
BSP: 0.1284
BSC: 0.2054
BSS: 0.3748
HIR: [11x1 double]
FAR: [11x1 double]
RSA: 0.7136
...
Figura 7.11: Validacion (curvas ROC y de valor economico) para prediccion probabilstica del evento P recip > 5mm en Igueldo (San Sebasti
an) para los seis primeros
meses del a
no 1999, usando la tecnica de an
alogos con 10 (superior) y 200 (inferior)
vecinos.
264
DE SISTEMAS DE PREDICCION
PROBABILISTICA
7. VERIFICACION
Figura 7.12: Validacion (curvas de fiabilidad y resolucion) para prediccion probabilstica del evento P recip > 5mm en Igueldo (San Sebasti
an) para los seis primeros
meses del a
no 1999, usando la tecnica de an
alogos con con 10 (superior) y 200 (inferior) vecinos.
Bibliografa
266
BIBLIOGRAFIA
BIBLIOGRAFIA
267
268
BIBLIOGRAFIA
Corte-Real, J., Quian, B., and Xu, H. (1999). Circulation patterns, daily
precipitation in Portugal and implications for climate change simulated by
the second Hadley Centre GCM. Climate Dynamics, 15:921935.
Cybenko, G. (1989). Approximation by supperpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems, 2:303314.
ndez-Luna, J. M., and Puerta, J. M. (2003). An
de Campos, L. M., Ferna
iterated local search algorithm for learning Bayesian networks with restarts
based on conditional independence tests. International Journal Intelligent
Systems, 18(2):221235.
DeGroot, M. H. (1989). Probability and Statistics. Addison Wesley, Reading,
MA.
Devroye, L. (1986). Non-Uniform Random Variate Generations. Springer
Verlag, New York.
Doswell, C. A., Davies-Jones, R., and Keller, D. L. (1990). On summary measures of skill in rare event forecasting based on contingency tables.
Weather and Forecasting, 5:576585.
Duda, R. O., Hart, P. E., and Stork, D. G. (2001). Pattern Classification.
Wiley-Interscience, 2nd ed.
Ebert, E. E. and McBride, J. L. (2000). Verification of precipitation in
weather systems: Determination of systematic errors. Journal of Hydrology,
239:179202.
hl, J. (1996). Classification of ensemble foreEckert, C. D., P. and Ambu
casts by means of an artificial neural network. Meteor. Appl., 3:169178.
Enke, W. and Spekat, A. (1997). Downscaling climate model outputs into
local and regional weather elements by classification and regression. Climate
Research, 8:195207.
zquez, D., Castro-Dez, Y., and Trigo,
Esteban-Parra, M. J., Pozo-Va
R. M. (2003). NAO influence on maximum and minimum temperature of
the Iberian Peninsula. In 14th Symposium on Global Change and Climate
Variations. 83rd Annual Conference of the AMS..
Faufoula-Georgiou, E. and Lettenmaier, D. P. (1987). A Markov renewal model for rainfall occurrences. Water Resources Research, 23:875884.
Feddersen, H. and Andersen, U. (2004). A method for statistical downscaling of seasonal ensemble predictions. To appear in Tellus A.
Fontela-Romero, O., Alonso-Betanzos, A., Castillo, E., Principe,
as, B. (2002). Local modeling using selfJ. C., and Guijarro-Berdin
organizing maps and single layer neural networks. Lectures Notes in Computer Science, 2415:945950.
BIBLIOGRAFIA
269
270
BIBLIOGRAFIA
BIBLIOGRAFIA
271
272
BIBLIOGRAFIA
Lorenz, E. N. (1986). On the existence of a slow manifold. Journal of Atmospheric Science, 43:15471557.
Lorenz, E. N. (1991). Dimension of weather and climate attractors. Nature,
353:241244.
Lorenz, E. N. (1996). The Essence of Chaos. University of Washington Press.
Macedo, M., Cook, D., and Brown, T. J. (2000). Visual data mining in
atmospheric science data. Data Mining and Knowledge Discovery, 4:6980.
Mandelbrot, B. (2004). Fractals and Chaos. Springer Verlag.
Marzban, C. (2003). A neural network for post-processing model output:
ARPS. Monthly Weather Review , 131(6):11031111.
McGinnis, D. L. (1994). Predicting snowfall from synoptic circulation: A
comparison of linear regression and neural networks. In B. Hewitson and
R. G. Crane, eds., Neural Nets: Applications in Geography, pp. 7999. Kluwer
Academic Publishers.
Middleton, G. V. (2000). Data Analysis in the Earth Sciences Using MATLAB . Prentice Hall.
Miyakoda, K., Hembree, G. D., Strickler, R. F., and Shulman, I.
(1972). Cumulative results of extended forecast experiments: I. model preformance for winter cases. Monthly Weather Review , 100(12):836855.
Mo, K. C. and Livezey, R. E. (1986). Tropical-extratropical geopotential
height teleconnections during the Northern Hemisphere winter. Monthly
Weather Review , 114:24882515.
Murphy, A. H. (1973). A new vector partition of probability score. Journal
of Applied Meteorology, 12:595600.
Murphy, A. H. (1993). What is a good forecast? An essay on the nature of
goodness in weather forecasting. Weather and Forecasting, 8:281293.
Murphy, A. H. and Winkler, R. L. (1987). A general framework for forecast
verification. Monthly Weather Review , 115:13301338.
Neapolitan, R. E. (2003). Learning Bayesian Networks. Prentice Hall.
Noguer, M. (1994). Using statistical techniques to deduce local climate distributions. an application for model validation. Meteorological Applications,
1:277287.
Oja, E. and Kaski, S. (1999). Kohonen Maps. Elsevier, Amsterdam.
Oliver, J. (1991). The history, status and future of climatic classification.
Physical Geography, 12:231251.
BIBLIOGRAFIA
273
274
BIBLIOGRAFIA
Richardson, C. W. (1981). Stochastic simulation of daily precipitation, temperature, and solar radiation. Water Resources Research, 17:182190.
Richardson, D. S. (2000). Skill and economic value of the ECMWF ensemble
prediction system. Quaterly Journal of the Royal Meteorological Society,
126:649668.
Rodrguez-Fonseca, B. and Serrano, E. (2002). Winter 10-day coupled
patterns between geopotential height and Iberian Peninsula rainfall using the
ECMWF precipitation reanalysis. Journal of Climate, 15:13091321.
Rodriguez-Iturbe, I., Cox, D. R., and Isham, V. (1987). Some models
for rainfall based on stochastic point processes. Proc. of the Royal Society of
London A, 410:269288.
Rosenblat, F. (1962). Principles of Neurodynamics. Spartan, New York.
Rubinstein, R. Y. (1981). Simulation and the Monte Carlo Method . John
Wiley and Sons, New York.
Rumelhart, D. E. and McClelland, J. L. (1986). Parallel Distributed
Processing: Explorations in the Microstructure of Cognition. The MIT Press,
Cambridge.
Sauer, T. (1994). Time series prediction by using delay coordinate embedding. In A. S. Weigend and N. A. Gershenfeld, eds., Time Series Prediction:
Forecasting the Future and Understanding the Past, pp. 175193. AddisonWesley.
Schizas, C. N., Pattichis, C. S., and Michaelides, S. C. (1994). Artificial
neural networks in weather forecasting. Neural Networks, pp. 219230.
lkopf, B., Smola, A., and Muller, K. R. (1998). Kernel principal
Scho
component analysis. In B. Sch
olkopf, C. Burges, and A. Smola, eds., Advances
in Kernel Methods: Support Vector Machines, pp. 327352. MIT Press.
Schoof, J. T. and Pryor, S. C. (2001). Downscaling temperature and
precipitation: A comparison of regression-based methods and artificial neural
networks. International Journal of Climatology, 21(7):773790.
Stepanek, P. (2001). AnClim: Software for time series analysis. Dept. Geography, Fac. of Natural Sciences, MU, Brno.
Stern, R. D. (1982). Computing a probability distribution for the start of
the rains from a Markov chain model for precipitation. Journal of Applied
Meteorology, 21(3):420422.
Strogatz, S. (2001). Nonlinear Dynamics and Chaos: With Applications to
Physics, Biology, Chemistry and Engineering. Perseus Book Group, 1st ed.
Talagrand, O. (1997). Evaluation of probabilistic prediction systems. In
Workshop on predictability, pp. 125. ECMWF.
BIBLIOGRAFIA
275
Toth, Z. (1991). Circulation patterns in phase space. A multinormal distribution? Montly Weather Review , 119(7):15011511.
Tsonis, A. A. and Elsner, J. B. (1988). The wheater atrractor over very
short time scales. Nature, 333:545547.
van den Dool, H. M. (1989). A new look at weather forecasting though
analogs. Montly Weather Review , 117:22302247.
van Oldenborgh, G. J., Burgers, G., and Tank, A. K. (2000). On the ElNi
no teleconnection to spring precipitation in Europe. International Journal
of Climatology, 20:565574.
Verma, U., Yadav, M., and Hasija, R. C. (2002). A seasonal ARIMA model
for monthly rainfall sequence. In 16th Australian Statistical Conference.
Canberra, Australia.
von Storch, H. (1999). On the use of inflationin statistical downscaling.
Journal of Climate, 12:35053506.
von Storch, H. and Zwiers, F. W. (1999). Statistical Analysis in Climate
Research. Cambridge University Press, Cambridge.
Wanner, H., Bronnimann, S., Casty, C., Fyalistras, D., Luterbacher,
J., Schmutz, C., Stephenson, D. B., and Xoplaki, E. (2001). North
Atlantic Oscillation. Concepts and studies. Surveys in Geophysics, 22:321
382.
Ward, M. N. and Folland, C. K. (1991). Prediction of seasonal rainfall in the Nordeste of Brazil using eigenvectors of sea-surface temperature.
International Journal of Climatology, 11:711743.
Wilby, R. L. and Wigley, T. M. L. (1997). Downscaling general circulation
model output. A review of methods and limitations. Progress in Physical
Geography, 21:530548.
Wilby, R. L. and Wilks, D. S. (1999). The weather generation game. A
review of stochastic weather models. Progress in Physical Geography, 23:329
357.
Wilks, D. S. (1995). Statistical Methods in the Atmospheric Sciences. An
Introduction. Academic Press, San Diego.
Wilks, D. S. (1999a). Interannual variability and extreme-value characteristics of several stochastic daily precipitation models. Agricultural and Forest
Meteorology, 93:159163.
Wilks, D. S. (1999b). Multisite downscaling of daily precipitation with a
stochastic weather generator. Climate Research, 11:125136.
Wilks, D. S. (1999c). Multisite downscaling of daily precipitation with a
stochastic weather generator. Climate Research, 11:125136.
276
BIBLIOGRAFIA
Wilson, L. J. (2001).
Verification of precipitation forecasts: A survey of methodology.
Tech. rep., Environment Canada.
URL
www.chmi.cz/meteo/ov/wmo/src/wilson_paper_prague.pdf.
WMO (1994). Guide to WMO binary code form GRIB 1. Technical Report 17,
World Meteorological Organization (WMO).
Wunsch, C. (1999). The interpretation of short climate records, with comments on the North Atlantic and Southern Oscillation. Bulletin of the American Meteorological Society, 80:245255.
Yuval and Hsieh, W. W. (2003). An adaptive nonlinear MOS scheme for
precipitation forecasts using neural networks. Weather and Forecasting,
18(2):303310.
Zorita, E., Hughes, J. P., P, L. D., and von Storch, H. (1995). Stochastic
characterization of regional circulation patterns for climate model diagnosis
and estimation of local precipitation. Journal of Climate, 8:10231042.
Zorita, E. and von Storch, H. (1999). The analog method as a simple statistical downscaling technique: Comparison with more complicated methods.
Journal of Climate, 12:24742489.
Zwiers, F. W. and von Storch, H. (1990). Regime dependent autoregressive time series modelling of the Southern Oscillation. Journal of Climate, 3:13471363.
Indice alfabetico
Correlacion, 64
canonica, 109
espacial, 114
CP, 68
D-separacion, 137
Data mining, 129
DEMETER, 28
Dependencia, 61, 135
condicional, 62, 134, 136
espacial, 118
Descenso de gradiente, 181
Downscaling, 92
analogos, 118
dinamico, 24, 93
estadstico, 94
fsico, 94
MOS, 117
perfect prog, 117
redes Bayesianas, 165
Backpropagation, 187
Bias, 245
condicionado, 246
BNT, 140
BSS, 255
El Ni
no, 12, 65, 73, 96, 102
prediccion de, 29, 216
ENSO, 13
EOF, 68
EPS, 21, 26
condicion inicial, 22
multi-modelo, 23
ERA, 39
Error maximo, 179
Caos, 18, 97
CCA, 109
escala temporal, 115
Climatologa, 243
Clustering, 82
COAMPS, 18
Componentes Principales, 68
escala temporal, 81
n
umero de componentes, 79
FAR, 251
Fiabilidad, 246
277
278
Fractal, 19
Funcion de base radial, 194
Funcion neuronal
lineal, 178
sigmoidal, 178
HIR, 251
HIRLAM, 24, 226
Informacion mutua, 64
k-medias, 85, 158, 228
Lorenz, 19
metodo an
alogos, 120
predicci
on, 188
Markov
cadenas de, 56
redes de, 137
Matlab
BNT, 140
MeteoLab, 31
NetLab, 183
Matriz de covarianzas, 104
MeteoLab, 31
agrupamiento, 89
analogos, 122
correlaci
on can
onica, 111
CP y EOF, 74
Lorenz, 193
modelos autoregresivos, 96
observaciones, 34
patrones atmosfericos, 41
redes Bayesianas, 140, 148, 153
regresi
on, 107
validaci
on, 262
Minera de datos, 129
MM5, 18, 26, 93
red Iberica, 26
Modelo
AR, 95
ARIMA, 96
ARMA, 95
autoregresivo, 95
autoregresivo neuronal, 189
de Lorenz, 19, 188
INDICE ALFABETICO
de Markov, 100
de renovacion, 100
difusivo acoplado, 20
no lineal, 18, 97
point process, 100
regresion, 101
SARIMA, 96
Modelos del Tiempo
ARPS, 18
COAMPS, 18
de circulacion general, 15
HIRLAM, 24
mesoscalares, 17
MM5, 18
regionales, 16
Monzon, 14
MOS, 117
NAO, 12, 72, 111, 115, 203
NetLab, 183
Oscilacion
del Artico, 74
del Sur, 12
El Ni
no, 73
ENSO, 13
NAO, 12, 72
Perfect Prog, 117
Persistencia, 243
Precipitacion
cantidad de, 60
caracter dual, 50
correlacion espacial, 66
El Ni
no, 13, 65, 102
generadores de tiempo, 57
Predecibilidad, 21
Prediccion
climatica, 30
con analogos, 120
corto plazo, 15, 24, 39, 116, 124
determinista, 243
estacional, 28, 215
medio plazo, 26
por conjuntos, 21
probabilstica, 30, 243
redes neuronales, 206
INDICE ALFABETICO
Probabilidad, 48
condicionada, 54
maginal, 54
regla de la cadena, 134
Proceso estacionario, 95
Reanalisis, 39
Red funcional, 175
Red Neuronal, 175
Red neuronal
ART, 199
clasificacion, 183
competitiva, 179, 198
de base radial, 194
multicapa, 186
perceptr
on, 180
SOM, 201
Redes Bayesianas, 138
aplicaciones, 155
aprendizaje, 146
Gaussianas, 139
inferencia, 139
mixtas, 139
multinomiales, 138
predicci
on local, 165
red pluviometrica, 160
relleno lagunas, 169
weather generators, 162
Redes probabilsticas, 129
Bayesianas, 138
de Markov, 137
Regla de la cadena, 134
Regla delta, 181
Regresion, 101
lineal, 101
lineal multivariada, 104
no lineal, 106
Regularizaci
on, 195
Resolucion, 247
RMSE, 179
ROC, 256
area curva, 258
RSA, 258
Series temporales, 94
no lineales, 97
279