Cours Géostatistique
Cours Géostatistique
Cours Géostatistique
Introduction `a la G
´eostatistique
Variographie, krigeage, interpolation et simulation
Yann M´eneroux
Contact : yann.meneroux(at)ign.fr
Laboratoire en Sciences et Technologies de l’Information G´eographique (LaSTIG)
Institut National de l’Information G´eographique et Foresti`ere (IGN)
Abstract
Ce document est un support de cours destin´e aux ´etudiants du Mast`ere sp´ecialis´e D´ecision
et Syst`eme d’Information G´eolocalis´ee (D´esig´eo) de l’E´ cole Nationale des Sciences G
´eographiques. Il permet une introduction autoditacte `a la G´eostatistique lin´eaire, appliqu´ee
plus particuli`erement au domaine de la G´eomatique. Il comprend de nombreux exemples, des
travaux dirig´es `a r´ealiser sur papier ainsi que des travaux pratiques sur machine (dans la
langage de programmation R).
Les ressources n´ecessaires (jeux de donn´ees, code informatique...) peuvent ˆetre t´el´echarg´ees
`a l’adresse suivante, dans la section Math´ematiques → G´eostatistique :
http://cours-fad-public.ensg.eu/
Notations
En r`egle g´en´erale, on note en majuscule les variables al´eatoires et en minuscule les r´ealisations
corre- spondantes. Ainsi, par exemple si X est une variable al´eatoire distribu´ee suivant une loi
normale, on note x1, x2,... xn des r´ealisations de X et :
1 n
m= Lxi
n
i=1
est la moyenne empirique des n r´ealisations. Lorsqu’on souhaite ´etudier les propri´et´es statistiques
de cette moyenne, on remplace les minuscules par des majuscules :
1 n
M= LX i
n
i=1
et M devient une variable al´eatoire dont la loi d´epend de celles des Xi.
Lorsqu’on consid`ere des signaux al´eatoires uni-dimensionnels (en g´e n´e r al dans un but p
´edagogique), on note X le processus, et X(t) sa valeur en un point t du domaine (par analogie
avec les signaux
temporels). Une r´ealisation x de X est donc une fonction classique de R dans R. Covariance
et variogramme sont alors fonctions de l’´ecart τ entre les points consid´er´es : τ = t2 − t1.
Dans ce cours, nous utiliserons fr´equemment 4 loi de probabilit´es : N (m, σ2), la loi normale de
moyenne m et d’´ecart-type σ ; U ([a, b]), la loi uniforme sur le segment [a, b] ∈ R ; B(n, p), la loi
binomiale d´ecrivant le nombre de succ`es de n ´epreuves de Bernoulli de probabilit´e p et E
(λ), la loi exponentielle d’intensit´e λ (i.e. de moyenne 1/λ). Ainsi, la notation X ∼ N (0, 1) d
´esigne une vari- able al´eatoire distribu´ee suivant la loi normale standard, et avec un l´eger
abus de notation, on ´ecrira
x ∼ N (0, 1) pour d´esigner une variable r´eelle (fix´ee) ayant ´e t ´e tir´ee suivant la loi N (0, 1).
Pour un crit`ere f donn´e, lorsqu’une variable θ peut prendre un ensemble de valeurs dans un
ensemble d´efini Θ, on note θ∗ une valeur optimale. Par exemple dans le cas o u` on cherche `a
minimiser f :
Remarquons que l’ensemble argmin est non-vide si, et seulement si, f est born´ee en valeurs inf
´erieures et atteint sa borne. En g´e n´er al, f est continue, et Θ est un p av´e (donc compact) de
Rp : l’ensemble argmin est donc non-vide et θ∗ existe (mais n’est pas n´ecessairement unique).
1
Lorsqu’une fonction f d´efinie sur R+ admet une limite (finie) l en l’infini, on note f (∞) = l.
Pour une variable inconnue z donn´ee, on note � z son estimateur. Lorsqu’on souhaite estimer les
pro- pr i´e t´es statistiques de cet estimateur, on le consid`ere comme une variable al´eatoire et�
on le note Z. L’erreur d’estimation,
� Z − Z est elle-mˆeme une variable al´eatoire.
En g´en´eral, on note en caract`eres gras les quantit´es matricielles et vectorielles. Ainsi, Z est le
vecteur contenant les valeurs prises par Z en n sites : x1, x2, ...xn. Dans ce cas, nous n’op´erons plus
de dis- tinction entre la variable al´eatoire et ses r´ealisations.
Pour un ´ev`enement quelconque A, on note ]_A la fonction indicatrice de A, c’est-`a - dire telle que
]_A(x) vaut 1 si x v´erifie l’´el´ement A et 0 sinon. Par exemple, pour un MNT z et un seuil s ∈ R,
la fonction indicatrice ]_z(x)�s vaut 1 en tout point x d’altitude sup´erieure `a s et 0 sinon.
Pour un ensemble A quelconque, on note |A| le nombre d’´el´ements contenus dans A (appel´e
cardinal de A) et P(A) l’ensemble des parties de A, i.e. l’ensembles des ensembles B ⊆ A. Par
exemple, si A = {1, 2, 3}, alors P(A) = {∅, {1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, A}. On montre
facilement que
|P(A)| = 2|A|, d’ou` la notation parfois rencontr´ee : P(A) = 2A.
Lorsqu’elle −existe, A−−11 est la matrice inverse de A Rn×n, c’est-`a - dire l’unique
n×n
matrice de RTn×n
telle que A A = AA = In o u` In d´esigne la matrice
1
∈ identit´e de R . Par ailleurs, A d
´esigne la matrice transpos´ee de A : (AT )ij = (A)ji.
Si f est une fonction r´eelle de p variables : x1, x2,...xp, alors ∂f/∂xi est la d´e r i v´e e partielle de
f par rapport `a la i-eme variable. Le vecteur f de terme g´en´e r al ( f )i = ∂f/∂xi est le
vecteur gradient ∇
de f . Si en plus f est `a valeurs dans Rm, on note f1, f2, ... fm ses m composantes scalaires et
m×p
alors la matrice J ∈ R de terme g´en´eral (J)ij = ∂fi/∂xj est la matrice jacobienne de f , c’est-
`a - dire la matrice compos´ee des m vecteurs lignes gradients des m composantes de f .
P(X = x, Y = y)
P(X = x Y = y) = P(Y = y)
|
2
Contents
1 Rappels statistiques 10
1.1 Espace probabilis´e......................................................................................................................10
1.2 Variable al´eatoire r´eelle.............................................................................................................11
1.3 Fonction de r´epartition...............................................................................................................12
1.4 Densit´e de probabilit´e................................................................................................................14
1.5 Esp´erance....................................................................................................................................15
1.6 Variance..........................................................................................................................................17
1.7 Covariance......................................................................................................................................19
1.8 Moments statistiques.....................................................................................................................23
1.9 Exemple de synth`ese..................................................................................................................25
2 Analyse variographique 29
2.1 Processus stochastique.................................................................................................................29
2.2 Une premi`ere approche informelle..............................................................................................34
2.3 Les hypoth`eses fondamentales.....................................................................................................35
2.3.1 La Stationnarit´e.............................................................................................................35
2.3.2 L’ergodicit´e.....................................................................................................................38
2.3.3 Les hypoth`eses en pratique.............................................................................................41
2.4 Le variogramme............................................................................................................................47
2.4.1 Variogramme exp´erimental..........................................................................................50
2.4.2 Interpr´eter le variogramme.............................................................................................59
2.4.3 Les mod`eles de variogramme..........................................................................................62
2.4.4 L’estimation du variogramme.........................................................................................70
2.4.5 Pour aller plus loin............................................................................................................77
2.5 Bilan...............................................................................................................................................82
3
3.6 Formulation duale........................................................................................................................114
3.7 Les variantes du krigeage............................................................................................................116
3.7.1 Krigeage simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
3.7.2 Krigeage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
3.7.3 Krigeage par blocs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
3.7.4 Krigeage universel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
3.7.5 Krigeage avec d´erive externe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
3.7.6 Autres variantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
3.8 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4 Compl´ements 131
4.1 La validation crois´ee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
4.2 Application `a l’optimisation bay´esienne . . . . . . . . . . . . . . . . . . . . . . . 140
. . .
4.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
4.2.2 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.2.3 Pour aller plus loin... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.3 Simulations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
4.3.1 Simulation non-conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
4.3.2 Simulation conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
4.4 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
4
Introduction
Ensemble de techniques et m´ethodes permettant d’´etudier les ph´enom`enes qui s’´etendent dans
l’espace et y pr´esentent une organisation ou une structure.
Autrement dit, la G´eostatistique permet de r´epondre `a des questions sur les ph´enom`enes poss
´edant une certaine forme de continuit´e dans l’espace (nous parlerons par la suite d’autocorr´elation
spatiale), mais dont la complexit´e interdit toutefois toute approche purement analytique du
probl`eme. Ainsi, parmi de nombreux exemples de domaines d’application, nous pourrions citer
l’interpolation continue des conditions m´et´eorologiques sur un territoire donn´e, la prospection
mini`ere (p´etrole, or...), l’analyse de champs de d´eformation crustale ou encore l’inventaire forestier.
En particulier, dans le domaine de la g´eomatique, les exemples peuvent se trouver `a foison :
• Calcul d’isochrones pour un v´ehicule terrestre : une isochrone Γ(t) est d´efinie par le lieu
des points accessibles en un temps t depuis un point de r´ef´erence donn´e. L’ensemble des
courbes Γ calcul´ees pour une s´erie de valeurs t1, t2, ...tn est appel´e une carte isochrone.
• Estimation ( `a l’´echelle mondiale) des retards induits par la ionosph`ere sur les signaux GPS.
Cette d´efinition est pourtant quelque peu restrictive. Dans un cadre plus g´en´e ral, on pourrait d
´efinir la G´eostatistique comme une m´ethode d’analyse et de manipulations de grandeurs continues
et corr´el´ees. En statistique classique, l’hypoth`ese d’ind´ependance des variables al´eatoires
permet une simplification des calculs. Par exemple, si X et Y sont deux variables al´eatoires ind
´ependantes, alors les variances sont additives :
Traduite en termes d’´ecarts-types, cette propri´et´e donne une relation analogue au th´eor`eme de
Pythagore en g´eom´etrie euclidienne : le carr´e de l’´ecart-type d’une somme d’erreurs ind
´ependantes vaut la
1
Le g´eo¨ıde est la surface de r´ef´erence des altitudes, i.e. le niveau moyen des mers prolong´e sous les continents.
5
somme des carr´es des ´ecarts-types des erreurs prises individuellement. Au sens math´ematique
strict, l’hypoth`ese d’ind´ependance est suffisante mais non n´ecessaire pour obtenir cette ´egalit´e. Il
est suffisant que X et Y soient non-corr´el´ees (i.e. de covariance nulle) pour ˆetre valide.
Dans un cadre plus g´en´eral, si les variables sont corr´el´ees, on doit ajouter un terme correctif :
Fig. 1. Si X et Y sont des variables al´eatoires d´ecorr´el´ees, l’erreur typique sur leur somme S = X +Y
est ´egale `a la somme quadratique des erreurs individuelles : σ2 = σ2 + σ2
S X Y
.
Le mod`ele des variables ind´ependantes est donc certes fort commode en premi`ere approximation
pour simplifier les calculs, mais rapidement inop´erant d`e s lors que les corr´elations entre variables
ne peuvent plus ˆetre n´eglig´ees. La G´eostatistique vient combler ce manque, et si son domaine
d’application est bien souvent li´e `a la g´eographie en vertu de la premi`ere loi de Tobler3, on
pourrait donc la d´efinir, au risque de grossir un peu le trait, comme une m´ethode de traitement
des corr´elations.
Cette observation offre donc un cadre d’application beaucoup plus vaste `a la G´eostatistique. En
par- ticulier, les s´eries temporelles (e.g. les indices boursiers, la temp´erature en un lieu donn´e
au fil des jours...), sont suffisamment autocorr´el´ees pour qu’on ne puisse se permettre de ne pas en
tenir compte. De mani`ere similaire, l’espace de travail peut parfaitement ˆetre abstrait, par
exemple, si on souhaite
´etudier les performances (e.g. le temps de calcul) d’un algorithme en fonction de ses inputs afin
d’en d´eterminer un param´etrage optimal.
Notons que la G´eostatistique est une discipline relativement ancienne, mais qu’elle a trouv´e un
essort particulier dans les ann´ees 50 sous l’impulsion de la prospective mini`ere en Afrique du Sud,
notammant avec les travaux pr´ecurseurs de Danie Gerhardus Krige : A statistical approach to
some basic mine valuation problems on the Witwatersrand (Krige, 1951). Ces recherches ont par la
suite ´e t ´e reprises
2
Cette autocorr´elation, souvent assez difficile a` quantifier, se retrouve sous diverse formes dans tous les produits
6
cartographiques, et r´esulte des autocorr´elations individuelles des ´etapes de la chaˆıne de production : distorsion r´esiduelle
de la cam´era, erreur d’orthorectification des clich´es, d´erive locale d’un chantier topographique, bruit de g´en´eralisation...
3
Tout interagit avec tout mais deux choses voisines ont plus de chances d’entrer en interaction que deux choses
lointaines (Waldo Tobler, 1970).
7
et formalis´ees dans un cadre th´eorique `a l’E´ cole des Mines par Matheron (1962) dans son
Trait´e de g´eostatistique appliqu´ee. Par nature, elles poss`edent des interconnexions profondes
avec le domaine du traitement des signaux al´eatoires notamment via les filtres de Kolmogorov-
Zurbenko (1941) et de Wiener (1949).
Ce cours est subdivis´e en quatre parties. Apr`es un bref rappel des pr´erequis statistiques dans
un premier chapitre, nous verrons dans un deuxi`eme temps comment d´efinir et caract´eriser une
variable r´egionalis´ee d’un point de vue stochastique4. Pour ce faire, nous utiliserons le
variogramme, un outil simple et puissant, qui nous permettra de quantifier (jusqu’`a un certain degr
´e de pr´ecision) la ressem- blance de la valeur prise par le ph´enom`ene en deux points donn´es
quelconques du domaine d’´etude. Dans un troisi`eme temps, nous ´etudierons le krigeage (et ses d
´eriv´ees), une technique d’interpolation avanc´ee, reposant sur l’analyse variographique effectu
´ee en premi`ere partie. Sur ce point, il pour- rait ˆetre instructif au pr´ealable, de jeter un oeil
aux m´ethodes d’interpolation d´eterministes dont on pourra trouver une pr´esentation
compl`ete et p´edagogique dans les ouvrages de Mitas et Mitasova (1999), Arnaud et Emery
(2000) ou encore Bosser (2011). Enfin, dans un dernier chapitre, nous ver- rons quelques compl
´ements aux notions vues dans les deux chapitres pr´ec´edents : une m´ethode de validation num
´erique de la proc´edure d’interpolation, l’optimisation bay´esienne, ainsi que la simula- tion qui
joue un r ˆole important pour contourner certaines limitations du krigeage.
Dans tout ce document, nous nous r´ef´ererons r´eguli`erement au probl`eme mod`ele suivant : on
suppose que n points x1, x2, ...xn d’un domaine D quelconque ont ´e t ´e observ´es par GPS afin de d
´eterminer leurs altitudes respectives z1, z2, ...zn. Le probl`eme consiste `a produire une carte du
relief du domaine,
i.e. formellement de d´eterminer une fonction z : D → R, qui `a tout point x ∈ D associe l’altitude
correspondante z(x), avec z(xi) = zi pour tout i ∈ {0, 1, ...n}.
Fig. 2. Objet central de la g´eostatistique, la variable r´egionalis´ee est une fonction poss´edant
une certaine organisation spatiale, mais dont la complexit´e interdit toute description analytique
simple.
.
• Que faire quand on a plusieurs variables de sortie ? En effet, ce cas de figure peut survenir,
par exemple si on souhaite interpoler le champ de vecteur vitesse du vent dans un volume
donn´e. La fonction f `a d´eterminer est alors d´efinie de R3 dans R3 (3 coordonn´ees
d’espace en entr´ee, 3 coordonn´ees des vecteurs vitesse en sortie). En premi`ere
approximation, on peut
8
4
C’est-`a-dire d’un point de vue al´eatoire, par opposition aux m´ethodes d´eterministes qui ne requierent aucun fonde-
ment probabiliste (e.g plus proche voisin, interpolation lin´eaire, splines de lissage...) .
9
s’en sortir en ´etudiant s´eparemment chaque variable. On d´efinit ainsi trois fonctions r
´eelles scalaires fx, fy et fz chacune prenant en entr´ee un point de R3 et retournant la
composante du vecteur vitesse dans l’une des trois dimension d’espace. Formellement,
nous avons ainsi
d´ecomp os´e un probl`eme d’inf´erence d’une fonction `a valeurs vectorielles f : R33 → R3
`a trois probl`emes ind´ependants d’estimation de fonctions scalaires fx, fy, fz : R → R.
Dans certains cas cependant, l’interd´ependance des composantes individuelles ne rend pas
souhaitable cette
d´emarche, et on devra avoir recours `a des m´ethodes plus sp´ecifiques, telles que le co-
krigeage, dont nous donnerons une pr´esentation succinte dans le chapitre 3.
• Dans le cadre de ce document, toutes les variables entrant en jeu (sorties et entr´ees de f ) doivent
ˆetre continues, ou au moins ordinales (c’est-`a - dire qu’elles doivent pouvoir ˆetre tri´ees
dans un ordre naturel). Exemples : temp´erature, vitesse du vent, altitude du relief,
pourcentage de votants pour tel ou tel parti politique aux l´egislatives... sont des valeurs
continues. L’ˆage (en ann´ees) des arbres d’une forˆet est une valeur discr`ete mais
ordinale donc on peut utiliser les m´ethodes pr´esent´ees dans ce document. En revanche,
la couleur politique des maires de communes, la langue parl´ee par les habitants d’un pays,
la marque de t´el´evision des foyers... sont des variables cat´egorielles non-ordinales, et donc
en l’´etat peu adapt´ees aux outils propos´es par la G´eostatistique.
Il existe deux options principales pour suivre ce cours. La premi`ere consiste `a prendre les sections
dans l’ordre du document ( `a l’exception du chapitre 1 qui pourra ˆetre pass´e par le lecteur
disposant d ´e j `a d’une solide base en statistiques et probabilit´es), puis `a consid´erer les activit´es
comme des travaux pra- tiques, `a r´ealiser si possible dans un premier temps sans la correction. La
10
seconde mani`ere de proc´eder, plus empirique, consiste `a r´ealiser l’ensemble des activit´es (dans
l’ordre indiqu´e par la num´erotation
11
en chiffres romains), puis compl´eter les points bloquants en ciblant ( `a l’aide de l’index
grammatical et de la table des mati`eres) les sections de cours `a parcourir. Une lecture compl`ete
du document peut alors ˆetre envisag´ee dans un deuxi`eme temps lorsque les notions des bases vues
dans les activit´es sont maˆıtris´ees. Les sections les plus techniques du cours, pouvant
all`egrement ˆetre pass´ees en premi`ere lecture, sont intitul´ees ”Pour aller plus loin...”.
Dans chaque activit´e n´ecessitant des manipulations informatiques, la partie centrale du code est
re- group´ee dans un cadre gris, dont l’entˆete comprend le nom (et le num´ero) de l’activit´e
ainsi que le nom du fichier de script R correspondant dans le r´epertoire des corrections.
Attention : le copier-coller du code depuis le pdf ne fonctionne pas toujours correctement (ajout
in- tempestif d’espaces, en particulier sur les mots-cl´e s R). Il y a trois solutions principales pour r
´esoudre ce probl`eme :
• Aller chercher `a chaque ´etap e la portion de code correspondante dans les corrig´es.
12
Chapter 1
Rappels statistiques
Afin de pouvoir manipuler des quantit´es al´eatoires, nous devons au pr´ealable nous placer
dans un cadre de travail ad´equat. La g´eostatistique lin´eaire se circonscrit `a l’utilisation des deux
premiers mo- ments statistiques. L’objectif de cette section est donc de rappeler les ´el´e ments th
´eoriques n´ecessaires
`a la compr´ehension des notions d’esp´erance et de covariance. Le lecteur int´eress´e pourra
trouver une pr´esentation plus compl`ete dans l’excellent ouvrage de Lecoutre (2002).
P : A → R
(1.1)
α 1→ P(α)
• Soient A1, A2, ...An, une suite de n ´ev`enements incompatibles de A, i.e. d’intersections
mutelles vides (i /= j ⇒ Ai ∩ Aj = ∅) :
n
n
P Ai = LP(Ai) (1.2)
[
i=1 i=1
Ce trois`eme axiome stipule que la probabilit´e de l’union d’un ensemble d’´ev`enements disjoints est
tou- jours ´egale `a la somme des probabilit´es d’apparition des ´ev`enements pris
individuellement. Lorsque les ´ev`enements ne sont plus disjoints, la relation 1.2 se transforme en une
in´egalit´e, comme le montre l’exemple ci-apr`es.
Exemple 1.1. L’E´ ducation Nationale indique qu’en 2010, 10.8 % des coll´egiens ont suivi
l’option d’enseignement du Latin, et 7.1 % celle du Grec ancien. En notant AL et AG les
´ev`enements corre- spondants, on a donc P(AL) = 0.108 et P(AG) = 0.071. Pour autant, selon la
mˆem e source, seuls 11.9
1
Formellement, A est une tribu sur Ω, c’est-a-dire un sous-ensemble de l’ensemble P(Ω) des parties de Ω,
assurant ainsi certaines propri´et´es de stabilit´e n´ecessaires pour ´etablir une th´eorie probabiliste. En pratique, lorsque Ω
13
est discret, on peu prendre sans vergogne A = P(Ω).
14
% ont suivi au moins une des deux options : P(AL ∪AG) = 0.119 :( P(AL) +P(AG) = 0.179, puisqu’on
doit retrancher `a la somme la probabilit´e qu’un coll´egien ait choisi les deux options.
Dans le cas non-disjoint et avec deux ´ev`enements A et B, on obtient la formule bien connue :
t )
P(A ∪ B) = P (A \ B) ∪ (B \ A) ∪ (A ∩ B)
= P(A \ B) + P(B \ A) + P(A ∩ B)
t ) t ) (1.4)
= P(A) − P(A ∩ B) + P(B) − P(A ∩ B) + P(A ∩
B)
= P(A) + P(B) − P(A ∩ B)
Exemple 1.2. On prend place `a bord d’un v´ehicule et on s’int´eresse `a l’´etat du prochain feu
tricolore rencontr´e. L’ensemble Ω est donc compos´e de trois ´el´ements correpondants aux ´etats
possibles : vert (V ), orange (O) et rouge (R), d ’ o u` Ω = {V, O, R}. En particulier, le passage est
autoris´e A1 = {V, O}
ou interdit A2 = {R}. L’ensemble des ´ev`enements possibles est alors A = {∅, A1, A2, Ω}. Si on
suppose que chaque feu est programm´e pour ˆetre au rouge pendant 60 % du temps, au vert pendant
35 % du temps et enfin `a l’orange le temps restant, on en d´eduit la mesure de probabilit´e
associ´ee : P(∅) = 0, P(A1) = 0.35 + 0.05 = 0.4, P(A2) = 0.6 et P(Ω) = 1. On v´erifiera alors `a
titre d’exercice que les 3 axiomes de Kolmogorov sont v´erifi´es.
Remarquons que le choix de l’ensemble des ´ev`enements A `a partir de Ω n’est pas unique. En
fonction des besoins, on aurait pu proposer la mod´elisation suivante : le passage est s´ec ur i s´e B1 =
{V } ou alors, le passage est d´econseill´e, voire interdit B2 = {O, R}, ce qui donne : A = {∅, B1,
B2, Ω}. Pour un niveau de granularit´e maximale, on peut combiner tous les ´ev`enements, en
ajoutant donc C1 = {R, V } (les consignes donn´ees par la feu sont claires) et C2 = {O} (le passage
est laiss´e `a l’appr´eciation du conducteur). On obtient alors : A = P(Ω) = {∅, A1, A2, B1, B2, C1,
C2, Ω}. Nous laissons le soin au lecteur de calculer, `a titre d’exercice, les probabilit´es des diff
´erents ´ev`enements.
En g´en´eral, l’ensemble A n’est pas d´efini explicitement. Dans ce cours, nous utiliserons le symbole
ω ∈ Ω pour d´esigner une r´ealisation stochastique quelconque, i.e. l’issue d’une exp´erience al´eatoire.
Formellement, on peut d´efinir une variable al´eatoire r´eelle X comme une fonction qui, `a chaque
´eventualit´e ´el´ementaire ω associe une valeur r´eelle x = X(ω).
15
X : Ω → R
(1.5)
ω 1→ X(ω)
Traditionnellement, on note en majuscule une variable al´eatoire, et en miniscule une r´ealisation donn
´ee (quelconque) de cette variable.
Exemple 1.3. Dans une version simplifi´ee du Loto, un joueur choisit 5 num´eros dans une
grille de nombres allant de 1 `a 49. On admet que les gains varient de la mani`ere suivante en fonction
du nombre de num´eros corrects : 4 e (2 num), 21 e (3 num), 490 e (4 num) et 95200 e (5 num).
L’ensemble fondamental correspondant est donc Ω = {1, 2, ...49}5 et il contient pr`es de 300
millions d’´el´ements. Parmi tous les ´ev`enements possibles, on note :
et on s’int´eresse plus particuli`erement aux ´ev`enements 2 A2, A3, A4 et A5. On d´efinit alors la
variable al´eatoire r´eelle X d´enotant le gain du joueur :
4 si ω ∈ A2
Supposons que le choix du joueur est le suivant (37, 5, 48, 15, 29). Une r´ealisation al´eatoire
particuli`ere, par exemple ω = (5, 42, 2, 29, 37) produira donc la variable x = X(ω) = 21.
La fonction PX n’´etant pas commode `a manipuler (en particulier, il est tr`es difficile de la repr
´esenter graphiquement puisqu’elle prend en entr´ee un intervalle de nombres r´eels), on la r
´eduit `a une seule variable scalaire en ne consid´erant que les intervalles r´eels du type ] − ∞;
x]. On obtient alors une
fonction r´eelle classique : la fonction de r´epartition.
2
Notons que tous ces ´ev`enements ne comportent pas le mˆeme nombre d’´eventualit´es ω. Par exemple, il n’y a qu’un
seul tirage qui satisfasse A5, alors que A4 par exemple comporte 5 × 44 = 220 ´el´ements.
16
D´efinition 1 (Fonction de r´epartition)
Lorsqu’il n’y a pas d’ambigu¨ıt´e sur la variable concern´ee, nous noterons F cette fonction. Par ailleurs,
`a l’aide des axiomes de Kolmogorov, on d´emontre facilement les propri´et´es suivantes.
Exemple 1.4. On donne ci-dessous en figure 1.1 la fonction de r´epartition de l’erreur (en m)
com- mise par un r´ecepteur GPS de randonn´ee (i.e. la distance entre la position vraie et la
position es- tim´ee). Cette fonction permet la d´etermination imm´ediate de plusieurs indicateurs,
comme la m´ediane
m = F−1(0.5)
X = 1.91 m. On y observe ´egalement que 95% des erreurs sont inf´erieures `a 6.63 m.
1
95 %
0
0
Probabili
50 %
0
0
0
1.91 m 6.63 m
0 5 10 15
Erreur (m)
Fig. 1.1. Fonction de r´epartition FX de la variable al´eatoire r´eelle X d’erreur GPS (en m).
17
1.4 Densit´e de probabilit´e
La fonction de r´epartition est un outil pratique, mais ne donne cependant que des informations
globales sur la loi P (c’est-`a - dire des valeurs de probabilit´es int´egr´ees sur des intervalles plus ou
moins larges). Si on reprend l’exemple de l’erreur commise par un GPS, on observe qu’il existe une
infinit´e (qui plus est non denombrable) de valeurs possibles entre 0 et 15 m. Chacune d’elles a
donc logiquement une probabilit´e nulle d’apparaˆıtre. Qu’en est-il si on souhaite tout de mˆem e
quantifier la contribution d’une valeur particuli`ere x dans la loi totale ? On peut s’en sortir en se
pla¸cant sur un voisinage tr`es local de x, par exemple sur l’intervalle I = [x; x + dx], puis en
calculant la probabilit´e qu’une r´ealisation de X appartienne `a I, rapport´ee `a la largeur de I.
Le point (ii ) de la propri´et´e 2 indique
que cette probabilit´e s’exprime par P(X ∈ I) = FX(x + dx) − FX(x). Apr`es division par la largeur dx
de l’intervalle et passage `a la limite dx → 0, on obtient pr´ecisemment la d´eriv´ee de FX.
dFX
π(x) = dx (x)
Remarque : inversement, ´etant donn´ee la densit´e f d’une variable al´eatoire r´eelle, on peut
retrouver sa fonction de r´epartition :
-x
F (x) = f (t)dt (1.7)
−∞
(i ) ∀ x ∈ R π(x) � 0.
fb
(ii ) ∀ a, b ∈ R a π(x)dx = P(X ∈ [a, b])
(iii ) fR π(x)dx = 1
-b b
dF
π(x)dx = - X(x)dx = F (b) − F (a)
a
a dx
ce qui montre le point (ii ). Enfin, en faisant tendre a et b vers l’infini, et `a l’aide du point (iii ) de la
propri´et´e 2, on obtient que l’int´egrale de π sur R vaut 1 (iii ).
18
Attention : lorsqu’elle existe, la densit´e π est positive et son aire sous la courbe vaut 1. Mais il faut
ˆetre vigilant au fait que π n’est pas un probabilit´e ! Elle peut prendre des valeurs sup´erieures `a
1. Pour obtenir une probabilit´e, on doit int´egrer π, comme stipul´e par le point (ii ) de la propri´et
´e 4.
Exemple 1.5. On reprend l’exemple 1.4, et on en d´eduit en figure 1.2 la densit´e de probabilit´e
des erreurs commises par le GPS.
0
Densi
0.02
0
7 8
0 5 10 15
Erreur (m)
Fig. 1.2. Densit´e de probabilit´e π de la variable al´eatoire r´eelle X d’erreur GPS (en m).
Lorsque l’intervalle est petit devant les variations de π, on peut approcher le calcul de la probabilit´e
P(x ∈ ∆x) par π(x)∆x. Par exemple, la probabilit´e que l’erreur commise soit comprise entre 7 et 8
m est : P(7 :( X :( 8) ≈ π(7.5) × (8 − 7) = 2%.
1.5 Esp´erance
Partant `a nouveau de l’exemple 1.4, on peut chercher `a d´eterminer la valeur moyenne des
erreurs commises pas le GPS. On appelle esp´erance math´ematique d’une variable al´eatoire X la
moyenne des valeurs prises par X sur un t r`e s grand nombre de r´ealisations 3 .
D´efinition 5 (Esp´erance)
E[X] = - X(ω)dP(ω)
Suivant que la loi de X est discr`ete ou continue, la d´efinition 5 admet une forme plus explicite :
3
Cette caract´erisation intuitive de l’esp´erance n’a en r´ealit´e rien de trivial, et constitue l’objet d’un th´eor`eme fonda-
mental de la statistique : la loi forte des grands nombres (Lecoutre, 2002).
19
• Dans le cas discret, E[X] est la moyenne des valeurs xi potentiellement prises par X p ond´er
´ees par les probabilit´es d’apparition associ´ees pi :
+∞
L
E[X] = xipi (1.8)
i=0
• Dans le cas continu, si X admet π pour densit´e et si la fonction xπ(x) est int´egrable :
t5i )t544
−i )
pi = P(A i) = t49)
5
9460 440 10
132440 + 21 × + 490 × + 95200 ×
E[X] = 4 × 19068 19068 19068
19068
D’ou` une esp´erance de gain4 de 0.99 e... `a la quelle on doit soustraire le prix du ticket (2.20 e).
Exemple 1.7. Lorsque la variable al´eatoire X peut prendre un nombre infini de modalit´es, ´evaluer
l’esp´erance n´ecessite l’emploi de techniques de s´eries num´eriques ou de calul int´egral. Par exemple,
consid´erons la loi binomiale B(n, p) qui donne la probabilit´e d’obtenir k succ`es `a l’issue de la r´ep
´etition de n exp´eriences al´eatoires identiques de probabilit´e de succ`es individuelle p :
n
P n(X = k) = k p (1 − p)
k n− k
(1.10)
L
+∞ L
+∞
n!
E[X] = n− k
n p (1 − p) =
k k pk(1 − p)n−k
k=0 k k=1
k k!(n − k)!
4
En comptabilisant le num´ero chance, l’esp´erance augmente mais reste toujours n´egative.
20
+∞ +∞
L (n − 1)! L (n − 1)!
= np (k − 1)!(n − 1 − (k −
k=1
pk−1(1 − p)n−k = npk=0 k!(n − 1 − k)! pk(1 −
p)n−1−1))!
k
+∞
L
= np Pn−1(X = k) = np
k=0
On proc`ede de mˆeme avec une loi continue, par exemple la loi norma le standard N (0, 1) (moyenne
√
nulle et variance unitaire), d´efinie par sa densit´e : p(x) = exp(−x2/2)/ 2π
-
1 x2 i+∞
+∞
1
E[X] = x2 dx =h =
√ x − √ − − 2 0
2π − 2 2π
0 0
0.2 0.4
0 1
0 0
0
−3−2−1 0 1 2 3 −3−2−1 0 1 2 3
Propri´et´e 6 (Esp´erance)
Soient X et Y deux variables al´eatoires r´eelles quelconques et a ∈ R : (i ) Esp´erance d’une constante : E[
(ii ) Lin´earit´e de l’esp´erance : E[aX + Y ] = aE[X] + E[Y ]
Remarque : l’esp´erance ´etant un op´erateur lin´eaire, en g´en´eral, pour une fonction f non lin
´eaire, on a E[f (X)] /= f (E[X]) (la moyenne des carr´es des notes d’´etudiants par exemple, n’est
en g´en´eral pas
´egale au carr´e de la moyenne de la classe). De mˆeme, en g´en´eral E[XY ] /= E[X] × E[Y ] (l’´egalit´e
est
cependant v´erifi´ee quand X et Y sont d´ecor´el´ees, cf section 1.7).
1.6 Variance
L’esp´erance d’une variable al´eatoire permet de localiser le centre d’une distribution. Pour caract
´eriser la dispersion de la distribution autour de cette valeur centrale, on a besoin d’un second
indicateur. C’est pr´ecisemment le rˆole de la variance.
21
D´efinition 7 (Variance)
Soit X une variable al´eatoire (discr`ete ou continue). On d´efinit la variance de X comme la valeur moyen
A` nouveau, on a deux expressions explicites diff´erentes suivant que la variable est discr`ete ( `a
gauche) ou continue et `a densit´e ( `a droite) :
L
+∞ -
Var[X] = pi(xi − E[X])2 Var[X] = (x − E[X])2π(x)dx (1.11)
i=0
R
Pour pouvoir donner une interpr´etation physique `a Var[X] on en extrait souvent la racine carr´ee :
D´efinition 8 (Ecart-type)
σX = pVar[X]
Exemple 1.8. Un thermom`etre (dont la pr´ecision de mesure sera suppos´ee absolue, mais qui n’affiche
que des valeurs enti`eres) indique 17◦C. On peut◦ donc supposer que la temp´erature T r´eelle est
dis- tribu´ee suivant une loi uniforme entre 16.5 et 17.5◦ (on note U ([16.5; 17.5[]) cette loi) :
- -17.5
tt − E[T
Var[T ] = π(t)dt = (t − 17)2dt
)2 16.5
R
]
- +1/2 1
Var[T ] = t2dt =
−1/2 12
L’´ecart-type de la mesure est donc ´egal `a √1 ≈ 0.29◦C. Ce bruit sur la lecture d’un capteur est appel´e
1
bruit de num´erisation ou encore bruit d’arrondi.
22
Propri´et´e 9 (Variance)
1.7 Covariance
Pour traiter le cas de la somme de variables d´ependantes, on doit introduire la notion de covariance.
D´efinition 10 (Covariance)
Soit (X, Y ) un couple de variables al´eatoires r´eelles. On d´efinit la covariance par la quantit´e :
D´efinition 11 (Corr´elation)
Soit (X, Y ) un couple de variables al´eatoires r´eelles. On d´efinit la corr´elation par la quantit´e :
Cov(X,Y)
ρXY =
σX σY
L’in´egalit´e de Cauchy-Schwarz nous montre alors que ρXY est compris entre −1 et 1.
Remarque s´emantique : on parle d’autocorr´elation (spatiale, temporelle ou autre) lorsque les deux
vari- ables ont ´e t ´e g´en´e r´ees par le mˆeme ph´enom`ene. Par exemple si Z(t) d´esigne l’altitude du
Mont-Blanc
23
`a l’ann´ee t, alors on pourra parler de l’autocorr´elation entre Z(t1) et Z(t2). Lorsque le ph
´enom`ene Z ´e t u d i´e est implicite, on pourra noter par abus de langage ρ(t1, t2) et Cov(t1, t2). Un
couple de variables (X, Y ) est dit d´e c o r r´e l´e lorsque ρXY = Cov(X, Y ) = 0. Attention au pi`ege
en pratique : Cov(X, Y ) proche de 0 n’implique pas ρXY proche de 0 et r´eciproquement ! Enfin, un
ph´enom`ene est dit d´ecorr´el´e lorsque les valeurs qu’il prend sont deux-`a - deux d´ecor´el´ees.
Fig. 1.4. De gauche `a droite : champ al´eatoire d´e co rr´el´e (ρ = 0), champ anti-corr´el´e (ρ <
0), champ faiblement corr´el´e (ρ > 0) et champ fortement corr´el´e (ρ » 0).
Remarque : Var[X] = Cov(X, X). Ainsi, pour un ensemble de n variables al´eatoires X1, X2, ...Xn,
on peut formuler toutes les informations de variances et de covariances dans une unique matrice carr
´ee de dimension n et de terme g´e n´e r a l (Σ)ij = Cov(Xi, Xj). On l’appelle la matrice de
covariance. Si les variables sont d´ecor´el´e es (et a fortiori si elles sont ind´ependantes), Σ est
une matrice diagonale.
Var(X1) Cov(X1, X2) · · · Cov(X1, Xn)
Cov(X 2, X1) Var(X2) · · · Cov(X2, Xn) (1.12)
Σ X= ..
. ··· . .
Cov(Xn, X1) ··· ··· Var(Xn)
La matrice de covariance est un outil fondamental dans le domaine de la propagation des incertitudes.
Soit X = (X1, X2, ...Xn)T un vecteur al´eatoire (i.e. un vecteur contenant un ensemble de variables al
´eatoires). Si on se donne une matrice A ∈ Rm×n, l’application X 1→ AX est une application lin
´eaire
transformant un groupe de n variables al´eatoires en un second groupe de m variables al´eatoires. Le
th´eor`eme suivant permet de propager les incertitudes des variables d’entr´ee aux variables de sortie.
ΣY = AΣXAT
Que faire lorsque l’application n’est pas lin´eaire ? Soit f une fonction scalaire non-lin´eaire, et X
une variable al´eatoire de variance Var(X). Pour ´evaluer la variance de Y = f (X) une solution
prˆete `a l’emploi consiste `a lin´eariser f autour d’une valeur de r´ef´erence a :
24
(2) (n)
f (a) f (a) t )
f (X) = f (a) + f t(a)(X − a) + (X − a)2 + ... + (X − a)n + o (X − a)n
2 n
[ ] [ ]
on a : Var[f (X)] ≈ Var f (a) + f t(a)(X − a) = Var f (a) + f t(a)2 Var[X − a] = f t (a)2Var[X]
Bilan : si x = 1 ± 0.02 ( ou` 0.02 repr´esente l’´ecart-type de x), alors f (x) = x2 = 1 ± 0.04.
On peut g´en´eraliser cette m´ethode pour une fonction f : Rn Rm, dont on peut calculer
1
la matrice jacobienne J de terme g´en´eral (J)ij = , o u` f1, f2, ...fm sont les composantes de
∂fi
∂
f.
Σf (X) = JΣX JT
Exemple 1.9. On reprend l’exemple du thermom`etre. Nous avons vu que le bruit de num
´erisation induit une erreur de lecture d’´ecart-type environ ´egal `a trois dixi`emes de degr´e.
On fait un second relev´e, et on lit `a pr´esent la valeur 20◦, soit une augmentation de temp
´erature ∆T de 3◦. Quelle est
l’incertitude sur la valeur de ∆T ?
On note σ = 0.3 l’incertitude de lecture sur une mesure, et X1 et X2 les deux mesures effectu´ees.
Elles sont d´e co r´e l´e es , donc de matrice de covariance diagonale : Σ = σ2I2 o u` I2 est l’indentit
´e de R2. En exprimant ∆T sous la forme matricielle ∆T = [−1 + 1]X, le th´eor`e me de
propagation des variances
nous donne imm´ediatement la matrice de covariance (ne contenant qu’un ´e l´e ment) de ∆T :
[ ] σ2 0 −1
Σ∆T −1 = 2
0 +
√
On en d´eduit l’´ecart-type sur la diff´erence de temp´erature : σ∆T = σ 2. La diff´erence de temp
´erature mesur´ee est donc : ∆T = 3 (±0.41) ◦C.
Exemple 1.10. A l’issue d’un examen, un ´etudiant re¸coit 5 notes (sur 20 points) : math
´ematiques (coeff 12), physique-chimie (coeff 7), informatique (coeff 7), fran¸cais (coeff 4) et
anglais (coeff 2). On suppose que l’´ecart-type de l’erreur d’´evaluation de chaque copie est de 3
points. Par ailleurs un seul et mˆem e ´evaluateur corrige les copies de math´ematiques et
d’informatique, ce que nous mod´eliserons par une corr´elation (ρ = 50%) des erreurs
25
d’´evaluation sur ces deux ´epreuves. Calculer l’incertitude sur la moyenne de l’´etudiant. Qu’en
est-t-il si on suppose `a pr´esent les corrections de math´ematique
26
et d’informatique comme ´etant parfaitement d´ecorr´el´ees ?
On exprime sous forme matricielle la moyenne de l’´etudiant : µ = 1 AX, avec A le vecteur des
3
coefficients et X le vecteur al´eatoire des notes obtenues. Par ailleurs, on a Var[X]
2 = σ = 9 et
2
9 0 4.5 0 0
0 9 0 0 0
ΣX 4.5 0 9 0 0
=
0 0 0 9 0
0 0 0 0 9
La note moyenne de l’´etudiant au module est donc entˆach´ee d’une erreur d’´evaluation d’´ecart-type
√3.03 = 1.74 points. En utilisant le graphique 1.3 de la fonction de r´epartition de la loi normale,
on peut (en premi`ere approximation) annoncer qu’avec une probabilit´e de 95% l’impact de
l’erreur d’´evaluation sur la moyenne obtenue par l’´etudiant `a l’examen, sera inf´erieure `a 2 ×
1.74 = 3.48 points.
En supposant `a pr´esent que les copies de math´ematiques et d’informatique sont corrig´ees par deux
´evaluateurs diff´erents, la matrice ΣX devient diagonale et on a :
On remarque donc que l’erreur sur la moyenne d’examen est amplifi´ee par le fait qu’un mˆeme
´evaluateur corrige deux ´epreuves. Il s’agit d’une r`egle g´en´erale : les corr´elations positives d
´emultiplient les erreurs de calculs alg´ebriques de type int´egral (somme, cumul, moyenne...) et r
´eduisent les erreurs de calculs diff´erentiels (d´eriv´ees, pentes, vitesse...). L’inverse est aussi v
´erifi´e pour les corr´elations n´egatives.
+ Fonction additive :
moyenne, somme, décompte, intégration...
- Fonction soustractive :
différence, pente, vitesse, accélération...
Fig. 1.5. Impact d’un bruit `a corr´elation n´egative ( `a gauche), d´ecorr´el´e (au centre) et `a corr
´elation positive ( `a droite) sur des applications de type additif (en haut) et soustractif (en bas).
27
1.8 Moments statistiques
Dans cette derni`ere section, qui pourra ˆetre pass´ee en premi`ere lecture, nous g´en´eralisons les
notions d’esp´erance et de variance, et nous tentons par la mˆeme occasion de montrer qu’elles ne
constituent que les premiers coefficients d’une caract´erisation des lois de probabilit´es par un d
´eveloppement en s´erie de fonctions `a base de quantit´es appel´es moments. Cette discussion
devrait nous permettre de comprendre le concept (et les limites) de la g´eostatistique dite lin´eaire.
Dans le but de simplifier la pr´esentation, nous nous placerons `a pr´esent exclusivement dans le
cas d’une variable al´eatoire continue, la g´en´eralisation au cas discret ´etant imm´ediate.
mk = E[Xk]
1t )2l 1 l
E X − E[X] = E X2 − 2XE[X] + E[X]2 = E[X2] − 2E[X]2 + E[X]2 = E[X2] − E[X]2
Var[X] = m2 − m2 (1.13)
1
Cette relation, plus fondamentale qu’il y paraˆıt au premier abord, appelle deux observations :
• D’une part, d’un point de vue informatique, il est possible de calculer la variance (et donc l’´ecart-
type) en une seule passe sur les donn´ees (l `a o u` l’utilisation de la formule classique n
´ecessite 2 passes : une pour calculer la moyenne m1, et une pour calculer les ´ecarts `a m1).
On prendera garde cependant au risque accru d’erreurs d’arrondi num´erique avec cette
formulation.
• D’autre part, sur un plan plus th´eorique, si X repr´esente l’amplitude d’une erreur
commise, alors le terme d’erreur quadratique E[X2] (aussi appel´e MSE pour Mean Square
Error dans la litt´erature anglo-saxonne), peut s’exprimer en fonction de deux composantes
distinctes :
En remarquant que E[X] est la moyenne des erreurs, c’est-`a - dire le biais, on peut aussi ´ecrire :
28
Biais élevé Biais élevé Biais faible Biais modéré
Variance élevée Variance faible Variance élevée Variance modérée
Fig. 1.6. Illustration des deux composantes de l’erreur de point´e dans un jeu de f´echettes : le biais,
i.e. l’erreur syst´ematique, et la variance, i.e. l’incapacit´e `a produire des jets identiques.
On justifie a posteriori le nom de cette fonction par le fait que ses d´e ri v´ees successives d’ordre k prises
en l’origine co¨ıncident exactement avec la suite (mk)k∈N des moment de X.
dkMX(t)
= E[Xk]
dtk I
t=0
29
Th´eor`eme 17 (Relation univoque FGM ↔ DDP)
Soit f : R → R une fonction. Il existe au plus une unique densit´e de probabilit´e π admettant
f pour fonction g´en´eratrice des moments, i.e. solution de l’´equation :
- +∞
f (t) = −∞ etxπ(x)dx
30
Preuve : imm´ediate en posant t = iτ (avec i2 = −1) et `a l’aide de la transformation de Fourier.
Le th´eor`eme 17 revˆet une importance capitale pour la compr´ehension du rˆole des moments
dans la caract´erisation statistique d’une variable. Pour mieux s’en convaincre, effectuons une d
´eveloppement en s´erie enti`ere de la fonction exponentielle dans la d´efinition 15 :
1 l
t2 X + t3 X3
MX(t) = E[etX ] = E 1 + tX 2 + ...
2 3!
+
2 3 t2m t3m
MX(t) = 1 + tE[X] + t E[X 2] + t E[X 3] + ... = 1 + tm + + + ... (1.15)
2 3! 2 3!
Si on met bout-`a - bout toutes les informations dont nous disposons jusqu’`a pr´esent :
• La fonction g´en´eratrice des moments se calcule par une somme ne n´ecessitant que la
connaissance de la suite (infinie) des moments de X (´equation 1.15).
• A partir de cette mˆeme fonction, le th´eor`eme 17 stipule qu’il est possible de reconstruire
sans ambigu¨ıt´e la densit´e de probabilit´e de X.
• L’int´egrale 1.7 nous donne alors la fonction de r´epartition de X sur l’ensemble des r´eels.
Autrement dit, la suite des moments est une caract´erisation compl`ete 5 d’une variable al´eatoire r´eelle.
X : [0, 10]2 R
→ (1.16)
(ω1, ω2) 1→ min(ω1, ω2)
Soit x ∈ [0, 10] une r´ealisation de la variable de temps d’attente. Une analyse graphique rapide
(cf fig. 1.7) permet de d´eterminer la valeur de FX(x) :
5Sous r´eserve d’existence de la fonction g´en´eratrice M , sinon l’unicit´e n’est pas garantie sur R. On pourra trouver
X
un contre-exemple avec la loi log-normale. C’est l’objet du probl`eme de Hamburger (1920).
31
x2 + x(10 − x) + (10 − x(20 − x)
FX(x) = PX ([0, x]) 100
= x)x
100 =
En particulier, on s’assure bien que FX v´erifie les propri´et´es des fonctions de r´epartitions : FX est
croissante, FX(−∞) = FX(0) = 0 et FX(∞) = FX(10) = 1.
Fig. 1.7. Illustration de l’espace fondamental Ω. Chaque point ω = (ω1, ω2) repr´esente une r´ealisation al
´eatoire, avec ωi le temps d’attente du bus i. X(ω) = min(ω1, ω2) est le temps d’attente de l’usager.
Plus g´en´eralement, on peut transposer la loi P sur l’ensemble fondamental `a une loi PX sur la variable al
´eatoire X, d´efinie pour tout intervalle [a, b] ∈ [0, 10] par :
PX([a, b]) = P({(ω1, ω2) ∈ Ω ; a :( min(ω1, ω2) :( b}) = P([a, b]2) a2 − b2 + 20(b − a)
= 100
1 - 10
- 10 xpX(x)dx = x(10 x)dx = 10
E(X) = 50 0 − 3
0
L’usager attendra donc en moyenne 3 min 20. On peut ´evaluer de la mˆem e mani`ere
l’incertitude autour de cette valeur moyenne `a l’aide de la notion de variance. On utilise la
formule 1.13 : Var[X] = E[X2] − E[X]2 (pour profiter du fait que nous avons d ´e j `a calcul´e l’esp
´erance).
-
1 1 x3 x3 l10
2 10
2 50
E ] x pX(x)dx = =
0 3 4 3
50
√
J
100 2
D ’o u` : Var[X] = 3 −
50
9= 9 . On en d´eduit alors l’incertitude σX =
50
Var[X] = 5
3 ≈ 2.35, soit
un ´ecart-type sur le temps d’attente de 2 min
32
A titre d’exercice, on g´en´eralisera cette ´etude au cas d’un arrˆet desservi par n lignes de bus.
Par ailleurs, on peut pousser le sc´enario un peu plus loin, en supposant que le premier bus
arrivant est syst´ematiquement complet. L’usager doit alors attendre le second bus.
On pose Y : (ω1, ω2) 1→ max(ω1, ω2) la variable al´eatoire qui `a une r´ealisation donn´ee associe le
temps d’attente de cet usager. Par sym´etrie du probl`eme, on trouve ais´ement la densit´e de Y :
pY (y) = 10 − pX(y) = y
50
1 l
Cov(X, Y ) = E (X − E[X])(Y − E[Y ])
1 l
= E XY − Y E[X] − XE[Y ] + E[X]E[Y ] (1.17)
= E[XY ] − E[X]E[Y ]
Il ne nous reste alors plus qu’`a ´evaluer l’esp´erance de la variable Z = XY . On doit exprimer la
densit´e de probabilit´e p(x, y). Malheureusement, X et Y n’´etant pas ind´ependantes comme
nous allons le voir, p(x, y) /= p(x)p(y). En revanche on peut ´ecrire : p(x, y) = p(x|y)p(y) o u`
p(x|y) est la probabilit´e
conditionnelle de X sachant Y . Par exemple, si on sait que le second bus (Y ) est arriv´e apr`es 8
minutes d’attente, alors on en d´eduit que le temps d’attente du premier bus suit n´ecessairement
une loi uniforme entre 0 et 8 : Y ∼ U ([0, 8]). D ’ o u` :
( 1) ( y ) 1
p(x|y) ∼ U ([0, y]) et donc : p(z) = p(x, y) = × =
y 5 5
-
- 10 - 1 - 10 -
E[Z] =
zp(z)dz = y xyp(x, y)dxdy = y xydxdy = 25
R x=0 50 y=0 x=0
y=0
( )( )
10 20
Par ailleurs, on ´evalue E[X]E[Y ] = = 200
, ce qui nous permet de terminer le calcul :
3 3 9
33
Cov(X, Y )
ρXY = = 50%
σXσY
34
Enfin, supposons que deux personnes attendent `a la station, et que le bus ne contienne plus qu’une
place libre. Calculons le retard R pris par l’un des usagers par rapport `a l’autre.
20 10
E[R] = E[Y − X] = E[Y ] − E[X] = − = 3.33 min
3 3
On remarque que la moyenne et l’´ecart-type de l’avance d’un usager par rapport `a l’autre, sont
stricte- ment ´egaux `a ceux du temps d’attente de l’usager qui prend le premier bus, ce qui paraˆıt
intuitif. Tout se passe comme si R correspondait au temps d’attente d’un usager arrivant `a la
station au moment du d´epart de X.
35
Chapter 2
Analyse variographique
36
D´efinition 18 (Processus stochastique)
Z : D×Ω→R
Cette variable al´eatoire Z est appel´ee fonction al´eatoire (FA), processus stochastique ou encore
signal al´eatoire. Quand le domaine D contient plusieurs dimensions, on parle aussi de champ al
´eatoire .
La fonction Z est une fonction de 2 variables : x d´efinie sur un domaine analytique quelconque
(i.e. sur un espace physique perceptible, par exemple l’espace g´eographique) et ω d´efinie sur
une espace probabilis´e. L’espace produit cart´esien D × Ω est donc un espace dit topo-
probabiliste. Il peut ˆetre
instructif de regarder ce qu’il advient quand on fixe l’une des 2 variables :
• Pour une ´eventualit´e ω ∈ Ω donn´ee, la r´ealisation z(.) = Z(., ω) est une trajectoire du
proces- sus. C’est une fonction classique de D → R : la variable r´egionalis´ee.
• En un lieu x ∈ D donn´e, la variable Z(x,.) est une variable al´eatoire r´eelle classique,
dont la valeur ne d´epend plus que de la r´ealisation ω consid´er´ee.
Pour r´ealiser un processus stochastique, un protocole simple et ne n´ecessitant que peu de mat´eriel
(et que l’on pourra mˆeme faire en pens´ee si on ne souhaite pas heurter sa sensibilit´e ´ecologique),
consiste
37
`a prendre une feuille de papier, `a la froisser, puis `a essayer de la remettre `a peu pr`es `a plat sur
la table. Le motif obtenu est alors parfaitement al´eatoire, et en r´eit´erant l’exp´erience, on
obtiendra en toute probabilit´e une g´eom´etrie de pliage diff´erente. Malgr´e tout, la forme et la
longueur typique des lignes de brisure (i.e. certaines des caract´eristiques d’autocorr´elation spatiale
du processus de froissage) vont rester fortement similaires d’une r´ealisation `a l’autre. La mˆeme
observation pourrait ˆetre effectu´ee sur le processus de formation du relief montagneux (si
toutefois nous pouvions rejouer le temps en quelques sortes). Dans les deux cas d’exemple, les
forces globales externes (pression des mains sur la feuille, convergence des plaques tectoniques) sont
sensiblement les mˆemes. C’est la pr´esence de petites variations locales qui vont g´en´erer l’al
´eatoire des r´ealisations. Tout au long de ce cours, il pourra
ˆetre int´eressant de revenir `a cette exp´erience de la feuille de papier, qui contrairement au
processus orog´enique, pr´esente l’avantage de pouvoir ˆetre conceptuellement rejou´ee).
La figure 2.2 donne un exemple de 8 r´ealisations d’un processus stochastique de MNT. En r´eali t´e ,
une et une seule de ces r´ealisations correspond au relief d’une zone existant r´eellement. Les 7
autres sont des simulations informatiques programm´ees pour reproduire les caract´eristiques
statistiques du champ r´eel. La difficult´e certaine `a identifier le champ mod`ele parmi ces 8 r
´ealisations, valide l’efficacit´e de la simulation. La r´eponse au probl`eme sera donn´ee dans le
chapitre 4.
Fig. 2.2. 8 r´ealisations d’un processus stochastique Z : R2 × Ω → R pour 8 tirages ω1, ω2, ...ω8.
Le champs z(.) = Z(., ωi) est la carte de relief g ´e n ´e r ´e e par la i-eme r´ealisation. La quantit´e
Z(x,.) est une variable al´eatoire traduisant l’incertitude sur l’altitude au lieu x ∈ R2 de la carte.
Q1. On appelle marche al´eatoire sur R `a temps discret1 la r´ealisation d’une suite de variables al´eatoires
X0, X1, X2... d´efinie `a chaque pas de temps t ∈ N par :
0 si t =
0 =
X � (2.1)
Xt−1 + εt sinon.
t
o u` εt ∼ N (µ, σ2) est une suite de variables al´eatoires d´ecorr´el´ees, distribu´ees suivant une loi
normale de moyenne µ et d’´ecart-type σ.
De mani`ere informelle, X repr´esente la position d’une personne se d´epla¸cant sur un axe uni-
dimensionnel en partant d’un position arbitrairement fix´ee `a 0. A` chaque pas de temps t, elle peut
se d´eplacer d’une
38
1
On parle aussi de mani`ere imag´ee de marche de l’ivrogne.
39
quantit´e εt (en arri`ere si εt < 0 et en avant sinon). La quantit´e εt est ´echantillonn´ee al´eatoirement (et
`a chaque pas de temps t) suivant la loi normale (cf fig. 1.3). On pourra trouver une analyse th
´eorique de ce processus dans Barret (2009).
Remarque : observons que εt est lui mˆeme un processus stochastique. Il est enti`erement d´ecorr
´el´e et se rencontre sous le nom de bruit blanc dans litt´erature (Picinbono, 1998)).
On ´ecrira une fonction random_walk(N,m,s) prenant en entr´ee le nombre N de pas de temps `a g´en
´erer ainsi que les param`etres (moyenne m et ´ecart-type s) du processus de d´eplacement εt.
random_walk = function(N,m,s){
X = rep(0, N) # Initialisation
for (i in 2:N){
X[i] = X[i-1] + rnorm(1,m,s) # Simulation
}
return(X)
}
Le code ci-dessus est une transcription directe de la d´efinition 2.1. La fonction R rnorm(n,m,s) g
´e n`e r e un vecteur de n r´ealisations d’une loi normale de moyenne m et d’´ecart-type s.
Lorsqu’un signal al´eatoire est d´efini de mani`ere r´ecursive, `a l’instar de 2.1, on parle de repr
´esentation markovienne du processus. Un processus admettant une repr´esentation markovienne est
qualifi´ee de markovien. Remarquons que 2.1 peut ˆetre programm´e de mani`ere plus concise `a
l’aide de la fonction cumsum(Y) qui effectue une somme cumul´ee des termes de Y : X =
cumsum(rnorm(N,m,s)).
Q2. Apr`es avoir sp´ecifi´e les valeurs des param`etres (par exemple N=500, m=0 et s=1 pour
commencer) repr´esenter une r´ealisation du processus `a l’aide de la fonction plot :
plot(random_walk(N,m,s), type=’l’)
Faire varier les param`etres et observer les r´ealisations produites. En particulier, on pourra
modifier la tendance globale avec le param`etre m.
Q3. Pour un triplet de param`etres (N,m,s) fix´e, repr´esenter (sur le mˆeme graphe) 10 r
´ealisations du processus stochastique X.
Q4. On se place au niveau d’un ´epoque donn´ee tps (par exemple 150). Compiler dans un
unique vecteur les valeurs prises par le processus X `a l’abscisse tps sur 10 r´ealisations diff
´erentes.
Q5. Repr´esenter la distribution des valeurs prises par le processus X `a l’abscisse tps. Si L
est le vecteur contenant les r´ealisations de Xtps, on pourra utiliser la commande :
plot(density(L)).
40
Script 2. Generation d’une marche al´eatoire [code1.r]
N = 500; m = 0; s = 1 # Parametres
abline(v=tps, lty=2)
plot(density(L)) # Distribution de X[tps]
Pour aller plus loin, on pourra ´etendre le code pour repr´esenter simultan´ement les distributions
au niveau de deux ´epoques diff´erentes, par exemple 100 et 350. La figure 2.3 illustre le r´esultat
obtenu.
1
0
0.
3
0
5
0
2
0
0.
1
0
Den
X
0
0
0.
−
5
−
1
−
2
0.
−
0 100 200 300 400 500 0 100 200 300 400 500 −100 −50 0 50 100
La figure 2.3 illustre bien le concept d’espace topo-probabiliste. A` gauche, la r´ealisation ω ∈ Ω est
fix´ee, et on observe l’´evolution de la r´ealisation sur son domaine A` droite le lieu du do-
analytique.
maine est f ix´e : t = 100 (en rouge) ou t = 350 (en bleu), et on observe la variabilit´e stochastique
de Xt sur Ω, i.e. la densit´e de probabilit´e π(Xt) `a t fix´e. Au centre, on essaye de combiner la repr
´esentation des deux espaces (R en abscisse et Ω en superposant les courbes).
Par ailleurs, on observe que la variance Var[Xt] augmente `a mesure que t augmente (ce qui est
assez intuitif, la position du mobile est d’autant plus incertaine que le temps passe). En revanche l’esp
´erance E[Xt] est constante et ´egale `a 0. Nous dirons par la suite que le processus est
stationnaire `a l’ordre 1 (i.e. pour son moment d’ordre 1, l’esp´erance) mais non-stationnaire `a
l’ordre 2.
Dans cette section, nous allons essayer d’acqu´erir une compr´ehension empirique de l’approche
em- ploy´ee par la G´eostatistique, en particulier pour r´esoudre le probl`eme d’interpolation.
Pour ce faire, nous utilisons une comparaison inspir´ee de Arnaud et Emery (2000) : on
consid`ere 6 exp´eriences al´eatoires (que nous repr´esenterons de mani`ere sch´ematique par
une collection de d´es `a jouer), dont la r´ealisation est observ´e pour 5 d’entres elles (x1 `a x5) et
inconnue pour la derni`ere (x6). On nous demande de pronostiquer le r´esultat de cette derni`ere
exp´erience.
x1 x2 x3 x4 x5 x6
En l’´etat des connaissances, on serait bien en peine de r´epondre. Probablement, le mieux que
l’on puisse faire pour minimiser les risques d’un ´ecart trop important `a la v´e r i t´e , ce serait de
parier sur l’esp´erance a priori de chaque exp´erience al´eatoire individuelle (i.e. 3.5 pour le cas du
d ´e `a 6 faces), ce qui est avouons-le, un prognostic relativement pauvre. L’´ecart-type associ´e, on
pourra le v´erifier `a titre d’entraˆınement, vaut 1.71.
En revanche, qu’en est-il si on sait `a pr´esent que les r´esultats de l’exp´erience sont spatialement corr
´el´es, ce que nous mod´eliserons graphiquement par des ressorts entre les diff´erentes r
´ealisations ?
+/- 1
x1 x2 x3 x4 x5 x6
On va alors intuitivement chercher `a regarder ce qui se passe sur la portion observ´ee pour
quantifier cette corr´elation. On y observe que les valeurs prises par deux r´ealisations voisines
ne diff`erent (en r`egle g´en´erale) pas plus d’une unit´e. Une estimation sur x6 serait alors
vraisemblablement 2 ± 1.
G´en´eralisons cette analogie pour le cas de l’interpolation des valeurs d’un MNT (fig. 2.4). Le
semis de relev´es d’altitudes nous permet d’´etudier les corr´elations statistiques du ph´enom`ene.
Dans une seconde phase, le mod`ele de corr´elation ainsi i nf´er´e va ˆetre utilis´e pour pr´edire plus
finement les valeurs inconnues (fig. 2.5). Nous ´etudierons cette seconde ´etape dans le chapitre 3.
• Collecter des informations aux points observ´es pour les transf´erer aux sites inconnus n
´ecessite une uniformit´e des propri´et´es statistiques du ph´enom`ene sur tout le domaine
d’´etude. C’est la stationnarit´e.
• Nous disposons initialement de n mesures d’altitude, mais il ne faut pas oublier que ces
43
obser- vations appartiennent toutes `a une unique r´ealisation Z(ω) du processus
stochastique. Pouvoir inf´erer des informations de nature statistique `a partir d’une unique r
´ealisation n’est absolument
44
pas trivial, et requiert une second hypoth`ese un peu plus technique : l’ergodicit´e.
y4 y4
? ? ?
y3
? ? y3
? ? ?
y2 ? y2
? ? ?
y1 ?? y1
?
x1 x2 x3 x4 x5 x6 x1 x2 x3 x4 x5 x6
Fig. 2.4.
A` gauche : probl`eme d’interpolation consistant `a trouver les valeurs des r´ealisations
inconnues (en rouge) `a partir des sites observ´es (en A` droite : ´etude des corr´elations entre les
noir). r´ealisations (uniquement `a l’aide des
observations).
y4
y3
y2
y1
x1 x2 x3 x4 x5 x6
o u` X = [x1, x2, ...xn] est un vecteur (de dimension finie) r´epertoriant les n sites concern´es par la
loi fini-dimensionnelle. Remarquons que pour un domaine de taille finie p, il y a autant de lois FX
que de vecteurs X possibles, `a savoir 2p, le nombre de D partitions de . Pour un domaine continu
D en pratique, et on choisit
(e.g. R), la connaissance de la famille (infinie) de ces lois est impossible
de caract´eriser Z uniquement `a l’aide de ses 2 premiers moments : moyenne et covariance.
2.3.1 La Stationnarit´e
Informellement, la propri´et´e de stationnarit´e d’un processus stochastique d´ecrit l’uniformit´e
de ses propri´et´es statistiques sur son domaine de d´efinition analytique. Cela ne signifie en
aucun cas qu’il est constant, mais seulement que ses r´ealisations ont les mˆemes chances de produire
les mˆemes motifs en tout lieu x du domaine.
45
On distingue plusieurs types de stationnarit´e en fonction des propri´et´es cibl´ees.
Un processus stochastique est dit stationnaire au sens fort, ou au sens strict si, et seulement si, toutes ses lo
Remarque : h est un vecteur de mˆeme dimension que les points du domaine D. Donc, dans le
cas du probl`eme mod`ele du MNT, h est un vecteur 2D, avec deux composante Est-Ouest et Sud-
Nord.
L’hypoth`ese de stationnarit´e au sens fort est beaucoup trop lourde en pratique, puisque impossible
`a v´erifier, mˆeme de mani`ere approch´ee.
Le point (i ) peut ˆetre reformul´e comme suit : il existe une valeur m telle que E[Z(x)] = m pour
tout point x ∈ D. Par ailleurs, un processus v´erifiant cette condition (i ), sans n´ecessairement v
´erifier (ii ), est qualifi´e de stationnaire `a l’ordre 1.
Cette propri´et´e (et sa d´emonstration) mettent clairement en ´evidence que la covariance des
valeurs prises pas le ph´enom`ene entre deux sites s´epar´es d’un vecteur _v , est ´egale `a la
covariance entre la valeur prise en l’origine et celle prise en un point _v . Autrement dit, la
ressemblance statistique en- tre les valeurs prises en deux sites, ne d´epend que de leur position
relative, et non de l’origine du rep`ere.
A` titre d’exemple, le processus de marche al´eatoire ´etu d i´e dans l’activit´e I (fig. 2.3) est
stationnaire `a l’ordre 1 (la valeur moyenne des signaux est uniforme) mais non-stationnaire `a
l’ordre 2 (la variance,
46
traduite ici par la dispersion des r´ealisations, augmente le long de l’axe des abscisses). Il n’est
donc pas stationnaire au sens faible, et a fortiori, il n’est pas non plus stationnaire au sens strict.
Nous d´emontrerons rigoureusement cette affirmation plus loin.
Par commodit´e, nous ajoutons une hypoth`ese subsidiaire, qui n’est pas indispensable (et pourra
facile- ment ˆetre relax´ee), mais qui simplifiera la pr´esentation : l’isotropie.
D´efinition 22 (Isotropie)
Soit Z un processus stationnaire au sens faible. On dit que Z est isotrope si, et seulement si, sa covariance n
On appelle covariogramme cette fonction C. C’est une fonction classique de R+ dans R+, prenant
en entr´ee la distance hij s´eparant deux sites xi et xj et retournant la covariance des valeurs
prises par le ph´enom`ene en ces deux sites : Cov[Zi, Zj]. On donne un exemple de covariogramme en
figure 2.6.
1
0
0
C
0
0
0
Fig. 2.6. Pour une distance h donn´ee s´eparant 2 lieux, le covariogramme C(h) d´esigne la
covariance (ou si on pr´ef`ere la ressemblance) entre les valeurs prises par le ph´enom`ene en ces
2 lieux.
Plus le covariogramme d´ec r oˆı t rapidement, plus la structure du ph´enom`ene sous-jacent est
locale. Par exemple, on peut parfaitement imaginer que la figure 2.6 repr´esente le covariogramme
du relief sur une zone montagneuse. Pour h > 600 m, on observe que la corr´elation entre sites est
quasi-nulle. Cette valeur critique (que nous appellerons port´ee par la suite) correspond
47
typiquement `a la taille
2
Il existe des contre-exemples artificiels, mais cette propri´et´e est vraie en g´en´eral pour des ph´enom`enes naturels.
48
caract´eristique d’une structure : vall´ee, colline...
2.3.2 L’ergodicit´e
Pour estimer le covariogramme en pratique, nous devons partir des observations z1, z2, ...zn, qui ne
sont que des mesures ponctuelles pr´elev´ees sur une unique r´ealisation. Il est important ici de
bien saisir l’importance de cette limitation. Dans le cadre de la G´eostatistique, les donn´ees collect
´ees sur la variable r´egionalis´ee (altitudes, temp´eratures...) sont le r´esultat d’un double
´echantillonnage, d’abord dans l’espace probabiliste Ω, puisque seule une r´ealisation est disponible,
puis dans l’espace analytique
D (i.e. l’espace physique r´eel) puisqu’on ne peut observer qu’un nombre fini de sites.
Observation
Réalisation
Fig. 2.7. Tout l’enjeu du probl`eme consiste `a inf´erer des informations statistiques sur un ph
´enom`ene (mo d´elis´e par le processus stochastique X) `a partir des donn´ees disponibles x˜ ,
qui ne sont que des observations partielles d’une unique r´ealisation de ce ph´enom`ene.
D`e s lors, se pose la question de savoir comment d´eduire des informations de nature statistique `a
partir d’une unique r´ep´etition d’une exp´erience al´eatoire. L’id´ee centrale va consister (lorsque
c’est possible)
`a compenser le manque de r´ealisations par l’´etendue spatiale des informations collect´ees.
Imaginons que nous puissions observer une r´ealisation d’un processus (supposons par exemple
un MNT), sur une domaine tr`es grand (e.g. sur un carr´e de plusieurs dizaines de km de c ˆo t´e ) .
Si le do- maine d’´etude D est suffisamment grand, on peut alors envisager de le segmenter en un
certain nombre
de zones, nous permettant ainsi d’obtenir virtuellement plusieurs r´ealisations (quasi-ind´ependantes)
du processus.
Fig. 2.8. Cr´eation artificielle de plusieurs r´ealisations ω1, ω2... du ph´enom`ene par segmentation.
Remarquons que le domaine initial doit ˆetre suffisamment grand pour que cette approximation ait une
49
chance d’ˆetre valide. En effet, si par exemple on segmente `a nouveau la r´ealisation ω9 (portion du
coin sud-est) du domaine de la figure 2.8, on sent bien intuitivement que les sous-zones qui en r
´esulteront
50
ne poss´ederont alors plus les mˆemes caract´eristiques statistiques que ω9.
L’hypoth`ese ergodique3 consiste `a admettre que l’´etude d’un processus sur son domaine analytique
(e.g. au cours du temps pour un signal, ou sur l’espace g´eographique pour un MNT), apporte
rigoureusement la mˆeme information qu’une suite de r´ealisations al´eatoires.
Fig. 2.9. Illustration du concept d’ergodicit´e : la distribution statistique des valeurs prises au cours
du temps par une r´ealisation quelconque du signal, tend `a devenir ´egale `a la loi de probabilit´e
d’un
´echantillon X(ti) pris `a un temps ti quelconque. Source : Antoni (2013)
Cette d´efinition de l’ergodicit´e, dite ergodicit´e au sens strict est beaucoup trop forte en pratique.
Nous nous restreindrons aux notions d’egocidicit´e au premier et second ordre.
- -
1
z(x)dx−→Z(x, ω)dP(ω) = E[Z]
D D |D|→∞ Ω
Autrement dit, la moyenne spatiale des ´echantillons d’une r´ealisation doit ˆetre ´egale `a la
moyenne statistique de la variable al´eatoire d´esignant la valeur prise par le processus en un lieu
donn´e. Dit de mani`ere imag´ee, et en reprenant l’exemple de la feuille de papier froiss´ee, on
dira que ce processus est ergodique si la hauteur moyenne de la feuille (calcul´ee en moyennant la
hauteur de tous les points
3
Ethymologiquement, le terme ergodique a ´et´e introduit dans le domaine de la physique statistique, pour d´esigner
51
la propri´et´e d’un ensemble de particules, dont l’´etude statistique de la trajectoire de l’une d’entre elles (arbitrairement
choisie) est repr´esentative des caract´eristiques (vitesse, acc´el´erations, etc.) de l’ensembles des particules
52
d’une feuille apr`es la r´ealisation d’une exp´erience al´eatoire), est ´egale `a la hauteur d’un point
donn´e arbitraire (par exemple le centre) de le feuille, moyenn´ee sur un grand nombre de r
´ealisation.
Remarque : pour qu’une moyenne calcul´ee sur tout le domaine analytique D converge vers une
unique valeur d’esp´erance qui ne d´epende pas du lieu donn´e, n´ecessairement, pour ˆetre
ergodique `a
l’ordre 1, un processus doit a minima ˆetre stationnaire `a l’ordre 1.
Soit Z un processus stochastique ergodique `a l’ordre 1. On dit que Z est ergodique `a l’ordre
2, ou encore ergodique pour la covariance, si et seulement si, pour toute r´ealisation z du processus (de m
-
1 t )t ) −→Cov[Z(x + h), Z(x)]
D z(x + h) − mz(x)
z − m dxz
D |D|→∞
Remarque : ´etant donn´e que Z est suppos´e ˆetre ergodique `a l’ordre 1, l’ergodicit´e `a l’ordre 2 peut
ˆetre caract´eris´ee par une relation asymptotique ne requi´erant pas la connaissance de mz:
1 - [ ]
z(x + h)z(x)dx E Z(x + h)Z(x)
D− D→ |D|
→ ∞
- - -
1 t )t ) 1 1
z(x + h) − m z(x) − m dx = z(x + h)z(x)dx − z(x)dx + m2dx
z z
D D- D D D
2mz
z
- - D D D
1 1 [ ]
= z(x+h)z(x)dx−2m2z+m2z = z(x+h)z(x)dx−m2z −→ E Z(x+h)Z(x) −m2z
D D D D |D|
53
[ ] [ ] [ ]
Et `a droite : Cov Z(x + h), Z(x) = E Z(x + h)Z(x) − E[Z(x + h)]E[Z(x)] = E Z(x + h)Z(x) − m2
z
54
2.3.3 Les hypoth`eses en pratique
Pour pouvoir appliquer les techniques de la G´eostatistique lin´eaire, on doit ˆetre en mesure de
calculer le covariogramme du ph´enom`ene ´etudi´e, qui donc en ´echange doit pouvoir ˆetre mod
´elis´e de mani`ere satisfaisante par une processus stochastique stationnaire 4 et ergodique au second
ordre. L’isotropie est une propri´et´e souhaitable pour all´eger les calculs, mais non-indispensable. Si
ces hypoth`eses sont par- faitement v´erifiables (ou r´efutables) pour des processus stochastiques
formels (i.e. des signaux d´efinis de mani`ere th´eorique par des ´equations) comme nous allons le
voir dans l’activit´e II, la situation est en revanche beaucoup plus compliqu´ee dans le cas de ph
´enom`enes r´eels :
• La stationnarit´e `a l’ordre 2 stipule que la variabilit´e du signal doit ˆetre `a peu pr`es la
mˆeme sur tout le domaine. Si ce n’est pas le cas (et si la taille du domaine est suffisamment
importante pour le permettre), il faudra n´ecessairement segmenter le signal de sorte `a le
rendre approximativement stationnaire pour la covariance sur chaque zone.
• L’isotropie stipule que le ph´enom`ene est insensible aux directions. En g´e n´e ra l ,
hormis en pr´esence de pathologies g´eomorphologiques marqu´ees (failles, rift...) un MNT peut
ˆetre consid´er´e comme isotrope.
• Dans tous les cas, on peut se r´ef´erer `a la litt´erature pour s’savoir si la classe de ph
´enom`enes
´etud i´ee (gisement d’or, altitude du terrain, pression atmosph´erique, etc.) est reput´ee poss
´eder les propri´et´es souhait´ees.
a) Xt = wt avec wt ∼ N (µ, σ)
b) Xt+1 = Xt + kwt + b avec (k, b) ∈ R2 et wt ∼ N (0, 1)
c) Xt+1 = ρXt + c + wt avec (ρ, c) ∈ R2 wt ∼ N (0, 1)
d) Xt = A cos(ωt), Yt = B sin(ωt) et Zt = Xt + Yt, avec ω ∈ R et A, B ind´ependantes ∼ N (0, 1)
e) Xt = r cos(ωt + ϕ), avec (ω, ϕ) ∈ R2 et r ∼ N (0, 1)
f) Xt = r cos(ωt + ψ), avec (ω, r) ∈ R2 et ψ ∼ U ([−π; π])
4
Par la suite, nous verrons que l’hypoth`ese moints exigeante de stationnarit´e intrins`eque est suffisante en pratique.
55
On rappelle que la notation x ∼ N (µ, σ) signifie que la variable x est distribu´ee al´eatoirement
suivant une loi normale de moyenne µ et d’´ecart-type σ. De mˆeme, x ∼ U ([a; b]) signifie que x
est distribu´ee al´eatoirement et uniform´ement dans l’interavalle [a, b].
L’objectif de ces travaux pratiques est de valider ou invalider les hypoth`eses suivantes :
On pourra utiliser au choix l’une des deux strat´egies suivantes pour r´esoudre le prob`eme : (1)
ex- primer analytiquement les esp´erances et les variances des processus ou bien (2) proc´eder de
mani`ere similaire `a celle employ´ee dans le script 1 (page 32), i.e. simuler informatiquement un
certain nombre de r´ealisations du processus et les repr´esenter graphiquement.
Correction :
On commence par donner la r´esolution analytique du probl`eme pour chaque processus, puis on
´ecrit le code n´ecessaire `a la simulation informatique.
a) Il s’agit d’un bruit blanc classique. On a E[Xt] = E[wt] = µ, ind´ependant de t donc X est station-
naire `a l’ordre 1. Par ailleurs, la covariance de deux ´echantillons s´ep ar´es d’un intervalle τ est :
�
σ2 si τ = 0
Cov(Xt, Xt+τ ) 0 sinon.
Cette covariance ne d´epend que de τ donc le processus X est ´egalement stationnaire `a l’ordre 2.
b) Le processus X est une marche al´eatoire r´eelle `a temps discret, similaire `a celle d´efinie
par l’´equation 2.1. On a : E[Xt+1] = E[Xt + kwt + b] = E[Xt] + kE[wt] + b = E[Xt] + b. L’esp
´erance du signal est donc constante au cours du temps si, et seulement si, b = 0. Dans ce
cas, X est
stationnaire `a l’ordre 1. Sous l’hypoth`ese o u` b = 0, ´etudions `a pr´esent la variance du proces-
sus5 : Var[Xt+1] = Var[Xt + kwt] = Var[Xt] + k2Var[wt] (puisque les 2 termes sont ind´ependants)
= Var[Xt] + k2. Ici aussi, le processus ne peut ˆetre stationnaire `a l’ordre 1 que si k = 0. Dans
ce cas, l’´equation du processus est r´eduite `a : Xt+1 = Xt autrement dit, X est une suite
constante,
compl`etement d´etermin´ee par son premier terme. Elle est donc stationnaire au sens strict. Dans
le cas g´e n´e r a l cependant, k /= 0, b /= 0 et le r´esultat est :
Etudions quand mˆeme la covariance du processus pour le cas k /= 0 : Xt+1 = Xt + kwt. On a alors,
pour un d´ecalage τ � 0 : Xt+τ = Xt + kwt + kwt+1 + ... + kwt+τ−1. D ’ o u` :
5
Pour d´eterminer si le processus est stationnaire a` l’ordre 2, c’est bien la covariance qu’il faut ´etudier, mais si on
trouve que la variance est d´ej`a non-stationnaire, on aura montr´e a` moindre frais que X n’est pas stationnaire `a l’ordre 2.
56
( τ ) τ
−1 −1
Cov(Xt, Xt+τ ) = Xt, Xt + Lwt+n = Cov(Xt, Xt) + LCov(Xt, wt+n)
Cov k k
n=0 n=0
= Var[Xt] = Var[X0] + tk2
Donc, en supposant d´eterministe le premier ´echantillon X0 (comme c’est le cas dans 2.1) :
La ressemblance entre deux ´echantillons Xt1 et Xt2 ne d´epend donc pas de l’´ecart de temps τ = |t1
−t2|
les s´eparant, mais uniquement de la date du premier des deux ´echantillons.
c) X est un processus autor´egressif d’ordre 1 : AR(1). Il g´en´eralise les deux processus pr´ec
´edents : avec ρ = 1 on obtient une marche al´eatoire, et avec ρ = 0 on a un bruit blanc gaussien.
[ ]
E[Xt+1] = E ρXt + c + wt = ρE[Xt] + c (2.5)
c
E[X ] = 1
Var[X ] = (2.7)
t t
1− ρ 1 − ρ2
La positivit´e de la quantit´e Var[Xt] impose donc n´ecessairement la condition ρ < 1. Calculons `a pr
´esent la covariance entre deux ´echantillons successifs Xt et Xt+1 :
ρ
Cov(Xt+1, Xt) = Cov(ρXt + c + wt, Xt) = ρCov(Xt, Xt) = ρVar[Xt] =
1 − ρ2
ρ2
Cov(Xt+2, Xt) = Cov(ρXt+1 + c + wt+1, Xt) = ρCov(Xt+1, Xt) =
1 − ρ2
... = ...
ρτ
Cov(Xt+τ , Xt) = Cov(ρXt+τ−1 + c + wt+τ−1, Xt) = ρCov(Xt+τ , Xt) =
1 − ρ2
La covariance ne d´epend que de l’´ecart τ entre les ´echantillons, et non de la date absolue t. Donc, le
processus X est stationnaire au second ordre, sous les conditions :
c 1
ρ < 1 et X0 distribu´e suivant une loi de moyenne µ = et d’´ecart-type σ =J
1− ρ 1 − ρ2
57
Stationnarit´e D Non D✓ A` l’ordre 1 D✓ A` l’ordre 2
58
d) X et Y sont deux signaux sinuso¨ıdaux d’amplitudes al´eatoires, `a phases fix´ees et
mutuellement en opposition de phase. On[ a : E[Xt] ]= E A cos(ωt) = E[A] cos(ωt) = 0, puisque A
est d’esp´erance nulle. Le processus est donc stationnaire pour la moyenne. En revanche Var[Xt]
= Var[A] cos2(ωt) = cos2(ωt), d´ependant de t et donc X n’est pas stationnaire `a l’ordre 2. Par
sym´etrie, on obtient la mˆeme conclusion pour le processus Y . Int´eressons-nous `a pr´esent
`a la somme des deux processus :
Cov(Zs, Zt) = Cov tXs + Ys, Xt + Yt )= Cov(Xs, Xt) + Cov(Xs, Yt) + Cov(Ys, Xt) + Cov(Ys, Yt)
=E A [ 2 cos(ωs) cos(ωt) ]+ E[A]E[B] tcos(ωs) sin(ωt) + sin(ωs) cos(ωt) )+ E [B2 sin(ωs) sin(ωt) ]
= E A[ 2 cos(ωs)
] cos(ωt) + E [B2 ]sin(ωs) sin(ωt)
= cos(ωs) cos(ωt) + sin(ωs) sin(ωt)
t )
= cos ω(s − t) = cos(ωτ )
La variance est fonction du temps t donc le processus X n’est pas stationnaire `a l’ordre 2.
[
E[Xt] = rE cos(ωt + ψ)] = r - πcos(ωt + ψ)dψ = r [sin(ωt + ψ) π] = 0
2π π 2π −π
−
[ ] 2 -π
Cov(Xs, Xt) = r2E cos(ωs + ψ) cos(ωt + ψ) = r cos(ωs + ψ) cos(ωt + ψ)dψ
2π −π
t )
En utilisant l’identit´e trigonom´etrique cos p cos q = 1
cos(p + q) + cos(p − q) , on obtient :
2
59
r2 - π t 2 -π t ) t )
Cov(Xs, Xt) = )dψ + r
2π −π cos ω(s + t) + cos ω(s−t) dψ = r2 cos ω(s−t) = r2 cos(ωτ )
2ψ 2π −π
On donne ci-dessous le code R pour programmer ces 6 processus et contrˆoler de mani`ere exp
´erimentale l’hypoth`ese de stationnarit´e. On utilise les param`etres par d´efaut suivants :
a) µ = 0 et σ = 1
b) k = 1 et b = 0
On pourra g´e n´e re r n variables al´eatoires gaussiennes µ, σ ou uniformes U ([�; l]), respectivement
avec les commandes R : rnorm(n,mu,sigma) et runif(n,a,b).
plot(generate_process(3,500), type="l")
col=rgb(runif(1,0,1),runif(1,0,1),runif(1,0,1),1)
On peut alors tester de faire varier les param`etres des processus pour trouver les conditions sous
lesquelles les hypoth`eses de stationnarit´e (au premier et second ordre) sont v´erifi´ees.
60
Script 3. Stationnarit´e [code2.r]
# Parametres
C = 1; k = 1; b = 0; w = 1; r = 1; rho = 0.99; phi = 0; mu = 0; sigma = 1
[2x3] #
# Fonction de generation des processus
# Entrees : indice i (1 a 6) du processus, longueur
N # Sortie : vecteur X de N echantillons du
processus i #
generate_process = function(id, N){
# Simulation
if (id == 1){ # Bruit blanc gaussien
X = rnorm(N,mu,sigma)
}
return(X)
61
Script 4. Repr´esentation graphique de la stationnarit´e [code2.r]
2.4 Le variogramme
Nous avons introduit la notion de covariogramme `a la fin de la section 2.3.1. Pour un proces-
sus stationnaire au second ordre et isotrope, le covariogramme est une fonction C qui, `a
tout r´eel positif h associe la covariance C(h) entre deux observations lorsque la seule information
dont on dispose a priori est la distance h s´eparant les deux sites sur lesquelles ont ´e t ´e effectu´ees ces
observations.
Il existe cependant des cas pratiques o u` la variance d’une loi n’existe pas. Il suffit par exemple de
consid´erer, dans le cas uni-dimensionnel, la loi de densit´e π d´efinie sur [1; +∞[ par π(x) = 2/x3,
dont la moyenne vaut 1, mais dont la variance est infinie, comme illustr´e sur la figure 2.10. On
pourra
trouver deux autres exemples de lois de variance infinie dans Hauchecorne (2007).
2
1
1
p
0
0
2 4 6 8 10
Fig. 2.10. Illustration d’une loi de probabilit´e de variance infinie : π : x 1→ 2/x3. Cette
pathologie est caract´eristique des lois dont la densit´e ne d´ec roˆıt pas suffisamment rapidement
vers 0 `a mesure
que x augmente. Ces lois sont dites `a longue traˆıne.
Notons que cette limitation, qui pourrait sembler th´eorique au premier abord, n’est absolument
pas anecdotique. Arnaud et Emery (2000) par exemple, rapportent le cas de densit´e de minerais
dont la variance croˆıt ind´efiniment `a mesure que l’extension spatiale du gisement consid´er´e
augmente.
62
On pr´ef`ere donc utiliser un outil l´eg`erement plus g´en´eral : le variogramme, qui op`ere
directement sur les accroissements : c’est l’hypoth`ese intrins`eque.
Un processus stochastique Z est dit intrins`equement stationnaire (ou intrins`eque ) s’il est
stationnaire pour la moyenne et si la variance de la diff´erence entre deux sites x et x + h
du domaine D distants de h, existe et ne d´epend que de h :
1 [ ]
γ(h) =Var Z(x + h) − Z(x)
2
1 [ ]
1( [ 2 ] [ ]2)
γ(h) = Var Z(x + h) =
2 2 E (Z(x + h) − E Z(x + h)
[ ]
Or, Z est stationnaire pour la moyenne donc E Z(x + h) − Z(x) = E[Z(x + h)] − E[Z(x)] = 0 d ’ o u` :
1 1t )2l
γ(h) = E Z(x + h) − Z(x) (2.8)
2
Le variogramme indique donc, pour toute distance h, la moiti´e de l’esp´erance des ´ecarts entre
les valeurs prises par le processus en deux sites s´epa r´e s de h.
1020
●
2
0
●●●
●●● ●● ● ●●● ●
● ●●● ● ● ● ● ●●● ●● ●●●●●
●● ● ● ●
● ● ●● ● ● ● ● ●●●●● ●● ●
● ● ● ●● ● ●●●● ● ● ●● ● ●● ●●● ● ●●
● ● ●● ● ●● ● ●● ●● ● ●●● ● ●● ●
1
0
● ●● ● ●● ●
● ●●
● ● ● ● ●●●● ●●●●●●●●● ● ● ● ●●●●● ●●
● ●●● ● ●●●● ●●● ●●●● ●● ● ●●●●●●● ●●● ●● ● ● ● ●
●
● ● ● ●●● ●● ●●●●●● ● ●● ● ● ● ● ● ●
● ● ● ● ● ●● ●● ● ●● ● ● ● ●●● ●● ● ● ●
●
● ● ● ● ● ● ● ●● ● ●●●●●●●●●● ●●●● ●●●● ●●●●●●●●●●●●●●●●●● ●●● ● ● ●
●● ● ● ●● ●●●●● ●●●●●●● ●● ●●●● ●
● ● ●● ●
● ●● ●● ● ● ●●●● ●● ●●●●●●●●●●●●●●● ●●● ●●●●● ●●●●● ●●● ● ●●●● ●●● ● ●●
● ● ● ● ● ●● ● ● ●● ●●● ●● ●●●●●●●●●●●●● ●● ● ●●● ● ●● ● ●
● ●
● ●
● ● ● ● ● ● ● ● ●●●●●●●●●● ●●●●● ●●● ●●● ●●●●●●●●●●●● ● ●●● ●●
● ● ● ●●● ● ● ● ●● ● ● ●●●●●●● ●●●●● ●●●●●●●●●●●●● ●● ●● ●● ●●
● ●● ●
●● ●● ●●●● ●●● ●● ● ● ●● ●● ● ● ● ●●●●●●●●●●● ●●●●●●●●●●●●●●● ●●●●●●●●●●● ● ●● ● ●
●● ● ● ● ● ●● ● ● ●●●●● ●●●● ●●●●●●● ●●● ●● ●●●●● ●●●●●●● ● ●●●●● ● ● ● ● ● ●
● ● ● ●● ● ● ● ●● ●
● ● ●● ● ● ● ●● ●●●● ●●● ● ●●● ●● ● ●●●●●●●●●● ●●● ●● ●● ●● ●● ●
● ● ● ● ● ● ● ●● ●
1
0
● ● ●● ● ● ● ● ● ● ●● ● ●● ● ● ●●● ● ●● ●● ●●●●●● ● ●● ●● ● ●●
−20−100
● ● ●●
●● ●●● ●●●●●●● ● ●●● ●●●●●●●●●●● ●●●●●●●● ●
●● ● ● ●●● ●●● ● ●● ●●●● ●● ●●●●●●●●●●●●●● ● ●
● ●● ●●●●●●● ●●● ●●●●●●● ● ●● ●● ●●●●●●●●●●●●●●●● ● ●●● ●
● ● ●● ● ● ●●● ●●● ●●● ●●●●● ●●●●●●●● ●●●●●●●●●● ● ●● ●●● ● ● ● ●
●
●●● ● ● ● ● ● ● ● ● ●● ● ●●● ●● ●●●● ●●●●●●●●●●●● ●●●●●●●●●●●● ●● ●● ● ● ●
●
●●● ● ● ● ● ●● ●●●●● ● ●● ●●●●●●●●●●● ●●●●●●●●●●● ●●●●●●● ● ●●● ● ● ●
●● ●●
● ● ●●●●● ●● ●● ● ●●●●●●●●●●●●●●●●●●● ●●● ● ●●●●●● ● ●● ●● ● ● ●
● ●● ● ● ● ●● ●●● ●● ●● ●● ● ●●●●●●●●●●●●●●●●●● ●●●● ●● ● ●●● ● ●
● ● ● ●●
● ● ●● ● ● ● ●●● ● ●●● ●●●●●●●●●●●●●● ●●● ●●●● ●● ●
● ●●● ●● ● ●●●●● ●●● ● ●●●●●●●●●● ●● ● ●●●●●●●●●● ● ●● ● ● ●
●● ● ●● ●●●●●● ●● ●
●● ●●●●● ● ●●● ●●●● ● ●● ● ● ●● ●● ●●● ● ● ●●●● ●●●●●●●●●●●● ● ●● ● ● ● ●
● ● ●
● ●●
●●●
● ●● ● ●
●●●● ●● ●● ●● ●● ●●●●● ●●●●●●● ●● ●●●●●●●● ● ●●●●●●●● ●●● ●●●●● ● ● ●●
●● ● ● ●●● ●●●
●● ● ● ● ●●● ●●
−
2
0
● ●● ●●● ● ●●
● ● ● ●
●● ● ●●● ● ● ●● ● ● ●●●● ● ●●● ●●●●● ●●●●
● ●●●●●●
●●●●●●●
● ●●●●●●
●●●●●●●●●●●
●●●●●●● ●●●●● ● ●● ●● ●
● ● ● ● ● ● ●● ● ●●● ● ● ●●●● ● ●●●●●●●● ●●●● ●●●●● ●●● ●●●●●●●●●● ● ●●●
●● ●●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●●● ● ●●●● ●●●●●● ●●●●●●●● ●● ●
● ● ●●● ● ●
● ●● ● ●● ●● ●●● ● ● ● ● ●●●● ●●●●●●●●●●● ●● ●●●● ● ● ●●●● ●
● ● ● ● ● ●●● ●●●●●●● ● ●● ●●● ●● ●● ● ● ● ● ●
● ●● ● ●● ●● ●
● ● ●● ● ●●● ●● ● ● ●●●● ●● ●●●●●●●●●● ● ●● ● ●
● ●●●
●●● ●●● ●● ●●●● ●
● ●
● ●● ●●●●● ●●● ● ●
● ●● ●●● ● ● ●● ● ● ●●●●● ●●● ●
●● ● ●● ●● ●●● ●●● ●● ●● ● ● ●●●
●●● ● ●●
●● ● ● ●
● ● ● ● ●●● ●● ●● ●● ●● ● ●● ●
●● ●●
● ●● ●● ● ● ●● ● ●●● ●
●●● ● ● ●● ● ● ● ●
●● ● ●● ●● ● ● ● ●●● ●● ● ●●● ● ●
● ●
● ●● ● ●●
● ● ●● ● ●● ●●●●●● ● ●● ● ● ●●●●●● ●
●●●● ●●●● ● ● ● ●
● ● ● ● ● ●● ● ● ● ● ● ●
● ●●● ●●● ●● ● ● ● ● ●
●
● ● ●●● ● ● ●● ●
●
● ●
●● ● ●
● ●
● ● ● ● ● ●
● ● ●● ●
● ● ● ● ● ● ● ●
● ● ● ●● ●●
● ● ● ●●● ● ● ●
●
● ●● ●●●
●●● ●●● ●●
● ● ● ● ● ● ● ●
● ●● ● ● ●
● ● ●
● ● ● ●●● ● ● ●
● ●● ● ●● ● ●● ●●● ● ● ●
● ● ● ●
● ● ●●● ●
● ● ●
●
●
● ●
● ●
●
●
●● ●● ●
●●
● ●
●●● ●●●● ● ●●●
●
● ●●
●
●
−20−10 0 10 20
● ●●● ●●● ● ●●
● ● ●
●●●
● ●● ●
●●
● ● ● ● ● ● ● ●● ●
● ●
● ● ●●●
● ● ● ● ● ●● ●
● ● ● ●● ●
●
● ●●●● ●● ●●● ●● ● ●
●●
●●● ● ● ●●●
● ●●
● ● ●
● −20−10 0 10 20
●
● ● ●● ●
●
●
●
●
● ●
●
●
●
●
●
●
−20−100 10 20
50
●
2
0
●
●
40
● ●
● ● ●●
● ●
●● ●● ●
● ● ● ● ●● ● ● ●
● ● ● ●● ● ● ● ●●● ● ●● ● ● ●
● ● ●● ● ●●●● ● ● ●
●● ●
● ● ●●● ●● ● ●●● ● ● ● ●
1
0
● ●●●●● ● ●● ● ● ●● ● ●● ● ● ●
● ●● ●● ●● ●●● ● ● ● ● ●●●●● ●●●●●●● ● ● ● ● ●
● ●● ● ●●● ● ●● ● ●●● ● ●● ●●●● ●●●●● ●● ● ● ●●
● ● ● ● ●●● ● ●● ●●●● ●●● ● ●● ●●● ● ● ●●● ●●
● ● ● ● ●● ● ● ● ●●●●●● ●●
●●●●●●●
●●●●●●●● ●●● ●●●●
● ●● ●● ● ● ● ● ● ● ● ●
● ● ● ●● ● ● ●●● ●● ● ●● ● ●●●●●●●●●● ● ●●● ●●●● ●●●● ●●● ●● ● ● ●
30
● ●●●● ● ●●●●● ●● ●● ●●●●●●●●●●●●● ●●●●● ●●● ● ●●● ●
●● ●● ● ● ● ●● ●●●●●●●●●●● ●●● ●●●●●●●●●● ●● ●●● ●●●●● ●● ●● ●●●● ● ● ●● ● ●
● ● ● ● ●● ●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●● ●●● ● ●●●● ● ● ● ●
● ●● ● ● ●● ● ● ●●●●●●●●●●● ●●●●●● ●● ●●●● ●●● ●●●●
● ● ●●● ●●● ●●●●●●● ● ●●●●● ●●●●●●●●●● ●● ●● ● ● ● ●
● ● ● ●● ●●●● ●●●●●● ● ●●●●●● ●●●●●●● ●●●● ● ● ●● ● ● ● ●●
● ● ●●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●
● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●● ●●●●● ● ●●● ●
0
20
●● ●●●●● ●●● ● ●●●●●● ●● ●●●● ● ● ● ●
● ●●● ● ●●●●●● ●
●● ●● ●● ● ●●●●● ●● ● ●● ● ●● ●●● ● ● ● ●
−
1
0
● ●● ● ●●●● ●● ●● ●● ● ● ● ● ● ● ● ●●● ●
●
● ●●● ● ● ●●● ●●●●● ●●●●● ● ●
● ● ●●●●●●●● ●● ●● ●●●●●● ●●●●● ● ●
● ●● ●● ●●●●● ●●●●●●● ● ●●●●●●●●●● ● ●● ●
● ● ● ●
● ● ● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ● ● ●●●
● ●●
● ● ● ● ●
●
●●
●
●●
●●
●●
●●
●●
●●
●
●
●●
●
●●
●
●
●●
●●
● ● ●
●
● ● ●
● ●●●●●● ●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ●● ● ●
●● ● ●
●●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●●
●●
●●
●●
●●
●● ●●● ● ●● ●
● ● ●● ●● ● ● ●
●●
●●●
●●
●●
●●
●●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●●
●● ● ●
● ●
●● ●
● ● ● ● ●
● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●
● ● ● ● ● ●
●
● ● ●
●●
●●
●
●
●● ● ●
●●●
●●
●
●
●●
●
●●
●
●
●●
●●
●●
●●
●●
●●
●● ●● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●● ● ●●●●● ●●● ●
●● ●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●● ● ● ●
●
●
●
●●
●
●
●
●●
●
●● ●
●●
●
●●
●
●●
●
●
●●
●●
●●
●
●●
●●
●●
●●
●
●● ●●
●●
●● ● −20−10 0 10
10
●
●● ●● ●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●
●●
●
●
●●
●●
●●
●●
●● ●
●●●
●
● ● ●
● ●●●●● ●● ●●●●●●●●●●●●●●● ●●● ●● ● ● ●
● ● ● ● ●●●● ●● ●●
●●
●
●
●
●●
●
●●
●
●
●
●●
●
●
●
●●
●
●
●
●
●●
●
●●●●●●●●
●
● ●
●●●●●
● ●●●● ●●●●●●
● ●●●●●●●●●●●● ● ●● ●●● ●
● ● ●● ●●● ●● ● ●●●●
●●●●●
●●●●●● ●
●●●
●●
●●
●●●
●●
●●●
●
● ●●● ●
● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●● ●
0
●●● ●● ● ●
● ●● ●●● ● ● ● ●
●●●●● ●●● ●
● ● ● ●●● ●●● ●
●● ● ●
● ●
●●● ●
●
0
−
●
2
0
500
−20−10 0 10 20
Fig. 2.11. Chaque valeur γ(h) du variogramme traduit la dissemblance entre deux sites s´epar´es
63
d’une distance h. Plus γ(h) est faible plus les valeurs prises sur les deux sites sont statistiquement
similaires.
64
L `a o u` le covariogramme C(h) mesure la ressemblance entre sites, le variogramme γ(h) est quant
`a lui un indicateur de la dissemblance. On s’attend donc `a avoir une relation antagoniste entre les
fonctions C et γ. C’est la relation fondamentale de la G´eostatistique :
Pour un champ stationnaire au sens large, pour toute distance h, variogramme et covari-
ogramme sont li´es par la relation :
Preuve : en consid´erant x et x + h deux sites quelconques s´e p a r´e s d’une distance h, on a : 2γ(h)
= Var[ Z(x) − Z(x + h)] = Var[Z(x)] + Var[Z(x + h)] − 2Cov(Z(x), Z(x + h)) = 2Var[Z] − 2C(h).
En
faisant remarquer que Var[Z] = Cov(Z(x), Z(x)) = C(0) et en divisant les deux membres de l’´equation
par 2, on obtient la relation fondamentale de la G´eostatistique.
1
0
0
C
0
0
0
Une mani`ere simple de comprendre le variogramme est de consid´erer γ(h) comme l’incertitude
en- tourant la valeur prise par le ph´enom`ene en un lieu donn´e, ´etant donn´ee l’observation
d’une valeur prise en un site distant de h. Cette incertitude est donc intuitivement maximale quand
les deux sites sont s´ep ar´e s d’une distance qui tend `a devenir infinie6. A` l’inverse, si les deux
sites sont voisins (typ- iquement quelques m`etres de distance dans le cas du MNT), alors
l’observation de Z(x1) d´etermine pratiquement la valeur prise par Z en x2.
66
l’estimateur de C est plus robuste mais biais´e. On pr´ef`ere donc en pratique utiliser le
variogramme γ, d’autant qu’il est plus g´en´erique (γ peut exister sans C alors que l’inverse n’est
pas vrai.
Exemple 2.2. On propose ici un exemple de cas o u` seul le variogramme existe. On pose Z1 =
A+C et Z2 = B + C, avec A, B ∼ N (0, 1) deux variables al´eatoires gaussiennes ind´ependantes et C
distribu´ee suivant une loi π n’admettant pas de variance (par exemple π est la loi `a densit´e
de la fig. 2.10).
On a alors, par bilin´earit´e de l’op´erateur de covariance : Cov(Z1, Z2) = Cov(A, B) + Cov(A, C) +
Cov(C, B) + Cov(C, C) = Cov(C, C) (puisque A, B et C sont ind´ependantes) = Var[C] qui
n’existe pas ! En revanche, la variance de l’accroissement est bien d´efinie : Var[Z1 − Z2] =
Var[A − B] =
Var[A] + Var[B] = 2. Nous laissons le soin au lecteur de v´erifier que si π est `a variance finie, alors
Cov(Z1, Z2) existe et la relation ´enon c´ee par le th´eor`eme 26 est v´erifi´ee. On pourra trouver un
exemple moins artificiel de processus strictement intrins`eque dans l’annexe B.6.
Pour construire le variogramme exp´erimental, on doit donc estimer les valeurs de γ(h) pour
toutes les distances h possibles, ce qui est bien ´evidemment impossible en pratique. On discr
´etise alors le probl`eme en une s´equence de nombres r´eels h1, h2, ... r´eguli`erement
´echantillonn´es (i.e. ∀ k ∈ N∗ hk =
h0 + k∆h, avec ∆h et h0 des param`etres `a calibrer en fonction du nombre de donn´ees disponibles).
Par d´efinition γˆ(200) par exemple, repr´esente la dissemblance entre deux sites du terrain s´epar´es
de 200 m. Disposant d’un nombre limit´e d’observations, il est en r´e a l i t´e peu probable que
nous soyons capable de trouver ne serait-ce qu’un couple de sites distants d’exactement 200 m. On
doit donc s’autoriser une tol´erance, par exemple on recherchera tous les couples de sites (xi, xj) s
´ep ar´e s d’une distance comprise entre 150 et 250 m. Les couples s´electionn´es sont alors utilis´es
pour estimer la
� γ(h) pour h = 200 (en toute rigueur pour h = 200 ± 50).
quantit´e 2.8, ce qui nous donne un estimateur
Formellement : disposant d’un semis de points d’observations z(x1), z(x2), ...z(xn) d’un ph´enom`ene
Z, on peut estimer le variogramme de Z par :
1 L
γ�(h) = t )2
z(x )i − z(x j) (2.9)
2|N (i,j)∈N
o u` N (h) d´esigne l’ensemble des couples d’indices (i, j) tels que les sites xi et xj sont s´e pa r´e s d’une
distance h ± dh : N (h) = {(i, j), i < j t.q. h − dh :( ||xi − xj || :( h + dh }, et o u` |N (h)| d´esigne le
2 2 2
nombre de couples contenus dans l’ensemble N (h).
Informellement : de mani`ere imag´ee dans le cas du probl`eme mod`ele du MNT, pour une
distance horizontale h, le variogramme exp´erimental
� γ(h) vaut la moiti´e de la moyenne des carr´es
67
des d´enivel´es entre les points s´ep ar´es (approximativement) d’une distance h.
68
Fig. 2.13. Calcul du variogramme exp´erimental pour un ensemble d’observations ponctuelles collect
´es sur une r´ealisation z du processus. Le couple de sites (x1, x2) appartient `a l’ensemble N (h) des
couples de sites approximativement s´ep a r´e s d’une distance h.
z(x1) = 12
z(x9) = 14.5
z(x ) = 13.5
8
z(x4) = 12.5
z(x2) = 12
z(x5) =
12.5
z(x7) =
z(x10) = 14
12.5
z(x3) = 13
z(x11) = 14
z(x6) = 12
0 5 10 30 20
Sur une version papier de ce cours, l’´echelle graphique doit ˆe tre de 1 unit´e / mm, si bien que la
distance entre x1 et x2 par exemple, doit valoir 28 cm = 28 unit´es (sous r´eserve que l’impression ait
´e t ´e r´ealis´ee en format A4). Sur une version num´erique, on pourra ajuster l’´echelle du
lecteur PDF de sorte `a obtenir une conversion ais´ee entre les tailles mesur´ees en mm sur l’´ecran,
et le syst`eme d’unit´es ter- rain. Dans une optique plus professionnelle, on pourra sauvegarder
l’image ci-dessous (capture d’´ecran ou autres) dans une taille arbitraire, puis mesurer les distances `a
l’aide d’un logiciel graphique (Paint, Inkscape...) et enfin normaliser les mesures obtenues `a l’aide
d’un produit en croix pour obtenir des distances dans le syst`eme d’unit´es terrain.
69
Calculer le variogramme exp´erimental du semis de points. On utilisera un pas de discr´etisation
∆h = 10 unit´es, en d´emarrant de h0 = 5 : hk = 5 + k∆h.
Correction. On commence par mesurer les distances (exprim´ees dans les syst`eme d’unit´es
terrain) pour tous les couples de points, et on les regroupe dans une matrice de taille n × n. Cette
matrice
´etant sym´etrique, on ne pr´esente que la partie triangulaire sup´erieure.
- 1 2 3 4 5 6 7 8 9 10 11
1 0 28 56 37 35 71 62 59 82 83 97
2 - 0 28 47 24 46 53 69 91 79 86
3 - - 0 67 39 30 56 86 99 86 81
4 - - - 0 28 64 38 22 46 48 69
5 - - - - 0 39 28 48 68 55 64
6 - - - - - 0 37 78 94 64 53
7 - - - - - - 0 43 57 30 35
8 - - - - - - - 0 23 39 66
9 - - - - - - - - 0 38 68
10 - - - - - - - - - 0 30
11 - - - - - - - - - - 0
Il ne reste alors plus q u’ `a appliquer la formule 2.9 pour tous les pas h : 5, 15, 25, ...95. D
´etaillons un exemple avec le cas h = 65. Dans un premier temps, on r´ec up`ere l’ensemble N
(65) de tous les cou- ples (i, j) avec i < j, tels que la distance entre les deux sites xi et xj est comprise
entre 60 et 70 m`etres :
On d´enombre |N (65)| = 10 couples. Le calcul de γ�(65) par 2.9 est alors imm´ediat :
1
γ�(65) = (z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2+(z −z )2
1
1 7 1 8 3 4 4 6 4 1 5 9 5 1 6 1
2× l
+(z8 − z11)2 + (z9 − z11)2 = 0.8
h 5 15 25 35 45 55 65 75 85 95
N (h) 11 0 10 12 6 7 10 3 6 4
γ(h)
� 0.0 - 0.33 0.30 0.71 1.0 0.8 1.04 1.38 2.34
Table 2.1: Nombre de couples N (h) et variogramme exp´erimental�γ(h) pour chaque valeur de distance
h. Remarquons que γ(15) n’a pas pu ˆetre estim´e faute de donn´ees.
70
La figure 2.14 donne une repr´esentation graphique du variogramme exp´erimental. La courbe
en pointill´es pr´esente une r´egression polynomiale f (h) = ah2 (avec a = 2.5.10−4) des points
calcul´es. De cette mani`ere, il sera possible d’estimer le variogramme pour toute distance h sur la
plage [0; 100].
Nous reparlerons plus loin des fonctions de r´egression.
●
point estimé
régression polynomiale
2
1
●
1
●
●
0
● ●
0
20 40 60 80
Fig. 2.14. Suite des points estim´es `a partir du semis d’observation et r´egression polynomiale.
Fig. 2.15. Variogramme th´eorique inconnu (courbes pointill´ees) et estimations ponctuelles du var-
iogramme empirique. A` gauche : pas de discr´etisation ∆h trop fin, le variogramme estim´e est r´esolu
mais peu pr´ecis. A` droite : ∆h trop grand, le variogramme estim´e est pr´ecis, mais peu r´esolu.
72
de r´eduire la taille de ∆h. Une r`egle simple consiste `a choisir ∆h le plus fin possible tout en
assur- ant la pr´esence d’au moins 30 couples pour chaque point estim´e sur le variogramme exp
´erimental. En g´en´eral, on proc`ede par essai-erreur, en partant d’une r´esolution assez
grossi`ere, et en l’affinant jusqu’`a ce que le variogramme obtenu commence `a pr´esenter des
signes d’instabilit´e. En parall`ele, on contrˆolera les effectifs de couples dans chaque classe de
distance.
Fig. 2.16. Compromis id´eal sur le pas de discr´etisation ∆h pour le calcul du variogramme exp
´erimental. L’estimateur γ ainsi
� obtenu est relativement pr´ecis, et suffisamment r´e´esolu pour esp
´erer pouvoir reconstruire le variogramme th´eorique en pointill´e.
Disposant d’un estimateur γ �du variogramme th´eorique inconnu γ, on doit pouvoir s’assurer de la
qualit´e de celui-ci. Nous l’avons vu dans l’´equation 1.14, la justesse d’un estimateur se mesure
sur deux composantes : son biais (i.e. son erreur syst´ematique quelque soit le jeu de donn´ees
consid´er´e) et sa variance (i.e. sa sensibilit´e aux petites variations al´eatoires dans les donn
´ees).
∀ h ∈ R+E[γ�(h)] = γ(h)
Autrement dit, quelque soit la distance h consid´er´ee, la valeur prise par le variogramme exp
´erimental
� γ en h n’a pas de raison d’ˆetre syst´ematiquement en dessous ou au dessus de la
valeur r´eelle γ(h), ce qui est une propri´et´e souhaitable pour tout estimateur digne de ce nom.
Preuve : nous donnons ici une ´ebauche de d´emonstration, faisant abstraction du fait que le calcul
de
� γ(h) fait appel `a des couples de sites s´ep ar´es d’une distance qui ne vaut pas exactement h. En
partant de la d´efinition 2.9 du variogramme exp´erimental, et en remarquant que N (h) est d
´eterministe :
73
(i,j)∈N
]
L 1t
1 )l 1 L ( [ ]2 ])
E[γ(h)] = E Z −Z 2 = EZ −Z + −Z
� i
2|N (i,j)∈N
[
Var Z
j i j i j
1 L 2|N
= [ 1
Var Z i− Z j = × |N (h)|γ(h) = γ(h)
2|N (i,j)∈N
2|N
74
o u` le passage de la premi`ere `a la deuxi`eme ligne r´esulte du fait que le processus est
stationnaire, et donc que l’esp´erance de ses accroissement est nulle : E[Zi − Zj ] = E[Zi] − E[Zj ] =
E[Z] − E[Z] = 0.
γ(h)2
Var[γ�(h)] ∝ N (h)
Nous ne donnerons pas de d´emonstration du th´eor`eme 28, mais on peut remarquer qu’il s’agit
d’une application plus ou moins directe du th´eor`eme 12, dit de propagation des variances.
Le variogramme exp´erimental est donc d’autant moins pr´ecis que h augmente. En effet, on
peut montrer que, dans le cas o u` les sites sont r´epartis uniform´ement, le nombre de couples de sites
s´ep a r´es d’une distance (plus ou moins la marge de tol´erance) d´e cr oˆıt `a mesure que la
distance h s’approche du diam`etre de la zone consid´er´ee (i.e. de la plus grande distance s
´eparant deux sites sur la zone). En cons´equence N (h) diminue, � et l’incertitude sur l’estimation
γ(h) augmente naturellement, comme illustr´e sur la figure 2.17.
En pratique, on consid´erera que le variogramme exp´erimental n’est plus un estimateur robuste pour
des distances de s´eparation h sup´erieures `a la moiti´e du diam`etre du domaine D.
Variogramme théorique
Variogramme expérimental
Fig. 2.17. Le variogramme exp´erimental est d’autant plus incertain que h augmente.
Exemple 2.3. Pour 150 sites observ´es sur une zone montagneuse de 1 km × 1 km, le diam`etre du
√
domaine vaut 2 ≈ 1.4 km. On ne calculera le variogramme exp´erimental que pour h ∈ [0; 0.7] km.
75
Activit´e IV. Variogramme exp´erimental (bis repetita)
Dans cette activit´e, nous allons ´ecrire un code R pour calculer un variogramme exp´erimental, `a
partir de donn´ees r´eelles d’altitude. Pour collecter les donn´ees, nous allons utiliser l’application
Google Maps find altitude, disponible gratuitement en ligne `a l’adresse suivante :
https://www.daftlogic.com/sandbox-google-maps-find-altitude.htm
En cas de difficult´e bloquante dans la phase de collecte des donn´ees, on pourra r´ecup´erer
directe- ment l’un des deux fichiers sample data1.txt ou sample data2.txt disponibles dans le r
´epertoire de mat´eriel p´edagogique. Dans ce cas, on passera directement `a la question Q4.
Q1. Acc´eder `a l’application Google Maps find altitude et positionner la carte sur une zone
rectangulaire (de pr´ef´erence montagneuse ou au moins vallonn´ee), de taille au plus de l’ordre de
quelques km de cˆot´e.
Q2. Effectuer un clic bref sur la carte pour saisir un point d’observation. Un marqueur bleu doit
alors apparaˆıtre. Rep´eter l’op´eration jusqu’`a obtenir un nombre n de points. Plus la zone s
´electionn´ee est grande, plus il faudra un nombre important d’observations. Pour cette activit´e,
un semis de l’ordre de 50 observations devrait ˆetre suffisant, cependant les activit´es du chapitre 3
n´ecessiteront un nombre plus cons´equent de donn´ees pour construire des MNT relativement
fid`eles `a la r´eali t´e. Dans cette optique, on pourra d`e s maintenant saisir 200 `a 300 points
d’observation. On essaiera de produire une couverture homog`ene de la zone, mais sans n
´ecessairement former une grille r´eguli`ere.
Q3. Les observations collect´ees sont list´ees dans une fenˆetre de texte, un peu plus bas dans la
page web. Copier le contenu de cette fenˆetre dans un fichier sample data.txt.
obs = read.csv("sample_data.txt")
Visualiser les valeurs des diff´erents champs. On remarque que les positions de points sont exprim
´ees en coordonn´ees g´eographiques (degr´es d´ecimaux). Cela va poser probl`eme par la suite
pour calculer des distances entre points. On va donc convertir ces donn´ees dans un syst`eme de
coordonn´ees planes :
R = 6378137.0
obs$longitude = obs$longitude*pi/180.0
obs$latitude = obs$latitude*pi/180.0
X = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
Y = (obs$latitude - min(obs$latitude))*R
Z = obs$meters
o u` R d´esigne le rayon moyen de la Terre (en m). Les deux lignes suivantes assurent la conversion
des angles des degr´es d´ecimaux vers les radians. Le facteur cos(mean(obs$latitude))*R
corresond `a la longueur m´etrique d’un arc de parall`ele de 1 radian, `a la latitude moyenne
mean(obs$latitude) du chantier. Par commodit´e, les coordonn´ees m´etriques des points sont
stock´ees dans 3 vecteurs num´eriques de mˆeme longueur : X, Y et Z.
Q6. Calculer et repr´esenter le variogramme en 30 points h1, h2, ...h30 r´eguli`erement espac´es
dans l’intervalle [0, L ].
2
76
Correction :
n = length(X) # Nombre
de la zone
dX = max(X)-min(X);
dY = max(Y)-min(Y);
diam = sqrt(dX*dX + dY*dY)
#
# Calcul du
variogramme #
GAMMA = rep(0, length(H))
for (k in 1:length(H)){
ck = 0
for (i in 1:n){
for (j in 1:n){
dX = X[i]-X[j];
dY = Y[i]-Y[j];
d = sqrt(dX*dX+dY*dY)
if ((d >= H[k]-dh/2) && (d <= H[k]+dh/2)){
dZ = Z[i]-Z[j]
GAMMA[k] = GAMMA[k] + dZ*dZ
ck = ck + 1
}
}
}
cat(paste("Step", k, H[k], ck, GAMMA[k], "\r\n", sep=" "))
GAMMA[k] = GAMMA[k]/(2*ck)
}
On remarque que dans le code propos´e ci-dessus, on parcourt chaque couple (i, j) de sites, deux
fois, ainsi que tous les couples (i, i), qui ne contribuent pourtant pas au calcul du variogramme. On
peut acc´el´erer le code (d’un facteur 2 environ), en ajustant ad´equatement les param`etres de
boucle :
for (i in 1:(n-1)){
for (j in (i+1):n){
# On traite ici le couple (i,j)...
}
}
Pour acc´el´erer davantage le calcul du variogramme (qui peut ˆetre une ´etape tr`es chronophage lorsque
77
plusieurs milliers de points d’observation sont disponibles), on peut adopter la strat´egie
suivante : plutˆot que de parcourir tous les couples de sites pour chaque valeur h en laquelle on
souhaite ´evaluer le variogramme, une solution alternative consiste `a ne parcourir qu’une seule fois
l’ensemble des couples d’observations, puis pour chaque couple, ´evaluer sa distance et l’affecter `a a
la classe correspondante. En retour, notons que cela n´ecessite de garder en m´emoire le d´ecompte
des nombres de couples utilis´es dans l’estimation pour chaque valeur de h.
for (i in 1:(n-1)){
for (j in (i+1):n){
dX = X[i]-X[j]; dY = Y[i]-Y[j]; dZ = Z[i]-Z[j];
d = sqrt(dX*dX+dY*dY) if (d > max(H)+dh/2){
next
}
id = round((d+dh/2)/dh) GAMMA[id] = GAMMA[id] + dZ*dZ COUNT[id] = COUNT[id] + 1
}
}
Avec cette nouvelle version, sur le jeu de donn´ees sample data1.txt (393 observations), on divise
par 10 environ le temps de calcul. On pourra alors inspecter visuellement le variogramme. En
particulier, on observe que les 3 derniers points semblent d´evier de la tendance globale. On entre
dans la zone non-robuste dont nous parlions pr´ec´edemment.
●
4
●
4
4e+05
●
● ● ●
● ● ●
●
● ● ●● ●
● ●
●
● ● ●● ● ●
● ●●● ●●● ● ● ● ●
3e+05
●
3
● ● ● ●
●● ● ●
3
●
● ● ●● ● ●
● ●
●●● ●●
● ●
●
●●● ● ●●
● ● ●●
● ●
● ● ● ●●
●●
GA
●
●
● ● ●●
● ● ● ●●
●●
2
2
●●●●●
●
● ●●●
●
● ●●
● ● ●●
● ●
●●
2
●
●●
● ●
●
● ● ●
1
●
● ●
0e+00
●
● ●●
●●
● ●
●●
0e+001e+05
●
●
0 2000 4000 6000 8000
2000 4000 6000 8000
H H H
78
2.4.2 Interpr´eter le variogramme
Etre capable de calculer programmer informatiquement le calcul d’un variogramme est certes une
comp´etence int´eressante, mais pas indispensable, dans la mesure il existe d ´e j `a de nombreuses
bib- lioth`eques 7 qui le font tr`es bien dans dans les principaux langages de programmation. En
revanche, il est capital de savoir interpr´eter graphiquement un variogramme.
Palier C
0.95 C
Varia
Pépite
Portée hmax
Fig. 2.19. Les 3 ´el´ements caract´eristiques d’un variogramme : palier C, port´ee hmax et p´epite η.
Le palier
Nous avons expliqu´e pr´ec´edemment qu’un variogramme pouvait tendre vers l’infini `a mesure
que h augmente. Il s’agit d’un cas particulier o u` la covariance n’existe pas. Dans la grande
majorit´e des cas rencontr´es en pratique, le variogramme converge vers une valeur C, le palier,
correspondant `a la dissemblance maximale entre sites lointains. Informellement, on peut dire que
lorsque deux sites xi et xj sont s´epar´es d’une grande distance, les valeurs Zi et Zj prises par le ph
´enom`ene respectivement en chacun des sites, deviennent compl`etement d´ecorr´el´ees. La
covariance C(h) tend vers 0, et le th´eor`eme 26 nous montre alors que le variogramme γ(h) tend `a
devenir ´egal `a C(0) = Var[Z]. Autrement dit, la connaissance de Zi n’apporte aucune
information (statistiquement, on dit que cette connaissance ne r´eduit pas la variance) sur Zj, et r
´eciproquement.
Dans le cas pratique de la figure 2.18, on peut r´ecup´erer une appoximation du palier en
moyennant par exemple les 5 derni`eres valeurs de γ (pour h compris entre 7.2 et 8.4 km) :
On compare alors cette valeur `a l’´ecart-type a priori du champ, que l’on approxime par
l’´ecart-type des observations d’altitudes :
7
Par exemple gstat pour le langage R, variogram (Matlab), VARFIT (FORTRAN) ou encore scikit-gstat (Python).
79
D´efinition 29 (Palier)
C = limγ(h)
h→+∞
A` nouveau, ici aussi, la locution ”lorsqu’il existe” pr´ecise que C peut prendre une valeur infinie,
auquel cas on ne peut pas lui donner de sens physique.
La p ort´ee
La valeur `a partir de laquelle le variogramme atteint `a peu pr`es son palier est appel´ee la port
´ee. Elle repr´esente la distance `a partir de laquelle le processus n’est plus autocorr´el´e. On
retient tradition- nellement la premi`ere valeur qui d´epasse 95% de la valeur du palier (notons que si
cette r`egle simpliste fonctionne dans la grande majorit´e des cas, elle peut poser probl`eme avec les
variogrammes dits `a effet de trou, comme nous le verrons plus loin) :
On obtient une port´ee de 7.8 km environ (7786 m). Dans le cas d’un MNT, on s’attend donc `a
trouver des montagnes et vall´ees de taille caract´eristique (on pourrait parler de p´eriodicit´e
spatiale) 8 km.
D´efinition 30 (Port´ee)
Pour un seuil de tol´erance ε > 0 fix´e, la port´ee d’un variogramme γ de palier C est la plus
petite valeur hmax telle que :
γ(h)
∀ h � hmax :1 − ε :( C :( 1 + ε
La p´epite
Tout variogramme est th´eoriquement nul en 0. En effet, d’apr`es la d´efinition 25 :
1
γ(0) = Var[Z(x) − Z(x)] = 0
2
En revanche, rien n’interdit d’avoir une discontinuit´e en 0, i.e. un saut faisant passer le
variogramme de la valeur 0 `a une valeur η, pour h > 0 aussi petit soit-il.
Cette valeur η, appel´ee p´epite 8 (ou nugget en anglais) d´enote la pr´esence d’un bruit de fond
dans le processus. D’un point de vue variographique, cela signifie que l’accroissement entre deux
sites in- finit´esimalement voisins (mais distincts) x1 et x2 aura toujours une variabilit´e r
´esiduelle, ce qui, au niveau des r´ealisations, se traduit par des discontinuit´es locales dans la
variable r´egionalis´ee.
80
8
En r´ef´erence a` la variographie des gisments d’or
81
D´efinition 31 (P´epite)
η = lim γ(h)
h→0+
Remarque : lorsque la p´epite est non nulle, on dit que le variogramme, et par extension le processus
stochastique ainsi que ses r´ealisations, sont p´epitiques.
8e
8e
var var
4e
4e
N
h(m) h(m)
0e
0e
E(m) 0 2000 4000 6000 8000 10000 E(m) 0 2000 4000 6000 8000 10000
Notons que l’effet de p´epite peut ˆetre utilis´e pour mod´eliser le comportement d’un ph
´enom`ene, mais aussi (et surtout) pour mod´eliser un bruit dans le processus d’observation. Par
exemple, si on souhaite construire un MNT `a partir de mesures d’altitudes effectu´ees avec un GPS
de randonn´ee (pr´ecision
±5 m), on pourra alors utiliser un variogramme p´epitique avec η = 52 = 25 m2.
82
Remarque : chaque r´ealisation du processus ´etant par nature diff´erente, la fonction dont on cherche
`a quantifier la r´egularit´e est une fonction al´eatoire. Les notions de continuit´e et de d´erivabilit
´e telles qu’on les connaˆıt ne sont alors plus op´erantes, et on devrait en toute rigueur introduire
les notions probabilistes de continuit´e et d´erivabilit´e dites en moyenne quatratique. Ici, par
abus de langage on dit qu’une variable r´egionalis´ee est continue (resp. d´erivable) lorsque les r
´ealisations du processus associ´es `a cette variable sont statistiquement localement continues
(resp. d´erivables). L’annexe A donne quelques cl´es suppl´ementaires pour saisir cette notion.
On pourra trouver une d´emonstration de cette propri´et´e dans Picinbono (1998) ou encore dans
Allard (2012).
N(m)
var
var
0
0
0
800
N(m)
var
N(m)
400
0
0
0
La figure 2.21 illustre l’importance du comportement `a l’origine du variogramme sur l’aspect local
(lisse ou erratique) de ses r´ealisations. En particulier, on remarque que le champ `a comportement
lin´eaire (en bas `a droite) ressemble dans une certaine mesure au comportement p´epitique et
parabolique (en haut `a droite). Parfois, seule l’analyse variographique permet de diff´erencier
deux processus dont les r´ealisations semblent similaires au premier abord.
� (2.10)
0 si h < ξ
γ˜(h) = Γ sinon.
avec Γ et ξ deux valeurs r´eelles positives quelconques. Prenons 3 sites, positionn´es comme ci-
dessous ( `a droite), pour lesquels on note Z1, Z2 et Z3 les valeurs prises par le ph´enom`ene de
variogramme γ˜ .
On rel`eve alors une contradiction : les variables (Z1, Z3) d’une part et (Z2, Z3) d’autre part, ´etant
s´epar´ees d’une distance inf´erieure au seuil ξ, elles sont compl`etement corr´el´ees et elles sont
donc li´ees par une relation affine. On montre alors ais´ement que Z1 et Z2 sont n´ecessairement
aussi li´ees par une relation affine, et donc ´egalement parfaitement corr´el´ees. Or, Z1 et Z2 sont s
´epar´ees d’une distance
sup´erieure `a ξ, donc Cov(Z1, Z2) = γ˜ (∞) − γ˜(h 12 ) = 0, ce qui est une contradiction 9. La
fonction γ˜ ne peut donc pas ˆetre un mod`ele de variogramme.
D’apr`es l’exemple 2.4, il apparaˆıt clairement qu’on ne peut pas choisir n’importe quelle fonction
pour mod´eliser le variogramme. Plus formellement, γ doit v´erifier une propri´et´e de d´efini-n
´egativit´e condi- tionnelle, qui assure que le quantit´es alg´ebriques calcul´ees `a l’aide du
variogramme et auxquelles on peut donner le sens d’une variance, sont toujours positives Allard
(2012). Nous reviendrons sur ce point quelqe peu technique dans la section 2.4.5.
En cons´equence, le variogramme doit appartenir `a une classe particuli`ere de mod`eles, dont nous
don- nons les principaux repr´esentants dans cette section.
Le mod`ele lin´eaire
γ(h) = kh (2.11)
Le variogramme lin´eaire permet de mod´eliser une d´ecorr´elation progressive des valeurs prises
par le ph´enom`ene, `a mesure que les sites consid´er´es sont ´eloign´es spatialement. Il ne
converge pas vers une valeur palier, et n’a donc pas non plus de valeur de port´ee d´efinie. En cons
´equence, il n’existe pas de covariogramme associ´e10 . Son comportement `a l’origine est bien
´evidemment lin´eaire.
Le mod`ele lin´eaire pr´esente l’avantage d’ˆetre extrˆemement simple `a estimer. Par ailleurs,
dans cer- taines applications comme l’interpolation par krigeage (cf chapitre 3), le r´esultat obtenu
est invariant par une multiplication du variogramme par un scalaire. Dans cette optique, le
coefficient k n’a pas
84
9
Sauf si ξ est nul, auquel cas on est r´eduit au variogramme purement p´epitiques, qui est parfaitement valide
10
Ce mod`ele de variogramme convient particuli`erement pour les processus stochastiques ne respectant que
l’hypoth`ese de stationnarit´e intrins`eque, et non celle de stationnarit´e au sens large, comme expliqu´e dans l’exemple
2.2.
85
besoin d’ˆetre estim´e, et on pourra utiliser arbitrairement le mod`ele de variogramme prˆet-`a -
l’emploi γ : h 1→ h. Le mod`ele lin´eaire devra ˆetre utilis´e pour les processus stochastiques
dont la dispersion explose `a mesure que grandit la taille de la zone d’´etude (Arnaud et Emery,
2000). Il convient en
particulier pour la mod´elisation des gisements de cuivre.
C
Vari
Vari
a
Dans une version simplifi´ee, comme nous le verrons dans l’activit´e V, les param`etres du mod`ele
sont ajust´es en d´eterminant empiriquement la port´ee a, puis en effectuant une r´egression lin
´eaire sur la portion [0, a]. Ce mod`ele pr´esente l’avantage de fournir une approximation
relativement fiable de mod`eles analytiquement plus complexes.
Ce variogramme d´e g´e n`e r e en un mod`ele p´epitique pur quand a tend `a s’annuler.
Le mod`ele puissance
Quand θ = 1, on retrouve le mod`ele lin´eaire. Pour θ > 1, on a γt(h) = θkhθ−1 et donc γt(0) = 0, le
variogramme a un comportement paraboliquet `a l’origine, traduisant ainsi des r´ealisations plus
lisses que le mod`ele lin´eaire. Pour θ < 1, γ (0) est infini, le comportement `a l’origine est quasi-
p´epitique. Tout comme pour le mod`ele lin´eaire, la covariance n’existe pas.
L’estimation des param`etres est imm´ediate par r´egression affine dans l’espace log-log. Un i nt
´e rˆe t principal de ce mod`ele est de pouvoir mod´eliser des comportements `a l’origine
parabolique, lin´eaire et quasi-p´epitique avec un unique jeu de param`etres, ce qui offre une grand
variabilit´e de cas d’application. Le variogramme puissance devrait donc ˆetre utilis´e lorsque l’on n’a
a priori aucune id´ee du comporte- ment variographique du ph´enom`ene ´etudi´e. Remarquons
que le cas sp´ecial θ = 2 bien que licite
86
(comme nous le verrons dans la section 2.4.5), r´esulte en un processus non-ergodique, et donc inutil-
isable en G´eostatistique.
Vari
Vari
Distance entre sites h Distance entre sites h
Le mod`ele exponentiel
Le palier n’est jamais rigoureusement atteint. La port´ee est d´efinie comme la distance `a
laquelle on atteint 95% de la limite asymptotique C du variogramme. Elle vaut donc hmax = 3a.
C C
0.95C 0.95C
Vari
Vari
3a
2a
t
t C a et
h γ (0) = C
> 0, le comportement `a l’origine est lin´eaire.
a a
Le mod`ele exponentiel convient en particulier pour mod´eliser les erreurs GPS, et pourra donc
dans ce cadre ˆetre utilis´e par exemple pour am´eliorer les syst`emes de guidage (Grejner-
Brzezinska et al., 2005) et de navigation (Meneroux, 2019).
Il caract´erise notamment un bruit rouge, c’est-`a - dire dont la puissance d´ecroit comme le carr´e
de la fr´equence. En 1827, le botaniste ´ecossais Robert Brown, d´ecouvre que les particules du
pollen sont
87
soumise `a un tel type de bruit. En particulier, il est solution de l’´equation de Langevin, caract
´erisant le mouvement d’une particule ponctuelle soumise `a un frottememt proportionnel `a la
vitesse ainsi qu ’`a une force de collision al´eatoire. Ce bruit, depuis rebaptis´e bruit brownien, sera
plus tard `a la base des hypoth`eses n´ecessaires `a l’´etablissement d’une loi c´el`ebre reliant temp
´erature, pression et volume d’un gaz, dite loi des gaz parfaits. En acoustique, un signal brownien
´evoque le bruit des vagues et aurait des vertus th´erapeutiques contre l’hyperacousie.
Le mod`ele gaussien
C’est avec le mod`ele exponentiel, l’un des deux mod`eles les plus couramment utilis´es.
h2
−
γ(h) = C(1 − e a2 ) (2.15)
La port´ee est d´efinie comme la distance `a laquelle on atteint 95% de la limite asymptotique C
du variogramme. Elle vaut hmax =J ln(20)a ≈ 1.73a.
Par ailleurs, γt(h) = 2Ch exp(−h2/a2) et γt(0) = 0, le comportement `a l’origine est parabolique. Plus g
´en´eralement, on montre a facilement que la d´eriv´ee n-eme γ(n) du mod`ele, est nulle en l’origine,
pour
tout entier n � 0, d’ o u` l’aspect t r`es lisse des r´ealisations d’un processus de variogramme γ, ce
qui convient en particulier `a la mod´elisation topographique.
Le mod`ele sph
´erique
( ( )
3h 1 h3
C − si h :( a
γ(h) 2 2 (2.1
C
Ici aussi, on retrouve le mod`ele p´epitique pur quand a tend `a s’annuler. Par ailleurs, on a : γt(h) =
− 3 h ) et donc γt(0) = > 0, le comportement est lin´eaire `a l’origine.
2
C(
3 a 2
2
3
89
C
C
Vari
Vari
a a
int´erieurs de deux sph`eres d’influence. Lorsque les points sont s´epar´es d’une distance sup
´erieure `a a, on retrouve naturellement que la corr´elation est nulle, et le variogramme atteint
son palier. Le variogramme sph´erique est donc un ´equivalent tri-dimensionnel du variogramme lin
´eaire avec palier, qui lui mesure la corr´elation entre deux points par la longueur de l’intersection
des int´erieurs de deux segments de longueur a (Allard, 2012).
Le mod`ele sph´erique peut ˆetre employ´e comme une version analytiquement simplifi´ee du variogramme
exponentiel. Il se g´en´eralise pour toutes les dimensions d’espace.
Le mod`ele
cubique
( ( 2 )
35 h3 5
3 h7
C 7h − + 7 h
− si h :( a
γ(h) a 4 2 4 (2.1
C
Le mod`ele `a effet de
trou
sin(h/a)
γ(h) = C (1 ) (2.18)
h/a
90
Ici aussi, le palier n’est jamais rigoureusement atteint. La port´ee peut ˆetre d´efinie au niveau de
l’une des premi`eres intersections de la courbe avec la limite asymptotique C du variogramme. Diff
´erentes mesures du ph´enom`ene peuvent ˆetre effectu´ee sur le variogramme (abscisse du
premier pic, ´ecart inter-pics, distance du premier creux, etc.) et traduites en termes de caract
´eristiques de la variable r´egionalis´ee (largeur typique des ondulations, etc.). Pour plus
d’informations nous renvoyons le lecteur au travail complet de Pyrcz et Deutsch (2003).
Physiquement, nous savons depuis le d´ebut du XIXe si`ecle et les ´etudes de Joseph Fourier, que
tout signal peut ˆetre consid´er´e comme une somme (potentiellement infinie) de sinuso¨ıdes : la
nature est intrins`equement oscillatoire. Un ph´enom`ene dont la p´eriodicit´e nous est apparente
est un signal dont n’ont ´e t ´e conserv´e que les basses fr´equences. Comme nous le verrons dans
le paragraphe 2.4.5, le variogramme `a effet de trou ne d´ecrit pas autre chose : c’est la caract
´erisation d’un mod`ele p´epitique pur pass´e en entr´ee d’un filtre passe-bas id´eal.
Le mod`ele `a effet de trou est adapt´e pour mod´eliser les ph´enom`enes (en particulier spatio-
temporels) cycliques : la pluviom´etrie, le niveau de la mer (et d’une mani`ere g´en´e ra le tous
les ph´enom`enes li´es d’une mani`ere ou d’une autre `a la rotation ou `a l’orbite de la Terre),
l’imagerie par r´esonnance magn´etique, ainsi que certains ph´enom`enes topographiques pr
´esentant une forme de p´eriodicit´e spa- tiale (plissements, dunes...).
C C
Vari
Vari
Fig. 2.26. Variogramme p´epitique pur ( `a gauche) et variogramme `a effet de trou ( `a droite).
C’est le cas d’un processus compl`etement d´e c o r r´e l´e . On parle de bruit blanc au sens faible
(Picinbono, 1998). Utilis´e seul, il ne pr´esente aucun int´erˆet.
�0 si h =
γ(h) =
0 (2.19)
C sinon.
91
Le mod`ele `a effet de p´epite
Notons qu’il est possible de combiner l’effet de p´epite `a tous les mod`eles de variogrammes pr´ec
´edents. Par exemple, on peut fabriquer un variogramme cubique `a effet de p´epite.
� 2
35 h3 5
3 h7
C(7 h − + 7 h
− ) si h :( a
γ(h) a 4 2 4 (2.2
C
C
Vari
Les gisments d’or par exemple, peuvent se mod´eliser par un variogramme au comportement erratique
(fort effet de p´epite), une faible port´ee et une croissance lin´eaire `a l’origine, donc a priori
avec un variogramme exponentiel ou sph´erique avec p´epite. Le mod`ele cubique ou gaussien `a
effet de p´epite peut permettre de mod´eliser les erreurs de mesures (GPS par exemple) sur un
MNT.
Les mod`eles de variogrammes sont additifs. Autrement dit, si γ1 et γ2 sont des variogrammes
valides, alors γ1 +γ2 en est un aussi12 Avec ce proc´ed´e, on peut facilement construire des
variogrammes ´etag´es, dits variogrammes en gigogne.
Il est possible de regrouper ces mod`eles en trois classes (Baillargeon, 2005) : les mod`eles sans
palier (lin´eaire, puissance) avec palier exact (lin´eaire avec palier, p´epitique pur, sph´erique
et cubique) et enfin avec palier asymptotique (gaussien, exponentiel et `a effet de trou). Il existe
par ailleurs de nombreux autres mod`eles moins classiques : Mat´ern, Legendre, Bessel... qui g´en
´eralisent et compl`etent les variogrammes ci-dessus.
12
Notons que ceci n’est pas vrai pour la soustraction.
92
C
Varia
a1 a2
Nous pr´esentons en figure 2.29 les 6 mod`eles de variogramme les plus fr´equemment utilis´es,
avec `a chaque fois un exemple de r´ealisation associ´ee.
Erreur d'estimation
Varian
Fig. 2.30. Variogramme th´eorique inconnu (en ligne pointill´ee), variogramme exp´erimental
(croix rouges), mod`ele de variogramme i n f´e r´e par estimation param´etrique (trait plein) et erreur
d’estimation.
Notons qu’il peut parfois se r´e v´e l e r difficile de choisir le bon mod`ele de variogramme. Certains
travaux ont ´e t ´e men´es en ce sens pour permettre une s´election automatique (Barry et al., 1996).
En g´en´eral, les approches employ´ees consistent `a tester l’ajustement sur une collection de
mod`eles candidats. Le mod`ele retenu est alors celui qui offre le meilleur compromis entre parcimonie
et qualit´e d’ajustement13.
Dans cette activit´e nous allons apprendre concr`etement comment choisir un bon mod`ele de
vari- ogramme et estimer ses param`etres (dans un premier temps `a la main, puis
informatiquement) en fonction des caract´eristiques suppos´ees de la variable r´egionalis´ee.
94
13 ´
E tant entendu qu’un mod`ele avec plus de degr´es de libert´e permet en g´en´eral un meilleur ajustement, une
approche classique pour ´eviter le sur-apprentissage consiste a` p´enaliser le nombre de param`etres du mod`ele.
95
On donne en figure 2.31 cinq exemples de r´ealisations d’un processus stochastiques (A `a E), avec leurs
cinq variogrammes empiriques associ´es (dans le d´esordre : I `a V).
Fig. 2.31. 5 exemples de r´ealisations d’un processus stochastiques (colonne de gauche) et les
5 variogrammes empiriques associ´es (colonne de droite dans le d´esordre).
96
Q1. Associer chaque r´ealisation avec son variogramme correspondant.
Q2. On consid`ere le variogramme exp´erimental de la fig. 2.32, construit `a partir d’un semis de relev´es
d’altitude. Choisir (en justifiant) un mod`ele de variogramme, et le repr´esenter sur le graphique.
50
Variance 40
30
20
10
0
0 100 200 300 400 500
Correction :
Q1. La r´ealisation B est un bruit blanc (signal sans aucune structure de corr´elation spatiale).
Son variogramme est donc `a p´epite pure, donc constant et ´egal `a Γ > 0 sur ]0; +∞[ et nul en
0 : c’est le variogramme III. La r´ealisation C poss`ede un motif d’ondulations p´eriodiques, ce qui
se mod´elise
`a l’aide d’un variogramme non-monotone dit `a effet de trou : le mod`ele V. Parmi les 3 r
´ealisations restantes A, D et E, seule la variable r´egionalis´ee E semble bruit´ee. On
recherche donc un effet de p´epite dans le variogramme, que l’on trouve dans le mod`ele I. Au
passage, la repr´esentation vari- ographique nous permet de calculer le ration signal sur bruit (ou
SNR pour Signal to Noise Ratio en anglais) du processus : c’est le rapport de la variance de
l’information utile sur la variance du bruit14. En termes variographiques, c’est le rapport de la diff
´erence palier - p´epite sur la p´epite :
C− η C
SNR = = −1
η η
Pour une p´epite pure (η = C) et on retrouve bien un SNR nul (aucun signal dans le bruit). Ici, dans
le cas du variogramme I, on a C ≈ 1200 et η ≈ 450, d’ ou` un SNR de l’ordre de 1.7 dans la r
´ealisation E (1.7× plus de signal que de bruit). Les SNR de tous les autres mod`eles (hormis I et
III) sont infinis.
Enfin, entre les deux r´ealisations restantes (A et D), A paraˆıt plus r´eguli`ere, on lui associe
donc II, pour son comportement parabolique `a l’origine (notons que le processus ayant g´e n ´e r ´e A
semble ˆetre une version d´ebruit´ee de celui ayant g ´e n ´e r ´e E). La r´ealisation D, plus irr
´eguli`ere, correspond donc au
97
14
Physiquement, cette quantit´e correspond ´egalement au rapport de la puissance du signal utile sur le bruit de fond.
En t´el´ecommunication, plus le SNR est r´eduit, plus la r´eception du signal est d´elicate.
98
variogramme IV, au comportement clairement lin´eaire `a l’origine.
Q2. Par simplicit´e, on propose d’utiliser une mod`ele de variogramme lin´eaire avec palier.
50
40
Variance
30
20
10
0
0 100 200 300 400 500
On estime alors graphiquement : port´ee a = 410 m, p´epite η = 5 m2 et palier C = 41 m2, soit une
pente (C − a)/η = 0.088 m-1 et un ratio signal sur bruit de 7.2.
Remarquons que ce choix simplificateur a un prix : la topographie est en g´e n´e r a l assez lisse,
alors que le mod`ele utilis´e ici a un comportement lin´eaire `a l’origine. En fonction de la g
´eologie du milieu consid´er´e, peut-ˆetre qu’un mod`ele gaussien ou cubique avec p´epite serait
plus adapt´e.
Q3. Informatiquement, on peut estimer les param`etres plus rigoureusement. On commence par
relever les valeurs du graphe pour les consigner informatiquement :
G = c(10,13.5,17,23.5,27,31,34.5,40.5,42,40,42)
n = length(G); H = (1:n)*50
On peut alors estimer les param`etres optimaux du variogramme. On rappelle que la droite de r´egression
y(x) = β1x + β2 entre deux s´eries de nombres X et Y a pour param`etres optimaux :
β�1 = Cov(X,Y)
β�2 = E[Y ] − β�1 E[X] (2.22)
Var[X]
On donne alors le code suivant, permettant, pour un entier a donn´e, d’effectuer la r´egression lin´eaire
2.22 sur les a premiers points du variogramme exp´erimental, puis de calculer la droite de r´egression
99
horizontale (qui correspond simplement `a l’ordonn´ee moyenne) des (n − a) points restants. Le code
100
retourne (en plus des param`etres ajust´es), un indice de la qualit´e de l’ajustement, le RMSE,
calcul´e par la racine carr´ee de la moyenne des carr´es des ´ecarts entre le mod`ele et les points de
donn´ees.
possible #
# Estimation
#
slope = cov(H[1:a],G[1:a])/var(H[1:a])
intersept = mean(G[1:a])-slope*mean(H[1:a])
palier = mean(G[(a+1):n])
model2 = rep(palier, n)
slope = (palier-intersept)/scope
#
# Sorties graphique
#
plot(H, G, pch=16)
lines(H, model1,
lty=2) lines(H,
model2, lty=2)
abline(v=scope, lty=2)
#
# Sorties consoles
#
cat("---------------------------------------------\r\n")
cat(paste("Portee:", round(scope,2),"\r\n"))
cat(paste("Pente:", round(slope,3),"\r\n"))
cat(paste("Pepite:", round(intersept,2),"\r\n"))
cat(paste("Palier:", round(palier,2),"\r\n"))
cat("---------------------------------------------\r\n")
cat(paste("RMSE:", round(rmse,2),"\r\n"))
cat("---------------------------------------------\r\n")
On peut alors lancer le code ci-dessus pour toutes les valeurs de coupure possibles (nomm´ement pour
a allant de 2 `a 10) et ne conserver que celle qui donne le meilleur ajustement (i.e. le RMSE le plus
faible). La meilleure estimation est obtenue pour la coupure a = 7 (soit entre le 7eme et le 8eme
101
point), avec une erreur RMSE de 0.77 m2. Les param`etres estim´es sont :
ce qui correspond `a peu de chose pr`es aux param`etres estim´es `a la main. La valeu r du palier
nous donne l’amplitude verticale caract´eristique de variation du champ : σ Z = 41.12,√soit de l’ordre
de 6 `a 7 m. Le bruit blanc additif a une amplitude caract´eristique σ = √5.43, soit environ 2 m. La
taille horizontale typique des ´el´ements structurants du relief (colline, vall´ees...) serait d’environ 400 m.
Nous concluons cette activit´e avec une repr´esentation p´edagogique du variogramme, inspir´ee de
l’excellent ouvrage de Gringarten et Deutsch (2001).
2
0
●
● ●
●●●
● ● ● ●●● ● ● ● ● ●● ●
● ● ● ●● ● ● ● ● ●
● ● ● ● ● ● ●
2
0
● ●● ●●●● ●● ●● ● ● ●
● ● ● ● ●●● ●●● ● ● ●●
● ●● ● ● ● ● ● ● ● ●● ●
● ●● ● ● ●● ● ● ● ●
1
0
●● ● ● ● ● ●● ● ●●● ●●● ●● ● ● ● ●● ●
● ●●● ● ●● ● ● ● ● ●●●●●●●● ●●●● ●●●● ●●● ●●
●● ●●●●● ●●●●●●● ●● ●●●● ● ●●● ●●●●●●●●●●●●●●
● ● ●●● ● ●● ● ● ●
● ●● ●● ●●● ●●●●●● ● ●●● ●●●●●●●●●● ● ● ●● ●●●● ●
● ● ● ●●● ●●●●●●●● ●●●●● ●● ●●●●●● ●●
●● ●● ●●●●●● ●● ●● ● ● ●● ● ● ●● ● ●● ● ●
● ●●●●●●●●●●●●●● ●●●●●●● ●●●● ●● ●●●●●●●●●●●● ●●● ● ● ● ● ● ● ● ●●●●● ● ●
● ● ●● ●● ● ●●●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●● ●●● ●● ● ● ● ● ●
● ● ● ● ●● ●● ●●● ●● ●●●●●●●●●●●●● ●●●●●●●●●● ●●●● ●● ●● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● ●
● ●●● ● ● ●●● ●● ● ●● ●● ●●●●●●●●●●●●● ●● ●●●
●●● ●●●●● ●●●●●●● ●● ● ● ● ● ●● ● ●● ●●●●● ●● ● ●● ● ● ●●●●●● ●● ●●● ● ● ●● ● ●●
1
0
●● ●
2
0
0
● ●● ●● ● ●●● ● ●● ●●● ●● ●● ●●● ●●●●●●●●●●● ●●●●● ●●●●● ● ●
●● ●
0
● ●● ●● ● ●● ● ●●● ●● ● ● ●● ●
● ●●
● ● ●●● ●●●● ● ● ●●● ●●●●●● ● ●● ● ●●●●●● ● ●
●● ●
● ●●● ● ●●● ●●●● ●●● ●● ●● ● ● ● ●●
●● ●● ● ● ● ● ●●●● ● ● ●
●
●●● ●●●●●●●●●●●●● ●●●●●●●●●●●●●●
●● ● ●●●●● ● ●●●●●●●●●●●●●●● ●●●
●● ●●●● ●●●●●●● ● ●●
● ● ● ● ● ● ● ● ●●● ●● ●● ●●● ● ● ● ●● ●●● ● ●●●●● ●●●● ●●●●● ● ●● ● ● ●● ●
● ● ● ●●● ●● ● ●
● ●● ●
●● ● ●● ● ● ●●● ●● ● ● ● ● ● ●●●● ● ● ●● ● ●● ●● ●● ●●●●●●● ●●● ●● ●● ●●●
●
● ● ●●● ●● ● ●●● ●
●● ●●●● ●● ●●●● ● ● ● ●● ● ●
● ● ● ● ●● ● ● ● ● ● ●●● ● ●● ●●●●●●● ●●●● ●● ●● ●● ●●●
● ● ● ●●●● ● ●●● ●●● ●● ● ● ● ● ●●●
●● ●●●●●● ●● ● ●●●●
● ●●●●●●●●●●●● ●●● ●●● ● ●●●
● ●●● ●● ●●●●●● ●●
●● ●●●●●
● ●●● ● ● ● ●● ● ● ●
● ● ●●●●● ●●● ●● ●●●
● ● ● ● ●● ●● ●●●● ●● ● ●● ● ● ● ● ● ●●● ●●●
● ● ●● ●● ● ●● ● ●●●● ● ●●●●● ● ● ● ● ●
●●● ●●● ●● ●● ●●●●●● ● ● ●●●● ● ● ●●●● ●● ● ●● ● ● ● ● ● ●
● ● ●●● ●●●●● ●● ●●
● ●●● ● ●● ● ●●● ● ●●● ● ● ●
● ● ●● ●●● ●●●● ●●● ● ● ● ● ● ●●● ●● ●
●●● ●●● ●
● ●●● ●●●●●● ●●●●● ● ●● ● ●●●● ●●●● ●●● ● ●● ●●● ●●
−
● ● ●●● ● ●● ●● ●●●● ●●
1
● ● ● ● ●● ●● ● ●
● ● ● ●●
●● ● ●●
−
● ● ● ●●● ●● ● ● ● ● ●● ● ●
2
● ●● ●●●●●● ●● ●
● ● ●●●●●●● ●●●●●●●●●●
●● ●●●●●●● ●●●●
●●● ● ● ●●●●●●●●●●
●●● ●●● ● ●
● ●● ●● ●●
●● ● ●● ●● ●●●●●
● ●●
●● ●●● ● −20−10 0 10 20
●
● ● ● ● ●●●
● ●● ●●●●●
● ●●
●●
● ● ● ●● ● ●● ●●●● ●● ● ●●
●
● ● ●●● ● ● ●●●● ●
●●●●●● ● ● ● ● ●●
●●● ● ●●● ● ●●● ●
● ●●●●
● ● ●●●●● ●● ●
−
2
● ●● ●
●● ● ●●●●● ● ● ● ● ●●●● ● ●● ●● ●●● ●
● ● ● ●●●●●● ●●●
−20−10 0 10 20
50
2
0
●
● ●
40
●
●●●
●
●
●● ●
●● ●● ●
● ● ● ● ●● ● ● ●●
●● ● ●● ● ● ● ●●● ● ●● ● ● ●
●● ● ●● ● ●●●● ● ● ●
● ● ●●● ●● ● ●●● ● ● ● ● ●
1
0
● ●●●●● ● ●● ● ● ●● ● ●● ● ● ●
● ●● ●● ●● ●●● ● ● ● ●●●●● ●●●●●●● ● ● ● ● ●
● ●● ● ●●● ● ●● ● ●● ● ●● ●●●● ●●●●● ●● ● ● ●●
● ● ● ● ●●● ●●● ●●●●● ●●● ● ●● ●●● ● ● ●●● ●●
● ● ● ● ●●● ●● ●●●●●● ●● ●●●●●●●●●●●●●●●● ● ●●●●
●● ●● ● ●● ● ●● ● ● ●●
●
● ● ● ●● ● ● ●●● ●● ● ● ●●●●●●●●●● ● ●●● ● ● ● ●●● ●● ● ● ●
30
● ●●●● ● ●●●●●●●●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●
● ● ●● ●● ● ● ● ●● ●●●●●●●●●●● ●●●●●●●●●●●●● ●● ●●● ●●●●● ●● ●● ●●●● ● ● ● ● ● ●
● ● ●● ●●●●●●●●●●●●●●●● ●●● ● ●●●●●●●● ●●● ● ●●●● ● ● ●●
● ●● ● ● ●● ● ● ●●●●●●●●●●● ●●●●●● ●● ●●●●●●● ●●●●
● ● ●●● ●●● ●●●●●●● ● ●●●●● ●●●●●●●●●● ●● ●● ● ● ● ●
● ● ● ●● ●●●● ●●●●●● ● ●●●●●● ●●●●●●● ●●●● ● ● ●● ● ● ● ●●
● ●●●●●●● ●●●●●●●● ●●●●●●●●●●●●●●●● ●●●●●● ● ● ● ●
● ● ● ● ● ● ● ●● ●●●● ●●●●●●●● ●●●●●●●●●●● ●●●●●●● ●●●●● ●●●●● ● ●●● ●
0
● ● ●●● ●●●●● ●● ●●● ●●●●●●● ●● ●●● ● ● ● ● ●● ● ●
●
2
0
20
● ●●● ●●●●●●●● ●● ●●●
●● ●
−
1
●● ●● ●● ● ●●●●● ●● ●
●● ●● ●● ● ●● ●● ●●●●
●● ● ● ● ● ●● ●●● ●
1
0
●● ● ●●●●●●●● ●●●●● ● ● ● ●
● ● ●●●●●●●● ●● ●● ●●●●●●●●●●● ●
●●● ● ●
● ●● ●● ●●●●● ●●●●●●●● ●●●●●●●● ● ●●
● ● ● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ●●●
●●● ● ●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●● ●●●● ● ●●● ●
● ●●●●●● ●● ●●●●●●●●●●●●●●●● ●●●●●● ●
●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ● ●
● ● ● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●
●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●
●●●
●● ●●●● ●
● ●● ●●●●●●●●●●●●●● ●●●●●●●●●●●● ● ● ●
●●● ●● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●
●● ●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●●●●●●●● ●●● ●
● ● ●● ●●●●●●● ●●●● ●●●●●●●●●●●●●●●●● ● ● ●
● ●●● ●●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●●●●●●●●●●●●●●
● ● ●●●●●●●● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●
−20−10 0 10
● ●● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●● ●●●●●●● ● ●
● ●●●●● ●● ●●●●●●●●●●●●●●● ●●● ●● ● ● ●
●●●● ●●●●●●●● ●●●●●●●●●●●●●● ●●●●●●
● ● ●● ● ●●●●●●●●●●●●●●●●●●●●●●●●●● ●● ●
● ●●●●●●●●●●●● ● ●● ●●● ●
● ●● ●●●●●●●●●●● ●●●●●●●●●●●
● ● ● ●●●●●●●●●●●●●●●●●●●●●● ●●●●
● ● ● ●●● ●●●●● ●●●●●●● ●●● ● ● 1
0
●●● ●● ● ●
● ●● ●●● ● ● ● ●
●●●●● ●●● ●
● ● ● ●●● ●●● ● ●
●● ● ●
● ●
●
0
●●● ●
●
−
2
500
−20−10 0 10 20
Fig. 2.34. Variogramme du processus, et corr´elation lin´eaire ρ entre deux sites distants de h =
0, 100, 200, 300 et 500 m. Remarquons q u’ `a cause de l’effet de p´epite, la corr´elation n’est
jamais parfaite, y compris pour deux sites infinit´esimalement voisins (h ≈ 0).
Par exemple, pour h = 200 m, on calcule `a l’aide des param`etres estim´es : γ(200) = 0.085×200+5.43 =
22.43. Par ailleurs, l’asympote du variogramme est γ(∞) = 41.12, d’ou` la corr´elation liant des
obser- vations effectu´ees en des sites s´epar´es de 200 m :
41.12 − 22.43
ρ(200) = 41.12 45 %
≈
102
2.4.5 Pour aller plus loin
Anisotropie
Si le processus stochastique est anisotrope, son variogramme ne peut plus ˆetre d´ecrit par une
fonction d’une seule variable, puisqu’il d´epend `a present `a la fois de la distance h et de l’angle θ
s´eparant les sites. L’estimation du variogramme exp´erimental se fait d’une mani`ere analogue `a
2.9 mais en ajoutant en plus une discr´etisation sur l’angle θ. Formellement : disposant d’un semis
de points d’observations z(x1), z(x2), ...z(xn) d’un ph´enom`ene anisotrope Z, on peut estimer le
variogramme de Z par :
1 L i j)
γ�(h, θ) = t 2
z(x ) − z(x ) (2.23)
2|N (h, (i,j)∈N
o u` N (h, θ) d´esigne l’ensemble des couples d’indices (i, j) tels que les sites xi et xj sont s´epar´es d’une
distance h ± dh suivant une direction θ ± dθ et o u` |N (h, θ)| d´esigne le nombre de couples contenus
2 2
dans N (h, θ). En g´e n´e r a l 2 directions (0◦ et 90◦) ou 4 directions (0◦, 45◦, 90◦ et 135◦) sont suffisantes15.
Fig. 2.35. Anisotropie d’un processus stochastique : le variogramme exp´erimental est calcul´e
dans deux directions orthogonales : verticale (variogramme `a effet de trou en vert) et horizontale
(vari- ogramme gaussien ou cubique en bleu). Source : Pyrcz et Deutsch (2003).
• L’anisotropie g´eom´etrique, dont les variogrammes sont de palier identiques mais de port
´ees diff´erentes suivant les directions, et qui peut ˆetre facilement corrig´ee par un
changement de rep`ere. Dans ce mode d’anisotropie, la variabilit´e pr´ef´erentielle du
processus dans certaines directions est souvent due `a un mauvais choix de syst`eme de
coordonn´ees.
• L’anisotropie zonale, aux variogrammes de port´ees identiques mais de palier diff´erents, qui
car- act´erise une anisotropie plus intrins`equement li´ee au processus, et donc plus difficile `a
mod´eliser.
103
Le lecteur pourra trouver plus d’informations sur ce sujet dans (Allard, 2012).
15
Les angles sont donn´es a` une rotation globale pr`es, d´ependant de l’orientation du rep`ere.
104
De la validit´e d’un mod`ele variographique
Comment savoir si une fonction γ (nulle `a l’origine) est un mod`ele de variogramme licite ?
En th´eorie, il suffit de s’assurer que γ est conditionnellement d´efinie-n´egative, i.e. pour tout
n-uplet de points du domaine : (x1, x2, ..., xn) ∈ D et pour tout n-uplet de poids (λ1, λ2..., λn) ∈ Rn :
n n n
L L
λi = 0 ⇒ L λiλjγ(xi − xj) :( 0 (2.24)
i=1 i=1 j=1
Exemple 2.5. Reprenons l’exemple 2.4 de la fonction de Heaviside (fonction ´echelon unit´e), dont
nous avions montr´e empiriquement qu’elle ne pouvait pas ˆetre un variogramme. On montre
facilement que
γ˜ ne v´erifie pas la contrainte de d´efini-n´egativit´e conditionnelle. En effet, en reprenant les trois
mˆemes points x1, x2 et x3, avec ||x1 − x3|| = ||x2 − x3|| < ξ et ||x1 − x2|| � ξ, on peut consid´erer
le syst`eme
de poids : λ1 = λ2 = −1 et λ3 = 2. On a bien λ1 + λ2 + λ3 = 0, et pour autant :
n n
L
L λi λj γ˜(x i − xj) = λ 1 λ 2 γ˜(x 1 − x2) = Γ > 0
i=1 j=1
donc la fonction γ˜ n’est pas CDN, et ne peut donc pas ˆetre un mod`ele de variogramme.
Si la contrainte 2.24 est parfois facile `a r´efuter, elle est en g´e n´e r al tr`es difficile `a v´erifier, et on
pourra alors trouver un salut dans les deux th´eor`emes suivants. Tout d’abord, dans le cas o u` γ
est born´ee : si γ est un mod`ele de variogramme licite, alors on sait que la covariance C doit
exister et la relation fondamentale 26 nous permet d’obtenir son expression. Il suffit alors de v
´erifier que C est bien une fonction de covariance licite, et pour cela, on peut utiliser le puissant th
´eor`eme de Bochner :
Une fonction C : R+ → R+ est la covariance d’un processus stationnaire au sens large si,
et seulement si, elle est la transform´ee de Fourier d’une mesure positive finie sur R :
Autrement dit, dans la plupart des cas, pour savoir si une fonction γ quelconque born´ee est un
mod`ele de variogramme licite, il suffit :
106
Linéaire Exponentiel Gaussien A effet de trou
0
0
Variogram
0.8
3
0
0
0
0
0
0
0
0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 5 10 20 30
Covariogramm
0.6
3
0
0
−
−100−50 0 50 100 −100−50
0 0 50 100 −100−50 0 50 100 −30−10 10 30
0
0.
Fouri
0
0
0.
0
0.
Fig. 2.36. Pour chaque fonction γ (ligne du haut) dont on souhaite v´erifier la validit´e en tant
que mod`ele de variogramme, on calcule le covariogramme candidat associ´e (ligne du milieu), et on v
´erifie que sa transform´ee de Fourier (ligne du bas) est une fonction positive.
Remarque : si C est bien une covariance, F est sa densit´e spectrale de puissance, c’est-`a -
dire la r´epartition probabiliste des puissances des signaux g ´e n ´e r ´e s par le processus en fonction de la
fr´equence. Elle fournit donc de pr´ecieuses informations sur le processus.
Exemple 2.6.
nouveau, en reprenant l’exemple 2.4, si γ˜ ´etait un variogramme licite, alors sa co-
A`
variance associ´ee serait ( `a un facteur d’´echelle Γ pr`es) la fonction porte Πξ, d´efinie
par :
� (2.25)
1 si |h| :(
Π ξ(h) =
ξ0
107
Remarquons qu’il s’agit de la fonction en bas `a droite de la figure 2.36. Sa transformation de
Fourier est un sinus cardinal (par sym´etrie de la transform´ee de Fourier, on retrouve naturellement la
fonction
108
au milieu `a droite sur cette mˆeme figure), qui n’est pas une mesure positive. Donc la fonction
porte n’est pas un mod`ele licite de fonction de covariance, et nous avons `a pr´esent montr´e
rigoureusement que γ˜ ne peut pas ˆetre un variogramme.
Exemple 2.7. Montrons que la fonction puissance 2.13 : γ : h 1→ hθ est bien le variogramme d’un
processus stochastique intrins`eque. On a bien γ(0) = 0. Par ailleurs, formons la fonction :
( )
ψ(h) = exp − thθ
Plus g´en´eralement, on montre que le mod`ele de variogramme en puissance est licite pour tout θ ∈
]0; 2]. Allard (2012) propose une m´ethode ne n´ecessitant pas le calcul de la transformation de
Fourier, pour
montrer que la puissance θ ne peut pas ˆetre sup´erieure `a 2. L’id´ee centrale du d
´eveloppement est de proc´eder de mani`ere similaire `a l’exemple 2.4 de la fonction ´echelon unit´e,
en ´etablissant une in´egalit´e triangulaire sur le variogramme. Formellement, en consid´erant h
et ht deux vecteurs du domaine :
t
1 1t
γ(h + h ) = E Z
)2l 1 1t )2l
− Zx+h+h = E Zx − Z x+h + Zx+h − Z x+h+h
x
12 1t )2 t 2 ) )t
= E Z − Zx+h + Z x+h − Zx+h+h 2 + − Zx+h Z x+h − Zx+h+h )l
x
2 t
2 Zx
[ ]
= γ(h) + γ(ht) + E (Zx − Zx+h)(Zx+h − Zx+h+h )
109
Or, d’apr`es l’in´egalit´e de Cauchy-Schwarz on a :
110
[
E (Zx − Zx+h)(Zx+h − Zx+h+h ) = Cov(Zx − Zx+h, Zx+h − Zx+h+h )
(2.26)
t )
21
:( Var[Zx − Zx+h] × Var[Zx+h − Zx+h+h ]
t ) 1
γ(h + ht) :( γ(h) + γ(ht) + 2 γ(h)γ(ht) 2
(2.27)
( ξ ξ) ( ξ) ( ξ)
2 ) 2= γ˜
puisque : Γ = γ˜(ξ 2+ >2γ˜ + 2γ˜ 2 +
r
( ξ) ( ξ)
2 γ˜ γ˜ =0
De mani`ere plus g´en´erale, l’in´egalite 2.27 montre que le variogramme ne peut pas croˆıtre plus rapide-
ment qu’une parabole : γ(h) = O(h2). En effet, en consid´erant h = ht on obtient : γ(2h) :( 4γ(h), et
donc, si γ(h) = hθ, on a (pour h > 0) : 2θhθ :( 4hθ ⇔ θ :( 2.
Il est int´eressant de constater que dans le cas limite θ = 2, l’in´equation 2.26 nous montre que les
accroissements du processus sont compl`etement corr´el´es, et on aboutit `a un cas d´e g´e n´e r´e o u`
les
r´ealisations sont rigoureusement des plans inclin´es, de pentes al´eatoires. Par exemple, on peut
con- sid´erer le processus uni-dimensionnel X(t) = At, avec A ∼ N (0, 1). On v´erifie alors
facilement que X
est bien stationnaire intrins`eque : E[X(t+h) −X(t)] = E[Ah] = 0 et Var[X(t+h) −X(t)] = Var[Ah] =
h ,2qui est donc bien un variogramme quadratique. Le cas θ = 2 est un mod`ele licite de variogramme,
mais d’aucune utilit´e en pratique. Lors de utilisation d’un mod`ele en puissance, on veillera `a
bien contraindre l’ajustement param´etrique de θ dans l’intervalle ouvert ]0; 2[.
Exemple 2.8. La lin´earit´e de la transformation de Fourier nous dit que si C1 et C2 sont deux
fonctions de covariance, alors leur somme C1 + C2 en est une aussi. L’implication est moins triviale
pour les variogrammes, mais les th´eor`eme 33 et 34 nous permettent d’arriver `a nos fins.
112
2.5 Bilan
Le variogramme, qui indique pour toute distance de s´eparation h, la variance de la diff´erence
entre deux sites distants de h, caract´erise ( `a l’ordre 2) le ph´enom`ene `a ´etudier. En
particulier, le comporte- ment `a l’origine du variogramme traduit la r´egularit´e du ph´enom`ene
(continuit´e et d´erivabilit´e) tandis que la valeur num´erique de sa port´ee est un indicateur de la
taille caract´eristique des ´el´ements (e.g. vall´ees, collines) structurant ses r´ealisations.
Tous les calculs subs´equents (en particulier ceux l i´es au krigeage, comme nous allons le voir
dans le chapitre 3) sont men´es `a partir du mod`ele de variogramme i n f´e r´e (coh´erence avec la th
´eorie, stabilit´e num´erique des matrices, positivit´e des variances d’estimation...).
113
Chapter 3
Dans ce chapitre, nous traitons le probl`eme mod`ele ´e n o n c´e dans l’introduction : disposant
d’un semis d’observations d’altitude z1, z2, ...zn en n sites x1, x2, ...xn, d´eterminer une fonction
interpolante
z : D → R qui en chaque lieu x du domaine retourne une estimation z(x) de l’altitude, avec la con-
trainte que la surface z co¨ıncide1 aux observations au niveau des sites : ∀ i ∈ [1..n], zi = (xi).
Nous supposons disposer d’un mod`ele de variogramme γ dont les param`etres ont ´e t ´e estim´es
avec les techniques pr´esent´ees dans le chapitre 2. Le krigeage utilise alors les informations
fournies par γ pour construire un estimateur de variance minimale de z.
Nous montrons en premier lieu et de mani`ere empirique, comment la th´eorie des processus
stochas- tiques peut ˆetre employ´ee pour traiter le probl`eme d’interpolation. Nous pr
´esentons ensuite les
´equations de krigeage et illustrons la m´ethode `a l’aide de plusieurs cas concrets. Nous
concluons enfin le chapitre en pr´esentant quelques variantes et d´eriv´ees de la technique.
3.1 Introduction
Pour montrer empiriquement comment les processus stochastiques (et la connaissance fine des
vari- ogrammes associ´es) peut permettre de r´esoudre un probl`eme d’interpolation, nous proposons
ci-dessous un activit´e sur machine. Notons qu’elle requiert un peu plus d’aisance dans le langage
R que les ac- tivit´es pr´ec´edentes, mais apporte une perspective int´eressante sur les
fondements de ce chapitre.
115
compl`etement cette ligne, pour pouvoir observer diff´erentes r´ealisations al´eatoires.
Dans un premier temps, nous allons programmer un processus stochastique l´eg`erement plus
sophis- tiqu´e que la marche al´eatoire 2.1 de l’activit´e I. Pour ce faire, nous allons avoir besoin
d’une fonction (qui malheureusement n’existe pas dans la biblioth`eque standard de R)
permettent de d´ecaler les
´e l´em e nts d’un vecteur d’un nombre donn´e de rangs vers la gauche ou vers la droite :
On pourra trouver plus de d´etails sur le fonctionnement interne du module shift sur le site
internet de Richards (2016). Pour l’heure, il est suffisant de savoir que, pour un vecteur X =
c(1,2,3,4,5,6) par exemple, l’instruction shift(X,2) va retourner le vecteur X d´e c a l´e de 2 ´el
´ements vers la droite :
X = [0,0,1,2,3,4]. De mˆeme lorsque le param`etre est n´egatif, shift(X,-3) par exemple, va
retourner le vecteur X d´e c a l´e de 3 ´el´ements vers la gauche X = [4,5,6,0,0,0].
Cette fonction va nous permettre de construire des versions translat´ees d’un mˆeme signal. Par
exem- ple, pla¸cons-nous sur l’intervalle [0; 1000] et consid´erons une fonction gaussienne (ici not´ee
h) centr´ee au milieu de l’intervalle, et d’´ecart-type (l’´echelle) 100 :
x = 0:999
h = exp(-((500-x)/100)**2)
0
0
Fig. 3.1. Trac´e de la gaussienne de base (en noir) et de 3 r´eplications translat´ees (en pointill´es).
116
En g´en´eral, on appelle noyau une fonction sym´etrique destin´ee `a ˆetre r´epliqu´ee, translat´ee
et chang´ee d’´echelle. Ici, h est donc un noyau gaussien. On peut alors construire un processus
stochastique en sommant un certain nombre N de r´eplications de h translat´ees et amplifi´ees al
´eatoirement :
N
L
Z(x) = xih(x − τi) (3.1)
i=1
o u` xi est distribu´ee suivant la loi normale standard, et τi est distribu´ee suivant la loi uniforme
sur la plage des translations possibles [-500; 500].
Q1. Programmer le processus Z sous forme d’une fonction generate prenant en entr´ee un noyau h
de taille quelconque (dans notre cadre nous travaillerons toujours sur des signaux de taille 1000),
et g´en`erant une r´ealisation al´eatoire.
generate = function(h){
X =
rep(0,length(h))
for (i in 1:100){
d = sample((-length(h):length(h))/2, 1)
X = X + rnorm(1,0,1)*shift(h,d)
}
return(X)
}
Q2. Sur un mˆeme graphique, tracer 5 r´ealisations du processus Z. On pourra r´eit´erer l’exp
´erience en changeant l’´echelle du noyau h, par exemple `a 50 ou 200.
Par souci de clart´e, on ne repr´esente ci-dessous en figure 3.2 qu’une seule r´ealisation par graphique.
Re- marquons que la port´ee d’autocorr´elation des processus est, comme on pouvait s’y attendre,
d’autant plus grande que l’´echelle du noyau l’est aussi.
Q3. Pour la suite, et jusqu’`a la question Q5 nous n’utiliserons que la version d’´echelle 100 du noyau.
117
1
1
.
.
0
0
.
.
0
0
.
.
1
0
1
0
1
0
5
5
0
0
−1
−1
−1
0 200 400 600 800 1000 0 200 400 600 800 1000 0 200 400 600 800 1000
Fig. 3.2. Trois r´ealisations d’un signal al´eatoire (en bas) et les noyaux de base associ´es (en
haut). E´ chelles des noyaux : 200 ( `a gauche), 100 (au centre) et 50 ( `a droite).
Nous cherchons `a pr´esent `a estimer une fonction inconnue z sur l’intervalle [0, 1000]. Pour ce
faire, nous disposons de trois observations : z(300) = 1, z(500) = 5 et z(800) = −1, et le probl`eme
est donc r´eduit `a un probl`eme d’interpolation. Nous allons montrer ici qu’il est possible de r
´esoudre ce probl`eme
avec des simulations al´eatoires. Commen¸cons par tracer ces donn´ees dans un nouveau graphique :
SITES = c(300,500,800)
OBS = c(1,5,-3)
plot(SITES, OBS, pch=16, ylim=c(-10,10))
epsilon = 1
for (i in 1:5000){
if (i %% 1000== 0){print(i)}
X = generate(h)
ok = TRUE
for (j in 1:length(OBS)){
ok = ok && (abs(X[SITES[j]]-OBS[j])<epsilon)
}
if (ok){
lines(X, type="l")
}
}
Quelques explications sur le code ci-dessus : pour chacune des 5000 r´ep´etitions, on g´e n`e r e
une r´ealisations X. On d´eclare alors la variable ok permettant de s’assurer que la r´ealisation
courante X v´erifie les contraintes d’interpolation. Pour chaque point de donn´ee j, on teste la
contrainte. Si cette derni`ere n’est pas v´erifi´ee sur l’un (ou plus) des points du vecteur SITES,
alors on ne repr´esente pas la r´ealisation. Notons que l’instruction if (i %% 1000== 0){print(i)}
permet de suivre la trace du calcul en cours, qui peut prendre un certain temps (en fonction des
resources de la machine utilis´ee).
118
● ●
● ●
● ●
1
0
1
0
1
0
●
5
5
●
●
0
0
−
−
300 400 500 600 700 800 300 400 500 600 700 800 300 400 500 600 700 800
Fig. 3.3.
A` gauche : une r´ealisation respectant la contrainte d’interpolation `a ε pr`es. Au centre : 16
r´ealisations (sur 5000 tirages) respectant la contrainte d’interpolation. A` droite : 4 r´ealisations (sur
5000 tirages) respectant la contrainte d’interpolation pour une tol´erance plus stricte (ε = 0.5).
Si on le souhaite, on pourra ˆet re plus exigeant sur la tol´erance, en choisissant par exemple ε =
0.5, mais attention, le nombre de solutions chute t r`es rapidement `a mesure que la tol´erance est
plus stricte, comme illustr´e sur la figure 3.3.
Q4. Toujours pour un nombre total de 5000 r´ealisations, repr´esenter la courbe moyenne de
l’ensemble des r´ealisations respectant la contrainte d’interpolation. Formellement, si zi d´esigne la i-
eme r´ealisation valide, on calculera la courbe moyenne µ par la moyenne point-`a - point des zi :
1 L
n
zi (x) µ(x) = (3.2)
n
i
o u` n d´esigne le nombre de r´ealisations respectant la contrainte d’interpolation. Dans la litt
´erature de r´ef´erence, la courbe µ est appell´ee moyenne d’ensemble. On peut ´egalement
calculer les courbes d’incertitude :
1
σ2(x) = n
N L t )2
zi(x) − µ(x) (3.5)
i=1
INTERPOLATION = rep(0,1000)
119
INTERPOLATION2= rep(0,1000)
COUNT = 0
epsilon = 1
for (i in 1:5000){
if (i %% 1000== 0){print(i)}
X = generate(h)
120
ok = TRUE
for (j in 1:length(OBS)){
ok = ok && (abs(X[SITES[j]]-OBS[j])<epsilon)
}
if (ok){
INTERPOLATION = INTERPOLATION + X
INTERPOLATION2= INTERPOLATION2+ X**2
COUNT = COUNT + 1
lines(X, type="l")
}
}
INTERPOLATION = INTERPOLATION/COUNT
INTERPOLATION2= INTERPOLATION2/COUNT
SIGMA = sqrt(INTERPOLATION2- INTERPOLATION**2)
1
0
● ●
5
● ●
O
O
0
● ●
−
−
5
5
−
−
1
300 400 500 600 700 800 300 400 500 600 700 800
SITES SITES
Fig. 3.4.
A` gauche : les 16 r´ealisations respectant la contrainte d’interpolation et la moyenne
d’ensemble de ces r´ealisations (en A` droite : le r´esultat de la proc´edure d’interpolation :
rouge).
la courbe interpol´ee (en trait plein vert) et les bandes de confiance (en pointill´es). La vraie courbe
(inconnue) se situe probablement dans la zone verte.
Q5. Lorsque le code la question Q4 est op´erationnel, r´ei t´er er la proc´edure d’interpolation pour le
jeu de donn´ees suivant (contenant un point suppl´ementaire) :
SITES = c(300,450,500,800)
OBS = c(1,1,5,-3)
et en g´en´erant un total de 100 000 r´ealisations (l’ex´ecution du code peut alors prendre quelques
min- utes). Relancer la proc´edure pour plusieurs ´echelles de noyaux, par exemple 100, 50 et 25.
Pour ce faire, il suffit de changer la d´efinition du noyau, de mani`ere similaire au code ayant permi
l’obtention de la figure 3.2 :
121
h = exp(-((500-x)/100)**2) # Definition du noyau gaussien 1
h = exp(-((500-x)/50)**2) # Definition du noyau gaussien
2 h = exp(-((500-x)/25)**2) # Definition du noyau
gaussien 3
1
0
1
0
1
0
5
5
● ●
● ● ● ●
● ●
● ●
●
0
0
−
300 400 500 600 700 800 300 400 500 600 700 800 − 300 400 500 600 700 800
Remarque. Pour un noyau d’´echelle 200, le jeu de points d’interpolation est trop contraignant
pour pouvoir ˆetre facilement interpol´e par un processus si r´egulier. Le programme ne trouve
donc pas de candidat en un temps raisonnable, et on ne peut pas calculer de courbe moyenne.
Nous atteignons malheureusement l `a les limites de la m´ethode par simulation.
Bilan :
Dans cette activit´e, nous avons montr´e comment la simulation d’un processus pouvait ˆetre
utilis´ee pour interpoler un semis de points d’observations. Quelques remarques s’imposent
toutefois :
123
les deux sites d’observations les plus proches (500 et 800) sont situ´es bien au-del`a de la port
´ee du variogramme (qui est de l’ordre de 3 fois le facteur d’´echelle du noyau gaussien, soit
environ 75). L’estimation n’a donc pas d’autre choix que de retourner l’esp´erance a priori
du processus, `a savoir 0. Nous verrons un ph´enom`ene similaire lorsque nous parlerons du
krigeage simple (3.7.1).
• Le graphique de gauche de la fig. 3.5 nous le montre clairement : l’interpolation n’est pas
con- vexe, autrement dit, les valeurs estim´ees peuvent ˆetre au dessus ou en de¸ca des valeurs
extrˆemes des observations, ce qui est une propri´et´e souhaitable que ne partagent pas,
par exemple, les m´ethodes plus basiques telles que l’interpolation lin´eaire ou en inverse
des distances.
Nous avons vu dans l’activit´e VI comment la d´efinition d’un processus stochastique permet, par
moyennage d’un ensemble de simulations, d’interpoler un semis de points d’observation. La
solution obtenue peut alors ˆetre consid´er´ee comme la plus repr´esentative (ou la plus centrale
plutˆot devrait-on dire) d’une collection de variables r´egionalis´ees passant toutes par les points `a
interpoler et poss´edant les propri´et´es statistiques (moyenne et covariance) du processus mod
´elisant le ph´enom`ene. C’est `a peu de chose pr`es ce que propose de faire le krigeage avec une
diff´erence capitale2 toutefois : le krigeage pose alg´ebriquement les contraintes souhait´ees sur
la solution, et la r´esolution du probl`eme se fait donc `a l’aide des techniques matricielles
classiques.
Dans la pr´esentation qui suit, nous montrons comment interpoler la fonction en un point x pr
´ecis du domaine d’´etude. La r´esolution compl`ete du probl`eme d’interpolation n´ecessitera
alors d’it´erer la m´ethode sur une grille de valeurs, comme nous le ferons dans l’activit´e VIII.
2
Nous verrons d’autres diff´erences plus pr´ecisemment dans le chapitre 4
124
Contrainte 1 (Lin´earit´e)
La valeur �
z(x) interpol´ee au site x est une combinaison lin´eaire des observations :
Ln T
z�
(x) =w z(x )ii = W Z
i=1
Pour une r´esolution matricielle du probl`eme, nous noterons : W = [w1, w2, ..., wn]T , le vecteur
de Rn contenant les poids de la combinaison lin´eaire, et Z = [z(x1), z(x2), ..., z(xn)]T le vecteur de Rn
contenant (dans le mˆeme ordre) les observations. Intuitivement, plus une observation sera proche
du site `a interpoler, plus elle aura des chances de recevoir une pond´eration importante. Cette
formulation paraˆıt assez peu rigoureuse : en pratique, et c’est l `a un atout du krigeage, la valeur du
poids affect´e `a une observations va aussi d´ependre de la configuration g´eom´etrique de toutes
les autres observations. En particulier, une observation proche mais redondante peu recevoir un
poids plus faible qu’une ob- servation plus lointaine mais isol´ee.
D`e s lors, l’objectif du probl`eme est clair : � estimer z(x) revient `a estimer le vecteur W.
Attention : ce vecteur W va d´ependre du point x sur lequel on r´ealise l’interpolation ! En toute
rigueur, on devrait
´ecrire W(x), mais nous ferons abstraction de x pour ne pas alourdir la pr´esentation.
Remarquons qu’aucune contrainte n’impose que les poids wi soient positifs. Imaginons un instant
le cas d’un ´etudiant qui calcule la moyenne de ses deux notes 10 et 15, avec les coefficients
respectifs
-1 et 2, comme si la premi`ere note ´etait en quelques sortes r´epulsive. On dit que le krigeage
est un estimateur non-convexe3 ce qui est une propri´et´e tr`es int´eressante pour une
interpolation, comme nous le verrons plus loin.
3
En g´eom´etrie, un ensemble est dit convexe lorsque 2 de ses points quelconques peuvent toujours ˆetre reli´es en
ligne droite sans sortir de l’ensemble. Un disque par exemple est un ensemble convexe, contrairement a` un croissant de
lune. Ici, dire que l’estimateur est convexe signifierait que les valeurs qu’il prend son comprises entre la plus basse et la
plus haute des valeurs observ´es. Clairement, l’interpolateur du graphe de gauche de la fig. 3.2 est non-convexe.
125
Contrainte 2 (Autorisation)
Lorsque le variogramme est born´e, nous l’avons dit pr´ec´edemment, le processus est
stationnaire au sens large, sa covariance existe et on peut la relier au variogramme par la relation
fondamentale 26. Le t h´eor`em e 12 de propagation des incertitudes, nous montre alors comment
calculer la variance d’une combinaison lin´eaire `a l’aide de la matrice de covariance. La contrainte
d’autorisation ne pose donc aucun probl`eme. En revanche, nous verrons plus loin dans la section
3.3.2 que lorsque le variogramme diverge vers l’infini (i.e. quand le processus v´erifie seulement
l’hypoth`ese plus faible de stationnarit´e intrins`eque), seules certaines combinaisons de poids sont
autoris´ees. Plus pr´ecis´ement, nous verrons que les combinaisons lin´eaires autoris´ees
forment un sous-espace vectoriel de Rn.
Remarque : la contrainte d’autorisation n’a donc d’implication pratique que pour les
variogrammes non-born´es. Elle ne doit pas ˆetre n´eglig´ee pour autant, car c’est elle qui garantit
la validit´e statistique des calculs.
Contrainte 3 (Universalit´e)
Autrement dit, sur un nombre infini de r´ep´etitions de l’exp´erience, la moyenne des valeurs estim
´ees par le krigeage est exactement ´egale `a la valeur r´eelle.
n
E[Z� (x) − Z(x)] 1
n l L
=E wiZ(xi) − E[Z(x)] = wiE[Z(xi)] − E[Z(x)]
i=1
L
i=1
L (
n n ) Ln
= wiE[Z] − E[Z] = w − 1 =0 ⇔ wi = 1
L i
i=1 E[Z] i=1
i=1
La contrainte d’universalit´e impose donc que la somme des poids soit ´egale `a 1. Soyons clair quant
`a l’implication pratique : si le variogramme est born´e, le processus est stationnaire au sens
large, la contrainte d’autorisation n’a aucun effet, mais la contrainte d’universalit´e impose de
travailler avec des combinaisons de poids total unitaire. Si le variogramme est non-born´e, le
processus est seulement intrins`equement stationnaire, et dans ce cas, les contraintes d’autoraisation et
d’universalit´e ont toutes deux pour effet d’imposer que la somme des poids soit unitaire.
Ayant fix´e cette contrainte de non-biais, seule la composante de variance va d´eterminer la qualit´e
de l’estimateur, comme le montre la formulation 1.13 de l’erreur quadratique moyenne. C’est pr
´ecisemment le rˆole de la quatri`eme et derni`ere contrainte de minimiser cette quantit´e.
126
3.2.4 Contrainte d’optimalit´e
Parmi tous les estimateurs qui sont des combinaisons lin´eaires autoris´ees et sans biais on retient celle
qui minimise la variance de l’erreur.
Contrainte 4 (Optimalit´e)
Remarquons que ces quatre contraintes sont emb oˆıt´ees : le contrainte d’autorisation ne permet
de travailler qu’avec des combinaisons lin´eaires, ce qui suppose donc implicitement que la
contrainte de lin´earit´e est v´erifi´ee. Les contraintes d’universalit´e et d’optimalit´e requi`erent
quant `a elles de pouvoir calculer les deux premiers moments de l’erreur d’estimation, ce qui suppose la
contrainte d’autorisation. Enfin, la variance de l’erreur d’estimation, que minimise la contrainte
d’optimalit´e, n’est vraiment un indicateur de la pr´ecision que si l’erreur est de moyenne nulle, ce
qui suppose donc que la contrainte d’universalit´e est elle aussi v´erifi´ee.
D’un point de vue math´ematique, la recherche de la combinaison optimale W∗ s’´ecrit sous forme
d’un probl`eme de mininimisation sous contrainte :
1
n l Ln
W∗ argmin Var wiZ(xi) − z(x) sous la contrainte : wiZ(xi) = 1 (3.7)
∈ W∈Rn i=1
L
i=1
o u` argmin f (x) d´esigne l’ensemble des valeurs x telles que la fonction f (x) est minimale :
{ }
argmin
x f (x) = x ∈ A | ∀ y ∈ A, f (x) :( f (y)
Notons que cet ensemble n’est pas n´ecessairement r´eduit `a un ´el´ement. Si c’est le cas, les contraintes
de krigeage suscit´ees ne pr´econisent que le choix arbitraire d’une solution optimale (parmi
potentielle- ment de nombreuses autres). En pratique, except´e dans quelques cas pathologiques
(par exemple lorsque deux sites sont confondus), la solution du probl`eme est unique.
127
3.3 Le krigeage
Le probl`eme 3.7 se r´esout `a l’aide des multiplicateurs de Lagrange, dont nous effectuons un bref
rappel ici. Pour plus d’information, on pourra consulter le cours d’optimisation de Dumont et al.
(2019).
Consid´erons deux fonctions r´eelles `a p variables x = (x1, x2, ...xp) Rp : une fonction objectif
∈
(aussi appel´ee fonction de co uˆ t ) : f : Rp R, ainsi qu’une fonction contrainte g : Rp R. Le
→
probl`eme suivant, consiste `a minimiser f sur Rp, sous la contrainte g :
∇L(x0) = 0
Remarque : est l’op´erateur gradient, qui `a une fonction d´erivable f prenant p variable en
∇
entr´ee, associe le vecteur de Rp de ses p d´e riv´ees partielles :
∂f
∂x1
∂x∂2
∇ : f 1→
∂f.
∂xp
Remarque : le th´eor`eme 35 ne donne que les conditions n´ecessaires. Une fois les points
stationnaires trouv´es, on doit en th´eorie v´erifier que l’un d’eux est bien un extrema.
Exemple 3.1. En guise de mise en pratique, consid´erons une nappe de terrain (infinie) de la
forme d’un parabolo¨ıde de r´evolution, et d´efinie par l’´equation : z = f (x, y) = x2 + y2. Nous
savons qu’une ligne `a haute tension parcours le terrain en ligne droite suivant l’´equation y = 2x
+ 75. D´eterminer un point minimal de cette ligne.
128
On pose g, la fonction de contrainte d´efinie par : g(x, y) = y − 2x − 75. On forme alors le lagrangien,
`a 3 param`etres x, y et le multiplicateur de Lagrange
1 λ:
L t )
L(x, y, λ) = f (x, y) − λg(x, y) = x2 + y2 − λ y − 2x − 75
2y − λ
On calcule alors le gradient de L : ∇L(x, y, λ) = ∂
2x + 2λ
∂x
∂∂y =
L
∂ y − 2x −
∂
On r´esout enfin l’´equation vectorielle ∇L(x, y, λ) = 0 pour obtenir une solution : x∗ = (−30, 15).
2500
2000
1500
4
500
●
2
0
−40−
−40−20 0 20 40
Fig. 3.6. Le terrain f (isolignes noires), la contrainte g (en rouge) et le point optimal x∗ = (∗ 30,
15). On voit clairement, que le gradient du terrain est orthogonal `a la ligne de contrainte en−x .
1 l 1 l ( ) Ln n
VarL wiZi − Z0 = VarL wiZi + Var[Z0] − L wi Zi , Z0 = wiwjCov(Zi, Zj)
n n n L
2Cov
i=1 i=1 i=1 i=1 j=1
n n n n
129
L L L t ) L t
+Var[Z] − 2 wiCov(Zi, Z0) = wi wj Var[Z] − γ(hij) + Var[Z] − 2 wi Var[Z] − γ(hi0))
i i=1 i
130
o u` hij d´esigne la distance entre les sites d’observation xi et xj. De mˆeme hi0 d´esigne la distance
entre le site d’observation xi et le site x sur lequel on souhaite calculer l’estimateur. En
L, L,
remarquant que i L,wiL,
wj Var[Z] = Var[Z] L, L,wiwj = Var[Z] wi( wj) = Var[Z] wi
j i j i j i
L,
= Var[Z], puisque
les sommes de poids valent 1, et en abr´egant γij = γ(hij), on obtient :
1 l L L wi Var[Z] + 2
wi wj γij + Var[Z] − 2
Var L wi Zi − Z0 = wi wj Var[Z] − L L wiγi0
n L n Ln n n n n
En ajoutant le terme de contrainte, nous obtenons une expression plus explicite du lagrangien :
L(W, λ) = 2
L L L ( )
n
wiγi0 − n n wiwjγij − wi − 1
L
2λ n
i=1 i=1 j=1 i=1
Il ne reste alors plus qu’`a calculer les d´eriv´ees partielles (en wi et λ, soit n + 1 d´eriv´ees au total). La d
´eri v´e e partielle par rapport `a un poids wi arbitraire s’´ecrit :
∂L n
∂wi = L
−2 wjγij − 2λ
2γi0 j=1
En divisant cette ´equation par 2, puis ajoutant l’´equation sur la d´eri v´ee partielle en λ on
obtient le syst`eme d’´equations de krigeage de n + 1 ´equations `a n + 1 inconnues :
∂ =γ − wjγij − λ = 0
�∂wLi L,n i0
L,n (3.11)
∂L j
= w i− 1 = 0
∂ i
Remarquons que la derni`ere ´equation n’est rien d’autre que la contrainte de somme des poids
uni- taire (contrainte d’autorisation et/ou d’universalit´e). La r´esolution de 3.11 s’effectue
finalement
`a l’aide de l’alg`ebre lin´eaire : on note Γ ∈ Rn×n la matrice des variances entre sites observ
´es : Γij = γij = γ(hij) = γ(||xi − xj ||) ∀ i, j ∈ [1..n]
Grˆace `a la mod´elisation variographique, cette matrice Γ poss`ede n´ecessairement les propri´et´es alg
´ebriques ad´equates, et nous n’aurons pas de mauvaise surprise par la suite.
132
De mˆeme on note Γ0 ∈ Rn le vecteur des variances entre les sites observ´es et le site `a estimer x0 :
[ ]T
Γ 0= γ 10
γ 20
... γ
−1
Γ 1 W Γ 1 Γ0
1
T
0 = Γ0 W T
0
λ ⇒ = 1 1
1 λ
Remarque : la matrice `a inverser ne d´epend que des configurations des sites d’observation. Elle peut
donc ˆetre invers´ee une fois pour toutes en amont de la proc´edure d’interpolation.
On r´ecup`ere alors les n premi`eres composantes du vecteur solution : w1, w2, ...wn et on peut calculer
l’estimateur du krigeage en x par :
n
z(x) = wiz(xi) (3.12)
� i=1
L
La variance de l’erreur associ´ee, appel´ee variance de krigeage, s’exprime par :
n n n
L L L L
Var[Z� (x) − Z(x)] = 2 wiγi0 − wiwjγij = wiγi0 − λ (3.13)
i i=1 i
o u` la derni`ere ´egalit´e r´esulte d’une transformation op´er´ee grˆace `a la premi`ere ´equation du syst`eme
3.11.
Elle traduit la pr´ecision de l’estimation, au sens de l’´ecart quadratique moyen entre la variable estim
´ee et la valeur vraie au site consid´er´e. Elle d´epend donc naturellement du site sur lequel
l’interpolation est effectu´ee. Intuitivement, plus le site est ´eloign´e des observations, plus sa
variance va ˆetre ´elev´ee.
134
Pour pouvoir calculer l’esp´erance et la variance de cette quantit´e, on doit ˆetre capable
d’exprimer variables al´eatoires sous forme d’accroissement, i.e. sous la forme Zi − Zj avec i et j
deux indices quelconques, puisque sous l’hypoth`ese intrins`eque, l’existence de l’esp´erance et de la
variance ne sont
garanties que pour les accroissements. On v´erifie facilement que ceci n’est possible que si la
somme des poids de la combinaison est nulle. En effet, dans ce cas, la somme des wi est n
´ecessairement ´egale
`a 1 et on peut ´ecrire :
n n n n
L L L L
ε= wiZi − Z0 = wiZi − wiZ0 = wi(Zi − Z0)
i i i i
n l L
1 n
wiE[Zi − Z0] = 0
E[ε] = E wi(Zi − Z0 ) =
i=1
L
i=1
1
n l 1 n )2 l
Var[ε] = Var
wi(Zi − Z0) = wi(Zi − Z0)
t
L E
i=1 L i=1
L l LL [ ]
=E 1 n wn w (Z − Z )(Z − Z ) = n w
i j i 0 j 0
n w E (Z − Z )(Z − Z )
i j i 0 j 0
i=1 i=1 i=1 i=1
L
[ ]
Pa[ r ailleurs, o]n p eu[ t ´ecrire : 2]γij = V[ ar[Z i −Zj ] = Var[Z]i −Z0 + Z0 −Zj ] = E (Zi −Z0 + Z0 −Zj)2 =
E (Zi − + E (Zj − − 2E (Zi − Z0)(Zj − et
[ ]
E (Zi − Z0)(Zj − Z0) = −γij + γi0 + γj0
n n n n n n n n n n
L L L L L L L L L L
Var[ε] = wiwjγi0 + wiwjγj0 − wiwjγij = wiγi0 + wjγj0 −
wiwjγij i=1 i=1 i=1 i j i=1
n n n
L L L
Var[ε] = 2 wiγi0 − wiwjγij
i i=1
135
On retrouve exactement l’expression 3.13 de la variance d’erreur d’estimation du krigeage
ordinaire. L’´equation lagrangienne `a minimiser sera donc exactement la mˆeme et on peut
conclure :
On comprend ici que le variogramme est un outil plus g´en´erique que la covariance.
Remarquons toutefois une diff´erence dans le sens donn´e aux contraintes : dans le cas
stationnaire, la contrainte d’autorisation n’a aucun impact, puisque toutes les combinaisons lin
´eaires sont autoris´ees. En re- vanche, la contrainte d’universalit´e stipule que la somme des
poids doit valoir 1 pour que l’estimateur soit non-biais´e. Dans le cas intrins`eque la contrainte
d’autorisation stipule que les combinaisons lin´eaires dont on souhaite exprimer l’esp´erance ou la
variance doivent ˆetre de poids total nul (afin de pouvoir les exprimer comme des incr´ements).
Pour pouvoir calculer la variance de l’erreur, la somme des poids total doit donc valoir 1 et la
contrainte d’autorisation est redondante avec la contrainte d’universalit´e.
Au passage, on peut mener les mˆemes d´eveloppements pour une combinaison lin´eaire quelconque
des observations, et on trouve :
1 Ln l Ln L
n
Var wiZi =− wiwjγij (3.14)
i=1 i=1 j=1
La variance ´etant une quantit´e n´ecessairement positive, on retrouve la contrainte 2.24 de d´efini- n
´egativit´e conditionnelle du variogramme :
n n n
L L
wi = 0 ⇒ L wiwjγij :( 0
i=1 i=1 j=1
La m´ethodologie est la suivante (en supposant que γ est un mod`ele de variogramme licite, dont
les param`etres ont ´e t ´e estim´es ´eventuellement `a partir d’un variogramme exp´erimental) :
• Calcul de la matrice H contenant toutes les distances hij = ||xi − xj || entre les sites observ´es
(en g´en´eral, cette matrice a d´e j `a ´e t ´e ´evalu´ee pr´ec´edemment lors de l’estimation du
variogramme exp´erimental), et du vecteur H0 contenant les distances hi0 = ||xi − x0|| entre les
sites observ´es et le site `a interpoler.
136
• Formation de la matrice A en compl´etant H par une colonne et une ligne de 1 et en ajoutant
un 0 dans le coin inf´erieur droit.
Fig. 3.7. On donne 5 points d’observation. L’objectif du probl`eme consiste `a estimer z0.
Par ailleurs, on donne les distances hij entre les 5 sites dans une matrice H :
0.0 24.2 30.5 44.0 46.3
24.2 0.0 33.0 47.4 36.2
H= 30.5 33.0 0.0 14.8 22.1
44.0 47.4 14.8 0.0 25.7
46.3 36.2 22.1 25.7 0.0
[ de 33 m. On donne ´egalement
Par exemple, H23 = 33 signifie que les sites xi et xj sont distants ] les
distances hi0 entre ces 5 sites et le site `a interpoler : H0 = 20.6 19.0 14.4 29.1 25.8 T . Nous
�
h si h :(
γ(h) =
40 (3.15)
40 sinon.
Toutes les op´erations effectu´ees ci-dessous peuvent ˆetre reproduites par le lecteur, `a l’aide d’un
lan- gage de programmation disposant des fonctionnalit´es classiques d’alg`ebre lin´eaire (somme,
produit et
137
inversion de matrice notamment). Le code R correspondant est donn´e `a la fin de ce paragraphe.
On calcule tout d’abord la matrice Γ = γ(H), ce qui consiste simplement `a seuiller les ´el´ements
sup´erieurs `a 40. On forme ensuite la matrice A en compl´etant Γ avec une colonne de 1, une
ligne de 1 et un 0 dans le coin inf´erieur droit.
0.0 1
24.2 30.5 40.0 40.0
0.0 24.2 30.5 40.0 40.0 24.2 0.0 1
24.2 0.0 33.0 33.0 40.0 36.2
40.0 36.2
Γ = 30.5 33.0 0.0 22.1 30.5 33.0 0.0 14.8 22.1 1
14.8 A=
40.0 40.0 14.8 25.7 40.0 40.0 14.8 0.0 25.7 1
0.0 40.0 1
36.2 22.1 25.7 0.0
40.0 36.2 22.1 25.7 0.0
1 1 1 1 1 0
Par souci de clart´e, on figure en gras les ´el´ements ajout´es ou modifi´es `a chaque ´etape
[ ]T
B = 20.6 19.0 14.4 29.1 25.8 1
[ ]T
X = A−1B = 0.195 0.304 0.553 −0.147 0.093 −1.501
[ ]T
W = 0.195 0.304 0.553 −0.147 0.093
5
T
z(x0) = W Z = wizi ≈ 12.7
� i=1
L
ainsi que l’´ecart-type associ´e : σ2 = WT Γ0 − λ = 17.38 = 4.16
Le r´esultat final de l’estimation est donc�z(x0) = 12.7 ± 4.16. Notons que l’´ecart-type associ´e est
rela- tivement ´e le v´e, ce `a quoi on pouvait s’attendre ´etant donn´e le faible nombre d’observations
disponibles.
Comment interpr´eter la variance de l’erreur d’estimation en pratique ? C’est une question qui
n’admet pas de r´eponse pleinement satisfaisante. Le ph´enom`ene ´e t ud i´e et le jeu de donn´ees
`a disposition sont par nature uniques, et la notion de variance d’une estimation autour de sa valeur
vraie ne fait pas n´ecessairement sens. En statistique classique, on p r`e f`e r e souvent exprimer
l’incertitude sous la forme d’un intervalle de confiance : par exemple, on dira qu’avec une risque de
5%, l’altitude en un point x0 du terrain vaut z� plus ou moins une marge d’erreur ∆z. Cependant,
pour d´efinir l’intervalle de
138
confiance, on doit connaˆıtre la loi de probabilit´e de l’estimateur, ce qui en G´eostatistique est
impos- sible du fait de la complexit´e de cette loi. On peut alors poser l’hypoth`ese (plus ou
moins valide en fonction des situations) que l’erreur d’estimation est distribu´ee suivant une loi
normale. La largeur de l’intervalle de confiance est alors compl`etement d´etermin´ee par l’´ecart-
type. En particulier, pour un risque de 5%, on ∆z = 1.96σ. Dans cet exemple p´edagogique on a σ =
4.16, et donc on pourra dire qu’avec un taux de confiance de 95%, la valeur vraie est comprise entre
4.38 et 21.02.
On donne ci-dessous le code R permettant de reproduire les calculs. Notons que la multiplication
matricielle s’´ecrit avec l’op´erateur %*%.
#
# Donnees #
H = matrix(
c(0.00, 24.2, 30.5, 44.0, 46.3,
# Completion de 1 et 0 A = rbind(H,rep(1,5))
A = cbind(A,c(rep(1,5),0))
B = rbind(h,1)
# Resolution
W = solve(A,B)[1:5] z0 = (W%*%Z)[1]
Remarquons que les instructions solve(A,B) et solve(A)%*%B sont ´equivalentes (aux erreurs
d’arrondi pr`es), mais si la seconde est plus proche de la notation formelle A−1B, la premi`ere
reste la plus ef- ficace d’un point de vue informatique. L’indexation [1:5] qui s’y ajoute permet de
ne r´ecup´erer que
les 5 premiers ´el´ements du vecteur r´esultat, `a savoir les 5 poids solution. L’instruction which(H
> 40) permet de lister tous les indices de la matrice H contenant un ´el´ement sup´erieur `a 40.
La commande H[which(H > 40)] = 40 permet donc de plafonner les ´e l´e me nts de la matrice H `a
la valeur 40.
• La somme des poids affect´es aux mesures est bien ´egale `a 1, mais comme nous l’avions
139
fait observer pr´ec´edemment, l’estimation n’est en g´e n´e ra l pas convexe et certains poids
peuvent ˆetre
140
n´egatifs comme c’est le cas ici pour w4 = −0.147. La figure 3.7 nous r ´e v`e l e que le site x4
est en quelques sortes cach´e derri`ere le site x3. On parle d’effet d’´ecran. C’est donc x3
qui va
principalement d´eterminer la valeur interpol´ee (w3 = 0.553, qui est le plus ´e l ´e v ´e des
poids). Le site x3, align´e avec x0 et x5, agit comme un pivot, et on comprend que la rigidit´e
de la surface
`a interpoler conduit z5 `a avoir une influence r´epulsive : pour une valeur de pivot z3 fix
´ee, plus z5 est ´el e v´e e , plus z0 est faible et inversement. Cet exemple simple nous permet
donc de com- prendre l’i nt´erˆet capital d’autoriser des combinaisons lin´eaires non-convexes
des observations.
• Lorsqu’on dispose d’un t r`es grand nombre d’observations (typiquement plusieurs dizaine
de milliers), le calcul de l’inversion peut ˆetre relativement couˆteux, d’autant que les
observations lointaines se verront tr`es vraisemblablement affecter des poids n´egligeables.
Une solution clas- sique consiste `a retirer, en amont de la proc´edure d’interpolation de x0, tous
les sites situ´es `a une distance sup´erieure `a un certain seuil (par exemple 3 fois la port´ee
effective du variogramme). on parle de voisinage glissant. En contre-partie, cela n´ecessite
de recalculer la matrice A (et donc aussi son inverse) pour chaque nouvelle estimation.
Ici aussi, tout comme pour l’activit´e IV on pourra r´eutiliser le jeu de donn´ees saisi sur
l’application Google Maps, ou alors r´ecup´erer l’un des deux fichiers de donn´ees disponibles dans
le r´epertoire de mat´eriel p´edagogique. Pour les exemples ci-dessous, nous travaillerons avec le
fichier sample data2.txt.
Correction :
Comme pour l’activit´e IV, on commence par charger les donn´ees et convertir les coordonn´ees
dans un syst`eme m´etrique de coordonn´ees plane (cette ´etape est importante pour que les deux
dimensions Ouest-Est et Nord-Sud aient la mˆe me importance dans le calcul des distances entre
sites) :
142
Pour simplifier les manipulations, nous s´eparons les coordonn´ees des sites et les relev´es effectu´es :
# Nombre de donnees
N = nrow(sites)
Remarquons qu’un 0 est a jout´e `a la fin du vecteur d’observations, de sorte que le produit de Z
par le vecteur solution du syst`eme de krigeage ´elimine automatiquement le multiplicateur de
Lagrange dans le calcul de l’estimation.
# Resolution
resolution = 25
# Calcul de l’emprise
xmin = min(sites$longitude)
xmax = max(sites$longitude)
ymin = min(sites$latitude)
ymax = max(sites$latitude)
On d´efinit alors l’objet informatique zhat qui va contenir le MNT estim´e. On d´efinit
´egalement une seconde grille vhat pour stocker l’incertitude de la valeur d’altitude estim´ee en
chaque cellule.
# Output
zhat = matrix(ncol=length(DX), nrow=length(DY))
vhat = matrix(ncol=length(DX), nrow=length(DY))
A` ce stade, il peut ˆetre judicieux de tester le code ci-dessus, pour v´erifier que les matrices zhat et
vhat ont des tailles raisonnables, `a l’aide des fonctions nrow et ncol (typiquement ces deux
valeurs ne devraient pas d´epasser 100 ´el´ements pour commencer). Si besoin, ne pas h´esiter `a
augmenter la valeur de la variable resolution.
Remarquons que pour cet exemple, nous consid´erons dans un premier temps un variogramme identit
´e : γ : h 1→ h, et donc l’application du variogramme aux distances h calcul´ees est une ´etape
transparente. Malgr´e tout, dans le but de pouvoir changer cette fonction par la suite, nous
construisons la fonction γ :
vario = function(h){
return(h)
}
143
On effectue les calculs de krigeage qui sont ind´ependants du site `a interpoler, `a savoir : le
calcul de la matrice D des distances entre sites observ´es, le passage par le variogramme et l’ajout
des colon- nes/lignes de 1 pour compl´eter le syst`eme. On pr´e-calcule ´egalement l’inverse de la
matrice obtenue.
# Pre-calcul de l’inversion
I = solve(D)
Il ne reste alors plus qu’`a parcourir la grille, ce qui se fait `a l’aide d’une double boucle sur les ´e l
´em e nt s de DX et DY. Chaque it´eration de la boucle interne correspond `a l’estimation d’un
noeud de la grille.
# Resolution
W = (I %*% D0)
}
}
Le calcul pouvant prendre un certain temps, on pourra introduire les deux lignes suivantes entre le
144
boucle externe et le boucle interne, pour visualiser `a l’´ecran l’´etat du traitement :
# Barre de progression
pourcent = floor(100*ix/length(DX)); cat("Computing interpolation:",min(pourcent,100), "%\r")
A l’issue du calcul, on pourra visualiser le MNT (et son incertitude associ´ee) :
par(mfrow=c(1,2))
image(DX, DY, t(zhat), col=terrain.colors(255), xlab="Estimation")
contour(DX, DY, t(zhat), add=TRUE, nlevels=20)
image(DX, DY, t(vhat), col=terrain.colors(8), xlab="Variance")
590
560
530
2
2
520
580
600 550
1
1
620
D
D
Y
Y
1
1
640
650
5
0
5
0
0
0 200 400 600 800 1000 1200 1400 0 200 400 600 800 1000 1200 1400
Estimation Variance
Fig. 3.8. Estimation par krigeage d’un MNT ( `a gauche) et de son incertitude associ´ee ( `a droite).
On remarque que l’incertitue de la valeur interpol´ee augmente `a mesure qu’on s’´eloigne des
sites observ´es, ce qui paraˆıt intuitif. Relancer le calcul avec diff´erents mod`eles de variogrammes.
En partic- ulier, on testera plusieurs variogrammes lin´eaires avec des coefficients vari´es, e.g. γ(h) =
2h, γ(h) = 3h, etc. Observe-t-on des diff´erences dans les r´esultats produits ? Peut-on l’expliquer ?
Pour g´erer plusieurs variogrammes on doit compl´eter la fonction vario. Pour s´electionner un
mod`ele de variogramme, il suffit de d´ecommenter la ligne correspondante. Lorsqu’aucune ligne n’est
d´ecomment´ee (except´ee l’instruction return bien entendu), le variogramme retenu est le mod`ele
de base γ : h 1→ h.
vario = function(h){
1000m return(h)
145
On pourra ´egalement tester le mod`ele gaussien si on le souhaite, mais en faisant attention au
fait que celui-ci a souvent tendance `a produire des erreurs d’arrondi num´erique, menant `a
l’impossibilit´e d’inverser le syst`eme de krigeage. On pourra contourner ce probl`eme en
introduisant une p´epite de
petite amplitude (e.g. ici 10−3) dans le mod`ele.
pepite = 10**(-3)
y = pepite+1-exp(-
h**2/578**2) y[which(h == 0)]
= 0; h = y
La port´ee a = 578 est calcul´ee en divisant la port´ee pratique souhait´ee (ici 1 km) par 1.73,
comme expliqu´e dans la section 2.15. Une autre solution consiste `a utiliser un mod`ele cubique.
On pourra alors effectuer des comparaisons entre les r´esultats. En particulier, si on dispose de
deux estimations zhat1 et zhat2 (par exemple calcul´ees avec 2 mod`eles variographiques diff´erents),
on pourra calculer le champ diff´erentiel diff=abs(zhat1-zhat2) et :
On peut ensuite tester d’autres mod`eles de variogramme, en particulier le mod`ele lin´eaire avec
palier, dont nous avions montr´e dans la section 2.4.2 qu’il ´etait un bon candidat pour le jeu de
donn´ees sample data2.txt. Nous avions mˆeme estim´e la valeur du palier `a 7.7 km. Ici nous
consid´ererons donc un variogramme lin´eaire avec palier et port´ee de 8 km. Pour tester
l’influence du param`etre de port´ee sur les r´esultats, nous testons ´egalement avec des
variogrammes de diff´erentes port´ees, ainsi que pour d’autres mod`eles.
La figure 3.9 montre les MNT obtenus pour 6 mod`eles de variogramme diff´erents : sur la
premi`ere ligne : lin´eaire avec palier et port´ees 8 km, 2 km et 500 m, et sur la seconde ligne :
mod`ele puissance avec θ = 0.1 et θ = 1.9 (on rappelle que ce mod`ele n’est d´efini que pour θ
strictement compris entre 0 et 2), et mod`ele exponentiel avec port´ee pratique de 8 km.
147
Fig. 3.9.
A` gauche : Estimation par krigeage d’un MNT avec diff´erents A` droite :
variogramme.
diff´erence des estimations entre les deux mod`eles puissance θ = 0.1 et θ = 1.9. Plus la couleur est
claire, plus la diff´erence absolue entre les deux estimations ets grande.
deux variogrammes. Le mod`ele lin´eaire avec palier constitue donc en g´e n´e r al une bonne
approx- imation du mod`ele exponentiel (et dont les param`etres sont plus faciles `a inf´erer
comme nous l’avons vu dans l’activit´e IV).
Il peut ˆetre assez instructif ´egalement d’effectuer une comparaison visuelle du champ calcul´e
par la diff´erence des deux mod`eles en puissance (fig. 3.9 `a droite). On observe que les diff
´erences sont maxi- males au niveau des zones o u` les courbures sont les plus prononc´ees (sommet
et fond de vall´ee), ce qui peut s’expliquer par la diff´erence de r´egularit´e des deux mod`eles de
variogramme (lin´eaire `a l’origine
pour θ :( 1 et parabolique `a l’origine pour θ > A` l’inverse, les diff´erences sont quasi-nulles au
1).
niveau des points observ´es mais aussi au niveau des lignes d’inflexion.
Ces quelques exp´erimentations montrent que le choix du variogramme n’est pas critique, tant
que le mod`ele choisi reste fid`ele `a la structure sous-jacente des donn´ees, estim´ee par le
variogramme exp´erimental. C’est ce que montre en particulier la comparaison entre le mod`ele
lin´eaire avec palier et le mod`ele exponentiel, dont les diff´erences obtenues sur l’estimation sont en
g´en´eral plutˆot faibles. En revanche, lorsqu’un mauvais mod`ele est s´electionn´e, ou alors que
les param`etres du mod`ele sont trop grossi`erement estim´es, la qualit´e de l’estimation se d
´egrade tr`es rapidement.
149
3.5.1 Exactitude
Un interpolateur est dit exact lorsqu’il passe exactement par toutes les donn´ees qui ont ´e t ´e utilis
´ees pour le construire. Si on reprend l’exemple p´edagogique de l’activit´e VI, nous avions
clairement un interpolateur non-exact, sauf si on fixe la tol´ereance ε `a 0. Formellement :
LePropri´et´e
krigeage est un36 (Exactitude du
interpolateur krigeage)
exact, autrement dit, pour tout jeu de donn´ees {xi, zi}i=1..n, la valeur krig
Cette propri´et´e peut ˆetre d´esavantageuse lorsque les observations (ou que les positions des
sites sur lesquelles elles ont ´e t ´e effectu´ees) sont bruit´ees. Une m´ethode pour contourner ce
probl`eme, consiste
`a utiliser un variogramme `a p´epite. Dans ce cas, comme nous l’avons vu dans la section 2.20
(ou plus g´en´eralement dans la propri´et´e 32), les r´ealisations du processus sont discontinues, et il
en va de mˆeme pour la variable r´egionalis´ee estim´ee par krigeage. La valeur de la p´epite est
calcul´ee `a partir de la variance du bruit de l’appareil ayant ´e t ´e utilis´e pour relever les
observations. Par exemple, pour un GPS grand public d’erreur typique sur l’altitude σ = 5 m, on
choisira une p´epite η = σ2 = 25 m2.
L,n
Preuve. Notons z�(x; γ) = wizi l’estimation calcul´ee par krigeage en x, o u` wi d´esigne les poids
i
solution du syst`eme de krigeage 3.11, form´e avec le variogramme γ. En multipliant les n premi`eres
´equations de ce syst`eme par α /= 0, on ne change pas la solution et on obtient :
n n
αγi0 − α Lwjγij − αλ = 0 L
γ˜i0 − w j γ˜ i j − λ2 = 0
j=1
⇔
j=1
150
avec la notation : λ2 = αλ. On retrouve l’´equation du syst`eme de krigeage pour le variogramme
γ˜ . La solution est donc invariante par multiplication par un scalaire (strictement positif).
151
Autrement dit, multiplier le variogramme par une constante α > 0 ne modifie pas les r´esultats
d’estimation. C’est assez intuitif puisque toutes les relations de d´ependance statistique aux autres
points sont multipli´ees par un mˆe me facteur, il n’y a donc pas de raison que certaines
observations prennent plus de poids que d’autres, et l’estimation finale en est donc invariante. En
revanche, l’incertitude autour de cette estimation est multipli´ee par α :
n n
[ ] L L [
Var z�(x, γ˜ ) − z(x) = w i γ˜i0 − λ2 = wiαγi0 − αλ = αVar z�(x, γ) −
i i]
z(x)
On pourra se servir de cette propri´et´e, par exemple si on ne souhaite calculer que l’estimateur (et
non son incertitude) et qu’on sait que le variogramme est lin´eaire, on pourra alors se dispenser de
chercher
`a estimer la pente de ce variogramme. Pour tous les variogrammes `a palier (lin´eaire,
exponentiel, gaussien, cubique, sph´erique...), la valeur num´erique du palier n’a pas d’importance
dans ce cas, et il est suffisant de connaˆıtre la valeur port´ee. De mˆeme, pour un processus entˆach´e
d’un bruit d´ecorr´el´e, la valeur num´erique de la p´epite n’a pas d’importance, seul compte le ratio
signal sur bruit, qui parfois est plus simple `a estimer.
3.5.3 Lin´earit´e
Soit AL une application lin´eaire quelconque, prenant en entr´ee tout ou partie d’une variable r´egionalis
´ee et retournant un r´esultat (sous forme d’un nombre, d’un vecteur ou mˆeme d’une variable r
´egionalis´ee). Alors, le krigeage du r´esultat de AL ou l’application de AL `a l’estimation par
krigeage produisent exactement les mˆemes r´esultats :
153
D´erivation d’un processus. Soit X un processus stochastique uni-dimensionnel stationnaire
au sens large, dont la covariance CX est d´erivable deux fois en l’origine. Alors, la
covariance CX de la d´e r i v´e e Xt de X vaut :
CX (τ ) = −
d2CX(τ )
dτ 2
On pourra g´en´eraliser cette propri´et´e pour des processus d´efinis sur un domaine `a plusieurs di-
mensions, en consid´erant des d´eri v´ees uni-directionnelles.
Au niveau du variogramme on a :
γX (τ ) = CX (0) − CX (τ ) = K
d2CX(τ ) d2γX(τ )
+
=K dτ 2
−2
dτ
o u` K est une constante que l’on peut facilement d´eterminer avec la contrainte : γ(0) = 0.
En guise d’exemple d’application, supposons qu’on souhaite estimer la pente du terrain sur
une zone donn´ee dont on ne connait que des observations de pente4. Si par ailleurs on sait
grˆace
`a des ´etudes ant´erieures que le MNT sur ce mˆeme type de terrain peut-ˆetre mo d´elis
´e par un variogramme gaussien, alors pour mod´eliser le processus de pente, on pourra
s’orienter vers le choix du mod`ele de variogramme suivant :
γ(h) = K − (
d2 1
2
h2
l− = 1 h 2 )− h 2
1− e 1 a2 e
a
dh2 −
a2
• Convolution : en pratique, les observations effectu´ees ne sont pas strictement ponctuelles. Par
154
exemple, pour mesurer la teneur d’un ´el´ement min´eralogique dans le sol en un lieu donn
´e, on doit proc´eder `a l’analyse chimique d’un bloc de terre d’extension spatiale non-nulle.
En fonc- tion des techniques employ´ees (et de l’´el´ement recherch´e), il peut arriver que
la taille de bloc
4
Par exemple pour la surveillance volcanologique, ou` les mesures sont fournies par un r´eseau d’inclinom`etres.
155
1
1
0
0
0
0
g
g
0
0
0
0
0
0 500 1000 1500 2000 2500 3000 0 500 1000 1500 2000 2500 3000
Index Index
Fig. 3.10.
A` gauche : variogramme gaussien du terrain (port´ee a = 1000 m et palier arbitrairement
fix´e `a 1.0). A` droite : variogramme d´er i v´ee seconde de la pente du terrain.
ne puisse plus ˆetre n´eglig´ee devant l’´ecart typique entre les observations. Dans ce cas, on
peut consid´erer qu’une mesure en un site x est en r´eali t´e une moyenne spatiale sur une zone
centr´ee en x, ce qui math´ematiquement se traduit par une convolution, et donc une op
´eration `a nouveau lin´eaire. Si les observations sont des convolutions de la variable r
´egionalis´ee, alors le krigeage de ces observations sera ´egal `a la convolution du krigeage
des mesures ponctuelles. Ici aussi, on peut citer un th´eor`eme bien pratique liant les covariances
d’un champ avant et apr`es convolution :
-
Y (t) = (X ∗ h)(t) = X(τ )h(t − τ )dτ
D
Pour un processus 1D et dans le cas particulier o u` les observations sont des moyennes, h est
une fonction porte et l’autoconvolution h ∗ h = Π ∗ Π est une fonction triangle de support
´egal au double de la zone sur laquelle la moyenne est calcul´ee. La covariance du champ liss
´e Y est donc
´egale au produit de convolution de CY par une fonction triangle. Plus les blocs de mesures
sont grands, plus la fonction triangle a un support large et plus la covariance de Y est d
´ef or m´e e par rapport `a celle de X : le champ est liss´e. A` l’inverse, si la mesure est
parfaitement ponctuelle, h
est le dirac δ, et la covariance de Y s’exprime par : CY = CX ∗ δ ∗ δ = CX (le dirac est l’´el
´ement neutre de la convolution) et on retrouve bien que les deux champs sont de
covariances ´egales.
156
de l’estimation globale.
157
3.5.4 Lissage
Le champ interpol´e par krigeage est en g´en´eral plus lisse que la variable r´egionalis´ee vraie (et
incon- nue). De mani`ere formelle :
La variance d’une variable krig´ee�Z en tout point donn´e x du champ0 est plus faible que
celle de la variable al´eatoire prise par le processus en ce mˆem e point :
Var[Z�(x0)] :( Var[Z(x0)]
La d´emonstration formelle de cette propri´et´e dans le cas du krigeage ordinaire n’est pas triviale,
mais elle peut ˆetre mise en ´evidence `a l’aide d’exp´erimentations, par exemple ci-dessous pour un
processus 1D (fig. 3.11). Sur cette figure, on observe ´egalement deux ph´enom`enes : (1)
l’interpolation tend `a devenir rapidement mauvaise sur les bords du domaine5 et (2) l’interpol´ee
est non-convexe (on le voit en particulier autour de l’abscisse 675, o u` la courbe rouge d´epasse le
maxima des observations).
2
●
●
●
5
● ●
●
0
●
●
Fig. 3.11. Interpolation par krigeage (en rouge) d’un signal al´eatoire 1D (trait noir) `a partir d’un
´echantillon de 1% de ses points (points noirs).
159
1
1
.
4e+05
0
0
.
.
Variogramme reel Variogramme du krigeage
0
.
.
N
N
(
a
v
2e+05
0
0
.
.
0
1
.
0
0
0
.
.
0.0 0.2 0.4 0.6 0.8 1.0
0.0 0.2 0.4 0.6 0.8 1.0 0 1000 2000 3000 4000 5000 6000
Fig. 3.12. Le champ vrai ( `a gauche) et son estimation par krigeage `a partir d’un semis constitu´e
d’une centaine de points d’observation (au centre). A` droite : le variogramme du champ vrai (en
rouge) et celui du champ interpol´e (en bleu).
moyen des salari´es s’´el`eve `a 4000 e, ce qui n’est absolument pas repr´esentatif, ni des
ouvriers, ni du directeur. Pourtant, s’il fallait parier sur le revenu d’un salari´e pris au hasard
parmi les 10 membres de l’entreprise, c’est bien cette valeur moyenne de 4000 e qui minimiserait
la variance de l’erreur.
Autrement dit, dans le cas du krigeage, s’il fallait parier sur une valeur en x0, de mani`ere `a
limiter le risque d’erreur quadratique, une d´ecision rationnelle serait de � prendre z(x0). Pourtant,
l’ensemble de l’interpol´ee
� z ne constitue en g´en´eral pas un bon repr´esentant du ph´enom`ene.
Cette observation justifiera par la suite le recours aux m´ethodes de simulations.
z = (A−1B, Z)
�
o u` (u, v) d´esigne le produit scalaire de deux vecteurs u et v de Rn. On peut alors ´ecrire :
t )T t )T
z� = (Z, A−1B) = ZT A−1B = ZT A−1 B = A−1Z B = (A−1Z, B)
o u` la troisi`eme ´egalit´e r´esulte du fait que A, et donc A−1 ´egalement, sont sym´etriques par
construc- tion. Avec cette nouvelle formulation, on peut traiter en amont tout ce qui ne d´epend
pas du site `a
interpoler ( `a savoir l’inverse de A et le produit par Z), puis `a chaque it´eration de boucle, il ne
reste plus qu’`a effectuer le produit scalaire avec le vecteur B.
On suppose que le domaine `a interpoler est assez vaste pour que le temps de calcul en dehors de
la boucle de parcours des sites soit n´egligeable (c’est en pratique le cas sur tous les probl`emes
concrets d’interpolation). Dans la version de base du krigeage, chaque interpolation n´ecessite une
multiplica-
tion d’une matrice carr´ee (de taille n) par un vecteur, soit n2 multiplications, ce `a quoi on ajoute
un produit scalaire de n multiplications, soit un algorithme d’interpolation en O(n2). Avec la
version
160
duale, chaque interpolation ne n´ecessite plus qu’un produit scalaire, soit O(n) multiplications.
161
En contre-partie, le vecteur X = [W, λ], contenant les poids de la combinaison lin´eaire ainsi que
le multiplicateur de Lagrange, n’´etant plus disponible, on ne peut plus calculer la variance de
l’estimation avec l’expression 3.13, ce qui limite l’int´erˆet pratique du krigeage dual.
A` titre d’exemple, le calcul d’un MNT au pas de 25 m `a partir des donn´ees du fichier sample
data1.txt (393 points d’observation) n´ecessite environ 3 minutes avec le krigeage de base, contre 13
secondes avec le krigeage dual. Pour une zone de taille fix´ee, le gain de calcul est proportionnel au
nombre n de sites.
Fig. 3.13. Interpolation d’un MNT pour deux niveaux de r´esolution diff´erents, `a gauche par
krigeage standard et `a droite par krigeage dual, pour un temps de calcul identique de l’ordre de 1
seconde.
L’int´erˆet du krigeage dual est toutefois `a relativiser au regard des recommandations de la litt
´erature, qui pr´econise d’utiliser un nombre limit´e de sites pour chaque interpolation. Par exemple,
la m´ethode
des octants, utilise pour chaque point `a interpoler une zone de recherche ellipso¨ıdale (pr´ef
´erentiellement orient´ee suivant les anisotropies du champ) divis´ee en 8 secteurs de 45◦. Les 3
points les plus proches sont alors s´electionn´es dans chaque secteur, de sorte `a limiter la taille du
syst`eme de krigeage `a une matrice de taille 8 × 3 + 1 = 25. En contre-partie, l’inversion doit
ˆetre effectu´ee `a chaque ´etape.
On pourra trouver plus d’informations sur la recherche de donn´ees par octants dans Zoraster
(1996). Il s’agit d’un cas particulier de krigeage dit `a voisinage glissant. Dans le cas contraire,
lorsque le krigeage est effectu´e avec tous les points d’observations, on parle de krigeage `a
voisinage unique.
162
3.7 Les variantes du krigeage
Nous pr´esentons ici plusieurs r´esolutions possibles du probl`eme d’interpolation `a l’aide de la
technique pr´esent´ee ci-dessus et pour diverses variations dans les hypoth`eses sous-jacentes.
Nous verrons ainsi que le krigeage est un outil g´en´erique facilement personnalisable pour des
besoins propres.
n n
L L
E[Z� (x) − Z(x)] = wiE[Z(xi)] − E[Z(x)] = m wi − m = 0
i i
La matrice de terme g´e n´e r a l Cij est exactement la matrice de covariances Σ du vecteur al
´eatoire d’observations Z. La solution s’exprime alors : W = Σ−1C0 et on retrouve un ´equivalent
multi- dimensionnel du filtre de Wiener (Barret, 2009).
La variance de l’erreur d’estimation est la mˆem e que celle du krigeage ordinaire `a laquelle on
aurait retir´e le multiplicateur de Lagrange λ. On peut montrer que λ < 0, et donc, pour un
mˆem e jeu d’observations et en un point x0 donn´e, la variance d’estimation du krigeage simple
(KS) est inf´erieure
`a celle du krigeage ordinaire (KO). C’est intuitivement coh´erent : la connaissance a priori de la
moyenne guide le calcul et contribue `a r´eduire l’incertitude finale sur l’estimation.
Pour bien visualiser la diff´erence entre KS et KO, une m´ethode consiste `a repr´esenter le r
´esultat d’une interpolation 1D avec un variogramme de port´ee inf´erieure `a l’´ecart typique s
163
´eparant deux observa- tions (fig. 3.14). En un site x0 ´eloign´e des observations (typiquement au
point m´edian entre deux
´echantillons), les donn´ees ne sont plus significativement corr´el´ees `a Z(x0) et l’estimateur tend
`a re- tourner la valeur moyenne du champ. En revanche, dans les zones o u` la densit´e de points
d’observation
6
Si m /= 0, on peut facilment se ramener au cas m = 0 en ´etudiant la variable auxiliaire Y (x) = Z(x) − m.
164
est grande au regard de la port´ee du variogramme, KS et KO donnent sensiblement les mˆemes r´esultats.
0
Y
Y
−
−
−
−
200 400 600 800 200 400 600 800
X X
Fig. 3.14.
A` gauche : krigeage ordinaire ( `a moyenne A` droite : krigeage simple `a
inconnue).
moyenne m = 0. Dans les deux cas, le variogramme est un mod`ele gaussien de port´ee 45.
En pratique, il est t r`e s rare de connaˆıtre la moyenne d’un processus et l’emploi du krigeage
simple reste relativement peu fr´equent.
Comme pour les versions pr´ec´edentes, on part des contraintes de krigeage. On cherche donc :
• On se place dans le cas stationnaire donc toutes les combinaisons lin´eaires sont autoris´ees.
n
l L n )
E1 wiE[Zi] − m = (
wiZi − m wi − 1 = 0
i=1 nm i=1
L = L
i=1
et donc, tout comme pour le krigeage ordinaire, on souhaite que la somme des poids soit unitaire.
165
Remarquons que m n’est pas une variable al´eatoire mais bien un param`etre du mod`ele.
Elle n’entre donc pas en jeu dans la variance, ce qui donne la simplification :
166
n n
Var[m − m] = L wiwjCij
L
� i=1 j=1
La r´esolution du probl`eme avec les techniques pr´esent´ees dans la section 3.3 donne le syst`eme :
C11C12 ... C1n 1 w1 0
C21C22 ... C2n 1
0
w2
. .
. = (3.17)
. .
. .
. .
. 1 . .
Cn1 Cn2 ... Cnn 1 wn 0
1 1 ... 1 0 λ 1
La variance associ´ee vaut :
n n n n
L L L tL )
Var[m� − m] = Var[m� ] = wiwjCij = wi wjCij
i=1 i j
L,
Or pour tout indice i la somme wjCij vaut −λ d’apr`es le syst`eme 3.17. Donc :
Var[m − m] = −λ wi = −λ
� i=1
L
N´ecessairement λ :( 0 (sinon, la variance perd son sens physique).
KO = KM + KS (3.18)
Autrement dit, tant du point de vue de l’estimateur que de sa variance d’erreur, appliquer un krigeage
ordinaire revient `a : (1) estimer la moyenne m� du processus par le krigeage de la moyenne puis (2) `a
fixer m = m �dans un krigeage simple7. La diff´erence de variance entre KS et KO vaut le multiplica-
teur de Lagrange, qui correspond donc `a la part de variance expliqu´ee par la connaissance a
priori de la moyenne du processus.
7
En fait il s’agit d’un cas particulier d’application de la propri´et´e 38 de lin´earit´e du krigeage.
167
3.7.3 Krigeage par blocs
Nous avons vu comment estimer la moyenne m d’un processus stochastique stationnaire au sens
large dans la section pr´ec´edente. Rappelons que m est un param`etre du mod`ele, sa valeur
vraie inconnue (si tant est qu’on veuille bien lui donner un sens) ne doit en th´eorie pas d´ependre
de la r´ealisation `a
´etudier. Pour rappatrier ce concept dans le monde physique, on pourrait dire que m serait la
valeur moyenn´ee du ph´enom`ene si le domaine d’´etude ´etait de taille infinie. Or, ce qui
nous int´eresse en g´en´eral, c’est la valeur moyenne prise par le ph´enom`ene sur la r´ealisation
courante, ´eventuellement restreinte `a un sous-domaine V .
On peut donner l’exemple d’application suivant : un prospecteur minier a fait r´ealiser des pr
´el`evements 8 de la teneur en cuivre du sol. Disposant d’un temps limit´e, il ne peut exploiter
qu’une unique carri`ere d’emprise spatiale V d´elimit´ee a priori par le mat´eriel et la main
d’oeuvre `a disposition. D`e s lors, la question se pose du choix du site d’implantation. En g´e n
´e ra l, le nombre de candidats est limit´e par des facteurs externes (fleuves, pentes, commodit´e
d’acc`es...) et le prospecteur doit choisir le bloc qui lui permettra statistiquement d’extraire le plus
de cuivre.
Une solution intuitive pourrait consister `a subdiviser chaque bloc `a l’aide d’une grille r´eguli`ere,
`a ap- pliquer le krigeage ordinaire en chaque noeud de cette grille, puis `a sommer les
estimations obtenues pour comparer les r´esultats. La propri´et´e 38 de lin´earit´e du krigeage
nous assure la validit´e th´eorique de cette solution. Cependant, en plus de n´ecesssiter
potentiellement un temps de calcul consid´erable, cette d´emrache ne permet pas d’´evaluer la
variance d’estimation sur chaque bloc. Nous allons voir ici une mani`ere de calculer la valeur
moyenne (et sa variance) d’un bloc en une seule estimation.
Pour ce faire, nous devons d’abord introduire la notion de covariance r´egularis´ee. Soit V ⊆
D un sous-domaine du champ d’´etude de forme quelconque (V peut mˆeme all`egrement ˆetre non-
connexe).
La moyenne de la variable r´egionalis´ee z sur V s’exprime par :
1
z(V ) = -
|V | z(x)dx (3.19)
V
En rempla¸cant les minuscules par des majuscules, la quantit´e 3.19 devient une variable al
´eatoire et on peut calculer sa variance. Le th´eor`eme 12 de propagation des incertitudes nous
indique comment calculer la variance d’une somme de variables corr´el´ees. On peut proposer une
expression analogue pour la variance d’une int´egrale :
1
Var[Z(V )] = -
|V |2 - C(x − y)dxdy (3.20)
x,y∈V
8
On suppose que ces pr´el`evements sont ponctuels, ou au moins d’extension spatiale n´egligeable devant les autres
168
grandeurs entrant en jeu dans le probl`eme : taille du domaine, taille du bloc, port´ee du variogramme...
169
Remarquons par ailleurs que pour un processus strictement intrins`eque, on peut r´eexprimer 3.20
uniquement `a l’aide du variogramme, et on retrouve une expression analogue `a 3.14.
--
1
C(V12, V ) = Cov(Z(V1 ), Z(V2 )) = C(x − y)dxdy
|V12 ||
V | V1 V2
Fig. 3.15. La covariance r´egularis´ee C est la moyenne des covariances entre tous les couples possibles
de valeurs (x, y) avec x ∈ V1 et (y ∈ V2). Le concept reste valide pour des ensembles discrets, par
exemple `a droite, dans le cas de la covariance r´egularis´ee entre un ensemble V et le singleton
{x0}.
Remarque 1. Si V1 est un ensemble fini, on obtient une expression mˆelant somme et int´egrale :
|V1|
(1 1 ) 1 L|
LZ(xi),
C(V1, V2) = Cov Z(x)dx = V1 | - C(x − xi)dx
|V1 i |V |2 - |V 1||V 2 V
V
| | i
o u` |V1| est le cardinal de l’ensemble fini de points xi ∈ V1. Lorsque V1 et V2 sont tous les deux
discrets, on retrouve les expressions classiques de la covariance entre sommes de variables al
´eatoires.
Lorsque les deux blocs ont la mˆeme forme, par analogie avec le covariogramme, on peut d´efinir
le covariogramme r´egularis´e Ch qui mesure la ressemblance des valeurs moyennes prises par deux
blocs identiques V s´ep a r´e s d’un vecteur de translation h.
170
D´efinition 41 (Covariogramme r´egularis´ee)
A` nouveau, ici aussi, on peut d´efinir le variogramme r´egularis´e γV (h) = C(V, V ) − CV (h). De plus si
Z est isotrope, CV et γV ne d´ependent que de la norme du vecteur h.
Fig. 3.17. Le variogramme du processus (en bleu) et sa r´egularis´ee (en rouge) dans la cas
strictement intrins`eque ( `a gauche) et stationnaire au second ordre ( `a droite). La ligne verticale en
pointill´es repr´esente la dimension |V | du bloc.
171
Pla¸cons-nous en premier lieu dans le cadre stationnaire, et examinons les contraintes de krigeage :
• Lin´earit´e : on estime z(V ) par combinaison lin´eaire des sites observ´es : z�(V )
L,n wiz(xi)
= i
• Universalit´e :
1n l 1 |V
1 | l Ln − 1
E[Z� (V ) − Z(V )] wiZ(xi) − Z(x)dx wiE[Z] E[Z(x)]dx
- |V |
=E L
i=1
E
V
= V
-
i=1
n
− 1 ) n )
=m ( (
wi |V | dx = m w i − 1
i=1 V i=1
L - L
Donc seules les combinaisons de poids unitaires respectent la contrainte d’universalit´e.
En formant le Lagrangien et en annulant toutes ses d´eri v´ee s partielles (par rapport `a wi et λ),
on trouve facilement le syst`eme de krigeage :
C(0) C(x1 −x2) ... C(x1 − xn) 1
w1 C(x1, V )
C(x2 − x1) C(0) ... C(x2 − xn) 1 w2 C(x , V )
. 2
= . (3.21)
.. .. .. .. 1 . .
C(xn − x1) C(xn − x2) ... C(xn − xn) 1 wn C(xn, V )
1 1 ... 1 0 λ 1
On montre qu’un syst`eme identique peut-ˆetre form´e avec γ et γ dans le cadre intrins`eque :
γ(0) γ(x1 −x2) ... γ(x1 − xn) 1
w1 γ(x1 , V )
γ(x2 − x1) γ(0) ... γ(x2 − xn) 1 w2 γ(x2, V )
. . (3.22)
=
.. .. .. .. 1 . .
γ(xn − x1) γ(xn − x2) ... γ(xn − xn) 1 wn γ(xn, V )
1 1 ... 1 0 λ 1
172
n
173
Si V est ponctuel, on retrouve les ´equations 3.11 et 3.13 du krigeage ordinaire. Par ailleurs, on
remar- que que l’estimateur et sa variance ne font appel qu’au variogramme, ainsi qu’`a sa r
´egularis´ee entre un point xi et un bloc. Le variogramme r´egularis´e bloc-`a - bloc γ(V1, V2) avec
V1 /= V2 (en g´en´eral plus
difficile `a calculer) n’est pas n´ecessaire.
Cette extension laisse entrevoir les inombrables possibilit´es de g´en´eralisation du krigeage. Ici,
nous avons collect´e des valeurs ponctuelles pour estimer une grandeur moyenn´ee sur un bloc.
Certains probl`emes peuvent n´ecessiter `a l’inverse d’estimer une grandeur ponctuelle `a partir
d’informations
zonales. A` titre d’exercice, on pourra s’interroger sur les deux applications suivantes. Pour chaque
cas, on d´etaillera la syst`eme de krigeage correspondant en suivant les 4 contraintes usuelles. On
com- mencera par se placer dans le cas stationnaire au sens large, avant de g´en´eraliser au cas
intrins`eque.
Exercice 3.1. Dans une r´egion r´epu t´ee riche en minerais, un terrain V est `a vendre. Aucun pr
´el`evement n’a ´e t ´e effectu´e par le pass´e sur V , si bien qu’un acheteur potentiel n’a aucune
id´e e a priori de la rentabilit´e de son investissement. En revanche, on sait que n terrains V1, V2,...
Vn, de formes et de tailles diverses ont ´e t ´e exploit´ees par des concurrents, et on connait pour
chacun d’eux, le quantit´e totale de minerais qui en a ´e t ´e extraite. Par ailleurs, on suppose
connaˆıtre le variogramme de la teneur min´erale sur la r´egion (par exemple apr`es analyse d’une
r´egion voisine). Estimer la quantit´e de minerais contenue sur V , ainsi que la variance de l’erreur
d’estimation.
Exercice 3.2. On suppose que la quantit´e estim´ee sur V a conduit le propsecteur a acheter le
ter- rain. Pour rentabiliser rapidement son investissement, il souhaite commencer par exploiter la
zone la plus prometteuse, mais sans perdre de temps `a effectuer des sondages au pr´ealable.
Comment peut-il utiliser les valeurs de teneurs moyennes des terrains voisins pour estimer le point
de V poss´edant la plus forte densit´e de minerais ? Nous reparlerons d’un probl`eme similaire
dans la section 4.2 traitant de l’optimisation bay´esienne.
o u` Z est un processus stationnaire tel qu’´etudi´e jusqu’`a pr´esent, et m est une fonction d
´eterministe traduisant l’esp´erance du processus en un site x. Cependant, la covariance n’´etant
pas sensible `a la moyenne, on v´erifie ais´ement que la fonction de covariance de Z ne d´epend
que de la distance en- tre les sites. On mod´elise alors la tendance d´eterministe sous forme d’une
somme de fonctions de base :
174
l
m(x) = Lapfp(x) (3.24)
p=1
175
o u` les ap sont des coefficients r´eels et o u` chaque fonction de base fp ne d´epend que d’une seule
coor- donn´ee. En r`egle g´en´erale, on prend des fonctions classiques comme des exponentielles ou des
monˆomes x, x2, x3,... et on fixe par convention la premi`ere fonction de base f1(x) = 1.
2
1
0
−
Fig. 3.18. Un processus stochastique non-stationnaire Z (en noir), mo d´e lis´e comme somme
d’un processus stationnaire Y et d’une tendance d´eterministe m (en rouge).
C(0) C(x1 − x2) ... C(x1 − xn) f 1(x1) ... fl(x1) w1 γ(x1 − x0)
C(x
2 − x 1 ) C(0) ... C(x2 − xn) f 1(x2) ... fl(x2) w2 γ(x2 − x0)
. . . .
. ... . . .
C(x n − x1) C(x n − x2 ) ... C(x n − xn ) f (x
1
n ) ... fl
(x ) w
n n = γ(x
n − (3.25)
x0)
f 1(x1) f 1(x2) ... f 1(xn) 0 ... λ f 1(x0)
0
. . . . ...
. . . .
fl
(x
f (x1)
l
f (x2)
l
... f (xn)
l
0 ... 0 0
λ
qui se g´en´eralise sans probl`eme au cas intrins`eque en rempla¸cant comme `a l’accoutum´ee C
par −γ. La variance de krigeage s’´ecrit :
n l
L L
Var[Z� − Z] = C(0) − wiC(xi − x0) − λpfp(x0) (3.26)
i p
On peut donc consid´erer le krigeage universel comme la combinaison d’une r´egression lin´eaire et
d’un krigeage ordinaire, permettant ainsi une estimation conjointe (et donc de qualit´e sup´erieure)
des poids de krigeage et des param`etres du mod`ele de tendance (mˆeme si les coefficients ap ne sont
pas explicite- ment retourn´es par la m´ethode). En particulier, en l’absence de tendance, seule la
fonction de base f 1 subsiste dans le mod`ele et les ´equations 3.25 et 3.26 se r´eduisent au
krigeage ordinaire.
176
Prenons un exemple dans un espace `a deux dimensions, avec x0 = (x0, y0) ∈ R2 un point `a interpoler
`a partir d’un semis d’observations x1, x2,...xn. On suppose que la tendance est lin´eaire, i.e. la
moyenne
177
du processus sur la zone est un plan inclin´e. On a alors 3 fonctions de base f 1(x, y) = 1, f 2(x,
y) = x et f 3(x, y) = y. En notant hij = ||xi − xj ||2 o u` ||.||2 est la distance euclidienne classique
de R2, le syst`eme de krigeage s’´ecrit :
1 1 1t )2l 1 1t )2 l
γ� = E Y
(h) = Var[Zx+h − Zx] = Zx+h − x+h + mx+h − Yx −
12 ) l ) l 2 l
= 2 1 2
x+h − + x+h − mx + x+h mx+h − Yx+hmx − mx+h + mx
1t2 Yx 2 Y Yx
1t 1 x
E Y
E m E Y
1 t ) 2
= γ(h) + m(x + h) − m(x)
2
Le variogramme est donc biais´e d’une quantit´e fonction de la diff´erence entre la valeur moyenne
prise par le processus en x et x + h. Lorsque la tendance varie lentement `a l’´echelle de la port´ee
du vari-
ogramme, on a m(x + h) ≈ m(x) et l’estimateur γ peut � ˆetre satisfaisant. Sinon, il faudra recourir `a
d’autres strat´egies. Nous en exposons quatre bri`evement.
• Il y a des cas de figures o u` on sait a priori que la tendance est invariante par translation
suivant une des coordonn´ees du rep`ere. Notamment, Emery (2001) mentionne le cas de la
bathym´etrie sur le littoral. On sait que la tendance induit une augmentation de la
profondeur moyenne `a mesure que le sondeur s’´eloigne de la cˆote, mais on peut supposer
que les coupes de terrain par- all`eles `a la ligne de c ˆote ne sont globalement pas soumise `a
cette tendance. On peut donc estimer le variogramme uniquement suivant cette direction (qui
peut ˆe tre consid´er´ee sinon stationnaire, au moins intrins`eque), puis supposer le ph
´enom`ene isotrope.
• On peut rechercher une zone sur laquelle on sait que la tendance est de valeur relativement
constante pour y estimer le variogramme `a l’aide des m´ethodes classiques. Remarquons
que si la zone est une coupe `a coordonn´ee constante dans le rep`ere, on se ram`ene `a la
premi`ere option.
• Une m´ethode it´erative peut consister `a calculer une premi`ere estimation m� de la tendance `a
178
l’aide de m´ethodes d´eterministes classiques, souvent `a base de moindres carr´es (r´egression
poly- nomiales, splines de lissage...), puis `a calculer le variogramme de la variable r´esidu Z
− m. On op`ere alors un krigeage universel sur la variable Z (Bourgine, 1995). �
• Enfin, une derni`ere option, qui est sans doute la plus satisfaisante d’un point de vue th
´eorique, consiste `a se placer dans le cadre de l’hypoth`ese intrins`eque d’ordre k, et de ne
consid´erer que des
179
accroissements insensibles `a la tendance (quelque soit les valeurs prises par les param`etres
ap). Remarquons qu’il s’agit bien d’une g´en´eralisation de l’hypoth`ese intrins`eque qui elle
ne travaille que sur des combinaisons lin´eaires de poids nul, et est donc insensible `a la
valeur moyenne. En retour, cet ´elargissement du champ th´eorique offre un choix plus
vaste de fonctions de covari- ance (appel´ees covariances g´en´eralis´ees) dont les
covariances de l’hypoth`ese stationnaire et les variogrammes de l’hypoth`ese intrins`eque ne
sont que des cas particuliers. On pourra trouver plus de d´etails sur ce vaste sujet dans
Droesbeke et al. (2006).
La connaissance de ϕ r´esulte en g´e n´e r a l de l’observation d’une variable annexe. Bourgine (1995)
donne en particulier un exemple de cas d’application : en g´eothermie, la temp´erature T (x)
s’exprime par Y (x) + aP (x) + b o u` P est la profondeur d’un site x. D’une mani`ere g´en´erale, le
KDE peut ˆetre utilis´e pour calculer les fluctuations d’un variable autour d’un niveau de r´ef
´erence d´eterministe.
Nous laissons au lecteur le soin de v´erifier que l’´ecriture des contraintes de krigeage produit
un syst`eme d’´equations identique `a celui du krigeage ordinaire, avec un ligne suppl´ementaire
pour as- surer l’abscence de biais, soit, en notant ϕi = ϕ(xi) :
C11
C12 ... C1n 1 ϕ1 w1 C01
C21 C22 ... C2n 1 ϕ2 C
w
. .
.. . . . . . . . (3.28)
Cn1 Cn2. .... Cnn. 1. ϕn. C0n
w =
1 1 ... 1 0 0 1
ϕ1 ϕ2 ... ϕn 0 0 λ1 λ ϕ
Dans le cas o u` le mod`ele sous-jacent Y est intrins`eque C est remplac´e par −γ.
Le KDE peut ˆetre particuli`erement int´eressant pour mod´eliser les discontinuit´es ( `a condition
qu’elles soient connues a priori), comme illustr´e sur la figure 3.19.
180
Nous pr´esentons ci-dessous un cas d’application concret issu des travaux de Peraudin (2003), dont
l’objet ´etait d’´etudier la concentration spatiale du benz`ene (C6H6) sur la ville de Rouen, `a partir
de
181
● ●
●
●
● ● ● ●
● ● ● ●
● ● ●
● ●
30
● ●
20
●
● ● ●
● ● ●
10
● ●
300
●
● ● ● ●
● ● ● ●
● ● ●
● ●
20
● ●
10
●
● ● ●
● ● ●
250
20
15
10
5
0
−5
0 200 400 600 800 1000
Fig. 3.19. Comparaison du r´esultat du krigeage ordinaire � ZKO et du krigeage avec d´erive
externe
� ZKDE pour un processus 1D stationnaire avec d´erive m(x) = 20 × ]_x�300.
L’´echantillonnage du semis d’observations a ´e t ´e o p´e r´e `a une r´esolution de 1 point toutes
les 35 unit´es.
l’observation de 73 sites. L’estimation a ´e t ´e effectu´ee par krigeage avec d´erive externe, en consid
´erant une variable annexe, d´ecrivant la densit´e de population et l’altitude du terrain, deux
facteurs qui peuvent avoir une influence indirecte sur la concentration de benz`ene. Le mod`ele est
alors ´eva l u´e ob- jectivement par validation crois´ee (cf chapitre 4) et compar´e aux estimations
obtenus par un krigeage ordinaire. Le r´esultat de l’´etude met en ´evidence une meilleure pr
´ecision d’estimation avec le KDE.
Fig. 3.20. Estimation de la concentration de C6H6 par KO (au centre) et par KDE ( `a droite) tenant
compte de la densit´e de population et de la topographie ( `a gauche). Source : Peraudin (2003).
• Krigeage al´eatoire : lorsque les position des sites sont elle-mˆemes significativement bruit
´ees 9 , on peut avoir recours au krigeage al´eatoire qui suppose que les sites xi sont al
´eatoirement et ind´ependamment distribu´es dans un voisinage locale propre Vi. La r
´esolution, qui s’op`ere clas- siquement `a partir des 4 contraintes usuelles, permet d’aboutir `a
un syst`eme d’´equations faisant intervenir le variogramme r´egularis´e γ entre les
voisinages (cf section 3.7.3 sur le krigeage par blocs). Notons que ce bruit de positionnement
impacte ´egalement l’estimation du variogramme, et fait en g´en´eral apparaˆıtre une p´epite
artificielle (Emery, 2001).
9
Ce qui arrive souvent en bathym´etrie par exemple comme le mentionne Emery (2001).
182
• Co-krigeage : nous avons vu comment utiliser le krigeage `a d´erive externe lorsque la
ten- dance globale de la variable est perturb´ee par une variable annexe. Toutefois
l’utilisation du KDE en n´ecessite la connaissance exhaustive (ou moins sur une grille de r
´esolution suffisamment fine). Lorsque cette variable annexe n’est connue qu’au niveau de
quelques sites d’observations, la g´eostatistique multivari´ee (Rivoirard, 2003) permet de
traiter le probl`eme en estimant les quantit´es inconnues `a l’aide de combinaisons lin
´eaires mixtes de la variable d’int´erˆet Z et de la variable annexe Y :
m n
L L
z�(x 0 ) = viyi + w i zi (3.29)
i i
CY CY Z v C0
(3.30)
= 0Y
CY Z CZ w CX
o u` CAB(h) = γAB(∞)−γAB(h) d´enote la covariance entre les deux variables A et B en deux sites
xi et xj s´epar´es d’une distance h, CA = CAA et C0 est la covariance de la variable A entre un site
A
xi et le site `a interpoler x0. Dans un cas d´efavorable, γY Z a un comportement p´epitique pur
et la connaissance de la variable auxiliaire n’apporte rien `a la r´esolution du probl`eme.
L’´equation 3.30 se g´en´eralise pour le cas du cokrigeage ordinaire (avec deux
multiplicateurs de Lagrange pour assurer la contrainte d’universalit´e) ainsi que dans le cas
strictement intrins`eque (avec l’emploi exclusif du variogramme).
n p
z(x0) = L wijzij (3.31)
L
� i=1 j=1
o u` wij est le poids affect´e `a la i-eme observation de la variable Zj, en g´en´eral d’autant
plus fort et que les sites x0 et xi sont proches, et que les variables Z1 et Zj sont corr´el´ees.
Remarquons que les sites ne co¨ıncident pas n´ecessairement entre les diff´erentes variables.
Le cokrigeage constitue un outil de choix pour l’interpolation des champs vectoriels (avec des r
´esultats en g´en´eral plus pr´ecis qu’un d´ecoupage en n champs scalaires). On le recontre fr
´equemment dans les ´etudes li´ees
`a la pollution atmosph´erique, qui font souvent intervenir un grand nombre de variables corr´el
´ees telles que les concentrations d’une large gamme de particules et des param`etres m´et
´eorologiques (Deraisme et Bobbia, 2003). Notons toutefois que le nombre de variogrammes `a
mod´eliser aug- mente quadratiquement avec p, ce qui limite en g´en´eral le co-krigeage `a
un maximum pratique d’une dizaine de variables annexes).
183
Pour illustrer cette m´ethode, nous nous appuyons `a nouveau sur les travaux de Peraudin
(2003), qui a ´e t u d i´e la concentration de dioxye d’azote (NO2) sur la r´egion Ile-de-France
`a partir des relev´es fournis par 20 capteurs. Pour affiner les r´esultats, l’auteur propose
d’ajouter en variable auxiliaire le logarithme de la concentration en NOx.
Fig. 3.21.
E´ stimation de la concentration de NO2 par krigeage ordinaire ( `a gauche) et par co-krigeage
crois´e avec le logarithme des emissions de NOx ( `a droite). Source : Peraudin (2003).
• Krigeage d’indicatrice : on peut utiliser toutes les techniques de krigeage vues pr´ec
´edemment pour interpoler une variable binaire, par exemple la pr´esence d’un ´e l´e m e nt
chimique dans
� le sol. La variable z estim´ee peut ˆetre consid´er´ee comme ´etant l’esp
´erance (conditionn´ee aux observa- tions) d’une fonction indicatrice valant 1 si l’´el´ement
est pr´esent et 0 sinon :
Autrement, dit la valeur krig´ee en un site x peut ˆetre consid´er´ee comme la probabilit´e de pr
´esence de l’´el´ement chimique en x sachant les observations. Remarquons toutefois que le
krigeage peut produire des valeurs en dehors de l’intervalle [0, 1], ce qui n´ecessite donc quelques
op´erations de r´egularisation pour que la valeur krig´ee puisse l´egitimement ˆetre consid
´er´ee comme une proba- bilit´e en tout point du domaine.
De mani`ere similaire, si Z est une variable continue, comme par exemple la teneur de l’´el
´ement, on peut la transformer en une variable binaire avec la foncion indicatrice Yc(x) =
]_Z(x):(c, ou`
c ∈ R est un seuil arbitrairement fix´e. La fonction Yc prend la valeur 0 en tous les sites o u` Z
d´epasse c et 1 sinon. Si on calcule un krigeage de la variable Yc on obtient :
184
Remarquons toutefois que rien ne garantit la monotonie de la fonction de r´epartition ainsi
es- tim´ee. En pratique, ici aussi, un post-traitement est n´ecessaire pour r´egulariser la
solution.
• Soft-kriging : ou krigeage mou, il permet de combiner des observations formelles, avec des
informations plus vagues. Par exemple, en bathym´etrie, on peut combiner des informations
de profondeur exactes (obtenues par sonar) avec des indications du type : en ce point, la
profondeur est sup´erieure `a x m, dans le cas de figure ou la port´ee du sondeur n’a pas
permi d’y d´eterminer la profondeur. Le soft-kriging utilise en particulier des techniques de
krigeage sous contraintes d’in´egalit´es. Pr´ecisons que lorsque le nombre de contraintes floues
reste mo d´er´e, les techniques de simulations pr´esent´ees dans le chapitre 4 pourront
avantageusement ˆetre employ´ees.
3.8 Bilan
Dans ce chapitre nous avons vu comment utiliser la notion de processus stochastique pour estimer
une variable r´egionalis´ee observ´ee en seulement quelques points. En particulier, nous avons
appris `a utiliser les contraintes de krigeage pour d´eriver le syst`eme d’´equations menant `a un
vecteur de poids solution. Rappelons que ces contraintes, qui sont la marque de fabrique du
krigeage, sont toujours les mˆemes : lin´earit´e, autorisation, universalit´e et optimalit´e. Seules
les hypoth`eses sur le mod`ele du processus vont mener ces contraintes `a produire des ´equations
diff´erentes. En particulier, nous avons vu que le krigeage peut-ˆetre facilement personnalis´e pour r
´epondre `a des besoins sp´ecifiques.
Toutes les variantes du krigeage qui ont ´e t ´e ´etudi´ees dans ce chapitre ( `a l’exception du
krigeage de la moyenne et du krigeage simple qui n´ecessitent imp´erativement une stationnarit´e du
processus pour que la notion de valeur moyenne du champ ait un sens), peuvent s’exprimer aussi bien
sous l’hypoth`ese stationnaire avec la covariance que sous l’hypoth`ese intrins`eque avec le
variogramme. De mˆeme, si les observations sont pr´elev´ees sur des zones d’emprise spatiale non-n
´egligeable, on peut avoir recours au krigeage par blocs avec le variogramme r´egularis´e. Toutes
ces caract´eristiques sont combinables
`a volont´e. Ainsi, on peut parler de co-krigeage intrins`eque par blocs d’indicatrices, ce qui
illustre ici aussi la grande polyvalence de la m´ethode.
Par ailleurs, le krigeage permet de d´eriver une incertitude formelle sur la pr´ediction : la
variance de l’erreur d’estimation, ce qui est une propri´et´e fondamentale des m´ethodes
probabilistes. De plus nous avons vu que cette variance ne d´epend que de l’implantation des sites
d’observation, et pas des mesures effectivement collect´ees, ce qui permet en amont de contrˆoler la
qualit´e d’un plan d’exp´eriences.
Enfin, si nous devions retenir une faiblesse capitale du krigeage, ce serait sans aucun doute son
inap- titude `a estimer des quantit´es non-lin´eaires, ce qui combin´e `a sa propri´et´e de lissage,
peut conduire
`a des estimations assez ´eloign´ees de la v´e r it´e . Cette limitation va motiver le besoin de
simulations num´eriques, dont nous parlerons dans le chapitre suivant.
185
Chapter 4
Compl´ements
Dans ce dernier chapitre nous ´etudions quelques compl´ements utiles aux notions vues pr´ec
´edemment. En particulier, nous verrons une m´ethode objective de validation, qui peut
s’apparenter `a la m´ethode dite Leave One Out Cross Validation en apprentissage automatique.
Nous verrons ´egalement comment utiliser le krigeage pour trouver la valeur optimale d’une fonction
num´erique en minimisant le nombre d’observations n´ecessaires. Nous ´etudierons par ailleurs des
techniques de simulations, conditionnelles et non-conditionnelles, offrant une vaste gamme de
possibilit´es, allant de l’interpolation sous contrainte
`a l’´etude de propagation d’erreurs, en passant par l’estimation de quantit´es non-lin´eaires,
propri´et´e capitale pour contourner les faiblesses du krigeage. Nous conclurons ce cette section
par une activit´e de synth`ese, permettant de mettre en application (et de comparer) le krigeage
et les techniques de simulation, sur un probl`eme concret.
Cependant, la propri´et´e 37 nous montre que les estimations du krigeage sont invariantes par
multipli- cation scalaire du variogramme tandis que la variance de l’erreur d’estimation se retrouve
affect´ee d’un facteur ´equivalent. Cela nous montre qu’il est toujours possible de r´eduire
artificiellement l’incertitude formelle de la pr´ediction en divisant le variogramme par une constante.
Une erreur dans la mod´elisation variographique (ou pire, en amont dans les hypoth`eses du
mod`ele) peut donc rapidement conduire `a la double sanction d’une variable mal estim´ee et
d’une variance d’erreur optimistiquement faible. L’incertitude formelle doit donc ˆetre consid´er´ee
comme un indicateur a priori de pr´ecision int´eressant pour valider en amont un plan d’exp
´erimentation. N´eanmoins le mod`ele et les estimations obtenues doivent toujours ˆetre pass
´ees `a l’´epreuve d’une validation objective. C’est ce que nous ´etudions dans cette section.
On note x ∈ D un site quelconque du domaine, et X = [x1, x2, ...xn] ∈ Dn et Z = [z1, z2, ...zn] ∈ Rn
les vecteurs contenant respectivement les sites et les observations qui y ont ´e t ´e relev´ees. Ces deux
vecteurs ayant la mˆem e taille, on peut les regrouper dans une matrice Y = [X, Z] `a n lignes, et
telle que le vecteur ligne yi = (xi, zi) d´esigne les donn´ees relatives au site i. Pour une configura-
tion Θ de param`etres (mod`ele, palier, port´ee et p´epite du variogramme, type de krigeage,
nombre d’observations utilis´ees pour chaque estimation...) on note f (x, Y, Θ) l’estimateur par
krigeage de la variable Z(x), `a partir du semis d’observations Y et avec le param´etrage Θ.
Remarquons que le vecteur Θ peut alternativement ˆetre consid´er´e comme un ensemble
186
d’hypoth`eses. Par exemple, on
187
peut avoir : Θ1 = [variogramme lin´eaire avec palier, p´epite nulle, port´ee 200 m, moyenne
connue...] et Θ2 = [ variogramme cubique, p´epite nulle, port´ee 250 m, moyenne inconnue... ].
L’objectif du probl`eme consiste `a trouver une mesure de qualit´e de pr´ediction permettant
d’´evaluer et de comparer les performances respectives des sets1 d’hypoth`eses Θ1 et Θ2 afin de ne
retenir que le meilleur.
Dans le chapitre pr´ec´edent, nous avons d´efini l’erreur d’estimation en x par la quantit´e (al´eatoire) :
Notons que l’erreur E est positive lorsque le krigeage sur-estime la valeur Z(x) et n´egative sinon.
Par ailleurs, il est int´eressant de noter que E est lui-mˆeme un processsus stochastique,
clairement non- stationnaire (l’erreur ´etant statistiquement plus faible au voisinage des points du
semis d’observations).
Pour estimer l’erreur E en x, on doit bien ´evidemment connaˆıtre la valeur vraie Z(x). Sur des
probl`emes de benchmarks exp´erimentaux, la v´eri t´e terrain est connue de mani`ere quasi-
exhaustive, et les erreurs de toutes les grandeurs physiquement mesurables peuvent ˆetre ´evalu
´ees. En revanche, dans un contexte op´erationnel, la valeur vraie est justement inconnue
puisqu’on cherche `a l’estimer. La validation crois´ee apporte une solution `a se probl`eme.
On note Y−i le jeu de donn´ees Y dans lequel on a supprim´e la ligne i. Le principe consiste alors
`a r´eestimer la valeur Zi prise en xi `a partir des valeurs Z−i prises en tous les autres sites.
L’erreur d’estimation 4.1 se calcule alors par :
La varance de l’erreur commise est alors calcul´ee en moyennant 4.2 sur tous les sites observ´es :
n 1
1 l
MSE = L 2
f (xi, Y−i, Θ) − Z(xi) (4.3)
n
i=1
Il s’agit d’un cas particulier de validation crois´ee (CV). Dans une validation crois´ee `a k folds
on d´ecompose l’ensemble des observations disponibles en k groupes de tailles homog`enes. On utilise
alors k − 1 groupes pour estimer les valeurs prises par le groupe restant, et on calcule l’erreur
d’estimation
en comparant les valeurs pr´edites aux valeurs observ´ees. Le processus est r ´e p ´e t ´e (k fois au total)
jusqu’`a ce que toutes les observations aient ´e t ´e r´eestim´ees une fois. La validation 4.3 est
donc un cas particulier de validation crois´ee avec : k = n. Comme chaque groupe ne comporte
qu’une seule observation, on parle de leave-one-out cross validation (LOOCV).
Il existe une vaste litt´erature sur le sujet de la validation crois´ee (Bengio et Grandvalet, 2004),
en particulier sur le contrˆole statistique de son biais et de sa variance. En g´en´eral, il est admis
que plus les groupes sont d’effectifs r´eduits moins l’erreur d’estimation est biais´ee, ce qui peut se
comprendre
1En th´eorie, l’ensemble des valeurs possibles de Θ est infini, et on ne peut comparer qu’un nombre fini de sets Θ ,
1
Θ2,... Θk, qui seront choisis de mani`ere a` balayer l’ensemble des hypoth`eses cr´edibles pour le ph´enom`ene a` mod´eliser.
188
intuitivement par le fait que Y−i ≈ Y et donc :
En revanche, dans cette configuration, les estimateurs sont fortement corr´el´es, i.e. mˆeme pour i /= j :
f (x, Y−i, Θ) ≈ f (x, Y−j, Θ), et donc la variance de ELOOCV tend `a augmenter (Efron, 1983).
Comme bien souvent, le compromis biais-variance 1.14 sugg`ere que la configuration optimale
corre- spond `a des groupes d’effectif interm´ediaire. En pratique, la conclusion semble moins
directe, et est principalement fonction des d´ependances entre les ´echantillons observ´es. Plusieurs
travaux (Burman, 1989; Tian et al., 2007; Zhang et Yang, 2015) ont relev´e des cas o u` biais et
variances diminuent de mani`ere monotone avec le nombre de groupes utilis´es, indiquant ainsi que
le LOOCV peut ˆetre optimal.
En pratique, comme nous allons le voir dans l’activit´e suivante, avant de former la diff´erence 4.2,
on stocke les r´esultats dans deux vecteurs
� : Z, contenant les estimations par krigeage et Z
contenant les valeurs r´eelles observ´ees. On peut alors extraire de nombreux indicateurs de
performance :
190
la meilleure pr´ediction qui puisse ˆetre faite est bien la moyenne z). Ainsi, le d
´enominateur de la fraction indique l’erreur commise si on affectait en chaque site la valeur
moyenne de tous les sites (c’est la variabilit´e intrins`eque de Z). Le num´erateur quantifie
lui l’erreur r´esiduelle.
i
|zi�− zi|
κ i= σ� i
Il revient alors `a l’utilisateur de d´efinir le ou les indicateurs les plus pertinents pour son
application, afin de d´efinir une m´etrique d’´evaluation lui permettant de retenir le mod`ele le
plus performant. Par exemple, si on retient la m´etrique L1, le choix de l’hypoth`eses optimale Θ∗
se fera par :
Θ∗ = argmin 1 Ln
If (x , , Θ) − z(x )I (4.5)
Θ
n
Y i − i
o u` H = {Θ1, Θ2, ...Θk} est un ensemble r´eduit d’hypoth`eses sur lesquels on op`ere la comparaison.
Remarquons pour finir que la validation crois´ee LOOCV poss`ede un couˆ t de calcul important
(notam- ment d uˆ au fait que la matrice principale doit ˆetre invers´ee pour chaque estimation).
Dans certains cas, si le nombre de donn´ees disponibles est consid´erable, on pourra op´erer la
proc´edure de LOOCV sur un sous-´echantillon des sites.
Nous commen¸cons par reconditionner le code pour l’adapter `a cette activit´e. En premier lieu,
nous r´ecup´erons la portion des instructions permettant de lire le fichier de points
d’observations et d’en transformer les coordonn´ees dans un rep`ere m´etrique local. En
particulier, pour simplifier le code, nous renommons les colonnes de la strcuture sites en x, y.
191
# Import des fichier
obs = read.csv("sample_data2.txt", sep=",", header=1)
192
# Conversion en coordonnees planes
R = 6378137.0
obs$longitude = obs$longitude*pi/180.0
obs$latitude = obs$latitude*pi/180.0
obs$longitude = (obs$longitude - min(obs$longitude))*cos(mean(obs$latitude))*R
obs$latitude = (obs$latitude - min(obs$latitude))*R
Nous utilisons `a pr´esent un variogramme lin´eaire de port´ee hmax = 7.7 km avec palier C = 395
m2, comme nous l’avions d´etermin´e sur la figure 2.18 et dans la section 2.4.2.
vario = function(h){
h[which(h > 7700)] = 7700; h=0.051*h
return(h)
}
Pour simplifier la suite des manipulations, nous allons cr´eer la fonction f (x, Y, Θ) sous la forme
estimate(x,y,sites,Z), avec x un site du domaine (de coordonn´ees x, y dans le code), Y un
ensemble de semis d’observations (sites pour les coordonn´ees des sites et Z pour les observations
qui y on ´e t ´e effectu´ees) et Θ les param`etres du variogramme (qui ici n’interviennent qu’`a
travers la fonction glob- ale vario). Remarquons que, tout comme dans l’activit´e VIII, le vecteur Z
est c om p l´et´e par un 0 en pr´evision de la produit scalaire final avec le multiplicateur de
Lagrange.
estimate = function(x,y,sites,Z){
N = nrow(sites)
# Pre-calcul de l’inversion
I = solve(D)
# Resolution
W = (I %*% D0)
return(c(sum(W*Z),sum(W*D0) - W[N+1]))
La fonction estimate retourne la valeur pr´edite par krigeage�z(x) ainsi que sa variance associ´ee.
193
Il ne reste alors plus qu’`a faire tourner une boucle sur les points du semis d’observations. Pour
chaque point (de coordonn´ees (sites$x,sites$y) et en lequel a ´e t ´e observ´e la valeur Z[i]), on r
´eestime la valeur prise par Z `a partir des donn´ees amput´ees du site i : sites[-i] et Z[-i].
A` l’issue de l’ex´ecution de ce morceau de code, les vecteurs zvrai et zhat contiennent respectivement
le observations (r´eelles) des N sites et les valeurs r´eestim´ees par krigeage. Id´ealement, on
souhaite que ces deux vecteurs soient les plus similaires possibles. On forme alors leur diff´erence e
= zvrai-zhat, le vecteur d’erreur. Remarquons que le calcul peut prendre un certain temps. Il est
conseill´e en premier lieu d’utiliser un jeu de donn´ees ne contenant pas plus de 500 observations.
Nous avons alors tous les outils n´ecessaires pour ´etudier la pr´ecision de la proc´edure
d’interpolation de l’activit´e VIII.
0
.
●●
●●●
● ● ●
● ●
●
●
●
●●
●
●
80
●
●
●●
●
●●
Freque
●●
550600650700
0
Den
●
.
60
●●● ●
z
●●
●●
●● ●
● ●
●●●
● ●●
40
● ●●
●●●● ●
●●●
●●●
●●●
0
.
●●
●
● ●●
20
●●●
●●●● ●
● ●●● ●
●●
●
●●●●●●●
●●●
●●●
0
●
●●●●
0
.
● ●
●●
● ●●
●●●
●●●●●
●●●
●●●●
Fig. 4.1.
A` gauche : droite de corr´elation entre les valeurs r´eelles (en abscisse) et pr´edites par
krigeage (en ordonn´ee). Au centre : histogramme des erreurs d’estimation pour k = 30 classes.
A` droite : densit´e de probabilit´e des erreurs d’estimation.
En premier lieu, on commence par repr´esenter le nuage de points (zi, z�i), `a l’aide de l’instruction
plot(zvrai, zhat, pch=16, cex=.5). Pour aider la visualisation, on peut ´egalement repr´esenter
la premi`ere bissectrice du rep`ere : lines(1:max(zvrai), 1:max(zvrai), lty=2).
194
Alternativement, on peut repr´esenter l’histogramme2 des erreurs hist(e,k), o u` k d´enote le nombre
de classes souhait´ees, ou la densit´e des erreurs plot(density(e)) .
Remarquons que la densit´e de probabilit´e des erreurs est calcul´ee par la m´ethode des noyaux
(Rosen- blatt, 1956; Parzen, 1962), qui s’apparente un peu `a ce qui a ´e t ´e fait dans l’activit´e VI :
les donn´ees sont liss´ees `a l’aide d’une fonction gaussienne. La largeur du noyau est un
param`etre c l´e de la proc´edure, et est d´etermin´ee `a partir des donn´ees (Nadaraya,
1965). Dans le cas des donn´ees du fichier sample data2.txt, le noyau de lissage de la figure 4.1 a
une largeur de 0.31 m environ. Plus le nombre de donn´ees augmente, plus le noyau a tendance `a
ˆetre compact et moins les donn´ees sont liss´ees par l’estimateur de la densit´e.
On peut alors calculer 4 indicateurs int´eressants : le biais (3 cm), la moyenne des erreurs non-sign
´ees (1.17 m), la racine carr´ee de l’erreur quadratique moyenne (2.25 m) et le coefficient de corr
´elation (99.87 %). L’´ecart important r´esidant entre l’erreur L1 et l’erreur L2 indique la pr
´esence d’outliers dans l’estimation (i.e. d’erreurs anormalement grandes), qu’il faudra investiguer par
la suite. La faible valeur de biais confirme que la contrainte d’universalit´e du krigeage a bien ´e t ´e
respect´ee.
var_explained = 1-mean(e**2)/var(zvrai)
On recherche dans un second temps les erreurs anormalement ´elev´ees, c’est-`a - dire les indices des
points en lesquels l’erreur d’estimation est sup´erieur `a 1.96 fois l’´ecart-type des erreurs. On repr
´esente alors la distribution spatiale de ces sites (par rapport `a tous les autres sites) pour rechercher
un motif singulier.
●
● ●
1
1
5
100015002000
e
y
●
0
● ●
●
−10−5
●
●
0500
x zvrai
Fig. 4.2.
A` gauche : r´epartition des sites l’erreur d’estimation est anormalement ´e l e v´e e (en
ou`
losange plein). A` droite : ´evolution de l’erreur en fonction de la valeur vraie.
2
La fonction hist permet a` la fois le calcul et le trac´e de l’histogramme. La fonction density en revanche, n´ecessite
d’ˆetre compl´et´ee par un appel a` plot.
195
On trouve 10 sites en lesquels l’erreur est sup´erieure `a 1.96 × rmse = 4.42 m. La figure 4.2 ( `a
gauche) en particulier, montre que les points concern´es sont situ´es en bord de domaine, ce qui
explique les
erreurs observ´ees. On note cependant deux clusters de points, au milieu `a gauche, et en bas `a
droite, ce qui peut inciter `a aller v´erifier si un des points voisins n’a pas ´e t ´e mal saisi.
Il peut ˆetre instructif ´egalement de r´epr´esenter les erreurs commises en fonction de la valeur vraie
(fig. 4.2 `a droite) avec la commande plot(zvrai, e). Sur ce graphique, on observe que l’erreur est en g
´e n´e r a l d’autant plus ´e le v´ee que la valeur `a estimer est elle-mˆeme ´elev´ee. On parle d’effet de
proportionnalit´e (Wackernagel, 2013b).
On v´erifie que l’erreur est `a peu pr`es homog`ene `a l’int´erieur du domaine. En particulier, les
zones o u` l’erreur est la plus faible (en jaune orang´e) correspondent aux zones de plus forte densit
´e de points.
1
+4.0
0
+2.0
1
Dens
0.0
1
-2.0
1
-4.0
8
0
-6.0
0
6
0
Fig. 4.3. A` gauche : interpolation par krigeage ordinaire des erreurs calcul´ees par validation crois´ee.
Le semis de points d’observations est repr´esent´e par des croix. A` droite : densit´es des erreurs
commises par le krigeage (en trait plein) et par la m´ethode des plus proches voisins (en pointill
´e)
On peut ´egalement comparer les r´esultats obtenus avec une m´ethode d’interpolation d´eterministe,
par exemple celle du plus proche voisin (ppv), qui consiste `a affecter en un site x, la valeur observ
´ee Z(xi) du site i le plus proche de x. Ici, on ne cherche pas `a effectuer l’interpolation ppv sur tout
le champ mais seulement au niveau des sites. Pour ce faire, on commence par ´ecrire une fonction
argmin prenant en entr´ee un vecteur de nombres et retournant l’indice du minimum :
argmin = function(x){return(which.min(as.vector(x)))}
On calcule par la
suite la matrice des distances entre tous les sites : M =
data.matrix(dist(sites)). Ainsi, le vecteur ligne M[i,] contient les distances s´eparant le site xi `a
196
tous les autres sites. En passant ce vecteur dans la fonction argmin on doit pouvoir r´ecup´erer le
site le plus proche. Mais il faut ˆetre vigilant : les entr´ees diagonales de la matrice M valent 0, et
donc l’application directe de argmin `a M[i,]
197
va n´ecessairement renvoyer l’entier i (en supposant qu’il n’y a pas deux sites confondus). On va donc
artificiellement augmenter la diagonale de M, par exemple en posant :
qui va avoir pour effet de : (1) r´ecup´erer la distance maximale entre deux sites, (2) l’incr
´ementer d’une unit´e, et enfin (3) d’affecter le r´esultat obtenu aux ´el´ements diagonaux de M. De
cette mani`ere,
l’instruction argmin(M[i,]) renverra bien le site xj (avec j /= i) le plus proche de xi. La proc´edure de
validation crois´ee de la m´ethode ppv est alors imm´ediate, en bouclant sur les sites :
eppv = rep(0,N)
for (i in 1:N){
eppv[i] = Z[argmin(M[i,]),]-Z[i,]
}
En effet, si argmin(M[i,]) est l’indice du ppv de xi, alors, Z[argmin(M[i,]),] est l’estimation fppv(xi,
Y−i) de z(xi) `a partir des donn´ees Y dont on a supprim´e la i-eme ligne. Il ne reste alors plus qu’`a
repr´esenter
(sur la m ˆe m u` e les histogrammes liss´es des vecteurs d’erreur e et eppv :
plot(density(e))
lines(density(eppv), lty=2)
Le r´esultat obtenu est donn´e en figure 4.3 ( `a droite). En particulier, on peut comparer le
RMSE de la proc´edure de krigeage (2.25 m pour m´emoire) avec celui du ppv : 7.36 m, ce qui
montre la nette sup´eriorit´e du krigeage, y compris avec un choix arbitraire de variogramme. De
mˆeme, on remarque que contrairement au krigeage, la m´ethode ppv est significativement biais
´ee (-1.13 m), ce qui peut probablement s’expliquer par la g´eom´etrie particuli`ere des sites sur la
surface du terrain.
●
● ● ●
0
.
1
0
.
Den
(m
N
●
0
●
.
● ●
0
.
●
●
●
0
●
.
0
Fig. 4.4. A` gauche : r´epartition des sites o u` l’erreur d’estimation est anormalement ´elev´ee (κ ∈
198
[1.96; 3[ en bleu et κ � 3 en rouge). A` droite : distribution des erreurs normalis´ees κ.
199
4.2 Application `a l’optimisation bay´esienne
Dans cette section, nous allons pr´esenter une utilisation concr`ete du krigeage pour trouver le
maximum d’une fonction een minimisant le nombre d’observations effectu´ees.
4.2.1 Introduction
Formellement, on se donne une fonction inconnuep f : X → R, o u` X repr´esente l’espace des
param`etres de la fonction. En g´e n´e r a l X ⊆ R . On note f ∗ la valeur optimale de f , et x∗ un
param´etrage de X qui permet d’atteindre f :
∗
Dans la suite nous supposerons que est un domaine b orn´e de Rp, et que la fonction f est
continue, si bien que x∗ existe et f∗ X
a une valeur finie. L’objectif du probl`eme consiste `a trouver
le param´etrage
optimal x∗ en minimisant le nombre n d’observations .
La d´emarche employ´ee ici consistera, pour chaque it´eration, `a analyser les n observations
effectu´ees jusque lors, `a affiner les informations disponibles sur f , puis `a choisir un nouveau
point xn+1 `a ob- server. Nous verrons par la suite que le choix de xn+1 peut r´epondre `a
plusieurs crit`eres diff´erents, mais en r`egle g´en´erale, il vise `a r´epondre `a 2 exigences
compl´ementaires :
• Exploitation : on cherche `a positionner xn+1 dans une zone `a fort potentiel, i.e. dans une
zone o u` ont d´ej`a ´e t´e observ´ees des valeurs ´elev´ees de f .
De mani`ere plus concise, on cherche `a placer l’observation xn+1 dans des zones qui sont `a la
fois prometteuses et peu observ´ees. Nous verrons que ces deux objectifs en apparence
contradictoires peuvent ˆetre combin´es de mani`ere ´el´egante `a l’aide des fonctions dites de
bande de confiance.
201
Remarquons que si on cherche `a minimiser la fonction f , toutes les consid´erations qui suivent peuvent
ˆetre transpos´ees sans probl`eme en consid´erant la fonction g = −f .
Donnons en premier lieu quelques exemples concrets motivant le recours `a l’optimisation s´equentielle.
• Dans le domaine des essais cliniques, on peut souhaiter d´eterminer un protocole de soin optimal
pour traiter une maladie. Chaque protocole est d´efini par un certains nombre de
param`etres (composition et grammage du m´edicament, posologie, soins annexes...) et la r
´eponse du patient est mesur´ee `a l’issue du traitement. De par la nature statistique des
´evaluations, chaque test n´ecessite plusieurs dizaines de patients, et un temps consid
´erable pour suivre le protocole et analyser les r´esultats. Dans ces conditions, il n’est pas
envisageable de tester tous les proto- coles possibles, et l’optimisation bay´esienne nous
permettra de d´efinir s´equentiellement un plan
d’exp´erimentation X = {x1, x2,. . .xn}, de sorte `a trouver un protocole quasi-optimal x∗ ∈ X.
• En ing´eni´erie, et en particulier dans l’´etude de la r´esistance des mat´eriaux, chaque exp
´erimentation peut n´ecessiter la destruction d’un ouvrage, occasionnant ainsi des frais colossaux
pour l’entreprise. Par exemple, trouver la structure x d’un v´ehicule permettant de limiter les d
´e g ˆa t s caus´es par un choc frontal, n´ecessite de sacrifier n v´ehicules avec diff´erentes
structures x1, x2,... xn, et
´evaluer dans chaque cas les d´e g ˆa ts caus´es f (x1), f (x2),... f (xn). On comprend alors ais
´ement l’importance de minimiser le nombre n d’exp´erimentations.
D’une mani`ere g´en´erale, l’optimisation bay´esienne est un outil de choix dans tous les probl`emes de
recherche dans un espace dans lequel la collecte d’informations est longue, couˆteuse ou risqu´ee.
4.2.2 Principe
Pour illustrer la m´ethode, nous prendrons l’exemple d’une fonction f `a une dimension, dont nous
supposerons disposer de 3 observations z1, z2 et z3 en trois points donn´es x1, x2 et x3.
2
●
0
●
f
●
−
−
Fig. 4.5. Une fonction uni-dimensionnelle f et trois ´echantillons al´eatoires x1, x2, x3 ∈ X .
202
Dans un premier temps nous consid´ererons que ces observations ne sont pas entˆa ch´ees
d’erreurs, autrement dit on a les ´egalit´es exactes zi = f (xi) pour i = 1, 2, 3. Par ailleurs, on
suppose avoir un mod`ele de variogramme γ caract´erisant le processus stochastique dont f est
une r´ealisation.
Connaissant γ ainsi qu’un semis de points d’observations, on peut caluler une estimation de f par
krigeage en tout point du domaine X . On note f� cette estimation et σ l’´ecart-type de l’erreur
d’estimation. Insistons bien sur le fait que f et
� σ sont des fonctions d´efinie sur le mˆeme support
que f . On les repr´esente sur la figure 4.6
2
●
0
●
f
●
−
−
Fig. 4.6. La fonction f inconnue (en pointill´e noir), son estimation �f par krigeage `a l’aide
des 3 premiers points de donn´ees (en rouge) et la bande de confiance asscoi´ee (en vert).
On forme alors deux fonctions, traditionnellement not´ees U (pour UCB ou Upper Confidence Band
) et L (pour LCB ou Lower Confidence Band ) :
U (x) = f�(x) +
qσ(x) (4.6)
L(x) = f�(x) −
qσ(x)
o u` q > 0 est un coefficient de suret´e. Plus q est grand, plus la marge d’erreur to l´er´ee est
grande. La zone comprise entre les courbes L et U est appel´ee la bande de�confiance de f :
pour un point x donn´e quelconque, la valeur vraie de f (x) appartient `a l’intervalle [L(x); U (x)]
avec une probabilit´e d´ependant uniquement du coefficient de suret´e. En particulier, sous
l’hypoth`ese normale et pour q = 1.96, cette probabilit´e vaut 95%.
On choisit alors un point x4 qui maximise la bande de confiance sup´erieure, autrement dit, on
cherche le site qui a le plus haut potentiel : x4 = 732 (ligne verticale pointill´ee sur la fig. 4.6). On
mesure alors la valeur prise par la fonction en x4 et on ajoute cette nouvelle donn´ee aux
observations, ce qui permet d’effectuer une nouvelle estimation par krigeage de f , puis d’en d
´eduire un nouveau point x5 et ainsi de suite.
• Calcul de fk,�l’estimation par krigeage effectu´ee `a l’aide des k premiers points observ´es, et de
σk, l’´ecart-type correspondant.
203
• D´etermination du point `a observer `a l’´etape suivante :
L’algorithme est initialis´e en tirant 2 ou 3 sites al´eatoirement et se termine lorsque l’une des
conditions suivantes est remplie :
• L’algorithme a converg´e, i.e. la distance (dans X ) s´eparant deux points cons´ecutifs est inf´erieure
`a un crit`ere pr´ed´etermin´e : ||xk+1 − xk|| :( ε.
• Le nombre maximal d’it´eration a ´e t ´e atteint.
● ● ●
● ●
2
● ●
● ●
−6−4−20
● ● ● ●
● ●
2
● ●
● ●
● ●
−6−4−20
● ● ●
● ●
● ● ● ●
● ●
2
● ●
● ●
● ●
−6−4−20
0 200 400 600 800 1000 0 200 400 600 800 1000
Fig. 4.7. 6 it´erations de l’algorithme (apr`es ´evaluations des 3 premiers points) pour un
variogramme gaussien de port´ee 100 et un coefficient de suret´e q = 3.
205
l’estimateur f� sans tenir compte de l’incertitude σ. L’algorithme a ainsi tendance `a ´echantillonner les
zones de valeurs ´elev´ees, et donc `a favoriser A
l’inverse, quand q → ∞,
est pr´epond´erante dans le calcul de la bande U , l’algorithme ne tient plus compte de �
l’estimateur f et adopte une strat´egie purement exploratoire.
A` ce titre il est instructif de rejouer le sc´enario d’optimisation de la figure 4.7 pour un coefficient de
suret´e q = 2. Le r´esultat est repr´esent´e sur la figure 4.8 et montre que l’algorithme converge
vers la mˆeme valeur optimale, mais suivant un sch´ema diff´erent. En particulier, il commence
par exploiter plus intensivement la premi`ere zone prometteuse (aux alentours de x = 800) avant
d’explorer la zone contenant le maximum final. La convergence est dans ce cas l´eg`erement plus
longue et est atteinte apr`es 12 ´evaluations de f .
●
2
● ● ● ●
●
−6−4−20
● ●●
2
●
● ●●
●
−6−4−20
● ● ● ●●
●
● ●● ● ●●
2
● ●
● ●
−6−4−20
0 200 400 600 800 1000 0 200 400 600 800 1000
Fig. 4.8. 6 it´erations de l’algorithme (apr`es ´evaluations des 3 premiers points) pour un variogramme
gaussien de port´ee 100 et un coefficient de suret´e q = 2.
206
avec α une marge de confiance, d´ependant de q.
∗
On peut utiliser d’autres crit`eres, en notant f k le maximum courant de f trouv´e `a l’it´eration
k et en d´efinissant la fonction g par
• Probability of improvement :
∗
g(x|x1 , x2, ...xk) = P[f (x) � f k |x1 , x2, ...xk]
Maximiser g revient donc `a trouver le point xk+1 du domaine tel que la probabilit´e que la
valeur prise par f en xk+1 soit sup´erieure au maximum courant est la plus grande possible.
• Expectancy of improvement :
∗
g(x|x1 , x2, ...xk) = E[f (x) − f k |x1 , x2, ...xk]
Maximiser g revient `a trouver le point xk+1 du domaine tel que le gain moyen sur f par rapport
au maximum courant soit le plus grand possible.
Remarquons que, contrairement `a la d´efinition g(x) = U (x), dans les deux alternatives ci-
dessus, la fonction g d´epend directement du maximum courant. On pourra trouver plus de d
´etails sur ces diff´erents crit`eres dans Snoek et al. (2012).
Bruit d’observation
Lorsque les mesures effectu´ees sont bruit´ees, c’est-`a - dire que les donn´ees disponibles sont zi = f (xi)±ση
o u` ση est un bruit inh´erent au processus d’observation, on peut utiliser un variogramme `a p´epite,
comme illustr´e sur la figure 4.9. La variance d’estimation de f n’est donc jamais nulle, y compris au
niveau des points d’observations o u` elle est justement ´egale `a la valeur de la p´epite.
● ●
2
● ●
f
● ●
−6−4
−6−4
0 200 400 600 800 1000 0 200 400 600 800 1000
x x
207
Activit´e X. Optimisation bay´esienne par krigeage
Dans cette activit´e nous utilisons une fonction f , ´echantillonn´ee en 1000 points et g´e n´e r´e e al´eatoirement
`a l’aide de la fonction generate, d´efinie dans l’activit´e VI et d’un noyau gaussien h d’´ecart-
type 100. E´ crire le code R permettant de trouver le maximum de f `a l’aide de l’optimisation bay
´esienne. On utilisera pour ce faire un mod`ele de variogramme gaussien de port´ee 100, un
nombre maximal de 10 it´erations et un crit`ere de convergence fix´e `a ε = 1.
Le code solution ne sera pas pr´esent´e ici, puisqu’il s’agit d’un assemblage de modules d ´e j `a
expliqu´es dans les activit´es pr´ec´edentes. On pourra trouver une correction dans le fichier
code9.r.
4.3 Simulations
Nous avons vu pr´ec´edemment dans la section 3.5.4 que l’interpolation par krigeage d’un semis
de points d’observations produit syst´ematiquement des fonctions plus lisses que les r´ealisations
typiques du processus ayant g ´e n ´e r ´e le semis. Cet effet ´etait particuli`erement visible sur les
figure 3.11 et 3.12.
Or dans certaines probl´ematiques (dont nous donnerons des exemples concrets par la suite), il
est important de pouvoir disposer d’une reproduction fid`ele des r´ealisations. C’est justement ce
que pro- posent de faire les simulations. Notons qu’il existe deux types de simulations :
1
0
5
● ●
0
● ●
O
● ●
−
−
5
5
−
−
1
200 300 400 500 600 700 800 900 200 300 400 500 600 700 800 900
SITES SITES
Fig. 4.10.
A` gauche : 5 simulations non-conditionnelles. A` droite : 5 simulations conditionn´ees aux
3 points de donn´ees : y(300) = 1, y(500) = 5 et y(800) = −3. Dans les deux cas, un variogramme
gaussien de port´ee 100 et de p´epite d’´ecart-type 0.5 a ´e t ´e utilis´e.
Notons que la distinction entre ces deux types de simulation est arbitraire et `a vocation
uniquement p´edagogique : une simulation non-conditionnelle n’est autre qu’une simulation
208
conditionn´ee `a un en- semble vide d’observations. Malgr´e tout, les contextes n´ecessitant le
recours `a l’un ou l’autre de ces
209
types ´etant en g´e n´e r al assez diff´erents, nous maintiendrons cette distinction dans la suite du cours.
En th´eorie le domaine peut ˆetre discret (e.g. un semis de points, une grille r´eguli`ere...) ou
D
continu (e.g. un sous-domaine de R, R2...). N´eanmoins, d’un point de vue informatique, toutes les
quantit´es adressables en machine ´etant n´ecessairement finies, toute simulation sur un support
continu devra au pr´ealable passer par une discr´etisation de r´esolution aussi fine que les capacit
´es de calculs le perme- ttent. Ainsi, par exemple, la simulation d’un MNT se fait en g´en´e ra nt
une collection de variables al´eatoires (corr´el´ees via le variogramme γ) sur un semis de points
d’observations en forme de grille r´eguli`ere.
Remarquons ´egalement que nous avons d ´e j `a effectu´e des simulations au d´ebut du chapitre 3,
plus sp´ecifiquement dans l’activit´e VI. Notamment, la figure 3.3 pr´esentent des exemples de
simulations conditionn´ees3 `a trois points observ´es.
n
L
C(n) = Θ(k3) = Θ(n4)
k=1
Le couˆ t d’une simulation ´evolue donc comme la puissance quatri`eme du nombre de sites `a
simuler, ce qui est consid´erable. Il est possible de le r´eduire `a l’aide des techniques de voisinage
glissants. C’est en particulier l’approche employ´ee par la bibiloth`eque gstat que nous allons utiliser
`a la fin de ce chapitre.
Dans un but p´edagogique, nous pr´esentons ici une m´ethode purement alg´ebrique permettant de
simuler les valeurs prises par tout les sites simultan´ement, moyennant l’hypoth`ese que le champ
soit station- naire, et qu’il soit donc possible de manipuler sa fonction de covariance. Pour ce faire,
nous allons
3
Pour abr´eger le temps de calcul, nous avions autoris´e une tol´erance ε, impliquant ainsi que les simulations ne
210
passent pas exactement par les points conditionnants. Formellement, on peut consid´erer qu’il s’agit d’une simulation
conditionnelle d’un processus a` variogramme p´epitique.
211
avoir recours au th´eor`eme 12 de propagation des variances : si A est une matrice de Rm×n et X ∈ Rn
un vecteur al´eatoire de matrice de covariance Σ, alors Y = AX a pour covariance AΣAT .
Soit Σ la matrice de terme g´en´er al (Σ)ij = γ(0) − γ(hij) avec hij = ||xi − xj ||. Comme γ est
parfaite- ment connu, le calcul de la matrice Σ ne pose aucun probl`eme.
Enfin, consid´erons A ∈ Rm×n une matrice quelconque de r´eels. Le produit Y = AX est une variable al
´eatoire et sa matrice de covariances vaut :
ΣY = AΣXAT = AAT
Donc, pour que la variable Y ait pour matrice de covariances Σ, il faut et il suffit que Σ = AAT ,
autrement dit, on souhaite que A soit une d´ecomposition de Cholesky de Σ.
A = LLT
La matrice Σ ´etant une matrice de covariance, elle est sym´etrique d´efinie-positive 4, et on peut
donc en extraire une d´ecomposition de Cholesky. Nous avons donc une m´ethode cl´es en main
pour simuler le processus en n sites. On en donne les ´etapes ci-dessous :
• Calculer sa d´ecomposition de Cholesky, i.e. trouver une matrice L telle que : Σ = LLT . Cette
´etap e s’effectue `a l’aide des bibiloth`eques de calcul matriciel, disponibles dans tous les
langages de programmation. En particulier, en R on utilise la fonction chol.
• Calculer le vecteur Z = LX
Et c’est tout ! On sait d’apr`es ce qui p r´e c`e d e que Z est un vecteur dont la covariance est celle
prise par le processus au niveau des sites `a simuler. Voyons cela en pratique dans l’activit´e qui
suit.
4
D’ou` l’importance de mod´eliser le variogramme avec une fonction licite, i.e. une fonction conditionnellement d´efinie-
n´egative, comme nous l’avons vu dans la section 2.4.5.
212
Activit´e XI. Une premi`ere simulation
On se place en 1D, avec un variogramme lin´eaire avec palier (port´ee 100) :
vario = function(h)
{ h[which(h > 100)] = 100
return(h)
}
C = function(h){
return(100-vario(h))
}
On c r ´e ´e ensuite 500 sites r´eguli`erement espac´es, puis on calcule les distances (le long de la droite r
´eelle) entre ces sites et on forme la matrice de covariances D :
x = 0:500; n = length(x)
D = C(data.matrix(dist(x, diag=TRUE, upper=TRUE)))
X = rnorm(n,0,1) L = chol(D)
Z = t(L) %*% X
Il ne reste plus qu’`a tracer le processus simul´e avec l’instruction plot(x,Z,type="l"). La figure
4.11 illustre une des simulations obtenues.
1020
Z
−100
−20
Fig. 4.11. Simulation non-conditionnelle d’un processus stochastique de variogramme lin´eaire avec
palier et port´ee hmax = 100. Calcul r´e a l i s´e par factorisation de Cholesky.
Remarquons que cette simulation n’a ´e t ´e effectu´ee qu’avec les fonctions de la librairie standard de R.
Aucun appel `a une biblioth`eque externe n’a ´e t ´e requis. N´eanmoins, cette apparente simplicit´e
cache un
213
´ecueil majeur. Il faut ˆetre vigilant aux erreurs d’arrondi num´eriques. Si la d´ecomposition de
Cholesky se passe en g´en´e ra l bien avec des variogrammes au comportement lin´eaire `a
l’origine, il n’en va pas de mˆem e avec des processus `a variogramme gaussien et cubique, qui posent
souvent des probl`emes de stabilit´e num´erique. Parfois, le probl`eme peut ˆetre r´esolu en
ajoutant une p´epite infinit´esimale dans le mod`ele, mais sans garantie.
Pour faire de la simulation sur des applications concr`etes (avec diff´erents variogrammes et avec
po- tentiellement des milliers, voire des millions, de valeurs `a g´en´ere r simultan´ement, il est
fortement recommand´e de passer par une biblioth`eque, telle que gstat (Pebesma, 2020) par
exemple que nous utiliserons dans le cadre de la simulation non-conditionnelle.
En particulier, la simulation non-conditionnelle a permi de g´e n´e r e r l’image 2.2, le Mod`ele Num
´erique de Terrain r´e el ´etant le deuxi`eme `a partir de la gauche sur la seconde ligne, relev´e
sur la Mer de Glace dans le massif du Mont-Blanc. On reconnaˆıt au demeurant ce mˆeme terrain
sur la figure 3.12 ( `a gauche). Les 7 autres r´ealisations de la figure 2.2 sont donc des simulations
imitant la structure d’autocorr´elation du terrain r´eel.
Fig. 4.12. Zone visible depuis un point d’observation. Donn´ees IGN BD TOPO@ sur la commune
d’Aubervilliers (93). La surface visible est ´e va l u´e e `a 22 275 m2.
Il existe dans la litt´erature trois grandes classes de m´ethodes pour propager l’erreur de x `a
f (x). La premi`ere consiste `a d´eterminer les amplitudes de variation ∆x sur les entr´ees,
puis `a les
214
transf´erer sur ∆f `a l’aide d’une diff´erentielle totale :
∂f ∂f ∂f
∆f = II ∆x I+ II ∆x I+ ... + I ∆x (4.8)
1 2 nI
I I
∂x ∂x ∂x
Exemple 4.1. Entre 11h29 et 11h40, un randonneur parcours une distance qu’il ´evalue ( `a l’aide
d’une carte papier et d’un d´ecim`etre) `a L = 1 km ± 50 m. On cherche `a calculer
l’incertitude
sur sa vitesse moyenne. On ´evalue d’abord le temps de parcours : t = t2 − t1 = 11 minutes,
avec une incertitude ∆L de 2 minutes (1 min sur chacun de deux relev´es chronom´etriques). Sa
vitesse moyenne est v = f (L, t) = L/t = 5.45 km/h. L’incertitude sur v s’obtient par 4.8 :
I I ∂f II I I ∂f II I I ∆LI I I I II
∆v = ∂L ∆L + ∆t = t + t2 = 0.27 + 0.50 = 0.77
km.h−1 ∂t
Sa vitesse v est donc estim´ee `a 5.45 ± 0.77 km/h. En particulier, on peut quantifier
l’importance relative les deux sources d’incertitude : 35% de l’impr´ecision est due `a l’erreur
sur la mesure de
distance et 65% `a celle sur le relev´e du temps.
Cette m´ethode, simple `a mettre en oeuvre, n´ecessite toutefois que f soit suffisament r
´eguli`ere pour ˆetre approch´ee par une lin´earisation au voisinage du point de
fonctionnement. Par ailleurs, une de ses limites majeures et de ne fournir qu’un intervalle
absolu ∆f , i.e. une plage de l’ensemble des valeurs potentiellement prises par f sans tenir
compte de leurs probabilit´es d’apparition respectives, et va donc fournir en g´e n´e r a l des
intervalles tr`es larges et pessimistes.
Une autre m´ethode consiste `a utiliser le th´eor`eme 12 de propagation des variances (ou le th
´eor`eme 13 lorsque f est non lin´eaire). Ainsi, si f peut ˆetre fid`element repr´esent´ee par
sa jacobienne J et si la matrice de covariance des entr´ees est connue, alors on peut ´evaluer la
variance de la sortie de l’application. Cette m´ethode pr´esente l’avantage de fournir un
intervalle probabiliste, donc tou- jours plus compact (mais plus repr´esentatif) que l’intervalle
absolu de la m´ethode de diff´erentielle totale 4.8. Par ailleurs, elle permet de prendre en
compte, via la matrice de covariance, les in- tercorr´elations entre les diff´erentes variables, ce
qui est une propri´et´e indispensable lorsque les donn´ees en entr´ees sont de nature g
´eographique. On pourra trouver deux cas d’applications dans les exemples 1.9 et 1.10.
Cependant, si f est fortement non-lin´eaire (notamment avec des effets de seuil) alors la lin
´earisation de f n’est pas satisfaisante et la variance de sortie n’est plus r´ealiste. C’est le cas
dans l’exemple donn´e en figure 4.12 : l’intervisibilit´e est un ph´enom`ene binaire (une zone
est visible ou ne l’est pas mais il n’y a pas de situation interm´ediaire) donc typiquement non-lin
´eaire. Par ailleurs, lorsque f n’a pas d’expression analytique (c’est la cas ici aussi, et en g´en´eral
dans toutes les appli- cations o u` f est calcul´ee avec un algorithme complexe), ces deux
premi`eres m´ethodes d’analyse de sensibilit´e sont inop´erantes.
Il reste alors une troisi`eme approche, fond´ee sur des simulations. Le principe est
215
extrˆemement simple : on introduit un bruit dans l’entr´ee x, et on observe l’impact sur f
(x) pour un grand nombre de r´ealisations. On peut alors ´evaluer tous les indicateurs
statistiques souhait´es sur
216
la population de sortie (biais, ´ecart-type, erreur RMSE, percentiles, valeurs extrˆemes...).
On peut r´eit´erer l’exp´erience pour diff´erents niveaux de bruits en entr´ee. Par exemple,
sur la figure 4.13, on ajoute un bruit sur les coordonn´ees des batiments (d’´ecart-type σ = 5
m sur la rang´ee d’images sup´erieure, et σ = 10 m sur la rang´ee inf´erieure) et on
´etudie l’impact sur la surface visible calcul´ee.
Fig. 4.13. Analyse de sensibilit´e de la surface visible pour deux niveaux de pr´ecision des
bˆatiments (σ = 5 m en haut en σ = 10 m en bas).
Les r´esultats montrent un RMSE de 1304 m2 (soit environ 6% de l’aire totale) sur la surface
visible pour une pr´ecision de 5 m en entr´ee. Cette valeur passe `a 2484 m2 (11% de l’aire
totale) pour σ = 10 m. Dans les deux cas, le biais d’estimation est n´egatif et repr´esente
environ les deux tiers de l’erreur total, ce qui laisse penser que le bruit sur les donn´ees
induit plutˆot une erreur syst´ematique tendant `a sous-estimer l’aire visible.
On pourra trouver une ´etude similaire compl`ete dans les travaux de Biljecki et al. (2015) qui
´etudient l’impact de l’erreur du bati sur l’´evaluation du potentiel solaire.
218
grand de versions bruit´ees de x. On donne ci-dessous en figure 4.14 un exemple concret :
on suppose que la donn´ee x est un ensemble de profils de vitesse de v´ehicules. Chaque
profil de vitesse vi : [0, 100] → R+ est une fonction qui `a un site s d’un axe de route de
longueur 100
m, associe la vitesse instantan´ee vi(s) du v´ehicule i `a l’instant o u` il passe la position s. On
dispose d’un profil pour chaque v´ehicule ayant emprunt´e l’axe sur un intervalle de temps donn
´e. L’application f est un algorithme d’apprentissage statistique ayant ´e t ´e entraˆın´e pour
d´etecter des ´elements de signalisation routi`ere (feux tricolores, stops, passages pi
´etons...) `a partir de la collection de profils observ´es (Meneroux, 2019). L’objectif de
l’analyse de sensibilit´e est de d´eterminer l’impact de la pr´ecision des profils sur le taux
de d´etection.
1
1
1
1
V
V
5
5
0
0
0 20 40 60 80 100
0 20 40 60 80 100 0 20 40 60 80 100
Fig. 4.14.
A` gauche : profils de vitesses spatiaux observ´es sur un axe de longueur 100 m. Au centre
: perturbation v(s) + ε(s) o u` ε est un bruit A` droite : perturbation v(s) + ε(s) o u` ε est un
blanc.
processus de bruit de variogramme exponentiel et de port´ee 600 m.
La figure 4.14 `a gauche illustre les profils r´eels observ´es. La figure centrale repr´esente les
mˆemes profils perturb´es par un bruit blanc, i.e. qu’`a chaque position v(s) on ajoute une
quantit´e al´eatoire εs, ind´ependante des quantit´es εs−1 et εs+1 ajout´ees aux points
voisins de s. On ne
peut esp´erer repr´esenter fid`element le bruit de mesure avec ce genre de mod`ele simpliste. Enfin,
A` droite, on bruite les profils avec bruit corr´el´e, de variogramme exponentiel d’une port´ee de
l’ordre de 600 m. Les analyses effectu´ees ont permis de montrer que le taux de d´etection
reste relativement stable jusqu’`a un certain niveau de bruit σc puis chute ensuite
rapidement. La valeur critique σc `a laquelle s’op`ere le changement de r´egime d´efinit la
plage de fonctionnement nominal de f .
• R´e a l i t´e virtuelle : dans un domaine plus ludique, on peut citer la g´en´eration al
´eatoire de terrain comme application potentielle de la simulation.
• Test de corr´elation : pour introduire cette section, consid´erons un exemple tir´e du site
hu- moristique spurious correlation5. On donne ci-apr`es deux s´eries temporelles x et y relev
´ees sur 11 ann´ees cons´ecutives (de 1999 `a 2009), o u` x d´esigne le nombre (annuel)
d’accidents mortels impliquant un h´elicopt`ere, et y d´esigne la diff´erence de points s´eparant
219
les deux ´equipes finalistes du championnat de football am´ericain (Super Bowl ).
5
https://tylervigen.com/
220
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
x 59 64 56 48 79 75 42 49 47 69 43
y 15 7 27 3 27 3 3 11 12 3 4
x = c(59,64,56,48,79,75,42,49,47,69,43)
y = c(15,7,27,3,27,3,3,11,12,3,4)
L’´etude de la corr´elation lin´eaire entre ces deux s´eries ( `a l’aide de la commande cor(x,y))
nous donne un coefficient ρ = 0.30, ce qui montre un certains degr´e de d´ependance entre
ces deux variables n’ayant pourtant en apparence aucun lien de causalit´e, ni aucun facteur
sous-jacent commun. Peut-on alors imputer cette valeur de corr´elation au hasard seul ?
Dans un cadre plus g´en´eral, pour d´emontrer la significativit´e statistique d’un r´esultat, on
compt- abilise le nombre de g´en´erations al´eatoires qui produisent un r´esultat plus
singulier ou plus extrˆeme que le r´esultat effectivement observ´e. Pour reg´en´erer al
´eatoirement les donn´ees, la m´ethode du bootstrap statistique pr´econise d’utiliser un
tirage avec remise sur les donn´ees disponibles.
B = rep(0,1000)
for (i in 1:length(B)){
B[i] = cor(sample(x, length(x),replace=TRUE), y)
}
Remarquons que le choix de perturber le vecteur x est arbitraire. Nous aurions ´egalement
pu perturber le vecteur y, ou mˆem e les deux vecteurs x et y simultan´ement.
221
On peut donc raisonnablement conclure que la corr´elation entre les accidents d’h
´elicopt`eres et les diff´erences de scores du Super Bowl sur ces 11 ann´ees n’est pas
significative. Autrement dit, soit la corr´elation est fortuite, soit si elle existe vraiment, nous
n’avons pas assez de donn´ees `a disposition pour la mettre en ´evidence.
Fig. 4.15. Corr´elations relev´ees sur 1000 simulations al´eatoires de bootstrap et comparaison avec la corr
´elation r´eellement observ´ee ρ = 0.30.
En effet, nous savons intuitivement que plus le nombre de donn´ees disponibles est grand, plus
les corr´elations fortuites sont A` l’extrˆeme, avec un ´echantillon de taille infini, la
improbables.
th´eorie nous montre que la corr´elation entre deux variables ind´ependantes est rigoureusement
´egale `a 0.
Remarquons que l’autocorr´elation ne posait pas de probl`eme sur l’exemple consid´er´e ci-
222
avant. En effet, on peut raisonnablement supposer que le nombre d’accidents mortels d’h
´elicopt`eres est
223
suffisamment rare pour ˆetre temporellement d´ec or r´e l´e . Pour le cas du Super Bowl, c’est
plus compliqu´e, les mˆemes ´equipes pouvant statistiquement se recontrer plusieurs fois
successivement en finale, rendant ainsi plus probable la reproduction de scores semblables.
En pratique, la repr´esentation graphique de la s´erie y montre l’abscence d’autocorr´elation
significative.
Comment proc´eder alors lorsque les variables en jeu sont significativement autocorr´el
´ees ? C’est pr´ecis´ement dans ce contexte que les techniques de simulation non-
conditionnelle vues pr´ec´edemment peuvent nous venir en aide.
Nous illustrerons la m´ethode avec un exemple tir´e des travaux de stage de Conte (2018) r´ealis´es
`a l’institut national de l’information g´eographique et foresti`ere (IGN), et dont l’objectif
´etait de quantifier le changement climatique en comparant la r´epartition des toponymes
du houx `a la r´epartition de l’esp`ece aujourd’hui. En effet, si l’´etymologie d’un toponyme
renvoie `a une esp`ece v´eg´etale cela signifie probablement que cette esp`ece se trouvait
dans les environs du toponyme
`a une certaine ´epoque. Un examen toponymique pouss´e peut donc constituer une
source de donn´ees ancienne sur la pr´esence du houx dans le pass´e. Cependant, on se
heurte bien vite `a une probl´ematique sp´ecifique : la toponymie d´epend de la g´eographie
linguistique. Pour obtenir un r´esultat exhaustif et exploitable sur l’ensemble du territoire m
´etropolitain, il est important au pr´ealable de tester l’ind´ependance de la r´epartition des
toponymes relatifs au houx (issus de toutes les langues) et la g´eographie de ces langues.
Fig. 4.17.
A` gauche : fr´equence des toponymes relatifs au houx. A` droite : r´egions linguistiques en
France m´etropolitaine. D’apr`es Conte (2018).
224
6
Remarquons que la variable des r´egions linguistiques ´etant cat´egorielle (et non ordinale), nous avons duˆ utiliser une
variante d’indice de corr´elation, mais qui s’interprˆete de la mˆeme mani`ere : de 0 a` 1 a` mesure que les deux variables
´etudi´ees sont mutuellement corr´el´ees.
225
champ sur l’ensemble du territoire m´etropolitain). Il est alors possible de simuler des r
´ealisations du processus ; nous en pr´esentons trois (arbitrairement s´electionn´ees) ci-
dessous.
Fig. 4.18. Variogramme empirique et ajustement d’un mod`ele exponentiel (en haut `a gauche) et 3
simulations non-conditionnelles du processus.
Un total de 1000 simulations ont ´e t ´e g´e n´er´ees. Pour chaque r´ealisation, on calcule son
indice de corr´elation avec la carte des r´egions linguistiques, et on repr´esente la distribution
des valeurs prises par cet indice en figure 4.19. En particulier, on comptabilise 174 cas o u` la
simulation a produit un indice de corr´elation sup´erieur `a 0.71, soit une probabilit´e de
17.4 %. On peut donc en conclure que les champs de r´egions linguistiques et de fr´equence
des toponymes du houx ne sont pas significativement corr´el´es.
Indices de corrélation
Fig. 4.19. Densit´e des indices de corr´elation sur 1000 simulations al´eatoires et comparaison
avec l’indice observ´e (ligne pointill´ee verticale).
Pour conclure cette section, nous pr´eciserons qu’il existe d’autres m´ethodes de simulations non-
conditionnelles, notamment celle dite des bandes tournantes, `a base de d´ecomposition LU, ou encore
`a l’aide des m´ethodes de M´ethode de Monte-Carlo par chaˆınes de Markov (Marcotte, 2003).
226
Pour simuler le champ en m sites, comme pour la m´ethode non-conditionnelle, on commence par
calculer la d´ecomposition de Cholesky de la matrice de covariance Σ (de dimension n + m) prise
au niveau de tous les sites (sites de conditionnement x et sites `a simuler xt) :
en notant C la matrice de covariance entre les n sites conditionnants x, Ctt la matrice de covariance
entre les m sites `a simuler xt et Ct la matrice de covariance crois´ee entre ces deux cat´egories de
sites.
Σ = LLT
On ´echantillonne ensuite un vecteur al´eatoire A suivant une loi normale standard multivari´ee de
di- mension m et de covariance identit´e, et on forme le vecteur al´eatoire B, dont on pr´ecise la
matrice de covariance ΣB (en remarquant bien que la quantit´e L−1Z est d´eterministe) :
L−1Z
B= 0 0
A ΣB =
0 In
On v´erifie alors facilement que le vecteur al´eatoire Y = LB est une simulation conditionnelle du
processus. En effet :
0 0 0 0
ΣY = L 0 LT = 0
E[L−1Z] L−1Z
E[Y] = L E[A] =L Z
0 = 0
227
Donc Y est d’esp´erance nulle en dehors des sites observ´es. Or, on sait que la moyenne arithm
´etique minimise l’´ecart quadratique moyen aux donn´ees, donc la moyenne d’une infinit´e de
simulations con- ditionnelles est un estimateur interpolant les donn´ees, de moyenne nulle en
dehors des sites et de variance minimale : c’est donc bien un krigeage simple des donn´ees. On
pourra trouver une illustra- tion graphique de cette propri´et´e sur la figure 3.4.
Par ailleurs, remarquons que lorsque n = 0, le vecteur Z est vide et on retrouve la m´ethode de
simu- lation non-conditionnelle pr´esent´ee dans la section pr´ec´edente.
Fig. 4.20. 6 exemples de simulations conditionnelles `a partir d’un semis d’observations collect
´ees sur le champ mod`ele (en haut `a gauche). En bas `a droite : comparaison avec les r´esultat
obtenu par krigeage ordinaire du semis d’observations.
Le r´esultat obtenu est donc un exemple (parmi une infinit´e d’autres) de champ respectant `a la
fois la structure du ph´enom`ene et les observations. Contrairement au krigeage, la solution
obtenue ne poss`ede pas de propri´et´e de minimalit´e de la variance d’estimation. Une simulation
donn´ee est donc a priori moins pr´ecise que la solution du krigeage. En revanche, la simulation
conditionnelle poss`ede l’avantage de fournir une solution diff´erente `a chaque tirage. Lorsque les
quantit´es `a estimer sont forte- ment non-lin´eaires (e.g. effets de seuillage) la moyenne des
solutions ainsi obtenues est en pratique
plus robuste que la solution du krigeage. En effet, nous l’avons vu pr´ec´edemment, si F est lin
´eaire, alors l’application de F `a l’estimation x est ´egale `a l’estimation de F(x) : F(x) = F---
(x) � �
Cette propri´et´e est fondamentale puisqu’elle indique que � F(x)ilest un estimateur optimale de
F(x), mais elle n’est garantie que si F est lin´eaire. Or, en pratique, existe de nombreux cas o u` la
quantit´e d’int´erˆet est une fonction non-lin´eaire de la variable r´egionalis´ee. Un exemple
classique est le seuil-
lage : lorsqu’on souhaite estimer la surface totale d´epassant une certaine valeur (e.g. altitude,
risque acceptable, teneur en minerais assurant la rentabilit´e ´economique...), alors, l’application F
s’´ecrit :
-
F[z] = ]_z(x)�sdx
D
228
Clairement, du fait de la fonction indicatrice ]_z(x)�s, l’application F est non lin´eaire, et�F[z] n’est
pas un estimateur optimal de F[z]. Autrement dit, le seuillage d’une variable krig´ee n’est en g´en
´eral pas
´egal au krigeage de la variable seuill´ee.
Par ailleurs, du fait de la propri´et´e de lissage du krigeage, le seuillage d’une valeur krig´ee produira
des valeurs syst´ematiquement biais´ees. Par exemple, dans le cadre d’une analyse de risque
d’inondation en zone cˆoti`ere, la surface inondable sera syst´ematiquement sous-estim´ee. Nous
verrons un exemple concret par la suite.
La capacit´e de la simulation conditionnelle `a produire des estimations interpolantes moins liss´ees va ici
ˆetre mise `a contribution pour contourner les faiblesses de la G´eostatistique lin´eaire. Nous allons
voir tois exemples typiques (dont l’un sera ´e t ud i´e sous forme d’activit´e) : l’estimation de la surface
d’une
ˆıle par relev´es bathym´etriques (Wackernagel, 2013a), le calcul de la longueur d’un cˆable sous-marin
(Marcotte, 2003) et l’´evaluation d’une surface de danger en zone cˆoti`ere.
Surface insulaire
Cet exemple est tir´e des travaux de Wackernagel (2013a). Au total, 23 mesures bathym´etriques ont
´e t ´e r´ealis´ees au large de l’Ile-d’Yeu en Vend´ee, suivant 8 profils rectilignes, comme illustr´e sur la figure
4.21 ( `a gauche). On dispose de mesures de profondeurs z et des coordonn´ees g´eographiques x
associ´ees et on suppose que les incertitudes sur ces observations sont suffisamment r´eduites pour
ˆetre n´eglig´ees.
Fig. 4.21.
A` gauche : 23 mesures bathym´etriques effectu´ees autour de l’Ile-d’Yeu (points rouges).
`
A droite : 9 exemples (arbitrairement choisis) de simulations conditionnelles et seuillage des altitudes
n´egatives (en bleu) pour extraire uniquement l’ˆıle. Source : Wackernagel (2013a)
Une premi`ere approche pourrait consister `a interpoler les mesures bathym´etriques (x, z) pour
recon- struire le plancher marin z. La surface insulaire est alors intuitivement d´efinie comme la
surface (plane) totale d’altitude z sup´erieure `a 0. Informatiquement, l’op´eration consiste donc
`a calculer un estimateur�par krigeage z de l’altitude du terrain sur une grille de r´esolution r, puis
`a multiplier le nombre de cellules d’altitude positive par r2. Malheureusement, comme nous
allons le voir, cette solution simpliste n’est pas satisfaisante : la quantit´e estim´ee est non-lin
´eaire et on ne poss`ede donc pas de garantie sur la robustesse de l’estimation.
229
grande variabilit´e ´etant imputable au faible effectif du jeu de donn´ees). Cependant, en
moyennant les estimations calcul´ees sur les simulations, l’auteur de l’´etude indique obtenir une
valeur de surface de 23.2 km2, `a mettre en
230
perspective aux 23.3 km2 de la v´e r i t´e terrain. En comparaison, l’estimation directe `a partir du
krigeage r´esulte en une valeur de 22.9 km2, soit une erreur 4 fois plus importante. Cette sous-
estimation du krigeage s’explique simplement par sa propri´et´e de lissage � : l’estimateur z est plus
lisse que la r´ealit´e, ce qui0 r´eduit donc la probabilit´e d’obtenir des valeurs extrˆemes. Par
ailleurs, la majorit´e de la zone d’´etude ´etant maritime, la surface insulaire est justement d
´efinie par les valeurs extrˆemes d’altitude. La proportion de cellules d’altitude positive est donc plus
forte en r´e al i t´e que dans l’estimation krig´ee. La moyenne de simulations ne pr´esente en
revanche pas ce d´efaut de biais syst´ematique.
Grˆace `a la simulation conditionnelle, on peut obtenir une estimation fiable de la surface d’une ˆıle
exculsivement `a partir de mesures bathym A` titre d’exercice, on pourra s’interroger sur la
´etriques.
marche `a suivre pour estimer, `a l’inverse, la surface (ou encore le volume ou la profondeur maximale)
d’un lac `a partir de relev´es d’altitudes effectu´es exclusivement sur terre.
Fig. 4.22. Profil d’´el´evation du plancher oc´eanique (en noir) et relev´es bathym´etriques (en rouge)
´echantillonn´es tous les 5 km. Source : Marcotte (2003).
Connaissant le profil z : [0, l] → R du fond marin qui `a un lieu x associe la profondeur z(x), la longueur
L du cˆable est tr`es clairement une op´eration non-lin´eaire :
L = F[z] = - l
J -l dz -l
dx2 + dz2 = r 1 + (2 ) dx = J 1 + zt(x)2dx
0 0
dx
On sait donc que le calcul de la longueur de la variable krig´ee F[z] est un mauvais estimateur de
L. En effet, avec cette m´ethode, on obtient 104.2 km, contre une�longueur r´eelle de 110 km. La
longueur
n´ecessaire a donc ´e t ´e sous-estim´ee de pr`es de 6%, ce qui peut entraˆıner des cons´equences
´economiques relativement lourdes pour l’entreprise.
231
A` nouveau, on peut contourner le probl`eme en g´e n´era nt des simulations conditionnelles et en
moyen- nant les longueurs de cˆable estim´ees sur toutes les r´ealisations, ce qui donne une
longueur
� estim´ee L = 110 km, avec une intervalle de confiance `a 95% associ´e : [108.8; 113.5].
L’estimation par moyenne des simulations conditionnelles est donc bien plus satisfaisante.
232
Activit´e XII. E´ valuation du risque de crue par simulations
Dans cette activit´e, qui constitue en quelques sortes un travail de synth`ese des notions vues
dans ce cours, nous allons ´evaluer la surface inondable d’un terrain donn´e, dont nous disposons
d’un semis de relev´es d’altitude heights.txt (disponible dans le r´epertoire associ´e `a ce
cours, cf en deuxi`eme de couverture). Pour contrˆoler la qualit´e de notre estimation, nous
utiliserons ´egalement le MNT (de r´esolution r = 250 m) de la zone : mnt.asc. Ces deux fichiers
peuvent ˆetre inspect´es `a l’aide d’un
´editeur de text type bloc-notes.
Jusqu’`a pr´esent, dans un but purement p´edagogique, nous n’avons utilis´e que les fonctions de
base du langage R. En pratique, le traitement num´erique des probl`emes concrets de G´eostatistique
pr´esentent une multitude d’ecueils (erreus d’arrondi, probl`eme de conditionnement des matrices,
non-convergence des r´egressions param´etriques...) rendant ainsi quasi-indispensable le recours `a
des librairies d´e d i´ees qui prennent en charge ces probl`emes de mani`ere transparente pour
l’utilsateur.
Nous allons utiliser la librairie R gstat (Pebesma, 2020), qui pourra ˆetre install´ee `a l’aide de
l’instruction install.packages("gstat"), puis en s´electionnant un serveur dans la liste propos´ee.
Pour pouvoir facilement manipuler des donn´ees g´eographiques, nous utiliserons ´egalement le
package sp (Pebesma et Bivand, 2005) : install.packages("sp"). Pour activer ces librairies, on
placera les deux lignes d’instructions suivantes en entˆete du code :
Malgr´e le soin p ort´e `a la mise-`a - jour de ce document, il est n’est pas impossible que certaines
fonction- nalit´es de gstat pr´esent´ees ci-dessous ne soient plus disponibles exactement sous le
mˆeme formalisme syntaxique. On pourra en g´en´eral facilement r´esoudre le probl`eme en se r´ef
´erant au manuel d’utilisation (Pebesma, 2001) le plus r´ecent.
Enfin, pr´ecisons que cette activit´e n’est en principe pas trop sensible au caract`ere al´eatoire
des r´ealisations. Malgr´e tout, dans un souci de reproductibilit´e et de d´ebuggage ´eventuel des
probl`emes, nous mentionnons que les r´esultats ci-dessous ont ´e t ´e obtenus avec la graine :
set.seed(1).
On consid`ere une r´egion cˆoti`ere, d’altitude comprise entre 0 et 154 m, et soumise `a un risque de
mont´ee des eaux, dont une analyse pr´ealable a permis de montrer que tous les terrains situ´es
`a une altitude inf´erieure `a 5 m pouvaient potentiellement ˆetre impact´es. L’objectif de
l’´etude est de d´eterminer la surface totale (en km2) `a ´evacuer.
Q1. Dans un premier temps, nous allons ´evaluer cette surface dans l’hypoth`ese o u` le MNT de la
zone est connu. La valeur trouv´ee `a l’issue de cette ´etape pr´eliminaire constituera une v´erit´e
terrain pour pouvoir comparer par la suite les r´esultats obtenus respectivement par krigeage et par
simulations.
On commence par fixer deux param`etres : la r´esolution du MNT `a disposition (r) et le seuil
d’altitude en dessous duquel un terrain est situ´e en zone inondable (threshold). On d´efinit
´egalement une fonc- tion estimate permettant de calculer la surface inondable totale d’un MNT.
r = 250
threshold = 5
estimate = function(Z){
return(length(which(Z < threshold))*r**2/10**6)
233
}
234
Notons que threshold est une variable globale. Sa modification entraˆıne automatiquement celle de
la fonction estimate. Par ailleurs, soulignons la multiplication par r2 (qui permet d’exprimer un
nombre de cellules en une surface) puis la division par 10 6 (qui assure la conversion en km2).
Charger le MNT du fichier mnt.asc et calculer la surface inondable sur la zone d’´etude.
S = as.matrix(read.table("mnt.asc"))
svrai = estimate(S)
gx = (1:nrow(S))*r-r/2
gy = (1:ncol(S))*r-r/2
image(gx, gy, S, col=terrain.colors(255))
Les vecteurs gx et gy contiennent les coordonn´ees (suivant chacune des deux directions) des noeuds
de la grille de MNT. On obtient une estimation svrai de 30.81 km2, soit environ 6% de la zone
totale. Par ailleurs, on peut repr´esenter graphiquement la zone inondable en r´eduisant la valeur
d’altitude de tous les sites concern´es de mani`ere `a marquer plus nettement la distinction dans
l’´echelle des couleurs, puis en choisissant un code couleur composite :
S[which(S<threshold)] = 0
map = c(topo.colors(255)[50:60], terrain.colors(255))
image(gx, gy, S, col=map)
Fig. 4.23.
A` gauche : le MNT de la zone d’´etude avec le semis de points observ A` droite : la
´es.
zone inondable calcul´ee `a partir du MNT, repr´esentant une surface totale de 30.81 km2.
Q2. On suppose `a pr´esent ne pas avoir de MNT `a disposition. L’ing´enieur charg´e de l’´etude
d´ecide alors de relever `a l’aide d’un GPS professionel de pr´ecision centim´etrique un total de
150 points d’altitude r´epartis al´eatoirement et uniform´ement sur la zone. Le r´esultat de la
campagne est con- sign´e dans le fichier heights.txt, dans lequel chaque ligne repr´esente les
coordonn´ees g´eographiques (X, Y ) d’un site, exprim´ees dans une projection plane quelconque, et
l’altitude Z qui y a ´e t ´e mesur´ee. L’objectif consiste `a essayer d’estimer avec la meilleure pr
´ecision possible, la surface de la zone inond- able `a partir de ces donn´ees r´eduites.
Le chargement du jeu de donn´ees ne pose aucun probl`eme avec les fonctions de base R :
235
PTS = read.csv("heights.txt")
Pour pouvoir profiter pleinement des fonctionnalit´es de gstat, on doit sp´ecifier que les colonnes
X et Y du tableau PTS sont des coordonn´ees. Au passage, on en profite ´egalement pour grouper
les obser- vations d’altitudes dans un vecteur Z :
coordinates(PTS)= X+Y
Z = PTS$Z ∼
Le choix des param`etres du variogramme se fait `a l’aide des notions vues dans la section 2.4.1 :
on commence par d´efinir la plage de valeurs sur laquelle on va calculer le variogramme exp
´erimental en prenant la moiti´e de l’emprise totale du semis de points :
D = sqrt((max(PTS$X)-min(PTS$X))**2+(max(PTS$Y)-min(PTS$Y))**2)/2
On trouve une valeur D de 15.7 km environ. Au d el`a de cette valeur, le nombre de couples
d’observations disponibles est a priori trop faible pour garantir la robustesse statistique de
l’estimateur du vari- ogramme. On d´efinit alors un pas de calcul h = 1 km, ce qui permet d’avoir
un variogramme d´efini en une quinzaine de points, et permettra ainsi un ajustement de qualit´e.
Par ailleurs, on v´erifiera a posteriori que ce choix conduit `a disposer d’un nombre suffisant de
couples de points dans chaque intervalle. Le calcul du variogramme exp´erimental est alors imm
´ediat avec gstat :
• Une tendance globale, permettant de g´erer le cas du krigeage `a d´erive externe, i.e.
lorsque l’altitude est soumise `a une tendance de fond que l’on souhaite prendre en compte dans
l’analyse. Ici, le processus est suppos´e stationnaire, la moyenne de Z est donc une constante sur
l’ensemble
de la zone, ce qu’on exprime avec la formule : Z∼1 (qui signifie que la moyenne de Z est propor-
tionnelle `a la constante 1, ind´ependante des coordonn´ees du site).
• Le jeu de donn´ees utilis´e PTS, qui doit donc contenir une colonne Z, et un nombre
arbitraire de colonnes ayant un format de coordonn´ees.
• La plage de valeurs sur laquelle est ´e val u´e e le variogramme : cutoff=D, (dans l’unit´e
des co- ordnn´ees de PTS).
Afin de s’assurer que le choix de la r´esolution r =1000 m est raisonnable, on peut calculer et repr
´esenter le variogramme exp´erimental pour diff´erentes valeurs de pas de discr´etisation (fig.
4.24). On voit `a nouveau apparaˆıtre le compromis biais-variance : lorsque le pas est trop fin, le
variogramme est tr`es
236
r´esolu mais insuffisamment A` l’inverse, pour un pas trop lˆache, le variogramme est pr´ecis
robuste. mais peu r´esolu.
1000
1000
800
vario$ga
vario$ga
vario$ga
600
400600800
400600800
400
2
0
2
0
2
0
0
0
0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000
Fig. 4.24. Variogramme exp´erimental du semis de points d’altitude pour diff´erents pas de
discr´etisation : 300 m ( `a gauche), 1 km (au centre) et 3 km ( `a droite).
Par ailleurs, il peut ˆetre instructif de repr´esenter les effectifs de couples d’observations utilis´es
pour chaque point du variogramme exp´erimental. Ces nombres sont consign´es dans le champ np
du vari- ogramme estim´e, si bien que l’instruction suivante permet la repr´esentation graphique
des effectifs :
Le r´esultat obtenu est repr´esent´e en figure 4.25 et met en ´evidence une chute brutale du
nombre de couples disponibles `a mesure que l’on s’approche de la moiti´e du diam`etre du champ
(~ 15 km). Plus sp´ecifiquement, on pourra consid´erer que le variogramme exp´erimental n’est plus
suffisamment robuste
pour h > 13 km.
●
● ●
7
●
● ●
●
● ●
●
●
5
●
vario
●
●
3
●
1
vario$dist
237
On pourra inspecter le r´esultat vmod :
Le r´esultat standard de gstat est un variogramme en gigogne, i.e. une somme de plusieurs
mod`eles de variogrammes diff´erents (ici une p´epite Nug et un mod`ele exponentiel Exp), avec
pour chacun d’eux un param`etre de pallier (psill) et une port´ee (range). Remarquons que par d
´efinition, la port´ee de la p´epite est n´ecessairement nulle. Par ailleurs, on remarque que le
palier de la p´epite est ´egalement nul, ce qui signifie que le mod`ele inf´e r´e ici est purement
exponentiel. On peut repr´esenter le r´esultat de la r´egression (en superposition du variogramme exp
´erimental) en r´e´ecrivant l’expression analytique
2.24 du mod`ele exponentiel avec C = 1308.601 m2 et a = 10797.69 m :
h = 0:D
g = vmod$psill[1] + vmod$psill[2]*(1-exp(-h/vmod$range[2]))
plot(vario$dist, vario$gamma, pch=3)
lines(h, g, col="blue")
Remarquons que la partie p´epitique vmod$psill[1] n’a aucune influence ici. Le r´esultat obtenu
est repr´esent´e en figure 4.26 ( `a gauche).
8
8
6
6
vario$gam
vario$gam
4
200400
2
0
0 2000 4000 6000 8000 10000 12000 0 2000 4000 6000 8000 10000 12000
vario$dist vario$dist
Remarque. Nous avons vu pr´ec´edemment que la topographie est en g´e n´e ra l suffisamment lisse pour
ˆetre caract´eris´ee par un variogramme au comportement parabolique `a l’origine. D`e s lors se
pose la question du choix d’un mod`ele exponentiel, qui poss`ede la caract´eristique notable
d’ˆetre lin´eaire `a l’origine. En r´eali t´e, le comportement `a l’origine (d’apparence lin´eaire) du
variogramme exp´erimental s’explique par la densit´e trop faible de points d’observations,
n’autorisant pas une repr´esentation fine de l’allure du variogramme au voisinage de 0. Si on le
souhaite, on peut malgr´e tout utiliser un mod`ele gaussien avec l’instruction :
238
h = 0:D
g = vmod$psill[1] + vmod$psill[2]*(1-exp(-(h/vmod$range[2])**2))
plot(vario$dist, vario$gamma, pch=3)
lines(h, g, col="blue")
Q4. Calculer par krigeage le relief du terrain `a partir du semis de points observ´es et en d
´eduire une estimation de la surface inondable.
Pour calculer le champ par krigeage, tout comme dans l’activit´e VIII (code7.r), on doit
commencer par d´efinir la grille d’interpolation. Afin de travailler sur une zone identique `a la v
´e r i t´e terrain, on lui donne les mˆemes param`etres (r´esolution et taille) que le MNT, et donc,
nous allons r´eutiliser les vecteurs gx et gy d´efinis pr´ec´edemment dans la question Q1 :
A` nouveau, ici aussi, la formule Z∼1 sp´ecifie qu’on se place dans le cadre du krigeage ordinaire (sans
d´erive externe) et donc que la moyenne du processus Z est constante sur la zone d’´etude. Les deux
arguments suivants de la fonction krige sont : les donn´ees observ´ees PTS, et l’ensemble des
sites sur lesquels on souhaite r´ealiser l’estimation GRID. On sp´ecifie ensuite le mod`ele th´eorique
de variogramme utilis´e vmod, puis le nombre maximal d’observations utilis´ees pour chaque
estimation (par d´efaut, la fonction travaille en voisinage globale et effectue chaque estimation avec
toutes les observations, ce qui peut s’av´erer relativement p´enalisant en termes de temps de
calcul). Ici, on travaille sur un voisinage glissant de 50 observations. Remarquons qu’il existe
d’autres mani`eres de param´etrer ce voisinage, notamment `a l’aide d’un crit`ere de distance
maximale. Enfin, le param`etre debug.level=-1 permet d’afficher l’´etat du calcul dans la
console).
Pour repr´esenter graphiquement le champ interpol´e, on doit convertir la sortie de la fonction krige
en une matrice R :
skrig = estimate(K)
On obtient une surface inondable estim´ee `a 16.88 km 2, soit une sous-estimation d’un facteur 2
par rapport `a la valeur vraie svrai. On donne en figure 4.27 une repr´esentation du krigeage ( `a
gauche) et de la surface inondable estim´ee ( `a droite).
En particulier, on remarque bien que l’estimateur par krigeage est trop lisse par rapport `a la r
´eali t´e, impliquant ainsi une sous-estimation syst´ematique des queues de distributions.
Il peut ˆetre int´eressant de comparer l’estimateur par krigeage de la surface inondable, avec un
simple produit en croix sur les observations, i.e. on calcule le ratio du nombre de sites en dessous de
l’altitude
239
seuil, et on le multiplie par la surface totale de la zone d’´etude :
On obtient un estimateur de 38.02 km2, soit une erreur de l’ordre de 23%, ce qui reste tout de
mˆem e meilleur7 que l’estimateur du krigeage.
En pr´esence de fortes non-lin´earit´es (ici c’est le cas puisqu’on calcule la quantit´e r´esultant d’un
seuil- lage, par nature non-lin´eaire), nous avons vu que l’estimateur par krigeage n’est plus
optimal. On doit donc recourir aux simulations conditionnelles.
Fig. 4.27.
A` gauche : l’estimateur par krigeage du MNT sur la zone A` droite : la zone
d’´etude.
inondable calcul´ee `a partir du MNT krig´e, repr´esentant une surface totale de 16.88 km2.
Pour effectuer des simulations conditionnelles avec la biblioth`eque gstat, on utilise exactement
la mˆeme fonction que pour le krigeage `a laquelle on ajoute une entr´ee nsim permettant de sp
´ecifier le nombre de simulations `a calculer :
En fonction des resources de la machine utilis´ee, le calcul peut prendre jusqu’`a quelques
minutes. L’objet R simulation contient alors un jeu de 50 simulations r´ealis´ees sur GRID, de
variogramme vmod et conditionn´ees aux observations PTS.
On repr´esente en figure 4.28 les 8 premi`eres simulations obtenues. Il faut bien garder `a l’esprit
que chaque r´ealisation d’une simulation conditionnelle est en g´en´erale assez loin de la r´ealit´e.
La force de la m´ethode r´eside dans le nombre, i.e. dans la combinaison de l’ensemble des r
´ealisations.
7
En r´ealit´e, si l’estimateur brut a` partir du semis donne de meilleurs r´esultats que le krigeage, cela s’explique par le
fait que le tirage des points observ´es a ´et´e effectu´e suivant une loi rigoureusement uniforme. Si l’echantillonnage avait
240
´et´e plus inhomog`ene, comme c’est bien souvent le cas puisqu’il d´epend de consid´erations pratiques telles que la facilit´e
d’acc`es a` un site, l’estimateur brut par produit en croix sur les observations aurait ´et´e bien plus mauvais.
241
SURFACES = rep(0,50)
Fig. 4.28. 8 simulations conditionnelles et dans chaque cas, l’´evaluations de la surface inondable.
A` l’issue de l’ex´ecution de cette boucle, le vecteur SURFACES contient les 50 estimations de surfaces
inondables associ´ees aux 50 simulations. On peut alors calculer plusieurs statistiques int´eressantes `a
partir de cet ´echantillon :
m = mean(SURFACES)
Nous trouvons ici une valeur de 29.29 km2, soit une erreur relative de l’ordre de 5%, donc
bien plus faible que celle obtenue par le krigeage.
• Par ailleurs, un point positif important de la simulation est de disposer d’une population
d’´echantillons, ce qui permet d’´evaluer finement l’incertitude entˆachant la quantit´e estim
´ee. Il existe deux mani`eres de proc´eder : la premi`ere consiste `a supposer que la quantit´e
`a estimer est distribu´ee suivant une loi normale puis `a ´evaluer une bande de confiance en
multipliant l’´ecart- type de la population par un coefficient d´ependant du risque d’erreur
souhait´e (par exemple 1.96 si on souhaite calculer un intervalle de confiance `a 95%) :
b_inf = m - 1.96*sd(SURFACES)
b_sup = m + 1.96*sd(SURFACES)
Cependant l’hypoth`ese de normalit´e n’est pas toujours valide, et dans certains cas, elle
peut mˆeme conduire `a des intervalles compl`etement irr´ealistes, voire physiquement incoh
´erent (par exemple, on pourrait trouver une borne inf´erieure n´egative sur la surface
inondable, ou encore
242
une borne sup´erieure qui d´epasse la surface totale de la zone d’´etude).
Dans ce cas, pourquoi ne pas profiter du fait de disposer d’un ´echantillon de r´ealisations
pour estimer plus finement encore les bandes de confiance `a l’aide de quantiles ?
Avec cette seconde m´ethode, on peut dire qu’avec une marge d’erreur de 5%, la valeur vraie
de la surface inondable est comprise entre 21.3 et 36.2 km 2. En particulier, on remarque que
l’estimation faite par le krigeage est mˆeme en dehors de cet interval ! De mˆeme souligons le
fait que, `a cause de la non-lin´earit´e de la quantit´e `a estimer, le krigeage ne permettait pas
de donner une incertitude formelle sur la zone inondable.
Un avantage ind´eniable de cette seconde option est de produire en g´en´er al des intervalles
dis- sym´etriques (environ 7 km2 d’incertitude vers le haut, et 8 km 2 vers le bas) , ce qui est
une propri´et´e int´eressante, en particulier dans les cas o u` la quantit´e `a estimer est
proche8 de ses bornes physiques).
• Enfin pour synth´etiser graphiquement le r´esultat de toutes les simulations, on peut calculer un
histogramme ou une densit´e des valeurs estim´ees :
d = density(SURFACES)
plot(d$x, d$y, type="l", xlab="surface (km2)", ylab="freq")
Le r´esultat graphique obtenu est repr´esent´e en figure 4.29, sur lequel on voit clairement
la pr´edominance de la m´ethode par simulations par rapport au krigeage.
krigeage
0.
0.
fr
0.
valeur
simulationvraie
0.
10 15 20 25 30 35 40 45
2
surface (km )
Fig. 4.29. Distribution des surfaces de zone inondable estim´ees sur les 50 simulations
conditionnelles et moyenne des valeurs estim´ees (trait vertical noir). En rouge : valeur estim´ee
par le krigeage. En bleu : valeur vraie. En pointill´es : bandes de confiance associ´ees `a
l’estimation par simulation.
Du point de vue du d´ecideur publique, il peut ˆetre int´eressant ´egalement de disposer d’une
carte de probabilit´e d’inondation, i.e. un raster indiquant la probabilit´e que chaque cellule soit
situ´ee `a une
8
Par exemple, quand la grandeur q a` estimer est un pourcentage, si q_, est proche de 0 ou de 100, on s’attend a` ce que
l’intervalle soit plus lache du cot´e oppos´e `a la borne.
243
altitude inf´erieure au niveau de crue pr´edit. Pour ce faire, on commence par g´en´erer un
nombre plus important de simulations, typiquement 500 :
Pour chaque simulation, on calcule alors une carte d’indicatrice ]_z<t valant 1 si la cellule de
MNT est situ´ee `a une altitude z inf´erieure au niveau t de la crue et 0 sinon. Comme nous
l’avons fait remarquer pr´ec´edemment dans la section 3.7.6, la moyenne d’indicatrices ]_z<t sur un
grand nombre de r´ealisations est ´egale `a la probabilit´e P[Z < t]. On appelle RISQUE la matrice
contenant cette valeur de probabilit´e.
for (k in 1:500){
VAL = matrix(simulation[[names(simulation)[k]]], length(gx), length(gy))
Ik = 0 + (VAL < threshold)
RISQUE = RISQUE + Ik
}
RISQUE = RISQUE/500
Fig. 4.30. Risque d’inondation pour une crue pr´edite `a 5 m. La probabilit´e d’inondation
´evolue de 0 (cellules rouges) `a 1 (cellules bleues). Les cellules blanches ont un risque nul d’ˆetre
impact´ees.
Par exemple, supposons qu’un site strat´egique (refuge, cellule de crise, site d’approvisionnement, cen-
trale nucl´eaire, etc.) soit situ´e au point de coordonn´ees (X = 11000 m, Y = 10000 m). Une
division par la r´esolution r =250 m nous donne imm´ediatement les indice (44,40) du point
dans la grille, et la valeur RISQUE[44,40] = 0.138 nous indique alors que le site en question a une
probabilit´e d’ˆetre en zone inondable de l’ordre de 14%.
Il est important de remarquer que, jusqu’`a pr´esent l’incertitude sur le fait d’ˆetre en zone
inondable r´esulte uniquement d’un manque de connaissance du MNT. Dans un cadre plus r´ealiste,
on doit ajouter
244
`a cette incertitude, celle li´ee `a la difficult´e de pr´evision. En effet, le niveau de la crue n’est pas
connu exactement en amont de l’´ev`enement, en g´en´eral on ne dispose que d’une estimation
avec un degr´e d’incertitude associ´e. Dans certains cas, les ´etudes hydrographiques r´ealis´ees en
amont sont suffisam- ment pouss´ees pour permettre d’associer une loi de probabilit´e `a cette
variable inconnue, e.g. : le niveau atteint par la crue sera distribu´e uniform´ement entre 0 et 30 m...
On est `a pr´esent dans un cadre bay´esien, autrement dit, la variable de niveau de crue qui jusqu’`a
pr´esent ´etait consid´er´ee comme un param`etre (fix´e `a 5 m) est `a pr´esent une variable al
´eatoire. Cela ne pose aucun probl`eme en simulation.
Une premi`ere m´ethode peut consister `a g´e n´e r e r des cartes de risque Rt pour un grand
nombre de niveaux de crue t = t1, t2, ... diff´erents, puis `a calculer la moyenne de ces cartes p ond
´er´ees par la probabilit´e p(t) d’avoir une crue de niveau t :
- L,
+∞ p(tk)Rt
R = [Z
P :( t] (4.
= t=−∞ P[Z :( t]p(t)dt ≈ L,k p(tk)
k
La carte R obtenue indique alors, en chaque lieu de la zone, la probabilit´e totale d’inondation (prenant
en compte tous les niveaux de crues possibles).
Une seconde m´ethode, plus directe en termes de d´eveloppement, exploite encore un peu plus la strat
´egie de type Monte-Carlo, en tirant le niveau de crue al´eatoirement et pour chaque simulation
suivant sa distribution p. Par exemple, si le niveau de crue est distribu´e uniform´ement entre 0
et 30 m, le code devient :
for (k in 1:500){
VAL = matrix(simulation[[names(simulation)[k]]], nx, ny)
Ik = 0 + (VAL < threshold)
RISQUE = RISQUE + Ik
}
RISQUE = RISQUE/500)
On donne en figure 4.31 le r´esultat de cette analyse bay´esienne pour 4 sc´enarii diff´erents
sur la pr´ediction a priori du niveau de la crue. Dans le premier cas (a) on consid`ere que la
niveau de crue est parfaitement connu et ´egal `a 15 m : formellement, il est donc distribu´e
suivant une loi de dirac δ15. Dans les trois autres cas (b `a d), il est al´eatoire et distribu´e
respectivement suivant une loi uniforme entre -10 et 40 m, suivant une loi normale de moyenne et
d’´ecart-type 15 m et suivant une loi exponentielle de moyenne 15 m.
Remarquons que dans ces trois derniers cas, la variable al´eatoire de niveau de crue a
approximative- ment la mˆem e moyenne et le mˆem e ´ecart-type, autrement dit les trois scenarii
pronostiquent le mˆem e niveau de crue en moyenne, et sont entˆach´es de la mˆeme quantit´e
globale d’incertitude. Pour autant, les cartes de risques g´e n´e r ´e e s sont significativement diff
´erentes : en particulier, la loi exponentielle (d)
´etant une distribution `a queue lourde (et donc favorisant l’apparition d’´ev`enements rares), elle rend
possible l’impact de la crue en des zones syst´ematiquement ´epargn´ees par les autres distributions. A`
l’inverse, le risque de crue `a basse altitude (typiquement dans la vall´ee) y est
proportionnellement moins important.
245
De mˆeme, si on reprend le site strat´egique (situ´e aux coordonn´ees X = 11000 m, Y = 10000
m), on obtient des probabilit´es d’inondation relativement diff´erentes en fonction du mod`ele de pr
´ediction de crue utilis´e : 43% avec les mod`eles d´eterministe et uniforme (a et b), 47% avec le
mod`ele normal et 36% avec le mod`ele exponentiel.
a. b. c. d.
2
2
1
1
5
5
0
0
0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000 0 5000 10000 15000
a. b. c. d.
1
0
.
0
.
0.6
0.0100.020
0
0.010
.
0.4
0.005
0
.
0.2
0
0
0
0
.
.
0 20 40 60 0 20 40 60 0 20 40 60 0 20 40 60
Fig. 4.31. Cartes de risque d’inondation (en haut) pour 4 pr´edictions hydrographiques diff
´erentes (en bas), suivant que le niveau de la cure est : (a) d´eterministe δ15, (b) distribu´e
suivant la loi uniforme U ([−10; 40]), (c) distribu´e suivant la loi normale N (15, 152) ou (d) distribu
´e suivant une loi
exponentielle E (1/15).
X = c(0,5,12,15,15.5,17.5)*10**3
Y = c(24,24.75,20.3,15,14.5,12)*10**3
LINE = approx(X,Y,xout=seq(0,17000,100))
o u` la valeur 17000 repr´esente la coordonn´ee X maximale de la zone et la valeur 100 repr´esente le nom-
bre de points souhait´es en A` l’issue de la proc´edure d’interpolation, l’objet LINE contient les
sortie.
coordonn´ees sur-´echantillonn´ees LINE$x et LINE$y de la ligne. On peut alors convertir ces coordonn
´ees en indice de cellules du MNT, en les divisant par la r´esolution r :
LX = floor(LINE$x/r)+1
LY = floor(LINE$y/r)+1
On suppose dans un premier temps que la ligne est positionn´ee `a une hauteur de 3 m par rapport au sol :
hgt_line = 3
On peut alors ´ecrire une fonction coupure permettant de tester si la ligne est impact´ee par la
crue. Pour ce faire, on parcourt toutes les coordonn´ees de la ligne (d’ou` l’int´erˆet de l’avoir
246
´echantillonn´ee
247
suffisemment finement), et pour chaque point, on r´ecup`ere son altitude dans le MNT et on y
ajoute la hauteur de ligne hgt_line. Si pour au moins un point cette valeur est inf´erieure au niveau
de la crue, alors la ligne est coup´ee.
coupure = function(Z){
for (i in 1:length(LX)){
if (Z[LX[i], LY[i]] + hgt_line < threshold){
return(TRUE)
}
}
return(FALSE)
}
Dans cette derni`ere section, on suppose `a nouveau que le niveau de la crue threshold est d
´eterministe et f ix´e `a 5 m. On applique alors la fonction coupure sur chaque simulation g ´e n
´e r ´e e et on calcule la proportion de cas o u` la ligne est coup´ee.
for (k in 1:500){
Z = matrix(simulation[[names(simulation)[k]]], length(gx), length(gy))
COUPURE[k] = coupure(Z)
}
proba_coupure = sum(COUPURE)/length(COUPURE)
Avec 500 simulations, on trouve une probabilit´e de coupure de 17.6 %. Pour complexifier
l’exercice, on peut chercher `a d´eterminer la hauteur d’installation hgt_line de la ligne (par
rapport au sol) per- mettant de garantir que le risque de coupure en cas de crue est inf´erieur `a
5%. Sur le mˆe me jeu de simulations, on trouve que la ligne doit ˆetre install´ee `a une hauteur
minimale de 9.10 m.
2
0
.
● ●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●● ●●●●●
●●●●●●
●●●●●●
2
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
●●●●●●
● ●●●
●●●
●●●
●●●
●●●
●●●
●●●
●●●
●●●
0
.
●●●
● ●●●●
1
● ●●●
●●●
R
g
g
y
●●●
●●●
●●●
●
1
0
.
5
0
.
0
gx gx H
Fig. 4.32. A` gauche : MNT r´eel et trac´e de la ligne ´electrique. Au centre : un exemple de simulation
avec la crue associ´ee et discr´etisation de la ligne A` droite : probabilit´e de coupure de la
´electrique.
ligne en fonction de sa hauteur par rapport au sol. L’installation est consid´er´ee comme suˆ re (risque inf
´erieur `a 5%) pour une hauteur de 9.10 m.
248
4.4 Bilan
En comparaison des m´ethodes d´eterministes, le krigeage poss`ede l’avantage de permettre le
calcul d’une variance de l’erreur d’estimation, qui peut ˆetre interpr´et´ee comme le degr´e
d’incertitude en- tourant la pr´ediction effectu´ee. Cependant, si le mod`ele de variogramme utilis
´e n’est pas satisfaisant (variogramme exp´erimental mal estim´e, choix non pertinent du mod`ele
th´eorique de variogramme ou non-convergence de la r´egression param´etrique) on obtient en g
´e n´e r a l des variances d’estimations compl`etement fauss´ees et qui peuvent induˆment faire pr
´esumer que l’estimation est d’une qualit´e meilleure qu’elle ne l’est r´eellement. Il est donc n
´ecessaire de disposer de m´ethodes objectives de validation des pr´edictions effectu´ees par
krigeage. Dans le cadre particulier de l’interpolation, la vali- dation crois´ee consiste `a r´eestimer
les valeurs prises par le ph´enom`ene au niveau de chacun des points du semis d’observations, et `a
l’aide de toutes les autres donn´ees. La diff´erence entre la valeur pr´edite et la valeur effectivement
observ´ee, moyenn´ee sur l’ensemble de la zone, produit un bon estimateur de la qualit´e globale de
la proc´edure.
Dans un seconde partie, nous avons ´e t u d i´e une application alternative du krigeage :
l’optimisation bay´esienne (ou s´equentielle), qui consiste `a alterner des ´etapes
d’interpolation et d’observation pour d´eterminer l’optimum d’une fonction num´erique f en
minimisant le nombre de relev´es n´ecessaires. �A` chaque ´etape, la m´ethode calcule une
estimation fn de la fonction inconnue `a l’aide des n points de donn´ees observ´es dans le pass´e.
La position du (n�+ 1)-eme point `a observer est d´etermin´ee `a l’aide de l’estimateur fn et de ses
bandes de confiance, et on it`ere le processus jusqu’`a un nombre maximal p r´e f i x´e
d’observations, ou alors jusqu’`a atteindre un optimum satisfaisant. L’optimisation bay´esienne est un
outil de choix lorsque les observations sont couˆteuses, chronophages ou risqu´ees.
Enfin, dans une troisi`eme section, nous avons introduit le concept important de simulations. Une
sim- ulation conditionnelle est une r´ealisation al´eatoire d’un processus stochastique (de
variogramme connu) passant par tous les points du jeu de donn´ees. Il s’agit donc en quelques
sortes d’une r´eali t´e alternative compatibles avec les observations. Lorsque le semis de points est
vide, la simulation n’est pas contrainte, et on parle de simulation non-conditionnelle. Nous avons
vu comment effectuer ces deux types de simulations, `a l’aide de la factorisation de Cholesky ou
encore par krigeage s´equentiel. Elles poss`edent deux applications fondamentales : l’analyse de
propagation d’erreurs et l’estimation de quantit´es non-lin´eaires. Dans ce second cardre en
particulier, nous avons vu `a travers de nombreux exemples, que le krigeage est syst´ematiquement
plus lisse que la r´ealit´e, induisant ainsi un biais dans l’estimation des d´epassements de seuil.
Nous avons vu dans le chapitre pr´ec´edent que de nombreux es- timateurs s’expriment de mani`ere
lin´eaire (somme, diff´erence, moyenne, cumul, pente, convolution...), ce qui est remarquable eut
´egard au fait que ces fonctions lin´eaires ne repr´esente qu’une infime partie de l’ensemble des
fonctions calculables sur une variable r´egionnalis´ee. En pratique, la majorit´e des grandeurs qui
vont nous int´eresser in fine, sont non-lin´eaires : surface d´epassant un seuil, pente max- imale,
probabilit´e de coupure d’un r´eseau ´electrique par une inondation, ´etendue visible depuis un
point d’observation... L’´evaluation direct de ces quantit´es sur la variable krig´ee ne sera en g´en
´eral pas un bon estimateur. La technique de simulation conditionnelle, qui pr´econise de moyenner
la quantit´e d’int´erˆet obtenue sur un grand nombre de r´ealisations, offre une solution simple `a
ce probl`eme, per- mettant de s’´epargner le recours `a la G´eostatistique non-lin´eaire.
249
Appendix A
A.1 D´efinitions
Une fonction r´eelle f est continue si la valeur qu’elle prend en deux points infinit´esimalement
proches tendent `a devenir ´egales, i.e. si f (t + ∆t) tend vers f (t) `a mesure que ∆t tend `a
s’annuler.
Pour une r´ealisation particuli`ere x d’un processus X, cette d´efinition a un sens, mais on souhaiterait
ˆetre plus g´en´eral, et pouvoir caract´eriser la capacit´e du processus X `a produire des r
´ealisations con- tinues. On doit donc v´erifier que la variable al´eatoire X(t + ∆t) converge vers
X(t) en tout point t du domaine. Or, pour une variable al´eatoire, il existe de nombreux modes de
convergences diff´erents (Lecoutre, 2002) : convergence en loi, en probabilit´e, presque suˆre, en
moyenne d’ordre r... Pour car- act´eriser la r´egularit´e des signaux al´eatoires, on utilise en g´en
´eral la convergence en moyenne d’ordre 2, dite en moyenne quadratique, consistant `a v´erifier que
l’esp´erance du carr´e de l’´ecart entre la variable et sa limite tend vers 0.
1t )l
lim E X(t + ∆t) − X(t) 2 = 0 (A.1)
∆t→0
250
existe et est une quantit´e finie Zt(t) : la d´eriv´ee du processus Z en t.
Remarquons que si Z est d´erivable en moyenne quadratique, Zt estt aussi un processus stochastique.
On montre facilement que si Z est stationnaire, alors sa d´eriv´ee Z l’est aussi. La r´eciproque n’est
pas
n´ecessairement vraie : il suffit de consid´erer l’exemple d’une marche al´eatoire Z (non-
stationnaire) dont les incr´ements Zt sont stationnaires.
Dans cette section, nous consid´ererons la cas particulier d’un processus stationnaire `a l’ordre 2 et
nous nous autoriserons donc `a utiliser la fonction de covariance. Notons que les mˆemes r´esultats
peuvent
ˆetre obtenus directement `a partir du variogramme, c’est-`a - dire pour un processus dont la
stationnarit´e est strictement intrins`eque.
1t )2l
E X(t + ∆t) − X(t) = 2γ(∆t)
et donc, la quantit´e A.1 converge quand ∆t → 0 si, et seulement si, γ(t) tend vers γ(0) = 0, i.e. si le
variogramme γ est continu en l’origine.
Par application de ce th´eor`eme, tout variogramme muni d’une composante p´epitique (non-
nulle) est irr´evocablement discontinu en moyenne quadratique.
Il est int´eressant de noter que la r`egle est exactement la mˆeme pour les processus
stationnaires `a l’ordre 2 : d’apr`es le t h´e or`em e 26, C(h) = C(0) − γ(h), et donc γ(h) tend vers
0 si et seulement si C(h) tend vers C(0), et donc la fonction de covariance doit ˆetre continue en
l’origine.
Remarque. On peut montrer que le variogramme est continu en 0 si, et seulement si, il est
continu sur R. En effet, consid´erons la diff´erence des valeurs prises par le variogramme pour deux
´ecarts τ et τt :
|γ(τ ) − γ(τ t)| = |C(0) − C(τ ) − C(0) + C(τt)| = |C(τ ) − C(τt)| = Cov[X(τ ), X(0)] − Cov[X(τt), X(0)]
J J
= Cov[X(τ ) − X(τt), X(0)] :( Var[X(τ ) − X(τt)]Var[X(0)] = σX 2γ(τ − τt)
et donc, si γ(τ −τ t ) tend vers 0 quand la quantit´e τ −τ t s’annule, n´ecessairement γ(τ ) tend vers
γ(τt), ce qui montre la continuit´e de γ sur .
R
251
Consid´erons `a pr´esent un processus X continue en m.q. et examinons les conditions sous lesquelles la d
´erivabilit´e de X est garantie.
Th´eo r`eme : le processus stochastique X est d´erivable en m.q. si, et seulement si, son variogramme
γ est deux fois d´erivable en 0.
∆t est une quantit´e finie, donc ont peut utiliser Xt mˆeme sans avoir au pr´ealable d´emontr´e la d
´erivabilit´e de X. Par ailleurs X est un accroissement, i.e une combinaison lin´eaire de variables
al´eatoires de poids total nul, on peut donc utiliser la covariance, mˆeme dans le cas intrins`eque :
1
C (τ ) = Cov[Xt(t + τ ), Xt(t)] = Cov[X(t + ∆t + τ )X(t + τ ) X(t + ∆t) + X(t)]
X ∆t 2 −
1 CX (∆t + τ ) − 2C(τ ) + CX (τ − ∆t)
= Cov[X(∆t + τ ) − X(τ ) − X(∆t) + X(0)] =
∆ ∆
Remarque : tout comme pour la continuit´e, on peut montrer que cette condition est
´equivalente `a la d´erivabilit´e d’ordre 2 du variogramme en 0.
- - - 1 - 1
1
γ(V, Vh) =
γ(x − y)dxdy |y + h − x|
|V ||V h | V V 0 0
Par ailleurs, en supposant dans un premier temps h < 1 (i.e. que les blocs V et Vh se recouvrent) on
peut d´ecomposer le domaine d’int´egration en 3 parties en fonction du signe de y + h − x :
- h - - 1 - - 1-
γh(V ) = 1 (y + h − x)dydx 1 (y + h − x)dydx x−h (x − y − h)dydx
+ +
0 0 h x−h h 0
252
On peut r´esoudre chaque int´egrale individuellement et sommer les r´esultats obtenus.
Alternativement, on peut consid´erer le probl`eme de mani`ere purement g´eom´etrique. L’objectif
consiste `a calculer le vol-
ume contenu entre le plan z = 0 et la surface d’´equation z(x, y) = |y + h − x|. Remarquons que sans
la valeur absolue, l’int´egrale recherch´ee vaut h. Pour tenir compte de la valeur absolue, on doit
ajouter
`a cette valeur moyenne deux fois le volume de la pyramide qui a ´e t ´e comptabilis´ee en dessous du plan
z = 0. La base de cette pyramide est un triangle rectangle isoc`ele de c ˆo t ´e et de hauteur 1 − h.
Fig. A.1. L’int´egrale de |y + h − x| vaut h plus deux fois le volume de la pyramide `a droite.
3
On obtient alors : γ(V, ) = h + (1−h) . Au passage, on en d´eduit que γ(V, V ) = 1 et donc :
V
h 3 3
(1 − h)3 1
2 h3 si h :( 1
γV (h) = h + 3 − =h
3 3
−
On trouve bien un comportement parabolique `a l’origine. La r´egularisation du variogramme
corre- spond `a un lissage des r´ealisations, ce qui semble intuitif puisque le fait de moyenner le
champ sur des blocs r´eduit d’autant la variabilit´e du processus.
Lorsque h > 1, la quantit´e y+h−x est toujours positive et le calcul de l’int´egrale donne imm
´ediatement γV (h) = h− 1 . On retrouve un comportement lin´eaire lorsque les moyennes sont
calcul´e sur des
3 blocs disjoints. En particulier, on v´erifie que la fonction γV est bien continue en
h = 1.
1
1
0
0
Fig. A.2. Variogramme d’un processus 1D (en bleu) et variogramme r´egularis´e sur le bloc V = [0,
1] (en rouge). Pour h � 1 le variogramme r´egularis´e reprend son aspect lin´eaire.
253
Appendix B
Contre-exemples pratiques
1
P[X = 1|Y = 1] = P[X = 1|X 2 = 1] = P[X = 1|X ∈ {−1, 1}] =
2
- +1 3
Cov(X, Y ) = E[XY ] − E[X]E[Y ] = E[XY ] = E[X 3] = 1 x dx = 0
2 −1
Cov(X, Y )
ρXY = J =0
Var[X]Var[Y ]
Le couple de v.a. (X, Y ) est donc d´ependant et d´e c o r r´e l´e `a la fois. Cet exemple nous
montre que l’ind´ependance est une notion plus forte que la d´ecorr´elation. L’ind´ependance
implique que ρXY = 0, mais la r´eciproque n’est pas vrai en g´en´eral.
254
B.2 Une variable al´eatoire qui ne poss`ede pas d’esp´erance
On consid`ere la loi de Cauchy centr´ee en 0 et de param`etre 1, d´efinie par la densit´e :
1
p(x) =
π(x2 + 1)
- +∞ dx 1
- +∞ = arctan(x) ]+∞ = 1
π(x)dx = −∞ π(x2 + 1) π −∞
−∞ [
E[X] = +∞
x
- +∞ - π(x2 + 1)
xπ(x)dx = dx
−∞ −∞
x
π(x2+1) 1 en l’infini, donc n’est pas int´egrable. La queue de la distribution est trop lourde et
O x
∼
donc l’esp´erance n’existe pas.
Cela peut sembler d’autant plus ´etonnant que la loi est sym´etrique et que sa m´ediane vaut
donc 0.Pourtant, lorsqu’on tente d’appliquer la loi des grands nombres, on observe empiriquement
que la moyenne d’une s´erie de valeurs distribu´ees suivant cette loi ne converge pas vers 0.
Informellement, on peut dire que la probabilit´e d’apparition de valeurs extrˆemes n’est pas
suffisamment faible pour que la moyenne des tirages se stabilise.
On peut facilement simuler une loi de Cauchy en R, par exemple en prenant le quotient de deux
variables gaussiennes : rnorm(1,0,1)/rnorm(1,0,1). On peut alors r´ealiser l’exp´erience ci-dessus
avec l’instruction :
plot(cumsum(rnorm(N,0,1)/rnorm(N,0,1))/N, type="l")
o u` N est un entier qu’on pourra faire croˆıtre progressivement, en commen¸cant par une centaine.
Ce r´esultat n’est pas contradictoire, puisque la loi des grands nombres ne s’applique que pour
une suite de variables al´eatoires dont l’esp´erance existe.
1 −3
+∞ - ∞
1
- p(x)dx = + 2
x
255
1
dx = −x − 2
+∞
l
=1
1
256
De mˆeme, on v´erifie ´egalement que l’esp´erance existe bien :
- - 1
+∞ +∞ 2 l +∞
E[X] 1
xp(x)dx 2 − =
dx
x2 x
1
-
2 2 +∞
dx − 4 =2
lim ln x
Var[X] = ]− =
1 x
La fonction 2/x n’est pas int´egrable sur [1; +∞[ donc la variance est infinie.
Le processus est donc ergodique `a l’ordre 1. En revanche, on a E[Z2] = Var[Z(x, ω)] = Var[A]Var[Y (x, ω(x)]
= Var[A]. Or, le moment d’ordre 2 calcul´e sur une r´ealisation ω0 est :
- -
Z(x, ω0) dx = A(ω0)
2 2
Y (x, ω(x))2dx = A(ω0)2
R R
257
B.6 Un processus strictement intrins`eque
Un processus stochastique X est dit strictement intrins`eque lorsqu’il v´erifie l’hypoth`ese de
station- narit´e intrins`eque (def. 26) sans ˆetre stationnaire au second ordre (def. 20).
On peut reprendre l’exemple de la marche al´eatoire de l’activit´e II, dont nous avions montr´e
que la fonction de covariance valait :
Cov(Y (t), Y (t + τ )) = Cov(X(t) − X(t − 1), X(t + τ ) − X(t + τ − 1)) = Cov(X(t), X(t + τ ))−
Cov(X(t), X(t+τ−1))−Cov(X(t−1), X(t+τ ))+Cov(X(t−1), X(t+τ−1)) ∝ t−t−(t−1)+(t−1) = 0
Les incr´ements sont donc d´e co r r´e l´es et le processus Y est stationnaire au second ordre. X est
donc un processus strictement intrins`eque. L’implication pratique en g´eostatistique est qu’on ne
peut pas calculer le covariogramme de X puisqu’il ne d´epend pas que de l’´ecart τ entre les sites.
En revanche, le variogramme est bien d´efini et on a :
1 1( ) 1t )
γX(τ ) = Var[X(t+τ )−X(t)] =
Var[X(t+τ )]+Var[X(t)]−2Cov(X(t+τ ), 2 t+τ
2
τ
γX(τ ) =
2
C’est un variogramme lin´eaire sans palier (hypoth`ese intrins`eque donc variogramme non-born
´e). Son comportement `a l’origine est lin´eaire, donc d’apr`es l’annexe A, le processus X est
continu mais non- d´erivable en moyenne quadratique, ce qui explique l’aspect erratique d’une
marche al´eatoire.
1
Nous avions vu cependant dans l’activit´e II qu’il ´etait tout de mˆeme stationnaire au premier ordre.
258
B.7 Un processus continu en m.q. dont toutes les r´ealisations
sont discontinues
Le contre-exemple suivant, ti r´e de Picinbono (1998), est int´eressant pour bien comprendre que la
con- tinuit´e en m.q. n’est qu’une notion probabiliste, elle ne s’applique donc pas syst
´ematiquement en tout point du domaine et pour toutes les r´ealisations.
On consid`ere une variable al´eatoire r´eelle S ∼ U ([0, 1]), distribu´e suivant une loi uniforme sur
l’intervalle [0, 1], ainsi qu’un processus X : [0, 1] × Ω → R d´efini par :
0 si t :( S
X = �1 sinon.
(B.1)
t
Tr`es clairement, toute r´ealisation x de ce processus est discontinue (la position S du lieu ou
survient cette discontinuit´e ´etant toutefois al´eatoire). Pourtant on peut montrer que le
processus X est con-
tinu en m.q. : consid´erons la grandeur al´eatoire X(t) − X(t + ∆t). Elle ne peut prendre que
deux valeurs possibles, `a savoir 1 si s ∈ [t; t + ∆t[ et 0 sinon. Cette quantit´e est donc distribu
´ee suivant une loi de Bernoulli dont la probabilit´e de succ`es est ´egale `a la largeur de
l’intervalle consid´er´e :
P[X(t) − X(t + ∆t) = 1] = ∆t, d ’ou` l’esp´erance quadratique :
[ ]
E (X(t) − X(t + ∆t))2 = P[X(t) − X(t + ∆t) = 1] = ∆t −→ 0
∆t
Le processus est donc continu en m.q., malgr´e la discontinuit´e syst´ematique de ses r´ealisations.
259
Index
260
Matrice de covariances, 20 Universalit´e (contrainte), 92
MNT, 6, 7, 29, 56, 60, 69, 103
Mod`ele `a effet de p´epite, 69 Validation crois´ee, 131
Mod`ele `a effet de trou, 67 Variable al´eatoire, 12
Mod`ele cubique, 67 Variable auxiliaire, 128
Mod`ele de variogramme, Variable r´egionalis´ee, 7, 29, 30
62 Mod`ele exponentiel, Variables d´ecorr´el´ees, 20
65 Variables ind´ependantes, 20
Mod`ele gaussien, 66 Variance, 18
Mod`ele gigogne, 69 Variance expliqu´ee, 133
Mod`ele lin´eaire, 63 Variogramme, 48
Mod`ele lin´eaire avec palier, Variogramme exp´erimental, 50
64 Mod`ele p´epitique pur, Variogramme p´epitique, 61
68 Mod`ele puissance, 64 Variogramme r´egularis´e, 120
Mod`ele sph´erique, 66 Vecteur al´eatoire, 30
Moments statistiques, 23
Multiplicateur de Lagrange, 94
Noyau, 85
noyau, 137
Optimalit´e (contrainte), 93
Optimisation bay´esienne, 140
R´egression lin´eaire, 74
R´egularisation, 121
Ratio signal sur bruit, 73
RMSE, 75, 137
Semi-variogramme, 48
Signal al´eatoire, 30
Simulation conditionnelle, 157
Simulation non-conditionnelle, 147
Simulations, 146
Splines, 29
Stationnarit´e, 35
Stationnarit´e `a l’ordre 1, 36
Stationnarit´e `a l’ordre 2, 36
Stationnarit´e au sens faible, 36
Stationnarit´e au sens fort, 36
Stationnarit´e au sens large, 36
Stationnarit´e au sens strict, 36
Transformation de Fourier, 78
261
Bibliography
Barry, R. P., Jay, M., et Hoef, V. (1996). Blackbox kriging: spatial prediction without specifying
variogram models. Journal of Agricultural, Biological, and Environmental Statistics, pages
297– 322.
Biljecki, F., Heuvelink, G. B., Ledoux, H., et Stoter, J. (2015). Propagation of positional error in
3d gis: estimation of the solar irradiation of building roofs. International Journal of
Geographical Information Science, 29(12):2269–2294.
Deraisme, J. et Bobbia, M. (2003). Geostatistics in the study of air pollution-related risks. Environ-
nement, Risques & Sant´e, 2(3):168–175.
Droesbeke, J.-J., Lejeune, M., et Saporta, G. (2006). Analyse statistique des donn´ees spatiales.
Editions TECHNIP.
Dumenieu, B. (2015). Un syst`eme d’information g´eographique pour le suivi d’objets historiques urbains
`a travers l’espace et le temps. PhD thesis, Paris, EHESS.
262
Dumont, T., L´eonard, C., Mary, X., et Mohamed, H. (2019). Cours d’optimisation. Notes de
cours de L1 - ´economie-Gestion - analyse 2.
Efron, B. (1983). Estimating the error rate of a prediction rule: improvement on cross-validation.
Journal of the American statistical association, 78(382):316–331.
Emery, X. (2001). Cours de G´eostatistique lin´eaire. Document de cours `a l’Ecole des Mines.
Grejner-Brzezinska, D., Toth, C., et Yi, Y. (2005). On improving navigation accuracy of gps/ins
systems. Photogrammetric engineering & remote sensing, 71(4):377–389.
Journel, A. G. et Huijbregts, C. J. (1978). Mining geostatistics, volume 600. Academic press London.
Krige, D. G. (1951). A statistical approach to some basic mine valuation problems on the witwater-
srand. Journal of the Southern African Institute of Mining and Metallurgy, 52(6):119–139.
Li, C., Zhao, S., Wang, Q., et Shi, W. (2018). Uncertainty modeling and analysis of surface area
calcu- lation based on a regular grid digital elevation model (dem). International Journal of
Geographical Information Science, 32(9):1837–1859.
Mehlhorn, K., Newell, B. R., Todd, P. M., Lee, M. D., Morgan, K., Braithwaite, V. A., Hausmann, D.,
Fiedler, K., et Gonzalez, C. (2015). Unpacking the exploration–exploitation tradeoff: A synthesis
of human and animal literatures. Decision, 2(3):191.
M´eneroux, Y., Le Guilcher, A., Orfila, O., Lusetti, B., Saint Pierre, G., et Musti`ere, S. (2017).
Using surrogate road network for map-matching a sensitivity analysis of positional accuracy.
Geocompu- tation 2017.
Nadaraya, E. (1965). On non-parametric estimates of density functions and regression curves. Theory
of Probability & Its Applications, 10(1):186–190.
Parzen, E. (1962). On estimation of a probability density function and mode. The annals of mathe-
matical statistics, 33(3):1065–1076.
Pebesma, E. (2020). The meuse data set: a brief tutorial for the gstat r package.
Pebesma, E. J. (2001). Gstat user’s manual. Dept. of Physical Geography, Utrecht University, Utrecht,
The Netherlands.
Pebesma, E. J. et Bivand, R. S. (2005). Classes and methods for spatial data in R. R News, 5(2):9–13.
263
Peraudin, J.-J. (2003). Surveillance de la qualit´e de l’air par cartographie : l’apport de la g´eostatistique.
Picinbono, B. (1998). Signaux al´eatoires: avec probl`emes r´esolus. Fonctions al´eatoires et mod`eles.
Dunod.
Pyrcz, M. et Deutsch, C. (2003). The whole story on the hole effect. Geostatistical Association of
Australasia, Newsletter, 18:3–5.
Fontainebleau.
Saltelli, A., Chan, K., et Scott, E. M., editors (2000). Sensitivity analysis. Wiley series in probability
and statistics. J. Wiley & sons, New York, Chichester, Weinheim.
Snoek, J., Larochelle, H., et Adams, R. P. (2012). Practical bayesian optimization of machine
learning algorithms. In Advances in neural information processing systems, pages 2951–2959.
Tian, L., Cai, T., Goetghebeur, E., et Wei, L. (2007). Model evaluation based on the sampling
distribution of estimated absolute prediction error. Biometrika, 94(2):297–311.
Yang, C.-S., Kao, S.-P., Lee, F.-B., et Hung, P.-S. (2004). Twelve different interpolation methods: A
case study of surfer 8.0. In Proceedings of the XXth ISPRS Congress, volume 35, pages 778–785.
Zhang, Y. et Yang, Y. (2015). Cross-validation for selecting a model selection procedure. Journal of
Econometrics, 187(1):95–112.
264