Exposé - Test de Normalité
Exposé - Test de Normalité
Exposé - Test de Normalité
: Estimation parametrique
Tests de Normalit
2 3
3 5 5
3 Approche probabiliste
3.1 3.2 3.3 3.4 3.5 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test de Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d'adquation du X 2 . . . . . . . . . . . . . . . . . . . . . . . . . Test de Shapiro-wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
7 8 9 9 12
13
1 Introduction
En statistiques, les tests de normalit permettent de vrier si des donnes relles suivent une loi normale ou non. Les tests de normalit sont des cas particuliers des tests d'adquation (ou tests d'ajustement, tests permettant de comparer des distributions), appliqus une loi normale.
Ces tests prennent une place importante en statistiques. En eet, de nombreux tests supposent la normalit des distributions pour tre applicables. En toute rigueur, il est indispensable de vrier la normalit avant d'utiliser les tests. Cependant, de nombreux tests sont susamment robustes pour tre utilisables mme si les distributions s'cartent de la loi normale.
Dans ce support, nous prsenterons dans un premier temps les techniques descriptives, notamment le trs populaire graphique Q-Q plot.Et dans un second temps, nous dnons quleques tests statistiques reconnus et implments dans la plupart des logiciels de statistique.
Bien avant les techniques complexes et les ratios savants, quelques indicateurs usuels et des graphiques judicieusement choisis sont le bienvenu. Ces outils sont disponibles dans tous les outils de traitement exploratoire des donnes.
L'outil graphique le plus simple est l'histogramme de frquence. Il s'agit de couper automatiquement l'intervalle de dnition de la variable en k intervalles de largeur gales, puis de produire une srie de barres dont la hauteur est proportionnelle l'eectif associ l'intervalle.
Certains logiciels procdent automatiquement l'estimation des deux principaux paramtres de la loi normale ( la moyenne, s l'cart-type) et tracent la fonction de densit correspondante pour apprcier le rapprochement entre la distribution empirique (histogramme) et la distribution thorique. La moyenne est estime l'aide de la moyenne empirique :
x=
1 n
xi
i
s=
1 n1
(xi x)2
i
n G1 = (n 1)(n 2)
i=1
xi x s
G2 =
i=1
xi x s
(n 1)2 (n 2)(n 3)
Si ces indicateurs sont susamment proches de la valeur 0, l'hypothse de compatibilit avec la loi normale ne peut tre rejete. Tout le problme est de quanter ce degr de proximit. Il faudrait connatre la loi de probabilit de ces indicateurs pour mettre en place un test statistique permettant de dterminer si l'cart est signicatif ou non ; ou tout du moins, calculer les cart-type et utiliser les distributions asymptotiques pour raliser le test.
Nous dtaillerons ces procdures plus loin. A ce stade, les coecients d'asymtrie et d'aplatissement sont uniquement calculs titre indicatif. Nous constatons nanmoins, sans trop s'avancer quant aux rsultats des tests, qu'elles s'loignent peu des valeurs de rfrence. L'adquation la loi normale parat plausible.
3 Approche probabiliste
Trs commodes, les approches empiriques n'ont pas la rigueur des techniques statistiques. Dans ce chapitre, nous prsentons les tests de compatibilit la loi normale. Encore une fois, il s'agit bien de vrier l'adquation (la compatibilit) la loi normale et non pas dterminer la loi de distribution. tous les tests prsents dans ce chapitre sont, soit des variantes plus puissantes du test de Kolmogorov-Smirnov, soit bass sur les coecients d'asymtrie et d'aplatissement. Il existe galement un grand nombre de tests de normalit : Tests bass sur la fonction de rpartition empirique : Test de Kolmogorov-Smirnov et son adaptation le test de Lilliefors, ou le test de Anderson-Darling et le test de Carmer-Von Mises Tests bass sur les moments, comme le Test de Jarque Bera ou test D'Agostino's K-squared Test d'adquation du X 2 Ou encore le test de Shapiro-wilk, ou le test de Shapiro-Francia.
3.1 Gnralits
Les tests de normalit sont des tests d'hypothse. En notant F (x) la fonction de rpartition base sur les donnes analyser et F0 (x) la fonction de rpartition thorique, les hypothses nulle et alternative peuvent s'crire :
Les tests sur les moments ont une hypothse moins forte, ils ne testent pas si la fonction de rpartition est normale, mais si les moments (coecients d'asymtrie et d'aplatissement) de la distribution inconnue sont identiques ceux d'une loi normale :
H0 : G1 = 0 et G2 = 3 H1 : G1 = 0 ou G2 = 3
On remarquera que ce n'est pas susant pour caractriser une loi normale (Problme des moments).
D = max
i=1,...,n
Fi
i1 i , Fi n n
o Fi est la frquence thorique de la loi de rpartition normale centre et rduite. La table des valeurs critiques Dcrit pour les petites valeurs de n et difrentes valeurs
de doivent tre utilises. Lorsque les eectifs sont levs, typiquement n = 30, il est possible d'approcher la valeur critique l'aide de formules simples :
D > Dcrit
(X 1(.), ..., Xn(.)) peut tre considr comme issu d'une loi bien spcie P0 , donc
eectuer le test H0 : P = P0 contre H1 : P = P0 ,ou plus gnralement H0 : P
P , contre H1 : P = P , . Supposons que card(E ) < ; c'est dire que E = x1, ..., xd et que l'on veut tester H0 : P = P0 avec P0 (xj ) = pj , j = 1, ...., d contre H1 : P = P0 . Pour eectuer ce test on introduit la mesure de divergence (ou distance
de Khi-deux) entre la loi thorique P0 et la loi empirique Pn :
D(Pn , P0 ) = d j =1
n Nj ( pj )2 pj n
10
y1 y2 ... yn1 yn
Les n observations exprimentales ont t au pralable ranges par ordre de valeur croissante. 1. On calcule la moyenne de cette srie de mesures :
1 y= n
2. On calcule le nombre Tn dni par :
i= n
i=n
yi
i=1
Tn =
i=1
(yi y )2
d1 = yn y1 d2 = yn1 y2 . . . di = yni+1 yi
Remarquons que si n = 2p (n pair), on aura p dirences et si n = 2p + 1 (n impair) on aura aussi p dirences, l'observation mdiane n'intervenant pas. 4. On calcule alors le nombre W dni par :
W =
j =p j =1
aj dj )2
Tn
11
3.5 Applications
12
3.5 Applications
Une application des tests de normalit concerne les rsidus d'un modle de rgression linaire. S'il ne sont pas distribus de faon normale, les rsidus ne peuvent pas tre utiliss dans des tests Z ou dans quelqu'autre test que ce soit, partir du moment o il fait intervenir des hypothses de normalit (par exemple, le test t, le test de Fisher ou le test du X 2 ). Si les rsidus ne sont pas normalement distribus, cela signie que la variable dpendante, ou tout au moins une variable explicative, pourrait avoir une fonction de rpartition errone ; des variables importantes peuvent galement tre manquantes. Une ou plusieurs correction de ces erreurs classiques peuvent engendrer des rsidus qui suivent une distribution normale.
Bibliographie
[1] Ricco Rakotomalala, Tests de normalit Techniques empiriques et tests statistiques, Universit Lumire Lyon 2, 1-Oct-2011 [2] Tome 22, Sur les tests de normalit, in Revue de Statistique Applique, n.22, 1974 [3] Mohamed BOUTAHAR, Statistiques, Dpartement de mathmatiques case 901, Facult des Sciences de Luminy, 4 octobre 2005 [4] Saporta, G., Probabilits, Analyse des donnes et Statistique, Technip, 2me dition, 2006