Tests Hyp Parametric
Tests Hyp Parametric
Tests Hyp Parametric
6. Tests du Khi-deux
Tirage d’un échantillon sans remise : sans importance dans les grandes
populations, aucune différence pratiquement que l’on remette ou non chaque
individu avant le tirage suivant. Pour l’essentiel les observations sont
indépendantes. Ce n’est pas le cas pour une petite population
D - Inférence Statistique - Estimation et Tests d’hypothèses
1. Introduction – Déduction et inférence statistique
Déduction :
Induction (inférence) :
Allons y ...
p(X=k) Po
0.35
B (5, 0.5)
0.30
0.25
k p(X=k) Po
0.20
0.15
0 0.031 0.025
1 0.156 0.13
0.10
2 0.313 0.35
0.05 3 0.313 0.3
0.00
4 0.156 0.168
0 1 2 3 4 5 k 5 0.031 0.027
Résultat de l’échantillonnage
Expérience réalisée sur un grand nombre d’échantillons)
Loi théorique (atteinte lorsque le tirage concerne une nombre infini d’échantillons)
D - Inférence Statistique - Estimation et Tests d’hypothèses
2. Fluctuations d’échantillonnage d’une proportion observée
Lorsqu’un évènement donné E a une probabilité Π d’être observé dans une population, la proportion
observée Po de cet évènement dans des n-échanitillons, tirés au hasard de la population, subit des
fluctuations d’échantillonnage suivant une loi binomiale de moyenne Π et d’écart type σ = Π (1−Π )
n
Y a ( Π , Π (1−Π ) )
n
Nous serons amenés à vérifier cette condition à priori ou à posteriori !
! Nous allons exploiter ces propriétés
D - Inférence Statistique - Estimation et Tests d’hypothèses
2. Fluctuations d’échantillonnage d’une proportion observée
Risques αo et β
Echantillon
• taille : n (n_échantillon)
• représentatif
Population
• Po : observée
• taille ?
• Inaccessible
• Π : caractéristique connue ou supposée connue
(résultant par ex d’études menées sur de nombreux
échantillons)
D - Inférence Statistique - Estimation et Tests d’hypothèses
2. Fluctuations d’échantillonnage d’une proportion observée
Π(1−Π) Π(1−Π)
Π − εα/2 ≤ P0 ≤ Π + εα/2
n n
Poser l’Hypothèse nulle (notée Ho) Déduction
La probabilité de trouver P0 dans cet intervalle est (1-α)
Seuil standard : α = à5 voir
Facile % si on a le schéma de la distribution en tête
Il faut, bien sûr, être dansréaliser
=> Toujours une situation oùschéma
un rapide l'on peutdeapprocher les fluctuations
la situation
binomiales de la variable d'échantillonnage P0 par une loi normale
! (NΠ > 5 et N(1- Π) > 5)
Π = 0,5
σ = 0,05
probabilité d’observer
entre 40% et 60%
de sportifs dans
l’échantillon : 95,4 %
D - Inférence Statistique - Estimation et Tests d’hypothèses
2. Fluctuations d’échantillonnage d’une proportion observée
Intervalles de confiance
On part des seules informations disponibles : po et n
Risques αo et β
Echantillon
• taille : n (n_échantillon)
• représentatif
Population
• Po : observée
• taille ?
• Inaccessible
• Π : caractéristique théorique ou attendue
(inconnue)
D - Inférence Statistique - Estimation et Tests d’hypothèses
2. Fluctuations d’échantillonnage d’une proportion observée
P0(1−P0) P (1−P0)
P0 − εα/2 ≤ Π ≤ P0 + εα/2 0
n n
Inférence
Un micro sondage a révélé que sur 30 parisiens interrogés au hasard dans la rue,
18 consomment régulièrement des produits laitiers (lait, fromages, yaourts, beurre,
produits dérivés du lait, …). En sachant que la ville de Paris compte 2,5 millions
d'habitants, estimez le nombre de parisiens consomment régulièrement des
produits laitiers aux risques de 10%, 5% et finalement 1% ?
Quels sont vos commentaires?
D - Inférence Statistique - Estimation et Tests d’hypothèses
2. Fluctuations d’échantillonnage d’une proportion observée
ICα
Généralités
Les tests sur les proportions vont servir de modèles pour tous les tests
d’hypothèses.
Cette méthode permet d’obtenir toutes les conclusions que l’on peut tirer des
observations dont on dispose, conclusions pouvant servir de base à une décision.
Avertissements
Tirer des conclusions à partir d ’un nombre limité d’observations (échantillon)
Posons la problématique
Une observation faite sur un échantillon semble peu probable dans la population référence
(ou incompatible avec un autre échantillon)...
! L’approche est la même pour toutes les variables d’échantillonnages étudiées (proportion,
moyenne, ...) et pour tous les tests d’hypothèses (tests de conformité, d’homogénéité,
d’ajustement à une loi de distribution) et toutes les lois de distributions utilisées (loi normale,
Student-Fisher, Chi-deux, …).
Si les tests permettent de réfuter une hypothèse nulle avec un degré de confiance parfaitement défini,
ils sont, dans l'autre sens, impuissants à démontrer la satisfaction de l'hypothèse nulle ;
ils indiquent simplement que celle-ci n'est pas contredite par les faits.
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
Population : l'ensemble des malades atteints de l'affection cutanée et traitées par le médicament
Echantillon : 40 patients (issus de cabinets médicaux de la région) atteints par l'affection traités par le médicament
V.A. d'étude :
Po = "pourcentage de personnes guéries par le médicament dans un échantillon de 40 personnes"
Observation : Po=28/40 = 70% guéris
Ho : l'échantillon provient d'une population définie par un taux de guérison par le médicament de Π=0,8.
Les différences entre ce paramètre et la valeur observée dans l'échantillon sont imputables au hasard des
fluctuations d'échantillonnage.
Seuil : fixons un seuil α=5% à ne pas dépasser
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
Si α ≥ α ⇔ ε ≤ εα
0 0 , Ho est acceptable
Si α < α ⇔ ε > εα
0 0 , Ho est rejetée
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
« Le médicament miracle » - Construction du test d'hypothèse
Un producteur déclare à son client que deux tiers des noix de coco qu’il lui fournit sont de
tailles supérieures à une certaine limite qu'ils ont fixée ensemble. Le distributeur conteste
cette statistique et avance que d'après les ventes qu'il a réalisées, ce sont seulement la
moitié des noix de coco qui sont de taille suffisante (atteignant ou dépassant la limite fixée).
Pour en avoir le coeur net, un échantillon de 50 noix de coco est prélevé ou hasard de la
production destinée au client. Le résultat tombe bientôt : 30 noix de l'échantillon sont de taille
supérieure à la limite fixée.
εo, critère de test sous Ho 0.707 1.000 1.414 1.732 2.236 4.472
α 0 = P(Po<0,6) 24.0% 15.9% 7.9% 4.2% 1.3% 0.0%
position limite pour α =5% 0.51 0.56 0.59 0.60 0.62 0.64
critère de test sous H1 0.120 0.811 1.787 2.536 3.724 8.995
2ème solution
Π sous Ho 0.5
Π sous H1 0.667
εo, critère de test sous Ho 1.000 1.414 2.000 2.449 3.162 6.325
Ho
H1
5.000
0.000 Po
0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.60 0.62 0.64 0.66 0.68 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
Ho
H1
5.000
0.000 Po
0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.60 0.62 0.64 0.66 0.68 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
Ho
H1
10.000
5.000
0.000 Po
0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.60 0.62 0.64 0.66 0.68 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
25.000
Ho
H1
20.000
15.000
10.000
5.000
0.000 Po
0.30 0.32 0.34 0.36 0.38 0.40 0.42 0.44 0.46 0.48 0.50 0.52 0.54 0.56 0.58 0.60 0.62 0.64 0.66 0.68 0.70 0.72 0.74 0.76 0.78 0.80 0.82 0.84 0.86 0.88 0.90
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
Puissance du test
Décision
Réalité H o acceptable H o rejetée
! compromis (voir transparent) Analogie avec un procès : il n’y a pas de moyen de rendre α nul (assurance
β absolue qu’on n’accuse pas un innocent) sans que β atteigne 1 (relaxe de tout
prévenu, ce qui rendrait le procès dénué de sens).
Autre préoccupation :
Tests d’homogénéité
On part des seules informations disponibles : po1, po2 et n1, n2
Risque seuil α
Risques αo et β
Echantillon 1 Echantillon 2
• taille : n1 (n1_échantillon) • taille : n2 (n2_échantillon)
• représentatif • représentatif
• P01 : observée • P02 : observée
! Egalité des deux paramètres exacts dans les deux populations d’origine ;
les différences observées dans les échantillons étant dues au hasard des fluctuations
d’échantillonnage.
! On est ainsi ramené à comparer la différence (Po1-Po2) à la valeur exacte 0.
( P01 − P02 ) − 0
Le critère de test utilisé est : ε0 = 1 1
(à condition que n1p >5 , n1(1-p) > 5 ,
n2p >5 et n2(1-p) > 5)
P(1 - P) ( + )
n1 n2
n1.P01 + n2.P02
avec ε 0 N (0, 1) et P=
n1 + n 2
(la variance d’une différence
est la somme des variances)
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
Le premier jugement que l’on tire d’un test qui permet de conclure est un jugement de
signification (les différences sont significatives).
Le jugement d’interprétation permet, quant à lui, de déterminer si c’est la présence ou
l’absence d’un caractère est à l’origine de ces différences. Pour discuter de la causalité à
l’issue d’un test, il faut s’assurer du contrôle d’un des deux caractères étudiés.
Démarche / situation expérimentale
Lorsque l’expérience se conduit avec un facteur contrôlé (par l’expérimentateur).
Au cours de la constitution de l’échantillon, on reste libre d’un caractère (exemple : individu i traité ou non).
On ne peut affirmer la causalité hors d’une démarche expérimentale qui est la seule qui permet
d’assurer que les individus constituant l’échantillon sont comparables ou homogènes sauf pour ce qui
concerne le caractère contrôlé (attribué par tirage au sort).
Démarche / situation d’observation
Lorsque l’expérience se conduit sur la base de deux facteurs aléatoires (non contrôlés par
l’expérimentateur ; ex : surpoids et maladie rare, couleur des yeux et couleur cheveux, effets secondaires)
! Il faudra faire des recherches (par ex sur les gènes) pour conclure plus finement.
Exemple typique : comparaison de deux traitements (un des traitement est la référence,
constitution d’un groupe témoin recevant le traitement de référence) ou mise en évidence de l’effet
d’un traitement (constitution d’un groupe témoin recevant un placebo. Procédure « d’aveugle » où les
malades ne doivent pas savoir s’ils reçoivent le traitement ou le placebo. Procédure de « double aveugle »
si l’attribution du traitement ou du placebo se fait en plus à l’insu du médecin).
D - Inférence Statistique - Estimation et Tests d’hypothèses
3. Principe et résolution d’un test d’hypothèse
" A - Pensez-vous que la nature du traitement influe sur le taux de guérison en 5 jours ?
" B - Dans chacun des 2 groupes; on a noté le sexe de chaque individu.
Les proportions de femmes observées sont les suivantes : 52 % dans le groupe T1 et
49 % dans le groupe T2. Au risque d'erreur 5%, la différence entre les 2 pourcentages
observés est-elle significative ?
Ce résultat pouvait-il être attendu ?
" C - Sachant que sur les 104 femmes ayant suivi le traitement T1, 90 sont guéries et
que sur les 49 femmes ayant suivi le traitement T2, 40 sont guéries, pensez-vous que
la guérison soit liée au sexe, quel que soit le traitement suivi?
Exercice Traitement contre la grippe tests bilatéraux
P=(200x0.875+100x0.7)/(200+100)=0.817
(la plus petite quantité à comparer à 5 étant 0.183x100=18.3 est bien > 5,
on peut appliquer l’approximation normale des fluctuations d’échantillonnage)
0.875 - 0.700
ε0 = = 3.695 , αo=2x0.0001
1 1
0.817 x0.183 ( + )
200 100
Situation expérimentale
" B– P01 = 0,52 ; P02 = 0.49 ; P=0.51 ,
(la plus petite quantité à comparer à 5 étant 0.49x100=49 est bien > 5)
0.52 - 0.49
ε0 = = 0.490 ; α0 = 2x0.312 = 0.624
1 1
0.51x0.49 ( + )
200 100
décision : α=5% ! Ho acceptable ; (jusqu’à α=62.4%!)
La différence entre les 2 pourcentages n’est pas significative au seuil de 5 %
P=0.817 , εo=1.52 ; αo=0.064x2=0.128 (la table de la loi normale centrée réduite donne αo/2)
(la plus petite quantité à comparer à 5 étant 0.183x100=18.3 est bien > 5)
0.850 - 0.782
ε0 = = 1.52 ; α0 = 2x0.064 = 0.128
1 1
0.817 x0.183 ( + )
153 147
décision : α=5% ! Ho acceptable (jusqu’à 12.8 %!!);
Au seuil de 5 %, les différences ne sont pas assez significatives pour que l’on puisse
dire que le taux de guérison soit lié au sexe quelque soit le traitement suivi
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
σ Risque seuil α
ENCADREMENT DE Xo
Risques αo et β
Echantillon
• taille : n (n_échantillon)
Population • représentatif
• taille ?
• Xo : observée
• Inaccessible
• µ : caractéristique connue ou supposée connue
• (résultant par ex d’études menées sur de nombreux échantillons)
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
• Loi suivie par X0 : il sera nécessaire de vérifier que X0 (le cas échéant X)
• Connaissance de σ (population) ?
• Théorème « central limit »
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
! Lorsque la loi de distribution suivie par la variable d'étude X est normale dans la
population, X 0 est réellement distribuée normalement
! Lorsque la loi de distribution suivie par la variable d'étude X n'est pas connue dans la
population, on peut considérer que X 0 est distribuée normalement, dès que n ≥ 30
! Si n < 30 : il est parfois possible d'émettre l'hypothèse que la variable d'étude X est supposée
distribuée normalement dans la population (souvent le cas en biologie) ou au moins que la distribution
est symétrique. Dans le cas contraire, on ne pourra pas traiter le problème en utilisant la loi normale.
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
Intervalle de pari ,
au risque α , encadrant les valeurs de X 0 observables dans un
échantillon tiré au hasard d’une population caractérisée par le
paramètre exact µ (caractéristique) :
σ2 σ2
µ − εα / 2 n
≤ X0 ≤ µ + εα / 2 n
La probabilité de trouver X 0 dans cet intervalle est (1-α)
Seuil standard : α = 5 %
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
Chez ces sujets, le taux d’une enzyme y est supposée distribuée normalement
2) Sur les 100 valeurs observées, combien de valeurs observées de la moyenne vous
attendez-vous à trouver dans cet intervalle ?
4) Sur les 100 ICα construits au risque α, combien en moyenne recouvrent la valeur
exacte µ = 1 mg/ml ?
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
Intervalle de pari ,
au risque α , encadrant les valeurs de X0 observables dans un échantillon tiré au
hasard d’une population caractérisée par le paramètre exact µ (caractéristique) :
σ02 σ02
µ − t α/2 ≤ X0 ≤ µ + t α/2
n n
La probabilité de trouver X0 dans cet intervalle est (1-α)
[seuil standard : α = 5 %]
Intervalles de confiance
On part des seules informations disponibles : Xo et n
Risques αo et β
Echantillon
• taille : n (n_échantillon)
• représentatif
Population
• Xo : observée
• taille ?
• Inaccessible
• µ : caractéristique théorique ou attendue
D - Inférence Statistique - Estimation et Tests d’hypothèses
4. Fluctuations d’échantillonnage d’une moyenne observée
X0 − εα / 2 σ2
n
≤ µ≤ X0 + εα / 2 σ2
n
Seuil standard : α = 5 %
X0 − α/2t σ02
n
≤ µ ≤ X0 + α/2 t σ02
n
Seuil standard : α = 5 %
(X 0 − µ )
Critère de test : ε 0 = , suivant la loi normale centrée réduite
σ2
n
Un laboratoire de recherche étudie, sur une nouvelle espèce de vers (C. marginalus),
les gènes pouvant être impliqués dans la mort programmée. Chez ces vers, la durée
de vie est caractérisée par une moyenne exacte µ = 250 heures et un écart-type
exact σ = 24 heures.
Situation d’expérience
Dans ce cas, on se base sur la seule connaissance de σO (calculé à partir des données de
l'échantillon). Contrairement à σ2/n, σO2/n n'est plus une constante mais une variable
aléatoire suivant une loi de distribution de Student. Le critère de test utilisé sera to, à (n-1)
degré de liberté. On se servira de la table échantillonnée de Student pour trouver les
valeurs de la probabilité αO connaissant to ou celles de to connaissant αO . La distribution de
Student est symétrique ; elle pourra dans la pratique être approchée, avec peu d'erreur, par
une distribution normale lorsque n est suffisamment grand ( n> 30, théorème central limite ).
( X 0 − µ)
Critère de test : t 0 =
Condition d’application :
σ0
2
Un laboratoire de recherche étudie, sur une nouvelle espèce de vers (C. marginalus),
les gènes pouvant être impliqués dans la mort programmée. Chez ces vers, la durée
de vie est caractérisée par une moyenne exacte µ = 250 heures.
Situation d’expérience
Tests d’homogénéité
On part des seules informations disponibles : Xo1, Xo2 et n1, n2
Risque seuil α
Risques αo et β
Echantillon 1 Echantillon 2
• taille : n1 (n1_échantillon) • taille : n2 (n2_échantillon)
• représentatif • représentatif
• X01 : observée • X02 : observée
σ 01 2
Critère de test : F=
σ 022
Test F
Ho : µ1 - µ2 = 0
On se servira de la table échantillonnée de la loi normale centrée réduite pour trouver les
valeurs de la probabilité αO connaissant εo ou celles de εo connaissant αO .
Critère de test : ε =
( X01 − X02 ) - 0
0
2 2
σ 01 σ 02
+
n1 n2
Critère de test : t0 =
( X01 − X02 ) - 0
1 1
σ02 ( + )
n1 n2
On se sert de la table échantillonnée de la loi de student pour trouver les valeurs de la
probabilité αO connaissant to ou celles de to connaissant αO .
Attention : le nombre de degrés de liberté est ici : (n1+n2-2) ddl
!Test F préalable sur les variances observées pour pouvoir calculer la variance commune
si elle existe (Ho : σ1=σ2, hypothèse d’égalité des variances des 2 populations, acceptable)
L’approximation de la variance supposée commune des variables étudiées est alors :
2 2
2 (n1 - 1)σ 01 + (n2 - 1)σ 02
σ0 = Si le test F échoue, on ne peut pas conclure à l’égalité
Qu’en pensez-vous?
Exercice "Une production machine-dépendante ?"
Ho : µ1- µ2 = 0
51- 49
t0 = = 1.35 ; à (5 + 5 - 2) = 8 ddl
1 1
5.5 ( + )
5 5
Ho est acceptable, au moins jusqu’au seuil de 10%, et même 20 % (to pour 20% est 1.39)
les différences sont imputables au hasard des fluctuations d’échantillonnage.
On ne peut affirmer sans risque de se tromper que la production est machine dépendante.
D - Inférence Statistique - Estimation et Tests d’hypothèses
5. Comparaison de 2 variances observées / de 2 moyennes observées
On veut comparer maintenant la production de la première machine avec celle d’une autre
machine. Les statistiques figurent ci-dessous. Le laborantin soupçonne toujours une
production dépendante de la machine.
Qu’en pensez-vous?
Exercice "Une production machine-dépendante ?"
Fo = 12.5/7.5 = 1.67
Cette valeur est plus petite que F0.25 (2.06) lue sur la table de Fisher
à 4 ddl au numérateur (intervenant dans le calcul de la première variance)
et 4 ddl au dénominateur (intervenant dans le calcul de la deuxième variance).
Ho est donc largement acceptable (jusqu’au risque seuil de 25 %)
et l’on peut calculer une variance commune :
2 4x7.5 + 4x12.5
σ0 = = 10
(5 − 1) + (5 − 1)
Exercice "Une production machine-dépendante ?"
(suite)
Ho : µ1- µ2 = 0
56 - 49 7
t0 = = = 3.5 ; à (5 + 5 - 2) = 8 ddl
2
1 1
10 ( + )
5 5
ε0 =
d-0
Critère de test :
σ02
n
On se sert de la table échantillonnée de la loi normale centrée réduite pour trouver les
n 2
σ0
2 1
On utilise la variance expérimentale des différences , = ∑ (d − d)
i
n est le nombre de paires n-1 i =1
t0 =
d-0
Critère de test :
σ02
n