Tests

Télécharger au format xls, pdf ou txt
Télécharger au format xls, pdf ou txt
Vous êtes sur la page 1sur 41

Introduction aux tests d'hypothèses

Plan
1 Exemple introductif 1

2 Les erreurs 3

3 Test sur une moyenne 5

4 Test sur une proportion 6

5 Test unilatéral 8

6 Test sur deux moyennes 9

7 Test du khi-deux 12

8 Introduction à l'analyse de variance 18

1. Exemple introductif

Exemple 1

Un journal affirme que le budget "de vie" moyen d'un étudiant est de:
700 € par mois. Vous prenez un échantillon de 100 personnes
et vous trouvez un budget moyen de 750 € avec un écart-type s = 200 €

Questions
è La différence avec l'affirmation du journal est-elle "significative" ?
4
è Est-elle due au "hasard de l'échantillonnage"?

è Le journal a-t-il "tort ou raison" ?

Classeur : "TESTS" - Feuille "Cours" - Page 1


Problématique du test

Un test utilise des données pour prendre une décision sur une hypothèse :

accepter ou refuser
Bien évidemment, on ne sait pas si l'hypothèse est vraie ou fausse ; si on le savait, il n'y
aurait pas de problème de décision (il suffirait de l'accepter quand elle est vraie et de la
rejeter quand elle est fausse).
Dans un test, une hypothèse est privilégiée, on l'appelle l'hypothèse nulle et on la note
généralement (H0). Il s'agit en quelque sorte de l'hypothèse par défaut.

Le but du test est d'essayer de "contredire" cette hypothèse nulle.

Dans notre exemple, l'hypothèse nulle sera (H0) m = 700

Utilisation de l'intervalle de confiance


On peut construire un intervalle de confiance pour la moyenne à partir de l'échantillon.
L'intervalle de confiance est calculé par EXCEL pour un niveau de confiance de 95%

est [ ### ### ]


Note: on néglige le terme correcteur

Commentaires
Nous pouvons dire qu'il y a 95 chances sur 100 que la moyenne m de la population
dont est extrait cet échantillon, soit à l'intérieur de cet intervallle.
Il y a au plus 5% de chances pour que la moyenne de la population dont cet échantillon
est extrait, soit à l'extérieur de l'intervalle.
On peut aussi dire que cet intervalle constitue :
l'ensemble des hypothèses acceptables avec un seuil de confiance de 95%

Attention cela ne veut pas dire que l'on a 95 chances sur 100 d'avoir raison
en acceptant une telle hypothèse, nous verrons pourquoi plus loin.
Décision
700 est en dehors de l'intervalle. L'hypothèse (H 0) est très peu probable.
Au seuil de signification de 5% nous rejeterons l'hypothèse (H 0).

En rejetant l'hypothèse, nous connaissons le risque d'erreur,


il est au plus égal au seuil de signification choisi, c'est à dire 5%

Nous allons maintenant préciser un peu cette notion d'erreur.

Classeur : "TESTS" - Feuille "Cours" - Page 2


2. Les erreurs

Un test est un critère statistique permettant de vérifier une hypothèse sur une population
à partir d'un échantillon.

(H0) Vraie Fausse


Décision

Accepter Correct Erreur de


(ne pas refuser) 2-ième espèce

Refuser Erreur de Correct


1-ière espèce

On ne décide pas que l'hypothèse est vraie ou fausse.


La décision que l'on prend est d'accepter ou de refuser l'hypothèse

Supposons ici que l'on teste l'hypothèse nulle :

(H0) m = m0

à l'aide d'un échantillon sur lequel on a calculé une valeur m pour la moyenne

On prend une décision en étudiant la différence entre µ et µ0

Si on refuse l'hypothèse, on se trompe lorsqu'elle est vraie (erreur de première espèce).


Et si l'hypothèse (H0) est vraie, cela veut dire que c'est le hasard de l'échantillonage
qui a produit la différence entre m et m0.

On appelle a, la probabilité de l'erreur de première espèce, c'est à dire la probabilité de refuser


à tort l'hypothèse (H0). On dira aussi que a est le seuil de signification du test.

Classeur : "TESTS" - Feuille "Cours" - Page 3


Si on refuse l'hypothèse, on pourra dire

- que la probabilité de se tromper est au plus égale à a


- que la différence observée est (statistiquement) significative au seuil a
- que la différence nous apparaît trop importante pour être attribuée au hasard
de l'échantillonnage.

Si l'on accepte l'hypothèse (H0),

on se trompe lorsqu'elle est fausse (erreur de deuxième espèce)


Nous n'étudierons pas ici, les erreurs de deuxième espèce.

Attention : cela veut dire qu'en acceptant l'hypothèse, vous ne pourrez pas donner le risque
d'erreur

Tout ce que l'on peut dire en acceptant l'hypothèse est que la différence
entre m et la valeur de référence m0

- n'est pas (statistiquement) significative,


- qu'elle n'est pas assez grande pour rejetter l'hypothèse (H0) (selon laquelle
c'est le hasard qui l'a produite).
- qu'il est acceptable qu'elle soit due au hasard.

Classeur : "TESTS" - Feuille "Cours" - Page 4


3. Test sur une moyenne

3.1 Méthodologie

a/ Formuler l'hypothèse nulle et l'hypothèse alternative.

(H0) µ = 700
(H1) µ <> 700 Il s'agit ici d'un test bilatéral

b/ Choisir le seuil de signification du test.


= risque de première espèce.
= risque de rejeter l'hypothèse nulle alors que celle-ci est bonne.
a = 5.00% (seuil courant pour des problèmes de gestion)

c1/ Déterminer l'intervalle de confiance


Le niveau de confiance de l'intervalle est égal à 1- a = 95%
On utilise la loi de Student (même si ici une approximation normale serait acceptable)
t= 1.98
Estimation de sm s / racine (n) = 20.00

L'intervalle de confiance est donc : [ 710.32 ; 789.68


Note: on néglige le terme correcteur

d1/ Prendre la décision

700 n'est pas dans l'intervalle, donc on rejette l'hypothèse (H 0)


Dans ce cas, puisqu'on rejette (H0), on peut dire que le risque d'erreur est inférieur
ou égal à 5%.
En effet, on se trompe quand cette hypothèse est vraie et lorsqu'elle est vraie, il y a
au plus 5% de chances d'avoir la valeur du paramètre inconnu m à l'extérieur de
l'intervalle!

Attention, lorsque l'on accepte l'hypothèse nulle, par contre, on ne peut pas donner
aussi facilement le risque d'erreur qui est le risque de deuxième espèce, c'est à dire
la probabilité d'accepter à tort l'hypothèse nulle.

Classeur : "TESTS" - Feuille "Cours" - Page 5


3.2 Variante méthodologique après a/ et b/

C2/ Calcul du rapport tcalc


(Remarque : dans le cas
m−µ 0
d'une approximation normale, t calc =
on appelle ce rapport Zcalc) ici, tcalcs=/ √2.5n

Par la suite, pour prendre la décision, on peut procéder de deux manières:

d2/ Prise de décision


on détermine le "t" (ou le "Z") correspondant à a : tl= 1.9842
Si tcalc >= tl (ce qui est le cas ici), on rejette l'hypothèse (H0), sinon on l'accepte

d3/ Prise de décision

- on lit dans la table (ou on cherche avec EXCEL), la probabilité bilatérale correspondant à t

On l'appelle "p-valeur"

p = 0.0141

Cela signifie que


lorsque (H0) est vraie,
il y a une probabilité très faible (0,0141)
que le hasard produise un tel écart entre m et µ0.
Si on rejette (H0), on a au plus 1,41 chances sur 100 de se tromper
Dans la pratique, cette dernière méthodologie (p-valeur est la plus utilisée)

Classeur : "TESTS" - Feuille "Cours" - Page 6


4. Tests sur une proportion
Le principe d'un test sur la proportion est identique ; traitons un exemple :

Exemple 2
Un journal affirme que 35% des Français lisent quotidiennement
un journal.
Sur un échantillon aléatoire de 200 personnes, on trouve 60
personnes dans ce cas. Tester l'exactitude de cette affirmation avec un
seuil de signification de 0.05

a/ Formuler l'hypothèse nulle et l'hypothèse alternative.

(H0) p = 0.35 Test bilatéral


(H1) p <> 0.35

b/ Choisir le seuil de signification du test.


= risque de première espèce.
= risque (acceptable) de rejeter l'hypothèse nulle alors que celle-ci est bonne.
a = 5.00% (seuil courant pour des problèmes de gestion)

c/ Calcul de Zcalc pe = 0.3


spe 0.0337
Zcalc mesure à combien p e −p
Z calc =
on utilise la formule racine(p(1-p)/n)
d'écart-types, correspond l'écart entre car on suppose que (H0) est vraie
pe et p σ pe et on suppose que la population est

Zcalc = -1.4825 très grande et C est donc négligé

d/ Prise de décision

La p-valeur est : 0.1382


on utilise la fonction LOI.NORMALE.STANDARD(-1,48) et on multiplie par 2 pour avoir la valeur bilatérale.

La p-valeur étant supérieure au seuil de


signification, on ne peut pas rejeter (H0)
le risque d'erreur serait supérieur au
risque maximal tolérable.

On accepte donc (H0)

mais on ne connaît pas

le risque d'erreur.

Classeur : "TESTS" - Feuille "Cours" - Page 7


5. Test unilatéral
Les tests décrits précédemment étaient bilatéraux en ce sens qu'ils permettaient
de tester l'hypothèse nulle : (H0) m = mo
contre l'hypothèse : (H1) m <> mo
On rejetait l'hypothèse (H0) dans le cas d'un écart important d'un côté ou de l'autre de m0.
Parfois, on souhaite mettre en évidence une différence "dans un sens particulier" par rapport à µ
Par exemple, on peut souhaiter prouver qu'une performance est significativement supérieure
à une valeur de référence m0 ; ou alors qu'un niveau de défaut est significativement inférieur
à une valeur de référence.
Dans ce cas, on emploiera un test unilatéral.
Naturellement, si le test bilatéral "fonctionne", c'est à dire s'il permet de rejeter l'hypothèse (H0),
on peut tout aussi bien conclure, mais dans le cas contraire, un test unilatéral peut être plus performant en
permettant de rejeter (H0)
En "privilégiant un un sens", le test unilatéral peut permettre de mettre en évidence une
différence qui n'apparaîtrait pas avec un test bilatéral.

Exemple 3
Vous devez décider d'adopter ou non un nouveau procédé de fabrication qui doit vous permettre
de réduire vos coûts variables.
Pour des raisons de coûts de mise en œuvre, vous ne l'adopterez que si le coût unitaire
de production devient inférieur à 30 € grâce au nouveau procédé.
Avec un échantillon de 60 pièces, vous trouvez un coût moyen de 29 € par unité (écart-type : 4)
Ce résultat est-il significativement inférieur à l'objectif des 30 € ?

a/ Hypothèses (H0) m >= 30 (H1) m < 30

b/ Seuil de signification a = 0.05

c/ Calcul de tcalc
tcalc = -1.936
m−µ 0
t calc =
s / √n
d/ Prise de décision

on calcule la p-valeur p= ###

Dans la mesure ou p est inférieur à 0,05,


on peut rejeter (H0)
µ est significativement inférieur à 30.

Classeur : "TESTS" - Feuille "Cours" - Page 8


6. Test sur 2 moyennes

Un problème fréquemment rencontré est le suivant :


On a deux échantillons et on voudrait pouvoir juger si leurs moyennes m1 et m2 sont
significativement différentes.
L'idée est de s'intéresser à la distribution d'échantillonnage de la différence des moyennes
m1 et m2 de ces deux échantillons supposés extraits de manière aléatoire de
deux populations de moyennes m1 - m2 2 et d'écart-types s1 et s2.
de manière à pouvoir estimer m1 - m2 2 et faire un test.

6.1 Echantillons indépendants


par exemple un échantillon de notes d'un groupe d'étudiants au premier semestre
et un échantillon de notes d'un autre groupe au second semestre.

6.1.1 Ecart-types s1 et s2 connus

on peut alors estimer µ1 - µ2 par l'intervalle de confiance

s21 s22
m 1 −m 2 ± Z
Dans le cas ou s1 = s2 = s, la formule devient :
√ n1
+
n2

1 1

Mécanique du test
m 1 −m 2 ± Z s
√ +
n1 n 2

Lorsque l'on veut comparer 2 échantillons, en testant la différence entre les 2 moyennes,
il suffit de prendre comme hypothèse nulle:

(H0) : m1-m2 = 0

Ce qui veut dire que si cette hypothèse est vraie, les 2 échantillons proviennent de populations
de moyennes identiques, et que donc la différence observée n'est pas significative, elle est due
au "hasard de l'échantillonnage".

La suite du test est classique, il suffit de calculer l'intervalle de confiance donné plus haut,
et on peut alors rejetter l'hypothèse nulle si 0 n'appartient pas à cet intervalle.
ou alors calculer la p-valeur et conclure.

Classeur : "TESTS" - Feuille "Cours" - Page 9


6.1.2 Ecart-types s1 et s2 inconnus

Si on suppose que s1 = s2 = s,

on peut estimer s epar la statistique sp


(n 1- 1 ) s 21 +(n 2- 1 ) s22
(appelée écart-type du pool)
sp =
√ n 1 +n 2- 2
et on montre que la variable (m 1 -m 2 ) - ( μ 1 −μ 2 )
t=
1 1
sp
suit une loi de Student à n1+n2-2 degrés de liberté √ +
n1 n2

Ceci à condition que les populations d'origine soient normalement distribuées dans le cas
où les échantillons sont de petite taille.
Dans le cas où les échantillons sont de taille plus importante (>30) , c'est moins important
et en plus on peut remplacer t par son approximation : Z

Dans la pratique, avec EXCEL, on utilise la fonction TEST.STUDENT

Exemple 4
Le directeur d'un fast-food hésite entre 2 types de promotions (offre 1 et offre 2)
Il fait distribuer des bons correspondant à ces offres à deux échantillons aléatoires d'étudiants Grenoblois.
Au bout d'une semaine, 14 étudiants ayant eu un bon pour l'offre 1 et 12 étudiants
ayant eu un bon pour l'offre 2 sont venus au restaurant et on dépensé
les sommes suivantes (en francs). On veut savoir s'il existe une différence
significative entre les 2 offres.

Offre 1 Offre 2
27 18 m1 = 29.71 s1 = 13.57
25 22 m2 = 25.92 s2 = 8.67
18 24
7 26 Hypothèses (H0) µ1 = µ2 test bilatéral
48 19 (H1) µ1 <> µ2
39 33
26 34 Calcul p-valeur ###
55 32 (on suppose que les variances des populations sont égales)

29 26
12 42 Décision
23 9 on peut ne peut pas rejeter (H0) au seuil de 5%
28 26 la différence n'est pas significative.
33
46

Classeur : "TESTS" - Feuille "Cours" - Page 10


6.2. Echantillons dépendants ou appariés
Présentation
Les tests sur échantillons appariés sont adaptés aux études du type "avant-après"
exemple, on compare les notes des 2 semestres mais en utilisant le même groupe d'étudiants.
(note X1 eu premier semestre et X2 au second semestre)
Dans ce cas, on calcule la différence D = X1-X2 pour chaque étudiant et on traite alors la
variable D comme on le ferait pour un seul échantillon.

Si mD est la moyenne calculée sur l'échantillon, on peut alors donner un intervalle


de confiance pour la différence moyenne dans la population : mD

sD
mD ± t
√n
Ceci dans le cas où l'écart-type de la population est inconnu.
SD est alors l'écart-type de D calculé à partir de l'échantillon.

Dans la pratique, avec EXCEL, on utilise la fonction TEST.STUDENT

Exemple 5: les réactions à une annonce


On désire tester une certaine pub pour savoir si elle atteint son but : à savoir créer un
état de détente, de relaxation.
On réalise un test à partir d'un échantillon de 15 personnes avant et après avoir vu la pub
Le questionnaire comporte de nombreuses questions ; l'une d'entre elles est
d'exprimer leur sensation à l'aide d'une échelle allant de 1 (très tendu) à 5 (complètement
détendu)
Les scores obtenus sont les suivants :

avant après m1 2.8 seuil 0.05


Personne 1 3 2 m2 ###
Personne 2 2 2
Personne 3 2 2 Hypothèses (H0) µ1 >= µ2 unilatéral
Personne 4 4 5 (H1) µ1 < µ2
Personne 5 2 4
Personne 6 2 1 p-valeur 0.0136
Personne 7 1 1
Personne 8 3 5
Personne 9 3 4 Décision
Personne 10 2 4
Personne 11 5 5 la p-valeur est < 0,05. on peut rejeter (H0)
Personne 12 2 3 l'état de relaxation est significativement
Personne 13 4 5 amélioré
Personne 14 3 5
Personne 15 4 4

Classeur : "TESTS" - Feuille "Cours" - Page 11


7. Le test du khi-deux

7.1 Introduction : Comparaison de plusieurs proportions


Nous avons vu un test portant sur une proportion dans un échantillon.
Nous allons maintenant voir un test permettant de comparer plusieurs proportions

Exemple 6

3 sociétés: A, B, et C se partagent le marché d'un certain produit.


Les parts de marché étaient stabilisées à 30 % pour A, 50% pour B et 20% pour C,
mais C vient de réaliser une innovation importante et voudrait mesurer son effet sur
les parts de marché.

3 acteurs sur un marché

C A
27% 24%

B
49%

Sur un échantillon de 200 consommateurs, on obtient les résultats suivants:

A B C
48 98 54

On peut se poser la question:

"Les proportions (ou fréquences) obtenus sont-ils les mêmes qu'auparavant ?"

que l'on peut aussi formuler autrement:

Est-ce que notre échantillon met en évidence une"différence significative"


par rapport aux anciennes parts de marché.

Classeur : "TESTS" - Feuille "Cours" - Page 12


7.2. Méthodologie du test

La démarche à suivre pour un test du KHI-DEUX est très voisine de la démarche du test
sur une moyenne ou une fréquence.

1 Enoncer les hypothèses.


l'hypothèse nulle correspond aux anciennes fréquences
(H0) f(A) = 0.3 f(B) = 0.5 f(C) =
(H1) au moins une des fréquences a changé

2 Déterminer les effectifs théoriques


De manière classique, nous allons alors faire des calculs théoriques qui
présupposent que l'hypothèse d'indépendance est vraie.
Sur un échantillon de 200 personnes, on pourrait s'attendre aux
"effectifs théoriques" suivants : A B C
60 100 40
Mais ces effectifs sont "théoriques": même si (H0) est vraie, le hasard peut introduire
des variations par rapport à ces effectifs théoriques.
C'est justement cet effet du hasard que nous allons mesurer...

3 Calculer le Khi2 à partir des Eth et des Eobs : Khi2c

(Eobs - Eth)²
Khi2c = S ----------- = S ( 2.40 0.04 4.90 ) =
Eth

4 Déterminer à l'aide de la table, la valeur limite : Khi2l

- seuil de signification choisi = 5%


- nombre de degrés de liberté = nombre de catégories moins 1 2 ATTENTION !
- la valeur limite est: Khi2l = 5.99

5 Prendre la décision Khi2c > Khi2l

L'hypothèse (H0) est refusée au seuil de 5%


c'est à dire avec un risque d'erreur au plus égal à 5%

Autre méthode plus rapide: on calcule directement la p-valeur


La p-valeur est donnée directement par la fonction
TEST.KHIDEUX(plage_réelle;plage_attendue)
on trouve une p-valeur égale à 0.0255
comme elle est inférieure au seuil de signification, on peut rejeter (H0)

Classeur : "TESTS" - Feuille "Cours" - Page 13


7.3 Test d'indépendance de deux caractères qualitatifs

La même démarche peut être utilisée pour tester l'indépendance de deux


caractères qualitatifs, ainsi que nous allons le voir sur l'exemple suivant :

Exemple 7
La brasserie ZOKIRCH produit 3 types de bières : légère, blonde et brune.
Le service marketing, constamment à l'écoute des consommateurs, réalise une étude.
Dans cette étude, deux des caractères étudiés sont : le sexe et le type de bière préféré
On obtient le tableau de contingence suivant :

Légère Blonde Brune Total


Féminin 28 32 10 70
Masculin 20 40 20 80
Total 48 72 30 150

On peut se poser la question:

"Les pourcentages (ou fréquences) obtenus sont-ils les mêmes pour chaque catégorie ?"
que l'on peut aussi formuler autrement:

"Y-a-t-il indépendance entre le sexe et le type de bière préférée ?"

Nous allons suivre la même méthodologie que précédemment


1 Enoncer les hypothèses.
l'hypothèse nulle est l'hypothèse d'indépendance des deux caractères
(H0) le type de bière préférée est indépendant du sexe du buveur.
(H1) le type de bière préférée est indépendant du sexe du buveur.
De manière classique, nous allons alors faire des calculs théoriques qui
présupposent que l'hypothèse d'indépendance est vraie.
Même si cette hypothèse d'indépendance est vraie, le hasard peut introduire
des variations dans les préférences.
C'est justement cet effet du hasard que nous allons mesurer...

2 Déterminer les effectifs théoriques :

(total ligne) (total colonne)


Eth = ------------------------------
grand total

Légère Blonde Brune Total


Féminin 28 32 10 70
22.40 33.60 14.00
Masculin 20 40 20 80
25.60 38.40 16.00

Classeur : "TESTS" - Feuille "Cours" - Page 14


Total 48 72 30 150

2 Calculer le Khi2 à partir des Eth et des Eobs : Khi2c

On fait le calcul des "khi-deux partiels" pour chaque case du tableau.


1.400 0.076 1.143
1.225 0.067 1.000

et on en fait la somme:

(Eobs - Eth)²
Khi2c S ----------- = 4.91
Eth

3 Déterminer à l'aide de la table, la valeur limite : Khi2l

- seuil de signification choisi : = 5%

- nombre de degrés de liberté: D = (Nl-1)(Nc-1) = 2


(Nl est le nombre de lignes et Nc est le nombre de colonnes)

- la valeur limite est: Khi2l = 5.99

4 Prendre la décision Khi2c < Khi2l


L'hypothèse d'indépendance des caractères est acceptée avec un seuil de
signification de 5 %.

Autre méthode plus rapide: on calcule directement la p-valeur


La p-valeur est donnée directement par la fonction
TEST.KHIDEUX(plage_réelle;plage_attendue)

28 32 10 22.4 33.6 14
20 40 20 25.6 38.4 16

on trouve une p-valeur égale à 0.0858


comme elle est supérieure au seuil de signification, on ne peut pas rejeter (H0)
on n'a pas mis en évidence de lien significatif entre les caractères.

Classeur : "TESTS" - Feuille "Cours" - Page 15


7.4 L'ajustement analytique

Le test du khi-deux peut enfin servir à mesurer l'adéquation d'une distribution observée à une
distribution théoriqu

Exemple 8

Adéquation à une loi de Poisson

Une chaîne d'agences de voyages désire étudier la qualité de ses prestations de


service dans les trois agences qui font le plus gros C.A. elle fait établir par
un bureau d'études la distribution empirique des arrivées de la clientèle à ses
guichets en notant le nombre de personnes Xi entrant dans ces agences pour chacune
des n = 2000 périodes de 2 min choisies aléatoirement dans les 3 heures les plus
chargées de la journée.

Xi ni pi Ethi khi2
0 163 0.083 ### ###
1 418 0.206 ### ###
2 500 0.257 ### ###
3 437 0.214 ### ###
4 270 0.133 ### ###
5 128 0.066 ### ###
6 57 0.028 ### ###
7 19 0.010 ### ###
8 8 0.004 ### ###
2000 1 2000 ###

600

500

400

300

200

100

0
0 1 2 3 4 5 6 7 8

Hypothèse testée : La distribution observée est en adéquation avec une


distribution de Poisson.

Classeur : "TESTS" - Feuille "Cours" - Page 16


Estimation de la moyenne m sur les 2000 personnes.
Il faut calculer la moyenne des Xi, mais attention, en pondérant les valeurs Xi par les effectifs ni
Le résultat est alors (regarder bien la formule utilisée)
m= 2.494
Ayant estimé m, qui est aussi le paramètre de Poisson, il est possible de calculer les "pi"
pi = p(X=Xi)
On en déduit alors les effectifs théoriques Ethi en multipliant ces pi par n (la taille de l'échantillon)
On peut alors calculer les khi2 partiels (l'écart au carré entre effectif théorique et effectif
observé (ei) divisé par l'effectif théorique).

Le khi2 calculé est finalement la somme de tous ces khi2 partiels.

On trouve : Khi2c = ###

Le khi2 limite est trouvé grâce à la fonction KHIDEUX.INVERSE


Si le seuil de signification du test est : a = 0.05

Khi2l = ### Remarque : le nombre de degrés de liberté est


égal à 9-1-1 = 7
Il faut enlever un degré de liberté de plus car
on a estimé un paramètre (m)

Décision :
Khi2c < Khi2l, donc on accepte l'hypothèse d'adéquation
à une loi de Poisson.
La différence n'est pas significative au seuil choisi

Classeur : "TESTS" - Feuille "Cours" - Page 17


8. Introduction à l'analyse de variance
L'analyse de variance (ANOVA) peut être vue dans un premier temps comme la
généralisation du test de comparaison de 2 moyennes. Nous allons maintenant
nous intéresser à la comparaison d'un nombre d'échantillons plus grand que 2.

Exemple 9
Votre entreprise achète des composants électroniques chez 3 fournisseurs différents
L'avantage est de pouvoir mieux négocier les prix et les délais de livraison mais le risque
risque peut être d'avoir une moins bonne assurance de qualité.

A B C
75 94 90
72 87 86
87 80 92
77 86 75
84 80 79
82 67 94
84 86 95
81 82 85
78 86 86
97 82 92
85 72 92
81 77 85
95 87 87
81 68 86
72 80 92
89 76 85
84 68 93
73 86 89
74 83
86
90

Nous pouvons calculer les moyennes de ces 3 échantillon m1 m2 m3


82.056 80.667 87.684
La question que l'on se pose est la suivante :
Ces moyennes sont-elles significativement différentes ?

Les hypothèses
(H0) m1 = m2 = m3
(H1) mi <> mj pour au moins un couple (i,j)

Les conditions à respecter


- Les populations d'origine sont normalement distribuées
- Les écart-types de ces populations sont égaux

Classeur : "TESTS" - Feuille "Cours" - Page 18


Les calculs
On peut alors calculer une statistique appelée le F de Fischer

Cette statistique correspond au rapport entre la variance inter échantillons et la


variance intra échantillon.
Plus sa valeur est élevée, plus cela va nous pousser à rejeter l'hypothèse (H0)
c'est à dire à conclure à une différence significative entre les échantillons.

En pratique, nous allons comparer la valeur de F à une valeur critique (correspondant


à un certain seuil de signification choisi pour le test)
Si F est inférieur à cette valeur critique, (H0) est acceptable, sinon on pourra rejeter
(H0) ce qui revient à conclure à une différence significative entre les échantillons.
On peut également appliquer la méthode de la p-valeur

Les calculs avec EXCEL


Le plus simple est d'utiliser l'utilitaire d'analyse : "Analyse de variance : un facteur"
Dans notre exemple, les résultats fournis sont les suivants
(avec un seuil de signification a = 0,05)

Analyse de variance: un facteur

RAPPORT DÉTAILLÉ

Nombre
Groupes d'échantillons Somme Moyenne Variance

A 18 1477 82.056 50.761

B 21 1694 80.667 57.733

C 19 1666 87.684 27.339

ANALYSE DE VARIANCE
Valeur
Source des Somme des Moyenne des critique pour
variations carrés Degré de liberté carrés F Probabilité F
Entre
Groupes ### 2 269.081 5.897 0.005 3.165
A l'intérieur
des groupes ### 55 45.631

Total ### 57

Interprétation des calculs et décision

Puisque F (5,897) est supérieur au F critique (3,165), nous pouvons rejeter l'hypothèse
(H0) avec un risque d'erreur au plus égal à 5% (on peut même dire 5 pour mille
si l'on considère la probabilité critique.
Les écarts observés entre les échantillons sont extrêmement significatifs.

Classeur : "TESTS" - Feuille "Cours" - Page 19


èses

Classeur : "TESTS" - Feuille "Cours" - Page 20


e espèce).

é de refuser

Classeur : "TESTS" - Feuille "Cours" - Page 21


Classeur : "TESTS" - Feuille "Cours" - Page 22
]

Classeur : "TESTS" - Feuille "Cours" - Page 23


pondant à t

Classeur : "TESTS" - Feuille "Cours" - Page 24


i est bonne.

e racine(p(1-p)/n)
(H0) est vraie
a population est

donc négligé

Classeur : "TESTS" - Feuille "Cours" - Page 25


par rapport à µ0
supérieure
t inférieur

pothèse (H0),
tre plus performant en

ous permettre

cart-type : 4)

Classeur : "TESTS" - Feuille "Cours" - Page 26


populations
elle est due

Classeur : "TESTS" - Feuille "Cours" - Page 27


d'étudiants Grenoblois.

Classeur : "TESTS" - Feuille "Cours" - Page 28


étudiants.

Classeur : "TESTS" - Feuille "Cours" - Page 29


0.2

7.34

Classeur : "TESTS" - Feuille "Cours" - Page 30


rvée à une

Classeur : "TESTS" - Feuille "Cours" - Page 31


es effectifs ni

de l'échantillon)

Classeur : "TESTS" - Feuille "Cours" - Page 32


distribuées

Classeur : "TESTS" - Feuille "Cours" - Page 33


Classeur : "TESTS" - Feuille "Cours" - Page 34
Classeur : "TESTS" - Feuille "Cours" - Page 35
Exercices sur les tests

Exercice 1
Une chaîne de production a pour but de remplir des paquets avec 250g de café.
On dira que le process fonctionne correctement si la moyenne est
de 250g et l'écart-type de 4g.

Un échantillon aléatoire de 36 paquets est sélectionné.


On obtient une moyenne de 248,6 grammes
Faire un test au seuil de 5% pour déterminer si le process fonctionne bien
Même chose au seuil de 1%

Exercice 2
Un responsable associatif d'une école de commerce affirme que la consommation
annuelle cumulée d'alcool durant les soirées, est en moyenne de :
35 litres

Un échantillon aléatoire de 100 étudiants


donne une consommation moyenne de 27.68 litres
avec un écart-type échantillonnal de 3.96 litres
Pouvez-vous rejeter l'hypothèse du responsable
avec un seuil de 5% ?
avec un seuil de 1% ?

Classeur 527759714.xls - Feuille Exercices sur les tests - Page 36


Exercice 3

Un responsable achats d'un hyper prend un échantillon de 12


boites de haricots provenant de la production d'une conserverie. Il trouve
157.82 158.45 160.44 160.71 157.78 158.45
159.89 160.94 158.67 159.19 159.19 155.35
que la masse égouttée moyenne des haricots qu'elle met en boîte
est de 159.1 grammes, avec un écart-type échantillonnal égal à
1.5 La conserverie prétend que la masse égouttée moyenne
des haricots qu'elle met en boîtes est de 160 grammes.
Peut-on rejeter cette affirmation au seuil de signification de
5.00% ?

Exercice 4

On sait que le pourcentage de fumeurs dans la population des jeunes de 18-25 ans
est de 25%
Un échantillon aléatoire de 213 étudiants Sup de Co donne un pourcentage de
27.7%
La différence est-elle significative au seuil de 5%

Classeur 527759714.xls - Feuille Exercices sur les tests - Page 37


Exercice 5
Le responsable "emplois" d'une ESC prétend que 80.00% des diplômés de l'école
en Juin, trouvent un emploi avant le mois de novembre. Sur un échantillon de 60
étudiants diplmés en Juin, 40 ont trouvé un emploi avant novembre.
Peut-on rejeter l'affirmation du responsable emplois
un seuil de signification de 5.00% ?

Exercice 6
Le service de de production doit faire réparer une machine lorsque le nombre
d'articles défecteux dépasse 10% des articles produits.
Le pourcentage d'articles acceptables dans un échantillon de 100 articles est de 85
Déterminer si la machine doit être réparée.

Classeur 527759714.xls - Feuille Exercices sur les tests - Page 38


Exercice 7
On considère 2 échantillons.
Le premier est formé de 20 personnes toutes acheteuses d'une certaine marque de dentifrice.
Les âges de ces clients sont :
34 35 23 44 52 46
28 48 28 34 33 52
41 32 34 49 50 45
29 59
Le second de 20 personnes non acheteuses de ce dentifrice. Leurs âges sont:
28 22 44 33 55 63
45 31 60 54 53 58
52 52 66 35 25 48
59 61
Peut-on conclure à une différence significative entre les âges moyens des acheteurs et des
non-acheteurs (a = 0,05) ?

Exercice 8
On veut comparer les CA journaliers de 2 restaurants de la même ville.
Sur 12 jours séléctionnés au hasard sur une période de 6 mois on a les résultats suivants :

Jour Restaurant 1 Restaurant 2


1 mercredi 1,005 € 918 €
2 samedi 2,073 € 1,971 €
3 mardi 873 € 825 €
4 mercredi 1,074 € 999 €
5 vendredi 1,932 € 1,827 €
6 jeudi 1,338 € 1,281 €
7 jeudi 1,449 € 1,302 €
8 lundi 759 € 678 €
9 vendredi 1,905 € 1,782 €
10 lundi 693 € 639 €
11 samedi 2,106 € 2,049 €
12 mardi 981 € 933 €

Classeur 527759714.xls - Feuille Exercices sur les tests - Page 39


Exercice 9
On a fait un sondage auprès d'individus en milieu urbain et rural pour déterminer quels
types d'émission de télévision les gens préfèrent. On obtient les résultats suivants:

Western Comédie Policier Variétés Total


urbain 80 100 100 60 340
rural 70 70 50 40 230
total 150 170 150 100 570

Tester l'indépendance des goûts des gens pour les émissions de télé par rapport à leur mode de vie ?
a = 0,05

Exercice 10
Le tableau suivant présente les réactions de 400 électeurs à un projet
de loi, suivant le parti dont ils se sentent le plus proche.

Réaction
Parti favor. indif. opposé total
A 120 20 20 160
B 50 30 60 140
C 50 10 40 100
total 220 60 120 400

Tester l'hypothèse nulle suivant laquelle les réactions des électeurs


sont indépendantes de leur appartenance à l'un ou l'autre des partis.
Seuil de signification: 1.00%

Classeur 527759714.xls - Feuille Exercices sur les tests - Page 40


Exercice 11
Distances parcourues par des balles de golf de 4 marques différentes A, B, C, D.
Pour chaque marque 10 balles sont lancées par un robot lanceur. On observe:

A B C D
251.2 263.2 269.7 251.6
245.1 262.9 263.2 248.6
248 265 277.5 249.4
251.1 254.5 267.4 242
260.5 264.3 270.5 246.5
250 257 265.5 251.3
253.9 262.8 270.7 261.8
244.6 264.4 272.9 249
254.6 260.6 275.6 247.1
248.8 255.9 266.5 245.9

Faites un test sur les ditances moyennes parcourues

Classeur 527759714.xls - Feuille Exercices sur les tests - Page 41

Vous aimerez peut-être aussi