Statistiques
Statistiques
Statistiques
net/publication/353889473
CITATIONS READS
0 449
1 author:
Jean Bégin
Gouvernement du Québec
65 PUBLICATIONS 926 CITATIONS
SEE PROFILE
All content following this page was uploaded by Jean Bégin on 13 August 2021.
La statistique descriptive
Introduction et concepts de base
Concepts de base
Le cas qualitatif: tableau de contingences
Le diagramme de corrélation (dispersion)
La droite de régression
Prédiction à l'aide de la droite de régression
Le coefficient de détermination
Le coefficient de corrélation
Interprétation et limites
L'inférence statistique
Concepts de base de la théorie des probabilités
file:///C|/B%20-%20Jean/PSY1300/plan.html[2020-04-30 09:31:03]
Plan du cours
Arrangements et combinaisons
Distributions de probabilités
La distribution binômiale
La distribution normale
La règle empirique
Approximation de la binômiale par une normale
La distribution de Poisson
Terminologie de l'estimation
Estimation par intervalles: concepts de base
Propriétés des estimateurs: absence de biais et efficacité
Estimation de la moyenne μ lorsque σ est connu
La distribution t
Estimation de la moyenne μ lorsque σ est inconnu
Estimation du pourcentage π
Détermination de la taille de l'échantillon
Distribution du χ 2
Méthode générale du test de χ 2
Test de comparaison de plusieurs pourcentages
file:///C|/B%20-%20Jean/PSY1300/plan.html[2020-04-30 09:31:03]
Plan du cours
file:///C|/B%20-%20Jean/PSY1300/plan.html[2020-04-30 09:31:03]
CHAPITRE 1: INTRODUCTION ET CONCEPTS DE BASE
file:///C|/B%20-%20Jean/PSY1300/C1P0.html[2020-04-30 09:31:04]
OBJECTIFS ET UTILITÉ DE LA STATISTIQUE
Population ou échantillon ?
Recensement > description
Échantillon > inférence (estimation et décision)
NOTE: les deux objectifs sont aussi importants l'un que l'autre
UTILITÉ
file:///C|/B%20-%20Jean/PSY1300/C1P1.html[2020-04-30 09:31:04]
DESCRIPTION DE LA MÉTHODE STATISTIQUE
DESCRIPTION DE LA
MÉTHODE STATISTIQUE
Identifier le problème (fondamental!)
et...
file:///C|/B%20-%20Jean/PSY1300/C1P2.html[2020-04-30 09:31:04]
L'APPROCHE CRITIQUE EN STATISTIQUES
Post hoc ergo proper hoc (à la suite de cela, donc à cause de cela)
L'espérance de vie a augmenté depuis la découverte du plant de tabac...
La précision excessive
Parmi les 44 étudiants/es d'un cours de statistiques, 2,727% sont nés le 29 février
1967 à 11h38... en fait, il ne s'agit que d'une seule personne
Question à se poser
file:///C|/B%20-%20Jean/PSY1300/C1P3.html[2020-04-30 09:31:04]
L'APPROCHE CRITIQUE EN STATISTIQUES
file:///C|/B%20-%20Jean/PSY1300/C1P3.html[2020-04-30 09:31:04]
OUTILS MATHÉMATIQUES NÉCESSAIRES
La construction de tableaux
file:///C|/B%20-%20Jean/PSY1300/C1P4.html[2020-04-30 09:31:05]
CHAPITRE 2: DESCRIPTION ET REPRÉSENTATION DES DONNÉES
file:///C|/B%20-%20Jean/PSY1300/C2P0.html[2020-04-30 09:31:05]
VARIABLES ET NIVEAUX DE MESURE
° Ordinal: les nombres respectent un certain ordre (rang): x < y < ... < z
Exemple: Les niveaux socio-économiques
° Intervalle: les «grandeurs» entre les nombres sont préservées; x-z = (x-y)+(y-z)
Exemple: la distance indiquée sur l'odomètre
file:///C|/B%20-%20Jean/PSY1300/C2P1.html[2020-04-30 09:31:05]
DONNÉES BRUTES
DONNÉES BRUTES
Après la cueillette des données, celles-ci apparaissent de façon brute.
Sous cette forme, elles sont peu informatives.
Trouvons donc des moyens pour en extraire un maximum d'informations.
CAS QUALITATIF
Dans un cours de statistiques, on fait un sondage pour savoir ce que chacun des
25 étudiants/es a trouvé le plus intéressant. On utilise la règle suivante
Réponse X
Le chargé de cours 1
Le livre 2
La couleur du plafond 3
Quoi ?!? 5
CAS QUANTITATIF
file:///C|/B%20-%20Jean/PSY1300/C2P2.html[2020-04-30 09:31:06]
RANGEMENT DES DONNÉES
CAS QUALITATIF
1 2 3 4 5
2 2 3 4 5
2 3 3 4 5
2 3 3 4 5
2 3 4 4 5
CAS QUANTITATIF
95 79 68 61 52
90 78 66 60 50
88 74 65 59 49
87 72 65 57 44
85 69 65 56 42
81 68 63 55 41
PLUSIEURS AVANTAGES
CEPENDANT
file:///C|/B%20-%20Jean/PSY1300/C2P3.html[2020-04-30 09:31:06]
DISTRIBUTION DE FRÉQUENCES
DISTRIBUTION DE FRÉQUENCES
C'est une façon de présenter les données sous une forme synthétique, sans perdre
l'essentiel de l'information. Il s'agit alors simplement de classer (intelligemment)
les données selon une caractéristique observable.
CAS QUALITATIF
Nombre
Valeur d'étudiants/es
Réponse
de X (fréquence)
Le chargé de cours 1 1
Le livre 2 6
La couleur du plafond 3 7
Quoi ?!? 5 5
25
CAS QUANTITATIF
Nombre
d'élèves
Résultat
(fréquence)
40 et moins de 50 4
50 et moins de 60 6
60 et moins de 70 10
70 et moins de 80 4
80 et moins de 90 4
90 et moins de 100 2
30
NOTE IMPORTANTE
file:///C|/B%20-%20Jean/PSY1300/C2P4.html[2020-04-30 09:31:06]
DISTRIBUTION DE FRÉQUENCES
(il n'y a pas de règle stricte, mais certaines règles de «gros bon sens»)
Cas qualitatif
S'il n'y a pas trop de catégories: utiliser directement celles-ci (aucune perte)
Cas quantitatif
file:///C|/B%20-%20Jean/PSY1300/C2P4.html[2020-04-30 09:31:06]
DISTRIBUTION DE FRÉQUENCES
valeurs extrêmement marginales (les cas du prix des maisons en est un exemple)
° S'il existe une concentration de données, la situer près du centre d'une classe
Puisque le centre des classes servira éventuellement au calcul de plusieurs indices
file:///C|/B%20-%20Jean/PSY1300/C2P4.html[2020-04-30 09:31:06]
DIAGRAMME EN BÂTONNETS
DIAGRAMME EN BÂTONNETS
Le diagramme en bâtonnets est une représentation graphique de la distribution de
fréquences d'une variable qualitative.
Les «bâtonnets» sont bien séparés pour indiquer les différentes catégories.
file:///C|/B%20-%20Jean/PSY1300/C2P5.html[2020-04-30 09:31:07]
HISTOGRAMME ET POLYGONE DE FRÉQUENCES
Polygone de fréquences
Le polygone de fréquences est une autre représentation graphique (en ligne brisée)
de la distribution de fréquences d'une variable quantitative.
Pour tracer le polygone, on joint les points milieu du sommet
des rectangles adjacents par un segment de droite.
Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal.
file:///C|/B%20-%20Jean/PSY1300/C2P6.html[2020-04-30 09:31:07]
HISTOGRAMME ET POLYGONE DE FRÉQUENCES
file:///C|/B%20-%20Jean/PSY1300/C2P6.html[2020-04-30 09:31:07]
LA DISTRIBUTION DE FRÉQUENCES CUMULÉLES
Moins de 50 4
Moins de 60 10
Moins de 70 20
Moins de 80 24
Moins de 90 28
Moins de 100 30
file:///C|/B%20-%20Jean/PSY1300/C2P7.html[2020-04-30 09:31:08]
CHAPITRE 3: MESURES DE SYNTHÈSE D'UNE DISTRIBUTION
file:///C|/B%20-%20Jean/PSY1300/C3P0.html[2020-04-30 09:31:08]
SURVOL DES MESURES DE SYNTHÈSE
Médiane: valeur pour laquelle 50% des mesures sont au-dessous (ou au-dessus)
Note importante
MESURES DE DISPERSION
file:///C|/B%20-%20Jean/PSY1300/C3P1.html[2020-04-30 09:31:08]
SURVOL DES MESURES DE SYNTHÈSE
MESURE DE DISSYMÉTRIE
MESURE DE L'APLATISSEMENT
file:///C|/B%20-%20Jean/PSY1300/C3P1.html[2020-04-30 09:31:08]
SURVOL DES MESURES DE SYNTHÈSE
Une courbe leptokurtique est plus pointue et possède des queues plus longues
que la courbe normale (distribution B)
Une courbe platykurtique est plus arrondie et possède des queues plus courtes
que la courbe normale (distribution C)
file:///C|/B%20-%20Jean/PSY1300/C3P1.html[2020-04-30 09:31:08]
MESURES DE TENDANCE CENTRALE
où
μ (mu) = moyenne (d'une population)
N = nombre d'unités d'observation
(Σ symbolise la somme des X, i.e. des valeurs obtenues)
Exemple
LA MÉDIANE
Définition: La médiane, notée Md, est la valeur qui sépare une série
d'observations ordonnées en ordre croissant ou décroissant, en deux parties
comportant le même nombre d'observations
Si N est impair,
Exemple: Si on a les données suivantes: 34, 37, 40, 41, 44, 44, 45, alors
Si N est pair
la médiane correspond au point milieu (ou la moyenne) des deux observations
centrales dans le rangement ascendant (ou descendant)
En formule, soit N = 2K, donc K = N/2; alors
file:///C|/B%20-%20Jean/PSY1300/C3P2.html[2020-04-30 09:31:09]
MESURES DE TENDANCE CENTRALE
LE MODE
Exemples
EXEMPLE
Moyenne
Médiane
Rangeons les données en ordre ascendant
0, 1, 1, 1, 2, 3, 3, 4, 5, 8
Comme N = 10 (donc pair), K = 5 et
Mode
On voit immédiatement que Mo = 1
file:///C|/B%20-%20Jean/PSY1300/C3P2.html[2020-04-30 09:31:09]
LA PROPORTION ET LE TOTAL
LA PROPORTION ET LE TOTAL
LA PROPORTION
Exemples
Nombre
Valeur d'étudiants/es
Réponse Proportion Pourcentage
de X (fréquence)
25
ou 67%
LE TOTAL
Dans certaines situations, le total s'avère être une donnée plus intéressante
(exemple: le total des ventes, plutôt que la moyenne par vendeur)
file:///C|/B%20-%20Jean/PSY1300/C3P3.html[2020-04-30 09:31:09]
LA PROPORTION ET LE TOTAL
on a
Exemples
file:///C|/B%20-%20Jean/PSY1300/C3P3.html[2020-04-30 09:31:09]
MESURES DE TENDANCE CENTRALE (données groupépes)
LA MOYENNE
La formule est
Exemple
Nombre Centre de
d'élèves classes
Résultat
(f) (m) fm
40 et moins de 50 4 45 180
50 et moins de 60 6 55 330
60 et moins de 70 10 65 650
70 et moins de 80 4 75 300
80 et moins de 90 4 85 340
Σ 30 1990
On calcule alors
Notes
file:///C|/B%20-%20Jean/PSY1300/C3P4.html[2020-04-30 09:31:10]
MESURES DE TENDANCE CENTRALE (données groupépes)
LA MÉDIANE
Étapes
La formule est
où
LMd = la limite inférieure de la classe médiane
FC = la fréquence cumulée de toutes les classes précédant la classe médiane
f Md = la fréquence de la classe médiane
l = la largeur de la classe médiane
N = le nombre d'observations
Exemple
La classe médiane est celle qui contient le quinzième élève.
À partir de la distribution de fréquences cumulées, on observe
qu'il s'agit de la classe «60 et moins de 70»; donc
LE MODE
file:///C|/B%20-%20Jean/PSY1300/C3P4.html[2020-04-30 09:31:10]
MESURES DE TENDANCE CENTRALE (données groupépes)
La formule est
où
LMo = limite inférieure de la classe modale
d1 = différence entre la fréquence de la classe modale et celle de la précédente
d2 = différence entre la fréquence de la classe modale et celle de la suivante
l = largeur de la classe modale
Exemple
La classe modale est «60 et moins de 70»
On calcule donc d1 = 10 - 6 = 4, d2 = 10 - 4 = 6 et
LA MOYENNE PONDÉRÉRE
file:///C|/B%20-%20Jean/PSY1300/C3P4.html[2020-04-30 09:31:10]
LA MOYENNE PONDÉRÉRE
LA MOYENNE PONDÉRÉE
Dans certains cas, on calcule la moyenne arithmétique en assignant
un poids ou une importance relative
aux données dont on veut trouver la moyenne
Exemple
Total 76,0
file:///C|/B%20-%20Jean/PSY1300/C3P5.html[2020-04-30 09:31:10]
COMPARAISON DES MESURES DE TENDANCE CENTRALE
file:///C|/B%20-%20Jean/PSY1300/C3P6.html[2020-04-30 09:31:11]
MESURES DE DISPERSION
MESURES DE DISPERSION
Justification (rappel)
° Juger la représentativité de la «tendance centrale» (valeur «typique»)
° Dans certains cas, prendre des mesures de contrôle de la variabilité
ÉTENDUE
où
G = la valeur la plus grande
P = la valeur la plus petite
Exemple
Dans notre exemple des notes de comptabilité, on a
G = 95 et P = 41
donc
Étendue = 95 - 41 = 54
ÉCART MOYEN
Étapes
° Calcul de la moyenne des observations
° Calcul de l'écart absolu entre chaque observation et la moyenne
° Calcul de la moyenne de ces écarts
où
X = la valeur des observations
μ = la moyenne des observations
| | = le symbole de la valeur absolue
N = le nombre d'observations
Exemple
Tableau de calcul
X μ | X-μ|
file:///C|/B%20-%20Jean/PSY1300/C3P7.html[2020-04-30 09:31:11]
MESURES DE DISPERSION
68 66,23 1,77
74 66,23 7,77
42 66,23 24,23
47 66,23 19,23
50 66,23 16,23
65 66,23 1,23
52 66,23 14,23
41 66,23 25,23
57 66,23 9,23
65 66,23 1,23
78 66,23 11,77
66 66,23 0,23
49 66,23 17,23
59 66,23 7,23
60 66,23 6,23
55 66,23 11,23
61 66,23 5,23
72 66,23 5,77
56 66,23 10,23
79 66,23 12,77
88 66,23 21,77
68 66,23 1,77
90 66,23 23,77
63 66,23 3,23
69 66,23 2,77
81 66,23 14,77
87 66,23 20,77
65 66,23 1,23
85 66,23 18,77
95 66,23 28,77
file:///C|/B%20-%20Jean/PSY1300/C3P7.html[2020-04-30 09:31:11]
MESURES DE DISPERSION
1987 345,93
On a donc
Étapes
° Calcul de la moyenne arithmétique
° Calcul de la différence entre chaque observation et la moyenne
° Ces écarts sont mis au carré
° Calcul de la moyenne de ces carrés > Variance
° Extraction de la racine carrée de la variance > Écart type
Exemple
Par le tableau de calcul de la page suivante, on a
Tableau de calcul
X (X - μ) (X - μ) 2 X2
file:///C|/B%20-%20Jean/PSY1300/C3P7.html[2020-04-30 09:31:11]
MESURES DE DISPERSION
INTERVALLE SEMI-INTERQUARTILE
Définitions
Le premier quartile, noté Q , est le point qui sépare la portion de 25%
file:///C|/B%20-%20Jean/PSY1300/C3P7.html[2020-04-30 09:31:11]
MESURES DE DISPERSION
1
des valeurs les plus petites de la portion de 75% des valeurs les plus grandes
Le troisième quartile, noté Q3 , est le point qui sépare la portion de 25%
des valeurs les plus grandes de la portion de 75% des valeurs les plus petites
La deuxième quartile correspond tout simplement à la médiane
L'étendue interquartile est la distance entre le premier et le troisième quartile
L'intervalle semi-interquartile (Q) correspond à la moitié de l'étendue interquartile
En formule
Q1 et Q3 sont obtenus par une méthode similaire à celle utilisée pour la médiane
On utilise les données rangées et, au besoin, une méthode d'interpolation
Exemple
Comme il y a 30 observations
Q1 correspond à la «30(25%)e = 7,5e observation»,
i.e. au point milieu entre la 7e observation (55) et la 8e observation (56)
D'où
file:///C|/B%20-%20Jean/PSY1300/C3P7.html[2020-04-30 09:31:11]
MESURES DE DISPERSION (DONNÉES GROUPÉES)
MESURES DE DISPERSION
(DONNÉES GROUPÉES)
Rappel: comme les données sont groupées, il s'agit de faire des approximations
où f = la fréquence de la classe
m = le centre de la classe (valeur hypothétique)
N = le nombre d'observations
Évidemment, on a
et la formule «simplifiée»
Exemple
Nombre Écarts
Centre (m)
Résultat (f) fm m-μ (m-μ) 2 f(m-μ) 2
Σ 30 1990 5946,70
d'où
INTERVALLE SEMI-INTERQUARTILE
file:///C|/B%20-%20Jean/PSY1300/C3P8.html[2020-04-30 09:31:12]
MESURES DE DISPERSION (DONNÉES GROUPÉES)
Exemple
On sait déjà que Q1 correspond à la «7,5e observation»
et que Q3 correspond à la «22,5e observation»
Fréquence cumulée
Résultat Fréquence
40 et moins de 50 4 4
Q1 > 50 et moins de 60 6 10
60 et moins de 70 10 20
Q3 > 70 et moins de 80 4 24
80 et moins de 90 4 28
90 et moins de 100 2 30
file:///C|/B%20-%20Jean/PSY1300/C3P8.html[2020-04-30 09:31:12]
COMPARAISON DES MESURES DE DISPERSION
Influence des données Deux valeurs Même poids Poids différent Deux valeurs
seulement seulement
file:///C|/B%20-%20Jean/PSY1300/C3P9.html[2020-04-30 09:31:13]
MESURE DE DISPERSION RELATIVE
LE COEFFICIENT DE VARIATION
Exemple
file:///C|/B%20-%20Jean/PSY1300/C3P10.html[2020-04-30 09:31:13]
MESURE DE DISSYMÉTRIE
MESURE DE DISSYMÉTRIE
LE COEFFICIENT DE DISSYMÉTRIE
Exemple
file:///C|/B%20-%20Jean/PSY1300/C3P11.html[2020-04-30 09:31:13]
CHAPITRE 4: MESURES DE LA RELATION ENTRE DEUX VARIABLES
Concepts de base
Le cas qualitatif: tableau de contingences
Le diagramme de corrélation (dispersion)
La droite de régression
Prédiction à l'aide de la droite de régression
Le coefficient de détermination
Le coefficient de corrélation
Interprétation et limites
file:///C|/B%20-%20Jean/PSY1300/C4P0.html[2020-04-30 09:31:14]
CONCEPTS DE BASE
CONCEPTS DE BASE
OBJECTIF
DÉFINITIONS
Analyse de régression: méthode pour déduire une équation d'estimation qui décrit
la nature fonctionnelle de la relation entre deux variables
Analyse de corrélation: méthode pour mesurer la force de la relation,
i.e. dans quelle mesure les variations d'une des variables
«expliquent» les variations de l'autre
La variable qui doit être estimée est appelée variable dépendante (notée Y)
La variable qui sert à estimer est appelée variable indépendante (notée X)
CORRÉLATION ET «CAUSALITÉ»
file:///C|/B%20-%20Jean/PSY1300/C4P1.html[2020-04-30 09:31:14]
LE CAS QUALITATIF: TABLEAU DE CONTINGENCES
Exemple
Dans l'exemple où l'on demandait ce que les étudiants/es d'un cours de statistiques
avaient préféré, supposons que l'on ait aussi demandé si ils/elles appréciaient la
bouffe de la cafétéria. On obtient les résultats suivants
3 Oui 2 Non 2 Non 4 Oui 2 Non
3 Oui 4 Non 2 Non 3 Oui 2 Non
5 Non 3 Oui 3 Oui 4 Oui 3 Oui
4 Non 4 Non 5 Oui 4 Oui 5 Non
2 Oui 5 Non 5 Non 3 Oui 1 Non
0 (oui) 0 1 7 3 1 12
1 (non) 1 5 0 3 4 13
Total 1 6 7 6 5 25
Notes
Il existe une multitude de coefficients d'association pour mesurer
la force du lien entre les deux variables du tableau de contingences.
Malheureusement (?), ils ne pourront être vus dans le cadre de ce cours.
Ce type de tableau est parfois utilisé pour les variables quantitatives (groupées)
file:///C|/B%20-%20Jean/PSY1300/C4P2.html[2020-04-30 09:31:14]
LE DIAGRAMME DE CORRÉLATION (dispersion)
Ce diagramme aide à déterminer s'il existe une relation entre les deux variables et,
si oui, il aide à choisir le type d'équation qui permettrait de décrire cette relation
Rue Elle 2 60
Chemin Sire 3 85
Chemin Soeur 2 77
et le diagramme correspondant
file:///C|/B%20-%20Jean/PSY1300/C4P3.html[2020-04-30 09:31:15]
LE DIAGRAMME DE CORRÉLATION (dispersion)
file:///C|/B%20-%20Jean/PSY1300/C4P3.html[2020-04-30 09:31:15]
LA DROITE DE RÉGRESSION
LA DROITE DE RÉGRESSION
Dans les cas où le diagramme de dispersion montre l'existence d'une relation
linéaire, on désire déterminer la droite qui décrira le «mieux» cette relation
Cependant, le choix de cette droite dépend d'un critère qu'il faudra fixer.
Le critère mathématique habituel est celui des moindres carrés
Selon ce critère, on cherche à minimiser
la somme des carrés des écarts (= variance) entre
les valeurs estimées et les valeurs observées de la variable dépendante
où
X = la valeur de la variable indépendante
Yc = la valeur estimée (calculée) de la variable dépendante
a = l'ordonnée à l'origine, i.e. la valeur de Yc lorsque X = 0
b = la pente, i.e. la variation de Yc pour une variation d'une unité de X
est minimale.
De plus
i.e. que les écarts «positifs» sont compensés par des écarts «négatifs» équivalents
Pour calculer a et b
(attention: on prend ici la notation «pour échantillon»)
file:///C|/B%20-%20Jean/PSY1300/C4P4.html[2020-04-30 09:31:15]
LA DROITE DE RÉGRESSION
file:///C|/B%20-%20Jean/PSY1300/C4P4.html[2020-04-30 09:31:15]
PRÉDICTION À L'AIDE DE LA DROITE DE RÉGRESSION
Exemple
La droite obtenue par les calculs précédents est
De même, supposons que l'on désire ouvrir une nouvelle station sur une petite rue
où il ne passe que cent voitures, donc on pose X = 1 et on calcule
Graphiquement, on a
file:///C|/B%20-%20Jean/PSY1300/C4P5.html[2020-04-30 09:31:16]
LE COEFFICIENT DE DÉTERMINATION
LE COEFFICIENT DE DÉTERMINATION
Objectif
Évaluer le degré d'association entre les deux variables
i.e. juger de la qualité de l'ajustement des points par la droite de régression
Définitions
Soit
= la moyenne des valeurs de la variable dépendante
et Y* = une donnée en particulier
alors
Y* - = l'écart total
Yc - = l'écart expliqué
Y* - Yc = l'écart inexpliqué
Et pour toute Y*
En formule
Exemple
X Y Y 2 2
file:///C|/B%20-%20Jean/PSY1300/C4P6.html[2020-04-30 09:31:16]
LE COEFFICIENT DE DÉTERMINATION
D'où
file:///C|/B%20-%20Jean/PSY1300/C4P6.html[2020-04-30 09:31:16]
LE COEFFICIENT DE CORRÉLATION
LE COEFFICIENT DE CORRÉLATION
Définition: le coefficient de corrélation (de Pearson), noté ρ ou r, est tout
simplement la racine carré du coefficient de détermination;
son signe (±) donne le sens de la relation
En formule
On peut calculer
ou sa forme «simplifiée»
Exemple
En appliquant la dernière formule
et on a bien
Note
Plus la valeur de r se rapproche de ±1, plus la relation linéaire est forte,
et plus la valeur de r est voisine de 0, plus la relation linéaire est faible
file:///C|/B%20-%20Jean/PSY1300/C4P7.html[2020-04-30 09:31:17]
INTERPRÉTATION ET LIMITES
INTERPRÉTATION ET LIMITES
Ne pas oublier que le coefficient de détermination donne un pourcentage
de variation (ou variance) de la variable dépendante «expliquée»
par la présence de la variable indépendante.
ERREURS FRÉQUENTES
° Utiliser, à tort, l'analyse de corrélation pour établir une relation de cause à effet
° Faire des estimations, via la droite de régression, au-delà des valeurs observées
etc...
file:///C|/B%20-%20Jean/PSY1300/C4P8.html[2020-04-30 09:31:17]
CHAPITRE 5: CONCEPTS DE BASE DE LA THÉORIE DES PROBABILITÉS
file:///C|/B%20-%20Jean/PSY1300/C5P0.html[2020-04-30 09:31:17]
DÉFINITIONS
DÉFINITIONS
L'espace échantillonnal est l'ensemble de tous les résultats
«potentiellement possibles» d'une expérience
Exemple
file:///C|/B%20-%20Jean/PSY1300/C5P1.html[2020-04-30 09:31:18]
DÉFINITIONS
Exemples
TYPES DE PROBABILITÉS
La probabilité empirique
d'un événement est déterminée à l'aide de l'observation et de l'expérimentation.
La probabilité d'un événement correspond à la fréquence relative
(i.e. la proportion) d'occurrence de l'événement
lorsque l'expérience est répétée un très grand nombre de fois.
Exemple: un professeur de statistiques a enseigné à 12848 personnes et, parmi
celles-ci, 542 ont échoué; la probabilité d'échouer dans un cours donné par ce
professeur est alors de 542/12848 = 0,0422
La probabilité subjective
intervient lorsqu'il est impossible d'établir la probabilité a priori ou de façon
empirique. On doit alors s'en remettre à notre bon (??) jugement...
Exemple: évaluer à 0,01 la probabilité qu'il neige demain
file:///C|/B%20-%20Jean/PSY1300/C5P1.html[2020-04-30 09:31:18]
RÈGLES DE CALCUL DES PROBABILITÉS
P(non A) = 1 - P(A)
Exemple: lors d'un tirage, la probabilité de ne pas obtenir un ♠ et
P(non ♠) = 1 - P(♠) = 1 - 1/4 = 3/4 = 0,75
Règles de l'addition ( = OU )
Règles de la multiplication ( = ET )
Événements indépendants
P(A et B) = P(A) × P(B)
Exemple: en tirant séquentiellement, et avec remise, deux cartes du jeu,
la probabilité d'obtenir 2 cartes ♠ est
P(♠ et ♠) = P(♠) × P(♠) = 13/52 × 13/52 = 1/16 = 0,0625
Événements dépendants
P(A et B) = P(A) × P(B | A)
Exemple: en tirant simultanément (ou sans remise), deux cartes du jeu,
la probabilité d'obtenir 2 cartes ♠ est alors
P(♠ en 1e et ♠ en 2e) = P(♠ en 1e) × P(♠ en 2e | ♠ en 1e)
= 13/52 × 12/51 = 0,0588
Cette formule donne, par simple transformation,
une formule pour la probabilité conditionnelle
Addenda
file:///C|/B%20-%20Jean/PSY1300/C5P2.html[2020-04-30 09:31:18]
RÈGLES DE CALCUL DES PROBABILITÉS
Quelle est la probabilité que cette personne suive au moins un des deux cours?
P(A ou B) = P(A) + P(B) - P(A et B) = 25/50 + 15/50 - 10/50 = 30/50 = 0,6
Quelle est la probabilité que cette personne suive un seul de ces deux cours?
P(A ou B) - P(A et B) = 30/50 - 10/50 = 20/50 = 2/5 = 0,4
Quelle est la probabilité que cette personne ne suive pas le cours de statistiques?
P(non A) = 1 - P(A) = 1 - 25/50 = 25/50 = 1/2 = 0,5
file:///C|/B%20-%20Jean/PSY1300/C5P2.html[2020-04-30 09:31:18]
ESPÉRANCE MATHÉMATIQUE
ESPÉRANCE MATHÉMATIQUE
On sait qu'à chaque événement de l'espace échantillonnal est associé
une probabilité; supposons qu'on lui associe également une «valeur»
(donnée par la variable aléatoire)
La question est alors de savoir quelle «valeur», à long terme, peut-on obtenir.
En formule
où
E(X) = l'espérance mathématique de la variable X
x = toute valeur que peut prendre la variable X
P(x) = la probabilité d de la valeur x
Exemple
On suppose le jeu suivant:
en tirant un carte d'un jeu de 52 cartes, on donne 1$ si vous tirer un ♥, 2$ si
vous tirer un ♦, 5$ si vous tirer un ♣ et 10$ si vous tirer un ♠
On a alors le tableau de calcul suivant
Valeur Probabilité
Événement x P(x) x P(x)
♥ 1 1/4 0,25
♦ 2 1/4 0,50
♣ 5 1/4 1,25
♠ 10 1/4 2,50
1 4,50
file:///C|/B%20-%20Jean/PSY1300/C5P3.html[2020-04-30 09:31:18]
ARRANGEMENTS ET COMBINAISONS
ARRANGEMENTS ET COMBINAISONS
NOTATION (factoriel)
n! = n(n-1)(n-2)...(2)(1)
Exemple: 6! = 6 × 5 × 4 × 3 × 2 × 1 = 720
Par définition: 0! = 1
ARRANGEMENTS
COMBINAISONS
file:///C|/B%20-%20Jean/PSY1300/C5P4.html[2020-04-30 09:31:19]
DISTRIBUTIONS DE PROBABILITÉS
DISTRIBUTIONS DE PROBABILITÉS
Définition: une distribution de probabilités est une énumération de tous
les résultats possibles d'une expérience avec leur probabilité respective
Exemple
Reprenons le jeu où un certain montant est donné pour chaque sorte de carte tirée
On tire simultanément deux cartes et soit X la somme totale du gain.
On a le tableau suivant
Événement Résultats (x) Calcul Probabilité
LA DISTRIBUTION BINÔMIALE
file:///C|/B%20-%20Jean/PSY1300/C5P5.html[2020-04-30 09:31:19]
LA DISTRIBUTION BINÔMIALE
LA DISTRIBUTION BINÔMIALE
Définition: la distribution binômiale décrit la distribution de probabilités
lorsqu'il n'y a que deux résultats possibles à chaque essai et
que le résultat d'un essai est indépendant du résultat de tout autre essai
Exemples
° Lorsqu'on tire une pièce de monnaie, il n'y a que deux résultats: pile ou face
° Lorsqu'on tire une carte et qu'on regarde si c'est un ♥, il n'y a que deux résultats
possibles: c'est un ♥ ou ce n'est pas un coeur
Lors d'un tirage d'une carte par paquet dans cinq paquets côte à côte,
la distribution de probabilité donnant la probabilité d'obtenir 0, 1, 2, 3, 4 ou 5
cartes de ♥ est une distribution binômiale
Définitions
Exemple
De même, on calcule
file:///C|/B%20-%20Jean/PSY1300/C5P6.html[2020-04-30 09:31:20]
LA DISTRIBUTION BINÔMIALE
Nombre de ♥ Probabilité
0 0,2373
1 0,3955
2 0,2637
3 0,0879
4 0,0146
5 0,0010
D'où
P(2) = 0,2637
P(2 ou 3) = P(2) + P(3) = 0,2637 + 0,0879 = 0,3516
P(plus de 2) = P(3) + P(4) + P(5) = 0,0879 + 0,0146 + 0,0010 = 0,1035
et
Utilisation de la table
Le calcul des probabilités binômiales peut devenir fastidieux
Ainsi, pour les valeurs fréquentes, on utilise la table de l'annexe I
dont voici un extrait
n r 0,01 0,05 0,10 0,15 0,20 0,25 0,30 0,40 0,50
file:///C|/B%20-%20Jean/PSY1300/C5P6.html[2020-04-30 09:31:20]
LA DISTRIBUTION BINÔMIALE
file:///C|/B%20-%20Jean/PSY1300/C5P6.html[2020-04-30 09:31:20]
LA DISTRIBUTION NORMALE
LA DISTRIBUTION NORMALE
Définition: une distribution normale correspond à la distribution de probabilités
d'une variable aléatoire continue dont la courbe est parfaitement symétrique,
unimodale et en forme de cloche
La probabilité qu'une variable prenne une valeur entre a et b est égale à l'aire
sous la courbe entre les droites verticales élevées aux points a et b
Exemple
Supposons que la distribution des scores de Q.I. soit normale avec une moyenne
file:///C|/B%20-%20Jean/PSY1300/C5P7.html[2020-04-30 09:31:21]
LA DISTRIBUTION NORMALE
Normalisation
Cette valeur Z est définie comme étant la différence entre la valeur considérée et
la moyenne de la distribution, divisée par l'écart type
En formule
Dans l'exemple
file:///C|/B%20-%20Jean/PSY1300/C5P7.html[2020-04-30 09:31:21]
LA DISTRIBUTION NORMALE
Utilisation de la table
La table de l'annexe 3 donne l'aire de la courbe normale centrée réduite
pour la zone indiquée en gris dans la figure
0,0 0,000 0,004 0,008 0,012 0,016 0,020 0,024 0,028 0,032 0,036
0,1 0,040 0,044 0,048 0,052 0,056 0,060 0,064 0,068 0,071 0,075
0,2 0,079 0,083 0,087 0,091 0,095 0,099 0,103 0,106 0,110 0,114
0,3 0,118 0,122 0,126 0,129 0,133 0,137 0,141 0,144 0,148 0,152
0,4 0,155 0,159 0,163 0,166 0,170 0,174 0,177 0,181 0,184 0,188
0,5 0,192 0,195 0,198 0,202 0,205 0,209 0,212 0,216 0,219 0,222
0,6 0,226 0,229 0,232 0,236 0,239 0,242 0,245 0,249 0,252 0,255
0,7 0,258 0,261 0,264 0,267 0,270 0,273 0,276 0,279 0,282 0,285
0,8 0,288 0,291 0,294 0,297 0,300 0,302 0,305 0,308 0,311 0,313
0,9 0,316 0,319 0,321 0,324 0,326 0,329 0,332 0,334 0,336 0,339
1,0 0,341 0,344 0,346 0,348 0,351 0,353 0,355 0,358 0,360 0,362
... ... ... ... ... ... ... ... ... ...
2,0 0,477 0,478 0,478 0,479 0,479 0,480 0,480 0,481 0,481 0,482
... ... ... ... ... ... ... ... ... ...
3,0 0,499 0,499 0,499 0,499 0,499 0,499 0,499 0,499 0,499 0,499
file:///C|/B%20-%20Jean/PSY1300/C5P7.html[2020-04-30 09:31:21]
LA DISTRIBUTION NORMALE
indique la seconde décimale. Les nombres inscrits aux intersections donnent l'aire
sous la courbe entre le point Z donné et 0.
Exemples
Pour Z = 0,61 on a 0,2291; pour Z = 1 on a 0,3413 et pour Z = 2 on a 0,4772
Notes importantes
° Puisque la courbe normale est une distribution de probabilité, l'aire totale sous la
courbe est égale à 1 et, par symétrie, l'aire sous chaque moitié est égale à 0,5
Exemples
P(100 ≤ X ≤ 115)
= P(0 ≤ Z ≤ 1) = 0,3413
P(110 ≤ X ≤ 120)
= P(0,67 ≤ Z ≤ 1,33)
file:///C|/B%20-%20Jean/PSY1300/C5P7.html[2020-04-30 09:31:21]
LA DISTRIBUTION NORMALE
QI = 85 > Z = (85-100)/15 = -1
QI = 130 > Z = (130-100)/15 = 2
P(85 ≤ X ≤ 130)
= P(-1 ≤ Z ≤ 2)
= 0,3413 + 0,4772 = 0,8185
file:///C|/B%20-%20Jean/PSY1300/C5P7.html[2020-04-30 09:31:21]
LA DISTRIBUTION NORMALE
Méthode
file:///C|/B%20-%20Jean/PSY1300/C5P7.html[2020-04-30 09:31:21]
LA RÈGLE EMPIRIQUE
LA RÈGLE EMPIRIQUE
Énoncé: si la distribution de probabilités
d'une variable est symétrique et en forme de cloche, alors
environ 68% des valeurs de la population se retrouveront entre μ - σ et μ + σ
environ 95% des valeurs de la population se retrouveront entre μ - 2σ et μ + 2σ
presque 100% des valeurs de la population se retrouveront entre μ - 3σ et μ + 3σ
Exemple
Pour le Q.I. avec μ = 100 et σ = 15,
environ 68% des valeurs de la population se retrouvent entre 85 et 115
environ 95% des valeurs de la population se retrouvent entre 70 et 130
presque 100% des valeurs de la population se retrouvent entre 55 et 145
file:///C|/B%20-%20Jean/PSY1300/C5P8.html[2020-04-30 09:31:21]
APPROXIMATION DE LA BINÔMIALE PAR UNE NORMALE
APPROXIMATION DE LA BINÔMIALE
PAR UNE NORMALE
Lorsque n est grand, le calcul de la binômiale peut être fastidieux.
Cependant, dans ce cas, la distribution binômiale tend vers la distribution normale
Cette dernière peut donc être utilisée
pour faire des approximations de probabilités binômiales
Exemple
Graphiquement
donc
P(X ≥ 7) = P(Z ≥ 0,95) = P(Z ≥ 0) - P(Z ≤ 0,95) = 0,5 - 0,3289 = 0,1711
ce qui est une bonne approximation
file:///C|/B%20-%20Jean/PSY1300/C5P9.html[2020-04-30 09:31:22]
APPROXIMATION DE LA BINÔMIALE PAR UNE NORMALE
file:///C|/B%20-%20Jean/PSY1300/C5P9.html[2020-04-30 09:31:22]
LA DISTRIBUTION DE POISSON
LA DISTRIBUTION DE POISSON
Définition: la distribution de Poisson décrit la distribution de probabilités
du nombre d'occurrences d'un événement par unité de temps ou d'espace
(par contraste avec la binômiale où c'est le nombre d'essais qui est fixé)
Exemple: le nombre d'oiseaux par heure qui se perchent sur votre corde à linge
Conditions
° Le nombre moyen (μ) d'occurrences est constant pour chaque unité
° La probabilité d'observer plus d'une occurrence
dans un petit intervalle est quasi-nulle
°Le nombre d'occurrences pour une unité donnée
est indépendant du nombre d'occurrences dans les autres unités
où
μ = le nombre moyen d'occurrences par unité (de temps ou d'espace)
e = une constante, la base des logarithmes naturels (= 2,718...)
Il existe également des tables (voir l'annexe 2) qui donnent ces probabilités
Exemple
Supposons que le nombre moyen d'oiseaux se perchant sur votre corde est de deux
par heure, la probabilité de ne pas y voir d'oiseau pour une heure donnée est
De même:
P(1) = 0,2707, P(2) = 0,2707, P(3) = 0,1804, P(5) = 0,0361, P(6) = 0,0120...
file:///C|/B%20-%20Jean/PSY1300/C5P10.html[2020-04-30 09:31:22]
CHAPITRE 6: CONCEPTS DE LA THÉORIE DE L'ÉCHANTILLONNAGE
file:///C|/B%20-%20Jean/PSY1300/C6P0.html[2020-04-30 09:31:23]
POPULATION VERSUS ÉCHANTILLON
NOTATIONS
Moyenne μ
Écart type σ s
Nombre d'unités N n
Pourcentage π p
file:///C|/B%20-%20Jean/PSY1300/C6P1.html[2020-04-30 09:31:23]
IMPORTANCE ET AVANTAGES DE L'ÉCHANTILLONNAGE
Exemples
Un test est souvent formé d'un échantillon d'items
représentant un ensemble potentiellement infini de questions
On assiste à un premier cours pour voir si ça risque d'être intéressant
On goûte au vin avant de le servir, etc.
En fait, dans nombre de cas, il s'avère tout simplement impossible d'étudier toute
la population, parce que ce serait risqué, paradoxal ou trop exigeant.
PRINCIPAUX AVANTAGES
Le coût et la complexité
Il s'avère souvent moins coûteux et moins complexe de prendre un échantillon
Exemple: enquête sur les habitudes télévisuelles des québécois
Le temps
Il faut parfois prendre une décision rapide
Exemple: mise en marché d'un nouveau produit
Situations paradoxales
file:///C|/B%20-%20Jean/PSY1300/C6P2.html[2020-04-30 09:31:23]
IMPORTANCE ET AVANTAGES DE L'ÉCHANTILLONNAGE
Population fluctuante
La population peut changer le temps que se déroule l'observation
Exemple: calculer le nombre total de mouches noires au Québec
file:///C|/B%20-%20Jean/PSY1300/C6P2.html[2020-04-30 09:31:23]
MÉTHODES DE PRÉLÈVEMENT D'UN ÉCHANTILLON
MÉTHODES DE PRÉLÈVEMENT
D'UN ÉCHANTILLON
Rappel: un échantillon doit être aussi représentatif que possible de la population
ÉCHANTILLONNAGE ALÉATOIRE
Par conséquent, chaque combinaison doit avoir une probabilité de 1/15504 d'être
choisie et chaque personne doit avoir une probabilité de 5/20 = 1/4 de se
retrouver dans l'échantillon
Échantillonnage stratifié
Définition: l'échantillonnage stratifié est une méthode qui consiste d'abord à
subdiviser la population en groupes homogènes (strates) pour ensuite extraire un
échantillon aléatoire de chaque strate
file:///C|/B%20-%20Jean/PSY1300/C6P3.html[2020-04-30 09:31:24]
MÉTHODES DE PRÉLÈVEMENT D'UN ÉCHANTILLON
Définition: Une table de nombres aléatoires est une table où chacun des chiffres ou
haque séquence de chiffres a la même chance d'apparaître.
Méthode
1° On numérote les unités d'observation de façon
à ce que chaque unité ait un numéro distinct
(on utilisera le nombre de chiffres nécessaires
pour écrire la plus grande valeur possible)
2° En se fermant les yeux, on choisit une case au hasard
et une façon de se déplacer dans la table
3° Pour chaque case parcourue, si le nombre correspond au numéro d'une unité
non encore choisie, on sélectionne cette unité; sinon, on passe à la case suivante
4°On répète l'étape 3 jusqu'à ce que le nombre d'unités désiré soit atteint
Exemple
Supposons que, dans la classe de comptabilité de M. Lecompte, on désire former
un échantillon aléatoire de 5 individus parmi les 30 inscrits.
° On utilise les numéros de la liste de classe; le plus grand nombre étant 30,
file:///C|/B%20-%20Jean/PSY1300/C6P3.html[2020-04-30 09:31:24]
MÉTHODES DE PRÉLÈVEMENT D'UN ÉCHANTILLON
file:///C|/B%20-%20Jean/PSY1300/C6P3.html[2020-04-30 09:31:24]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES MOYENNES
DISTRIBUTIONS D'ÉCHANTILLONNAGE
DES MOYENNES
Définition: la distribution d'échantillonnage des moyennes consiste en la
distribution des moyennes arithmétiques de tous les échantillons possibles de taille
donnée n pouvant être formés à partir de la population
La variation de ces moyennes est appelée variation d'échantillonnage
Notes 55 47 72 68 65
et on calcule
De même, d'autres échantillons (tous aussi probables) aurait donné les moyennes
En fait, il y a
On remarque que ces moyennes échantillonnales ne sont pas égales entre elles et
varient autour de la moyenne μ = 66,23 de la population
C'est ce que représente la variation d'échantillonnage
La distribution de la population
Moyenne = μ
file:///C|/B%20-%20Jean/PSY1300/C6P4.html[2020-04-30 09:31:25]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES MOYENNES
Écart type = σ
Moyenne =
Écart type = s
(ces indices statistiques sont des
estimateurs des paramètres)
Il y autant de distributions qu'il y a
d'échantillons différents possibles
Chaque échantillon a
ses indices particuliers
Moyenne =
Écart type =
Heures 7 16 20 12 22
On a donc
file:///C|/B%20-%20Jean/PSY1300/C6P4.html[2020-04-30 09:31:25]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES MOYENNES
abc 7 16 20 14,33
abd 7 16 12 11,67
abe 7 16 22 15,00
acd 7 20 12 13,00
ace 7 20 22 16,33
ade 7 12 22 13,67
bcd 16 20 12 16,00
bce 16 20 22 19,33
bde 16 12 22 16,67
cde 20 12 22 18,00
154,00
Cette propriété est intéressante parce que, en réalité, on ne travaille que sur un
seul échantillon, et la moyenne de celui-ci sert à faire l'approximation de la
moyenne de la population qui, habituellement, est inconnue
° Lorsque la taille de l'échantillon est suffisamment grande (on dit souvent n>30),
la distribution d'échantillonnage est approximativement une distribution normale,
que la distribution de la population soit normale ou non
Par la «règle empirique», on peut donc affirmer qu'il y a 68% des chances que la
file:///C|/B%20-%20Jean/PSY1300/C6P4.html[2020-04-30 09:31:25]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES MOYENNES
Exemple
Notons d'abord que
D'où
On va donc utiliser le fait que, tout comme il existe une relation entre μ et ,
il existe un lien entre σ et
file:///C|/B%20-%20Jean/PSY1300/C6P4.html[2020-04-30 09:31:25]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES MOYENNES
où
σ = l'écart type de la population
N = la taille de la population
n = la taille de l'échantillon
et
Exemple
Dans l'exemple précédent, on calculerait
Relation entre n et
En regardant la formule
file:///C|/B%20-%20Jean/PSY1300/C6P4.html[2020-04-30 09:31:25]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES MOYENNES
file:///C|/B%20-%20Jean/PSY1300/C6P4.html[2020-04-30 09:31:25]
THÉORÉRME LIMITE CENTRAL
file:///C|/B%20-%20Jean/PSY1300/C6P5.html[2020-04-30 09:31:25]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES POURCENTAGES
où
x = le nombre d'unités de l'échantillon qui possède la caractéristique
n = la taille de l'échantillon
et on calcule
Exemple
Supposons qu'un étudiant est inscrits à 5 cours, dont 3 qu'il trouve passionnants
Cours A B C D E
file:///C|/B%20-%20Jean/PSY1300/C6P6.html[2020-04-30 09:31:26]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES POURCENTAGES
On a donc
18/3 = 6
Dans le cas d'une population finie, cette erreur type est donnée par
où
π = le pourcentage de la population possédant la caractéristique
100% - π = le pourcentage de la population ne possédant pas la caractéristique
N = la taille de la population
file:///C|/B%20-%20Jean/PSY1300/C6P6.html[2020-04-30 09:31:26]
DISTRIBUTIONS D'ÉCHANTILLONNAGE DES POURCENTAGES
n = la taille de l'échantillon
Dans le cas d'une population infinie, on a
Exemples
Pour les données de l'exemple précédent, on a
file:///C|/B%20-%20Jean/PSY1300/C6P6.html[2020-04-30 09:31:26]
CHAPITRE 7: ESTIMATION DE MOYENNES ET DE POURCENTAGES
Terminologie de l'estimation
Estimation par intervalles: concepts de base
Propriétés des estimateurs: absence de biais et efficacité
Estimation de la moyenne μ lorsque σ est connu
La distribution t
Estimation de la moyenne μ lorsque σ est inconnu
Estimation du pourcentage π
Détermination de la taille de l'échantillon
file:///C|/B%20-%20Jean/PSY1300/C7P0.html[2020-04-30 09:31:26]
TERMINOLOGIE DE L'ESTIMATION
TERMINOLOGIE DE L'ESTIMATION
Rappels
Définitions
Exemple
Pour les notes du cours de comptabilité, les 30 personnes du groupe
forment la population, alors que tout sous-groupe de 5 personnes
choisies au hasard forme un échantillon
On désire alors estimer la moyenne du groupe à partir des données
échantillonnales (on suppose, par exemple, que les 5 personnes ont passé l'examen
avant les autres et qu'on veut avoir une idée de la difficulté du test)
La moyenne échantillonnale ( ) est alors
un estimateur de la moyenne de la population (μ)
La valeur 61,4 est une estimation de la moyenne μ
file:///C|/B%20-%20Jean/PSY1300/C7P1.html[2020-04-30 09:31:27]
ESTIMATION PAR INTERVALLES: CONCEPTS DE BASE
Afin de réaliser cette estimation, il est nécessaire de faire des hypothèses quant à
la relation qui existe entre un paramètre et son estimateur
LA LONGUEUR DE L'INTERVALLE
Propriété importante
Cet énoncé est également vrai pour d'autres valeurs que 2. Par exemple:
Si 68% des valeurs possibles de se situent à moins de 1 de la moyenne de la
population, alors μ ne sera pas à plus de 1 de 68% des valeurs possibles de
file:///C|/B%20-%20Jean/PSY1300/C7P2.html[2020-04-30 09:31:27]
ESTIMATION PAR INTERVALLES: CONCEPTS DE BASE
Mais pour un intervalle donné, il faut souligner que le paramètre s'y trouve ou ne
s'y trouve pas. C'est la probabilité de s'y trouver qui vaut 95%
RÈGLE GÉNÉRALE
file:///C|/B%20-%20Jean/PSY1300/C7P2.html[2020-04-30 09:31:27]
ESTIMATION PAR INTERVALLES: CONCEPTS DE BASE
LE NIVEAU DE CONFIANCE
Ainsi, pour les niveaux les plus souvent utilisés, on a le tableau suivant
Niveau de confiance Valeur de Z Forme de l'intervalle de confiance
Compromis
Aux extrêmes:
° Il n'y a (quasiment) aucune certitude
d'associée à une estimation ponctuelle
(i.e. aucun intervalle)
Exemple: demain, à 10h, il fera 20,0345...o C
° La certitude est absolue que le paramètre
prenne une valeur quelconque
(i.e. intervalle non-borné)
Exemple: demain, à 10h, il fera entre -273o C et 1356453....o C
Exemple
file:///C|/B%20-%20Jean/PSY1300/C7P2.html[2020-04-30 09:31:27]
PROPRIÉTÉS DES ESTIMATEURS: ABSENCE DE BIAIS ET EFFICACITÉ
Définitions
S'il existe plusieurs estimateurs non biaisés d'un même paramètre, celui qui
possède la distribution d'échantillonnage dont la variance est la plus petite est
considéré comme l'estimateur le plus efficace
Graphiquement,
° l'estimateur dont la distribution est A est non biaisé
alors que celui dont la distribution est B est biaisé
° l'estimateur dont la distribution est A est plus
efficace que celui dont la distribution est C
CORRECTION DU BIAIS DE s 2
file:///C|/B%20-%20Jean/PSY1300/C7P3.html[2020-04-30 09:31:28]
PROPRIÉTÉS DES ESTIMATEURS: ABSENCE DE BIAIS ET EFFICACITÉ
De plus, ce sont ces formules qui seront utilisées pour estimer l'erreur type
(on notera l'estimation par un ^) lorsque l'écart type de la population est inconnu
En formule
file:///C|/B%20-%20Jean/PSY1300/C7P3.html[2020-04-30 09:31:28]
ESTIMATION DE LA MOYENNE μ LORSQUE σ EST CONNU
ESTIMATION DE LA MOYENNE μ
LORSQUE σ EST CONNU
Rappels
INTERVALLE DE CONFIANCE
où
= la moyenne de l'échantillon
Z = la valeur de Z qui correspond au niveau de confiance désiré
= l'erreur type de la moyenne, i.e.
Exemples
file:///C|/B%20-%20Jean/PSY1300/C7P4.html[2020-04-30 09:31:28]
ESTIMATION DE LA MOYENNE μ LORSQUE σ EST CONNU
file:///C|/B%20-%20Jean/PSY1300/C7P4.html[2020-04-30 09:31:28]
LA DISTRIBUTION t
LA DISTRIBUTION t
OBJECTIF
suit une distribution normale centrée réduite; donc cette variable est une cote Z.
DESCRIPTION
Graphiquement, on a
file:///C|/B%20-%20Jean/PSY1300/C7P5.html[2020-04-30 09:31:29]
LA DISTRIBUTION t
UTILISATION DE LA TABLE
file:///C|/B%20-%20Jean/PSY1300/C7P5.html[2020-04-30 09:31:29]
LA DISTRIBUTION t
Il est important de noter que, dans la table fournie à l'annexe 5, les espaces gris
sont absents. Par conséquent, pour chercher une valeur de t donnée, il faut
déterminer la valeur de d.l. et de α/2
En formule, on a
et graphiquement
Exemple
et
file:///C|/B%20-%20Jean/PSY1300/C7P5.html[2020-04-30 09:31:29]
LA DISTRIBUTION t
C'est pour cette raison que, dans la table, lorsque n est très grand (i.e. n → ∞), la
valeur de t associée à un niveau de confiance donné
correspond exactement à la valeur de Z pour ce même niveau
file:///C|/B%20-%20Jean/PSY1300/C7P5.html[2020-04-30 09:31:29]
ESTIMATION DE LA MOYENNE μ LORSQUE σ EST INCONNU
ESTIMATION DE LA MOYENNE μ
LORSQUE σ EST INCONNU
Rappels
INTERVALLE DE CONFIANCE
où
= la moyenne de l'échantillon
t α/2 = la valeur de t qui correspond à la probabilité α/2
= l'estimé de l'erreur type de la moyenne
Exemple (I)
55 -6,40 40,96
47 -14,40 207,36
72 10,60 112,36
68 6,60 43,56
65 3,60 12,96
file:///C|/B%20-%20Jean/PSY1300/C7P6.html[2020-04-30 09:31:30]
ESTIMATION DE LA MOYENNE μ LORSQUE σ EST INCONNU
et
Exemple (II)
75 -13 169
88 0 0
112 24 576
85 -3 9
80 -8 64
440 0 818
et
file:///C|/B%20-%20Jean/PSY1300/C7P6.html[2020-04-30 09:31:30]
ESTIMATION DE LA MOYENNE μ LORSQUE σ EST INCONNU
ESTIMATION DU POURCENTAGE π
file:///C|/B%20-%20Jean/PSY1300/C7P6.html[2020-04-30 09:31:30]
ESTIMATION DU POURCENTAGE π
ESTIMATION DU POURCENTAGE π
Dans le cas des pourcentages, on sait que si la taille échantillonnale est
suffisamment grande (n ≥ 30), on sait que la distribution des pourcentages
échantillonnaux est approximativement normale
On a la formule
où p = la moyenne de l'échantillon
Z = la valeur de Z qui correspond au niveau de confiance donné
p = l'estimé de l'erreur type du pourcentage, i.e.
On note que, dans le cas des pourcentages, on est toujours dans l'obligation
d'estimer l'erreur type σp puisque, si on le connaissait, on connaîtrait
nécessairement la valeur de π puisqu'on pourrait l'isoler dans la formule
Bjorn Talloz, un étudiant norvégien, veut savoir s'il vaut la peine de se porter
file:///C|/B%20-%20Jean/PSY1300/C7P7.html[2020-04-30 09:31:31]
ESTIMATION DU POURCENTAGE π
file:///C|/B%20-%20Jean/PSY1300/C7P7.html[2020-04-30 09:31:31]
DÉTERMINATION DE LA TAILLE DE L'É'CHANTILLON
Or, puisque
et, en isolant n, on a
Exemples
Supposons que, pour les psychologues qui passent un test de Q.I., je puisse
affirmer que la distribution de la population possède un σ d'à peu près 15,
quelle doit être la taille de mon échantillon si je désire avoir
file:///C|/B%20-%20Jean/PSY1300/C7P8.html[2020-04-30 09:31:31]
DÉTERMINATION DE LA TAILLE DE L'É'CHANTILLON
Or, puisque
et, en isolant n, on a
Exemples
file:///C|/B%20-%20Jean/PSY1300/C7P8.html[2020-04-30 09:31:31]
DÉTERMINATION DE LA TAILLE DE L'É'CHANTILLON
file:///C|/B%20-%20Jean/PSY1300/C7P8.html[2020-04-30 09:31:31]
CHAPITRE 8: TESTS D'HYPOTHÈSE ET PRISE DE DéCISION
file:///C|/B%20-%20Jean/PSY1300/C8P0.html[2020-04-30 09:31:32]
DISTRIBUTION D'ÉCHANTILLONNAGE ET PRISE DE DÉCISION
DISTRIBUTION D'ÉCHANTILLONNAGE
ET PRISE DE DÉCISION
Dans nombre de situations concrètes, on ne désire pas seulement estimer la valeur
d'un paramètre, mais on a une hypothèse quant à sa valeur et on veut, à l'aide de
données échantillonnales, vérifier ou infirmer cette hypothèse
Par exemple, reprenons le cas des cinq psychologues qui ont passé un test de QI
Quelqu'un pourrait poser l'hypothèse que les psychologues ont, en général, un QI
différent de la «norme», c'est-à-dire de μ = 100
Dans le cas des QI, on peut se demander quelle est la probabilité d'obtenir,
pour un échantillon de cinq personnes, une moyenne échantillonnale = 88
si l'on suppose que μ = 100 et σ = 16
(On prend donc pour acquis que, jusqu'à preuve du contraire,
les psychologues n'ont rien de particulier)
En d'autres termes, on cherche à déterminer si une différence
de 12 points entre la moyenne échantillonnale et la valeur présumée de μ
est suffisante pour être jugée significative
En termes statistiques, cela revient à chercher la probabilité que la moyenne
échantillonnale diffère d'au moins 12 points de la valeur supposée de μ
file:///C|/B%20-%20Jean/PSY1300/C8P1.html[2020-04-30 09:31:32]
DISTRIBUTION D'ÉCHANTILLONNAGE ET PRISE DE DÉCISION
file:///C|/B%20-%20Jean/PSY1300/C8P1.html[2020-04-30 09:31:32]
FORMULATION DES HYPOTHÈSES
Note importante
H0 doit être formulée de façon à ce que son rejet erroné
soit plus grave que son acceptation erronée.
Par conséquent, la question est fonction de H0 qui est
maintenue (et non pas prouvée) ou rejetée
Exemples
Dans l'exemple des psychologues, on a
H0 : μ = 100 vs H1 : μ ≠ 100
file:///C|/B%20-%20Jean/PSY1300/C8P2.html[2020-04-30 09:31:33]
LES DEUX TYPES D'ERREURS
Définitions
Exemple
H 0 est vraie
Aucune erreur Erreur de type I
(inefficace)
H 0 est fausse
Erreur de type II Aucune erreur
(efficace)
file:///C|/B%20-%20Jean/PSY1300/C8P3.html[2020-04-30 09:31:33]
ÉTAPES D'UN TEST D'HYPOTHÉSE
Ce niveau de risque, appelé seuil de signification du test, est noté par la lettre α
Note: c'est à cette probabilité que les gens réfèrent lorsqu'ils disent:
«... mon test statistique est significatif à 5%»
C'est lorsque la valeur calculée est jugée très peu probable qu'on décide
de rejeter l'hypothèse nulle parce que la distribution d'échantillonnage
des estimateurs que celle-ci suppose ne semble pas appropriée
file:///C|/B%20-%20Jean/PSY1300/C8P4.html[2020-04-30 09:31:33]
ÉTAPES D'UN TEST D'HYPOTHÉSE
Par exemple, si α = 0,05, cela signifie que l'hypothèse nulle sera rejetée
si la différence entre l'estimateur et le paramètre supposé n'a qu'une
probabilité de 0,05 ou moins de se produire lorsque H0 est vraie
Dans les cas d'une moyenne échantillonnale, il s'agit de déterminer la zone pour
laquelle la différence entre et μHo, exprimée en unités standard (Z), n'a qu'une
faible probabilité de se produire (5% ou moins)
Il reste donc une aire de 0,475 (0,5 - 0,025) de chaque côté de μHo,
ce qui correspond à une valeur Z de 1,96
file:///C|/B%20-%20Jean/PSY1300/C8P4.html[2020-04-30 09:31:33]
ÉTAPES D'UN TEST D'HYPOTHÉSE
Définitions
file:///C|/B%20-%20Jean/PSY1300/C8P4.html[2020-04-30 09:31:33]
ÉTAPES D'UN TEST D'HYPOTHÉSE
EN RÉSUMÉ
file:///C|/B%20-%20Jean/PSY1300/C8P4.html[2020-04-30 09:31:33]
ÉTAPES D'UN TEST D'HYPOTHÉSE
file:///C|/B%20-%20Jean/PSY1300/C8P4.html[2020-04-30 09:31:33]
TEST BILATÉRAL vs TEST UNILATÉTRAL
Dans ce cas, il importe peu que le paramètre soit plus grand ou plus petit,
ce qui compte, c'est qu'il diffère de la valeur supposée en hypothèse,
et c'est là la seule conclusion possible
TEST UNILATÉRAL
Note: le test unilatéral est préférable puisque, pour un seuil de signification donné,
il est plus puissant (moins d'erreurs de type II)
le test bilatéral
file:///C|/B%20-%20Jean/PSY1300/C8P5.html[2020-04-30 09:31:34]
TEST BILATÉRAL vs TEST UNILATÉTRAL
file:///C|/B%20-%20Jean/PSY1300/C8P5.html[2020-04-30 09:31:34]
ESTIMATION vs TEST D'HYPOTHÈSE
Note importante
Exemple
file:///C|/B%20-%20Jean/PSY1300/C8P6.html[2020-04-30 09:31:34]
LA PROBABILITÉ DES ERREURS DE TYPE I ET DE TYPE II
C'est donc la probabilité que le résultat du test statistique, calculé à partir des
données échantillonnales, soit dans la zone de rejet, alors que H0 est VRAIE
Exemple
(Illustration à l'aide d'un cas simple)
Si H0 est VRAIE,
la distribution de probabilité réelle
est donc une binômiale avec
n = 5 et π = 0,5
Dans ce cas, la probabilité
de faire L'ERREUR de rejeter
H0 est donnée par
α = P(5) = 0,031
ERREUR DE TYPE II
Exemple
(cas simple)
file:///C|/B%20-%20Jean/PSY1300/C8P7.html[2020-04-30 09:31:35]
LA PROBABILITÉ DES ERREURS DE TYPE I ET DE TYPE II
Pour calculer ces probabilités, supposons que la zone d'acceptation est l'intervalle
90 ≤ ≤ 110
alors
file:///C|/B%20-%20Jean/PSY1300/C8P7.html[2020-04-30 09:31:35]
LA PROBABILITÉ DES ERREURS DE TYPE I ET DE TYPE II
Suite > TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST CONNU
file:///C|/B%20-%20Jean/PSY1300/C8P7.html[2020-04-30 09:31:35]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST CONNU
(2) RC > Zα RC ≤ Zα
Exemple I
Prenons l'exemple du QI de nos cinq psychologues. On veut montrer que le QI
des psychologues est différent de 100, avec α = 0,05 et σ = 15
file:///C|/B%20-%20Jean/PSY1300/C8P8.html[2020-04-30 09:31:35]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST CONNU
Exemple II (# 14)
Un hôpital reçoit une grosse quantité de fioles de sérum. Ces fioles ne doivent
contenir ni plus ni moins de 50 mg de sérum. On choisit un échantillon aléatoire
de 64 fioles et la moyenne obtenue est = 49,25 mg. On sait que l'écart type de
la population est pratiquement 2 mg. Au seuil de signification de 0,01, l'hôpital
devrait-il accepter la livraison?
file:///C|/B%20-%20Jean/PSY1300/C8P8.html[2020-04-30 09:31:35]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST CONNU
Exemple III
Reprenons l'exemple du cours de comptabilité. Supposons que si l'examen était
distribué aux 30 étudiants/es de ce cours, la distribution des notes serait à peu près
normale avec un écart-type de 14,24. À partir de l'échantillon de 5 personnes
créé précédemment, peut-on conclure, au seuil de signification de 5%, que
l'examen est trop difficile, i.e. que la moyenne du groupe sera sous 60
file:///C|/B%20-%20Jean/PSY1300/C8P8.html[2020-04-30 09:31:35]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST CONNU
Exemple IV (# 19)
Un distributeur de fertilisant vend son produit dans des sacs de 22 kg.
La masse des sacs est distribuée normalement avec un écart type de 0,3 kg.
Un consommateur prétend que la compagnie fraude puisqu'il a acheté
quatre sacs dont la masse moyenne est 19,8 kg. Au seuil de signification
de 0,05, la plainte de ce consommateur est-elle fondée?
Suite > TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST INCONNU
file:///C|/B%20-%20Jean/PSY1300/C8P8.html[2020-04-30 09:31:35]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST INCONNU
Dans cette situation, le test d'hypothèse sur une moyenne se fait de la façon
suivante (note: les étapes 1, 2, 5 et 7 sont identiques à celles du cas précédent)
(2) RC > t α RC ≤ t α
(3) RC < -t α RC ≥ -t α
Exemple I
Prenons l'exemple de nos cinq psychologues, mais supposons encore qu'il s'agisse
d'un nouvel instrument pour lequel on ignore la valeur de σ, mais dont on a de
bonnes raisons de croire que les scores se distribuent normalement. On veut
vérifier si le score moyen des psychologues est différent de 100, pour α = 0,05.
file:///C|/B%20-%20Jean/PSY1300/C8P9.html[2020-04-30 09:31:36]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST INCONNU
Exemple II (# 27)
Des ampoules dont la durée de vie moyenne est de 750 heures sont entreposées
depuis plusieurs années. On craint que ce long séjour n'ait réduit la durée de vie
des ampoules. En supposant que la durée de vie se distribue normalement, on
prend 10 ampoules dont la durée de vie moyenne est 710 heures avec un écart type
de 40 heures. Au seuil de 0,10, doit-on conclure que la durée de vie des
ampoules entreposées est significativement réduite?
file:///C|/B%20-%20Jean/PSY1300/C8P9.html[2020-04-30 09:31:36]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST INCONNU
file:///C|/B%20-%20Jean/PSY1300/C8P9.html[2020-04-30 09:31:36]
TEST D'HYPOTHÈSE SUR UNE MOYENNE LORSQUE σ EST INCONNU
file:///C|/B%20-%20Jean/PSY1300/C8P9.html[2020-04-30 09:31:36]
TEST D'HYPOTHÈSE SUR UN POURCENTAGE
Dans ce cas-ci
Exemple I
Reprenons l'exemple de l'étudiant norvégien qui voulait savoir s'il avait des
chances de remporter les élections à la présidence de l'Association des étudiants/es
Rappelons que p = 22%, n = 50 et α = 0,005
et
file:///C|/B%20-%20Jean/PSY1300/C8P10.html[2020-04-30 09:31:37]
TEST D'HYPOTHÈSE SUR UN POURCENTAGE
Exemple II (# 21)
Le principal commanditaire de l'émission La Cuisine Rapide dit que l'émission
devra être retirée de l'horaire si elle ne rejoint pas au moins 25% de l'auditoire
potentiel. Dans un échantillon aléatoire de 1250 téléspectateurs, 260 affirment
regarder l'émission. Au seuil de 0,05, l'émission devrait-elle être retirée?
et
file:///C|/B%20-%20Jean/PSY1300/C8P10.html[2020-04-30 09:31:37]
NOTIONS PRÉLIMINAIRES
NOTIONS PRÉLIMINAIRES
La méthode du test d'hypothèse vue précédemment
est une méthode très générale de l'inférence statistique
On a vu que tout test d'hypothèse repose sur la comparaison d'un indice à une
distribution d'échantillonnage présumée par la validité de l'hypothèse nulle
Dans les cas présentés ci-dessous, cet indice est une différence
entre deux moyennes (ou deux pourcentages) d'échantillon.
Puisqu'il s'agit d'indices statistiques,
une certaine erreur est associée à chacun d'eux.
Par conséquent, la différence entre deux moyennes (ou deux pourcentages)
d'échantillon contient aussi une certaine part d'erreur.
Il est donc essentiel de déterminer ce qu'est la distribution d'échantillonnage
de la différence entre ces deux moyennes (ou ces deux pourcentages)
file:///C|/B%20-%20Jean/PSY1300/C8P11.html[2020-04-30 09:31:37]
DISTRIBUTION D'ÉCHANTILLONNAGE DE LA DIFFÉFRENCE ENTRE DEUX MOYENNES
DISTRIBUTION D'ÉCHANTILLONNAGE
DE LA DIFFÉRENCE ENTRE DEUX MOYENNES
Soit A la distribution
d'échantillonnage des
moyennes d'une première
population
et B la distribution
d'échantillonnage des
moyennes d'une seconde
population
Suite > TEST D'HYPOTHÈSE SUR DEUX MOYENNES LORSQUE LES σ SONT CONNUS
file:///C|/B%20-%20Jean/PSY1300/C8P12.html[2020-04-30 09:31:37]
TEST D'HYPOTHÈSE SUR DEUX MOYENNES LORSQUE LES σ SONT CONNUS
où
Exemple
Deux machines, nommées 1 et 2, remplissent des sacs d'arachides. Grâce à de
nombreux contrôles de qualité, on sait que σ1 = 0,26 gramme et σ2 = 0,31 gramme.
Suite à un déménagement, on pense que les deux machines ne donnent
plus la même quantité d'arachides. Pour vérifier cette hypothèse, on prélève 50
sacs de la machine 1 et 60 sacs de la machine 2 et on obtient respectivement
1 = 50,60 et 2 = 50,30. Que peut-on conclure si on fixe α à 0,05?
file:///C|/B%20-%20Jean/PSY1300/C8P13.html[2020-04-30 09:31:38]
TEST D'HYPOTHÈSE SUR DEUX MOYENNES LORSQUE LES σ SONT CONNUS
Z0,025 = 1,96, par conséquent, la région critique est RC < -1,96 ou RC > 1,96
d'où
file:///C|/B%20-%20Jean/PSY1300/C8P13.html[2020-04-30 09:31:38]
TEST D'HYPOTHÈSE SUR DEUX MOYENNES LORSQUE LES σ SONT INCONNUS
° Si n1 ou n2 est petite (< 30) et que l'on peut supposer que les distributions
des deux populations sont normales et de même écart type (i.e. σ1 = σ2 )
Alors, il faut d'abord calculer l'écart type commun
file:///C|/B%20-%20Jean/PSY1300/C8P14.html[2020-04-30 09:31:39]
TEST D'HYPOTHÈSE SUR DEUX MOYENNES LORSQUE LES σ SONT INCONNUS
d'où
Exemple II
Un pauvre professeur ose encore affirmer qu'il existe une différence entre les
hommes et les femmes sur un test d'habiletés spatio-cognitivo-émotives (sic!).
Encore pire, il prétend que les hommes ont un score de plus de deux points
supérieur à celui des femmes. Voici les données sur lesquelles repose son
affirmation: ° Hommes: 82, 80, 81, 84, 75 ° Femmes: 74, 79, 78, 71
Son affirmation est-elle digne d'intérêt au seuil de 5% (on suppose que σH = σF )?
file:///C|/B%20-%20Jean/PSY1300/C8P14.html[2020-04-30 09:31:39]
TEST D'HYPOTHÈSE SUR DEUX MOYENNES LORSQUE LES σ SONT INCONNUS
d'où
file:///C|/B%20-%20Jean/PSY1300/C8P14.html[2020-04-30 09:31:39]
TEST D'HYPOTHÈSE SUR DEUX POURCENTAGES
Mais, on ignore π 1 et π 2 (c'est ce qu'on cherche) et on doit les estimer à l'aide des
pourcentages échantillonnaux, i.e. p1 et p2 . Par suite, on estime l'erreur type par
où
Exemple (#14)
Le directeur d'un collège affirme que les élèves de son collège (groupe 1) se
trouvent plus facilement un emploi d'été que les élèves du collège voisin
(groupe 2). Un échantillon aléatoire de 200 élèves du groupe 1 montre que 55
d'entre eux se sont trouvé un emploi d'été alors que, pour un échantillon de 150
élèves du groupe 2, le nombre est 40. Au seuil de 1%, le directeur a-t-il raison?
file:///C|/B%20-%20Jean/PSY1300/C8P15.html[2020-04-30 09:31:39]
TEST D'HYPOTHÈSE SUR DEUX POURCENTAGES
d'où
file:///C|/B%20-%20Jean/PSY1300/C8P15.html[2020-04-30 09:31:39]
DIFFÉRENCE SIGNIFICATIVE ET DIFFÉRENCE SIGNIFIANTE
DIFFÉRENCE SIGNIFICATIVE
ET DIFFÉRENCE SIGNIFIANTE
Il est FONDAMENTAL de se rappeler que lorsqu'une différence est dite
significative, ce terme est entendu au sens strictement statistique
Vu d'une autre façon, on peut reprendre l'exemple des 250 psychologues et des
250 psychiatres donné précédemment. On se rappelle que le calcul du rapport
critique (RC = 1,95) nous amenait à conclure que les psychologues sont plus
psychopathes que les psychiatres. Posons maintenant la question suivante:
«Si on plaçait ces 500 personnes en ordre descendant sur le score de psychopathie
et qu'on formait un groupe avec les 250 personnes les plus psychopathes, combien
ce groupe contiendrait-il de psychologues et de psychiatres?»
On pourrait démontrer que la réponse est:
«à peu près 134 psychologues et 116 psychiatres»
En pratique, on doit calculer des indices pour mesurer l'ampleur d'une différence
On pourrait, par exemple, exprimer la différence entre les groupes en termes
d'écarts types; ainsi, dans cet exemple, la différence entre les deux échantillons est
de 0,9 alors que l'écart type est de 5,1 ou 5,2. Par conséquent, la différence est
de 0,9/5,15 = 0,175 écart type
De même, on pourrait transformer le RC critique en coefficient de détermination
file:///C|/B%20-%20Jean/PSY1300/C8P16.html[2020-04-30 09:31:40]
CHAPITRE 9: COMPARAISON DE PLUSIEURS POURCENTAGES ÉCHANTILLONNAUX
Distribution du χ 2
Méthode générale du test de χ 2
Test de comparaison de plusieurs pourcentages
Test d'ajustement analytique
file:///C|/B%20-%20Jean/PSY1300/C9P0.html[2020-04-30 09:31:40]
DISTRIBUTION DU χ<sup>2</sup>
DISTRIBUTION DU χ 2
Lorsqu'on désire comparer plus de deux pourcentages échantillonnaux,
il est essentiel d'introduire une nouvelle distribution de probabilités:
la distribution du χ 2 (khi-carré)
DESCRIPTION
Une distribution de χ 2 résulte de l'addition d'un certain nombre de variables
aléatoires indépendantes mises au carré, chacune de ces variables étant une cote Z
i.e. χ 2 = Z1 2 + Z2 2 + ... Zi2
La quantité de variables impliquées donne le nombre de degré de liberté (d.l.)
Ce nombre détermine la forme de la courbe
Celle-ci est positivement dissymétrique pour des petites valeurs de d.l.,
mais s'approche progressivement de la distribution normale
à mesure que le nombre de d.l. augmente
On note également que, pour ces distributions, μ = d.l.
Graphiquement, on a
file:///C|/B%20-%20Jean/PSY1300/C9P1.html[2020-04-30 09:31:40]
DISTRIBUTION DU χ<sup>2</sup>
file:///C|/B%20-%20Jean/PSY1300/C9P1.html[2020-04-30 09:31:40]
MÉTHODE GÉNÉRALE DU TEST DE χ<sup>2</sup>
On note que si toutes les fréquences observées étaient égales aux fréquences
espérées, cette somme serait égale à 0. Donc 0 est la valeur idéale que devrait
prendre la valeur du χ 2 lorsque H0 est vraie.
file:///C|/B%20-%20Jean/PSY1300/C9P2.html[2020-04-30 09:31:41]
TEST DE COMPARAISON DE PLUSIEURS POURCENTAGES
Oui 30 32 25 87
Non 60 80 40 180
Attention: il n'est pas question ici de vérifier que le pourcentage de gens disant
«oui» est le même que le pourcentage de gens disant «non». Il ne s'agit pas non
plus de vérifier qu'il y a le même pourcentage de gens dans chaque module.
file:///C|/B%20-%20Jean/PSY1300/C9P3.html[2020-04-30 09:31:41]
TEST DE COMPARAISON DE PLUSIEURS POURCENTAGES
Finalement
file:///C|/B%20-%20Jean/PSY1300/C9P3.html[2020-04-30 09:31:41]
TEST DE COMPARAISON DE PLUSIEURS POURCENTAGES
Exemple II (#9)
Pour cerner l'opinion des travailleurs sur un éventuel changement aux règles de
régie interne de la centrale syndicale qui les représente, l'exécutif a fait parvenir
un questionnaire à 100 membres de trois syndicats affiliés.
Les résultats du sondage apparaissent dans le tableau ci-dessous
SYNDICAT x y z
OPINION
Pour 17 23 10
Contre 9 13 8
Indécis 4 4 12
Pour 15 17 20 23 15 10 50
Contre 9 9 12 13 9 8 30
file:///C|/B%20-%20Jean/PSY1300/C9P3.html[2020-04-30 09:31:41]
TEST DE COMPARAISON DE PLUSIEURS POURCENTAGES
Indécis 6 4 8 4 6 12 20
Total 30 40 30 100
1-1 17 15 2 4 0,27
1-2 23 20 3 9 0,45
1-3 10 15 -5 25 1,67
2-1 9 9 0 0 0,00
2-2 13 12 1 1 0,08
2-3 8 9 -1 1 0,11
3-1 4 6 -2 4 0,67
3-2 4 8 -4 16 2,00
3-3 12 6 6 36 6,00
Donc
Notes
° On pourrait analyser plus en détail cette relation, mais il faudrait faire des
tests a posteriori. On peut néanmoins noter que, par exemple, les travailleurs
du syndicat z sont particulièrement «indécis» puisqu'on remarque que f o > f e;
en contrepartie, ils semblent moins «pour» puisque, pour cette cellule, f o < f e
file:///C|/B%20-%20Jean/PSY1300/C9P3.html[2020-04-30 09:31:41]
TEST D'AJUSTEMENT ANALYTIQUE
Exemple I
Vous affirmez que le nombre de pannes de métro n'est pas identique sur
chaque ligne. Vous relevez les pannes pendant un mois. Voici les résultats:
LIGNE FRÉQUENCE
Verte 56
Orange 66
Bleue 44
Jaune 54
file:///C|/B%20-%20Jean/PSY1300/C9P4.html[2020-04-30 09:31:42]
TEST D'AJUSTEMENT ANALYTIQUE
Verte 56 55 1 1 0,02
Jaune 54 55 -1 1 0,02
Donc
Exemple II
Vous soutenez que la distribution du poids des grains
de fromage de la poutine uqamienne est une distribution normale
À partir d'un échantillon de 200 grains, vous obtenez une moyenne de 6
grammes, un écart-type de 1 gramme et le tableau de fréquences suivant:
POIDS (grammes) FRÉQUENCE
x<4 6
4≤x<5 27
5≤x<6 70
6≤x<7 67
7≤x<8 26
8≤x 4
file:///C|/B%20-%20Jean/PSY1300/C9P4.html[2020-04-30 09:31:42]
TEST D'AJUSTEMENT ANALYTIQUE
Donc
file:///C|/B%20-%20Jean/PSY1300/C9P4.html[2020-04-30 09:31:42]
TEST D'AJUSTEMENT ANALYTIQUE
file:///C|/B%20-%20Jean/PSY1300/C9P4.html[2020-04-30 09:31:42]
CHAPITRE 10: ANALYSE DE RÉGRESSION LINÉAIRE
file:///C|/B%20-%20Jean/PSY1300/C10P0.html[2020-04-30 09:31:42]
ANALYSE DE RÉGRESSION ET DE CORRÉRRLATION: RAPPELS
ANALYSE DE RÉGRESSION
ET DE CORRÉLATION: RAPPELS
L'analyse de régression permet de déduire une équation d'estimation qui décrit la
nature fonctionnelle de la relation entre deux variables, alors que
l'analyse de corrélation donne une mesure de la force de cette relation
où
X = la valeur de la variable indépendante
Yc = la valeur estimée de la variable dépendante
a = l'ordonnée à l'origine, i.e. la valeur de Yc lorsque X = 0
b = la pente, i.e. la variation de Yc pour une variation d'une unité de X
On a aussi
Le coefficient de détermination
est une mesure de la proportion des variations de la variable Y
qui s'«explique» par les variations de la variable X
Le coefficient de corrélation
file:///C|/B%20-%20Jean/PSY1300/C10P1.html[2020-04-30 09:31:43]
ANALYSE DE RÉGRESSION ET DE CORRÉRRLATION: RAPPELS
Rue Elle 2 60
Chemin Sire 3 85
Chemin Soeur 2 77
De plus
file:///C|/B%20-%20Jean/PSY1300/C10P1.html[2020-04-30 09:31:43]
L'ERREUR TYPE DE L'ESTIMATION
Pour réaliser des inférences statistiques à partir des données d'une analyse de
régression (faite à partir de données échantillonnales), une autre mesure servira à
quantifier le taux de dispersion des données autour de la droite de régression
Exemple
file:///C|/B%20-%20Jean/PSY1300/C10P2.html[2020-04-30 09:31:43]
L'ERREUR TYPE DE L'ESTIMATION
file:///C|/B%20-%20Jean/PSY1300/C10P2.html[2020-04-30 09:31:43]
TEST D'HYPOTHÈSE SUR LA PENTE
CONDITIONS D'APPLICATION
° Toutes ces distributions des valeurs de Y pour chacune des valeurs de X ont le
même écart type (syx). On parle alors d'homoscédasticité
Les étapes du test d'hypothèse sur la pente sont pratiquement les mêmes
que celles des tests vus dans les parties précédentes du cours
° Étape 1: Formuler l'hypothèse nulle et l'hypothèse alternative
Soit une des trois possibilités suivantes:
(1) H0 : B = BHo vs H1 : B ≠ BHo
(2) H0 : B ≤ BHo vs H1 : B > BHo
(3) H0 : B ≥ BHo vs H1 : B < BHo
° Étape 2: Choisir le seuil de signification du test et la taille de l'échantillon
° Étape 3: Déterminer la distribution pour effectuer le test
file:///C|/B%20-%20Jean/PSY1300/C10P3.html[2020-04-30 09:31:44]
TEST D'HYPOTHÈSE SUR LA PENTE
(2) RC > t α RC ≤ t α
(3) RC < -t α RC ≥ -t α
Exemple
Supposons que, pour l'exemple des stations d'essence, les sept stations ne
représentent qu'un petit échantillon de toutes les stations d'une grande ville
Vous affirmez que la pente, dans la population, est supérieure à 25
i.e. que pour chaque augmentation de 1 centaine de véhicules,
la vente d'essence augmente de 25 milliers de litres
Au seuil de 5%, les données sont-elles suffisantes pour appuyer votre position?
(on suppose que les conditions d'application sont satisfaites)
file:///C|/B%20-%20Jean/PSY1300/C10P3.html[2020-04-30 09:31:44]
TEST D'HYPOTHÈSE SUR LA PENTE
puis
NOTE IMPORTANTE
En effet
file:///C|/B%20-%20Jean/PSY1300/C10P3.html[2020-04-30
View publication stats 09:31:44]