Cours Stat LP-S5 Partie 2
Cours Stat LP-S5 Partie 2
Cours Stat LP-S5 Partie 2
Plus technique
Descriptive
-ANOVA
-Tri à plat/croisé
- Régression
- Analyse factorielle
- ect,
2
1.1- Objectif et utilité
Analyses des données statistiques
3
1.2- Stratégie d’analyse
Analyses des données statistiques
Univariée
Tris à plat, description de l’échantillon, recodage
Bivariée
Tris croisés, mesure d’association
Multivariée
Descriptive par groupes de variables
Explicative entre groupe de variables
4
NIVEAU 1 d’étude:
- Descriptives: données brutes pour créer des structures
décrivant les caractéristiques d’une population.
2- Analyse ‘Bivariée’
5
2.1- Description d’une variable
7
2.2- Analyse bivariée
8
D’une manière pratique
Gestion des données
•Tableau croisé
Tests paramétriques
•Tests t et z pour un échantillon dans
Excel
12
D’une manière pratique
Tests d'hypothèses
Tests des valeurs extrêmes
13
D’une manière pratique
Tests d'hypothèses
Tests de corrélation
•Coefficient de corrélation de
Pearson dans Excel
14
Les tests paramétriques et non paramétriques
Tests d’hypothèses
Deux Deux
Échantillon Échantillon
échantillons échantillons
unique unique
ou plus ou plus
- Test t -Khi-deux
- Test z - Kolmogorov
- Smirnov
- Binomial
16
Nouvelles questions
⚫L’approche statistique
◦ Dans les 3 questions posées, on veut tester la dépendance d’une
variable continue (la concentration) sur une ou plusieurs variables
discrètes (le groupe sanguin, le sexe ou leur combinaison)
◦ On peut mettre ces questions sous la forme d’hypothèses (nulles)
statistiques à tester
🞄 𝐻0: 𝜇Æ = 𝜇𝑏 = 𝜇Æ𝑏
🞄 𝐻0: 𝜇Æ|𝑆 = 𝜇𝑏|𝑆 = 𝜇Æ𝑏|𝑆
🞄 𝐻0′: 𝜇𝑀|𝐺𝑆 = 𝜇𝐹|𝐺𝑆
🞄 𝐻0′′ : 𝜇𝑀,Æ = 𝜇𝐹,Æ = 𝜇𝑀,𝑏 = 𝜇𝐹,𝑏 = 𝜇𝑀,Æ𝑏 = 𝜇𝐹,Æ𝑏
Nouvelles questions
⚫L’approche statistique (suite)
◦ Ces hypothèses nulles généralisent ce qui a été vu
précédemment (test de t) dans plusieurs
directions:
• 🞄 Comparaison de n (≥ 2) moyennes
Nouvelles questions
⚫L’approche statistique (suite)
◦ Ces hypothèses nulles généralisent ce qui a été vu
précédemment (test de t) dans plusieurs
directions:
• 🞄 Plusieurs effets testés simultanément
Nouvelles questions
⚫L’approche statistique (suite)
◦ Ces hypothèses nulles généralisent ce qui a été vu
précédemment (test de t) dans plusieurs
directions:
• 🞄 Interactions entre effets
Analyse de la variance
𝐻0: 𝜇1 = 𝜇2 = ⋯ = 𝜇𝐾
𝐻0: 𝜇Æ = 𝜇𝑏 = 𝜇Æ𝑏
𝜇Æ = 𝜇𝑏
qui pourrait aussi s’écrire: 𝐻0: {𝜇 = 𝜇
Æ Æ𝑏
◦ Remarque: la troisième égalité découle des 2 premières
⚫L’hypothèse alternative 𝐻1 est qu’au moins une des égalités est incorrecte.
Analyse de la variance (1 critère)
⚫Une fois l’hypothèse nulle établie, nous pouvons
récolter des données pour nous aider à accepter (ou
réfuter) celle-ci:
Groupes A b Ab
104 120 98
90 101 101
H0 H1
Analyse de la variance (1 critère)
𝑛Æ− 1 ∗ 𝑠2 + 𝑛Æ𝑏 − 1 ∗ 𝑠2 + 𝑛𝑏 − 1 ∗ 𝑠2
2 Æ Æ𝑏 𝑏
𝑠i𝑛 𝑡𝑟 =
𝑛Æ− 1 + 𝑛Æ𝑏 − 1 + 𝑛𝑏 − 1
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante
(suite):
◦ Comme:
🞄 𝑠Æ =
2 i=1 𝐴i
où 𝑦Æi = 𝑌Æi− 𝑌̅Æ.
𝑛 −1
∑ 𝑛𝐴 𝑦 2
∑ 𝑛 𝐴 𝑏 𝑦 2𝐴 𝑏 i
2
🞄 𝑠Æ𝑏 = i=1
où 𝑦Æ𝑏i = 𝑌Æ𝑏i − 𝑌̅Æ𝑏.
𝑛 𝐴𝑏 −1
∑ 𝑛 𝑏 𝑦 2𝑏 i
🞄 𝑠𝑏2 = i=1 où 𝑦𝑏i = 𝑌𝑏i − 𝑌̅𝑏.
𝑛 𝑏 −1
🞄 𝑛 = 𝑛Æ + 𝑛Æ𝑏 + 𝑛𝑏 et 𝑛𝐺 = # 𝑔𝑟o𝑢𝑝e𝑠 = 3
𝑛 𝐴𝑏
∑ 𝑛 𝐴 𝑦 𝐴2 i+∑ 𝑦2 𝑛
+∑i =𝑏 𝑦 𝑏2
◦ 𝑠i𝑛
2
𝑡𝑟 =
i=1
i =𝑛−𝑛 𝐴 𝑏 1 i
𝘎
1 i
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ La seconde méthode est une estimation inter
groupes: si 𝐻0 est vraie, chaque groupe peut être vu
comme un échantillon.
🞄 La moyenne de chaque échantillon (𝑌̅Æ.,𝑌̅Æ𝑏.,𝑌̅𝑏.)estime𝜇
2
🞄 La variance de ces moyennes estime 𝜎 , où n𝑛 est la taille
des échantillons.
Si les tailles des échantillons
diffèrent, il est aisé de montrer que:
𝑛𝘎
2 ∑i=1 𝑛 i ∗ 𝑌̅i.−𝑌̅..2
𝑠 i𝑛𝑡e𝑟 = 𝑛 𝘎 −1
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ Pour cette seconde méthode, si 𝐻0 est fausse:
🞄 Les moyennes de groupes estiment des valeurs différentes
(𝜇Æ, 𝜇Æ𝐵 e𝑡 𝜇𝑏 ), et auront donc tendance à être plus
différentes que quand 𝐻0 est vraie.
🞄 Autrement dit, la variance de ces moyennes aura tendance à
𝜎2
être supérieure à 𝑛
.
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ En résumé:
i𝑛 𝑡 𝑟 𝑎 i𝑛 𝑡 e𝑟
🞄 Si 𝐻0 est vraie, 𝑠2 et 𝑠2 estiment la même variance
(𝜎2). Le rapport de ces deux variances a donc une
distribution connue :
𝑠i2𝑛 t e r
~𝐹𝑛 𝘎 −1,𝑛−𝑛 𝘎
𝑠i2𝑛 t r
𝑠i2𝑛 t e
𝑠ir2𝑛 t r
> 𝐹𝑛 𝘎 −1,𝑛−𝑛 𝘎
Analyse de la variance (1 critère)
⚫L’idée de base est la suivante (suite):
◦ On pourra donc faire la distinction entre 𝐻0 et 𝐻1 en
regardant la valeur de F calculée comme expliqué ci-
dessus:
🞄 On définit une valeur 𝐹𝑠e𝑢i𝑙 comme une valeur de F qu’on
excède par hasard qu’avec une probabilité 𝛼
🞄 Si 𝐹 < 𝐹𝑠e𝑢i𝑙, on accepte 𝐻0 puisqu’il n’y a pas d’évidence
d’une valeur « anormalement » élevée de F (à ce seuil)
🞄 Si 𝐹 > 𝐹𝑠e𝑢i𝑙, on rejette 𝐻0: la valeur de F semble
anormalement élevée, traduisant le fait que 𝑠 2i𝑛𝑡e𝑟 >>𝑠i𝑛𝑡𝑟𝑎
2
Analyse de la variance (1 critère)
Example ANOVA 1: XLSTAT
Les données correspondent à une expérience où 4 dentifrices ont été Dentifrice Blancheur
chacun testés sur 6 personnes afin que soit mesuré leur impact sur la T1
T1
16
17
blancheur des dents. Tous les patients utilisaient auparavant le même T1 17
dentifrice
T1 19
T1 21
T1 24
T2 18
nous cherchons ici à déterminer s'il existe une T2 20
48
1-Corrélation
1- 1-Concepts de base de la corrélation
Définition
• Une corrélation existe entre deux variables lorsque l'une d'elles est
liée à l'autre d'une manière ou d'une autre.
• pour visualiser l'association entre deux variables nous devrions
construire un graphique appelé nuage de points ou diagramme de
dispersion.
1- 1-Concepts de base de la corrélation
• Définition
• Un nuage de points (ou diagramme de dispersion) est un graphique
dans lequel les données d'échantillon appariées (x, y) sont tracées
avec un axe x horizontal et un axe y vertical.
• Chaque paire individuelle (x, y) est tracée comme un seul point.
1- 1-Concepts de base de la corrélation
• Coefficient de corrélation linéaire
Étant donné que les examens visuels des nuages de points sont largement
subjectifs, nous avons besoin de mesures plus objectives. Nous utilisons le
coefficient de corrélation linéaire r, qui est utile pour détecter des motifs
linéaires.
Définition:
Le coefficient de corrélation linéaire r mesure la force de l'association
linéaire entre les valeurs quantitatives x et y appariées dans un échantillon.
[Le coefficient de corrélation linéaire est parfois appelé coefficient de
corrélation du Pearson.
1- 1-Concepts de base de la corrélation
Test d'hypothèse de corrélation
Pour utiliser un test d'hypothèse formel pour déterminer s'il existe une
corrélation linéaire significative entre deux variables.
En Utilisant le test t:
Utilise la distribution t de Student avec une statistique de test ayant la
forme où désigne l'écart type de l'échantillon des valeurs r.
Les hypothèses
1- 1-Concepts de base de la corrélation
le critère de décision est de rejeter l'hypothèse nulle si la valeur
absolue de la statistique de test dépasse les valeurs critiques ;
❑le rejet signifie qu'il existe des preuves suffisantes pour soutenir
l'affirmation d'une corrélation linéaire entre les deux variables.
❑Si la valeur absolue de la statistique de test ne dépasse pas les
valeurs critiques, nous ne rejetons pas, c'est-à-dire qu'il n'y a pas
suffisamment de preuves pour conclure qu'il existe une corrélation
linéaire entre les deux variables.
Une autre méthode la statistique de test est r
Si H0 est rejeté, concluez qu'il existe une corrélation linéaire significative.
Si vous ne rejetez pas H0 , alors il n'y a pas de preuves suffisantes pour conclure qu'il existe une
corrélation linéaire.
1- 1-Concepts de base de la corrélation
• Tests unilatéraux :
• Des tests unilatéraux peuvent se produire avec une affirmation d'une
corrélation linéaire positive ou une affirmation d'une corrélation
linéaire négative. Dans de tels cas, les hypothèses seront comme
indiqué ici.
calculer le coefficient de corrélation de
Pearson sur XLSTAT
Les données représentent un échantillon
de clients d’une boutique de vente de
chaussures en ligne décrits par
différentes variables (par exemple le
montant de la facture, la pointure…).
Dans le modèle Logit, la probabilité de succès est évaluée dans la fonction F (z)