Biométrie P1
Biométrie P1
Biométrie P1
Séquence 1:
02 Septembre 2019 – 21 Octobre 2019
20 Heures de cours
10 Heures de TD
Dr. Karmous Chahine
[email protected] 2019-2020
Plan
• Chapitre 1: Introduction & Définitions
• Chapitre 2: Rappels
• Chapitre 3: Dispositif Complètement Aléatoire (Modèle statistique
DCA, ANOVA)
• Chapitre 4: Les contrastes orthogonaux (Construction des
contrastes)
• Chapitre 5: Dispositif Bloc Complètement Aléatoire (Modèle
statistique DBCA, ANOVA)
• Chapitre 6: Le Carré Latin (Modèle statistique, ANOVA)
• Chapitre 7: Analyse Factorielle
• Chapitre 8: Split-Plot (Modèle statistique, ANOVA)
Chapitre 1
Introduction
Introduction:
• Diversité et complexité sont deux réalités du monde
vivant.
2. Statistiques inférentielles:
méthodes permettant de généraliser, à l’échelle de la population,
des conclusions (inférences) tirées à partir des données d’un
échantillon.
3. Statistiques prédictives:
Les analyses prédictives peuvent être employées pour prédire
des données numérique ou des données de type catégoriel
(régression ou de classification): modélisation
Introduction:
La démarche scientifique
La démarche scientifique:
applicable pour toutes les
sciences exactes
Permet de confirmer ou
d’infirmer une hypothèse avec
une marge d’erreur la plus
petite possible et/ou prédire un
événements à l’aide d’outils (les
modèles statistiques)
Introduction:
3. L'expérimentation est
destructive...
Impossible de sacrifier la population
de grenadier à l’ISA Chott Meriem
pour étudier le développement
racinaire.
Introduction:
Définitions
4. Manque de temps et de
moyens
Même dans le cas où la population est
limitée, on n'a pas le temps ni les
moyens d'effectuer toutes les mesures:
par exemple, demander l'avis des
consommateurs à propos d'un
nouveau produit prendrait trop de
temps et nécessiterait des moyens
financiers trop importants.
Introduction:
Définitions
• Évènement aléatoire: حدث
عشوائي
Tout événement qui peut ou non se
réaliser au cours d’une
expérience/observation
Exemples : pile ou face d’une
pièce de monnaie lancée;
survenue d’un cancer du
poumon chez un fumeur
Introduction:
Définitions
• Probabilité: احتمال
Quantification de la "chance de réalisation" de l'événement
aléatoire cad valeur limite de la fréquence avec laquelle
l’événement se réalise au cours d’un nombre croissant
d’expériences (observations)
Rappel:
Les paramètres
Statistiques
Descriptives &
Méthodes graphiques
1. Les paramètres statistiques
1. Les paramètres statistiques
1. Classement des données
• La classification des données xi est obtenue en créant
artificiellement des classes (ou catégories) d'individus.
• Le nombre de classes dépend du nombre d'individus
Population N Echantillon x
(average)
(mean)
Exemple 1:
• Soit la série correspondant aux tailles en cm de 6
étudiants : 160,170,180,180, 190, 200.
n = 6 ; T = 160+170+180+180+190+200 = 1080
1080
x= = 180 cm
6
1. Les paramètres statistiques
2. Moyenne Arithmétique
Exemple 2:
• Le nombre de familles
nombre nombre de enquêtées est de 53.
d'enfants familles (ni)
• Le nombre total d’enfants est
(xi) ni*xi
de 77.
0 10 0
1 20 • La moyenne du nombre
20
d’enfants par famille est de
2 15 30 77/53 = 1,45.
3 5 15
• Attention aux arrondis ici si on
4 3 12 arrondit à une décimale la
Total 53 77 moyenne est de 1,5 enfants par
famille.
1. Les paramètres statistiques
2. Moyenne Arithmétique
Exemple 3:
Les étudiants de première année Ingénieurs sont répartis
Moyenne de l'âge
Effectifs en années
Amphi 1 1000 18,1
Amphi 2 500 19,5
Amphi 3 1000 18,3
1. Les paramètres statistiques
2. Moyenne Arithmétique
Exemple 3:
Les effectifs étant différents dans les 3 groupes, la moyenne
recherchée n’est pas la moyenne des moyennes.
Classe ni Ni Fi
[140-160[ 10 10 0,05
[160-165[ 20 30 0,15
[165-170[ 30 60 0,30 La classe qui contient la
[170-175[ 45 105 0,53 médiane est [170-175[.
[175-180[ 40 145 0,73
[180-185[ 35 180 0,90
[185-190[ 15 195 0,98
[190-200[ 5 200 1,00
Total 200
1. Les paramètres statistiques
4. Mode
• Mode encore appelé valeur dominante :
• Correspond à la valeur la plus fréquente. xi
correspondant au ni (ou fi) maximum.
• Il peut y avoir un ou plusieurs modes.
Rappel :
Dans les distributions en cloche,
unimodales symétriques, mode,
médiane et moyenne sont
confondus.
1. Les paramètres statistiques
4. Mode
Exemple :
{ 1, 2, 2, 3, 4, 7, 9 }
i
(x − x) 2
S2 = i =1
n
• C'est par rapport à la moyenne que la somme des carrés des écarts
est la plus faible.
1. Les paramètres statistiques
6. Variance
Ecarts à la moyenne :
81
1. Les paramètres statistiques
9. Mesure de la dispersion
Paramètres d'aplatissement et de symétrie
1. Les paramètres statistiques
9. Mesure de la dispersion
Paramètres d'aplatissement et de symétrie
2. Tableaux statistiques
Les tableaux statistiques à un caractère:
I. Les tableaux des caractères qualitatifs
a. Cas de caractère à modalités nominales
b. Cas de caractère à modalités ordinales
II. Les tableaux des caractères quantitatifs
a. Cas de caractère quantitatif discret
b. Cas de caractère quantitatif continue
2. Tableaux statistiques
Les tableaux statistiques à deux caractères:
I. Présentation générale des tableaux de
contingence,
II. Propriétés structurelles des tableaux de
contingence,
III. Les différentes distributions statistiques,
IV. Les relations entre les caractères.
III. Tableaux statistiques
1. Tableaux à UN CARACTÈRE qualitatif
Exemple 1 : Enquête d’opinion réalisée auprès de 9
étudiants de premières années d’Horticulture, PA, GSH
• Données recueillies : Nom, Prénom, Age, Nature du
bac, opinion sur l’architecture de l’ISA Chott Meriem
• Matrice des données:= {{"Alaoui", "Fatma", 18, « M", "Très
bonne"}, {"Otmani", "Samira", 19, "S", "Bonne"},……
Exemple 1 : répartition
des salariés d’une
entreprise X selon le sexe
(xi) et le
niveau de formation (yj)
III. Tableaux statistiques
2. Tableaux à DEUX CARACTÈRES
Exemple 2: répartition des salariés d’une entreprise M
selon le sexe (xi) et le niveau de formation (yj)
IV. Méthodes graphiques :
• Les graphiques représentent les distributions.
• Le choix des représentations graphiques dépend de la
nature du caractère statistique étudié;
• Les variables qualitatives peuvent être représentées
graphiquement de différentes manières
• Diagrammes en bâtons,
• Diagrammes en barres (ou en tuyaux d’orgue),
• Diagrammes circulaires (ou en camembert ou en
secteurs (Diagramme sectoriel))
IV. Méthodes graphiques :
1. Données quantitatives discrètes
– Diagramme en bâtons
▪ On trace parallèlement à l'axe des ordonnées, en regard
des xi qui sont portés en abscisse, un segment de
longueur proportionnel à ni
fi ni
f i =1 n
i =n
f3 n3
f2 n2
f1 n1
x1 x2 x3 xm x1 x2 x3 xm
99
IV. Méthodes graphiques :
Données qualitatives
Diagrammes en barres (Histogramme)
IV. Méthodes graphiques :
Données qualitatives
Diagramme sectoriel Répartition des groupes
sanguins
A
16
35 B
Groupes sanguins ni fi O
A 35 35% 40 9 AB
B 9 9%
O 40 40%
AB 16 16% AB
100 100% A
O
B
IV. Méthodes graphiques :
Données qualitatives
Diagramme sectoriel VS Histogramme
1400 Nombre de périodes de chômage en une année
1000
800
600
Modalités
contigües Col 2: 1150
Col 2: 50
400 Col 2: 30
Col 2: 20
200
X=1 X=2 X=3 X=4
0
-1 0 1 2 3 4
• Histogrammes.
IV. Méthodes graphiques :
Variables quantitatives discrètes
104
IV. Méthodes graphiques :
Variables quantitatives discrètes discontinues
IV. Méthodes graphiques :
Variables quantitatives discrètes discontinues
REMARQUES:
35
25
• Souvent les modalités
% frequency
20
ordonnées dans le sens des
fréquences croissantes ou 15
106
IV. Méthodes graphiques :
Variables quantitatives discrètes discontinues
0 10
1 20 15
2 15
3 5
4 3 10
>4 0
5
0
0 1 2 3 4 >4
IV. Méthodes graphiques :
Variables quantitatives discrètes discontinues
Exemple : Histogramme
90
Densité
Classe ni (*10) 80
[140-160[ 10 5 70
[160-165[ 20 40 60
[165-170[ 30 60 50
[170-175[ 45 90 40
[175-180[ 40 80 30
[180-185[ 35 70 20
[185-190[ 15 30 10
[190-200[ 5 5 0
140 160 170 180 190 200
IV. Méthodes graphiques :
Variables quantitatives discrètes discontinues
Aspects de la distribution 60
– en forme de : Cloche, J, 40
U;
– À une seule bosse, à 30
plusieurs bosses ;
20
– …….
• Symétrie – Aplatissement. 10
0
1 2 3 4 5 6 7 8 9 10
IV. Méthodes graphiques :
Variables quantitatives discrètes
Courbes des fréquences cumulées. Il s’agit de courbes en escalier,
c’est-à-dire constantes sur chaque intervalle défini par deux modalités
i
Sur xi , xi +1 la fonction v aut Fi = f j%
successives, %
j =1
110
IV. Méthodes graphiques :
Variables quantitatives discrètes
La courbe cumulative des fréquences (effectifs)
IV. Méthodes graphiques :
Variables quantitatives
Histogrammes contiguës
A ne pas confondre avec le diagramme baton!
• Tracé aux limites,
9
• Convient aux données quantitatives seulement.
8
7 Contigües
6 car continuité
frequency
0
0.5 2 3.5 5 6.5 8 9.5 11 12.5 14 15.5 17 18.5 2O 21.5
call duration in minutes
Poids des fragments de poteries trouvés sur un site néolithique (g) 112
IV. Méthodes graphiques :
Variables quantitatives
Polygones de fréquences cumulées
35 Tracé aux limites supérieures
Convient aux données quantitatives seulement
30
25
cumulative frequency
20
15
10
0
2 5 8 11 14 17 20
call durtion in minutes 113
Poids des fragments de poteries trouvés sur un site néolithique (g)
IV. Méthodes graphiques :
Caractères à deux dimensions: Qualitatif
IV. Méthodes graphiques :
Caractères à deux dimensions: Quantitatif
Remarque: Barre à moustache - Box
Plot
• Une "boîte à moustaches" (Box and Whiskers Plot", ou en
abrégé "Box Plot") est une représentation graphique de
quelques paramètres de distribution d'une variable.
• C’est une représentation graphique d’une variable
quantitative qui permet d’appréhender (résumer une
distribution empirique) la dispersion d’un échantillon.
Remarque: Barre à moustache - Box
Plot