Cours prob et stat
Cours prob et stat
Cours prob et stat
INFO-MIP S3
1
Contents
Introduction 3
2
3.4.1 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.2 Distribution conjointe (tableau croisé) . . . . . . . . . . . . . . . . . . 38
4 ANALYSE COMBINATOIRE 40
4.1 Formules classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Propriétés des combinaisons Cnp . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3
Chapter 1
3. Population : La population est l’ensemble des éléments sur lesquels porte une étude statis-
tique. Exemple: Dans une usine fabriquant des produits d’éclairage, on a mesuré la
durée de vie de certaines type lampes. L’ensemble des lampes fabriquées au cours de
cette étude constitue la population.
4. Individu : L’individu (ou aussi appelé unité statistique) est l’un des éléments de la popula-
tion, qui est soumis à une étude statistique.
4
Exemple: Dans l’exemple précédent de l’usine fabriquant des produits d’éclairage.
Chaque lampe est un individu de la population.
5. Échantillon : L’échantillon est un sous ensemble tiré aléatoirement d’une population (la
taille de l’échantillon est raisonnable par rapport à la taille de la population, lorsque
cette dernière est impossible de la tirer entièrement, on a recours à l’échantillonnage).
6. Caractère et Modalité : Le caractère (ou variable statistique) représente l’objectif de
l’´étude statistique, c’est la caractéristique étudiée sur tous les individus de la popu-
lation (on le note par des lettres majuscules X,Y,...). Le résultat pris par chaque individu
est appelé modalité.
Exemple : Dans l’exemple précédent de l’usine fabriquant des produits d’éclairage.
L’objectif est de mesurer la durée de vie de certaines type lampes. Donc la variable
statistique est X : ”durée de vie des lampes”. Les résultats peuvent ^êtres : 5h, 0h, 2h, ...
ces derniers sont les modalités de la variable.
Les modalités nous permettent de distinguer les types de la variable.
Définition 1.1.2. (Variable qualitative et Variable quantitative).
1. Un caractère (ou une variable) est dit quantitatif si ses modalités sont mesurables, sinon le
caractère est dit qualitatif.
2. Un caractère quantitatif peut être
(a) discret : Lorsque le caractère statistique prend un nombre fini de valeurs : en-
tre deux valeurs successives de modalités il n’existe pas de Valeur pour une autre
modalité (nombre d’enfants, nombre de pièces, ...),
(b) continu : Lorsque le caractère statistique peut prendre toutes les valeurs d’un inter-
valle de l’ensemble des nombres réels : entre deux valeurs successives de modalités
il existe toujours une autre valeur pour une modalité (durée de vie, taille, temps
d’appel, ...).
3. Un caractère qualitatif peut être
(a) ordinal : lorsqu’on peut établir un ordre pour les modalités (Appréciation de la
qualité d’un produit consomme : excellente, bonne, moyenne, mauvaise),
(b) nominal : lorsqu’on ne peut pas ´établir un tel ordre (La couleur : jaune, bleue,
verte, rouge, ...).
5
Exemple 1.1.1. Soit la variable X représentant "l’état civil de 20 employés dans une en-
treprise". La série statistique des valeurs prises par X est la suivante:
M − M − D −C −C − M −C −C −C − M −C − M −V − M −V − D −C −C −C − M,
où, C : célibataire, M : marié(e), V : veuf(ve), D : div Le tableau statistique associé à cette
série statistique est le suivant :
Modalité (xi ) Effectif (ni )
C 9
M 7
V 2
D 2
Σ 20
6
C’est la proportion de l’effectif d’une valeur de la variable par rapport à N la taille totale de
la population ou de l’échantillon.
On appelle fréquence cumulée de la valeur xi ou de la classe ]xi , xi+1 ] la somme des
fréquences de cette valeur ou classe et des fréquences des valeurs ou classes qui la précèdent
i
Fi = ∑ fi
k=1
- Variable quantitative discrète : Les performances en saut en hauteur (en cm) de 10 athlètes
sont: 191, 194, 197, 191, 200, 203, 200, 197, 203, 203.
Hauteur en cm effectifs ni fréquences fi fréquences cumulées F(x)
191 2 0.2 0.2
194 1 0.1 0.3
197 2 0.2 0.5
200 2 0.2 0.7
203 3 0.3 1
Total N = 10 1
7
1.2 Représentations graphiques
1.2.1 Représentations graphiques d’une distribution de variables quali-
tatives
1.2.1.1 Les tuyaux d’orgues
Les tuyaux d’orgues des effectifs (respectivement des fréquences) de la distribution statistique,
{(xi , ni ) /1 ⩽ i ⩽ p} (respectivement {(xi , fi ) /1 ⩽ i ⩽ p}) s’obtient en traçant sur un repère
orthonormé, pour tout i = 1, · · · , p, un rectangle de base de centre xi et de hauteur égale à
l’effectif ou la fréquence de la valeur xi .
Sur l’axe des abscisses on représente les modalités de la variable, alors que sur l’axe des or-
données on représente les effectifs ou les fréquences selon que l’on désire tracer un diagramme
des effectifs ou des fréquences.
Exemple 1.2.2. Représentation du digramme circulaire des fréquences pour le niveau d’étude
des adultes d’une résidence.
8
Figure 1.2: Diagramme circulaire
Exemple 1.2.3. La distribution des performances en saut en hauteur de 100 athlètes sont
représentées dans le tableau suivant:
9
Figure 1.3: Diagramme en bâtons
Exemple 1.2.4. Représentation du polygone des fréquences pour la distribution des perfor-
mances en saut en hauteur de 100 athlètes.
10
1.2.2.3 Courbe des fréquences cumulées(Fonction de répartition)
- Cas discret :
La représentation de la fonction cumulative croissante (appelée aussi fonction de réparti-
tion) est réalisée au moyen des fréquences cumulées. Cette fonction est définie de R dans [0, 1]
et vaut, pour i = 1, 2, . . . , k (où k est le nombre de modalités discrètes) :
0
si x < x1
F(x) = Fi si xi ⩽ x < xi+1
1 si x ⩾ xk
Exemple 1.2.5. Représentation de la courbe des fréquences cumulées pour la distribution des
performances en saut en hauteur de 100 athlètes.
11
Etape 1 : Déterminer p le nombre de classes à considérer dans l’étude. Pour N l’effectif de
la population ou de l’échantillon, on peut le calculer selon l’une des deux règles suivantes :
Etape 5 : S’assurer que chaque observation appartient à une et une seule classe.
Exemple 1.2.6. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle:
6.11, 6.05, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.62, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57,
1.2.3.1 Histogramme
L’histogramme des effectifs (respectivement des fréquences) de la distribution statistique {(]xi , xi+1 ] , ni ) /1 ⩽ i
(respectivement {(]xi , xi+1 ] , fi ) /1 ⩽ i ⩽ p} ) s’obtient en traçant sur un repère orthonormé,
pour tout i = 1, · · · , p, un rectangle de base la longueur du segment ] xi , xi+1 ] et de hauteur égale
à l’effectif ou la fréquence de cette classe.
Sur l’axe des abscisses on représente les bornes des classes ]xi , xi+1 ] de la variable c’est à
dire les points x1 , x2 , · · · , x p , x p+1 , alors que sur l’axe des ordonnées on représente les effectifs
ou les fréquences selon que l’on désire tracer un histogramme des effectifs ou des fréquences.
12
Figure 1.6: Histogramme
13
Figure 1.7: Polygone des fréquences
14
Figure 1.8: Courbe des fréquences cumulées
Pour tout réel r ∈ [0, 1], il existe un x ∈ [xmin , xmax ] qui n’est autre que l’abscisse du point
M de la courbe des fréquences cumulées dont l’ordonné est r.Le calcul de la relation liant les
réels r et x se fait par interpolation linéaire,
r − F (xi )
x = xi + (xi+1 − xi )
F (xi+1 ) − F (xi )
avec F (xi ) < r ⩽ F (xi+1 ) et x ∈ [xi , xi+1 ] la classe ayant la fréquence cumulée F (xi+1 ) et F (xi )
la fréquence cumulée de la classe qui qui l’a précède.
Prenons r = 0.57.F (xi ) = 0.35 < 0.57 ⩽ F (xi+1 ) = 0.65 =⇒ xi = 5.51 et xi+1 = 5.71 avec
x ∈ [5.51, 5.71]
Inversement pour tout [xmin , xmax ], il existe un r ∈ [0, 1] qui n’est autre que l’ordonné du point
M de la courbe des fréquences cumulées dont l’abscisse est x. les réels r et x sont liés par la
relation,
x − xi
r = F (xi ) + (F (xi+1 ) − F (xi ))
(xi+1 − xi )
avec x ∈ [xi , xi+1 ] et F (xi ) < r ⩽ F (xi+1 ) avec F (xi+1 ) la fréquence cumulée de la classe
[xi , xi+1 ] qui contient x et F (xi ) la fréquence cumulée qui l’a précède.
15
Exemple 1.3.11 : Reprenons l’exemple 1.3.6 de la consommation aux 100 km de 20 voitures
d’un nouveau modèle
Prenons x = 5.62 ∈ [5.51, 5.71] =⇒ xi = 5.51 et xi+1 = 5.71.F (xi+1 ) = 0.65 et F (xi ) = 0.35
x − xi 5.62 − 5.51
r = F (xi ) + (F (xi+1 ) − F (xi )) = 0.35 + (0.65 − 0.35) = 0.515
(xi+1 − xi ) 5.71 − 5.51
16
Chapter 2
2.1.1 Le mode
2.1.1.1 Variable qualitative ou quantitative discrète
Définition 2.1.1. Le mode correspond à la valeur de la variable qui possède l’effectif ou la
fréquence la plus élevée. Il est noté par md. Une distribution peut présenter un seul mode
(unimodale), deux modes (bimodale) ou plusieurs modes (plurimodale).
Exemple 2.1.1. • Pour une variable quantitative discrète (âges des participants à une
compétition sportive):
Considérons la distribution des âges des participants :
L’effectif maximal est 20, donc le mode est mo = 20 ans. Cette distribution est unimodale.
L’effectif maximal est 20. La distribution est bimodale, avec deux modes : Banane et
Orange.
17
2.1.1.2 Variable quantitative continue
Pour une variable quantitative continue, les données sont classées en intervalles. Lorsque toutes
les classes possèdent la même amplitude, la classe modale correspond à celle qui affiche la
fréquence ou l’effectif maximal.
La fréquence maximale est 0.30, donc la classe modale est [2000; 3000[.
Remarque 2.1.1. Lorsque les classes n’ont pas la même amplitude, il est impératif d’ajuster
les effectifs et les fréquences afin d’uniformiser les classes avant de procéder à :
• La construction de l’histogramme,
Le mode mo (qui appartient à la classe modale) est déterminé par interpolation linéaire.
Pour illustrer une telle interpolation, considérons l’exemple suivant : Les salaires mensuels (en
milliers de dirhams) du personnel d’une entreprise se répartissent comme suit:
Exemple 2.1.3.
2.1.2 La moyenne
Le terme « moyenne » est souvent utilisé pour désigner diverses mesures de tendance cen-
trale, en particulier la moyenne arithmétique. D’autres types de moyennes existent, chacune
préservant une caractéristique de l’ensemble. Leur intérêt dépend de l’utilité de cette propriété.
Cependant, ces « moyennes » sont des valeurs abstraites qui ne correspondent généralement
pas à des réalisations concrètes.
18
Les classes ne sont pas de même amplitude, il est donc nécessaire de corriger les données. La
plus petite amplitude est a = 1. Les classes corrigées sont les suivantes :
Classe Effectif corrigé n′i Fréquence fi′
[2, 3] 15 0,19
]3, 4] 20 0,25
]4, 5] 10 0,125
]5, 6] 10 0,125
]6, 7] 6 0,0775
]7, 8] 6 0,0775
]8, 9] 6 0,0775
]9, 10] 6 0,0775
Total 79 1
1 n
x̄ = ∑ xi
n i=1
Bien entendu, si une valeur xi de X est observée ni fois, comme xi + xi + . . . + xi = ni xi ,
la formule précédente devient : ni fois
1 k k
x̄ = =
∑ i i ∑ fixi
n x
n i=1 i=1
Cas continu:
1 k k
x̄ = =
∑ i i ∑ fici
n c
n i=1 i=1
vi +vi+1
où ci = 2 est le centre de la classe [vi , vi+1 [
19
Lorsque la distribution de la variable statistique est donnée par les k couples (xi , ni ), les xi
étant tous positifs ; la moyenne géométrique a pour expression :
v
u k
u k n k
fi
n
G = ∏ xi = ∏ xi ⇒ ln(G) = ∑ fi ln (xi )
t i
• Cas discret :
n 1
x̄H = n == f
,
∑ki=1 xii ∑ki=1 xii
où x1 , .., xk sont les différentes valeurs de la variable.
20
• Cas continu :
n 1
x̄H = n = f
,
∑ki=1 cii ∑ki=1 cii
vi + vi+1
où ci = est le centre de la classe [vi , vi+1 [.
2
• Cas où les données ne sont pas groupées :
n
x̄H = ,
∑ni=1 x1i
où n est la taille de la série statistique.
Elle est utile lorsqu’on peut attribuer un sens réel aux inverses des données, par exemple
pour les taux de change, les taux d’équipement, le pouvoir d’achat et les vitesses. Elle est
également utilisée dans les calculs d’indices.
Exemple 2.1.6. Supposons l’achat de dollars, d’abord pour 100 C au taux de 1,23 C le dollar,
puis pour 100 C au taux de 0,97 C le dollar. Le cours moyen du dollar est:
200
100 100
≈ 1, 085 .
1,23+ 0,97
La moyenne arithmétique, qui est de 1,1, ne représente pas le cours moyen du dollar.
Comparaison des 3 moyennes : On démontre que si les xi sont tous positifs, alors :
min xi ⩽ H ⩽ G ⩽ x̄ ⩽ max xi .
1⩽i⩽n 1⩽i⩽n
L’égalité entre deux de ces moyennes implique l’égalité de toutes, ce qui signifie que toutes
les valeurs xi sont égales.
2.1.3 La médiane
La médiane est la valeurMe de la variable qui divise une série statistique, une fois les éléments
classés par ordre croissant, en deux groupes de taille égale. Ainsi, 50 % des individus ont une
valeur inférieure ou égale à la médiane, tandis que 50 % affichent une valeur supérieure ou
égale à cette même médiane.
21
Exemple 2.1.7. • Considérons la distribution suivante :
xi 5 15 25 35 45 55
ni 2 6 3 7 4 5
Effectifs cumulés 2 8 11 18 22 27
n+1
On a n = 27, donc n est impair d’où 2 = 14 et
Me = x(14) = 35
Me = x(18) = 28
Nous savons que la fréquence cumulée est égale à 0, 5, et nous cherchons la valeur Me de
la variable telle que F(Me ) = 0, 5.
Étant donné que 0, 5 se situe dans l’intervalle [0, 35; 0, 725], nous concluons que Me ∈
[7, 0; 7, 5].
Nous avons alors :
Me − 7, 0 0, 5 − 0, 35
=
7, 5 − 7, 0 0, 725 − 0, 35
Par conséquent, la médiane est donnée par :
22
0, 15
Me = 7, 0 + 0, 5 × = 7, 2
0, 375
Remarque 2.1.2. En général, si Me ∈ [xi , xi+1 [ alors
0, 5 − F(xi )
Me = xi + (xi+1 − xi ) ×
F(xi+1 ) − F(xi )
2.1.4 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Formellement un quantile est donné par l’inverse de la fonction de répartition :
x p = F −1 (p).
Dans le cas discret / données non groupées: L’itinéraire pour déterminer le quantile
d’ordre p (avec 0 < p < 1) se déroule comme suit :
Le quantile x p est défini comme :
( x +x
(np) (np+1)
2 si np est un entier,
xp =
x⌈np⌉ si np n’est pas un entier.
Dans le cas des données discrètes ou non groupées, on calcule x p en fonction de la taille n
de la population, en utilisant la règle ci-dessus.
Pour les données continues, le quantile est obtenu par interpolation linéaire, comme pour
la médiane. Ainsi, pour le premier quartile Q1 , on identifie l’intervalle où la fréquence cumulée
dépasse 0, 25, et pour le troisième quartile Q3 , on cherche l’intervalle où la fréquence cumulée
atteint ou dépasse 0, 75.
Remarque 2.1.3. La médiane est le quantile d’ordre p = 1/2. On utilise souvent
• x1/4 le premier quartile,
x(3) + x(4) 15 + 16
x1/4 = = = 15.5.
2 2
23
• La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a
1
x1/2 = x + x(7) = (19 + 22)/2 = 20.5
2 (6)
• Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier, on a
x(9) + x(10) 25 + 27
x3/4 = = = 26.
2 2
• L’intervalle [Q1 , Q3 ] est appelé intervalle interquartile, et il contient 50% des observa-
tions.
• EIQ = Q3 − Q1 est désigné comme écart interquartile.
Exemple 2.2.2. Reprenons l’exemple des tiges dont le tableau statistique est présenté ci-
dessous :
Classe Effectif Fréquence Fréquence Cumulée
[36.5; 37.5[ 3 0.05 0.05
[37.5; 38.5[ 7 0.12 0.17
[38.5; 39.5[ 17 0.28 0.45
[39.5; 40.5[ 18 0.30 0.75
[40.5; 41.5[ 9 0.15 0.90
[41.5; 42.5[ 4 0.07 0.97
[42.5; 43.5] 2 0.03 1
Total 60 1
• Pour Q1 , étant donné que 0.25 ∈ [0.17; 0.45], on trouve Q1 ∈ [38.5; 39.5], avec :
(39.5 − 38.5)(0.25 − 0.17)
Q1 = 38.5 + = 38.7857.
0.45 − 0.17
24
• La médiane, notée Q2 = Me , est calculée comme 39.6667.
• Q3 = 40.5, obtenu directement à partir du tableau.
• L’écart interquartile se calcule ainsi :
où k est le nombre de classes, ci = vi +v2 i+1 est le centre de la classe [vi , vi+1 [, et x̄ = 1n ∑ki=1 ni ci
est la moyenne de la distribution.
– Cas où les données ne sont pas groupées :
1 n
V (X) = ∑ (xi − x̄)2,
n i=1
25
Exemple 2.2.3. Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille n = 8. On a :
2+3+4+4+5+6+7+9
x̄ = = 5. (2.1)
8
Pour calculer la variance V (x), on utilise la formule :
1 n
V (x) = ∑ (xi − x̄)2
n i=1
1
= (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2
8
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
= = 4.5.
8
(2.2)
On peut également utiliser la formule de la variance, ce qui nécessite moins de calculs
(surtout quand la moyenne n’est pas un nombre entier) :
1 n 2
V (x) = ∑ xi − x̄2
n i=1
1
= 22 + 32 + 42 + 42 + 52 + 62 + 72 + 92 − 52
8 (2.3)
1
= (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
= − 25 = 29.5 − 25 = 4.5.
8
L’écart type σ (x) est donné par :
p √
σ (x) = V (x) = 4.5 ≈ 2.121. (2.4)
• L’écart moyen absolu, noté emoy , est la somme des valeurs absolues des écarts à la
moyenne divisée par le nombre d’observations:
1 n
emoy = ∑ |xi − x̄|,
n i=1
• L’écart médian absolu, noté emed , est la somme des valeurs absolues des écarts à la
médiane divisée par le nombre d’observations:
1 n
emed = ∑ |xi − Me|,
n i=1
26
2.2.4 Moment et Moment centré
Définition 2.2.2 (Moment et Moment centré).
• On appelle moment d’ordre r ∈ N, noté mr , le paramètre
1 n r
mr = ∑ xi .
n i=1
• On appelle moment centré d’ordre r ∈ N, noté µr , le paramètre
1 n
µr = ∑ (xi − x̄)r .
n i=1
Les moments généralisent la plupart des paramètres. On a en particulier : m1 = x̄, µ2 =
V (X), ...
Nous allons voir plus loin que les moments d’ordres supérieurs (r = 3, 4) sont utilisés pour
mesurer la symétrie et l’aplatissement d’une distribution.
Les formule données concerne les séries non groupées, pour retrouver les autres formules,
il suffit de procéder de la même manière que dans le calcul de la variance par exemple.
27
2.3 Mesures de forme
2.3.1 Coefficient d’asymétrie
Définition 2.3.1 (Coefficient d’asymétrie de Fisher).
Le coefficient d’asymétrie de Fisher est défini par:
µ3
γ3 =
s3
• Si γ3 > 0, la série présente une asymétrie à droite,
3(x̄ − Me )
AP =
s
• Si AP > 0, la série présente une asymétrie à droite,
En fait, pour ce coefficient, comme déjà mentionné dans la figure ??, il suffit de comparer
la moyenne et la médiane.
28
2.3.2 Coefficient d’aplatissement
Définition 2.3.4 (Coefficient d’aplatissement de Fisher). Le coefficient d’aplatissement de Fisher,
noté γ4 , est défini par la relation :
µ4
γ4 = − 3,
s4
• Si γ4 > 0, la série présente une léptokurtique (aiguë),
• un rectangle qui s’étend du premier au troisième quartile. Le rectangle est divisé par une
ligne correspondant à la médiane,
• on identifie ensuite la plus petite et la plus grande observation comprise entre ces bornes.
Ces observations sont appelées "valeurs adjacentes",
29
• on trace les segments de droite reliant ces observations au rectangle,
• les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées par
des points et sont appelées "valeurs extrêmes".
30
Chapter 3
X 80 56 67 72 67 51 80 42 56 47 53 37 48 46 44 35
Y 22 38 33 36 22 47 30 45 48 55 38 81 46 33 51 60
L’intérêt de cet échantillon réside dans la possibilité de mettre en évidence un lien entre
l’âge et la mémoire, ce qui nécessite l’étude simultanée de ces deux caractéristiques.
L’objectif de ce petit chapitre sera donc d’étudier le lien entre deux variables définies sur
les mêmes individus.
3.1.1 Définitions
Variables appariées : Deux variables sont dites appariées lorsqu’elles sont définies pour les
mêmes individus.
• Dans une étude sur l’effet d’un médicament, les scores de santé des patients avant et
après le traitement sont des variables appariées, car chaque patient constitue une paire.
• En revanche, les scores de santé de deux groupes de patients différents (un groupe ayant
reçu le traitement et un groupe de contrôle) ne sont pas des variables appariées, car ils
concernent des individus distincts.
Remarque 3.1.1. En pratique, appariées signifie que chaque valeur d’une variable est associée
à une valeur de l’autre variable pour le même individu. Cette condition est nécessaire pour
étudier le lien entre deux variables.
31
Variables dépendante et indépendante : Pour des variables appariées, si l’une des deux
variables est manipulable par l’expérimentateur, on l’appelle en sciences humaines variable
indépendante (par exemple, le dosage d’un traitement administré ou le sexe des personnes
interrogées). L’autre variable est alors appelée variable dépendante.
Exemple 3.1.2. Voici quelques exemples de variables indépendantes et dépendantes :
Variable Indépendante Variable Dépendante
Température ambiante Consommation d’énergie d’un climatiseur
Heures de sommeil Niveau de concentration pendant la journée
Vitesse de lecture Compréhension d’un texte
Quantité d’eau ingérée État d’hydratation
Considérons le lien entre la température ambiante et la consommation d’énergie d’un clima-
tiseur. En général, lorsque la température ambiante augmente, la consommation d’énergie du
climatiseur tend également à augmenter.
Remarque 3.1.2. Il est essentiel de comprendre que, dans ces exemples, la manipulation de
la variable indépendante peut avoir des effets variables sur la variable dépendante selon le
contexte.
Notation Lorsqu’il y a une variable indépendante et une variable dépendante, on appelle X
la variable indépendante et Y la variable dépendante. Dans le cas présent, l’âge est la variable
indépendante tandis que les performances mémorielles sont la variable dépendante.
Objectifs Dans ce chapitre, on cherchera à répondre principalement à deux questions :
• Y a-t-il un fort lien entre les deux variables ? On appellera corrélation l’intensité de ce
lien, que l’on mesurera à l’aide de coefficients de corrélation.
yi 60 61 64 67 68 69 70 70 72 73
xi 155 162 157 170 164 162 169 170 178 173
yi 75 76 78 80 85 90 96 96 98 101
xi 180 175 173 175 179 175 180 185 189 187
Le graphique ci-dessous montre un nuage de points pour les données de taille et de poids.
32
Nuage de points : Taille vs Poids
100
90
Poids (kg)
80
70
60
50
150 160 170 180 190
Taille (cm)
1 n
cov(X,Y ) = ∑ (xi − x̄)(yi − ȳ).
n i=1
cov(X,Y )
cor(X,Y ) = p p
V (X) V (Y )
Proposition 3.3.1. La covariance entre deux variables aléatoires X et Y peut s’écrire comme
suit :
1 n
cov(X,Y ) = ∑ xi yi − x̄ȳ.
n i=1
33
Proof.
1 n
cov(X,Y ) = ∑ (xi − x̄)(yi − ȳ)
n i=1
1 n
= ∑ (xiyi − yix̄ − xiȳ + x̄ȳ)
n i=1
1 n 1 n 1 n 1 n
= ∑ xi yi − ∑ yi x̄ − ∑ xi ȳ + ∑ x̄ȳ (3.1)
n i=1 n i=1 n i=1 n i=1
1 n
= ∑ xiyi − x̄ȳ − x̄ȳ + x̄ȳ
n i=1
1 n
= ∑ xiyi − x̄ȳ.
n i=1
Propriétés:
Les propriétés du coefficient de corrélation linéaire sont les suivantes :
• Si cor(X,Y ) est proche de -1, alors X et Y sont négativement corrélés : lorsque X aug-
mente, Y a tendance à diminuer, et vice versa, de manière linéaire.
• Si cor(X,Y ) est proche de 0, les variables X et Y sont considérées comme non corrélées:
une augmentation ou une diminution de X n’affecte pas linéairement Y .
4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
X X
34
Corrélation Négative Forte Corrélation Négative Faible
10 10
8 8
Y 6 6
Y
4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
X X
Non-Corrélation
10
8
6
Y
4
2
0
0 2 4 6 8 10
X
Figure 3.6
Mode de calcul
Dans ce chapitre, les données ne seront pas regroupées par modalité (ni par classe), de sorte
que la moyenne de X ×Y se calcule simplement par la formule :
∑ni=1 xi yi
m(XY ) = .
n
Exemple 3.3.1. Pour les données présentées en début de chapitre, on obtient :
Moyenne :
∑16
i=1 xi 80 + 56 + 67 + . . . + 35 881
m(X) = = = ≈ 55, 06.
16 16 16
∑16
i=1 xi
2 802 + 562 + 672 + . . . + 352 51567
m(X 2 ) = = = .
16 16 16
881 2
2 2 51567
Var(X) = m(X ) − m(X) = − ≈ 191, 06.
16 16
Écart-type : p
σ (X) = Var(X) ≈ 13, 82.
Moyenne :
∑16
i=1 yi 22 + 38 + 33 + . . . + 60 685
m(Y ) = = = ≈ 42, 81.
16 16 16
35
∑16
i=1 yi
2 222 + 382 + 332 + . . . + 602 32671
m(Y 2 ) = = = .
16 16 16
685 2
2 2 32671
Var(Y ) = m(Y ) − m(Y ) = − ≈ 209, 03.
16 16
Écart-type : p
σ (Y ) = Var(Y ) ≈ 14, 46.
Moyenne :
∑16
i=1 xi yi 80 × 22 + 56 × 38 + . . . + 35 × 60
m(XY ) = = ≈ 2200, 375.
16 16
Covariance :
881 685
Cov(X,Y ) = m(XY ) − m(X)m(Y ) = 2200, 375 − × ≈ −156, 988.
16 16
Coefficient de corrélation :
Les valeurs â et b̂ qui minimisent cette fonction sont obtenues à l’aide d’une méthode
bien connue appelée méthode des moindres carrées ordinaires. Cette méthode consiste à
minimiser la fonction f .
En appliquant des techniques de dérivation, nous trouvons les formules suivantes :
cov(X,Y )
â =
Var(X)
et
b̂ = y − âx
36
• b̂ est l’ordonnée à l’origine.
X 2 6 7 5 4 1 3
Y 5 9 12 9 8 1 5
Calculons d’abord la covariance entre X et Y :
cov(X,Y ) 6.4286
â = = = 1.60715
Var(X) 4
L’ordonnée à l’origine est calculée comme suit :
Ŷ = 1.60715X + 0.5714.
Cette droite est illustrée dans la figure suivante :
3.4.1 Prédiction
Si une nouvelle valeur de X est disponible, on peut calculer la valeur prédite de Y correspon-
dante.
Supposons que la nouvelle valeur soit x8 = 4.5 ; alors, la valeur prédite de Y est :
37
3.4.2 Distribution conjointe (tableau croisé)
Lorsque l’on étudie simultanément les deux variables quantitatives X et Y , ayant respectivement
les modalités x1 , x2 , . . . , xJ et y1 , y2 , . . . , yK , le tableau de la distribution conjointe (ou tableau
croisé) des deux variables est présenté comme suit (n = ∑Jj=1 n j. = ∑K J K
k=1 n.k = ∑ j=1 ∑k=1 n jk ) :
y1 ... yj . . . yJ Total
x1 n11 . . . n1 j . . . n1J n1.
.. .. .. ..
. . . .
xi ni1 ... ni j ... niJ ni.
.. .. .. ..
. . . .
xI nI1 ... nI j ... nIJ nI.
Total n.1 ... n. j ... n.J n.. = n
Les modalités x j et yk peuvent être des valeurs discrètes (pour une variable quantitative
discrète) ou des intervalles (pour une variable quantitative continue).
Les n j. et n.k sont appelés les effectifs marginaux. Dans ce tableau :
On a :
J
∑ n jk = n.k , pour k = 1, . . . , K
j=1
K
∑ n jk = n j., pour j = 1, . . . , J
k=1
X x1 x2 ... xJ Total
n j. n1. n2. ... nJ. n
Distribution marginale de Y : elle est composée des modalités de Y et des effectifs margin-
aux correspondants, quelles que soient les modalités de X.
Y y1 y2 ... yK Total
n.k n.1 n.2 ... n.K n
38
3.4.2.2 Covariance et corrélation
• La covariance entre X et Y est donnée par :
!
J K J K
1 1
cov(X,Y ) =
n ∑ ∑ n jk (x j − x̄)(yk − ȳ) = n ∑ ∑ n jk x j yk − x̄ȳ.
j=1 k=1 j=1 k=1
cov(X,Y )
cor(X,Y ) = p p .
V (X) V (Y )
• Les variables X et Y sont indépendantes si et seulement si les lignes (ou les colonnes) du
tableau croisé sont proportionnelles entre elles.
Y
−2 0 2 Total
X
0 2 4 12 18
1 4 8 24 36
Total 6 12 36 54
Exemple 3.4.3. Complétez les tableaux associés à deux variables indépendantes suivants :
Y
−2 0 2 Total
X
0 2 4 12 18
1 4 8 24 36
Total 6 12 36 54
39
Chapter 4
ANALYSE COMBINATOIRE
Introduction
L’analyse combinatoire a pour objectif de dénombrer les différentes dispositions que l’on peut
former à partir des éléments d’un ensemble de cardinal fini. Plus simplement, elle vise à déter-
miner comment compter des objets ayant certaines propriétés.
Pour réaliser un dénombrement, il est essentiel de connaître l’ensemble sur lequel on tra-
vaille ainsi que le type de disposition souhaitée.
• L’ensemble étudié : il peut être composé d’éléments discernables et/ou indiscernables.
• Si tous les éléments sont distinguables les uns des autres, on les qualifie de discernables.
On note alors E = {a1 , a2 , . . . , an } avec ai ̸= a j si i ̸= j. Ainsi, on a Card E = n.
Exemple 4.0.1. Les cartes à jouer, les numéros portés par des sportifs dans une épreuve,
ou encore les numéros des candidats à un examen.
• Si tous les éléments sont identiques, on dit qu’ils sont indiscernables. On peut alors noter,
avec un certain abus de notation, E = {a, a, . . . , a}, avec Card E = n.
• Si l’ensemble comprend un mélange des deux types d’éléments, on note, de manière abu-
sive, E = {(a1 , a1 , . . . , a1 ), (a2 , a2 , . . . , a2 ), . . . , (ak , ak , . . . , ak )}, avec ai ̸= a j si i ̸= j.
40
Exemple 4.0.3. • Disposition ordonnée sans répétition : une liste de noms distincts rangés
par ordre alphabétique.
• Disposition non ordonnée avec répétition : les lettres formant un mot du dictionnaire
écrites dans un ordre quelconque.
41
Valeur : Le nombre d’arrangements de p éléments parmi n est:
n!
Anp = n(n − 1)(n − 2) · · · (n − p + 1) = .
(n − p)!
Définition 4.1.6. Une combinaison sans répétition, ou tout simplement une combinaison,
de p éléments parmi n est toute disposition non ordonnée de p éléments deux à deux dis-
tincts pris parmi les n éléments de E. On l’écrit entre accolades, par exemple {a1 , a2 , a5 }
si p = 3.
42
Exemple: Le nombre de combinaisons sans répétition de 2 éléments parmi les
5 de {1, 2, 3, 4, 5} est :
2 5 5×4
C5 = = = 10.
2 2
Vérification : ces combinaisons sont :
{1, 2}, {1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}, {3, 4}, {3, 5}, {4, 5}.
7. Combinaisons avec répétition
Soit un ensemble non vide E = {a1 , a2 , · · · , an }, formé d’éléments discernables. On note
Card E = n.
Définition 4.1.7. On appelle combinaison avec répétition de p éléments parmi n toute
disposition non ordonnée, avec répétition éventuelle, formée de p éléments pris parmi
les n éléments de E. Par exemple, {a1 , a3 , a3 , · · · , ak }. Autrement dit Le nombre de
possibilités de répartir p objets identiques dans n cases est donné par :
p
Knp = Cn+p−1 .
Valeur :
Le nombre de combinaisons avec répétition de p éléments parmi n est donné
par :
p p n+ p−1 (n + p − 1)!
Kn = Cn+p−1 = = .
p p!(n − 1)!
Exemple : Le nombre de combinaisons avec répétition de 2 éléments pris dans
{1, 2, 3} est :
K32 = 6.
Vérification : ces combinaisons sont :
{1, 1}, {2, 2}, {3, 3}, {1, 2}, {1, 3}, {2, 3}.
Exemple 4.1.1. Soit f une fonction à 2 variables dérivable. Le nombre de dérivées
partielles d’ordre 3 de f est égal à :
K23 = C2+3−1
3
= 4.
Exemple 4.1.2 ( Le nombre de pièces dans un jeu de dominos). Un domino est une 2-
combinaison avec répétition de l’ensemble E = {blanc, 1, 2, 3, 4, 5, 6}. Chaque domino
est représenté par deux résultats de E. Le nombre de pièces dans un jeu de domino est
donc :
K72 = C7+2−1
2
= 28.
Exemple 4.1.3. Une université désire répartir 10 enseignants sur 3 facultés. De combien
de façons peut-on répartir ces enseignants ?
Rappel : Pour n ∈ N∗ , le nombre appelé factorielle n! est le produit des n premiers entiers
non nuls :
n! = 1 × 2 × 3 × · · · × (n − 1) × n.
Par convention, on a 0! = 1. Ce nombre croît très rapidement lorsque n augmente. Par
exemple, 10! = 3628800. Dès que n dépasse 10, on utilise la formule d’approximation
de Stirling : n n √
n! ≈ 2πn.
e
43
4.2 Propriétés des combinaisons Cnp
1. La symétrie:
Pour tous n et p ∈ N, tels que p ⩽ n, on a Cnn−p = Cnp .
Valeurs à connaître :
Cn0 = n0 = 1
Cn1 = n1 = n
Cn2 = n2 = n(n−1)
2
2. Le triangle de Pascal:
Formule de Pascal:
p
Pour tous n et p ∈ N, tels que p ⩽ n − 1, on a Cnp = Cn−1 p−1
+Cn−1 (Réfléchir à une démon-
stration sans calcul).
On en déduit le triangle de Pascal :
p 0 1 2 3 4 5 6
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
6 1 6 15 20 15 6 1
Card P(E) = 2n
n
n
k
∑ (−1) k = 0
k=0
E ( 2n )
n
∑ 2k = 2n−1
k=0
44
Français Dénombrement
Successivement Ordonnés
Simultanément Non ordonnés
Avec remise Avec répétition
Sans remise Sans répétition
4.3 Bilan
Exemple
Considérons trois objets : a, b et c (n = 3). Nous souhaitons sélectionner p = 2 objets parmi a,
b et c. Nous avons les cas suivants :
1. **Sans répétition et sans ordre :**
(a, b), (a, c), (b, c)
Le nombre de combinaisons sans répétition est donné par :
C32 = 3
2. **Sans répétition et avec ordre :**
(a, b), (a, c), (b, c), (b, a), (c, a), (c, b)
Le nombre d’arrangements sans répétition est donné par :
A23 = 6
3. **Avec répétition et sans ordre :**
(a, b), (a, c), (b, c), (a, a), (b, b), (c, c)
Le nombre de combinaisons avec répétition est donné par :
K32 = C3+2−1
2
= C42 = 6
4. **Avec répétition et avec ordre :**
(a, b), (a, c), (b, c), (b, a), (c, a), (c, b), (a, a), (b, b), (c, c)
Le nombre d’arrangements avec répétition est donné par :
32 = 9
45