Cours prob et stat

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 45

Statistique descriptive et Probabilites

INFO-MIP S3

1
Contents

Introduction 3

1 Statistique descriptive univariée 4


1.1 Notions de base en statistique descriptive univariée . . . . . . . . . . . . . . . 4
1.1.1 Vocabulaire Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Tableau Statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3 Effectifs - Fréquences - Fréquences cumulées . . . . . . . . . . . . . . 6
1.1.4 Distribution statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Représentations graphiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Représentations graphiques d’une distribution de variables qualitatives . 8
1.2.2 Représentations graphiques d’une distribution de variables quantita-
tives discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Représentations graphiques d’une distribution de variables quantita-
tives continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2 Les mesures de tendance centrale et de dispersion 17


2.1 Les mesures de tendance centrale . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 La moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 La médiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.4 Quantiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Mesures de Dispersion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Étendue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Écart Interquartile . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.3 Variance et Écart-Type . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.4 Moment et Moment centré . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.5 Coefficient de variation . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3 Mesures de forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.1 Coefficient d’asymétrie . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2 Coefficient d’aplatissement . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.3 Diagramme en boîte (Box plot) . . . . . . . . . . . . . . . . . . . . . 29

3 Statistique descriptive bivariée 31


3.1 Exemple et introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2 Nuage statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Coefficient de corrélation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.4 Droite de régression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

2
3.4.1 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4.2 Distribution conjointe (tableau croisé) . . . . . . . . . . . . . . . . . . 38

4 ANALYSE COMBINATOIRE 40
4.1 Formules classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2 Propriétés des combinaisons Cnp . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Bilan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3
Chapter 1

Statistique descriptive univariée

1.1 Notions de base en statistique descriptive univariée


1.1.1 Vocabulaire Statistique
La Statistique est la science du traitement de l’information et de la prise de décision. Elle
englobe un ensemble de méthodes et théories appliquées à l’analyse des données associées à
une simulation ou à un phénomène dont le comportement ne peut être décrit avec certitude
mais plutôt être analysé dans un contexte d’incertitude. Le but de l’utilisation de ces méthodes
est d’arriver à des conclusions pratiques pour éventuellement proposer des recommandations
et des mesures correctives s’il y a lieu.
Dans un autre autre sens on appelle une statistique une donnée ou une information tirée
d’une population (ou d’un échantillon), c’est la collection des données numériques (chiffres),
relatif à un phénomène, à une activité etc : gestion financière (états, banques, assurances,
entreprises...), démographie, contrôles de qualité, études de marché, sciences expérimentales
(biologie, psychologie...).
La Statistique Descriptive (univariée, bivariée, multivariée) a pour objet de proposer une
description simple, clairement présentée et aussi complète que possible d’un ensemble des
données (ou informations) que l’on possède sur un sujet. Ci-après quelques définitions de base
pour développer le vocabulaire statistique.

Définition 1.1.1. 1. La science statistique : Méthode scientifique du traitement des données.


La statistique s’applique dans la plupart des disciplines : agronomie, biologie, démo-
graphie, économie, sociologie, linguistique, psychologie, ...

2. Statistique Descriptive et Inférentielle : La Statistique Descriptive à pour objectif de traiter


les données, et d’en dégager certaines conclusions. La Statistique Inférentielle est la
statistique inductive a pour objectif de tirer des conclusions et des décisions sur une
population à partir d’un échantillon (sous-population) tiré de cette population.

3. Population : La population est l’ensemble des éléments sur lesquels porte une étude statis-
tique. Exemple: Dans une usine fabriquant des produits d’éclairage, on a mesuré la
durée de vie de certaines type lampes. L’ensemble des lampes fabriquées au cours de
cette étude constitue la population.

4. Individu : L’individu (ou aussi appelé unité statistique) est l’un des éléments de la popula-
tion, qui est soumis à une étude statistique.

4
Exemple: Dans l’exemple précédent de l’usine fabriquant des produits d’éclairage.
Chaque lampe est un individu de la population.
5. Échantillon : L’échantillon est un sous ensemble tiré aléatoirement d’une population (la
taille de l’échantillon est raisonnable par rapport à la taille de la population, lorsque
cette dernière est impossible de la tirer entièrement, on a recours à l’échantillonnage).
6. Caractère et Modalité : Le caractère (ou variable statistique) représente l’objectif de
l’´étude statistique, c’est la caractéristique étudiée sur tous les individus de la popu-
lation (on le note par des lettres majuscules X,Y,...). Le résultat pris par chaque individu
est appelé modalité.
Exemple : Dans l’exemple précédent de l’usine fabriquant des produits d’éclairage.
L’objectif est de mesurer la durée de vie de certaines type lampes. Donc la variable
statistique est X : ”durée de vie des lampes”. Les résultats peuvent ^êtres : 5h, 0h, 2h, ...
ces derniers sont les modalités de la variable.
Les modalités nous permettent de distinguer les types de la variable.
Définition 1.1.2. (Variable qualitative et Variable quantitative).
1. Un caractère (ou une variable) est dit quantitatif si ses modalités sont mesurables, sinon le
caractère est dit qualitatif.
2. Un caractère quantitatif peut être
(a) discret : Lorsque le caractère statistique prend un nombre fini de valeurs : en-
tre deux valeurs successives de modalités il n’existe pas de Valeur pour une autre
modalité (nombre d’enfants, nombre de pièces, ...),
(b) continu : Lorsque le caractère statistique peut prendre toutes les valeurs d’un inter-
valle de l’ensemble des nombres réels : entre deux valeurs successives de modalités
il existe toujours une autre valeur pour une modalité (durée de vie, taille, temps
d’appel, ...).
3. Un caractère qualitatif peut être
(a) ordinal : lorsqu’on peut établir un ordre pour les modalités (Appréciation de la
qualité d’un produit consomme : excellente, bonne, moyenne, mauvaise),
(b) nominal : lorsqu’on ne peut pas ´établir un tel ordre (La couleur : jaune, bleue,
verte, rouge, ...).

1.1.2 Tableau Statistique


- On appelle série statistique la suite des valeurs prises par une variable (un caractère) X sur les
unités d’observation, ces unités forment les modalités de la variable.
- Le nombre d’unités d’observation est noté n, c’est la taille totale de la population.
- Les valeurs de la variable X sont notées x1 , x2 , . . . , xn .
Sn = {x1 , x2 , . . . , xn }
- Cette série statistique est non-groupée et d’où vient la définition du tableau statistique.
- Le tableau statistique permet de regrouper la série en modalité/effectif : on compte le
nombre d’observations associé à chaque modalité puis on les dresse dans un tableau (tableau
statistique, ou distribution statistique)

5
Exemple 1.1.1. Soit la variable X représentant "l’état civil de 20 employés dans une en-
treprise". La série statistique des valeurs prises par X est la suivante:
M − M − D −C −C − M −C −C −C − M −C − M −V − M −V − D −C −C −C − M,
où, C : célibataire, M : marié(e), V : veuf(ve), D : div Le tableau statistique associé à cette
série statistique est le suivant :
Modalité (xi ) Effectif (ni )
C 9
M 7
V 2
D 2
Σ 20

Exemple 1.1.2. On a relevé une population de 50 ménages et la variable X représentant "le


nombre de personnes par ménage". Les valeurs de la variable sont
1−1−1−1−1−2−2−2−2−2−2−2−2−2−3−3−3−3−3−3−3−3−3−3−3
3 − 3 − 3 − 3 − 4 − 4 − 4 − 4 − 4 − 4 − 4 − 4 − 4 − 4 − 5 − 5 − 5 − 5 − 5 − 5 − 6 − 6 − 6 − 8 − 8.
Le tableau statistique associé à cette série statistique est le suivant:
Modalité (xi ) Effectif (ni )
1 5
2 9
3 15
4 10
5 6
6 3
8 2
Σ 50

1.1.3 Effectifs - Fréquences - Fréquences cumulées


L’étude concrète d’une variable X donne N valeurs qui constituent la distribution statistique
de X (aussi appelé série statistique). Cette distribution est, en générale, présentée d’une façon
groupée :
- Sous la forme {(xi , ni ) /1 ⩽ i ⩽ p} dans le cas d’une variable qualitative ou quantitative
discrète (avec x1 < x2 < · · · < x p dans le cas d’une variable quantitative discrète).
- Sous la forme d’intervalles ou de classes {(xi , xi+1 ] , ni ) /1 ⩽ i ⩽ p} dans le cas d’une
variable quantitative continue.
Définition 1.1.3. l’effectif ni est le nombre d’individus de la population ou de l’échantillon pour
lesquels X prend la valeur xi (dans le cas d’une variable qualitative ou quantitative discrète)
ou une valeur de l’intervalle ]xi , xi+1 ] (dans le cas d’une variable quantitative continue).
La somme des effectifs est appelée la taille de la population ou de l’échantillon et est notée
N. N = n1 + n2 + · · · + n p On appelle fréquence de la valeur xi ou de la classe ]xi , xi+1 ] le
nombre réel
p
ni
fi = On a évidement ∑ fi = 1
N i=1

6
C’est la proportion de l’effectif d’une valeur de la variable par rapport à N la taille totale de
la population ou de l’échantillon.
On appelle fréquence cumulée de la valeur xi ou de la classe ]xi , xi+1 ] la somme des
fréquences de cette valeur ou classe et des fréquences des valeurs ou classes qui la précèdent
i
Fi = ∑ fi
k=1

C’est la proportion des unités statistiques de la population ou de l’échantillon qui possèdent


une valeur inférieure ou égale à une valeur x donnée d’une variable quantitative.
Exemple 1.1.3. - Variable qualitative : La répartition des adultes d’une résidence selon le
niveau d’instruction.
Niveau d’instruction effectifs ni fréquences fi Angles αi
Sans 25 0.072 25.92
Primaire 36 0.103 37.08
Secondaire 81 0.231 83.16
Universitaire 208 0.594 213.84
Total N = 350 1 360

- Variable quantitative discrète : Les performances en saut en hauteur (en cm) de 10 athlètes
sont: 191, 194, 197, 191, 200, 203, 200, 197, 203, 203.
Hauteur en cm effectifs ni fréquences fi fréquences cumulées F(x)
191 2 0.2 0.2
194 1 0.1 0.3
197 2 0.2 0.5
200 2 0.2 0.7
203 3 0.3 1
Total N = 10 1

- Variable quantitative continue : Etude de la consommation aux 100 km de 20 voitures d’un


nouveau modèle :
5.56, 5.35, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.59, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57,
5.52, 5.8, 6.0.

Consommation en litre effectifs ni fréquences fi fréquences cumulées F(x)


[5, 5.2] 2 0.1 0.1
]5.2, 5.4] 4 0.2 0.3
]5.4, 5.6] 8 0.4 0.7
]5.6, 5.8] 4 0.2 0.9
]5.8, 6] 2 0.1 1
Total N = 20 1

1.1.4 Distribution statistique


Définition 1.1.4. Une distribution statistique est une représentation des données collectées
dans un tableau où figurent les valeurs que prenne la variable, les effectifs, les fréquences et les
fréquences cumulées relatives à chaque valeur ou ensemble de valeurs prises par la variable.

7
1.2 Représentations graphiques
1.2.1 Représentations graphiques d’une distribution de variables quali-
tatives
1.2.1.1 Les tuyaux d’orgues
Les tuyaux d’orgues des effectifs (respectivement des fréquences) de la distribution statistique,
{(xi , ni ) /1 ⩽ i ⩽ p} (respectivement {(xi , fi ) /1 ⩽ i ⩽ p}) s’obtient en traçant sur un repère
orthonormé, pour tout i = 1, · · · , p, un rectangle de base de centre xi et de hauteur égale à
l’effectif ou la fréquence de la valeur xi .
Sur l’axe des abscisses on représente les modalités de la variable, alors que sur l’axe des or-
données on représente les effectifs ou les fréquences selon que l’on désire tracer un diagramme
des effectifs ou des fréquences.

Exemple 1.2.1. Représentation du diagramme en tuyaux d’orgues des fréquences pour le


niveau d’étude des adultes d’une résidence.

Figure 1.1: Diagramme en tuyaux d’orgues

1.2.1.2 Représentation circulaire


C’est une représentation où chaque modalité est représentée par une portion du disque. Si S
est l’aire du disque, l’aire d’une portion est égale à f × S, où f est la fréquence de la modalité
correspondante.
L’angle α de chaque portion s’obtient en multipliant la fréquence par 360◦ , l’angle du
disque (α = f × 360)

Exemple 1.2.2. Représentation du digramme circulaire des fréquences pour le niveau d’étude
des adultes d’une résidence.

8
Figure 1.2: Diagramme circulaire

1.2.2 Représentations graphiques d’une distribution de variables quan-


titatives discrètes
1.2.2.1 Diagramme en bâtons
Le diagramme en bâtons des effectifs (respectivement des fréquences) de la distribution statis-
tique {(xi , ni ) /1 ⩽ i ⩽ p} (respectivement {(xi , fi ) /1 ⩽ i ⩽ p}) s’obtient en traçant sur un repère
orthonormé les " bâtons " Ai Bi , c’est à dire les segments joignant les point Ai (xi , 0) et Bi (xi , ni )
(respectivement Bi (xi , fi ) ) pour 1 ⩽ i ⩽ p. 6 Sur l’axe des abscisses on représente les valeurs
de la variable, alors que sur l’axe des ordonnées on représente les effectifs ou les fréquences
selon que l’on désire tracer un diagramme des effectifs ou des fréquences.

Exemple 1.2.3. La distribution des performances en saut en hauteur de 100 athlètes sont
représentées dans le tableau suivant:

Hauteur en cm effectifs ni fréquences fi fréquences cumulées F(x)


191 6 0.06 0.06
194 17 0.17 0.23
197 41 0.41 0.64
200 27 0.27 0.91
203 9 0.09 1
Total 100 1

Représentation du diagramme en bâtons pour la distribution des performances en saut en hau-


teur de 100 athlètes.

9
Figure 1.3: Diagramme en bâtons

1.2.2.2 Polygone des fréquences


C’est une ligne brisée joignant les points de coordonnées (xi , fi ). C’est aussi la ligne qui joint
les sommets des bâtons du diagramme.

Exemple 1.2.4. Représentation du polygone des fréquences pour la distribution des perfor-
mances en saut en hauteur de 100 athlètes.

Figure 1.4: Polygône des fréquences

10
1.2.2.3 Courbe des fréquences cumulées(Fonction de répartition)
- Cas discret :
La représentation de la fonction cumulative croissante (appelée aussi fonction de réparti-
tion) est réalisée au moyen des fréquences cumulées. Cette fonction est définie de R dans [0, 1]
et vaut, pour i = 1, 2, . . . , k (où k est le nombre de modalités discrètes) :

0
 si x < x1
F(x) = Fi si xi ⩽ x < xi+1

1 si x ⩾ xk

Exemple 1.2.5. Représentation de la courbe des fréquences cumulées pour la distribution des
performances en saut en hauteur de 100 athlètes.

Figure 1.5: Courbe des fréquences cumulées

1.2.3 Représentations graphiques d’une distribution de variables quan-


titatives continues
Considérons une variable continue X dont les valeurs se situent dans un intervalle I. On divise
cet intervalle en k classes disjointes ]xi , xi+1 ] , i = 1, . . . , p. On prendra toujours des classes
de même amplitude ( xi+1 − xi = constante). Plus le nombre d’observations est grand plus
le nombre de classes est élevé. On admet cependant, pour aider à la compréhension, que ce
nombre devrait être entre 5 et 15 .
Pour tout i, on note ni le nombre de valeurs de X dans la classe ] xi , xi+1 ] qu’on appelle
effectif de cette classe. Pour dresser le tableau de distribution, on pourra suivre les étapes
suivantes :

11
Etape 1 : Déterminer p le nombre de classes à considérer dans l’étude. Pour N l’effectif de
la population ou de l’échantillon, on peut le calculer selon l’une des deux règles suivantes :

i) Règle de Sturge: P = 1 + 3.3 × log10 (N)



ii) Règle de Yule: P = 2.5 × 4 N

Avec p = l’entier naturel le plus proche de P.


Etape 2 : Calculer l’étendue e = xmax − xmin où xmin est la valeur minimale de la variable
X et xmax est la valeur maximale de la variable X.
Etape 3 : Diviser l’étendue e par p le nombre de classes, pour avoir une idée sur la valeur
de l’amplitude des classes que l’on notera a. on a, a = ep
Etape 4 : On construit alors les classes

[xmin , xmin + a] , ] xmin + a, xmin + 2a] , · · · , ] xmin + (p − 1)a, xmin + pa]

Etape 5 : S’assurer que chaque observation appartient à une et une seule classe.

Exemple 1.2.6. Etude de la consommation aux 100 km de 20 voitures d’un nouveau modèle:

6.11, 6.05, 5.98, 5.77, 5.18, 5.66, 5.28, 5.11, 5.58, 5.49, 5.62, 5.33, 5.55, 5.45, 5.76, 5.23, 5.57,

5.52, 5.8, 6.0. Pour


√ la méthode de Sturge P = 1 + 3.3 × log10 (20) = 5.293. Pour la méthode de
4
Yule P = 2.5 × 20 = 5.287, D’où le nombre de classe est p = 5. Nous avons xmin = 5.11 et
xmax = 6.11. D’ou e = 6.11 − 5.11 = 1 et a = ep = 15 = 0.2

Consommation en litre effectifs ni fréquences fi fréquences cumulées F(x)


[5.11, 5.31] 4 0.2 0.2
]5.31, 5.51] 3 0.15 0.35
]5.51, 5.71] 6 0.3 0.65
]5.71, 5.91] 3 0.15 0.8
]5.91, 6.11] 4 0.2 1
Total 20 1

1.2.3.1 Histogramme
L’histogramme des effectifs (respectivement des fréquences) de la distribution statistique {(]xi , xi+1 ] , ni ) /1 ⩽ i
(respectivement {(]xi , xi+1 ] , fi ) /1 ⩽ i ⩽ p} ) s’obtient en traçant sur un repère orthonormé,
pour tout i = 1, · · · , p, un rectangle de base la longueur du segment ] xi , xi+1 ] et de hauteur égale
à l’effectif ou la fréquence de cette classe.
Sur l’axe des abscisses on représente les bornes des classes ]xi , xi+1 ] de la variable c’est à
dire les points x1 , x2 , · · · , x p , x p+1 , alors que sur l’axe des ordonnées on représente les effectifs
ou les fréquences selon que l’on désire tracer un histogramme des effectifs ou des fréquences.

Exemple 1.2.7. Représentation de l’histogramme des fréquences de la distribution de l’exemple


précedent

12
Figure 1.6: Histogramme

1.2.3.2 Polygone des fréquences


Le polygone des fréquences de la distribution {(]xi , xi+1 ] , fi ) /1 ⩽ i ⩽ p} est la ligne brisée
joignant les points de coordonnées (ci , fi ) où ci = xi +x2 i+1 le centre de la classe i, i = 1, · · · , p.
Lorsque la borne inférieure de la première (resp. supérieure de la dernière) classe est observée
c’est à dire l’intervalle est fermé en x1 (resp. x p+1 ) (comme c’est le cas dans l’exemple 1.2.6), 
on complète la courbe en joignant les points (c0 , 0) et (c1 , f1 ) (resp. (c p , f p ) et c p+1 , 0 ) où
c0 = x1 − a2 ( resp c p+1 = x p+1 + 2a ).
Lorsque la borne inférieure de la première (resp. la borne supérieure de la dernière) classe
n’est pas observée c’est à dire l’intervalle est ouvert en x1 (resp. en xp+1 ), on complète la
courbe en joignant les points (x1 , 0) et (c1 , f1 ) (resp. (c p , f p ) et x p+1 , 0 ).

Exemple 1.2.8. Représentation du polygone des fréquences de la distribution de l’exemple


1.2.6

13
Figure 1.7: Polygone des fréquences

1.2.3.3 Courbe des fréquences cumulées


La courbe des fréquences cumulées de la distribution {(]xi , xi+1 ] , fi ) /1 ⩽ i ⩽ p} s’obtient en
joignant les points de coordonnées (y, 0), (ci , Fi ) pour i = 0, 1, · · · , p et (x, 1) pour y ⩽ c0 et
x ⩾ c p avec , F0 = 0, Fi = f1 + · · · + fi et ci = xi+1 pour i = 0, 1, · · · , p.
Lorsque la borne inférieure de la première classe est observée c’est à dire l’intervalle est
fermé en x1 , F (x1 ) ̸= 0, (comme c’est le cas dans l’exemple 1.3.6), on a c0 = x1 − a2 .
Lorsque la borne inférieure de la première classe n’est pas observée c’est à dire l’intervalle
est ouvert en x1 , F (x1 ) = 0, on a c0 = x1 .

Exemple 1.2.9. Représentation de la courbe des fréquences cumulées de la distribution de


l’exemple 1.2.6

14
Figure 1.8: Courbe des fréquences cumulées

Pour tout réel r ∈ [0, 1], il existe un x ∈ [xmin , xmax ] qui n’est autre que l’abscisse du point
M de la courbe des fréquences cumulées dont l’ordonné est r.Le calcul de la relation liant les
réels r et x se fait par interpolation linéaire,

r − F (xi )
x = xi + (xi+1 − xi )
F (xi+1 ) − F (xi )

avec F (xi ) < r ⩽ F (xi+1 ) et x ∈ [xi , xi+1 ] la classe ayant la fréquence cumulée F (xi+1 ) et F (xi )
la fréquence cumulée de la classe qui qui l’a précède.

Exemple 1.2.10. Reprenons l’exemple 1.3.6 de la consommation aux 100 km de 20 voitures


d’un nouveau modèle
Consommation en litre effectifs ni fréquences fi fréquences cumulées F(x)
[5.11, 5.31] 4 0.2 0.2
[5.31, 5.51] 3 0.15 0.35
[5.51, 5.71] 6 0.3 0.65
]5.71, 5.91] 3 0.15 0.8
]5.91, 6.11] 4 0.2 1
Total 20 1

Prenons r = 0.57.F (xi ) = 0.35 < 0.57 ⩽ F (xi+1 ) = 0.65 =⇒ xi = 5.51 et xi+1 = 5.71 avec
x ∈ [5.51, 5.71]

r − F (xi ) 0.57 − 0.35


x = xi + (xi+1 − xi ) = 5.51 + (5.71 − 5.51) = 5.66
F (xi+1 ) − F (xi ) 0.65 − 0.35

Inversement pour tout [xmin , xmax ], il existe un r ∈ [0, 1] qui n’est autre que l’ordonné du point
M de la courbe des fréquences cumulées dont l’abscisse est x. les réels r et x sont liés par la
relation,
x − xi
r = F (xi ) + (F (xi+1 ) − F (xi ))
(xi+1 − xi )
avec x ∈ [xi , xi+1 ] et F (xi ) < r ⩽ F (xi+1 ) avec F (xi+1 ) la fréquence cumulée de la classe
[xi , xi+1 ] qui contient x et F (xi ) la fréquence cumulée qui l’a précède.

15
Exemple 1.3.11 : Reprenons l’exemple 1.3.6 de la consommation aux 100 km de 20 voitures
d’un nouveau modèle
Prenons x = 5.62 ∈ [5.51, 5.71] =⇒ xi = 5.51 et xi+1 = 5.71.F (xi+1 ) = 0.65 et F (xi ) = 0.35

x − xi 5.62 − 5.51
r = F (xi ) + (F (xi+1 ) − F (xi )) = 0.35 + (0.65 − 0.35) = 0.515
(xi+1 − xi ) 5.71 − 5.51

16
Chapter 2

Les mesures de tendance centrale et de


dispersion

2.1 Les mesures de tendance centrale


L’objectif des mesures de tendance centrale est de synthétiser une série statistique en identi-
fiant une valeur représentative située au centre des données. Les principales mesures de cette
tendance incluent le mode, la médiane et la moyenne.

2.1.1 Le mode
2.1.1.1 Variable qualitative ou quantitative discrète
Définition 2.1.1. Le mode correspond à la valeur de la variable qui possède l’effectif ou la
fréquence la plus élevée. Il est noté par md. Une distribution peut présenter un seul mode
(unimodale), deux modes (bimodale) ou plusieurs modes (plurimodale).

Exemple 2.1.1. • Pour une variable quantitative discrète (âges des participants à une
compétition sportive):
Considérons la distribution des âges des participants :

xi 18 ans 19 ans 20 ans 21 ans 22 ans 23 ans


ni 5 12 20 18 10 8

L’effectif maximal est 20, donc le mode est mo = 20 ans. Cette distribution est unimodale.

• Pour une variable qualitative (types de fruits consommés) :


Considérons la distribution des types de fruits consommés par un groupe de personnes :

xi Pomme Banane Orange Fraise Raisin Mangue


ni 15 20 20 10 12 8

L’effectif maximal est 20. La distribution est bimodale, avec deux modes : Banane et
Orange.

17
2.1.1.2 Variable quantitative continue
Pour une variable quantitative continue, les données sont classées en intervalles. Lorsque toutes
les classes possèdent la même amplitude, la classe modale correspond à celle qui affiche la
fréquence ou l’effectif maximal.

Exemple 2.1.2. Soit la distribution suivante :

Classes [1000; 2000[ [2000; 3000[ [3000; 4000[ [4000; 5000[


Fréquences 0.15 0.30 0.25 0.20

Table 2.1: Distribution des classes et des fréquences

La fréquence maximale est 0.30, donc la classe modale est [2000; 3000[.

Remarque 2.1.1. Lorsque les classes n’ont pas la même amplitude, il est impératif d’ajuster
les effectifs et les fréquences afin d’uniformiser les classes avant de procéder à :

• La construction de l’histogramme,

• La création du polygone des fréquences,

• La détermination de la classe modale.

Le mode mo (qui appartient à la classe modale) est déterminé par interpolation linéaire.
Pour illustrer une telle interpolation, considérons l’exemple suivant : Les salaires mensuels (en
milliers de dirhams) du personnel d’une entreprise se répartissent comme suit:

Classe Effectif ni Fréquence fi Fréquence cumulée F(xi+1 )


]2, 3] 15 0,19 0,19
]3, 4] 20 0,25 0,44
]4, 6] 20 0,25 0,69
]6, 10] 24 0,31 1
Total 79 1

Table 2.2: Répartition des salaires mensuels du personnel

Exemple 2.1.3.

2.1.2 La moyenne
Le terme « moyenne » est souvent utilisé pour désigner diverses mesures de tendance cen-
trale, en particulier la moyenne arithmétique. D’autres types de moyennes existent, chacune
préservant une caractéristique de l’ensemble. Leur intérêt dépend de l’utilité de cette propriété.
Cependant, ces « moyennes » sont des valeurs abstraites qui ne correspondent généralement
pas à des réalisations concrètes.

18
Les classes ne sont pas de même amplitude, il est donc nécessaire de corriger les données. La
plus petite amplitude est a = 1. Les classes corrigées sont les suivantes :
Classe Effectif corrigé n′i Fréquence fi′
[2, 3] 15 0,19
]3, 4] 20 0,25
]4, 5] 10 0,125
]5, 6] 10 0,125
]6, 7] 6 0,0775
]7, 8] 6 0,0775
]8, 9] 6 0,0775
]9, 10] 6 0,0775
Total 79 1

Table 2.3: Classes corrigées des salaires mensuels


Il est clair que la classe modale est ]3, 4].

2.1.2.1 La moyenne arithmétique


On appelle moyenne arithmétique la somme de toutes les données statistiques divisée par le
nombre de ces données. La moyenne arithmétique conserve la somme totale des valeurs ob-
servées : si on modifie les valeurs de deux observations d’une série statistique tout en conser-
vant leur somme, la moyenne de la série sera inchangée.
Cas discret: Soit la série statistique de données brutes : x1 , . . . , xi , . . . , xn , sa moyenne
arithmétique a pour expression :

1 n
x̄ = ∑ xi
n i=1
Bien entendu, si une valeur xi de X est observée ni fois, comme xi + xi + . . . + xi = ni xi ,
la formule précédente devient : ni fois

1 k k
x̄ = =
∑ i i ∑ fixi
n x
n i=1 i=1
Cas continu:
1 k k
x̄ = =
∑ i i ∑ fici
n c
n i=1 i=1
vi +vi+1
où ci = 2 est le centre de la classe [vi , vi+1 [

2.1.2.2 La moyenne géométrique


C’est la moyenne applicable à des mesures de grandeurs dont la croissance est géométrique ou
exponentielle.
La moyenne géométrique conserve le produit des xi : si on modifie les valeurs de deux
observations tout en conservant leur produit, la moyenne géométrique sera inchangée.
La moyenne géométrique G de la série de valeurs x1 , . . . , xi , . . . , xn supposées toutes posi-
tives (strictement), est définie ainsi :
s
n
1 n
G = n ∏ xi ⇒ ln(G) = ∑ ln (xi )
i=1 n i=1

19
Lorsque la distribution de la variable statistique est donnée par les k couples (xi , ni ), les xi
étant tous positifs ; la moyenne géométrique a pour expression :
v
u k
u k n k
fi
n
G = ∏ xi = ∏ xi ⇒ ln(G) = ∑ fi ln (xi )
t i

i=1 i=1 i=1

Dans le cas continu on remplace xi par ci centre de classe.


Exemple 2.1.4. Supposons que pendant une décennie, les salaires aient été multipliés par 2 et
que pendant la décennie sui vante, ils aient été multipliés par 4 ; le coefficient multiplicateur
moyen par décennie est égal à :
√ √
2 · 4 = 8 ≈ 2, 83
La moyenne arithmétique (= 3) n’est pas égale au coefficient demandé.
La moyenne géométrique s’utilise, par exemple, quand on veut calculer la moyenne de taux
d’intérêt.
Exemple 2.1.5. Supposons que les taux d’intérêt pour 4 années consécutives soient respective-
ment de 5%, 10%, 15%, et 10%. Que va-t-on obtenir après 4 ans si je place 200 DH ?

• Après 1 an on a, 200 × 1.05 = 210 DH


• Après 2 ans on a, 200 × 1.05 × 1.1 = 231 DH
• Après 3 ans on a, 200 × 1.05 × 1.1 × 1.15 = 265.65 DH
• Après 4 ans on a, 200 × 1.05 × 1.1 × 1.15 × 1.1 = 292.215 DH

Si on calcule la moyenne arithmétique des taux, on obtient :


1.05 + 1.10 + 1.15 + 1.10
x̄ = = 1.10.
4
Si on calcule la moyenne géométrique des taux, on obtient :
G = (1.05 × 1.10 × 1.15 × 1.10)1/4 = 1.099431377.
Le bon taux moyen est bien G et non x̄, car si on applique 4 fois le taux moyen G aux 200
DH, on obtient
200 DH × G4 = 200 × 1.0994313774 = 292.215 DH.

2.1.2.3 La moyenne harmonique


La moyenne harmonique est définie comme l’inverse de la moyenne arithmétique des inverses
des valeurs. Ainsi, si on modifie deux observations tout en conservant la somme de leurs
inverses, la moyenne harmonique reste inchangée :

• Cas discret :

n 1
x̄H = n == f
,
∑ki=1 xii ∑ki=1 xii
où x1 , .., xk sont les différentes valeurs de la variable.

20
• Cas continu :

n 1
x̄H = n = f
,
∑ki=1 cii ∑ki=1 cii
vi + vi+1
où ci = est le centre de la classe [vi , vi+1 [.
2
• Cas où les données ne sont pas groupées :

n
x̄H = ,
∑ni=1 x1i
où n est la taille de la série statistique.

Elle est utile lorsqu’on peut attribuer un sens réel aux inverses des données, par exemple
pour les taux de change, les taux d’équipement, le pouvoir d’achat et les vitesses. Elle est
également utilisée dans les calculs d’indices.

Exemple 2.1.6. Supposons l’achat de dollars, d’abord pour 100 C au taux de 1,23 C le dollar,
puis pour 100 C au taux de 0,97 C le dollar. Le cours moyen du dollar est:
200
100 100
≈ 1, 085 .
1,23+ 0,97
La moyenne arithmétique, qui est de 1,1, ne représente pas le cours moyen du dollar.

Comparaison des 3 moyennes : On démontre que si les xi sont tous positifs, alors :

min xi ⩽ H ⩽ G ⩽ x̄ ⩽ max xi .
1⩽i⩽n 1⩽i⩽n

L’égalité entre deux de ces moyennes implique l’égalité de toutes, ce qui signifie que toutes
les valeurs xi sont égales.

2.1.3 La médiane
La médiane est la valeurMe de la variable qui divise une série statistique, une fois les éléments
classés par ordre croissant, en deux groupes de taille égale. Ainsi, 50 % des individus ont une
valeur inférieure ou égale à la médiane, tandis que 50 % affichent une valeur supérieure ou
égale à cette même médiane.

2.1.3.1 Variable quantitative discrète


Soient x1 , x2 , · · · , xn les valeurs prises par la variable. On les ordonne de la plus petite à la plus
grande et on note x(1) la plus petite valeur, x(2) la deuxième valeur, · · · , x(i) la ième valeur, · · · ,
x(n) la plus grande valeur. Alors on a

 x( n+1 si n est impair
2 )
Me =
 x( 2n ) +x( n2 +1)
2 si n est pair

21
Exemple 2.1.7. • Considérons la distribution suivante :
xi 5 15 25 35 45 55
ni 2 6 3 7 4 5
Effectifs cumulés 2 8 11 18 22 27
n+1
On a n = 27, donc n est impair d’où 2 = 14 et

Me = x(14) = 35

car le premier effectif cumulé supérieur ou égal à 14 est 18 et x(18) = 35.

• Considérons une autre distribution :


xi 8 18 28 38 48 58
ni 5 7 6 10 3 4
Effectifs cumulés 5 12 18 28 31 35
n+1
On a n = 35, donc n est impair d’où 2 = 18 et

Me = x(18) = 28

car le premier effectif cumulé supérieur ou égal à 18 est 18 et x(18) = 28.

2.1.3.2 Variable quantitative continue


La médiane est la valeur qui satisfait l’équation F(x) = 0, 5. Pour la trouver, il faut d’abord
identifier la classe médiane (xi , xi+1 ] où F(xi ) < 0, 5 et F(xi+1 ) ⩾ 0, 5.
Une fois la classe médiane déterminée, la médiane Me , qui appartient à cette classe, est
calculée à l’aide d’une interpolation linéaire. Illustrons ce concept avec l’exemple de la distri-
bution des salaires mensuels (en milliers de dirhams) du personnel d’une entreprise :
Exemple 2.1.8. Dans un laboratoire de chimie, des échantillons de liquide ont été analysés
pour déterminer leur pH. Les résultats sont présentés dans le tableau ci-dessous :

Classe Effectif Fréquence Fréquence cumulée


[6,0; 6,5[ 4 0,10 0,10
[6,5; 7,0[ 10 0,25 0,35
[7,0; 7,5[ 15 0,375 0,725
[7,5; 8,0[ 8 0,20 0,925
[8,0; 8,5[ 3 0,075 1
Total 40 1

Nous savons que la fréquence cumulée est égale à 0, 5, et nous cherchons la valeur Me de
la variable telle que F(Me ) = 0, 5.
Étant donné que 0, 5 se situe dans l’intervalle [0, 35; 0, 725], nous concluons que Me ∈
[7, 0; 7, 5].
Nous avons alors :
Me − 7, 0 0, 5 − 0, 35
=
7, 5 − 7, 0 0, 725 − 0, 35
Par conséquent, la médiane est donnée par :

22
0, 15
Me = 7, 0 + 0, 5 × = 7, 2
0, 375
Remarque 2.1.2. En général, si Me ∈ [xi , xi+1 [ alors
0, 5 − F(xi )
Me = xi + (xi+1 − xi ) ×
F(xi+1 ) − F(xi )

2.1.4 Quantiles
La notion de quantile d’ordre p (où 0 < p < 1) généralise la médiane.
Formellement un quantile est donné par l’inverse de la fonction de répartition :

x p = F −1 (p).

Dans le cas discret / données non groupées: L’itinéraire pour déterminer le quantile
d’ordre p (avec 0 < p < 1) se déroule comme suit :
Le quantile x p est défini comme :
( x +x
(np) (np+1)
2 si np est un entier,
xp =
x⌈np⌉ si np n’est pas un entier.
Dans le cas des données discrètes ou non groupées, on calcule x p en fonction de la taille n
de la population, en utilisant la règle ci-dessus.
Pour les données continues, le quantile est obtenu par interpolation linéaire, comme pour
la médiane. Ainsi, pour le premier quartile Q1 , on identifie l’intervalle où la fréquence cumulée
dépasse 0, 25, et pour le troisième quartile Q3 , on cherche l’intervalle où la fréquence cumulée
atteint ou dépasse 0, 75.
Remarque 2.1.3. La médiane est le quantile d’ordre p = 1/2. On utilise souvent
• x1/4 le premier quartile,

• x3/4 le troisième quartile,

• x1/10 le premier décile,

• x1/5 le premier quintile,

• x4/5 le quatrième quintile,

• x9/10 le neuvième décile,

• x0.05 le cinquième percentile ,

• x0.95 le nonante-cinquième percentile.


Exemple 2.1.9. Soit la série statistique 12, 13, 15, 16, 18, 19, 22, 24, 25, 27, 28, 34 contenant
12 observations ( n = 12 ).
• Le premier quartile : Comme np = 0.25 × 12 = 3 est un nombre entier, on a

x(3) + x(4) 15 + 16
x1/4 = = = 15.5.
2 2
23
• La médiane : Comme np = 0.5 × 12 = 6 est un nombre entier, on a

1
x1/2 = x + x(7) = (19 + 22)/2 = 20.5
2 (6)
• Le troisième quartile : Comme np = 0.75 × 12 = 9 est un nombre entier, on a

x(9) + x(10) 25 + 27
x3/4 = = = 26.
2 2

2.2 Mesures de Dispersion


2.2.1 Étendue
Définition 2.2.1. L’étendue, notée e, est la différence entre les valeurs maximale et minimale
d’une variable. Elle se calcule comme suit :
e = xmax − xmin
Exemple 2.2.1. Considérons la série suivante :
12, 15.5, 17, 9, 19, 5, 8.5.
Les valeurs maximale et minimale sont respectivement : xmax = 19 et xmin = 5. Ainsi, l’étendue
est donnée par :
e = 19 − 5 = 14.

2.2.2 Écart Interquartile


Les trois valeurs Q1 , Q2 et Q3 , avec Q1 ⩽ Q2 ⩽ Q3 , divisent la série en quatre parties égales.

• L’intervalle [Q1 , Q3 ] est appelé intervalle interquartile, et il contient 50% des observa-
tions.
• EIQ = Q3 − Q1 est désigné comme écart interquartile.

Exemple 2.2.2. Reprenons l’exemple des tiges dont le tableau statistique est présenté ci-
dessous :
Classe Effectif Fréquence Fréquence Cumulée
[36.5; 37.5[ 3 0.05 0.05
[37.5; 38.5[ 7 0.12 0.17
[38.5; 39.5[ 17 0.28 0.45
[39.5; 40.5[ 18 0.30 0.75
[40.5; 41.5[ 9 0.15 0.90
[41.5; 42.5[ 4 0.07 0.97
[42.5; 43.5] 2 0.03 1
Total 60 1

• Pour Q1 , étant donné que 0.25 ∈ [0.17; 0.45], on trouve Q1 ∈ [38.5; 39.5], avec :
(39.5 − 38.5)(0.25 − 0.17)
Q1 = 38.5 + = 38.7857.
0.45 − 0.17

24
• La médiane, notée Q2 = Me , est calculée comme 39.6667.
• Q3 = 40.5, obtenu directement à partir du tableau.
• L’écart interquartile se calcule ainsi :

EIQ = Q3 − Q1 = 40.5 − 38.7857 = 1.7143.

2.2.3 Variance et Écart-Type


Pour mesurer la dispersion d’une série, on peut s’intéresser à la moyenne des carrés des dis-
tances des valeurs par rapport à la moyenne. C’est ce qu’on appelle la variance, notée V (X) (ou
s2 ), qui est toujours strictement positive et dont l’unité est le carré de l’unité de la distribution.
Elle se calcule comme suit :
– Cas discret :
1 k k
V (X) = ∑ ni (xi − x̄)2 = ∑ fi (xi − x̄)2 ,
n i=1 i=1

où k est le nombre de modalités discrètes et x̄ = n1 ∑ki=1 ni xi est la moyenne de la distribution.


– Cas continu :
1 k k
V (X) = ∑ ni (ci − x̄)2 = ∑ fi (ci − x̄)2 ,
n i=1 i=1

où k est le nombre de classes, ci = vi +v2 i+1 est le centre de la classe [vi , vi+1 [, et x̄ = 1n ∑ki=1 ni ci
est la moyenne de la distribution.
– Cas où les données ne sont pas groupées :
1 n
V (X) = ∑ (xi − x̄)2,
n i=1

où x̄ = 1n ∑ni=1 xi est la moyenne de la distribution.


Remarque 2.2.1 (Formule de König). Le théorème de König permet de simplifier le calcul de
la variance de la manière suivante (c’est la moyenne des carrés moins le carré de la moyenne)
:
– Cas discret :
1 k
V (X) = ∑ ni xi2 − (x̄)2 .
n i=1
– Cas continu :
1 k
V (X) = ∑ ni c2i − (x̄)2 .
n i=1
– Cas où les données ne sont pas groupées :
1 n 2
V (X) = ∑ xi − (x̄)2 .
n i=1

Notons que l’unité de la variance est le carré de l’unité de la distribution.


Pour revenir à l’unité de la distribution, on introduit, l’écart-type qui est la racine carrée de
la variance, noté σ (ou encore s). Sa formule est :
p
σ= V (X).

25
Exemple 2.2.3. Soit la série statistique 2, 3, 4, 4, 5, 6, 7, 9 de taille n = 8. On a :
2+3+4+4+5+6+7+9
x̄ = = 5. (2.1)
8
Pour calculer la variance V (x), on utilise la formule :

1 n
V (x) = ∑ (xi − x̄)2
n i=1
1
= (2 − 5)2 + (3 − 5)2 + (4 − 5)2 + (4 − 5)2 + (5 − 5)2 + (6 − 5)2 + (7 − 5)2 + (9 − 5)2

8
1
= [9 + 4 + 1 + 1 + 0 + 1 + 4 + 16]
8
36
= = 4.5.
8
(2.2)
On peut également utiliser la formule de la variance, ce qui nécessite moins de calculs
(surtout quand la moyenne n’est pas un nombre entier) :

1 n 2
V (x) = ∑ xi − x̄2
n i=1
1
= 22 + 32 + 42 + 42 + 52 + 62 + 72 + 92 − 52

8 (2.3)
1
= (4 + 9 + 16 + 16 + 25 + 36 + 49 + 81) − 25
8
236
= − 25 = 29.5 − 25 = 4.5.
8
L’écart type σ (x) est donné par :
p √
σ (x) = V (x) = 4.5 ≈ 2.121. (2.4)

Il existe d’autres indicateur de dispersion, on cite par exemple :

Remarque 2.2.2 (L’écart moyen absolu et L’écart médian absolu).

• L’écart moyen absolu, noté emoy , est la somme des valeurs absolues des écarts à la
moyenne divisée par le nombre d’observations:

1 n
emoy = ∑ |xi − x̄|,
n i=1

• L’écart médian absolu, noté emed , est la somme des valeurs absolues des écarts à la
médiane divisée par le nombre d’observations:

1 n
emed = ∑ |xi − Me|,
n i=1

26
2.2.4 Moment et Moment centré
Définition 2.2.2 (Moment et Moment centré).
• On appelle moment d’ordre r ∈ N, noté mr , le paramètre

1 n r
mr = ∑ xi .
n i=1
• On appelle moment centré d’ordre r ∈ N, noté µr , le paramètre

1 n
µr = ∑ (xi − x̄)r .
n i=1
Les moments généralisent la plupart des paramètres. On a en particulier : m1 = x̄, µ2 =
V (X), ...
Nous allons voir plus loin que les moments d’ordres supérieurs (r = 3, 4) sont utilisés pour
mesurer la symétrie et l’aplatissement d’une distribution.
Les formule données concerne les séries non groupées, pour retrouver les autres formules,
il suffit de procéder de la même manière que dans le calcul de la variance par exemple.

2.2.5 Coefficient de variation


Définition 2.2.3. On appelle coefficient de variation d’une variable X le nombre, noté CV ,
définit par :
s
CV =

• Si CV < 0.15 la série statistique est dite très homogène,
• Si 0.15 ⩽ CV < 0.85 la série statistique est dite homogène,
• Si CV ⩾ 0.85 la série statistique est dite non homogène,
Remarque 2.2.3. Le coefficient de variation permet d’apprécier la représentativité de la moyenne
par rapport à l’ensemble des données. Une série est fortement dispersée quand sont coefficient
de variation est supérieur à 0.85. Elle est faiblement dispersée quand le coefficient de variation
est proche de 0.
Le coefficient de variation permet aussi de comparer les dispersions de plusieurs séries qui
ne sont pas exprimées dans les mêmes unités ou des séries ayant des moyennes différentes.
Exemple 2.2.4. Un candidat à un examen a obtenu les notes suivantes :
x1 = 15; x2 = 10; x3 = 6; x4 = 9; x5 = 11; x6 = 5; x7 = 12; x8 = 7; x9 = 16; x10 = 8
La moyenne est x̄ = 15+10+...+16+8
10 = 9, 9.
2 152 +102 +...+162 +82
La variance est s = V (X) = 10 − 9, 92 = 12, 09, et l’écart type est s =
3, 4771.
Donc le coefficient de variation est
3, 4771
CV = ≃ 0, 35
9, 9
Comme 0, 15 ⩽ 0, 35 < 0, 85, la série est homogène.

27
2.3 Mesures de forme
2.3.1 Coefficient d’asymétrie
Définition 2.3.1 (Coefficient d’asymétrie de Fisher).
Le coefficient d’asymétrie de Fisher est défini par:
µ3
γ3 =
s3
• Si γ3 > 0, la série présente une asymétrie à droite,

• Si γ3 = 0, la série est symétrique,

• Si γ3 < 0, la série présente une asymétrie à gauche.

Définition 2.3.2 (Coefficient d’asymétrie de Pearson).


Le coefficient d’asymétrie de Pearson est défini par:

3(x̄ − Me )
AP =
s
• Si AP > 0, la série présente une asymétrie à droite,

• Si AP = 0, la série est symétrique,

• Si AP < 0, la série présente une asymétrie à gauche.

En fait, pour ce coefficient, comme déjà mentionné dans la figure ??, il suffit de comparer
la moyenne et la médiane.

Définition 2.3.3 (Coefficient d’asymétrie de Yule).


Le coefficient d’asymétrie de Yule est basé sur les positions des 3 quartiles (Q1 , Me , Q3 ) et
est normalisé par la distance interquartile :
Q3 + Q1 − 2Me
AY = .
Q3 − Q1

• Si AY > 0, la série présente une asymétrie à droite,

• Si AY = 0, la série est symétrique,

• Si AY < 0, la série présente une asymétrie à gauche.

Exemple 2.3.1. On reprend l’exemple des notes.

x1 = 15; x2 = 10; x3 = 6; x4 = 9; x5 = 11; x6 = 5; x7 = 12; x8 = 7; x9 = 16; x10 = 8.


3(9.9 − 9.5)
On a x̄ = 9.9, Me = 9.5, donc AP = > 0. Donc la série est étalée vers la droite.
s

28
2.3.2 Coefficient d’aplatissement
Définition 2.3.4 (Coefficient d’aplatissement de Fisher). Le coefficient d’aplatissement de Fisher,
noté γ4 , est défini par la relation :
µ4
γ4 = − 3,
s4
• Si γ4 > 0, la série présente une léptokurtique (aiguë),

• Si γ4 ≃ 0, la série est mésokurtique (normale),

• Si γ4 < 0, la série présente une platykurtique (aplatie).

Figure 2.1: Comparaison des aplatissements

2.3.3 Diagramme en boîte (Box plot)


Définition 2.3.5. La boîte à moustaches (ou diagramme en boîte, ou encore box plot en
anglais) est un diagramme résumant les indicateurs d’une série statistique : médiane, quartiles
Q1 et Q3 . Elle est généralement utilisée pour comparer plusieurs séries de même unité.

Ce diagramme est composé de :

• un rectangle qui s’étend du premier au troisième quartile. Le rectangle est divisé par une
ligne correspondant à la médiane,

• ce rectangle est complété par deux demis-segments (moustaches) de limites :

a = max(Q1 − 1.5 × EIQ; xmin ) et b = min(Q3 + 1.5 × EIQ; xmax ),

• on identifie ensuite la plus petite et la plus grande observation comprise entre ces bornes.
Ces observations sont appelées "valeurs adjacentes",

29
• on trace les segments de droite reliant ces observations au rectangle,

• les valeurs qui ne sont pas comprises entre les valeurs adjacentes sont représentées par
des points et sont appelées "valeurs extrêmes".

Figure 2.2: Exemple de diagramme en boîte

30
Chapter 3

Statistique descriptive bivariée

3.1 Exemple et introduction


On considère un échantillon de 16 personnes âgées de 35 à 80 ans, auquel on attribue une
note indiquant leurs performances mémorielles. On note leur âge X et leurs performances
mémorielles Y .
Les données mesurées sont les suivantes :

X 80 56 67 72 67 51 80 42 56 47 53 37 48 46 44 35
Y 22 38 33 36 22 47 30 45 48 55 38 81 46 33 51 60

Table 3.1: Âge (X) et performances mémorielles (Y ) des individus de l’échantillon

L’intérêt de cet échantillon réside dans la possibilité de mettre en évidence un lien entre
l’âge et la mémoire, ce qui nécessite l’étude simultanée de ces deux caractéristiques.
L’objectif de ce petit chapitre sera donc d’étudier le lien entre deux variables définies sur
les mêmes individus.

3.1.1 Définitions
Variables appariées : Deux variables sont dites appariées lorsqu’elles sont définies pour les
mêmes individus.

Exemple 3.1.1. • La température mesurée le matin et la température mesurée l’après-midi


dans une même journée sont des variables appariées, car elles concernent le même lieu
et le même jour.

• Dans une étude sur l’effet d’un médicament, les scores de santé des patients avant et
après le traitement sont des variables appariées, car chaque patient constitue une paire.

• En revanche, les scores de santé de deux groupes de patients différents (un groupe ayant
reçu le traitement et un groupe de contrôle) ne sont pas des variables appariées, car ils
concernent des individus distincts.

Remarque 3.1.1. En pratique, appariées signifie que chaque valeur d’une variable est associée
à une valeur de l’autre variable pour le même individu. Cette condition est nécessaire pour
étudier le lien entre deux variables.

31
Variables dépendante et indépendante : Pour des variables appariées, si l’une des deux
variables est manipulable par l’expérimentateur, on l’appelle en sciences humaines variable
indépendante (par exemple, le dosage d’un traitement administré ou le sexe des personnes
interrogées). L’autre variable est alors appelée variable dépendante.
Exemple 3.1.2. Voici quelques exemples de variables indépendantes et dépendantes :
Variable Indépendante Variable Dépendante
Température ambiante Consommation d’énergie d’un climatiseur
Heures de sommeil Niveau de concentration pendant la journée
Vitesse de lecture Compréhension d’un texte
Quantité d’eau ingérée État d’hydratation
Considérons le lien entre la température ambiante et la consommation d’énergie d’un clima-
tiseur. En général, lorsque la température ambiante augmente, la consommation d’énergie du
climatiseur tend également à augmenter.
Remarque 3.1.2. Il est essentiel de comprendre que, dans ces exemples, la manipulation de
la variable indépendante peut avoir des effets variables sur la variable dépendante selon le
contexte.
Notation Lorsqu’il y a une variable indépendante et une variable dépendante, on appelle X
la variable indépendante et Y la variable dépendante. Dans le cas présent, l’âge est la variable
indépendante tandis que les performances mémorielles sont la variable dépendante.
Objectifs Dans ce chapitre, on cherchera à répondre principalement à deux questions :
• Y a-t-il un fort lien entre les deux variables ? On appellera corrélation l’intensité de ce
lien, que l’on mesurera à l’aide de coefficients de corrélation.

• Peut-on prédire la variable d’une variable en fonction de l’autre variable ? On le fera


dans ce chapitre au moyen d’une régression linéaire.

3.2 Nuage statistique


Une première façon de synthétiser efficacement les données et de se faire une idée du lien entre
les deux variables consiste à réaliser un nuage de points : pour chaque individu, on place un
point qui est positionné horizontalement à la valeur xi que prend la variable X pour cet individu,
et verticalement à la valeur yi de la variable Y .
Exemple 3.2.1. On mesure le poids Y et la taille X de 20 individus. Les valeurs sont présentées
dans le tableau suivant :

yi 60 61 64 67 68 69 70 70 72 73
xi 155 162 157 170 164 162 169 170 178 173
yi 75 76 78 80 85 90 96 96 98 101
xi 180 175 173 175 179 175 180 185 189 187

Table 3.2: Valeurs de poids Y et taille X pour 20 individus.

Le graphique ci-dessous montre un nuage de points pour les données de taille et de poids.

32
Nuage de points : Taille vs Poids

100

90
Poids (kg)
80

70

60

50
150 160 170 180 190
Taille (cm)

Figure 3.1: Nuage de points montrant la relation entre la taille et le poids.

3.3 Coefficient de corrélation linéaire


Définition 3.3.1 (Coefficient de corrélation linéaire). Soit X = (x1 , . . . , xn ) et Y = (y1 , . . . , yn )
deux variables quantitatives mesurées sur les mêmes n individus.
La covariance entre X et Y est donnée par :

1 n
cov(X,Y ) = ∑ (xi − x̄)(yi − ȳ).
n i=1

Le coefficient de corrélation entre X et Y est alors défini par :

cov(X,Y )
cor(X,Y ) = p p
V (X) V (Y )

où V (X) et V (Y ) sont les variances des variables X et Y respectivement.

Proposition 3.3.1. La covariance entre deux variables aléatoires X et Y peut s’écrire comme
suit :
1 n
cov(X,Y ) = ∑ xi yi − x̄ȳ.
n i=1

33
Proof.
1 n
cov(X,Y ) = ∑ (xi − x̄)(yi − ȳ)
n i=1
1 n
= ∑ (xiyi − yix̄ − xiȳ + x̄ȳ)
n i=1
1 n 1 n 1 n 1 n
= ∑ xi yi − ∑ yi x̄ − ∑ xi ȳ + ∑ x̄ȳ (3.1)
n i=1 n i=1 n i=1 n i=1
1 n
= ∑ xiyi − x̄ȳ − x̄ȳ + x̄ȳ
n i=1
1 n
= ∑ xiyi − x̄ȳ.
n i=1

Propriétés:
Les propriétés du coefficient de corrélation linéaire sont les suivantes :

• Le coefficient de corrélation vérifie toujours l’inégalité −1 ⩽ cor(X,Y ) ⩽ 1.

• Si cor(X,Y ) est proche de 1, les variables X et Y sont positivement corrélées : lorsque X


augmente, Y a tendance à augmenter également, et vice versa, de manière linéaire.

• Si cor(X,Y ) est proche de -1, alors X et Y sont négativement corrélés : lorsque X aug-
mente, Y a tendance à diminuer, et vice versa, de manière linéaire.

• En pratique, si |cor(X,Y )| ⩾ 0, 8, on considère que les variables X et Y sont fortement


corrélées.

• Si cor(X,Y ) est proche de 0, les variables X et Y sont considérées comme non corrélées:
une augmentation ou une diminution de X n’affecte pas linéairement Y .

Représentation des Corrélations

Corrélation Positive Forte Corrélation Positive Faible


10 10
8 8
6 6
Y

4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
X X

Figure 3.2 Figure 3.3

34
Corrélation Négative Forte Corrélation Négative Faible
10 10
8 8
Y 6 6

Y
4 4
2 2
0 0
0 2 4 6 8 10 0 2 4 6 8 10
X X

Figure 3.4 Figure 3.5

Non-Corrélation
10
8
6
Y

4
2
0
0 2 4 6 8 10
X

Figure 3.6

Mode de calcul
Dans ce chapitre, les données ne seront pas regroupées par modalité (ni par classe), de sorte
que la moyenne de X ×Y se calcule simplement par la formule :

∑ni=1 xi yi
m(XY ) = .
n
Exemple 3.3.1. Pour les données présentées en début de chapitre, on obtient :
Moyenne :

∑16
i=1 xi 80 + 56 + 67 + . . . + 35 881
m(X) = = = ≈ 55, 06.
16 16 16

∑16
i=1 xi
2 802 + 562 + 672 + . . . + 352 51567
m(X 2 ) = = = .
16 16 16

881 2
 
2 2 51567
Var(X) = m(X ) − m(X) = − ≈ 191, 06.
16 16
Écart-type : p
σ (X) = Var(X) ≈ 13, 82.
Moyenne :

∑16
i=1 yi 22 + 38 + 33 + . . . + 60 685
m(Y ) = = = ≈ 42, 81.
16 16 16

35
∑16
i=1 yi
2 222 + 382 + 332 + . . . + 602 32671
m(Y 2 ) = = = .
16 16 16

685 2
 
2 2 32671
Var(Y ) = m(Y ) − m(Y ) = − ≈ 209, 03.
16 16
Écart-type : p
σ (Y ) = Var(Y ) ≈ 14, 46.
Moyenne :

∑16
i=1 xi yi 80 × 22 + 56 × 38 + . . . + 35 × 60
m(XY ) = = ≈ 2200, 375.
16 16
Covariance :
 
881 685
Cov(X,Y ) = m(XY ) − m(X)m(Y ) = 2200, 375 − × ≈ −156, 988.
16 16

Coefficient de corrélation :

Cov(X,Y ) −156, 988


cor(X,Y ) = p =√ ≈ −0, 786.
Var(X) · Var(Y ) 191, 06 × 209, 03

Ainsi, le coefficient de corrélation linéaire vaut donc environ −0, 786.

3.4 Droite de régression


Lorsque les variables X et Y sont fortement corrélées, cela signifie que Y est lié de manière
linéaire à X. On peut alors écrire la relation sous la forme Y = aX + b.
Pour déterminer les valeurs optimales de â et b̂ pour a et b, nous définissons la fonction
suivante, f , qui dépend des deux variables a et b :
n
f (a, b) = ∑ (yi − âxi − b̂)2
i=1

Les valeurs â et b̂ qui minimisent cette fonction sont obtenues à l’aide d’une méthode
bien connue appelée méthode des moindres carrées ordinaires. Cette méthode consiste à
minimiser la fonction f .
En appliquant des techniques de dérivation, nous trouvons les formules suivantes :

cov(X,Y )
â =
Var(X)
et

b̂ = y − âx

• L’équation Ŷ = âX + b̂ est appelée l’équation de la droite de régression de Y sur X.

• â représente la pente de la droite.

36
• b̂ est l’ordonnée à l’origine.

Remarque 3.4.1. On peut également exprimer â comme suit :


p
cov(X,Y ) cov(X,Y ) Var(Y ) σY
â = = p = cor(X,Y )
Var(X) Var(X) Var(Y ) σX
où σX (respectivement σY ) est l’écart-type de X (respectivement de Y ).

Exemple 3.4.1. Considérons l’exemple suivant :

X 2 6 7 5 4 1 3
Y 5 9 12 9 8 1 5
Calculons d’abord la covariance entre X et Y :

−2 × (−2) + 2 × 2 + 3 × 5 + 1 × 2 + 0 × 1 − 3 × (−6) − 1 × (−2)


cov(X,Y ) =
7
4 + 4 + 15 + 2 + 0 + 18 + 2 45
= = ≈ 6.4286
7 7
Ensuite, calculons la variance de X :

(−2)2 + 22 + 32 + 12 + 02 + (−3)2 + (−1)2


Var(X) =
7
4 + 4 + 9 + 1 + 0 + 9 + 1 28
= = =4
7 7
Dès lors, la pente de la droite de régression est donnée par :

cov(X,Y ) 6.4286
â = = = 1.60715
Var(X) 4
L’ordonnée à l’origine est calculée comme suit :

b̂ = y − âx = 7 − 1.60715 × 4 = 0.5714


Ainsi, l’équation de la droite de régression est :

Ŷ = 1.60715X + 0.5714.
Cette droite est illustrée dans la figure suivante :

3.4.1 Prédiction
Si une nouvelle valeur de X est disponible, on peut calculer la valeur prédite de Y correspon-
dante.
Supposons que la nouvelle valeur soit x8 = 4.5 ; alors, la valeur prédite de Y est :

ŷ8 = âx8 + b̂ = 1.60715 × 4.5 + 0.5714 ≃ 7.8075

37
3.4.2 Distribution conjointe (tableau croisé)
Lorsque l’on étudie simultanément les deux variables quantitatives X et Y , ayant respectivement
les modalités x1 , x2 , . . . , xJ et y1 , y2 , . . . , yK , le tableau de la distribution conjointe (ou tableau
croisé) des deux variables est présenté comme suit (n = ∑Jj=1 n j. = ∑K J K
k=1 n.k = ∑ j=1 ∑k=1 n jk ) :

y1 ... yj . . . yJ Total
x1 n11 . . . n1 j . . . n1J n1.
.. .. .. ..
. . . .
xi ni1 ... ni j ... niJ ni.
.. .. .. ..
. . . .
xI nI1 ... nI j ... nIJ nI.
Total n.1 ... n. j ... n.J n.. = n

Les modalités x j et yk peuvent être des valeurs discrètes (pour une variable quantitative
discrète) ou des intervalles (pour une variable quantitative continue).
Les n j. et n.k sont appelés les effectifs marginaux. Dans ce tableau :

• n j. représente le nombre de fois que la modalité x j apparaît,

• n.k représente le nombre de fois que la modalité yk apparaît,


n
• n jk (resp. f jk = njk ) représente le nombre de fois (resp. la fréquence) que les modalités
x j et yk apparaissent ensemble.

On a :
J
∑ n jk = n.k , pour k = 1, . . . , K
j=1
K
∑ n jk = n j., pour j = 1, . . . , J
k=1

3.4.2.1 Distribution marginale


Le tableau croisé présente deux distributions marginales : celle de X et celle de Y .
Distribution marginale de X : elle est composée des modalités de X et des effectifs margin-
aux correspondants, quelles que soient les modalités de Y .

X x1 x2 ... xJ Total
n j. n1. n2. ... nJ. n

Distribution marginale de Y : elle est composée des modalités de Y et des effectifs margin-
aux correspondants, quelles que soient les modalités de X.

Y y1 y2 ... yK Total
n.k n.1 n.2 ... n.K n

Remarque 3.4.2. Les distributions marginales permettent d’appliquer les propriétés de la


statistique descriptive univariée : moyenne, variance, écart-type, coefficient de variation, mé-
diane, quantiles, mode, etc. Ces propriétés sont appelées indicateurs marginaux (exemple :
moyenne marginale de X).

38
3.4.2.2 Covariance et corrélation
• La covariance entre X et Y est donnée par :
!
J K J K
1 1
cov(X,Y ) =
n ∑ ∑ n jk (x j − x̄)(yk − ȳ) = n ∑ ∑ n jk x j yk − x̄ȳ.
j=1 k=1 j=1 k=1

• Le coefficient de corrélation entre X et Y est donné par :

cov(X,Y )
cor(X,Y ) = p p .
V (X) V (Y )

• V (aX + bY ) = a2V (X) + b2V (Y ) + 2ab cov(X,Y ).

• Les variables X et Y sont indépendantes si et seulement si


n j. × n.k
f jk = f j. × f.k ⇐⇒ n jk = , pour j = 1, . . . , J et k = 1, . . . , K.
n

• Les variables X et Y sont indépendantes si et seulement si les lignes (ou les colonnes) du
tableau croisé sont proportionnelles entre elles.

• Si cov(X,Y ) = 0, alors les variables X et Y sont indépendantes.

Exemple 3.4.2. Tableau de distribution pour deux variables indépendantes :

Y
−2 0 2 Total
X
0 2 4 12 18
1 4 8 24 36
Total 6 12 36 54

Exemple 3.4.3. Complétez les tableaux associés à deux variables indépendantes suivants :

Y
−2 0 2 Total
X
0 2 4 12 18
1 4 8 24 36
Total 6 12 36 54

39
Chapter 4

ANALYSE COMBINATOIRE

Introduction
L’analyse combinatoire a pour objectif de dénombrer les différentes dispositions que l’on peut
former à partir des éléments d’un ensemble de cardinal fini. Plus simplement, elle vise à déter-
miner comment compter des objets ayant certaines propriétés.
Pour réaliser un dénombrement, il est essentiel de connaître l’ensemble sur lequel on tra-
vaille ainsi que le type de disposition souhaitée.
• L’ensemble étudié : il peut être composé d’éléments discernables et/ou indiscernables.
• Si tous les éléments sont distinguables les uns des autres, on les qualifie de discernables.
On note alors E = {a1 , a2 , . . . , an } avec ai ̸= a j si i ̸= j. Ainsi, on a Card E = n.

Exemple 4.0.1. Les cartes à jouer, les numéros portés par des sportifs dans une épreuve,
ou encore les numéros des candidats à un examen.

• Si tous les éléments sont identiques, on dit qu’ils sont indiscernables. On peut alors noter,
avec un certain abus de notation, E = {a, a, . . . , a}, avec Card E = n.

Exemple 4.0.2. Un ensemble de boules de la même couleur dans une urne.

• Si l’ensemble comprend un mélange des deux types d’éléments, on note, de manière abu-
sive, E = {(a1 , a1 , . . . , a1 ), (a2 , a2 , . . . , a2 ), . . . , (ak , ak , . . . , ak )}, avec ai ̸= a j si i ̸= j.

On a alors ∑ki=1 ni = n = Card E.


• Les dispositions : elles peuvent être
– ordonnées ou non-ordonnées,
– avec ou sans répétition.
Il est donc nécessaire de considérer le nombre d’apparitions de chaque élément dans un
dénombrement donné, ainsi que leur position.
Si chaque élément apparaît au plus une fois, la disposition est sans répétition. En revanche,
si un élément apparaît au moins deux fois, on obtient une disposition avec répétition.
Attention : toutes les dispositions ordonnées sont notées entre parenthèses, tandis que
toutes les dispositions non-ordonnées sont notées entre accolades.

40
Exemple 4.0.3. • Disposition ordonnée sans répétition : une liste de noms distincts rangés
par ordre alphabétique.

• Disposition non ordonnée sans répétition : les numéros gagnants du loto.

• Disposition ordonnée avec répétition : un mot du dictionnaire contenant plusieurs fois


une ou plusieurs lettres.

• Disposition non ordonnée avec répétition : les lettres formant un mot du dictionnaire
écrites dans un ordre quelconque.

• Principe général d’un dénombrement : toujours commencer par préciser la nature de


l’ensemble E et la structure de la disposition étudiée.

4.1 Formules classiques


1. Multiplets

Définition 4.1.1. Soient k ensembles E1 , E2 , · · · , Ek formés d’éléments complètement dis-


cernables, avec k ∈ N∗ . Ces ensembles sont supposés non vides, et on note Card Ei = ni .
Un multiplet est une disposition ordonnée de k éléments a1 , a2 , · · · , ak tels que a1 ∈ E1 ,
a2 ∈ E2 , · · · , ak ∈ Ek . On l’écrit (a1 , a2 , · · · , ak ).

Valeur : Le nombre de multiplets que l’on peut former est alors n1 ∗ n2 ∗ · · · ∗


nk = ∏ki=1 ni .
Cas particulier: les paires. On a alors k = 2.

2. Arrangements avec répétition


Soit un ensemble non vide E = {a1 , a2 , · · · , an }, formé d’éléments discernables. Card
E = n.

Définition 4.1.2. On appelle arrangement avec répétition de p éléments parmi n toute


disposition ordonnée avec répétition éventuelle formée de p éléments pris parmi les n de
E.
Exemple: (a1 , a3 , a3 , · · · , a p ).

Valeur : Le nombre d’arrangements avec répétition de p éléments parmi n


est Anp = n p .

3. Arrangements sans répétition


Soit un ensemble non vide E = {a1 , a2 , · · · , an }, formé d’éléments discernables. Card
E = n. Soit p un entier tel que 0 ⩽ p ⩽ n.

Définition 4.1.3. Un arrangement sans répétition, ou tout simplement arrangement, de


p éléments parmi n est toute disposition ordonnée de p éléments deux à deux distincts
pris parmi les n de E.

41
Valeur : Le nombre d’arrangements de p éléments parmi n est:
n!
Anp = n(n − 1)(n − 2) · · · (n − p + 1) = .
(n − p)!

Exemple : le nombre de façons de tirer 3 cartes sans remise et en tenant compte


de l’ordre dans un jeu de 32 cartes est A332 = 32 ∗ 31 ∗ 30 = 29760.

4. Permutations sans répétition


Soit un ensemble non vide E = {a1 , a2 , · · · , an }, formé d’éléments discernables. Card
E = n.

Définition 4.1.4. On appelle permutation sans répétition, ou simplement permutation,


des n éléments de E toute disposition ordonnée sans répétition de ces n éléments.

Valeur : Le nombre de permutations de ces n éléments est Pn = n!.


Exemple : le nombre des permutations des 3 éléments de l’ensemble {1, 2, 3}
est 3! = 6.
Ces permutations sont : (1, 2, 3), (1, 3, 2), (2, 1, 3), (2, 3, 1), (3, 1, 2), (3, 2, 1).

5. Permutations avec répétition

Définition 4.1.5. Soit E = {(a1 , a1 , · · · , a1 ), (a2 , a2 , · · · , a2 ), · · · , (ak , ak , · · · , ak )}, avec


| {z } | {z } | {z }
n1 n2 nk
ai ̸= a j si i ̸= j.
On note n = Card E = ∑ki=1 ni
L’ensemble E contenant des éléments discernables et des éléments indiscernables, toute
permutation de ses éléments sera forcément une permutation avec répétition.

Valeur : Le nombre de permutations avec répétition des éléments de l’ensemble


E s’écrit : P = n1 !n2n!!···nk ! . Il dépend des valeurs des ni .
Exemple: soit E = {a, a, a, b, b}. Dans ce cas, P = 3!2! 5!
= 10.
Vérification: les permutations que l’on obtient sont :
(a, a, a, b, b), (a, a, b, a, b), (a, a, b, b, a), (a, b, a, a, b), (a, b, a, b, a),
(a, b, b, a, a), (b, a, a, a, b), (b, a, a, b, a), (b, a, b, a, a), (b, b, a, a, a).

6. Combinaisons sans répétition


Soit un ensemble non vide E = {a1 , a2 , · · · , an }, formé d’éléments discernables. On note
Card E = n. Soit p un entier tel que 0 ⩽ p ⩽ n.

Définition 4.1.6. Une combinaison sans répétition, ou tout simplement une combinaison,
de p éléments parmi n est toute disposition non ordonnée de p éléments deux à deux dis-
tincts pris parmi les n éléments de E. On l’écrit entre accolades, par exemple {a1 , a2 , a5 }
si p = 3.

Valeur : Le nombre de combinaisons de p éléments parmi n est donné par :

n(n − 1)(n − 2) · · · (n − p + 1) Anp


 
p n! n
Cn = = = = .
p! p! p!(n − p)! p

42
Exemple: Le nombre de combinaisons sans répétition de 2 éléments parmi les
5 de {1, 2, 3, 4, 5} est :
 
2 5 5×4
C5 = = = 10.
2 2
Vérification : ces combinaisons sont :
{1, 2}, {1, 3}, {1, 4}, {1, 5}, {2, 3}, {2, 4}, {2, 5}, {3, 4}, {3, 5}, {4, 5}.
7. Combinaisons avec répétition
Soit un ensemble non vide E = {a1 , a2 , · · · , an }, formé d’éléments discernables. On note
Card E = n.
Définition 4.1.7. On appelle combinaison avec répétition de p éléments parmi n toute
disposition non ordonnée, avec répétition éventuelle, formée de p éléments pris parmi
les n éléments de E. Par exemple, {a1 , a3 , a3 , · · · , ak }. Autrement dit Le nombre de
possibilités de répartir p objets identiques dans n cases est donné par :
p
Knp = Cn+p−1 .

Valeur :
Le nombre de combinaisons avec répétition de p éléments parmi n est donné
par :  
p p n+ p−1 (n + p − 1)!
Kn = Cn+p−1 = = .
p p!(n − 1)!
Exemple : Le nombre de combinaisons avec répétition de 2 éléments pris dans
{1, 2, 3} est :
K32 = 6.
Vérification : ces combinaisons sont :
{1, 1}, {2, 2}, {3, 3}, {1, 2}, {1, 3}, {2, 3}.
Exemple 4.1.1. Soit f une fonction à 2 variables dérivable. Le nombre de dérivées
partielles d’ordre 3 de f est égal à :
K23 = C2+3−1
3
= 4.
Exemple 4.1.2 ( Le nombre de pièces dans un jeu de dominos). Un domino est une 2-
combinaison avec répétition de l’ensemble E = {blanc, 1, 2, 3, 4, 5, 6}. Chaque domino
est représenté par deux résultats de E. Le nombre de pièces dans un jeu de domino est
donc :
K72 = C7+2−1
2
= 28.
Exemple 4.1.3. Une université désire répartir 10 enseignants sur 3 facultés. De combien
de façons peut-on répartir ces enseignants ?
Rappel : Pour n ∈ N∗ , le nombre appelé factorielle n! est le produit des n premiers entiers
non nuls :
n! = 1 × 2 × 3 × · · · × (n − 1) × n.
Par convention, on a 0! = 1. Ce nombre croît très rapidement lorsque n augmente. Par
exemple, 10! = 3628800. Dès que n dépasse 10, on utilise la formule d’approximation
de Stirling :  n n √
n! ≈ 2πn.
e

43
4.2 Propriétés des combinaisons Cnp
1. La symétrie:
Pour tous n et p ∈ N, tels que p ⩽ n, on a Cnn−p = Cnp .
Valeurs à connaître :
Cn0 = n0 = 1
Cn1 = n1 = n
Cn2 = n2 = n(n−1)

2

2. Le triangle de Pascal:
Formule de Pascal:
p
Pour tous n et p ∈ N, tels que p ⩽ n − 1, on a Cnp = Cn−1 p−1
+Cn−1 (Réfléchir à une démon-
stration sans calcul).
On en déduit le triangle de Pascal :

p 0 1 2 3 4 5 6
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
6 1 6 15 20 15 6 1

Il en découle la formule du binôme de Newton :


  n
n n k n−k
(a + b) = ∑ ab
k=0 k

En posant dans cette formule a = b = 1, on obtient 2n = ∑nk=0 nk .




D’où la valeur de Card P(E), où E désigne un ensemble à n éléments :

Card P(E) = 2n

Remarque 4.2.1. on déduit un certain nombre de formules de la formule du binôme de


Newton.
A titre d’exemple, on pourra essayer de démontrer :

n  
n
k
∑ (−1) k = 0
k=0
E ( 2n )  
n
∑ 2k = 2n−1
k=0

44
Français Dénombrement
Successivement Ordonnés
Simultanément Non ordonnés
Avec remise Avec répétition
Sans remise Sans répétition

Table 4.1: Lexique Français vs Mathématique


Tirages Ordonnés Non Ordonnés
Avec remise nk Knk = Cn+k−1
k

Sans remise Akn Cnk

Table 4.2: Tirage de k éléments parmi n


Objets Discernables Indiscernables
Éventuellement plusieurs dans chaque case nk Knk = Cn+k−1
k

Un seul dans chaque case Akn Cnk

Table 4.3: Rangement de k éléments dans n cases

4.3 Bilan

Exemple
Considérons trois objets : a, b et c (n = 3). Nous souhaitons sélectionner p = 2 objets parmi a,
b et c. Nous avons les cas suivants :
1. **Sans répétition et sans ordre :**
(a, b), (a, c), (b, c)
Le nombre de combinaisons sans répétition est donné par :
C32 = 3
2. **Sans répétition et avec ordre :**
(a, b), (a, c), (b, c), (b, a), (c, a), (c, b)
Le nombre d’arrangements sans répétition est donné par :
A23 = 6
3. **Avec répétition et sans ordre :**
(a, b), (a, c), (b, c), (a, a), (b, b), (c, c)
Le nombre de combinaisons avec répétition est donné par :
K32 = C3+2−1
2
= C42 = 6
4. **Avec répétition et avec ordre :**
(a, b), (a, c), (b, c), (b, a), (c, a), (c, b), (a, a), (b, b), (c, c)
Le nombre d’arrangements avec répétition est donné par :
32 = 9

45

Vous aimerez peut-être aussi