Chapitre 1 PDF

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 36

CHAPITRE -1- : Les distributions statistiques à une seule dimension

Objectif
L'objectif de la présentation des notions préliminaires et des distributions statistiques à une
seule dimension étant de permettre au lecteur de se familiariser avec le vocabulaire statistique
d'une part, et d'apprendre à faire parler et visualiser les chiffres d'autre part.

Section 1 : Notions préliminaires


I. LA STATISTIQUE ET LES STATISTIQUES
On ne doit pas confondre entre la statistique et les statistiques.
Définition des statistiques :
Les statistiques désignent tout ensemble de données chiffrées relatives à un
phénomène donné et recueillit en général par des organismes spécialisés.

Exemples :
- La Banque Centrale de Tunisie publie régulièrement l’évolution de la
masse monétaire.
- Le Centre des Chèques Postaux publie annuellement l’évolution de la
monnaie scripturale postale ainsi que l’épargne auprès de la Caisse
d’Epargne Nationale de Tunisie (la CENT).
- L’Agence Tunisienne de l’Emploi (ATE) suit l’évolution mensuelle des
demandes et offres d’emploi.
- L'Institut National de la Statistique (INS) publie régulièrement des
statistiques sur les naissances et les décès, sur le commerce intérieur et
extérieur, le tourisme, le transport, les loisirs …
- Les services de douane, détiennent des statistiques ciblées telle que la
valeur des marchandises qui sont importés par voie régulière des pays
étrangers chaque année.
- Les services de santé publient des statistiques sur le nombre de personnes
hospitalisées dans les hôpitaux.
Les statistiques sont fournies selon plusieurs critères tels que l'âge, la région….
Par contre la statistique est toute autre chose, c'est une méthode de raisonnement d'interpréter
le genre de données très particulier qu'on rencontre dans les sciences de la vie dont le
caractère essentiel est la variabilité

Définition de la statistique :
la statistique est la science, c'est à dire l'ensemble des techniques qui consiste à étudier
ces données chiffrées afin de répondre à certaines questions relatives aux phénomènes
étudiés.

Exemple d'étude statistique:

On peut se poser des questions du genre :


- Quelle est la relation entre les bureaux de poste et la création de la monnaie
postale ?
- Quel type de relation pourrait exister entre les événement nationaux ou
internationaux et le tirage des timbres postaux ?
- Quelle est la relation entre le nombre d’abonnés à Internet et la création de
monnaie électronique (edinar) ?
- Quels sont les pourcentages d'entreprises défaillantes et celles bénéficiaires
?
- Quels sont les facteurs influant les défaillances de l'entreprise ?
- Le résultat de l'exercice est-il conforme avec la taille de l'entreprise ?
- La performance est elle en relation avec l'organisation interne de
l'entreprise, ou avec le savoir faire du manager (gestionnaire) ?
A toutes ces questions, la statistique permet d'apporter une réponse qui ne peut être
catégorique. On ne peut pas tirer des conclusions avec certitude, même si l'on approche le
phénomène à étudier avec le maximum de précision pour le gestionnaire lui permettant et
l'aidant dans la prise des décisions grâce aux méthodes de prévision du futur. La statistique
ne peut se substituer au manager mais lui permet de guider au mieux ses actions dans l'avenir.

II. LA METHODOLOGIE STATISTIQUE :


Nous allons étudier à présent le déroulement d'un travail utilisant la statistique comme
démarche méthodologique :
Les grands domaines de la statistique.

SCHEMA : la méthode statistique


SCHEMA : la méthode statistique

Phénomène à étudier ( TABAGISME)


La problématique : ensemble de questions

Définir 2 éléments

- population
- caractère à observer

l'observation ou le recueil de l'information

analyse de l'information

description statistique des données l'induction statistique

- statistique descriptive - la statistique mathématique


- analyse des données - l'économétrie

1) Tout le travail statistique commence par la définition précise du phénomène à étudier. C'est
un ensemble de questions auquel l'étude doit permettre de répondre

2) Une fois le problème définit, la 2ème étape est de délimiter avec précision la population
concernée par l'étude et les caractères à observer.

* Est-ce une étude exhaustive concernant la totalité de la population ?


* Est-ce une étude intéressant une partie de la population ?

Il se pose alors le problème de choix des unités qui seront observées en échantillon; là
interviennent les techniques d'échantillonnage ou de sondage qui permettent de prélever un
échantillon sur la population ciblée.
Question : Comment sélectionner les unités qui constituent l'échantillon ?

3) Une fois l'information recueillie, deux ensembles de technique sont utilisées simultanément
ou successivement pour permettre de répondre aux questions posées concernant le phénomène
étudié

* Les techniques de description statistique


* Les techniques de l'induction statistique

a- La description statistique :

La description statistique est définie comme étant la démarche qui permet de représenter, de
résumer un ensemble, d'y constituer des associations (relation entre variables). Chacun des
termes de la définition désigne un ensemble de méthodes qui sera développé à travers ce
cours.

Exemple 1: Le calcul d'une moyenne résumant une série de nombres


Exemple 2 : L'ajustement et la corrélation permettant de vérifier l'existence d'une éventuelle
relation ou association entre deux variables.

Les techniques de la description statistique sont conventionnellement regroupées en deux


ensembles dont la séparation est purement formelle.

* La statistique descriptive qui permet de traiter une ou deux variables à la fois


* L'analyse des données qui permet de traiter plusieurs variables à la fois, c'est donc une
extension de la statistique descriptive qui a été rendue possible par le prodigieux
développement des ordinateurs.

b- L'induction statistique :
Le terme induction désigne la méthode de raisonnement qui permet (consiste) d'aboutir du
particulier au général.
Définition :

L'induction statistique est définie comme étant la démarche qui, à partir de l'observation
nécessaire dans l'espace et dans le temps d'un phénomène, permet de porter un jugement en
probabilité d'un phénomène sur un plan plus général.

Exemple :

1- L'économétrie : C'est l'utilisation des méthodes de l'induction statistique, en


particulier des théories de destinations et des tests, dont la vérification des relations
que la théorie économique permet de poser en hypothèse.

Exemple 1 : La consommation comme une fonction du revenu : C= f ( R )


Consommation = α R + C°
relation qui peut exister entre le montant de la consommation d'un ménage et le
montant de son revenu

Exemple 2 : Investissement = fonction de profit : I = f (π )

I = aπ + b => Equation linéaire

2- Estimation par intervalle de confiance : On désire avoir une information sur la part
moyenne p de leurs revenus que les tunisiens consacrent aux dépenses de transport.
Après avoir définit ce qu'on entend par dépense de transport, on décide
d'interroger un échantillon de 5000 tunisiens sur la part de leurs revenus consacrée au
transport. Etant donnée l'information, on peut se poser la question suivante: Peut-on
donner un intervalle [ a , b] telle que la part p (inconnue) ait 99 chances sur 100 d'être
reprise entre a et b.

III. DEFINITION DE LA STATISTIQUE DESCRIPTIVE : Le concept de base

a- Données statistiques :
On appellera données statistiques un ensemble de mesures observé sur une population donnée
relativement à un ou plusieurs caractères.

b- Ensemble ou population :

Une population est un ensemble d'individus ou d'unités statistiques. Une population au sens
statistique n'est pas nécessairement un ensemble d'êtres humains, elle peut être constituée de
n'importe quel ensemble d'objets concernés par l'étude.
c- Echantillon :

Selon des dictionnaires pratiques de mathématiques et de statistiques, l'échantillon est


l'ensemble d'individus prélevé dans une population par un choix au hasard. La probabilité
pour qu'un individu appartenant à la population soit choisit comme l'un des éléments de
l'échantillon est la même que pour tout autre individu.

SCHEMA : Comment prélever un échantillon sur la population.

Population concernée par l'enquête


cible

toute la population : enquête une fraction de la population :


exhaustive enquête par sondage

base de sondage constitué par base de sondage constitué par


des individus des groupes d'individus :
sondage en groupes

tirage direct: sondage tirage sur une base stratifiée: sondage stratifiée
élémentaire

Identification des personnes à enquêter


Selon qu'on enquête auprès de toute la population ou d'une fraction de la population, on
distingue:

* Les enquêtes exhaustives, dans ce cas tous les individus de la population sont enquêtés.
* Les enquêtes par sondage : on enquête sur échantillon pour que les information recueillies
sur l'échantillon puissent être généralisées à l'ensemble de la population, il faut que cet
échantillon soit représentatif de la population dont-il est issu. Pour respecter cette clause de
représentativité, le seul moyen est de constituer cet échantillon par tirage au sort : c'est le
sondage aléatoire.
Pour effectuer un tirage au sort, il faut disposer d'une liste appelée : Base de sondage
Elle doit être complète:
- ne comportant pas d'omission
- ne comportant pas de répétition
- contenant des informations permettant de retrouver l'individu (ou la grappe d'individus) tiré
au sort.

Selon la nature de la liste, on distingue :

- les sondages élémentaires : Il s'agit d'un tirage au sort, c'est une base constituée par des
individus.
- le sondage en grappe : tirage au sort, c'est une base, exemple : enquête sur la pré-balance du
diabète effectuée par un sondage en grappe dans le gouvernorat de Tunis, chaque ménage est
un groupe d'individus.
- les sondages stratifiés : c'est une variante de sondage en stade homogène constituée selon un
critère déterminé, on effectue le tirage non sur l'ensemble de la population mais dans chaque
stade séparément.
Exemple :

Sondage sur une base stratifiée selon l'âge. L'opération consiste à diviser la population en
fonction de l'âge de l'individu et à tirer au sort dans chaque tranche d'âge.

d- Individu ou unité statistique :


L'élément composant la population ou l'ensemble à étudier est appelé unité statistique.

e- Notion du caractère statistique:

Les données relatives à une population sont des mesures portant sur un ensemble de
caractères. Un caractère c'est un aspect observable du phénomène étudié (on dira aussi une
dimension du phénomène), c'est donc l'élément retenu pour spécifier un phénomène étudié.

Exemple :

Si l'on s'intéresse au phénomène examen du bac, année 2001, la population étudiée est donc
l'ensemble des élèves qui a passé cet examen. On peut mesurer sur chaque individu,
population (∑ des élèves ayant passé l'examen) des différents caractères.
Les caractères étudiés : Age, poids, taille, couleur des yeux, note en maths, sexe, profession
du père, gouvernorat d'origine, état civil, …..etc, chaque caractère est définit par l'ensemble
de ses modalités.

f- Modalité d'un caractère :

* Les modalités d'un caractère sont les différents états possibles ou les différentes situations
possibles du caractère, exemple : le caractère sexe a deux modalités féminin et masculin.
* Le caractère moyenne au bac a un nombre infini de modalités à l'intérieur de l'intervalle [0 ,
20].

Selon que les modalités d'un même caractère différent entre elles par leurs natures, leurs
intensités on classera les caractères en deux catégories qui sont les caractères qualitatifs et les
caractères quantitatifs.

g- Caractères qualitatifs :

Un caractère qualitatif est un caractère dont les modalités diffèrent par leur nature donc les
modalités ne peuvent être mesurées, elles peuvent seulement être identifiées et constatées
comme la couleur des yeux, groupe sanguin, gouvernorat d'origine….
La liste des modalités d'un caractère qualitatif constitue une nomenclature, elle doit vérifier
deux conditions techniques :
- elle doit être collectivement exhaustive, pas d'omission,
- elle doit être mutuellement exclusive c'est à dire que chaque individu doit pouvoir être classé
dans une catégorie et une seule (pas d'exception).

h- Caractères quantitatifs :

Ce sont ceux dont les modalités ne diffèrent pas par leur nature mais par leur intensité comme
le poids, la taille, l'âge, le revenu, ce sont les caractères mesurables, quantifiables.
On distingue deux catégories de caractères quantitatifs :

* Les caractères quantitatifs discrets : Ce sont les caractères qui ne peuvent prendre que les
valeurs isolées dans un intervalle donné, on les appelle aussi discontinus.

* Les caractères quantitatifs continus : Ce sont des caractères qui peuvent prendre n'importe
quelle valeur dans des intervalles [a,b] donnés.

Les caractères qualitatifs ou quantitatifs sont appelés variables statistiques, on distingue


ainsi :
- les variables qualitatives ou variables nominales qui correspondent aux caractères
qualitatifs.
- Les variables quantitatives discrètes ou discontinues qui correspondent aux caractères
quantitatifs.
- Les variables qualitatives continues qui correspondent aux variables à caractères quantitatifs.

IV. LES SOURCES DE L'INFORMATION STATISTIQUE EN TUNISIE :


Les différentes étapes d'une étude statistique descriptive sont :

1- La collecte de l'information (source directe = document statistique et source indirecte


= enquête : questionnaire).
2- Représentation graphique
3- Résumé de l'information (calcul des indicateurs de position, de concentration, de
dispersion, ou de tendance centrale)
4- Interprétation des résultats → Méthode de l'induction

A/ Méthode indirecte de collecte de l'information : le questionnaire d'enquêtes

B/ Méthode directe de collecte de l'information : les documents

Les principales sources statistiques relatives à la Tunisie sont constitués essentiellement par :

* Les publications de l'Institut National de la Statistique (INS)


* Les publications de certains services statistiques administratifs (le service des statistiques routières d
direction des ponds et chaussés, l'office de tourisme, l'agence tunisienne de l'emploi, le ministère
développement économique, la banque centrale……
Quant aux entreprises, les rapports et les documents comptables qu'elles publient sont d'une man
périodique (bilan, compte d'exploitation générale).
Les publications les plus importantes sont :

- les bulletins mensuels de statistiques


- l'annuaire statistique de Tunisie
- l'économie de la Tunisie en chiffres
- statistiques du commerce extérieur de la Tunisie
- recensement de l'activité industrielle
- statistiques d'état civil
- situation du parc automobile et tracteur

Les publications sont périodiques et fournissent des séries statistiques portant sur des domaines variés d
vie économique et sociale. Outre ces périodiques, il y eu également création par l'INS d'une revue tunisie
d'économie et statistiques en matière d'activité industrielle, l'INS entreprend annuellement depuis 196
publication d'un recensement des activités industrielles, c'est une enquête menée à l'aide d'un questionn
envoyé par voie postale aux entreprises industrielles de plus de 10 employés pour recueillir des informati
sur l'emploi des salariés, la production les achats de matières premières et de produits intermédiaires,
statistiques et les investissements réalisés au cours de l'année.
Deux enquêtes sont réalisées assez régulièrement par l'INS : il s'agit d'une enquête sur la consommation
ménages et une autre relative aux recensements de la population tunisienne.

1) Les enquêtes de consommation et de budget de famille poursuivent essentiellement l'un


ou les deux objectifs suivants :
* L'étude de la structure des dépenses de famille : (budget)
* L'étude de la consommation alimentaire (nutrition)
Les résultats d'une telle enquête permettent généralement d'approcher de façon quantitative la distribut
des revenus au sein de la population. En effet, à l'exception des ménages à revenu élevé pour lesquels,
revenu est égal à la consommation + l'épargne : R = C + Ep, le reste des ménages utilise la totalité
revenu en consommation. Les enquêtes de consommation se font sur un échantillon de la population dont
veut étudier les habitudes de consommation. Les opérations d'enquête consistent en des visites souv
quotidiennes aux ménages durant lesquelles les enquêteurs procèdent par intervenir à la détermination d
structure des dépenses, en particulier alimentaires.

2) Les enquêtes de recensement de population et des logements :


Elles fournissent des résultats globaux et par région relatifs à la population des ménages et
logements (logements, démographie, économie et migration, emploi et chômage dans les milieux rura
urbain)
Plusieurs recensements ont eu lieu et remontent au milieu du siècle dernier avec le recensement de l'emp
ottoman
Le premier recensement général de l'ensemble de la population en Tunisie a eu lieu en 1921.
Les recensements les plus récents sont ceux de 1966, 1975, 1984 et 1994.

Section 2 : Les distributions statistiques à un seul caractère

Nous avons vu dans la section précédente qu'une étude statistique consiste à étudier le
caractère commun des éléments d'une population.
L'information statistique quelle qu'en soit la nature est en général recueillie sous forme
de données individuelles, c'est à dire comme une suite d'enregistrements, chaque
enregistrement est relatif à un individu.
Un tel ensemble d'enregistrements constitue les données individuelles brutes qui sont
publiées sous forme de tableaux, mais lorsque le nombre d'unités décrit est assez élevé, le
tableau deviendrait illisible et sans intérêt, c'est pour cette raison qu'on recourt à un
regroupement des données, on parle alors de distributions statistiques.

Définition :
Une distribution statistique est une répartition de la population observée selon les différentes
modalités du ou des caractères retenus.
Les distributions statistiques à un seul caractère sont dites à une dimension, ces distributions
peuvent faire l'objet d'une présentation sous forme de tableau dit tableau à une seule
dimension ou encore tableau à une simple entrée.
Les distributions statistiques peuvent aussi faire l'objet d'une représentation graphique, ce qui
a l'avantage par rapport à la représentation sous forme de tableau de permettre une lecture
immédiate des traits dominants. Les méthodes de construction des tableaux et les modèles de
représentations graphiques diffèrent selon la nature qualitative, quantitative discrète ou
quantitative continue du caractère étudié.

I/ REPRESENTATION DES CARACTERES QUALITATIFS OU VARIABLES


STATISTIQUES NOMINALES :

1) Tableaux statistiques :

Soit C un caractère qualitatif comportant k modalités notées m1 , m2 , m3 ,.........., mk , l'ensemble


des modalités d'un caractère est aussi appelé nomenclature associé aux modalités d'un

caractère nommé mi , i ∈ {1, ……..…. k ,}

Soit une population P de x individus sur laquelle on a observé un caractère donné.


Soit ni le nombre des individus de la population qui présente la modalité mi qui est appelée

effectif de la modalité mi et qui est le nombre de répétition de la modalité ni .

∑n =
i =1
i n , n = effectif total = nombre d'observations.

Définition :
On appelle tableau statistique de la population P décrite selon le caractère C : le tableau des

couples (mi , ni ) .

Modalités mi Effectifs ni

m i n i

m 2 n 2

m 3 n 3

:
:

m i n i

Total n = effectif total

Définition :

On appelle fréquence de la modalité mi le rapport :

ni
fi = →%
n

k
pi = 100 f i ∑f
i =1
i =1

∑ p = 100
i =1
i

Remarque :
On parle de fréquence relative, l'effectif est donc la fréquence absolue.
La somme des fréquences relatives est égal à 1.

Exemple :
Répartition des téléphones mobiles selon la marque
Population (P) = les téléphones mobiles
Caractère (C) = la marque
 Nokia

Modalités mi =Siemens
Sony
 Ericson

Modalités Fréquence: f i P i : pourcentage %

Nokia 0,710 71
Siemens 0,146 15
Sony 0,055 6
Ericson 0,089 8
Total 1,000 100

Exercice :
A partir du recensement de la population et de l'habitat effectué par l'I.N.S en 1994,
donner la population, le caractère, et les fréquences de la répartition des logement en
Tunisie selon le type de logement.

2) Représentation graphique :

Les caractères qualitatifs sont généralement représentés par :


* Le diagramme en secteurs circulaires
* le diagramme en tuyaux d'orgues ou à colonnes ou en barres
* les diagrammes figuratifs ou diagrammes d'informations

a- Le diagramme en secteurs circulaires :

La distribution est représentée par un cercle qui est divisé en k secteurs ( un secteur par
modalité du caractère) la superficie et par conséquent l'angle de chaque secteur étant
proportionnel à l'effectif de la modalité (ou à la fréquence), l'angle θ i du secteur associé à la

modalité mi est égal :


θ i
= 360° × f i

Exemple :

Emploi par branche d'activité en 1994

Modalité fi θi Cumul

Primaire 0,216 77,76 77,76°


Secondaire 0,344 123,84 221,6°
Tertiaire 0,440 158,40 360°
Total 1,00 360°

Digramme en secteurs circulaires

Primaire

Tertiaire

Secondaire

Exercice :
- Reprendre Le graphique pour représenter la répartition de la population occupée issue de
l'enseignement supérieur par grands secteurs.
Modalité 1984 1994
Primaire 1500 2663
Secondaire 9370 18604
Tertiaire 56610 136096
Non déclaré 2050 2541
Total 69530 159904
INS / R G P H : 1984 ; 1994

b- Diagramme en tuyaux d'orgue ou à colonnes ou en barres :

En abscisse il faut noter successivement les différentes modalités de caractère, en ordonné, il


faut porter en face de chaque modalité la valeur de l'effectif ou de la fréquence et non les deux
en même temps.
Les différentes modalités sont représentées par des rectangles dont la base est la même
quelque soit la modalité, et la hauteur est proportionnelle à l'effectif ou à la fréquence, les
distances entre les rectangles doivent être les mêmes quelque soit la modalité (pour
différencier entre l'histogramme et le diagramme en barres)

Exemple :

La représentation d'emploi par branche d'activité (INS 1984)

m i
fi

P 0,216
S 0,344
T 0,44
Total 1
Diagramme en tuyaux d'orgues

0,5
0,4

0,3

0,2

0,1
0
Primaire Secondaire Tertiaire
Branche d'activité 0,216 0,344 0,44

Exercice :

Reprendre les données de l'exercice ci-dessus pour représenter les diagrammes en barres.

Remarques :

* Parfois on oublie de dessiner l'axe mi (abscisse)


* Comme tous les rectangles ont la même base l'aire de chaque rectangle est proportionnelle à
l'effectif de la modalité correspondante

Haut
P

S
T

Bas

c- Le diagramme figuratif ou diagramme d'information :

On utilise parfois des illustrations pour figurer la distribution du caractère qualitatif.


Les figures utilisées doivent représenter clairement les objectifs en question, les grandeurs des
objets ne doivent pas être figurées par des dessins différents

Exemple :

P = 0,216 Primaire
S = 0,344 Secondaire
T= 0,440 Tertiaire

Inconvénient : inexactitude de telle représentation, impression des illustrations.

II/ REPRESENTATION DES CARACTERES QUANTITATIFS DISCRETS OU


VARIABLES DISCRETES :

Une variable statistique est discrète si l'ensemble des valeurs possibles est un ensemble
discret c'est à dire un ensemble de valeurs isolées, cet ensemble est constitué en général par
des nombres entiers.
Définition : On appelle série numérique un ensemble de nombres, elle peut comporter
indéfiniment des nombres positifs, négatifs ou les deux à la fois. Dans une série numérique,
lorsque les nombres sont disposés en ordre croissant (ou décroissant) c'est à dire lorsque de la
gauche vers la droite chacun des nombres est plus petit (ou plus grand) que son voisin, on dit
que la série est ordonnée.

1) Fréquences ou effectifs :
Le nombre de fois que se rencontre une même valeur dans une série numérique est appelé
fréquence.

Exemple :

13 2 17 3 6 1 1

mi ni

1 4 ← Fréquence absolue ou effectif


2 1
3 2
6 1
7 1
total 9

Effectif total = 9 = nombre des observations = ∑ ni = n

2) Table de fréquences d'une série numérique :

Dans une table de fréquences on prend les valeurs discrètes d'une série numérique et on leur
fait correspondre l'effectif.
Pour construire la table de fréquences :
* on commence par repérer les valeurs distinctes contenues dans la série de valeurs
* on ordonne ces valeurs
* on calcule la fréquence ou l'effectif de chacune des valeurs distinctes
* on dispose les résultats obtenus dans un tableau dans lequel on fait correspondre les valeurs
des effectifs.

Exemple :

Série numérique représentant des notes de 15 étudiants

Etudiant Note Modalité mi Effectif : ni

1 4 2 1
2 2 3 1
3 8 4 2
4 9 5 3
5 6 6 4
6 5 7 2
7 7 8 1
8 3 9 1
9 6 Total 15 effectif total
10 5
11 5
12 6
13 7
14 6
15 4
Total

Cas général : La présentation générale sous forme de tableau

On met le titre ainsi que l'unité :

Modalité mi Effectif ni Fréquence fi

m n n1
i i f1 =
n

m n n2
2 2 f2 =
n

m n 3
:
3

: :
: : :

m n nk
k k fk =
n
Source : exemple : Bulletin mensuel de statistique

3) Fonction de répartition : effectif et fréquence cumulés croissant et décroissant

Pour les caractères quantitatifs discrets (et continus) ayant des modalités naturellement
ordonnées, on introduit une notion importante : la fonction de répartition
Notation : X : désigne le caractère quantitatif, x : valeur particulière du caractère

Définition :
La fonction de répartition d'un caractère quantitatif est la qualité

F (x ) = P[X 〈 x ]∈ [0,1]

Où P[X 〈 x ] , P est la proportion des individus de la population ayant une valeur du caractère

inférieur à k .
Les considérations suivantes découlent immédiatement de la définition :
1- F est définit ∀x ∈ {mi }

2- F (m2 ) = P[x〈 m2 ] = P[x ≤ m1 ] = f1


3 - F (m3 ) = P[x〈 m3 ] = P[x ≤ m2 ] = f1 + f 2
.
.
F (m3 ) = P[x〈 mk ] = P[x〈 mk −1 ] = f1 + f 2 + f 3 + ........... f k −1

F (x ) = 1 ∀ x〉 mk

Remarques :

* La grandeur F (mi ) est appelée fréquence cumulée croissante de la fréquence mi, ces

grandeurs peuvent être portées sur une colonne du tableau et notées F (x ) ↑ (la flèche ↑
veut dire fréquence croissante)
* On peut définir de la même manière des effectifs cumulés
N (x ) = N (X 〈 x ) = nombre d'individus ayant une valeur 〈 x .

∑n
i =1
i =n

* On définit aussi des fréquences et des effectifs cumulés ↓ de la manière suivante : c'est la
fonction cumulative ↓ : G (x )

G (x ) = P[X ≥ x ] ( G (x ) : Proportion des individus ayant une valeur de la variable)


* N (x ) = N [X ≥ x ] → nombre d'individus.

Définition:
La fréquence absolue (ou relative) cumulée est la somme de la fréquence absolue (ou
relative) correspondant à la valeur et des fréquences absolues (ou relatives) des valeurs
antérieures de la série.
Exemple :

Nombre d'enfants à charge dans un ménage

mi ni n i
↑ n i
↓ fi fi ↑ fi ↓

1 6 6 20 6 0,3 1
= 0,3
20
2 8 14 14 0,4 0,7 0,7
3 3 17 6 0,15 0,85 0,3
4 3 20 3 0,15 1 0,15
Total 20 1

a- La fonction de répartition croissante : F ↑ (x ) : F (x ) = P[X 〈 x ]

F (X 〈1) = F (X ≤ 0 ) = F (0 )

F (X ≤ 1) = F (X 〈 2) = 0,3 N (X ≤ 1) = 6

F (X ≤ 2 ) = F (X 〈3) = 0,7 N (X ≤ 2 ) = 14

F (X ≤ 3) = F (X 〈 4) = 0,85 N ( X ≤ 3) = 17

F ( X ≤ 4 ) = F ( X 〈5 ) = 1 N (X ≤ 4 ) = 20

b- La fonction de répartition décroissante G ↓ (x ) : G (x ) = P[X ≥ x ]

G (X ≥ 1) = G (X 〉 0) = 1 N (X ≥ 1) = 20

G (X 〉1) = G (X ≥ 2 ) = 0,7 N (X 〉1) = 14

G (X 〉 2) = G (X ≥ 3) = 0,3 N (X 〉 2) = 6
G (X 〉 3) = G (X ≥ 4 ) = 0,15 N ( X 〉 3) = 3

G (X 〉 4 ) = G ( X ≥ 5) = 0 N (X 〉 4) = 0

c. Conclusion :

Ces deux fonctions F et G sont complémentaires

G (X ≥ 1) + F (X 〈1) = 1 + 0 = 1
G (X ≥ 3) + F (X 〈3) = 0,3 + 0,7 = 1

d- Représentation graphique :

La représentation graphique des caractères quantitatifs discrets donne lieu en général


à deux représentations graphiques qui sont :

* Le diagramme différentiel qui est une représentation de la distribution elle-même


(effectif et fréquence) qu'on appelle diagramme en bâtons.
Il est complété par le polygone de fréquences.

* Le diagramme intégral qui est une représentation de la fonction de répartition


appelée courbe cumulative.

∼ Dans un système d'axe on portera en abscisses les valeurs de la variable et en


ordonnés les fréquences ou les effectifs, la hauteur de chaque bâton est proportionnelle
à l'effectif ou à la fréquence, la ligne brisée qui relie les extrémités des segments du
diagramme en bâtons est appelé polygone de fréquences

∼ Le diagramme intégral ou représentatif de la fonction de répartition est une courbe


en escalier.
Nom bre d'enfants à charge
dans un m énage
10
8

6
Nombre de ménages

3 3

1
1 2 3 4
Nombre d'enfants

Polygone de fréquence

III/ REPARTITION DES CARACATERES QUANTITATIFS CONTINUS OU


VARIABLES CONTINUES :

Exemple : Taille en cm

155, 174, 156, 154, 150, 157, 152, 170, 175, 156, 172, 155, 164, 184, 170, 174, 160, 162, 163,
164.

* 150→1, 152→1, 154→1, 155→2, 156→2, 157→1, 160→1, 162→1, 163→1,164→2,


170→2, 172→1, 174→, 175→1, 184→1, = /20

mi ni

150-154 3 L'amplitude de la classe = pas de la classe


155-159 5 = intervalle de la classe
160-164 5
165-169 0 [ei −1 − ei ) = ei − ei −1 = 154 − 150 = 4
170-174 5
175-179 1
180-184 1
Total 20

Une variable est continue si elle est susceptible de prendre n'importe quelle valeur a, b donnée
de IR. Lorsqu'on passe de l'examen d'une variable discontinue à celui d'une variable continue,
un problème nouveau apparaît, celui de la constitution de classes de branches de valeurs
possibles (ce sont des modalités de caractères).

1) Définition des modalités et tableau statistique d'une variable statistique :

Si l'on considère un ensemble de valeurs individuelles pour un nombre d'individus


relativement à une variable continue, il arrive que le nombre de valeurs possibles différentes
observées sont élevées pour que l'on puisse considérer comme une modalité à part chacune de
ces valeurs, le tableau statistique correspondant serait sans intérêt, c'est pourquoi il est d'usage
dans le souci d'une présentation claire et synthétique de remarquer l'ensemble des modalités
possibles en un nombre de modalités chacune constituée par un sous intervalle de
l'intervalle[a,b], pour réduire au maximum l'arbitraire certaines règles doivent être observées.

a- Le nombre de règles à adopter dépend de la précision de la mesure que l'on désire atteindre
et de l'effectif de la population étudiée, en regroupant les classes on perd de l'information, on
perd le détail relatif à chaque individu.

b- L'intervalle ou amplitude ou pas de la classe peut être constant ou variable.

Définition :

* on appelle intervalle, amplitude ou pas de la classe la différence entre le nombre supérieur


de la classe et le nombre inférieur. Exemple : [n, m] → = m−n
n+m
* le centre d'une classe n à moins m est égal à
2
c- Afin d'éviter le chevauchement d'une classe sur l'autre, la convention généralement adoptée
est de comprendre dans chaque classe sa limite inférieure et donc exclure sa limite supérieure
([ei , ei −1[) mais il est à remarquer qu'on peut avoir aussi d'autres possibilités tels que des

intervalles ouverts à gauche et fermés à droite (]ei , ei −1 ])


- Un autre cas pourrait se présenter également, fermer des deux cotés du type
[ei −1, ei ] et l'intervalle suivant sera [ei +1, ei + 2 ] , or le caractère est quantitatif continu donc ce qui
existe entre ei et ei +1 sera réparti de la manière suivante :

e i −1 e i e i +1 e i + 2
      →
ei + ei +1
on calcul le centre de classe (c ) =
2
 e +e 
ce qui existe ei , i i +1  ∈ [ei −1, ei ]
 2 

 ei + ei +1 
 2 , ei +1  ∈ [ei +1 , ei + 2 ]
 

d- Il faut toujours veiller à conserver l'intégrité des renseignements recueillis dans la


documentation de base et ne constituer que des groupes homogènes, les classes doivent être
collectivement exhaustives, pas d'oublie.

e On utilise la convention suivante pour représenter la première classe (moins de) et la


dernière classe (plus de) :

* si les autres classes de la série ont la même amplitude on affecte celle-ci à la première et à la
dernière classe
* si les autres classes de la série ont des amplitudes différentes on affecte à la première classe
( moins de ) l'amplitude de la seconde et à la dernière classe l'amplitude de l'avant dernière.

Titre Unité
mi ni fi
[e0 − e1[ n i
n1
n
[e1 − e2 [ n 2
n2
n
[e2 − e3 [ n 3
n3
n
[ei −1 − ei [ n i
ni
n
: : :
: : :
[ek −1 − ek [ n k
nk
n

Total n 1

2) La représentation graphique :

Comme pour les caractères discrets, la représentation graphique donne lieu à un diagramme
différentiel, diagramme intégral = diagramme cumulatif.

a- Histogramme :

L'histogramme est la représentation graphique de la distribution d'un caractère continu, c'est


un ensemble de k rectangles juxtaposés (un par classe) dont la base est chaque i = (ei − ei −1 )
quant à la surface Si, elle est proportionnelle à l'effectif ou à la fréquence de la classe.

Remarque :

L'histogramme n'est valable que pour les variables continues, il montre visuellement que la
variable est continue et il n'est valable que pour une seule variable. En représentant
l'histogramme, deux observations doivent être faites :
* Lorsque toutes les amplitudes des classes sont égales, l'aire de l'histogramme est le produit
de l'intervalle de classes par la somme des hauteurs de classes, lorsqu'on représente les
fréquences absolues cette somme des hauteurs n'est autre que n.
Appelons k la mesure de l'intervalle de classe et n l'effectif total

S = n×k

* Si l'on prend la mesure de classe k = 1 et pour hauteur de chaque rectangle non la fréquence
absolue mais la fréquence relative ƒ , l'aire de l'histogramme S = 1 .

Pour des amplitudes égales, S = b × h = (ei − ei −1 ) ×h

S = (ei − ei −1 )× f i

S
= ei − ei −1 = cons tan te
fi

* Lorsque les amplitudes de classes ne sont pas égales pour tracer l'histogramme il y a lieu
d'opérer les corrections nécessaires toujours selon le principe que c'est la surface qui est
proportionnelle à l'effectif ou à la fréquence.

Exemple :
Distribution d'un ensemble d'ouvriers selon leurs salaires horaires (dans cet exemple les
amplitudes sont égales).
Salaire horaire (en dinars) X I Nombre d'ouvriers (ni )

2-3 5
3-4 8
4-5 12
5-6 6
6-7 4
Total 35
Distribution d'un ensemble d'ouvriers
selon leurs salaires horaires
14

12
12

10
Nombre d'ouvriers

8
8

6
6
5
4
4

0
[2-3] [3-4] [4-5] [5-6] [6-7]

Salaires horaires

Salaire horaire (en Nombre d'ouvriers Nombre d'ouvriers


dinars) X I (ni ) (ni ) corrigés
2-3 5 5
3-4 8 8
4-5 12 12
5-7 10 5
Total 35
Distridution d'un ensemble d'ouvriers
selon leurs salaires horaires

14

12
12

10 10
10
Nombre d'ouvriers

8
8

6
5

0
[2-3] [3-4] [4-5] [5-7]
Salaires horaires

Représentation fausse:
L'erreur est due à ce que l'intervalle de classe est passé de 1 à 2, pour corriger
cette erreur on doit ramener les classes inégales à une même valeur

Distribution d'un ensem ble d'ouvriers


selon leurs salaires horaires

14

12
12
Nombre d'ouvrier

10

8
8

6 5 5 5

0
[2-3] [3-4] [4-5] [5-7]
Salaires horaires

Représentation corrigée
Comment se fait la correction ?

Si certains intervalles deviennent plus grands c'est-à-dire si les bases sont


élargies les hauteurs doivent être réduisent dans le même rapport
élargies, les hauteurs doivent être réduisent dans le même rapport

∼ Choisir une unité d'amplitude a = PGCD des amplitudes ou la plus petite amplitude
fI
∼ Calculer les fréquences corrigées qui sont égales à f i c = avec ei − ei −1 = λa et
λ
a = inf (ei , ei −1 ) a = d’où

af i
fi c =
(ei − ei −1 )

∼ Tracer sur un système de k rectangles juxtaposés dont la base est égale à l'amplitude de
classe et la hauteur égale ou proportionnelle à la fréquence corrigée.

b- Le polygone de fréquences : (voir figure dans II)

Le segment de droite joignant les milieux de chacune des bases supérieures à ƒ constitue le
polygone de fréquences.

Remarques :

D'après la construction du polygone, il est évident que chaque côté supprime un point de
chaque rectangle mais fait apparaître un triangle au dessus du rectangle adjacent, par suite la
surface comprise entre le polygone de fréquences et l'axe des abscisses est équivalente à l'aire
de l'histogramme ou à la surface.

3) Courbes cumulatives et fonction de répartition :

F (mi ) = Proportion des individus ayant une valeur inférieure ou égale à mi

mi = ei −1 − ei , Est définit à la borne supérieure

F (mi ) = F (ei )
[ei −1, ei [ , F (mi ) = P(x〈mi ) = P[x〈ei ]
i
= ∑F
k =1
k

G (mi ) = P[x ≥ mi ] = P[x ≥ ei −1 ]

Comme les variables discrètes, la courbe cumulative est la représentation graphique de la


fonction de répartition F (x ), F (mi ) : Proportion des observations pour lesquelles la variable

statistique est inférieure à mi . Les modalités mi n'étant plus constituées par une seule valeur
comme dans le cas d'une variable discrète mais en intervalle de classe, il n'est plus en principe
possible de parler de F (mi ) . Cependant on finit par convertir les fréquences cumulées de la

modalité mi comme la valeur de la pente F à la borne supérieure de la classe [ ei −1 , ei [

[ei −1, ei [, F (mi ) = P[x〈 mi ] = P[x〈 ei ]

i
= ∑ Fk
h =1

G (mi ) = P[x ≥ mi ] = P[x ≥ ei −1 ]

Remarque :Il est aussi possible de définir l'effectif cumulé ↑ de chaque modalité de la borne
supérieure.
Exemple :
Distribution des salariés selon leurs salaires horaires
S.h xi ni ni ↑ ni ↓

2-3 5 5 35
3–4 8 13 30
4–5 12 25 22
5– 6 31 10
6-7 4 35 4
Total 35
Distribution des salariés selon leurs salaires

N
O
40
M
B
R 35 35 35
E 31
30 30
D
E 25 25
22
20
S
A
15
L 13
A
10 10
R
I
E 5 5 4
S
0 0
[2- [3- [4- [5- [6-
Salaires horaires
La fonction de répartition croissante F(x) La fonction de répartition décroissante G(x)

Remarque :

Pour tracer la courbe de fréquences cumulées croissantes on joint les bornes supérieures des
rectangles.
Pour tracer la courbe de fréquences cumulées ↓ on joint les bornes inférieures des rectangles.

Définition :

La courbe cumulative est la courbe qui passe par les couples de points (ei , F (ei )) c'est une

courbe ↑ elle est égale à zéro pour toutes les valeurs de x inférieures à la plus petite valeur de
la série et égale à 1 pour les valeurs supérieures à la plus grande valeur de la série . On note
symboliquement :

F (− ∞ ) = 0
F (+ ∞ ) = 1

Conclusion
Après avoir présenté les notions préliminaires et les distributions statistiques à une seule
dimension on peut ressentir le besoin d'utiliser certains paramètres qui nous aident à expliquer
un phénomène quelconque. Les paramètres de position ou de tendance centrale constituent
des outils statistiques souvent utilisés dans des domaines divers. Dans le chapitre suivant on
présente les indicateurs de tendance centrale les plus connus aussi bien par les chercheurs
académiques que par les praticiens tels que le mode, la médiane, la moyenne,…
Exercice n°1 :

En 2000,Les bénéficiaires de crédit auprès de la BTS de niveau d’études universitaires et


résident à Tunis appartiennent à huit principales
disciplines de formation.

discipline de formation Fréquences en %


Lettres 6,7
Sc.humaines 7,0
Sc.fondamentales 3,9
Droit 17,5
Sc.Economiques 6,7
Gestion 16,8
Sc.médicales 17,5
Sc.techniques 23,9
Total 100,0
Source : enquête Lotfi Ben Nour 2000

1) Quelle est la nature du caractère étudié ?


2) Représenter graphiquement cette distribution ?
3) Quelles conclusions apparaissent en évidence sur ce graphique ?

Exercice n°2 :
En 2000,les bénéficiaires de crédit de la Banque Tunisienne de solidarité ayant le niveau
d’études supérieures et résidant à Tunis se répartissant entre hommes et femmes par rapport
au type d’activités se présentent comme suit :
Type d’activités Hommes (en %) Femmes (en %)
Services 4,9 2,1
Médecine 11,6 6,7
Informatique 10,2 3,9
Communication 2,5 1,1
Textile et cuir 1,4 0,7
Bureaux d’études 27,5 5,3
Commerce 3,2 1,4
Bâtiment 0,7 0,7
Agriculture 1,8 0,4
Fabrication 2,8 0,4
Mécanique + électricité 4,2 0,4
Jardins d’enfants 1,1 5,3
Source : enquête Lotfi Ben Nour 2000, Micro-entreprise et financement BTS

1) Quelle est la nature du caractère étudié pour chacun de ces distributions ?


- Quelles représentations graphiques peut-on envisager ?
2) Représenter ces deux distributions sur un même graphique.
- Quelles conclusions apparaissent en évidence sur ce graphique ?
Exercice n°3 :

On considère la série statistique suivante qui fournit les notes attribuées aux candidats à un
examen pour leur épreuve de mathématiques.

Note 0 1 2 3 4 5 6 7 8 9 10
Effectif 5 5 4 4 7 11 6 2 8 3 5
Note 11 12 13 14 15 16 17 18 19 20
Effectif 5 6 9 8 4 9 2 0 1 3

Questions :
1) Quelle est la population étudiée ? le caractère ? la nature du caractère ? les
modalités du caractère ?
2) Représenter pour cette série le diagramme en bâtons des effectifs.
3) Représenter le diagramme cumulatif.
4) Déterminer le nombre et le pourcentage du candidats qui ont obtenu :
- Au plus la note 6
- Au moins la note 10
- La note 16 au plus
- Une note entre 8 et 12 (8 et 12 compris )
5) Déterminer la moyenne arithmétique, la médiane et le mode de cette série
statistique.

Exercice n°4 :
1) Donner 5 exemples pour chaque type de caractère- qualitatif- quantitatif
discret- quantitatif continu.
2) Spécifier la nature des caractères suivants :

- âge en années, mois et jours de 100 étudiants.


- âge en années révolues de 100 étudiants.
- nombre de livres par matières utiles pour un étudiant
nombre de livres par matières disponibles à la bibliothèque.

Vous aimerez peut-être aussi