Aller au contenu

« Fréquence (statistiques) » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Ipipipourax (discuter | contributions)
m Typographie
 
(61 versions intermédiaires par 33 utilisateurs non affichées)
Ligne 1 : Ligne 1 :
{{Voir homonymes|fréquence (homonymie)}}
{{Voir homonymes|fréquence (homonymie)}}
[[Fichier:Kanji strokes frequency.png|vignette|Fréquence des traits de [[kanji]]]]
En [[statistique]], la '''fréquence''' d'une classe d'observations est le quotient de l'effectif de cette classe par l'effectif total de la population étudiée. Ce nombre, compris entre 0, si la classe est vide, et 1, quand toute la population étudiée appartient à la classe, peut s'exprimer en pourcentage.
En [[statistique]], on appelle ''fréquence absolue'' l'effectif des observations d'une classe et ''fréquence relative'' ou simplement '''fréquence''', le quotient de cet effectif par celui de la population.
<center><math>\text{fréquence}=\frac{\text{taille de la classe}}{\text{taille de la population}}</math></center>
<center><math>\text{fréquence}=\frac{\text{taille de la classe}}{\text{taille de la population}}</math></center>


L'expression ''fréquence'' = ''valeur'' n'est jamais ambigüe. Si ''valeur'' est un nombre entier positif, il s'agit de la fréquence absolue, c'est-à-dire l'effectif de la classe. Si ''valeur'' est un nombre compris entre 0 et 1 ou un pourcentage, il s'agit de la fréquence relative.
La somme de l'effectif de toutes les classes étant l'effectif de la population, la somme de leurs fréquences doit toujours être égale à 1 (100%).


Le calcul d'une fréquence permet des comparaisons entre des séries d'observations portant sur des populations inégalement nombreuses. L'expression en pourcentage facilite ces comparaisons<ref>{{harvsp|Reuchlin|1991|p=47}}.</ref>.
== Définition ==
Les '''fréquences''' d'une [[série statistique]] donnent la répartition de chacune des valeurs de la série par rapport à la totalité des valeurs. Pour chaque valeur de la série, la fréquence associée est le rapport du nombre de fois où la valeur apparaît sur le nombre total de valeurs.


Plus la population est nombreuse, plus la fréquence d'une observation se rapproche de la probabilité de cette observation.
Ainsi, si <math>\scriptstyle x_1,x_2,\dots,x_k</math> sont les valeurs de la série, <math>\scriptstyle n_1,n_2,\dots,n_k</math> les effectifs (c'est-à-dire le nombre de fois où <math>\scriptstyle x_i</math> apparaît) et <math>\scriptstyle N=n_+n_2+\dots+n_k</math> est l'effectif total (c'est-à-dire le nombre total de valeurs), alors les fréquences sont définies par<ref name="Dodge29">{{Harvsp|Dodge|2005|p=29}}</ref> :
<center><math>f_1=\frac{n_1}{N} \,,\, f_2=\frac{n_2}{N} \,,\, \dots \,,\, f_k=\frac{n_k}{N} </math>.</center>


== Propriétés ==
La liste des fréquences est appelée la distribution des fréquences<ref name="Dodge29"/>.

La liste des fréquences s'appelle ''distribution des fréquences''<ref>{{Harvsp|Dodge|2005|p=23}} ; {{harvsp|Reuchlin|1991|p=47}}</ref>.

La somme de l'effectif de toutes les classes étant l'effectif de la population, la somme de leurs fréquences relatives est toujours égale à 1 (100%).

Il est possible de retrouver les effectifs d'une [[série statistique]] à partir de ses fréquences et de l'effectif de la population totale, aux arrondis près.

== Précautions ==
Pour la détermination des fréquences, les observations doivent d'abord être divisées en classes. Pour que le résultat soit pertinent, il est nécessaire de choisir le critère de classement de telle sorte que l'effectif des classes soit suffisant. Si, en effet, l'effectif d'une classe est trop faible, une action marginale sur le critère de classement pourrait affecter le résultat.
{{exemple|
Soit une population de 100 personnes ayant entre 18 et 26 ans, dont on veut établir la répartition des âges. Si on répartit la population par classe d'âge à 0,1 an près, certains dixièmes d'année auront un effectif de 0 ou 1, et certaines de ces valeurs pourraient changer selon l'origine de l'échelle des temps. On aurait alors deux résultats différents, bien qu'il n'y ait qu'une seule population. Il faut donc des classes d'âge adaptées.

Si on décide, par exemple, que la classe d'âge la moins nombreuse doit réunir au moins dix individus, on sera sans doute amené à des classes de deux ans.
}}
Pour répondre à ce problème, on constitue souvent des classes définies de telle façon que leur fréquence soit déterminée à l'avance. Une telle classe, dont le critère s'adapte à la fréquence à obtenir, s'appelle un [[quantile]]. Quand la fréquence est un quart, c'est un [[quartile]] ; si c'est un dixième, un [[décile]] ; de même pour un centième, un [[centile]]. Avec cette méthode, le résultat de l'analyse statistique est le critère de classement<ref>{{harvsp|Reuchlin|1991|p=70-71}}.</ref>.

Dans le résumé statistique d'une série d'observations, l'utilisation des fréquences et des pourcentages peut masquer un résultat non significatif. Pour être significative, une fréquence doit être égale à plusieurs fois l'inverse de l'effectif de la population.

== Fréquences cumulées ==
Lorsqu'on constitue les classes à partir de variables quantitatives, on peut calculer des fréquences cumulées, qui sont celles de l'effectif de la classe constituée par la population dont l'indice est inférieur ou supérieur à une valeur.

La fréquence cumulée est égale à la somme des fréquences de toutes les classes qui la précèdent dans l'ordre de classement.

Ce calcul a l'avantage de réduire le nombre de classes dont l'effectif n'est pas significatif.

== Fréquences de valeurs numériques discrètes ==

Lorsque la distribution de fréquences résume les observations pour des valeurs numériques discrètes, on peut en tirer la [[moyenne arithmétique]] de ces valeurs.

Pour une série statistique dont les valeurs sont données par : <math>\scriptstyle x_1,x_2,\dots,x_n</math> et les fréquences par : <math>\scriptstyle f_1,f_2,\dots,f_n</math>,

la moyenne est donnée par : <math>\bar{x}=f_1 x_1+f_2 x_2+\dots +f_n x_n=\sum_{i=1}^n f_i x_i</math>.

Sachant que <math>f_i=\frac{n_i}{n}</math>, on constate que la moyenne calculée à partir des fréquences peut être vue comme une moyenne arithmétique pondérée :
<math>\bar{x}=\sum_{i=1}^n f_i x_i = \sum_{i=1}^n \frac{n_i}{n} x_i = \frac{1}{n}\sum_{i=1}^n n_i x_i = \frac{n_1 x_1+ n_2 x_2+ \dots + n_n x_n}{n} = \frac{n_1}{n}x_1+ \frac{n_2}{n}x_2+\dots+ \frac{n_n}{n}x_n = f_1 x_1 + f_2 x_2 + \dots + f_n x_n</math>.


; Exemple — longueur moyenne des mots à partir de la distribution des longueurs
;Exemple<ref name="Dodge48"/>
La distribution des fréquences du nombre de lettres par mot de la langue française, choisis dans 10 pages du petit Robert, édition 1973, est donnée par le tableau :
: La distribution des fréquences du nombre de lettres par mot de la langue française, établie sur une population des 228 mots de dix pages du [[Le Petit Robert|Petit Robert]], édition 1973, est donnée par le tableau :


{| class="wikitable"
{| class="wikitable"
Ligne 47 : Ligne 82 :
| <math>\scriptstyle\frac{6}{228}</math>
| <math>\scriptstyle\frac{6}{228}</math>
| <math>\scriptstyle\frac{1}{228}</math>
| <math>\scriptstyle\frac{1}{228}</math>
|-
! scope="row" | pourcentage
| 3 %
| 5 %
| 14 %
| 16 %
| 13 %
| 15 %
| 13 %
| 7 %
| 7 %
| 4 %
| n.s.
| 3 %
| n.s.
|-
|-
|}
|}
: La longueur moyenne des mots est <math>\scriptstyle \bar{x}=\frac{7}{228} \times 4+\frac{12}{228} \times 5+\dots +\frac{1}{228} \times 16=8,60</math>. Il y a ainsi 8,6 lettres en moyenne par mot {{Harv|Dodge|2005|p=48}}.


L'utilisation des pourcentages, arrondis à une précision qui tienne compte de l'effectif de la population, facilite les comparaisons.
=== Fréquences cumulées ===
Lorsqu'on constitue les classes à partir d'un indice numérique, comme par exemple l'âge d'une population humaine, on peut calculer des fréquences cumulées, qui sont celles de l'effectif de la classe constituée par la population dont l'indice est inférieur ou supérieur à une valeur.


== Fréquences statistiques et probabilités ==
== Propriétés ==
Plus la population est nombreuse, plus la fréquence d'une observation se rapproche de la [[probabilité]] de cette observation. Cette propriété, basée sur la [[loi des grands nombres]], est utilisée dans de nombreux domaines. Par exemple, les compagnies d'assurance évaluent la probabilité d'un sinistre à partir de statistiques établies sur un grand nombre d'années et sur des populations nombreuses. Elles déterminent ainsi le coût d'assurance de ce risque.
Il possible de retrouver les effectifs d'une série statistique à partir de ses fréquences.


La fréquence, obtenue par synthèse des observations, et la probabilité, basée sur le calcul des issues possibles d'une expérience, sont des notions différentes, mais qui reposent l'une et l'autre sur un ''calcul des proportions''<ref>[[Henri Rouanet]], [http://www.math-info.univ-paris5.fr/~lerb/rouanet/travaux_statistiques/idees_forces_5.html Idées force], Université Paris 5, 2004.</ref>.
== Utilisation dans les formules ==
Lorsque les données sont représentées grâce à leurs fréquences, il faut utiliser des formules adaptées.


Malgré ce lien formel, la distinction entre les deux est capitale, en particulier lorsqu'on cherche à déterminer la ''probabilité'' d'un évènement à partir de sa ''fréquence'' dans un [[échantillon (statistiques)|échantillon]]. La probabilité est la chance ou risque de voir se réaliser un évènement ; tandis que la fréquence est le rapport entre le nombre d'évènements effectivement réalisés et l'effectif de l'échantillon.
Pour une série statistique dont les valeurs sont données par : <math>\scriptstyle x_1,x_2,\dots,x_n</math> et les fréquences par : <math>\scriptstyle f_1,f_2,\dots,f_n</math>,


Lorsqu'on suppose que la fréquence mesurée sur un échantillon s'applique à la population entière, on l'utilise pour évaluer le nombre total d'évènements dans cette population, en appliquant à l'effectif total la proportion relevée dans l'échantillon.
la moyenne est donnée par<ref name="Dodge48">{{Harvsp|Dodge|2005|p=48}}</ref> : <math>\bar{x}=f_1 x_1+f_2 x_2+\dots +f_n x_n=\sum_{i=1}^n f_i x_i</math>.


; Exemple : En reprenant l'exemple les lettres par mots dans la langue française, on obtient : <math>\scriptstyle \bar{x}=\frac{7}{228} \times 4+\frac{12}{228} \times 5+\dots +\frac{1}{228} \times 16=8,60</math>. Il y a ainsi 8,6 lettres en moyenne par mots


== Notes et références ==
== Compléments ==
=== Bibliographie ===
* {{Ouvrage | langue=fr | auteur1={{Lien|langue=en|fr=Yadolah Dodge}} | titre=Premiers pas en statistique | éditeur=[[Springer Science+Business Media|Springer - Verlag]] | année=2005 | pages totales=428 | isbn=2-287-30275-1 | lire en ligne=https://books.google.fr/books?id=Kl1ZyOTUwOQC}}{{plume}}
* {{Ouvrage |auteur1=[[Maurice Reuchlin]] |titre=Précis de statistique |éditeur=Presses universitaires de France |lieu=Paris |année=1991 |année première édition=1976 |pages totales= |isbn=}} {{plume}}

=== Notes et références ===
{{Références|colonnes=2}}
{{Références|colonnes=2}}


== Voir aussi ==
=== Liens internes ===
*[[Interprétations de la probabilité]]
=== Bibliographie ===
*{{Ouvrage | langue = fr | prénom1 = Yadolah | nom1 = Dodge | titre = Premiers pas en statistique | éditeur = Springer - Verlag | lien éditeur = Springer Science+Business Media | année = 2005 | pages totales = 428 | isbn = 2-287-30275-1 | lire en ligne = http://books.google.fr/books?id=Kl1ZyOTUwOQC}}{{plume}}


{{portail|statistiques}}
{{portail|statistiques}}

{{DEFAULTSORT:Frequence (statistiques)}}
[[Catégorie:Statistique descriptive]]
[[Catégorie:Statistique descriptive]]

Dernière version du 4 mars 2024 à 17:43

Fréquence des traits de kanji

En statistique, on appelle fréquence absolue l'effectif des observations d'une classe et fréquence relative ou simplement fréquence, le quotient de cet effectif par celui de la population.

L'expression fréquence = valeur n'est jamais ambigüe. Si valeur est un nombre entier positif, il s'agit de la fréquence absolue, c'est-à-dire l'effectif de la classe. Si valeur est un nombre compris entre 0 et 1 ou un pourcentage, il s'agit de la fréquence relative.

Le calcul d'une fréquence permet des comparaisons entre des séries d'observations portant sur des populations inégalement nombreuses. L'expression en pourcentage facilite ces comparaisons[1].

Plus la population est nombreuse, plus la fréquence d'une observation se rapproche de la probabilité de cette observation.

Propriétés

[modifier | modifier le code]

La liste des fréquences s'appelle distribution des fréquences[2].

La somme de l'effectif de toutes les classes étant l'effectif de la population, la somme de leurs fréquences relatives est toujours égale à 1 (100%).

Il est possible de retrouver les effectifs d'une série statistique à partir de ses fréquences et de l'effectif de la population totale, aux arrondis près.

Précautions

[modifier | modifier le code]

Pour la détermination des fréquences, les observations doivent d'abord être divisées en classes. Pour que le résultat soit pertinent, il est nécessaire de choisir le critère de classement de telle sorte que l'effectif des classes soit suffisant. Si, en effet, l'effectif d'une classe est trop faible, une action marginale sur le critère de classement pourrait affecter le résultat.

Exemple :

Soit une population de 100 personnes ayant entre 18 et 26 ans, dont on veut établir la répartition des âges. Si on répartit la population par classe d'âge à 0,1 an près, certains dixièmes d'année auront un effectif de 0 ou 1, et certaines de ces valeurs pourraient changer selon l'origine de l'échelle des temps. On aurait alors deux résultats différents, bien qu'il n'y ait qu'une seule population. Il faut donc des classes d'âge adaptées.

Si on décide, par exemple, que la classe d'âge la moins nombreuse doit réunir au moins dix individus, on sera sans doute amené à des classes de deux ans.

Pour répondre à ce problème, on constitue souvent des classes définies de telle façon que leur fréquence soit déterminée à l'avance. Une telle classe, dont le critère s'adapte à la fréquence à obtenir, s'appelle un quantile. Quand la fréquence est un quart, c'est un quartile ; si c'est un dixième, un décile ; de même pour un centième, un centile. Avec cette méthode, le résultat de l'analyse statistique est le critère de classement[3].

Dans le résumé statistique d'une série d'observations, l'utilisation des fréquences et des pourcentages peut masquer un résultat non significatif. Pour être significative, une fréquence doit être égale à plusieurs fois l'inverse de l'effectif de la population.

Fréquences cumulées

[modifier | modifier le code]

Lorsqu'on constitue les classes à partir de variables quantitatives, on peut calculer des fréquences cumulées, qui sont celles de l'effectif de la classe constituée par la population dont l'indice est inférieur ou supérieur à une valeur.

La fréquence cumulée est égale à la somme des fréquences de toutes les classes qui la précèdent dans l'ordre de classement.

Ce calcul a l'avantage de réduire le nombre de classes dont l'effectif n'est pas significatif.

Fréquences de valeurs numériques discrètes

[modifier | modifier le code]

Lorsque la distribution de fréquences résume les observations pour des valeurs numériques discrètes, on peut en tirer la moyenne arithmétique de ces valeurs.

Pour une série statistique dont les valeurs sont données par : et les fréquences par : ,

la moyenne est donnée par : .

Sachant que , on constate que la moyenne calculée à partir des fréquences peut être vue comme une moyenne arithmétique pondérée : .

Exemple — longueur moyenne des mots à partir de la distribution des longueurs
La distribution des fréquences du nombre de lettres par mot de la langue française, établie sur une population des 228 mots de dix pages du Petit Robert, édition 1973, est donnée par le tableau :
Nombres de lettres 4 5 6 7 8 9 10 11 12 13 14 15 16
Fréquences
pourcentage 3 % 5 % 14 % 16 % 13 % 15 % 13 % 7 % 7 % 4 % n.s. 3 % n.s.
La longueur moyenne des mots est . Il y a ainsi 8,6 lettres en moyenne par mot (Dodge 2005, p. 48).

L'utilisation des pourcentages, arrondis à une précision qui tienne compte de l'effectif de la population, facilite les comparaisons.

Fréquences statistiques et probabilités

[modifier | modifier le code]

Plus la population est nombreuse, plus la fréquence d'une observation se rapproche de la probabilité de cette observation. Cette propriété, basée sur la loi des grands nombres, est utilisée dans de nombreux domaines. Par exemple, les compagnies d'assurance évaluent la probabilité d'un sinistre à partir de statistiques établies sur un grand nombre d'années et sur des populations nombreuses. Elles déterminent ainsi le coût d'assurance de ce risque.

La fréquence, obtenue par synthèse des observations, et la probabilité, basée sur le calcul des issues possibles d'une expérience, sont des notions différentes, mais qui reposent l'une et l'autre sur un calcul des proportions[4].

Malgré ce lien formel, la distinction entre les deux est capitale, en particulier lorsqu'on cherche à déterminer la probabilité d'un évènement à partir de sa fréquence dans un échantillon. La probabilité est la chance ou risque de voir se réaliser un évènement ; tandis que la fréquence est le rapport entre le nombre d'évènements effectivement réalisés et l'effectif de l'échantillon.

Lorsqu'on suppose que la fréquence mesurée sur un échantillon s'applique à la population entière, on l'utilise pour évaluer le nombre total d'évènements dans cette population, en appliquant à l'effectif total la proportion relevée dans l'échantillon.


Compléments

[modifier | modifier le code]

Bibliographie

[modifier | modifier le code]

Notes et références

[modifier | modifier le code]
  1. Reuchlin 1991, p. 47.
  2. Dodge 2005, p. 23 ; Reuchlin 1991, p. 47
  3. Reuchlin 1991, p. 70-71.
  4. Henri Rouanet, Idées force, Université Paris 5, 2004.

Liens internes

[modifier | modifier le code]