MBA5500 - Toutes Les Slides
MBA5500 - Toutes Les Slides
MBA5500 - Toutes Les Slides
Statistiques descriptives
6 septembre 2023
Automne 2023 MBA5500 Analyse descriptive des données 1
Aperçu
Population
Échantillon
Données
Inférence Tests
statistiques
Paramètres
Question de recherche:
On cherche à évaluer les grandes tendances du marché du
travail en se basant sur l’ Enquête sur la population active
(EPA).
L’EPA est une enquête mensuelle réalisée auprès d’environ
56 000 ménages canadiens (10 000 ménages au Québec)
par Statistique Canada. Les renseignements sont recueillis
pour tous les membres civils du ménage âgés de 15 ans et
plus. L’EPA est la source d’estimations mensuelles de
l’emploi et du chômage, ainsi que des différents indicateurs
du marché du travail comme le taux d'activité, le taux
d'emploi et le taux de chômage.
Base de données
Une base de données est un document sur lequel on inscrit
l’ensemble des informations utiles à l’étude d’un
phénomène.
Exemple: (Voir le tableau Earnings_and _Weight affiché sur
Brighspace)
Caractère
X variable statistique
2. Variables ordinales
3. Variables discrètes
Une variable discrète est une variable quantitative ayant des
valeurs dénombrables (souvent des valeurs entières).
• Par exemple, la taille d’un ménage peut être, par exemple,
1, 2, 3. Toutefois, des valeurs comme 1,5 ou 4,75 ne sont
pas acceptables.
▪ Nombre de frères et sœurs : 0, 1, 2, etc. (1.2 n'est pas
possible)
4. Variables continues
Une variable continue est une variable quantitative dont toute
valeur dans une certaine étendue est possible. Par exemple,
la variable «earnings» (salaire) est une variable continue (Voir
le tableau Earnings_and _Weight affiché sur Brighspace)
Automne 2023 MBA5500 Analyse descriptive des données 27
Genre de données
154
Sep-22, 152.7
152
150
148
Indice des prix
Feb-22, 146.8
146
144
142
140
Feb-21, 138.9
138
Feb-20, 137.4
136
134
Dec-19Jan-20Mar-20Apr-20Jun-20Aug-20Sep-20Nov-20Jan-21Feb-21Apr-21Jun-21 Jul-21 Sep-21Oct-21Dec-21Feb-22Mar-22May-22Jul-22 Aug-22Oct-22Dec-22
Période
Automne 2023 MBA5500 Analyse descriptive des données 31
Sources et types de données
Données de panel ou données longitudinales: Elles sont des données
associées à plusieurs entités. Chaque entité est observée pendant au
moins deux périodes.
Tableau: Données de panel concernant le salaire et les autres
caractéristiques
Individus Temps Salaire Education
1 1
1 2
1 3
2 1
2 2
2 3
… …
• Statistique descriptive
o Visualisation des données
o Construction de tableaux
o Calcul de mesures de tendance centrale
o Calcul de mesure de dispersion
Statistique inférentielle
o Méthodes d’échantillonnage
o Estimer les paramètres de population (Moyenne, variance,
proportion)
o Formuler les hypotheses
o Établir les relations entre variables
o Comparer les paramètres de plusieurs populations
o Effectuer des prévisions
Automne 2023 MBA5500 Analyse descriptive des données 33
Plan d’analyse des données
14000
Field1 Count of Field1
Valeurs/Intervalle
Discrète Qualité
de classe
Intervalle de
Continue X
classe
700
600
500
Fréquence
400
300
200
100
äge
Self Employed
8%
Secteurs Pourcentage Incorporated
Business Employee
Private company 2%
Employee 69.81 %
Federal Government
Local Government
Employee 3.67 %
Employee
State Government 11%
Employee 5.51 %
Local Government State Government
Employee 10.71 % Employee
5%
Incorporated Business
Employee 1.99 %
Federal
Government
Self Employed 8.32 % Employee
4%
Private company
Employee
70%
0 20 40 60 80 100
100
90
80 69.81
70
60
50
40
30
20 10.71
5.51 8.32
10 3.67 1.99
0
Private Federal State Local Incorporated Self
company Government Government Government Business Employed
Employee Employee Employee Employee Employee
Réparttion en pourcentage du secteur d'activité des travailleurs
Statistiques descriptives
13 septembre 2023
• Le mode
• La médiane
• La moyenne arithmétique
Histogramme
Le mode
(M = 35)
• Avantages:
o Il est la mesure de tendance centrale appropriée
lorsque la variable est qualitative.
• Désavantages:
o Ignore la plupart des informations de la distribution
o A tendance à être instable (c'est-à-dire que la valeur
varie beaucoup d'un échantillon à l'autre).
o Il peut ne pas exister.
o Il peut ne pas être unique. Certaines distributions
peuvent ne pas avoir de mode (par exemple, 10, 10,
11, 11, 12, 12).
La Moyenne
ഥ = 40
𝑿
La Moyenne
ഥ = 40
𝑿
• Avantages:
o Elle élimine l’effet des valeurs aberrantes
o Facile à calculer
o Elle permet de mieux évaluer la tendance centrale si
la distribution est asymétrique.
o Approprié pour les variables d’échelle
• Désavantages:
o Ne prend pas en compte les valeurs réelles des
données - seulement un indice de position.
• Étendue
• Intervalle interquartile
• Variance
• Écart-type
• Coefficient de variation
• Facile à calculer
• Facile à comprendre
• Communique des informations intéressantes pour les
lecteurs d'un rapport.
𝑸𝟏 =33
𝑸𝟐 = 40
𝑸𝟑 = 48
Exemple:
𝑄1 = 33 ans
𝑄3 = 48 ans
Le diagramme en boîte
est un résumé visuel du
sommaire numérique
d’une série de données,
sommaire constitué de
cinq nombres:
la médiane, les quartiles
(Q1, Q2 et Q3), la plus
petite valeur et la plus
grande valeur de la série,
Max= 65
𝑸𝟐 = 40 𝑸𝟏 = 48
Min = 25 𝑸𝟏 = 33
Example
𝑄1 = 33
𝑄3 = 48
∆𝑄 = (𝑄3 - 𝑄1 ) = (48 – 33 ) = 15
1,5 𝑄3 − 𝑄1 = 1,5*15 = 22,5
𝑄3 + 1,5 𝑄3 − 𝑄1 = 48 + 22,5 = 70,5
𝑄1 − 1,5 𝑄3 − 𝑄1 = 33 – 22,5 = 10,5
9 données 17 données
(𝑸𝟏 )
(𝑸𝟐 )
(𝑸𝟑 )
2
=
(x − ) i
2
N
• L’estimateur de la variance à partir d’un échantillon est
donné par:
s 2
=
(x − x) i
2
N −1
Degré de liberté de l’estimateur de la variance
N
L’estimateur de l’écart-type à
partir d’un échantillon est
donnée par :
s=
(x − x)
i
2
N −1
sx
CV ( x) = *100
x
• Indique le degré d’homogénéité d’une distribution.
• Plus le CV est faible, plus la série de données est
homogène.
𝑠𝑥 10.03751
𝐶𝑉 𝑥 = ∗ 100 = ∗ 100 = 24,53 %
𝑥lj 40.91953
Nominale Mode --
xi − x
Zi =
sx
Une cote Z positive signifie que xi x
Une cote Z négative signifie que xi x
(Aplatissement = 2.25
kurtosis
Mode
Moyenne = Médiane
Hiver 2023 MBA5500 Analyse Descriptive des données 52
Caractéristiques de forme
Age
Percentiles Smallest
1% 25 25
5% 26 25
10% 28 25 Obs 17,870
25% 33 25 Sum of wgt. 17,870
Aplatissement:
On démontre que pour une distribution normale, le dégré
d’aplatissement noté 𝛼4 = 3.
Exemple
. Note : Les acétates dans ces notes de cours ont été adaptées de celles préparées par:Stock, James H. et Mark W. Watson (2012). Principes
d’économétrie, 3e édition, Pearson France. (en français, traduction par Jamel Trabelsi). .
Exemple
Exemple
Exemple
Ou ratio élèves-enseignants
Exemple
• Le résultat contient trois informations
importantes : (1) le coefficient de corrélation de
Pearson ; (2) le niveau de signification
statistique ; et (3) la taille de l'échantillon.
Limites de la correlation
• Il ne peut pas prouver 100% de l’existence de lien de
cause à effet réel.
• Peu de contrôle ou absence de contrôle sur les variables
utilisées.
• L’existence de corrélation peut-être le fruit de hasard ou
d’une troisième variable qui n’a pas été prise en compte.
A B
C D
20 septembre 2023
• Le mode
• La médiane
• La moyenne arithmétique
Histogramme
Le mode
(M = 35)
• Avantages:
o Il est la mesure de tendance centrale appropriée
lorsque la variable est qualitative.
• Désavantages:
o Ignore la plupart des informations de la distribution
o A tendance à être instable (c'est-à-dire que la valeur
varie beaucoup d'un échantillon à l'autre).
o Il peut ne pas exister.
o Il peut ne pas être unique. Certaines distributions
peuvent ne pas avoir de mode (par exemple, 10, 10,
11, 11, 12, 12).
La Moyenne
ഥ = 40
𝑿
La Moyenne
ഥ = 40
𝑿
• Avantages:
o Elle élimine l’effet des valeurs aberrantes
o Facile à calculer
o Elle permet de mieux évaluer la tendance centrale si
la distribution est asymétrique.
o Approprié pour les variables d’échelle
• Désavantages:
o Ne prend pas en compte les valeurs réelles des
données - seulement un indice de position.
• Étendue
• Intervalle interquartile
• Variance
• Écart-type
• Coefficient de variation
• Facile à calculer
• Facile à comprendre
• Communique des informations intéressantes pour les
lecteurs d'un rapport.
𝑸𝟏 =33
𝑸𝟐 = 40
𝑸𝟑 = 48
Exemple:
𝑄1 = 33 ans
𝑄3 = 48 ans
Le diagramme en boîte
est un résumé visuel du
sommaire numérique
d’une série de données,
sommaire constitué de
cinq nombres:
la médiane, les quartiles
(Q1, Q2 et Q3), la plus
petite valeur et la plus
grande valeur de la série,
Max= 65
𝑸𝟐 = 40 𝑸𝟏 = 48
Min = 25 𝑸𝟏 = 33
Example
𝑄1 = 33
𝑄3 = 48
∆𝑄 = (𝑄3 - 𝑄1 ) = (48 – 33 ) = 15
1,5 𝑄3 − 𝑄1 = 1,5*15 = 22,5
𝑄3 + 1,5 𝑄3 − 𝑄1 = 48 + 22,5 = 70,5
𝑄1 − 1,5 𝑄3 − 𝑄1 = 33 – 22,5 = 10,5
9 données 17 données
(𝑸𝟏 )
(𝑸𝟐 )
(𝑸𝟑 )
2
=
(x − ) i
2
N
• L’estimateur de la variance à partir d’un échantillon est
donné par:
s 2
=
(x − x) i
2
N −1
Degré de liberté de l’estimateur de la variance
N
L’estimateur de l’écart-type à
partir d’un échantillon est
donnée par :
s=
(x − x)
i
2
N −1
sx
CV ( x) = *100
x
• Indique le degré d’homogénéité d’une distribution.
• Plus le CV est faible, plus la série de données est
homogène.
𝑠𝑥 10.03751
𝐶𝑉 𝑥 = ∗ 100 = ∗ 100 = 24,53 %
𝑥lj 40.91953
Nominale Mode --
xi − x
Zi =
sx
Une cote Z positive signifie que xi x
Une cote Z négative signifie que xi x
(Aplatissement = 2.25
kurtosis
Mode
Moyenne = Médiane
Hiver 2023 MBA5500 Analyse Descriptive des données 52
Caractéristiques de forme
Age
Percentiles Smallest
1% 25 25
5% 26 25
10% 28 25 Obs 17,870
25% 33 25 Sum of wgt. 17,870
Aplatissement:
On démontre que pour une distribution normale, le dégré
d’aplatissement noté 𝛼4 = 3.
Exemple
4 octobre 2023
Expérience aléatoire:
Une expérience aléatoire est une expérience dont le résultat
dépend entièrement du hasard et dont les résultats possibles
sont connus.
Exemples:
Illustration 1. Expérience: «Jeu de pile ou face»
Résultats: Pile ou Face
Illustration 2. Expérience: Les notes d’un test statistique (sur 100 points).
Résultats: Notes comprises entre 0 et 100
Illustration 3. Expérince: Notes finales au cours MBA5500.
Résultats: A, B, C, D et F
Remarques:
• La probabilité d’un évènement impossible est nulle.
• La probabilité d’un évènement certain est égal à 1.
• Entre les deux extremes se situe toute une série
d’évènements probables.
• La probabilité d’un évènement est donc toujours comprise
entre 0 et 1.
Exercice d’application
Une experience conduit à cinq résultats élémentaires et incompatibles 𝐸1 , 𝐸2 ,
𝐸3 , 𝐸4 et 𝐸5 . On sait que 𝑃 𝐸3 = 0,30, 𝑃 𝐸4 = 2 𝑃 𝐸5 ,
𝑃 𝐸1 = 𝑃 𝐸2 = 0,15.
1. Quel est l’espace échantionnal ?
Réponse: On a S = {𝐸1 , 𝐸2 , 𝐸3 , 𝐸4 et 𝐸5 }
2. Quel est la valeur de 𝑃 s ?
Réponse: On sait que 𝑃 𝑆 = 1
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
3. Déterminez 𝑃 𝐸4 et 𝑃 𝐸5
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
= 0,15 + 0,15 + 0,30 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
= 0,60 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
0,40
= 3𝑃 𝐸5 = 0,40 𝑃 𝐸5 = = 0,133
3
𝑃 𝐸5 =0,133 et 𝑃 𝐸4 = 2 𝑃 𝐸5 =0,266 𝑃 𝐸4 =0,266
Automne 2023 MBA5500 Analyse Descriptive des données 8
Introduction aux probabilités
Solution:
1182 310 190
𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵 = + − = 0,868
1500 1500 1500
Probabilités conditionnelles
Soit A et B deux évènements de S. On appelle probabilité conditionnelle
de B par rapport à A, la probabilité de réalisation de l’évènement B,
sachant que l’évènement A s’est réalisé et se note 𝑃 𝐵\A .
𝑃 𝐵\A = 𝑃𝑃𝐴∩𝐵
𝐴
, de même 𝑃 𝐴\B = 𝑃 𝐴∩𝐵
𝑃 𝐵
Probabilités composées
Soit A et B deux évènements de probabilité non nulle. La
probabilité de se voir réaliser à la fois (simultanément) deux
évènements A et B est:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 . 𝑃 𝐵\A
ou
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 . 𝑃 𝐴\B
Évènements indépendants
• Deux évènements A et B sont indépendants si:
𝑃 𝐵\A = 𝑃 𝐵 𝑜𝑢 𝑃 𝐴\B = 𝑃 𝐴
Solution:
Nous pouvons reformuler la question comme suit : "Quelle
est la probabilité de choisir au hasard un ménage abonné
au Sun ou au Post ou aux deux ?
Interprétation:
Il y a une probabilité de 51 % qu'un ménage sélectionné
au hasard soit abonné à l'un ou l'autre ou aux deux
journaux.
Automne 2023 MBA5500 Analyse Descriptive des données 18
Introduction aux probabilités
Probabilités marginales
Supposons qu'un investisseur potentiel examine la relation entre la
performance d'un fonds commun de placement et l'université qui a délivré le
MBA au gestionnaire. Après l'analyse, le tableau des probabilités conjointes
suivant a été élaboré
Notez qu'il y a deux événements possibles pour la sélection d'un étudiant et d'une étudiante. Dans ce cas, la forme spéciale de
la règle d'addition pour les événements mutuellement exclusifs peut être appliquée aux probabilités conjointes.
.Dans les deux diagrammes de probabilité, nous pouvons calculer la probabilité que l'un des étudiants choisis soit une femme et
l'autre un homme en additionnant simplement les probabilités conjointes.
Pour l’exemple A, nous avons:
P(F et M) + P(M et F) = 21/90 + 21/90 = 42/90
P(A B)
P(A/ B)=
P(B)
2. Théoréme de Bayes
P(B/ A)P(A)
P(A/ B)=
P(B)
P(B/ Ai)P(Ai)
P(Ai / B)=
P(B/ Ak)P(Ak)
k
Ainsi, la probabilité qu'un candidat au MBA obtienne un score d'au moins 650, étant
donné qu'il a suivi un cours préparatoire, est la suivante :
𝑃(𝐴 et 𝐵) .052
𝑃 𝐴𝐵 = = = .201 ce qui est supéreur 20%.
𝑃(𝐵) .259
La formule du théo rèkede Bayes donne la probabilité qu'un étudiant obtienne 650 ou plus après avoir
suivi le cours de préparation :
𝑃 𝐴1 𝑃 𝐵|𝐴1 .10(.52) .052
𝑃 𝐴1 |𝐵 = = = = .201
𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 .10 .52 + .90(.23) .052 + .207
Où
B est l’évènement donné,
A1, A2,…, Ak sont les événements avec des probabilités
préalables connues P(A1), P(A2),…, P(Ak),
P(B|A1), P(B|A2),…, P(B|Ak) sont les probabilités de
vraisemblace,
P(Ai|B), with i = 1, 2,…, k sont les probabilités postérieures que
nous recherchons.
Automne 2023 MBA5500 Analyse Descriptive des données 38
Identifier la bonne méthode
La question clé est de déterminer si les probabilités conjointes sont fournies ou requises :
Les probabilités conjointes sont fournies
1. Calculer les probabilités marginales en additionnant les lignes et les colonnes.
2. Utilisez les probabilités conjointes et marginales pour calculer les probabilités
conditionnelles.
3. Déterminez si les événements décrits dans le tableau sont indépendants.
4. Appliquez la règle de l'addition pour calculer la probabilité que l'un ou l'autre des deux
événements se produise.
Les probabilités conjointes sont nécessaires
1. Appliquer les règles de probabilité ou construire un arbre de probabilité.
2. Utilisez la règle de multiplication pour calculer la probabilité des intersections.
3. Appliquer les règles d'addition et de complément pour les événements mutuellement
exclusifs.
4. Calculer la probabilité postérieure à l'aide de la loi de Bayes.
4 octobre 2023
Expérience aléatoire:
Une expérience aléatoire est une expérience dont le résultat
dépend entièrement du hasard et dont les résultats possibles
sont connus.
Exemples:
Illustration 1. Expérience: «Jeu de pile ou face»
Résultats: Pile ou Face
Illustration 2. Expérience: Les notes d’un test statistique (sur 100 points).
Résultats: Notes comprises entre 0 et 100
Illustration 3. Expérince: Notes finales au cours MBA5500.
Résultats: A, B, C, D et F
Remarques:
• La probabilité d’un évènement impossible est nulle.
• La probabilité d’un évènement certain est égal à 1.
• Entre les deux extremes se situe toute une série
d’évènements probables.
• La probabilité d’un évènement est donc toujours comprise
entre 0 et 1.
Exercice d’application
Une experience conduit à cinq résultats élémentaires et incompatibles 𝐸1 , 𝐸2 ,
𝐸3 , 𝐸4 et 𝐸5 . On sait que 𝑃 𝐸3 = 0,30, 𝑃 𝐸4 = 2 𝑃 𝐸5 ,
𝑃 𝐸1 = 𝑃 𝐸2 = 0,15.
1. Quel est l’espace échantionnal ?
Réponse: On a S = {𝐸1 , 𝐸2 , 𝐸3 , 𝐸4 et 𝐸5 }
2. Quel est la valeur de 𝑃 s ?
Réponse: On sait que 𝑃 𝑆 = 1
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
3. Déterminez 𝑃 𝐸4 et 𝑃 𝐸5
𝑃 𝑆 = 𝑃 𝐸1 + 𝑃 𝐸2 + 𝑃 𝐸3 + 𝑃 𝐸4 + 𝑃 𝐸5 = 1
= 0,15 + 0,15 + 0,30 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
= 0,60 +2 𝑃 𝐸5 + 𝑃 𝐸5 = 1
0,40
= 3𝑃 𝐸5 = 0,40 𝑃 𝐸5 = = 0,133
3
𝑃 𝐸5 =0,133 et 𝑃 𝐸4 = 2 𝑃 𝐸5 =0,266 𝑃 𝐸4 =0,266
Automne 2023 MBA5500 Analyse Descriptive des données 8
Introduction aux probabilités
Solution:
1182 310 190
𝑃 𝐴 𝑜𝑢 𝐵 = 𝑃 𝐴 + 𝑃 𝐵 − 𝑃 𝐴 𝑒𝑡 𝐵 = + − = 0,868
1500 1500 1500
Probabilités conditionnelles
Soit A et B deux évènements de S. On appelle probabilité conditionnelle
de B par rapport à A, la probabilité de réalisation de l’évènement B,
sachant que l’évènement A s’est réalisé et se note 𝑃 𝐵\A .
𝑃 𝐵\A = 𝑃𝑃𝐴∩𝐵
𝐴
, de même 𝑃 𝐴\B = 𝑃 𝐴∩𝐵
𝑃 𝐵
Probabilités composées
Soit A et B deux évènements de probabilité non nulle. La
probabilité de se voir réaliser à la fois (simultanément) deux
évènements A et B est:
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 . 𝑃 𝐵\A
ou
𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐵 . 𝑃 𝐴\B
Évènements indépendants
• Deux évènements A et B sont indépendants si:
𝑃 𝐵\A = 𝑃 𝐵 𝑜𝑢 𝑃 𝐴\B = 𝑃 𝐴
Solution:
Nous pouvons reformuler la question comme suit : "Quelle
est la probabilité de choisir au hasard un ménage abonné
au Sun ou au Post ou aux deux ?
Interprétation:
Il y a une probabilité de 51 % qu'un ménage sélectionné
au hasard soit abonné à l'un ou l'autre ou aux deux
journaux.
Automne 2023 MBA5500 Analyse Descriptive des données 18
Introduction aux probabilités
Probabilités marginales
Supposons qu'un investisseur potentiel examine la relation entre la
performance d'un fonds commun de placement et l'université qui a délivré le
MBA au gestionnaire. Après l'analyse, le tableau des probabilités conjointes
suivant a été élaboré
Notez qu'il y a deux événements possibles pour la sélection d'un étudiant et d'une étudiante. Dans ce cas, la forme spéciale de
la règle d'addition pour les événements mutuellement exclusifs peut être appliquée aux probabilités conjointes.
.Dans les deux diagrammes de probabilité, nous pouvons calculer la probabilité que l'un des étudiants choisis soit une femme et
l'autre un homme en additionnant simplement les probabilités conjointes.
Pour l’exemple A, nous avons:
P(F et M) + P(M et F) = 21/90 + 21/90 = 42/90
P(A B)
P(A/ B)=
P(B)
2. Théoréme de Bayes
P(B/ A)P(A)
P(A/ B)=
P(B)
P(B/ Ai)P(Ai)
P(Ai / B)=
P(B/ Ak)P(Ak)
k
Ainsi, la probabilité qu'un candidat au MBA obtienne un score d'au moins 650, étant
donné qu'il a suivi un cours préparatoire, est la suivante :
𝑃(𝐴 et 𝐵) .052
𝑃 𝐴𝐵 = = = .201 ce qui est supéreur 20%.
𝑃(𝐵) .259
La formule du théo rèkede Bayes donne la probabilité qu'un étudiant obtienne 650 ou plus après avoir
suivi le cours de préparation :
𝑃 𝐴1 𝑃 𝐵|𝐴1 .10(.52) .052
𝑃 𝐴1 |𝐵 = = = = .201
𝑃 𝐴1 𝑃 𝐵|𝐴1 + 𝑃 𝐴2 𝑃 𝐵|𝐴2 .10 .52 + .90(.23) .052 + .207
Où
B est l’évènement donné,
A1, A2,…, Ak sont les événements avec des probabilités
préalables connues P(A1), P(A2),…, P(Ak),
P(B|A1), P(B|A2),…, P(B|Ak) sont les probabilités de
vraisemblace,
P(Ai|B), with i = 1, 2,…, k sont les probabilités postérieures que
nous recherchons.
Automne 2023 MBA5500 Analyse Descriptive des données 38
Identifier la bonne méthode
La question clé est de déterminer si les probabilités conjointes sont fournies ou requises :
Les probabilités conjointes sont fournies
1. Calculer les probabilités marginales en additionnant les lignes et les colonnes.
2. Utilisez les probabilités conjointes et marginales pour calculer les probabilités
conditionnelles.
3. Déterminez si les événements décrits dans le tableau sont indépendants.
4. Appliquez la règle de l'addition pour calculer la probabilité que l'un ou l'autre des deux
événements se produise.
Les probabilités conjointes sont nécessaires
1. Appliquer les règles de probabilité ou construire un arbre de probabilité.
2. Utilisez la règle de multiplication pour calculer la probabilité des intersections.
3. Appliquer les règles d'addition et de complément pour les événements mutuellement
exclusifs.
4. Calculer la probabilité postérieure à l'aide de la loi de Bayes.
11 octobre 2023
Expérience aléatoire:
Une expérience aléatoire est une expérience dont le résultat
dépend entièrement du hasard et dont les résultats possibles
sont connus.
Exemples:
Illustration 1. Expérience: «Jeu de pile ou face»
Résultats: Pile ou Face
Illustration 2. Expérience: Les notes d’un test statistique (sur 100 points).
Résultats: Notes comprises entre 0 et 100
Illustration 3. Expérince: Notes finales au cours MBA5500.
Résultats: A, B, C, D et F
𝑃(𝑋≥4)=.128+.058+.022+.013=.221
Par exemple:
X = 0, P(SCSCSC) = P(SC) P(SC) P(SC) = (.8)(.8)(.8) = .512
X = 1, P(SSCSC) = P(S) P(SC) P(SC) = (.2)(.8)(.8) = .128
X = 2, P(SSSC) = P(S) P(S) P(SC) = (.2)(.2)(.8) = .032
X = 3, P(SSS) = P(S) P(S) P(S) = (.2)(.2)(.2) = .008
𝐸 𝑋 = 𝜇 = 𝑥𝑃(𝑥)
𝑥𝑖
𝑉 𝑋 = 𝜎 2 = 𝑥 − 𝜇 2 𝑃(𝑥)
𝑥𝑖
L’écart-type d’une variable aléatoire discrete
𝜎= 𝜎2
1. 𝐸 𝑐 = 𝑐 1. 𝑉 𝑐 = 0
2. 𝐸 𝑋 + 𝑐 = 𝐸 𝑋 + 𝑐 2. 𝑉 𝑋 + 𝑐 = 𝑉 𝑋
3. 𝐸 𝑐𝑋 = 𝑐𝐸(𝑋) 3. 𝑉 𝑐𝑋 = 𝑐 2 𝑉(𝑋)
La moyenne de X est:
𝐸 𝑋 = 𝜇 = 𝑥𝑃(𝑥) = 1𝑃 1 + 2𝑃 2 + ⋯ + 7𝑃 7 = 1 .279 + 2 .345 + ⋯ + 7 .013 = 2.46
La variance de X est:
𝑉 𝑋 = 𝜎 2 = 𝑥 − 𝜇 2 𝑃(𝑥) = 1 − 2.46 2
.279 + 2 − 2.46 2
.345 + ⋯ + 7 − 2.46 2
.013 = 1.931
L’écart-type de X est:
𝜎= 𝜎 2 = 1.931 = 1.39
𝑛 𝑛
2. 𝑃(𝑥, 𝑦) = 1
𝑖=1 𝑗=1
COV 𝑋, 𝑌 = 𝜎𝑥𝑦 = 𝑥 − 𝜇𝑥 𝑦 − 𝜇𝑦 𝑃 𝑥, 𝑦
𝑡𝑜𝑢𝑠 𝑡𝑜𝑢𝑠
𝑙𝑒𝑠 𝑋 𝑙𝑒𝑠 𝑌
• La covariance est :
COV 𝑋, 𝑌 = 𝜎𝑥𝑦 𝑥𝑦𝑃 𝑥, 𝑦 − 𝜇𝑥 𝜇𝑦
Il existe une faible relation négative entre les deux variables : le nombre
de maisons que Xavier vendra en un mois (X) et le nombre de maisons
qu'Yvette vendra en un mois (Y).
1. 𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)
2. 𝑉(𝑋+𝑌)=𝑉(𝑋)+𝑉(𝑌)+2 𝐶𝑂𝑉(𝑋,𝑌)
La loi binomiale
Soit une série de n épreuves successives et indépendantes
dont l’issue de chaque épreuve est soit « succès » avec
une probabilité p, soit « insuccès » avec une probabilité
𝑞 = 1 − 𝑝, alors la probabilité d’avoir x succès en n
épreuves est donnée par l’expression :
𝑛 𝑥
𝑃 𝑋 = 𝑥 = 𝑝 𝑝 ∗ 1 − 𝑝 𝑛−𝑥
𝑛!
= 𝑝𝑥 ∗ 1−𝑝 𝑛−𝑥
𝑥! 𝑛−𝑥 !
x= 0,1,2, … . 𝑛, 0 ≤ 𝑝 ≤ 1
Cette loi est dite binomilae et depend de n et p.
La probabilité cumulative
La probabilité qu'une variable aléatoire soit inférieure ou
égale à une valeur x est appelée probabilité cumulative et
est représentée par P(X ≤ x).
Dans le cas d'une distribution de probabilité discrète, telle
que la distribution binomiale, nous pouvons écrire :
𝑃 𝑋 ≤ 𝑥 = 𝑃(𝑋 = 𝑥)
𝑋=0
Calculez la probabilité que pour un livre de 400 pages, il n'y ait (a)
aucune faute de frappe, et (b) pas plus de cinq fautes de frappe.
𝑃 10 = 𝑃 𝑋 ≤ 10 − 𝑃 𝑋 ≤ 9
= .9574 − .9161 = .0413
Résumé:
Il existe deux types de variables aléatoires :
• Une variable aléatoire discrète dont les valeurs sont dénombrables.
• Une variable aléatoire continue qui peut prendre un nombre indéfini
de valeurs.
Jusqu’à présent, nous avons défini la valeur attendue, la variance et
l'écart type d'une population décrite par une variable aléatoire discrète
et représentée par une distribution de probabilité discrète.
Nous avons également introduit les distributions discrètes bivariées sur
la base d'une application importante en finance.
Enfin, nous avons présenté les deux distributions discrètes les plus
importantes : la distribution binomiale et la distribution de Poisson.
Aperçu:
𝑃 𝑍 > 𝑍𝐴 = 𝐴