Econom Qualitative
Econom Qualitative
Econom Qualitative
PLANIFICATION
ET D’ECONOMIE APPLIQUEE
CTPEA
Devoir 1
Le 13/09/2020
PREMIERE PARTIE
Exercice 1 : On s'intéresse à la distribution des revenus salariaux dans la population, en fonction
des secteurs d'activité. Les travailleurs sont répartis en 4 secteurs :
Secteur Effectif Moyenne des revenus
Industrie 1165 22.65
Services 582 16.64
Transport 333 19.51
Autres 1224 18.31
Tous secteurs 3304 19.67
1. Calculons les moyennes des revenus par secteur à partir de cette estimation et comparons avec
les données fournies :
1.1. Pour i=1 (secteur services) :
REVENU1=17.46+1.53SECT1 ⟹ REVENU1=17.46+1.53∗1 ⟹REVENU1= 18.99
1
2) Il aurait dû recoder les modalités de la variable « Secteur d’activité » en les attribuant les
valeurs de 0 et de 1 et faire une estimation par la méthode MCO des coefficients du modèle
linéaire en excluant l’une des modalités afin d’éviter des problèmes de multicolinéarité. Dans ce
qui suit, on choisit d’exclure la modalité « autres » :
Ainsi, REVENUi = 𝛽0 + 𝛽1 SECT1i + 𝛽2 SECT2i + 𝛽3 SECT3i + 𝑢𝑖
Avec :
1 𝑠𝑖 𝑠𝑒𝑟𝑣𝑖𝑐𝑒𝑠; 1 𝑠𝑖 𝑡𝑟𝑎𝑛𝑠𝑝𝑜𝑟𝑡;
SECT1i = { SECT2i = {
0 𝑠𝑖𝑛𝑜𝑛; 0 𝑠𝑖𝑛𝑜𝑛;
1 𝑠𝑖 𝑖𝑛𝑑𝑢𝑠𝑡𝑟𝑖𝑒;
SECT3i = {
0 𝑠𝑖𝑛𝑜𝑛;
𝛽 = (𝑋′𝑋)−1 𝑋′𝑌
En faisant les calculs sur Excel, on obtient :
18.318
−1.678
𝛽 = 1.192
4.332
( )
L’équation estimée est donc :
̂ 𝑖 = 18.318 − 1.678SECT1i + 1.192SECT2i + 4.332SECT3i
REVENU
Exercice 2 :
QVOD : quantité de vodka consommée par personne et par jour, en litres ;
REVENU : revenu mensuel du ménage ramené au nombre de personnes adultes du ménage, en
105 roubles ;
PVOD : prix du litre de vodka au détail, en 102 roubles
1 𝑠𝑖 𝑄𝑉𝑂𝐷𝑖 > 1
Le modèle s’écrit :Yi = {
0 𝑠𝑖𝑛𝑜𝑛
1 𝑠𝑖 𝑌 ∗ > 0
Y= { avec 𝑌𝑖∗ = 𝑄𝑉𝑂𝐷𝑖 - 1
0 𝑠𝑖𝑛𝑜𝑛
2
1)- Un modèle à probabilité linéaire est estimé et l’équation de régression estimée est :
𝑌 ∗ 𝑖 = 0.2461 + 0.5009REVENUi - 0.1289PVODi
1.1- Calculons la probabilité prédite associée à Y avec la moyenne des régresseurs
P(Yi=1/Xi)= E(Yi/Xi)=Xi𝛽̂
D’où : P(Yi=1/Xi)=0.2461+0.5009 × 0.0326 – 0.1289 × 0.3727
⇒ P(Yi=1/Xi) = 0.2144
Sur Excel, on calcule toutes les valeurs possibles de Xi𝛽̂ pour les questions 1.2 et 2.2
1.5- Calculons la probabilité qu'un ménage de 2 adultes avec un revenu total égal à 10 000
roubles achète plus de 1 litre de vodka par jour au prix de 45 roubles par litre :
REVENU= 10000/(2× 105)
REVENU = 0.05
PVOD= 45/102
PVOD=0.45
P(Yi=1/Xi)= E(Yi/Xi)=Xi𝛽̂
D’où P(Yi=1|Xi)= 0.2461+0.5009 × 0.05– 0.1289 × 0.45
P(Yi=1|Xi) = 0.21314
3
2. La probabilité que Y = 1 est estimée par un modèle Logit, dont les résultats sont :
Variable Estimation Ecart-type t de Student p-value
Constante -0.1721 0.2334 -0.73 0.4609
REVENU 5.9483 2.6182 2.27 0.0231
PVOD -4.7353 0.8899 -5.32 0.0001
2.1) - Ecrivons avec précision le modèle estimé ainsi que la fonction de vraisemblance associée à
ce modèle :
𝑌𝑖 ∗ = -0.1721 + 5.9389REVENUi – 4.7353PVODi
1 exp(𝑋 𝛽)
ℒ(𝛽)= ∏𝑁
𝑖=1[1+exp(𝑋 𝛽)]
1−𝑌𝑖
[1+exp(𝑋𝑖 𝛽)]𝑌𝑖
𝑖 𝑖
ℒ(𝛽)=
1 exp(−𝑜.1721+5.9389𝑅𝐸𝑉𝐸𝑁𝑈 −4.7353𝑃𝑉𝑂𝐷 ))
∏1078
𝑖=1 [ ]1−𝑌𝑖 [1+exp(−𝑜.1721+5.9389𝑅𝐸𝑉𝐸𝑁𝑈𝑖 −4.7353𝑃𝑉𝑂𝐷𝑖 ))]𝑌𝑖
1+exp(−𝑜.1721+5.9389𝑅𝐸𝑉𝐸𝑁𝑈𝑖 −4.7353𝑃𝑉𝑂𝐷𝑖 ) 𝑖 𝑖
2.2) - Calculons la probabilité que le ménage décrit à la question 1.5 achète plus de 1 litre de
vodka.
P(Yi=1/Xi)= E(Yi/Xi)=Λ(Xi𝛽̂ )
Trouvons Xi𝛽̂ :
4
Xi𝛽̂ = -2.0060
1
P(Yi=1/Xi) = 1+exp(2.0060) ⇒ P(Yi=1/Xi)= 0.11857
2.3) - Calculons l'effet marginal associé à la variable revenu pour un ménage vérifiant les
caractéristiques définies en 1.5 ou 2.2.
Pour le modèle avec probabilité linéaire, on calcule l’effet marginal associé à la variable
« revenu » de la manière suivante :
∗
𝜕𝑌̂
EM=𝜕𝑋𝑖 = 𝛽̂𝑗
𝑗𝑖
Pour le modèle Logit, on calcule l’effet marginal associé à la variable « revenu » de la manière
suivante :
Trouvons f(Xi𝛽̂ )
exp(𝑧)
f(Xi𝛽̂ ) =λ(Xi𝛽̂ ) = (1+exp(𝑍))2
Exercice 3 :
CENTRAL : indicatrice égale à 1 si le ménage est équipé d'une climatisation.
PORTABLE : indicatrice égale à 1 si le ménage est équipé d'un climatiseur mobile.
REVENU : revenu annuel du ménage exprimé en logarithme.
NBFOYER : nombre de personnes du ménage.
5
TAILLE : surface de l'habitation.
MAISON : indicatrice égale à 1 si le ménage réside en logement individuel.
L'objectif de cette étude est d'étudier l'impact des variables socioéconomiques relatives au
ménage sur la probabilité d'installer une climatisation (CENTRAL) :
P(Yi=1/Xi)=E(Yi/Xi)= Λ(Xi𝛽̂ )
Trouvons Xi𝛽̂ :
Trouvons f(Xi𝛽̂ )
exp(𝑧)
f(Xi𝛽̂ ) =λ(Xi𝛽̂ ) = (1+exp(𝑍))2
trouvons Xi𝛽̂
Xi𝛽̂ = -1.0831
f(Xi𝛽̂ )= λ(−1.0831)
f(Xi𝛽̂ )= 0.18895
EM= 1.158715 × 0.18895
EM= 0.21893
7
EM = Λ(-2.17744178)- Λ(1.449189994)
EM = 0.10179- 0.40829
EM= -0.3065
Cela indique que le fait qu’un ménage possède un climatiseur mobile, à lui seul, diminue la
probabilité d’installer un climatiseur fixe de 30.65%.
DEUXIEME PARTIE
Une société interroge 200 personnes afin de connaître s'ils sont prêts à s'abonner à un nouveau
journal.
Les variables sont les suivantes:
8
sex : est une chaîne de caractères prenant les valeurs Homme ou Femme
age : l’âge exprimé en année est une variable quantitative.
abo : est qualitative binaire, elle prend la valeur 1 si la personne accepte de s'abonner 0
sinon. C’est notre variable d’intérêt (variable à expliquer).
sitfam : caractérise la situation familiale elle est qualitative et prend 3 modalités (1,2,3),
respectivement marié, célibataire, divorcé
soc : l'appartenance à une classe sociale (ouvrier, employé, cadre) est elle aussi
qualitative à 3 modalités mais est définie comme une chaîne de caractères.
zau : codée de 1 à 7 caractérise la localisation géographique des individus (les valeurs de
1 à 3 caractérisent des pôles de localisation urbaine tandis que les valeurs comprises entre
4 et 7 caractérisent des pôles de localisation plutôt ruraux). Le degré de codage dépend de
la densité de population et de la migration travail-domicile.
sal : le salaire annuel exprimé en euros.
La moyenne, l’écart-type, le minimum et le maximum pour l’ensemble des variables continue sont
donnés en utilisant les fonctions summary et sd. Aussi, les résultats sont présentés dans le tableau
suivant :
age 44 8.6698 18 59
sal 18615.19 7082.49 3678 35972
9
1.2) Calculer la moyenne, l’écart-type, le minimum et le maximum pour les variables continues
selon le type d’abonnement :
1.3- Après avoir donné les principales statistiques descriptives, réalisons un tri à plat pour
l’ensemble des variables qualitatives.
a) Pour la variable sexe on a :
10
b) Pour la variable classe sociale on a :
11
1.4- Faisons un tableau croisé (avec un test de corrélation) entre les variables d’abonnement et le
sexe. En déduire le pourcentage d’hommes et de femmes prêts à s’abonner.
D’après le tableau croisé réalisé, environ 54% de femmes n’ont pas accepter de s’abonner
contre 46% qui ont accepté de s’abonner. De plus, 31.58% des hommes n’ont pas accepté de
s’abonner contre 68.42% qui ont accepté de s’abonner.
Puisque le p-value associé au test est inférieur à 5%, on conclut qu’il existe une liaison entre la
variable sexe et la variable abo. Avec une faible corrélation entre les 2 variables. (r =0.2188).
12
2)-Création de nouvelles variables
2.1)- Compléter la base de données initiale par les variables suivantes :
une variable prenant la valeur 1 lorsque l’individu ne désire pas s’abonner,
des variables dichotomiques associées à la variable caractérisant le sexe,
des variables dichotomiques associées à la variable caractérisant la situation familiale,
13
des variables dichotomiques associées à la variable caractérisant la CSP,
une variable prenant la valeur 1 lorsque l’individu vie en zone urbaine,
des variables caractérisant le croisement entre la zone géographique (zone urbaine) et le
sexe,
une variable égale au salaire divisé par 1000,
une variable égale au salaire au carré divisé par 100000,
une variable égale au carré de l’âge,
une variable égale au logarithme de l’âge.
Les nouvelles variables sont créées à l’aide des lignes de code suivantes :
14
D’où toutes les nouvelles variables ont été créées.
∗
nabo={ 1 𝑠𝑖 𝑌𝑖 > 0 avec Yi*= b+ 𝜀 i: le seuil de tolérance, b étant une constante
0 𝑠𝑖𝑛𝑜𝑛
Estimons le modèle Logit en considérant la variable abo, variable dépendante et sans variable
explicative :
15
L’équation de régression estimée s’écrit comme suit :𝑌̂𝑖 *=0.1805.
Estimons le modèle Logit en considérant la variable nabo, variable dépendante et sans variable
explicative :
16
L’équation de régression estimée s’écrit comme suit :𝑌̂𝑖 *=-0.1805.
Calculons la probabilité moyenne estimée de s’abonner :
La probabilité de s’abonner est donc : P(nabo= 1/ 𝑌𝑖 ∗ > 0)= 0.455
∗
abo={1 𝑠𝑖 𝑌𝑖 > 0 avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝜀 i , Yi* : le seuil de tolérance
0 𝑠𝑖𝑛𝑜𝑛
Les résultats de l’estimation sur R sont :
17
L’équation estimée s’écrit donc :𝑌̂*=0.7732-0.9348sexfem. La variable « sexfem » ainsi que la
constante sont statistiquement significatifs. Puisque le paramètre associé à la variable « sexfem »
est négatif, on peut dire que lorsque l’individu i est une femme, sa chance d’accepter de s’abonner
diminue. En outre, la probabilité moyenne pour une femme de s’abonner est 0.4597 alors que la
probabilité moyenne pour un homme de s’abonner est de 0.6842. En comparant ces probabilités
aux proportions de femmes et d’hommes qui ont acceptés de s’abonner à la question 1.4, 0n
constate qu’elles sont respectivement égales.
La probabilité qu’un homme accepte de s’abonner est 2.1667 fois plus grande que celle de ne pas
s’abonner alors que pour les femmes, la probabilité de s’abonner est 0.8507 fois plus petite que
celle de ne pas s’abonner.
18
- Plusieurs variables
Inclure dans la modélisation les variables associées au sexe, à la situation familiale, à la
situation professionnelle, à la zone d’habitation et
Premier cas : à l’age et au salaire :
Les variables sexfem, marie, cadre et la constante sont statistiquement significatifs avec un seuil
de significativité 𝛼 =5%. Puisque les paramètres associés aux variables age, marie, cadre sont
positifs, on peut dire que lorsque l’âge de l’individu est élevé ou/et l’individu est un cadre ou/et
marié la probabilité que l’individu s’abonne s’élève.
19
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑠𝑎𝑙𝑖 + 𝜀i , Y* : le seuil de tolérance
Troisieme cas : à l’âge, l’âge au carré, au salaire divisé par 1000 et au salaire au carré divisé
par 100000
Le modèle s’écrit sous la forme suivante :
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑎𝑔𝑒𝑐𝑎𝑟𝑖 + 𝛽9 𝑠𝑎𝑙𝑚𝑖 + 𝛽10 𝑠𝑎𝑙𝑐𝑎𝑟𝑖 + 𝜀i , Y* : le
seuil de tolérance
20
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑙𝑜𝑔𝑖 + 𝛽8 𝑙𝑜𝑔𝑠𝑎𝑙𝑖 + 𝜀 i , Y* : le seuil de tolérance
Après avoir analyser les résultats associés aux variables âge et salaire, trouvons une nouvelle façon
d’introduire ces variables dans la modélisation :
Nous avons analysé les résultats associés à ces variables dans le 3eme cas. Essayons de trouver une
nouvelle façon d’introduire ces variables dans la modélisation.
Pour ce faire, nous avons créé 3 variables à partir de la variable âge et 4 variables à partir de la
variable salaire en considérant les quantiles.
21
1- Estimation du nouveau modèle
22
2- Incluons les variables croisées associées au sexe et à la localisation :
D’après les résultats ci-dessus, on conclut que les paramètres associés aux variables être une femme sont
égales (p-value=0.43599 > 0.05 et le paramètre associé à la variable cadre est statistiquement non nul (p-
value = 0.01837<0.05).
23
c) Estimons (sous R) la probabilité moyenne de s’abonner pour :
1. L’individu « moyen » de référence (en précisant ses caractéristiques)
Pour un homme âgé de 42.5 ans non marié, ni célibataire, ni cadre, ni employé, vivant dans
la zone urbaine ayant un salaire de 18615, la probabilité moyenne de s’abonner est de
0.5314.
Pour un homme, marié, cadre, âgé de 50 ans, vivant dans une zone rurale et percevant un
salaire annuel de 30000 € la probabilité moyenne de s’abonner est de 0.9818.
Un homme cadre et marié âgé de 18 ans ayant un salaire divisé par 1000 de 24.204 a la
plus grande probabilité moyenne de s’abonner (p=0.9992)
Une femme employée, célibataire âgée de 35 ans ayant un salaire divisé par 1000 de 3.678
a la plus faible probabilité moyenne de s’abonner (p=0.526)
24
4.- Estimation du modèle Probit
Pour le modèle avec le sexe seulement, calculons les probabilités d’observer 1 pour les hommes
et pour les femmes à partir :
La probabilité d’observer 1 pour les hommes est de 0.6842 alors que la probabilité d’observer 1
pour les femmes est de 0.4597.
√3
Vérifions la relation 𝛽𝑝𝑟𝑜𝑏𝑖𝑡 ≈ 𝛽𝑙𝑜𝑔𝑖𝑡 entre le modèle probit et le modèle Logit :
𝜋
𝜋 √3
𝛽̂ 𝑙𝑜𝑔𝑖𝑡 3 = (0.7732
0.9348
)× 𝜋
25
𝜋
𝛽̂ 𝑙𝑜𝑔𝑖𝑡 3 = (0.4265
0.5156
)
0.4795
𝛽̂ 𝑝𝑟𝑜𝑏𝑖𝑡= ( 0.5808
)
𝜋
D’où : 𝛽̂ 𝑝𝑟𝑜𝑏𝑖𝑡 ≈ 𝛽̂ 𝑙𝑜𝑔𝑖𝑡 3 au dixième près.
1 𝑠𝑖 𝑌 ∗ 𝑖 > 0
abo={ avec, Yi*=𝛽0 + 𝛽1 𝑠𝑒𝑥𝑓𝑒𝑚 + 𝛽2 𝑚𝑎𝑟𝑖𝑒𝑖 + 𝛽3 𝑐𝑒𝑙𝑖𝑏𝑖 + 𝛽4 𝑐𝑎𝑑𝑟𝑒𝑖 +
0 𝑠𝑖𝑛𝑜𝑛
𝛽5 𝑒𝑚𝑝𝑙𝑜𝑦𝑒𝑖 + 𝛽6 𝑢𝑟𝑏𝑎𝑖𝑛𝑖 + 𝛽7 𝑎𝑔𝑒𝑖 + 𝛽8 𝑎𝑔𝑒𝑐𝑎𝑟𝑖 + 𝛽9 𝑠𝑎𝑙𝑚𝑖 + 𝛽10 𝑠𝑎𝑙𝑐𝑎𝑟𝑖 + 𝜀i , Y* : le
seuil de tolérance
Les paramètres associées aux variables sexfem , age, agecar, cadre, sont statistiquement
significatifs avec 𝛼 = 5%. Puisque les paramètres associés aux variables agecar, marie, salm sont
positifs, on conclut que les variables agecar, marie, salm ont une corrélation positive avec la
variable abo. Ainsi, si l’individu i est marié, a un âge au carré élevé, un salaire sur 1000 élevé, la
probabilité qu’il accepte augmente. Par contre, le fait qu’il soit une femme diminue la probabilité
d’abonnement.
26