Chapitre 3
Chapitre 3
Chapitre 3
modèles multinomiaux
Chapitre 3: les modèles multinomiaux non
ordonnés
I. Les choix multiples non ordonnés
𝜕𝑃𝑟 𝑦𝑖 = 𝑗 𝜕𝐹𝑗 𝑥𝑖 , 𝜃
𝑀𝐸𝑖𝑗𝑘 = =
𝜕𝑥𝑖𝑘 𝜕𝑥𝑖𝑘
II. Les choix multiples non ordonnés
L'estimation est basée sur le maximum de vraisemblance (ML). Nous
utilisons un formulaire pratique pour la densité qui généralise la méthode
utilisée pour les modèles de résultats binaires. La densité pour l'individu
s'écrit comme: 𝑚
𝑦𝑖1 𝑦𝑖𝑚 𝑦𝑖𝑗
𝑓 𝑦𝑖 = 𝑝𝑖1 ×∙∙∙× 𝑝𝑖𝑚 = ෑ 𝑝𝑖𝑗
𝑗=1
Où 𝑦𝑖1 , … , 𝑦𝑖𝑚 sont 𝑚 variables indicatrices avec 𝑦𝑖𝑗 = 1 si 𝑦𝑖 = 1 et 𝑦𝑖𝑗 = 0
sinon.
Pour chaque individu, exactement un des 𝑦1 , … , 𝑦𝑚 sera différent de 0. Par
exemple, si 𝑦𝑖 = 3, donc 𝑦𝑖3 = 1, l’autre 𝑦𝑖𝑗 = 0, et avec la simplification,
𝑓 𝑦𝑖 = 𝑦𝑖3
II. Les choix multiples non ordonnés
La fonction de vraisemblance pour un échantillon de N observations indépendantes est
le produit des N densités, soit :
𝑁 𝑚
𝑦
𝐿 = ෑ ෑ 𝑝𝑖𝑗𝑖𝑗
𝑖=1 𝑗=1
maximise la fonction de
L’estimateur du maximum de vraisemblance (MLE), 𝜃,
log-vraisemblance :
𝑁 𝑚
𝑙𝑛𝐿 𝜃 = 𝑦𝑖𝑗 𝑙𝑛 𝐹𝑗 𝑥𝑖 , 𝜃
𝑖=1 𝑗=1
II. Les choix multiples non ordonnés
Pour les modèles multinomiaux, le 𝑝𝑠𝑒𝑢𝑑𝑜 − 𝑅2 a une interprétation
intéressante. Les modèles non emboités peuvent être comparés en
utilisant le critère d’information (AIC) et les mesures associées.
Pour des données multinomiales, la seule erreur de spécification
possible est celle de 𝐹𝑗 𝑥𝑖 , 𝜃 . Il existe une large gamme de modèle
pour 𝐹𝑗 ∙ , avec la convenance que le choix dépend particulièrement
de l’application qu’on envisage de faire.
II. Les choix multiples non ordonnés
Certains régresseurs, tels que le genre, ne varient pas entre les alternatives
et sont appelés régresseurs spécifiques à un cas (ou invariant alternatif
caractéristiques individuelles). D'autres variables explicatives, telles que le
prix, peuvent varier d'une variante à l'autre et sont appelées régresseurs
variables ou spécifiques (caractéristiques des choix).
Les commandes utilisées pour l'estimation du modèle multinomial peuvent
varier en fonction de la forme des régresseurs. Dans le cas le plus simple,
tous les régresseurs sont spécifiques, et par exemple, nous utilisons la
commande mLogit. Dans les applications les plus compliquées, certains ou
tous les régresseurs sont spécifiques et, par exemple, nous utilisons la
commande asclogit. Ces commandes peuvent exiger que les données soient
organisées de différentes manières.
II. Les choix multiples non ordonnés (ARUM)
Pour les résultats multinomiaux non ordonnés qui découlent des choix
individuels, les économètres privilégient les modèles issus de la
maximisation de l'utilité. Cela conduit à des modèles multinomiaux qui sont
beaucoup moins utilisés dans d'autres branches des statistiques appliquées.
Pour un individu 𝑖 et une alternative 𝑗, nous supposons que l’utilité 𝑈𝑖𝑗 est la
somme d’une composante déterministe, 𝑉𝑖𝑗 , qui dépends des régresseurs et
de paramètres inconnus, et d’une composante aléatoire non observable 𝜀𝑖𝑗 :
𝑈𝑖𝑗 = 𝑉𝑖𝑗 + 𝜀𝑖𝑗
Ceci est appelé modèle de l’utilité additive ou additive-utility model (ARUM).
II. Les choix multiples non ordonnés (ARUM)
Nous observons le choix 𝑦𝑖 = 𝑗 si l’alternative 𝑗 fournit l’utilité la plus
élevée de toutes les autres alternatives. Il s’ensuit que :
′
𝑉𝑖𝑗 = 𝑥𝑖𝑗 𝛽 + 𝑧𝑖′ 𝛾𝑗
où 𝑥𝑖𝑗 sont des alternative-specific regressors et 𝑧𝑗 des case-specific
regressors. Différentes hypothèses sur la distribution conjointe de
𝜀𝑖1 , … , 𝜀𝑖𝑚 conduit à différents modèles multinomiaux avec différentes
spécifications pour 𝐹𝑗 𝑥𝑖 , 𝜃 . Puisque les probabilités dépendent de la
différences d’erreurs, seuls 𝑚 − 1 des erreurs sont libres de varier, et
de même, seuls 𝑚 − 1 des 𝛾𝑗 peuvent varier.
1. Le modèle Logit conditionnel
𝛽𝑉𝑖𝑗∗
𝑒
𝑃𝑟 𝑦𝑖 = 𝑗 = 𝐽 ∗
1 𝑉
+ σ𝑘=1 𝑒 𝑖𝑘
1. Le modèle Logit conditionnel
Cette équation donne la probabilité qu’un individu 𝑖 caractérisé par la
∗ ∗
valeur de variables 𝑉𝑖1,…, 𝑉𝑖𝑘 , … , 𝑉𝑖𝐽∗ choisisse le 𝑗. Ce modèle est connu
sous le nom de modèle Logit conditionnel de McFadden. Il est estimé
par la méthode du maximum de vraisemblance. Mais cette
modélisation présente un inconvénient majeur: le rapport entre la
probabilité de choisir un mode de transport 𝑗 et un mode de transport
alternative 𝑙 ne dépend pas des autres modes de transport qui sont
proposes à l’individu:
𝛽𝑉𝑖𝑗∗
𝑃𝑟 𝑦𝑖 = 𝑗 𝑒 𝛽 𝑉𝑖𝑗∗ −𝑉𝑖𝑙∗
= =𝑒
𝑃𝑟 𝑦𝑖 = 𝑙 𝑒 𝛽𝑉𝑖𝑙∗
1. Le modèle Logit conditionnel
𝑃𝑟 𝑦𝑖 = 𝑗
𝑙𝑛 = 𝛽 𝑉𝑖𝑗∗ − 𝑉𝑖𝑙∗
𝑃𝑟 𝑦𝑖 = 𝑙
On constate alors que 𝛽 est une semi élasticité: la dérivée du
logarithme d’un rapport de probabilité par rapport à une différence
dans les variables explicatives.
1. Le modèle Logit conditionnel
L’impact marginal mesure la variation de la probabilité que l’individu 𝑖
choisisse le mode de transport 𝑗 quand 𝑉𝑖𝑗∗ ou 𝑉𝑖𝑙∗ (𝑙 ≠ 𝑘) augmente
d’une unité. Il est donné par la formule suivante :
𝜕𝑃𝑟 𝑦𝑖 = 𝑗
∗ = 𝛽𝑃𝑟 𝑦𝑖 = 𝑗 1 − 𝑃𝑟 𝑦𝑖 = 𝑗
𝜕𝑉𝑖𝑗
𝜕𝑃𝑟 𝑦𝑖 = 𝑗
∗ = −𝛽𝑃𝑟 𝑦𝑖 = 𝑗 𝑃𝑟 𝑦𝑖 = 𝑙
𝜕𝑉𝑖𝑙
Le signe de l’effet marginal est donc celui du coefficient.
2. Modèle Logit multinomial
𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑗
𝑝𝑖𝑗 = , 𝑗 = 1, … , 𝑚
σ𝑚
𝑙=1 𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑙
Pour assurer l'identification du modèle, 𝛽𝑗 est fixé à zéro pour l'une des
catégories, et les coefficients sont ensuite interprétés en respectant
cette catégorie, appelée catégorie de base.
Ainsi, 𝛽መ𝑗 peut être considéré comme les paramètres d’un modèle Logit
binaire entre l’alternative 𝑗 et l’alternative 1. Ainsi, l’interprétation
variera par rapport à la catégorie de base et est clairement plus utile
lorsqu’il existe une catégorie de base naturelle.
Certains chercheurs trouvent très utile de passer à la transformation en
ratios de chance (odds ratios) ou en ratios de risque relatif (relative-risk
ratio), comme dans le cas du Logit binaire.
2. Modèle Logit multinomial
Le odds ratio ou relative-risk ratio de choisir l’alternative 𝑗 au lieu de
l’alternative 1 est donné par :
𝑃𝑟 𝑦𝑖 = 𝑗
= 𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑗
𝑃𝑟 𝑦𝑖 = 1
Ainsi, 𝑒 𝛽𝑗𝑟 calcule le changement proportionnel du ratio de risque
relatif du choix de l’alternative 𝑗 au lieu de l’alternative 1. 𝑥𝑖𝑟 change
par unité. L'option rrr de mLogit fournit des estimations de coefficient
transformées en ratios de risque relatif. (voir TP).
2. Modèle Logit multinomial
Pour le modèle MNL, les MEs peuvent être exprimés comme:
𝜕𝑝𝑖𝑗
= 𝑝𝑖𝑗 𝛽𝑗 − 𝛽𝑖ҧ
𝜕𝑥𝑖
où 𝛽𝑖ҧ = σ𝑚𝑙=1 𝑝𝑖𝑙 𝛽𝑙 est une moyenne pondérée par la probabilité des 𝛽𝑙 .
Les effets marginaux varient avec le point d’évaluation, 𝑥𝑖 , puisque 𝑝𝑖𝑗
varie avec 𝑥𝑖 . Les signes des coefficients de la régression ne donnent pas
les signes des effets marginaux. Pour une variable 𝑥 donnée, l’effet
marginal est positive si 𝛽𝑗 > 𝛽𝑖ҧ .
3. La propriété de l’IIA
Soit alors 𝐶 l’espace total des choix. Soit 𝐴 un sous-ensemble de 𝐶. Soit 𝛽መ𝐶 et
𝛽መ𝐴 les valeurs des paramètres estimés des deux Logit estimés
respectivement sur 𝐶 et 𝐴. Soit 𝑉𝐶 et 𝑉𝐴 les matrices de variance-covariance
correspondantes des deux modèles.
3. La propriété de l’IIA
Certains paramètres peuvent être estimés sur 𝐶 mais pas sur 𝐴. Par
exemple, supposons que 𝐶 soit constitué des choix 1,2, … , 𝐽 et 𝐴 des
choix 2, … , 𝐽 . Supposons, pour fixer les idées, que les variables
explicatives du modèle soient des caractéristiques de l’individu.
Les paramètres de ces variables associés au choix 1 peuvent être
identifiés et estimés sur 𝐶. En revanche, ils ne peuvent pas être
identifiés (donc estimés) sur 𝐴 , puisque par définition de 𝐴 on
n’observe pas d’individu choisissant l’option 1.
3. La propriété de l’IIA
Il faut donc les les exclure de 𝛽መ𝐶 si on veut comparer les paramètres
estimés sur 𝐶 et ceux estimés sur 𝐴. L’ensemble des paramètres 𝛽መ𝐶 est
donc remplacé par le sous-ensemble 𝛽መ𝐶 ′ . Soit alors 𝑉𝐶 ′ la sous matrice
de 𝑉𝐶 correspondant à cette restriction.
Le test est construit sur l’idée suivante. Si l’hypothèse IIA est valide, 𝛽መ𝐶 ′
et 𝛽መ𝐴 sont tous deux convergents. 𝛽መ𝐶 ′ est efficace mais 𝛽መ𝐴 ne l’est pas à
cause de perte d’information due à la suppression d’un (ou de
plusieurs) choix. Par conséquent, la matrice 𝑉𝐴 − 𝑉𝐶 ′ est définie
positive.
3. La propriété de l’IIA
La statistique de test est alors :
′ −1
መ መ
𝑆 = 𝛽𝐶 ′ − 𝛽𝐴 𝑉𝐴 − 𝑉𝐶 ′ 𝛽መ𝐶 ′ − 𝛽መ𝐴
sous l’hypothèse nulle que la propriété IIA est valide, cette statistique
suit la loi du 𝜒 2 dont le nombre de degré de liberté est égal au rang de
la matrice 𝑉𝐴 − 𝑉𝐶 ′ .
Dans la pratique, on choisira 𝐴 en excluant de 𝐶 un choix qui ressemble
à un autre présent dans 𝐴. Dans l’exemple du bus bleu/bus rouge, c’est
le bus rouge ou le bus bleu qui doit être exclu. Le test conduira (très
probablement) au rejet de l’hypothèse IIA.
3. La propriété de l’IIA
𝐽 = 𝐽1 + 𝐽2 + ⋯ + 𝐽𝐿
options possibles, indicés par 𝑗. Le processus de décision peut être
représenté par un arbre à deux niveaux. Le niveau agrégé, le niveau 2
représente la répartition de tous les choix possibles en différents
groupes.
4. Modèle Logit emboité
Lorsqu’un des groupes n’en contient qu’un, on dit que le modèle est
partiellement dégénéré. Le schéma suivant donne l’exemple d’un arbre
où 𝐿 = 2, et où le groupe 𝑙 = 1 contient 2 choix possible (𝐽1 = 2) et le
groupe 𝑙 = 2 en contient 3 (𝐽2 = 3).
2 = 3).
4. Modèle Logit emboité
l =1 l=2 niveau 2
où 𝑧𝑗 varies entre les groupes et seul 𝑥𝑗𝑘 varies entre les groupes et les
branches. Pour simplifier l’écriture, nous avons supprimé l’indice 𝑖 et
nous avons considéré uniquement les alternative-specific regressors. Si
tous les régresseurs sont case-spécific regressor, nous aurons donc :
𝑧𝑗′ 𝛼 + 𝑥 ′ 𝛽𝑗𝑘 + 𝜀𝑗𝑘 𝑎𝑣𝑒𝑐 𝑢𝑛 𝑑𝑒𝑠 𝛽𝑗𝑘 = 0
4. Modèle Logit emboité
Le modèle Logit emboité suppose que les (𝜀𝑗1, 𝜀𝑗2 , … , 𝜀𝑗𝐾 ) sont
distribués selon une loi de Gumbel multivariée de valeur extrême.
Ainsi, la probabilité que l’alternative 𝑗, 𝑘 soit choisie es égale à :
𝑒𝑥𝑝 𝑧𝑗′ 𝛼 + 𝜏𝑗 𝐼𝑗 ′
𝑒𝑥𝑝 𝑥𝑗𝑘 𝛽𝑗 ∕ 𝜏𝑗
𝑝𝑗𝑘 = 𝑝𝑗 × 𝑝𝑘|𝑗 = ×
σ𝐽𝑚=1 𝑒𝑥𝑝 ′
𝑧𝑚 𝛼 + 𝜏𝑚 𝐼𝑚
𝐾𝑗
σ𝑙=1 𝑒𝑥𝑝 𝑥𝑗𝑙′ 𝛽𝑗 ∕ 𝜏𝑗
𝐾𝑗
𝐼𝑗 = 𝑙𝑛 𝑒𝑥𝑝 𝑥𝑗𝑙′ 𝛽𝑗 ∕ 𝜏𝑗
𝑙=1
4. Modèle Logit emboité
𝐼𝑗 est la « variable d’inclusion (inclusive value ou log sum). Les
probabilités du Logit emboité sont le produit des probabilités 𝑝𝑗 𝑝𝑘|𝑗 .
Le modèle produit des probabilités positives dont leur somme est égale
1 pour toute valeur de 𝜏𝑗 appelés paramètres de dissimililarité. Mais la
théorie de l’utilité aléatoire impose la restriction :
0 ≤ 𝜏𝑗 ≤ 1
Et les valeurs en dehors de cet intervalle signifient que le modèle, bien
que mathématiquement correct, est incompatible avec la théorie de
l'utilité aléatoire.
4. Modèle Logit emboité
Dans cette formulation, si 𝜏 est égal à 1, le modèle LME se réduit à un
modèle LM standard. C’est en permettant au terme 𝜏 de différer de
l’unité que le modèle LME relâche l’hypothèse d’IIA à travers les
différentes “branches” de l’arbre de décision. Elle est maintenue entre
les choix appartenant à un même groupe mais est relâchée entre les
groupes.
Sa complexité augmente géométriquement avec le nombre de niveaux
dans l’arbre de décision. Cependant, il se montre très flexible à l’usage
et est très utilisé, en particulier dans la modélisation des choix des
consommateurs.