Chapitre 3

Deuxième partie: les
modèles multinomiaux
Chapitre 3: les modèles multinomiaux non
ordonnés
I. Les choix multiples non ordonnés
1. Modèle Logit multinomial

2. Le modèle Logit conditionnel
3. Le modèle Logit emboité
II. Les choix multiples non ordonnés
Nous proposons une discussion générale sur les modèles de régression
multinomiale. Les sections suivantes détaillent les modèles de
régression multinomiale les plus couramment utilisés qui
correspondent aux formes fonctionnelles particulaires pour les
probabilités de chaque alternative.
Il est utile de distinguer le modèle Logit conditionnel et le modèle Logit
multinomial, le modèle Logit emboité, le modèle Probit multinomial.
Le choix, 𝑦𝑖 pour l’individu 𝑖 est un des 𝑚 alternatives. Nous fixons 𝑦𝑖 =
𝑗 si le choix est la 𝑗𝑡ℎ alternative, 𝑗 = 1,2, … , 𝑚. Les valeurs 1,2, … , 𝑚
sont arbitraire et les mêmes résultats de régression sont obtenu si, par
exemple nous utilisons les valeurs 𝑗 = 3, 5, 8, …. L’ordre des valeurs n’a
pas d’importance non plus, sauf si un modèle ordonné est utilisé.
La probabilité pour que le choix de l’individu 𝑖 soit l’alternative 𝑗,
conditionnellement aux régresseurs 𝑥𝑖 est :
𝑝𝑖𝑗 = 𝑃𝑟 𝑦𝑖 = 𝑗 = 𝐹𝑗 𝑥𝑖 , 𝜃 , 𝑗 = 1,2, … , 𝑚, 𝑖 = 1,2, … , 𝑁
Où les différentes formes fonctionnelles 𝐹𝑗 ∙ correspondent aux
différents modèles multinomiaux.
Seulement 𝑚 − 1 des probabilités peuvent être librement spécifiées
puisque la somme des probabilités doit être égale à 1.
Par exemple,
𝑚−1
𝐹𝑚 𝑥𝑖 , 𝜃 = 1 − ෍ 𝐹𝑗 𝑥𝑖 , 𝜃
𝑗=1
Les modèles multinomiaux nécessitent donc une normalisation.
Certaines commandes sur Stata, y compris asclogit, permettent à des
individus différents de faire face à des ensembles de choix différents de
sorte que, par exemple, un individu puisse choisir seulement entre les
alternatives 1, 3, 𝑎𝑛𝑑 4.
Les paramètres des modèles multinomiaux sont généralement non
interprétables. En particulier, un coefficient positif ne signifie pas
nécessairement qu'une augmentation des régresseurs entraîne une
augmentation de la probabilité de sélection d'un résultat. Au lieu de
cela, nous pouvons calculer les effets marginaux (MEs). Pour un
individu 𝑖, l’effet marginal d’un changement de la 𝑘𝑡ℎ sur la probabilité
que l'alternative 𝑗 soit le résultat est :
𝜕𝑃𝑟 𝑦𝑖 = 𝑗 𝜕𝐹𝑗 𝑥𝑖 , 𝜃
𝑀𝐸𝑖𝑗𝑘 = =
𝜕𝑥𝑖𝑘 𝜕𝑥𝑖𝑘
L'estimation est basée sur le maximum de vraisemblance (ML). Nous
utilisons un formulaire pratique pour la densité qui généralise la méthode
utilisée pour les modèles de résultats binaires. La densité pour l'individu
s'écrit comme: 𝑚
𝑦𝑖1 𝑦𝑖𝑚 𝑦𝑖𝑗
𝑓 𝑦𝑖 = 𝑝𝑖1 ×∙∙∙× 𝑝𝑖𝑚 = ෑ 𝑝𝑖𝑗
𝑗=1
Où 𝑦𝑖1 , … , 𝑦𝑖𝑚 sont 𝑚 variables indicatrices avec 𝑦𝑖𝑗 = 1 si 𝑦𝑖 = 1 et 𝑦𝑖𝑗 = 0
sinon.
Pour chaque individu, exactement un des 𝑦1 , … , 𝑦𝑚 sera différent de 0. Par
exemple, si 𝑦𝑖 = 3, donc 𝑦𝑖3 = 1, l’autre 𝑦𝑖𝑗 = 0, et avec la simplification,
𝑓 𝑦𝑖 = 𝑦𝑖3
La fonction de vraisemblance pour un échantillon de N observations indépendantes est
le produit des N densités, soit :
𝑁 𝑚
𝑦
𝐿 = ෑ ෑ 𝑝𝑖𝑗𝑖𝑗
𝑖=1 𝑗=1
෠ maximise la fonction de
L’estimateur du maximum de vraisemblance (MLE), 𝜃,
log-vraisemblance :
𝑁 𝑚
𝑙𝑛𝐿 𝜃 = ෍ ෍ 𝑦𝑖𝑗 𝑙𝑛 𝐹𝑗 𝑥𝑖 , 𝜃
𝑖=1 𝑗=1
Pour les modèles multinomiaux, le 𝑝𝑠𝑒𝑢𝑑𝑜 − 𝑅2 a une interprétation
intéressante. Les modèles non emboités peuvent être comparés en
utilisant le critère d’information (AIC) et les mesures associées.
Pour des données multinomiales, la seule erreur de spécification
possible est celle de 𝐹𝑗 𝑥𝑖 , 𝜃 . Il existe une large gamme de modèle
pour 𝐹𝑗 ∙ , avec la convenance que le choix dépend particulièrement
de l’application qu’on envisage de faire.
Certains régresseurs, tels que le genre, ne varient pas entre les alternatives
et sont appelés régresseurs spécifiques à un cas (ou invariant alternatif
caractéristiques individuelles). D'autres variables explicatives, telles que le
prix, peuvent varier d'une variante à l'autre et sont appelées régresseurs
variables ou spécifiques (caractéristiques des choix).
Les commandes utilisées pour l'estimation du modèle multinomial peuvent
varier en fonction de la forme des régresseurs. Dans le cas le plus simple,
tous les régresseurs sont spécifiques, et par exemple, nous utilisons la
commande mLogit. Dans les applications les plus compliquées, certains ou
tous les régresseurs sont spécifiques et, par exemple, nous utilisons la
commande asclogit. Ces commandes peuvent exiger que les données soient
organisées de différentes manières.
II. Les choix multiples non ordonnés (ARUM)
Pour les résultats multinomiaux non ordonnés qui découlent des choix
individuels, les économètres privilégient les modèles issus de la
maximisation de l'utilité. Cela conduit à des modèles multinomiaux qui sont
beaucoup moins utilisés dans d'autres branches des statistiques appliquées.
Pour un individu 𝑖 et une alternative 𝑗, nous supposons que l’utilité 𝑈𝑖𝑗 est la
somme d’une composante déterministe, 𝑉𝑖𝑗 , qui dépends des régresseurs et
de paramètres inconnus, et d’une composante aléatoire non observable 𝜀𝑖𝑗 :
𝑈𝑖𝑗 = 𝑉𝑖𝑗 + 𝜀𝑖𝑗
Ceci est appelé modèle de l’utilité additive ou additive-utility model (ARUM).
Nous observons le choix 𝑦𝑖 = 𝑗 si l’alternative 𝑗 fournit l’utilité la plus
élevée de toutes les autres alternatives. Il s’ensuit que :
𝑃𝑟 𝑦𝑖 = 𝑗 = 𝑃𝑟 𝑈𝑖𝑗 ≥ 𝑈𝑖𝑘 , 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑘

𝑃𝑟 𝑦𝑖 = 𝑗 = 𝑃𝑟 𝑈𝑖𝑘 − 𝑈𝑖𝑗 ≤ 0 , 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑘
𝑃𝑟 𝑦𝑖 = 𝑗 = 𝑃𝑟 𝜀𝑖𝑘 − 𝜀𝑖𝑗 ≤ 𝑉𝑖𝑗 − 𝑉𝑖𝑘 , 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑘
Les modèles multinomiaux standard spécifient que :
′
𝑉𝑖𝑗 = 𝑥𝑖𝑗 𝛽 + 𝑧𝑖′ 𝛾𝑗
où 𝑥𝑖𝑗 sont des alternative-specific regressors et 𝑧𝑗 des case-specific
regressors. Différentes hypothèses sur la distribution conjointe de
𝜀𝑖1 , … , 𝜀𝑖𝑚 conduit à différents modèles multinomiaux avec différentes
spécifications pour 𝐹𝑗 𝑥𝑖 , 𝜃 . Puisque les probabilités dépendent de la
différences d’erreurs, seuls 𝑚 − 1 des erreurs sont libres de varier, et
de même, seuls 𝑚 − 1 des 𝛾𝑗 peuvent varier.
On considère par exemple une étude sur le choix des modes de

transport urbain (métro, bus, véhicule personnel etc.,.). l’individu 𝑖
retire une utilité 𝑈𝑖𝑗 d’un mode de transport 𝑗. On suppose que cette
utilité est une fonction linéaire d’une variable explicative 𝑉𝑖𝑗 et d’un
terme d’erreur 𝜀𝑖𝑗 .
Dans ce modèle, la variable explicative varie avec les individus et les
modalité de transport. Par exemple, elle peut être le gain moyen en
temps de transport du domicile au lieu de travail de l’individu 𝑖 lorsque
celui ci utilise un moyen de transport 𝑗.
L’écart aléatoire peut être interprété comme un choc affectant les gouts
de l’individu:
𝑈𝑖𝑗 = 𝛼 + 𝛽𝑉𝑖𝑗 + 𝜀𝑖𝑗

Une pente 𝛽 positive signifie donc que l’utilité de l’individu est
positivement influencée par les économies de temps qu’il réalise en
choisissant un certain mode de transport; on suppose que l’individu a
le choix entre 𝐽 + 1 modes de transport.
Il choisit le mode de transport 𝑗(𝑦𝑖𝑗 = 𝑗) qui lui procure la plus grande
utilité:
𝑃𝑟 𝑦𝑖 = 𝑗 = 𝑃𝑟 𝑈𝑖𝑗 = 𝑚𝑎𝑥 𝑈𝑖0 , … , 𝑈𝑖𝑘 , … , 𝑈𝑖𝐽
Pour que l’estimation du modèle soit possible, on doit faire l’hypothèse

sur la distribution de 𝜀𝑖𝑗 .
McFadden (1973) montre que si les 𝐽 + 1 écarts aléatoires sont
indépendants et identiquement distribués suivant une loi de Weibull
alors, la probabilité de choisir un mode de transport est donnée par
l’équation suivante:
𝑒 𝛼+𝛽𝑉𝑖𝑗
𝑃𝑟 𝑦𝑖 = 𝑗 = 𝐽
σ𝑘=0 𝑒 𝛼+𝛽𝑉𝑖𝑘
On normalise la variable explicative en posant:
𝑉𝑖𝑗∗ = 𝑉𝑖𝑗 − 𝑉𝑖0

Par exemple, on suppose que le mode de transport 0 ou mode de
transport de référence est la marche à pied. Dans ce cas, 𝑉𝑖𝑗∗ représente
le gain de temps de transport procure à l’individu 𝑖 quand celui-ci
utilise le mode transport 𝑗 plutôt que la marche à pied.
La probabilité devient alors:
𝛽𝑉𝑖𝑗∗
𝑒
𝑃𝑟 𝑦𝑖 = 𝑗 = 𝐽 ∗
1 𝑉
+ σ𝑘=1 𝑒 𝑖𝑘
Cette équation donne la probabilité qu’un individu 𝑖 caractérisé par la
∗ ∗
valeur de variables 𝑉𝑖1,…, 𝑉𝑖𝑘 , … , 𝑉𝑖𝐽∗ choisisse le 𝑗. Ce modèle est connu
sous le nom de modèle Logit conditionnel de McFadden. Il est estimé
par la méthode du maximum de vraisemblance. Mais cette
modélisation présente un inconvénient majeur: le rapport entre la
probabilité de choisir un mode de transport 𝑗 et un mode de transport
alternative 𝑙 ne dépend pas des autres modes de transport qui sont
proposes à l’individu:
𝛽𝑉𝑖𝑗∗
𝑃𝑟 𝑦𝑖 = 𝑗 𝑒 𝛽 𝑉𝑖𝑗∗ −𝑉𝑖𝑙∗
= =𝑒
𝑃𝑟 𝑦𝑖 = 𝑙 𝑒 𝛽𝑉𝑖𝑙∗
Selon cette dernière équation, le rapport des probabilités dépend

uniquement de la différence dans l’économie du temps (par rapport à
la marche à pied) entre le mode 𝑗 et le mode le 𝑙. Cette propriété est
connue sous le nom d’invariance du ratio de probabilité par rapport
aux autres modes de transport (“Independence of Irrelevant
Alternatives”).
Des modèles alternatifs ont été développés: les modèles Probit

multinomiaux et les modèles Logit emboités. Les premiers autorisent la
corrélation entre les 𝜀𝑖𝑗 mais dans la pratique leur estimation est
difficile quand le nombre de modalités dépasse 4. Les seconds reposent
sur le regroupement des modes de transport voisins.
Pour interpréter les coefficients du modèle Logit conditionnel, il est
utile de linéariser l’équation du rapport des probabilité:
𝑃𝑟 𝑦𝑖 = 𝑗
𝑙𝑛 = 𝛽 𝑉𝑖𝑗∗ − 𝑉𝑖𝑙∗
𝑃𝑟 𝑦𝑖 = 𝑙
On constate alors que 𝛽 est une semi élasticité: la dérivée du
logarithme d’un rapport de probabilité par rapport à une différence
dans les variables explicatives.
L’impact marginal mesure la variation de la probabilité que l’individu 𝑖
choisisse le mode de transport 𝑗 quand 𝑉𝑖𝑗∗ ou 𝑉𝑖𝑙∗ (𝑙 ≠ 𝑘) augmente
d’une unité. Il est donné par la formule suivante :
𝜕𝑃𝑟 𝑦𝑖 = 𝑗
∗ = 𝛽𝑃𝑟 𝑦𝑖 = 𝑗 1 − 𝑃𝑟 𝑦𝑖 = 𝑗
𝜕𝑉𝑖𝑗
𝜕𝑃𝑟 𝑦𝑖 = 𝑗
∗ = −𝛽𝑃𝑟 𝑦𝑖 = 𝑗 𝑃𝑟 𝑦𝑖 = 𝑙
𝜕𝑉𝑖𝑙
Le signe de l’effet marginal est donc celui du coefficient.
De nombreuses études multinomiales sont basées sur des bases de

données qui ne comportent que des variables spécifiques aux cas, car
les variables explicatives sont généralement observées uniquement
pour l'alternative choisie et non pour les autres alternatives. Le modèle
le plus simple est le modèle Logit multinomial car le calcul est simple et
les estimations de paramètres sont plus faciles à interpréter que dans
d'autres modèles multinomiaux.
Le modèle multinomial Logit (MNL) peut être utilisé lorsque tous les
régresseurs sont spécifiques à un cas. Le modèle est spécifié comme
suit:
𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑗
𝑝𝑖𝑗 = , 𝑗 = 1, … , 𝑚
σ𝑚
𝑙=1 𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑙
où 𝑥𝑖 sont case-specific regressors, ici ,il s’agit de la constante et de la

variable revenu. De façon claire, ce modèle assure que : 0 < 𝑝𝑖𝑗 < 1
and σ𝑚𝑗=1 𝑝𝑖𝑗 = 1.
Pour assurer l'identification du modèle, 𝛽𝑗 est fixé à zéro pour l'une des
catégories, et les coefficients sont ensuite interprétés en respectant
cette catégorie, appelée catégorie de base.
Le coefficient dans le modèle multinomial peut être interprété de la

même manière que les paramètres du modèle binaire Logit sont
interprétés, la comparaison étant la catégorie de base.
C’est le résultat du modèle Logit multinomial qui est équivalente à une
série de modèles Logit par paire. Pour simplifier, nous avons défini la
catégorie de base comme étant la première catégorie. Alors le modèle
MNL défini précédemment implique que:
𝑃𝑟 𝑦𝑖 = 𝑗 𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑗
𝑃𝑟 𝑦𝑖 = 𝑗|𝑦𝑖 = 𝑗 𝑜𝑢 1 = =
𝑃𝑟 𝑦𝑖 = 𝑗 + 𝑃𝑟 𝑦𝑖 = 1 1 + 𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑗
′
En utilisant 𝛽1 = 0 la la simplification de σ𝑚
𝑙=1 𝑒𝑥𝑝 𝑥𝑖 𝛽𝑙 et numérateur
et au dénominateur.
Ainsi, 𝛽መ𝑗 peut être considéré comme les paramètres d’un modèle Logit
binaire entre l’alternative 𝑗 et l’alternative 1. Ainsi, l’interprétation
variera par rapport à la catégorie de base et est clairement plus utile
lorsqu’il existe une catégorie de base naturelle.
Certains chercheurs trouvent très utile de passer à la transformation en
ratios de chance (odds ratios) ou en ratios de risque relatif (relative-risk
ratio), comme dans le cas du Logit binaire.
Le odds ratio ou relative-risk ratio de choisir l’alternative 𝑗 au lieu de
l’alternative 1 est donné par :
𝑃𝑟 𝑦𝑖 = 𝑗
= 𝑒𝑥𝑝 𝑥𝑖′ 𝛽𝑗
𝑃𝑟 𝑦𝑖 = 1
Ainsi, 𝑒 𝛽𝑗𝑟 calcule le changement proportionnel du ratio de risque
relatif du choix de l’alternative 𝑗 au lieu de l’alternative 1. 𝑥𝑖𝑟 change
par unité. L'option rrr de mLogit fournit des estimations de coefficient
transformées en ratios de risque relatif. (voir TP).
Pour le modèle MNL, les MEs peuvent être exprimés comme:
𝜕𝑝𝑖𝑗
= 𝑝𝑖𝑗 𝛽𝑗 − 𝛽𝑖ҧ
𝜕𝑥𝑖
où 𝛽𝑖ҧ = σ𝑚𝑙=1 𝑝𝑖𝑙 𝛽𝑙 est une moyenne pondérée par la probabilité des 𝛽𝑙 .
Les effets marginaux varient avec le point d’évaluation, 𝑥𝑖 , puisque 𝑝𝑖𝑗
varie avec 𝑥𝑖 . Les signes des coefficients de la régression ne donnent pas
les signes des effets marginaux. Pour une variable 𝑥 donnée, l’effet
marginal est positive si 𝛽𝑗 > 𝛽𝑖ҧ .
3. La propriété de l’IIA
On a vu précédemment que le rapport des probabilités dépend

uniquement de la différence dans les économies de temps (par rapport
à la marche au pied) entre le mode 𝑗 et le mode 𝑙 de transport. Cette
propriété est connue sous le nom d’invariance du ratio de probabilités
par rapport aux autres modes de transport (‘’Independence of
Irrelevant Alternatives’’).
Pour comprendre la signification de cette propriété, considérons

l’exemple de McFadden. Initialement un voyageur peut choisir entre
prendre sa voiture et utiliser un bus rouge. On suppose que le rapport
des probabilités est initialement de 1 : autrement dit, les voyageurs se
répartissent équitablement entre les deux modes de transport. Un
mode de transport alternatif es proposé : un bus bleu.
Selon la propriété d’invariance, le rapport de probabilité entre
l’utilisation de la voiture et celle du bus rouge reste inchangé. Mais les
deux bus étant des substituts parfaits, le rapport de probabilités entre
l’utilisation d’un bus rouge et celle d’un bus bleu est de 1. La somme
des probabilités étant de 1, cela signifie que les trois modes de
transport doivent avoir la même probabilité d’utilisation, à savoir 1/3.
Or on ne voit pas pourquoi une partie des automobilistes aurait renoncé à la

voiture parce que des bus rouge et bleu coexistent maintenant. Cette
propriété du modèle qui résulte de l’hypothèse d’indépendance des 𝜀𝑖𝑗 est
donc particulièrement gênante lorsque les modes de transport sont très
proches. Dans cet exemple, la propriété IIA n’est pas valide parce qu’en
réalité deux des choix proposés sont très proches l’un de l’autre. Ils
partagent de nombreuses caractéristiques
Un modèle de comportement plus réaliste tiendrait compte du fait que

l’individu prend sa décision à la fois sur des caractéristiques communes
à des choix qui sont proches par nature, et des critères spécifiques à
chaque choix offert. Ainsi, il préfère voyager d’une manière générale en
bus (car il se fatigue moins, peut utiliser son temps de transport pour
lire, ...) et arbitre entre le bleu et le rouge selon ses goûts de couleur.
L’hypothèse IIA peut être testée. L’idée du test proposé par Hausman et
McFadden (1984) est que, si la propriété IIA est valide, alors les paramètres
des modèles Logit estimés sur différents sous-ensembles de l’espace total
des choix ne doivent pas être statistiquement différents.
Soit alors 𝐶 l’espace total des choix. Soit 𝐴 un sous-ensemble de 𝐶. Soit 𝛽መ𝐶 et
𝛽መ𝐴 les valeurs des paramètres estimés des deux Logit estimés
respectivement sur 𝐶 et 𝐴. Soit 𝑉෠𝐶 et 𝑉෠𝐴 les matrices de variance-covariance
correspondantes des deux modèles.
Certains paramètres peuvent être estimés sur 𝐶 mais pas sur 𝐴. Par
exemple, supposons que 𝐶 soit constitué des choix 1,2, … , 𝐽 et 𝐴 des
choix 2, … , 𝐽 . Supposons, pour fixer les idées, que les variables
explicatives du modèle soient des caractéristiques de l’individu.
Les paramètres de ces variables associés au choix 1 peuvent être
identifiés et estimés sur 𝐶. En revanche, ils ne peuvent pas être
identifiés (donc estimés) sur 𝐴 , puisque par définition de 𝐴 on
n’observe pas d’individu choisissant l’option 1.
Il faut donc les les exclure de 𝛽መ𝐶 si on veut comparer les paramètres
estimés sur 𝐶 et ceux estimés sur 𝐴. L’ensemble des paramètres 𝛽መ𝐶 est
donc remplacé par le sous-ensemble 𝛽መ𝐶 ′ . Soit alors 𝑉෠𝐶 ′ la sous matrice
de 𝑉෠𝐶 correspondant à cette restriction.
Le test est construit sur l’idée suivante. Si l’hypothèse IIA est valide, 𝛽መ𝐶 ′
et 𝛽መ𝐴 sont tous deux convergents. 𝛽መ𝐶 ′ est efficace mais 𝛽መ𝐴 ne l’est pas à
cause de perte d’information due à la suppression d’un (ou de
plusieurs) choix. Par conséquent, la matrice 𝑉෠𝐴 − 𝑉෠𝐶 ′ est définie
positive.
La statistique de test est alors :
′ −1
መ መ ෠ ෠
𝑆 = 𝛽𝐶 ′ − 𝛽𝐴 𝑉𝐴 − 𝑉𝐶 ′ 𝛽መ𝐶 ′ − 𝛽መ𝐴
sous l’hypothèse nulle que la propriété IIA est valide, cette statistique
suit la loi du 𝜒 2 dont le nombre de degré de liberté est égal au rang de
la matrice 𝑉෠𝐴 − 𝑉෠𝐶 ′ .
Dans la pratique, on choisira 𝐴 en excluant de 𝐶 un choix qui ressemble
à un autre présent dans 𝐴. Dans l’exemple du bus bleu/bus rouge, c’est
le bus rouge ou le bus bleu qui doit être exclu. Le test conduira (très
probablement) au rejet de l’hypothèse IIA.
Si on ne peut rejeter l’hypothèse nulle sur une seule configuration de

𝐴, cela ne prouve pas que la propriété IIA soit valide. Il faut répéter le
test sur les autres sous-ensembles possibles de 𝐶. Si l’hypothèse nulle
est rejetée, alors il faut se tourner vers d’autres spécifications possibles,
appartenant à la famille des modèles Logit : les Logit emboîtés (nested
Logit) par exemple.
4. Modèle Logit emboité
Supposons que les choix offerts à l’individu puissent être regroupés
selon leurs ressemblances, c’est-à-dire de telle sorte que tous les choix
d’un même groupe partagent une qualité que l’on ne retrouve pas dans
les autres groupes. Pour reprendre l’exemple de la section précédente,
les bus bleu et rouge sont tous deux un moyen de transport collectif,
contrairement à la voiture.
Supposons maintenant que, pour prendre sa décision, l’individu se
fonde non seulement sur les caractéristiques particulières de chaque
choix qui lui est offert, mais aussi sur les qualités partagées par les
différents choix d’un même groupe.
Par exemple, l’individu choisit le bus bleu parce qu’il préfère les
transports collectifs, qui le fatiguent moins que la voiture, et, plus
accessoirement, parce que la couleur du bus rouge ne lui plaît pas. Un
modèle Logit emboîté (nested logit) permet de modéliser une telle
prise de décision.
Pour éviter une présentation trop lourde, on se limite ici à un modèle à
deux niveaux de décision. Le modèle Logit emboîté n’en restreint pas a
priori le nombre, même si un modèle en impliquant plus de trois a peu
d’applications pratiques.
Soit alors 𝐿 le nombre de groupes (nests) résultant de la partition de
l’espace des choix. Dans chaque groupe 𝑙, il y a 𝐽𝑙 choix possibles,
indicés par 𝑗 𝑙 . Au total, l’individu a donc:
𝐽 = 𝐽1 + 𝐽2 + ⋯ + 𝐽𝐿
options possibles, indicés par 𝑗. Le processus de décision peut être
représenté par un arbre à deux niveaux. Le niveau agrégé, le niveau 2
représente la répartition de tous les choix possibles en différents
groupes.
Le niveau le plus fin, le niveau 1, représente les choix à l’intérieur de

chaque groupe.
Lorsqu’un des groupes n’en contient qu’un, on dit que le modèle est
partiellement dégénéré. Le schéma suivant donne l’exemple d’un arbre
où 𝐿 = 2, et où le groupe 𝑙 = 1 contient 2 choix possible (𝐽1 = 2) et le
groupe 𝑙 = 2 en contient 3 (𝐽2 = 3).
2 = 3).
l =1 l=2 niveau 2
1(1) 2(1) 1(2) 2(2) 3(2) niveau 1

l’utilité aléatoire à deux niveaux est définie comme suit :
𝑈𝑗𝑘 = 𝑧𝑗′ 𝛼 + 𝑥𝑗𝑘

′
𝛽𝑗 +𝜀𝑗𝑘 , 𝑗 = 1,2, … , 𝐽 , 𝑘 = 1,2, … , 𝐾𝑗
où 𝑧𝑗 varies entre les groupes et seul 𝑥𝑗𝑘 varies entre les groupes et les
branches. Pour simplifier l’écriture, nous avons supprimé l’indice 𝑖 et
nous avons considéré uniquement les alternative-specific regressors. Si
tous les régresseurs sont case-spécific regressor, nous aurons donc :
𝑧𝑗′ 𝛼 + 𝑥 ′ 𝛽𝑗𝑘 + 𝜀𝑗𝑘 𝑎𝑣𝑒𝑐 𝑢𝑛 𝑑𝑒𝑠 𝛽𝑗𝑘 = 0
Le modèle Logit emboité suppose que les (𝜀𝑗1, 𝜀𝑗2 , … , 𝜀𝑗𝐾 ) sont
distribués selon une loi de Gumbel multivariée de valeur extrême.
Ainsi, la probabilité que l’alternative 𝑗, 𝑘 soit choisie es égale à :
𝑒𝑥𝑝 𝑧𝑗′ 𝛼 + 𝜏𝑗 𝐼𝑗 ′
𝑒𝑥𝑝 𝑥𝑗𝑘 𝛽𝑗 ∕ 𝜏𝑗
𝑝𝑗𝑘 = 𝑝𝑗 × 𝑝𝑘|𝑗 = ×
σ𝐽𝑚=1 𝑒𝑥𝑝 ′
𝑧𝑚 𝛼 + 𝜏𝑚 𝐼𝑚
𝐾𝑗
σ𝑙=1 𝑒𝑥𝑝 𝑥𝑗𝑙′ 𝛽𝑗 ∕ 𝜏𝑗
𝐾𝑗
𝐼𝑗 = 𝑙𝑛 ෍ 𝑒𝑥𝑝 𝑥𝑗𝑙′ 𝛽𝑗 ∕ 𝜏𝑗
𝑙=1
𝐼𝑗 est la « variable d’inclusion (inclusive value ou log sum). Les
probabilités du Logit emboité sont le produit des probabilités 𝑝𝑗 𝑝𝑘|𝑗 .
Le modèle produit des probabilités positives dont leur somme est égale
1 pour toute valeur de 𝜏𝑗 appelés paramètres de dissimililarité. Mais la
théorie de l’utilité aléatoire impose la restriction :
0 ≤ 𝜏𝑗 ≤ 1
Et les valeurs en dehors de cet intervalle signifient que le modèle, bien
que mathématiquement correct, est incompatible avec la théorie de
l'utilité aléatoire.
Dans cette formulation, si 𝜏 est égal à 1, le modèle LME se réduit à un
modèle LM standard. C’est en permettant au terme 𝜏 de différer de
l’unité que le modèle LME relâche l’hypothèse d’IIA à travers les
différentes “branches” de l’arbre de décision. Elle est maintenue entre
les choix appartenant à un même groupe mais est relâchée entre les
groupes.
Sa complexité augmente géométriquement avec le nombre de niveaux
dans l’arbre de décision. Cependant, il se montre très flexible à l’usage
et est très utilisé, en particulier dans la modélisation des choix des
consommateurs.

Chapitre 3

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 3

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre 3

Transféré par

Droits d'auteur :

Formats disponibles

Deuxième partie: les

1. Modèle Logit multinomial

𝑃𝑟 𝑦𝑖 = 𝑗 = 𝑃𝑟 𝑈𝑖𝑗 ≥ 𝑈𝑖𝑘 , 𝑓𝑜𝑟 𝑎𝑙𝑙 𝑘

On considère par exemple une étude sur le choix des modes de

𝑈𝑖𝑗 = 𝛼 + 𝛽𝑉𝑖𝑗 + 𝜀𝑖𝑗

𝑃𝑟 𝑦𝑖 = 𝑗 = 𝑃𝑟 𝑈𝑖𝑗 = 𝑚𝑎𝑥 𝑈𝑖0 , … , 𝑈𝑖𝑘 , … , 𝑈𝑖𝐽

Pour que l’estimation du modèle soit possible, on doit faire l’hypothèse

On normalise la variable explicative en posant:

𝑉𝑖𝑗∗ = 𝑉𝑖𝑗 − 𝑉𝑖0

Selon cette dernière équation, le rapport des probabilités dépend

Des modèles alternatifs ont été développés: les modèles Probit

De nombreuses études multinomiales sont basées sur des bases de

où 𝑥𝑖 sont case-specific regressors, ici ,il s’agit de la constante et de la

Le coefficient dans le modèle multinomial peut être interprété de la

On a vu précédemment que le rapport des probabilités dépend

Pour comprendre la signification de cette propriété, considérons

Or on ne voit pas pourquoi une partie des automobilistes aurait renoncé à la

Un modèle de comportement plus réaliste tiendrait compte du fait que

Si on ne peut rejeter l’hypothèse nulle sur une seule configuration de

Le niveau le plus fin, le niveau 1, représente les choix à l’intérieur de

1(1) 2(1) 1(2) 2(2) 3(2) niveau 1

𝑈𝑗𝑘 = 𝑧𝑗′ 𝛼 + 𝑥𝑗𝑘

Vous aimerez peut-être aussi