Assurance Auto Et Sinistre
Assurance Auto Et Sinistre
Assurance Auto Et Sinistre
41 - 63
MODELISATION DE LA FREQUENCE DES SINISTRES EN
ASSURANCE AUTOMOBILE
Olga A. VASECHKO
1
Michel GRUN-RHOMME
2
Noureddine BENLAGHA
3
RSUM
La sinistralit en assurance automobile se mesure en termes de frquence des
accidents et de montant de ces accidents. Dans ce march fortement concurrentiel,
lassureur cherche slectionner des facteurs qui contribuent expliquer la sinistralit.
Dans cet article, on sintresse aux facteurs explicatifs du nombre daccidents
responsables dclars par lassur son assureur. Pour rpondre limportance du nombre
dassurs sans sinistre sur une priode dexercice et lhtrognit de cette population
(absence de sinistre ou sinistre non dclar), des modles inflation de zros sont
proposs : le modle de Poisson et le modle binomial ngatif.
A priori, ces modles nont jamais t utiliss sur des donnes dassurance
automobile franaise. Nous montrons empiriquement que ces modles sont justifis, mme
si les variables explicatives de la frquence des sinistres sont sensiblement les mmes
quavec les modles classiques de comptage, lexception du choix de contrat et ils
rvlent un effet de slection adverse. La probabilit que lassur a eu un sinistre
responsable non dclar, augmente avec le coefficient rduction majoration et diminue avec
lanciennet du vhicule et lanciennet de permis.
ABSTRACT
In the strongly competitive automotive insurance market, the insurer tries to
determine factors that explain the frequency and cost of claims. In this paper, we study the
factors that explain the number of accidents declared by the responsible insurant to his or
her insurer giving consideration to the importance of the number of insurants without an
accident over a given year. We use zero-inflated distributions (Poisson and binomial
negative). These distributions model count data that have many zeros. For example, the
1
Research Institute of Statistics, Kyiv, Ukraine
2
Universit Paris 2, ERMES-UMR7181-CNRS, Paris, France M. GRUN-REHOMME - 3 sq. Auguste Renoir,
75014 Paris, France - E-Mail : [email protected]
3
Universit Paris 2, ERMES-UMR7181-CNRS, Paris, France
42 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
zero-inflated Poisson distribution might be used when the proportion of zero counts is
greater than expected on the basis of the mean of the non-zero counts. Specifically, we
separate the zero accidents into two groups: those without an accident from those who had
an accident but did not declare it. These models have not been used on data for the French
automobile insurance market. Empirically, we show that the explanatory variables of the
frequency of the disasters are appreciably the same as those with the classic models of
counting, with the exception of the choice of contract for which we find adverse selection.
The probability that the policyholder does not declare a claim increases with the bonus-
surcharge coefficient and decreases with the age of the driver and the age of the car.
ZUSAMMENFASSUNG
Die Schadenfallsrate wird in der Autoversicherung mittels der Ausdrcke fr die
Hufigkeit der Unflle und der Zahl der Unflle gemessen.
In diesem stark konkurrenzgeprgten Markt, versucht der Versicherungstrger die
Faktoren, die dazu beitragen, die Schadenfallsrate zu erklren, auszuwhlen.
In diesem Artikel, interessiert man sich fr die Faktoren, die eine Erklrung fr die
Zahl der von dem Versicherten verschuldeten bei dem Versicherungstrger angemeldeten
Unflle liefern.
Um zu der Hhe der Anzahl der Versicherten ohne Schadensfall whrend einer
Ausbungszeit und zu der Heterogenitt dieser Personengruppe eine Antwort zu geben
(Fehlen von Schadenfall oder nicht angemeldeter Schadenfall), wurden Modelle mit
Inflation von Nullen vorgeschlagen: Poisson-Modell und negative Binomial-Modell.
Auf dem ersten Blick sind diese Modelle nie ab Angaben der franzsischen
Autoversicherung verwendet worden.
Wir zeigen empirisch, dass diese Modelle begrndet sind, selbst wenn die fr die
Hufigkeit der Unflle erklrende Vernderlichkeiten sprbar die selben sind wie bei den
klassischen Zhlungsmodellen mit Ausnahme der Wahl des Vertrages. Die Modelle zeigen
einen gegnerischen Auswahleffekt.
Die Wahrscheinlichkeit, dass der Versicherte einen nicht angemeldeten
verschuldeten Schadenfall gehabt hat, wchst mit dem Koeffizient
Steigerungsverminderung und vermindert sich mit dem Alter des Fahrzeuges und dem
Alter des Fhrerscheines.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 43
1. INTRODUCTION
La sinistralit en assurance automobile est un problme important pour les pays
industrialiss. Pour les assureurs, elle se mesure en termes de frquence des accidents et de
montant de ces accidents.
Dans ce march fortement concurrentiel de lassurance automobile, qui reprsente la
branche la plus importante de lassurance non-vie, lassureur cherche dterminer des
facteurs qui contribuent expliquer la sinistralit. Ces facteurs lui permettent, en
construisant des classes de risque, de segmenter son portefeuille et de hirarchiser ces
classes laide dindicateurs de sinistralit, comme la prime pure. Cette dmarche vise
obtenir une bonne adquation entre la sinistralit et les primes payes par les assurs.
Dans cet article, on sintresse aux facteurs explicatifs du nombre daccidents
responsables dclars par lassur son assureur. En gnral, des modles de comptage
(modle de Poisson ou modle binomial ngatif) sont utiliss dans la modlisation de la
frquence des accidents. Mais du fait de lexistence, dans le portefeuille, dun grand
nombre dassurs sans sinistre sur une priode dexercice (une anne), le nombre de zros
de la variable alatoire du nombre de sinistres est important. De plus, la valeur zro peut
correspondre deux sous populations : les assurs qui nont eu aucun sinistre dans lanne
(cas gnral) et ceux qui ont eu un accident responsable et qui ne lont pas dclar
lassureur. Non dclaration dun accident mineur, en indemnisant directement la partie
adverse pour viter davoir un malus et une augmentation de sa prime. Cette non
dclaration peut aussi correspondre un dlit de fuite.
Pour rpondre cette importance des valeurs nulles et lhtrognit de la
population correspondante, des modles inflation de zros ont t proposs : le
modle de Poisson inflation de zros (Zero-Inflated Poisson, not ZIP) et le modle
binomial ngatif inflation de zros (Zero-Inflated Negative Binomial, not ZINB). Les
variables explicatives de la frquence des sinistres sont sensiblement les mmes quavec les
modles classiques de comptage, lexception du choix de contrat et ils rvlent un effet de
slection adverse.
A notre connaissance, ces modles ont t trs peu utiliss en assurance automobile.
On trouve un article de LEE et al. (2002) sur les conducteurs novices dont lanciennet de
permis est infrieure un an. Ils montrent empiriquement sur des donnes australiennes que
le modle ZIP est justifi du fait dune sur-dispersion de la frquence des sinistres.
MELGAR et al. (2005) utilisent un modle ZINB sur des donnes dune compagnie
44 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
espagnole et montrent que ce modle est plus adquat aux donnes. Rcemment, BOUCHER
et al. (2007, 2008a) comparent, aussi sur des donnes espagnoles, les modles inflation de
zros et les modles barrire (hurdle models), mais ils ninsistent pas sur les
interprtations des probabilits de sinistralit laide des variables exognes. Pour des
donnes longitudinales ou des donnes de panel, on peut consulter les articles de BOUCHER
et al. (2008b) et BOUCHER, DENUIT (2008c).
Notre dmarche empirique est nouvelle dans la mesure o elle concerne des donnes
franaises et que nous disposons du coefficient rduction majoration qui traduit
lexprience passe du conducteur.
Ce texte est organis en 5 sections. Aprs lintroduction, les modles probabilistes
utiliss sont exposs synthtiquement dans la section 2. Les donnes et quelques
statistiques exploratoires sont prsentes dans la section 3. Les rsultats et les comparaisons
entre les diffrents modles constituent la section 4. Le papier se termine par des
conclusions (section5), une bibliographie et des annexes.
2. LES MODELES
Dans la modlisation des processus de comptage, ici de la frquence des sinistres,
deux sortes de modle sont couramment mis en uvre ; le modle de poisson et le modle
binomial ngatif. On trouve une littrature abondante sur lutilisation de ces modles :
GREENE (1996), WOOLDRIDGE (1997), CAMERON et TRIVEDI (1998), WINKILMANN (2000),
YAU et al. (2003), YANG et al. (2007).
Rappelons les dfinitions et les proprits de ces modles pour bien comprendre par
la suite lemploi des modles ZIP et ZINB.
2.1 Modle de Poisson
Dans un modle de Poisson, la probabilit pour quune variable alatoire Y (nombre
de sinistres responsables dclars) prennent la valeur
i
y ( 0,1, 2...
i
y = ) pour un assur i
est donne par :
( / )
!
i i
y
i
i i
i
e
P Y y X
y
= = (1)
o le paramtre
i
dpend du vecteur
i
X des caractristiques (rgresseurs) de
lassur i par une quation log linaire, savoir :
'
ln ,
i i
X | = o | est le vecteur des
coefficients estimer.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 45
On vrifie aisment que dans la loi de Poisson (1), lesprance est gale la
variance.
'
( / ) ( / )
i
X
i i i i i
E Y X Var Y X e
|
= = = (2)
Cette hypothse dquidispersion (homognit du portefeuille par rapport au
risque) est trs restrictive.
Mais dans la pratique, du fait dune abondance de valeurs nulles et de la prsence de
quelques valeurs extrmes, la variance est suprieure la moyenne. Dans ce cas, on parle
dune sur-dispersion de la variable Y. Cette situation implique une sous estimation des
carts types et on rejette trop souvent lhypothse nulle de non significativit des
coefficients | du modle. Do lide dutiliser un modle de comptage alternatif, bas
sur la loi binomiale ngative, qui prend en compte cette sur-dispersion par lintroduction
dun paramtre supplmentaire ( ) o qui permet, en outre, de capter lhtrognit
inobserve de la variable endogne (qui peut impliquer la sur-dispersion observe).
2.2 Modle binomial ngatif
Dans un modle binomial ngatif, on dfinit la probabilit pour que Y prenne la
valeur
i
y par:
( )
( ) ( )
( / )
1
i
y
i i
i i
i i i
y
P Y y X
y
v
v v
v v v
I +
= =
I + I + +
| | | |
| |
\ . \ .
(3)
En posant 1/ v o = , lesprance et la variance sexpriment ainsi :
'
( / ) , ( / ) (1 )
i
X
i i i i i i i
E y X e Var y X
|
o = = = + (4)
La variance est donc diffrente de lesprance et le paramtre o traduit une sur
dispersion (ou une sous dispersion) des donnes. Si 0 o = , le modle binomial se rduit au
modle de Poisson. Si 0 o > , le modle de Poisson est rejet au profit du modle ngatif
binomial. La sur-dispersion peut tre teste soit par le ratio / ( ) D n p , o D dsigne la
dviance, n le nombre dobservations et p le nombre de paramtres dans le modle, soit par
le ratio
2
/ ( ) X n p , o
2
X correspond la statistique du chi-deux de Pearson. La
dviance est dfinie comme 2 fois la diffrence entre le maximum possible de la log
vraisemblance et le maximum atteint sur le modle estim (MC CULLAGH, NELDER, 1989).
Le
2
X de Pearson correspond la somme des carrs des carts la moyenne.
Si ces ratios sont suprieurs 1, les donnes prsentent une sur dispersion (et une
sous dispersion si ces rations sont infrieurs 1).
46 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
2.3 Les modles ZIP et ZINB
CRAGG (1971) a dvelopp diffrents modles dans la situation o pour une variable
endogne, un vnement (comme lachat dun bien ou la dclaration dun sinistre) peut se
produire ou non, comme dans le modle Tobit (TOBIN, 1958). Si lvnement ne se produit
pas, la valeur zro est attribue la variable endogne, qui est suppose continue et
valeurs positives. Le processus de dcision est reprsent par un modle probit et le second
vnement (montant de lachat ou du sinistre) par un modle de rgression standard.
En se rfrant la ralit des donnes, il est possible que la population des assurs
pour lesquels Y=0, soit compose de deux sous populations :
- Une population qui prend la dcision de participer lvnement ou
lexprience, cest--dire qui effectue une dclaration daccident dans le cas
o celui ci se produit. La valeur zro indique que le conducteur assur na
pas eu de sinistre pendant la priode considre.
- Une population qui ne dclare pas un sinistre responsable son assureur.
En effet, certains assurs sont amens ne pas dclarer un accident sans
grande gravit, pour viter un malus et donc de payer davantage la
prochaine prime. Comme les pnalits du systme sont indpendantes du
montant des sinistres, le conducteur responsable a tout intrt indemniser
directement la partie adverse pour les petits sinistres. Lautre cas, concerne
les conducteurs qui, par exemple, accrochent une voiture en stationnement,
et ne sarrtent pas pour faire un constat.
Cette distinction peut tre intressante pour lassureur, car on peut penser que la non
dclaration dun sinistre responsable (en dehors des cas des dlits de fuite) est lie
davantage la non gravit du sinistre qu la ralit objective du risque. Lassur ne
communique pas cette information son assureur dans la mesure o cette dmarche lui est
favorable, mais ceci nenlve rien au fait que lassur est risqu.
Un modle de Poisson standard ou binomial ngatif ne permet pas de distinguer ces
deux sous populations. Un modle de Poisson inflation de zros (Zero-Inflated Poisson :
ZIP) ou binomial ngatif inflation de zros (Zero-Inflated Negative Binomial : ZINB)
gnre deux modles spars puis les combine. Ces modles, dvelopps par LAMBERT
(1992) et GREENE (1994), ne supposent pas que les valeurs nulles et les valeurs strictement
positives sont gnres par le mme processus.
Par rapport aux modles simples prcdents, on suppose donc que la variable
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 47
alatoire observeY est le produit dune loi binaire B et dune loi de Poisson (modle
ZIP) ou binomiale ngative (modle ZINB) :
*
Y BY = (5)
La variable alatoire inobserve B est modlise par une rgression logistique pour
estimer la probabilit que 0
i
y = . Pour un assur i, 0
i
b = si lassur na pas dclar
daccidents et 1
i
b = dans le cas contraire. La variable alatoire
*
Y correspond au modle
de Poisson (ou au modle binomial ngatif) et est utilise pour prdire la valeur de Y pour
les assurs qui ont dclar un sinistre ( 1)
i
b = . Cette quation estime lesprance de
i
y .
Les modles ZIP et ZINB comportent donc deux parties : celle relative au modle de
comptage (pour
*
Y , qui rend compte du nombre de sinistres quand lassur est dans la
situation de dclaration) et celle relative linflation de zros (Logit) qui explique la
probabilit de non dclaration.
Plus prcisment, pour un modle ZIP, si on note
i
q la probabilit de 0
i
b = (pas
de sinistre dclar) et
i
le paramtre de la loi de Poisson pour la frquence des sinistres,
qui dpend comme prcdemment des variables explicatives (4), alors la densit de la
distribution Y scrit :
( 0 / ) (1 )
i
i i i
P Y X q q e
= = + avec
'
'
exp( )
1 exp( )
i
i
i
X
q
X
|
|
=
+
(6)
et pour
i
y non nulle, on a :
!
) 1 ( ) / (
i
y
i
i i i
y
e q X y Y P
i
i
= = (7)
La probabilit du nombre de sinistres conditionnellement 1
i
b = est gale la
probabilit, non conditionnelle, de la variable inobserve
*
i
y .
Pour un modle ZINB, la probabilit est alors donne, en comparaison avec (3),
par :
{ } ( ) ( )
( )
( ) ( )
( / ) 1 min ,1 1
1
i
y
i i
i i i i i
i i i
y
P Y y X q y q
y
v
v v
v v v
I +
= = +
I + I + +
| | | |
| |
\ . \ .
(8)
avec 0,1, 2... i =
2.4 Le test de Vuong
De nombreux auteurs ont propos des statistiques pour tester la sur-dispersion dans
48 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
un contexte de loi de Poisson (GOURIEROUX et al. 1984, LEE 1986, CAMERON et TRIVEDI
1990, GURMU, 1991). On peut aussi consulter louvrage GREEN (2002) pour plus de dtails
sur ces diffrents tests.
Dans cette tude, on utilise le test de VUONG (1989), qui a propos une statistique,
dans le cadre des estimations par la maximum de vraisemblance, pour tester des modles
non embots : le modle ZIP (ou ZINB) contre le modle de Poisson (ou binomial ngatif)
correspondant.
Soient
1
f la densit du modle 1 (ZIP ou ZINB) et
2
f la densit du modle 2
(Poisson ou binomial ngatif).
Notons
1
2
( ) Pr( _ )
log log
( ) Pr( _ )
i i
i
i i
f y y ZIP
m
f y y Poisson
= =
( (
( (
Les hypothses sont:
| |
| |
0
1
: 0
: 0
i
i
H E m
H E m
=
=
La statistique de Vuong, pour tester lhypothse du modle 1 (ZIP ou ZINB) contre
le modle 2 (Poisson ou binomial ngatif), est donne par:
m
nm
V
s
= (9)
Avec
1
1
n
i
i
m m
n
=
=
et
2 2
1
1
( )
1
n
m i
i
s m m
n
=
=
Le test de Vuong peut tre dcrit de faon trs simple. Si l'hypothse nulle est vraie,
la valeur moyenne du rapport de vraisemblance devrait tre gale zro.
Si lhypothse complmentaire est vraie, la valeur moyenne du rapport de
vraisemblance devrait tre sensiblement plus grande que zro. Si l'inverse est vrai, la
valeur moyenne du rapport de vraisemblance devrait tre de manire significative infrieure
zro. En d'autres termes, la statistique du test de Vuong nest autre que le rapport moyen
du log de vraisemblance convenablement normalis.
Les logarithmes de la vraisemblance utiliss dans le test de Vuong sont affects si le
nombre de coefficients dans les deux modles est diffrent ; le test doit donc tre corrig
par les degrs de libert. Vuong propose d'employer une correction qui correspond aux
critres d'information bayesiens d'Akaike et de Schwarz.
Vuong montre que V tend asymptotiquement vers la loi normale standard.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 49
On note que :
- Si V est infrieure la valeur prdtermine, par exemple 1.96 pour un seuil
0.5 o = , le test ne donne la prfrence aucun des deux modles.
- Si la valeur deV est leve et positive alors le modle 1 est prfr au modle 2.
- Si la valeur de V est largement ngative alors le modle 2 est favoris.
3. APPROCHE EMPIRIQUE
Pour mettre en uvre cette approche de modlisation de la frquence des sinistres,
nous disposons dun chantillon alatoire de 50 000 observations du portefeuille dune
compagnie franaise dassurance. Ces donnes concernent des vhicules 4 roues de
tourisme assurs durant l'anne 2005.
3.1 Les donnes
Pour chaque assur de notre chantillon, nous disposons de 4 groupes de variables :
les caractristiques du conducteur, les caractristiques du vhicule, le type de contrat et la
sinistralit. Plus prcisment,
Caractristiques du conducteur :
Sexe : Il sagit du sexe du conducteur principal dclar.
Type du conducteur, il exprime la qualification du conducteur principal dclar au
regard du vhicule (le conducteur principal dclar est ou non lassur).
Age du conducteur, exprim en annes.
Profession : profession du conducteur, code en 17 modalits (cf. annexe 1).
Numro de dpartement : numro de dpartement de lhabitat principal du
conducteur.
Anciennet de permis : de 0 3 ans.
Coefficient Rduction Majoration (CRM) ou Bonus Malus : il est compris entre 0.50
et 3.50 inclus (exprim en %), conformment la lgislation franaise en vigueur. Lassur
voit sa prime augmenter de 25% pour un sinistre responsable (pour plus de dtails sur ce
coefficient, se rfrer larticle de Grun-Rehomme, 2000).
Priode de couverture : priode, en mois, au cours de laquelle lassur est couvert
par la police quil a souscrit, le plus souvent cette priode est dune anne.
50 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
Caractristiques du vhicule :
Anciennet de vhicule : elle exprime le millsime de l'anne du modle du
vhicule.
Puissance relle du vhicule : elle exprime la puissance du moteur en chevaux Din
(Deutsch Industrie Normen). Cette mesure donne une vision plus raliste de la puissance
effective au niveau des roues (1 ch. Din = 0,735 Watt).
La variable sur lusage du vhicule na pas t retenue puisque la quasi-totalit des
socitaires en avait un usage promenade-trajet et non un usage professionnel.
Les Contrats :
Cette assureur propose quatre type de garanties pour l'assurance d'un vhicule 4
roues de tourisme :
Responsabilit Civile (RC, assurance minimale obligatoire) ; sont inclus dans cette
formule des garanties Dfense-recours, Attentats, Catastrophes naturelles, Dommages
corporels du conducteur et Assistance.
Dommages au Vhicule (DV1) : RC + Garantie Dommage au vhicule toutes causes
avec une franchise importante.
DV2 : RC + Garantie Dommage au vhicule toutes causes avec une franchise
moyenne.
DV3 : RC + Garantie Dommage au vhicule toutes causes avec une franchise faible.
Caractristiques des sinistres :
Nombre de sinistres dclars : pour lanne de rfrence, ici 2005.
Responsabilit du conducteur : variable binaire qui indique si la responsabilit du
conducteur est engage en cas de sinistre.
Il faut ajouter lexistence de variables inobserves par lassureur (ou non prises en
compte) qui peuvent avoir un effet explicatif de la frquence des sinistres comme le nombre
de kilomtres parcourus, ltat du vhicule, le comportement du conducteur au volant
(respect du code de la route, rapidit des rflexes, agressivit au volant..), les conditions
climatologiques, le type de route, ltat du rseau routier
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 51
3.2 Statistiques exploratoires
La table 1 prsente la rpartition de lchantillon, environ 53% dhommes et 47% de
femmes, selon le nombre de sinistres responsables dclars durant lanne 2005.
Lesprance de la variable alatoire Y est gale 0.728 dans lchantillon.
Table 1 : Rpartition de la frquence des sinistres
Nombre de
sinistres
Frquence Pourcentage
(%)
Frquence
cumule
Pourcentage
Cumul (%)
0 32434 64.87 32434 64.84
1 6737 13.47 39171 78.34
2 6198 12.40 45369 90.74
3 2603 5.21 47972 95.94
4 1210 2.42 49182 98.36
5 486 0.97 49668 99.34
6 207 0.41 49875 99.75
7 72 0.14 49947 99.89
8 34 0.07 49981 99.96
9 16 0.03 49997 99.99
10 3 0.01 50000 100.00
Table 2 : Rpartition des assurs selon le sexe et le type de conducteur
Type =1 (*) Type = 2 (**)
Masculin 65.4 34.6
Fminin 72.0 38.0
(*) Le conducteur principal est lassur, (**) Le conducteur principal nest pas lassur
Dans cette assurance, il est possible que lassur ne soit pas le conducteur principal.
En effet, cest trs souvent la situation pour les jeunes conducteurs dont lanciennet de
permis est infrieure trois ans (80% des cas) et pour des hommes expriments, dont la
femme est lassur ; ceci tient la particularit de cette assurance dont les assurs (ou
socitaires) proviennent de lducation nationale (qui est trs majoritairement constitue de
femmes dans lenseignement primaire et secondaire).
52 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
Table 3 : Statistiques descriptives des variables quantitatives utilises
Moyenne Mdiane Ecart type Q1 Q3
Anciennet de permis 25 28 13.6 16 38
Age du conducteur 48 50 15.7 37 59
Bonus-Malus 60 50 16.9 50 64
Anciennet du vhicule 7.6 7 5.5 3 11
Puissance du vhicule 82.5 76 28.8 60 100
Cette population constitue une niche dassurs bas risques pour cette compagnie
comme le montre la distribution du coefficient rduction-majoration (mdiane 50 et
troisime quartile 64). Il faut aussi ajouter que les assurs ayant des sinistres graves o
leur responsabilit est engage et qui ont provoqu un accident en commettant une
infraction (alcoolmie, excs de vitesse,) peuvent tre exclus du portefeuille par
lassureur.
Table 4 : Rpartition des assurs selon le type de garantie
Garantie RC DV1 DV2 DV3
Pourcentage (%) 46,1 16,1 8,3 29,5
Ces pourcentages dans lchantillon concident avec les proportions dans lensemble
du portefeuille de cette assurance.
4. RESULTATS DES MODELISATIONS
Dans un premier temps, on compare le modle de Poisson et le modle binomial
ngatif, puis avec les modles correspondants inflation de zros.
4.1 Modle de Poisson et modle binomial ngatif
La rgression de Poisson et la rgression binomiale ngative mettent en vidence les
mmes variables explicatives de la frquence des sinistres, avec des effets semblables.
Mme si le modle binomial ngatif est meilleur pour rendre compte de ces donnes, il
napporte pas dlments ou de prcisions supplmentaires par rapport au modle de
Poisson au niveau de linterprtation des rsultats (Table 5, o seules sont reprsentes les
variables exognes significatives). Dans un article rcent, MELGAR et al. (2005) montrent
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 53
aussi que diffrents types de modles de comptage donnent des rsultats qualitativement
semblables.
Table 5 : Comparaison des variables explicatives
Modles Poisson Binomial ngatif
Variables Coefficient (**) Ecart-type Coefficient (**) Ecart-type
Constante -1.1530 0.0524 -1.0251 0.0914
Type1 (*) -0.1643 0.0111 -0.1682 0.0173
DV1 -0.6532 0.0222 -0.6479 0.0308
DV2 -0.1565 0.0211 -0.1558 0.0319
DV3 -0.1185 0.0123 -0.1149 0.0190
Anciennet du vhicule -0.0191 0.0013 -0.0194 0.0019
Anciennet de permis -0.0064 0.0004 -0.0060 0.0006
CRM 0.0153 0.0005 0.0138 0.0010
Scale 1.0000 0.0000 1.7529 0.0289
(*) Le conducteur principal est lassur
(**) Tous les coefficients sont significatifs au seuil de 0.1%.
On constate une augmentation de la sinistralit avec le coefficient rduction
majoration (CRM, ce qui est logique puisque celui-ci traduit le pass du conducteur) et le
fait que le conducteur principal ne soit pas lassur, et une diminution avec lanciennet du
vhicule et lanciennet de permis.
Pour les contrats, la sinistralit diminue avec le choix de couvertures DV, ce qui va
lencontre dune hypothse de slection adverse et est conforme aux travaux empiriques
rcents (CHIAPPORI, SALANIE, 2000, GRUN-REHOMME, JOLY, 2003, COHEN, 2005, GRUN-
REHOMME, BENLAGHA, 2007). Le choix de garantie traduit plutt une aversion au risque.
La distribution de Poisson se caractrise par lgalit de lesprance et de la variance
et dans ce cas le ratio / ( ) D n p et le ratio
2
/ ( ) X n p sont gaux 1. Sous lhypothse
que le modle est adquat, la dviance suit une loi du chi-deux (n-p) degrs de libert. Le
nombre de degrs de libert (DL) est gal (n-p). Le paramtre dchelle (scale)
correspond la racine carre du paramtre de dispersion dans la famille des lois
exponentielles.
54 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
Comme le montre la table 6 suivante, les donnes prsentent une sur dispersion et le
modle bas sur la loi binomiale ngative est plus adapt nos donnes que le modle de
Poisson (cf. Log de la vraisemblance).
Table 6 : Critres de comparaison des modles de Poisson et binomial ngatif
Critres Poisson Binomial ngatif
Valeur Valeur/DL Valeur Valeur/DL
/ ( ) D n p 82891.88 1.6581 41273.93 0.8256
2
/ ( ) X n p
9657798 1.9319 43653.23 0.8732
Log-vraisemblance - 46288.84 -- -39910.76 --
Signalons que les donnes prsentent une faible sous dispersion par rapport au
modle binomial ngatif.
4.2 Modles inflation de zros : ZIP et ZINB
Les rsultats ont t obtenu avec les logiciels SAS (pour lanalyse exploratoire et les
modles de Poisson et binomial ngatif) et Stata (pour les quatre modles). Dans Stata, la
premire partie des rsultats concerne le modle de comptage du nombre de sinistres et la
deuxime partie (inflate, inflation de zros) correspond la rgression logistique.
Table 7 : Rsultats des modlisations ZIP et ZINB
Modles ZIP ZINB
Frquence
des sinistres (
*
Y )
Coefficient Erreur
type
Z Coefficient Erreur
type
Z
CRM .0067419 .0005876 11.47 .0068692 .0006155 11.16
Type1 -.0652792 .0130758 -4.99 -.0706267 .013515 -5.23
DV1 -.4096558 .0310780 -13.18 -.4167522 .0320164 -13.02
DV2 -.0818105 .0250281 -3.27 -.086006 0.256983 -3.35
DV3 -.0566314 .0144617 -3.92 -.059632 .148847 -4.01
Anciennet
de permis
-.0057936 .0012193 -4.75 -.0059137 .001256 -4.71
Age du
conducteur
.0025266 .0012770 1.98 .0026379 .001313 2.01
Anciennet
du vhicule
-.0079037 .0016719 -4.73 -.0079776 .0017307 -4.61
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 55
Modles ZIP ZINB
Inflation de
Zros (B)
CRM -.0180454 .0015770 -11.44 -.0180448 .001607 -11.23
DV2 .3306541 .0009080 4.95 .3271561 .0009335 4.83
Anciennet
de permis
.0044903 .0027424 7.67 .0045072 .0028126 7.52
Anciennet
du vhicule
.0210358 .0027424 7.67 .0211643 .0028126 7.52
Constante 1.528996 .1454075 10.52 1.492156 .1485441 10.05
Lnalpha - - - -3.312252 .2539225 -13.04
Alpha - - - .036434 .0092514
Dans la premire partie (Poisson ou binomial ngatif), la probabilit du nombre de
sinistres, pour les assurs qui ne sont pas sans sinistre, augmente avec le CRM et lge du
conducteur. Cette probabilit diminue avec lanciennet de permis, lanciennet du
vhicule, le fait que le conducteur principal est lassur et les garanties DV (cf. table 7). A
propos des garanties, il faut noter une absence de slection adverse entre la garantie RC
(modalit de rfrence) et les garanties DV mises ensemble, mais lhypothse de slection
adverse est vrifie parmi les conducteurs qui choisissent une garantie DV (cf. annexe 2 sur
les effets marginaux).
Prcisons davantage ces simples commentaires.
Toutes choses gales par ailleurs, la probabilit du nombre de sinistres pour ces
assurs change (augmente ou diminue) dun facteur exp(coefficient) pour chaque
augmentation dune unit du facteur prdictif correspondant (cf. annexe 2). Les seuils de
significativit des effets marginaux ne sont pas prsents dans cette annexe car ils sont
biaiss, on se rfre donc plutt la significativit des coefficients des variables
correspondantes. Si le coefficient dune variable dans lune ou dans les deux quations est
significatif, leffet marginal correspondant est considr comme significatif. Par exemple,
comme le montre la table de cette annexe, le nombre de sinistres diminue dun facteur
multiplicatif 0.994 par anne danciennet de permis et de 6% lorsque le conducteur est
lassur. Pour une variable indicatrice, les effets marginaux expliquent le changement
discret de la valeur 0 la valeur 1.
La statistique z de la table 7, qui correspond au ratio du coefficient sur lerreur type,
suit une loi normale standard et permet de juger de la significativit des coefficients du
modle. Dans la table 7, tous les coefficients des modles sont significatifs au seuil de 0.1%
56 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
sauf pour lge du conducteur qui est significatif seulement au seuil de 5%.
La probabilit de sinistre (rgression logistique, deuxime partie) augmente avec
lanciennet de permis, lanciennet du vhicule et la garantie DV2, et elle diminue avec le
CRM (table 7).
Les coefficients de la deuxime quation sinterprtent de la mme faon.
4.3 Comparaison des modles
Le test de Vuong, avec une valeur de z gale 58.54 (significatif au seuil 0.1%),
montre que le modle ZIP est prfrable un modle de Poisson standard. De mme, avec
une valeur du test de Vuong gale 27.03, le modle ZINB est prfrable au modle
binomial ngatif. En conclusion, on peut retenir comme modle final, ce modle ZINB. De
mme, alpha correspond au paramtre de dispersion dans le modle de comptage. Si
0 ) ( = o Ln (hypothse nulle), le modle de Poisson est appropri. Dans notre cas, le
modle de Poisson est rejet (p-value<0.0001). Les variables significatives dans les deux
modles inflation de zros sont identiques et les coefficients des rgresseurs sont trs
proches.
Les quatre modlisations envisages dans ce travail pour analyser la frquence des
sinistres sont cohrentes : augmentation du nombre de sinistres avec le CRM, diminution
du nombre de sinistres avec lanciennet du permis de conduire, lanciennet du vhicule et
lorsque le conducteur est lassur.
Quels sont les apports supplmentaires de ce modle ZINB par rapport aux
modles de comptage standards ?
Dans la premire quation (modle de comptage) lge du conducteur devient une
variable significative au seuil de 5% avec un coefficient positif (table 7), alors que cette
variable ntait pas significative dans le modle binomial ngatif (table 5).
Conditionnellement au fait de dclarer un sinistre, la probabilit de sinistres augmente avec
lge du conducteur. Sachant lvidence que lge du conducteur est fortement corrl
avec lanciennet du permis de conduire (le coefficient de corrlation linaire est gal
0.91 sur nos donnes), ce rsultat doit certainement mettre en vidence une sous population
pour laquelle le nombre de sinistres augmente avec lge. En effet, on constate, toutes
choses gales par ailleurs, que pour les jeunes conducteurs, de 18 21 ans, lesprance de la
variable Y (nombre de sinistres) augmente avec lge. Elle prend les valeurs suivantes :
0.62 (pour 18 ans), 0.88, 0.97 et 1.10 (pour les 21 ans).
Nous avions dj relev ce point (GRUN-REHOMME et BENLAGHA, 2007) propos
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 57
des jeunes conducteurs dans le cadre dune modlisation bivarie pour tester lendognit
du choix de garantie par rapport la sinistralit. On peut penser que le jeune conducteur
prend de lassurance aprs ses premires expriences de conduite et sur estime ses capacits
de conduite. Lexprience et la maturit peuvent par la suite expliquer une diminution de la
sinistralit (toutes choses gales par ailleurs).
Un biais de simultanit pourrait intervenir dans la mesure o un assur qui aurait
plusieurs sinistres responsables (dans la mme anne) fait un arbitrage entre la dclaration
et la non dclaration. Mais on peut penser que ce biais est faible, car dune part, dans une
telle situation, lassur na pas forcment le choix du fait que la partie adverse peut refuser
une non dclaration et dautre part, cette situation concerne un faible effectif de nos
donnes.
Les rsultats des deux quations de modlisation sont cohrents. En effet, les signes
des coefficients des quatre variables explicatives dans la rgression logistique sont opposs
ceux correspondants aux mmes variables dans lquation conditionnelle de comptage.
Par exemple, le nombre de sinistres dclars diminue avec lanciennet du vhicule
(premire quation de la table 7) et la probabilit de non sinistre augmente avec
lanciennet du vhicule (deuxime quation).
Plus le score dun assur, dans la deuxime quation, est lev, plus il est
vraisemblable que lassur na pas eu de sinistres non dclars. La probabilit que lassur a
eu un sinistre responsable non dclar, diminue avec lanciennet du vhicule et
lanciennet de permis, et augmente avec le CRM.
En proposant un modle ZINB, on tente disoler la trace dune non dclaration dun
sinistre, dune vritable absence de sinistralit, travers le CRM et le type de contrat. Dans
cette assurance, lorsquun assur un CRM gal 0.50 de puis au moins trois ans et quil
na pas eu daccidents responsables dclars dans ces trois dernires annes, son CRM reste
inchang sil occasionne un accident o sa responsabilit est engage. On peut donc penser
quun assur dans cette situation dclarera un accident responsable (car sans consquences
sur sa prime payer) alors quun assur ayant un CRM lev cherchera non dclarer le
sinistre. De plus le type de garantie choisie peut intervenir sur la dcision de non
dclaration. En cas de sinistre responsable, un assur ayant une garantie RC nest pas
rembours pour les dommages son vhicule. La dclaration du sinistre nengendre aucun
bnfice. On peut galement ajouter, quen valeur absolue, 25% daugmentation sur la
prime de rfrence dun assur, dont le CRM est lev, est plus important que pour un
58 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
assur dont le CRM est 0.50.
De plus, le modle ZINB (comme le modle ZIP), met en vidence la particularit
de la garantie DV2 (avec une franchise moyenne). Cette garantie a leffectif le plus faible
de lchantillon (cf. table 4), et du portefeuille. Cette garantie DV2 se caractrise des autres
garanties par le fait que la corrlation (positive) entre lanciennet du vhicule et
lanciennet de permis est plus importante, ainsi que la corrlation ngative entre lge du
conducteur et le CRM. Ce qui corrobore les rsultats obtenus dans la deuxime quation du
modle (table 7). On peut penser que les assurs qui choisissent ce contrat DV2 sont plus
enclins dclarer un sinistre, malgr un CRM parfois lev.
5. CONCLUSIONS
Si les modles actuels sont suffisamment sophistiqus pour que lon puisse les
considrer comme des outils utiles et performants et non plus comme des curiosits
thoriques, il ne faut pas oublier quun modle a ses limites et ne donne quune image
imparfaite de la ralit. Les modles doivent tre utiliss de faon souple, sans y croire
compltement la limite. Il reste toujours une composante individuelle comportementale
non observe. Lapproche devant tre ouverte et multiforme, et en ce sens, il ny a pas une
mthode pour un problme.
Une modlisation conomtrique permet un meilleur contrle des risques et de leurs
impacts sur lentreprise en fournissant une information fiable et robuste pour les dcideurs.
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 59
6. ANNEXES
6.1 Codification des professions
Code Profession
0 Non renseign
1 Agriculteur, exploitant
2 Artisan (*)
3 Commerant
4 Chef dentreprise (*)
5 Profession librale
6 Profession de linformation des arts et des spectacles
7 Cadre, ingnieur
8 Enseignant, formateur, chercheur
9 Educateur, animateur, moniteur
10 Profession intermdiaire de la sant et du travail social
11 Technicien
12 Contrematre, agent de matrise (*)
13 Agent, employ
14 Ouvrier
15 Etudiant
16 Demandeur demploi
17 Homme ou femme au foyer
60 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
6.2 Calcul des effets des variables explicatives dans les modles ZIP et ZINB
Modles ZIP ZINB
Frquence des
sinistres (
*
Y )
Coefficient Exp(Coefficient)
Coefficient Exp(Coefficient)
CRM .0067419 1.00676468 .0068692 1.00689285
Type1 -.0652792 0.93680587 -.0706267 0.93180967
DV1 -.4096558 0.66387872 -.4167522 0.65918425
DV2 -.0818105 0.92144656 -.086006 0.91758873
DV3 -.0566314 0.94494231 -.059632 0.94211117
Anciennet de
permis
-.0057936 0.99422315
-.0059137 0.99410375
Age du
conducteur
.0025266 1.00252979
.0026379 1.00264138
Anciennet du
vhicule
-.0079037 0.99212745
-.0079776 0.99205414
. . ............................ .
Inflation de
Zros (B)
CRM -.0180454 0.98211644 -.0180448 0.98211703
DV2 .3306541 1.39187826 .3271561 1.38701797
Anciennet de
permis
.0044903 1.0045004
.0045072 1.00451737
Anciennet du
vhicule
.0210358
1.02125861
.0211643
1.02138985
Constante 1.528996 4.6135425 1.492156 4.44667222
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 61
7. BIBLIOGRAPHIE
BOUCHER, J.Ph., DENUIT, M. and GUILLEN, M. (2007) Risk classification for claims
counts: A comparative analysis of various zero-inflated mixed Poisson and hurdle models.
North American Actuarial Journal, 11, 110-131.
BOUCHER, J.Ph., DENUIT, M. and GUILLEN, M. (2008a) Models of insurance claim
counts with time dependence based on generalization of Poisson and Negative Binomial
distribution. Variance 2, 135-162.
BOUCHER, J.Ph. and DENUIT, M. (2008b) Credibility premium for the zero-inflated
Poisson model and new hunger for bonus interpretation. Insurance; mathematics and
economics, 42, 727-735
BOUCHER, J.Ph. and DENUIT, M. (2008c) Crdibilit linaire bivarie utilisant le
nombre de priodes avec rclamations: modles de Poisson, modles barrires et modles
gonfls de zros. Assurances et gestion des risques, 75, 487-520.
CHIAPPORI, P.A. and SALANI, B. (2000) Testing for Asymmetric Information in
Insurance Markets. Journal of Political Economy, 108, 56-78.
COHEN, A. (2005) Asymmetric information and learning: evidence from the
automobile insurance market. The Review of Economics and Statistics, 87, 197-207.
COX, D. R. (1983) Some remarks on overdispersion. Biometrika, 70, 269-274.
CRAGG, J.G. (1958) Some Statistical Models for Limited Dependent Variables with
Application to the Demand for Durable Goods. Econometrica, 39, 829-844.
DANIE, B., HALL, D.B. and KENNETH, S.B. (2002) Score Tests for Heterogeneity
and Overdispersion in Zero-inflated Poisson and Binomial Regression Models, The
Canadian Journal of Statistics, 30, 415-430.
GOURIEROUX, C., MONFORT, A. and TROGNON, A. (1984) Pseudo Maximum
Likelihood Methods: Applications to Poisson Models. Econometrica, 52, 701-720.
GREENE, W.H. (2002) Econometric Analysis. Prentice Hall, 5
th
Ed.
GREENE, W.H. (1994) Accounting for Excess Zeros and Sample Selection in Poisson
and Negative Binomial Regression Models. Working Paper EC-94-10, Department of
Economics, Stern school of Business, New York University.
GRUN-REHOMME, M. and JOLY, V. (2003) Risque individuel et choix de contrat : Le
cas de lassurance automobile. Assurances et gestion des risques, 71(1), 145-162.
62 O.A. VASECHKO M. GRUN-REHOMME B. BENLAGHA
GRUN-REHOMME, M. and BENLAGHA, N. (2007) Choix de contrat et sinistralit chez
les jeunes conducteurs. Assurances et gestion des risques, 74(4), 505-532.
GRUN-REHOMME, M. (2000) Prvision du risque et tarification : le rle du bonus-
malus franais. Assurances et gestion des risques 1, 21-30.
MELGAR, M.C. and GUERRERO, F.M. (2005) Los Siniestros en el Seguro del
Automvil: un Anlisis Economtrico Aplicado, Estudios de Economa Aplicada.
HALL, D.B. (2000) Zero-inflated Poisson and binomial regression with random
effects: a case study. Biometrics, 56, pp. 1030-1039.
HUI LIU (2007) Growth Curve Models for Zero-Inflated Count Data: An Application
to Smoking Behavior. Structural Equation Modeling: A Multidisciplinary Journal, 14, 247-
279.
LAMBERT, D. (1992) Zero-Inflated Poisson Regressions, with an Application to
defects in Manufacturing. Technometrics, 34, 1-14.
LEE, A.H., STEVENSON, M.R., WANG, K. and YAU, K.K.W. (2002) Modeling young
driver motor vehicle crashes: data with extra zeros. Accident analysis and prevention,
34(4), 515-521.
LEE, J. and MANNERING, F.L. (2002) Impact of Roadside Features on the Frequency
and Severity of Run-Off-Road Accidents: An Empirical Analysis. Accident Analysis and
Prevention, 34 (2), 349-161.
MC CULLAGH P. and NELDER, J.A. (1989) Generalized Linea Models. Chapman and
Hall.
MELGAR, M.C., ORDAZ SANZ, J.A. and GUERRERO M. (2005) Diverses alternatives
pour dterminer les facteurs significatifs de la frquence daccidents dans lassurance
automobile. Assurances et gestion des risques, 73(1), 31-54.
MULLAHY, J. (1986) Specification and testing of some modified count data model.
Journal of Econometrics, 33, 341-365.
TOBIN, J. (1958) Estimation of Relationships for Limited Dependant
Variables. Econometrica, 26, 24-36.
VUONG, Q.H. (1989) Likelihood Ratio Tests for Model Selection and Non-Nested
Hypotheses. Econometrica, 57, 307-333.
WINKELMANN, R. (2003) Econometric Analysis of Count Data. Springer-
Verlag.
YANG, Z., HARDIN, J.W., ADDY, C.L. and VUONG, Q.H. (2007) Testing Approaches
MODELISATION DE LA FREQUENCE DES SINISTRES EN ASSURANCE AUTOMOBILE 63
for Overdispersion in Poisson Regression versus the Generalized Poisson Model.
Biometrical Journal, 49, 565 584.
YAU, K.K., WANG, K. and LEE, A.H. (2003) Zero-Inflated Negative Binomial
Mixed Regression Modelling of Over-Dispersed Count Data with Extra Zeros. Biometrical
Journal, 45, pp. 437-452.