Memoire LOPEZ Franck
Memoire LOPEZ Franck
Memoire LOPEZ Franck
le 23 juin 2021
Bibliothèque :
Adresse du cnam
Remerciements
Je tiens tout d’abord à remercier le groupe AON de m’avoir donné l’opportunité de travailler
sur ce projet et plus particulièrement Fabien Ramaharobandro, mon tuteur professionnel, pour
la proposition du sujet et pour son accompagnement.
J’adresse également mes remerciements à tous les membres de l’équipe actuariat d’AON Rein-
surance Solutions pour leur soutien et leur bonne humeur.
Je remercie aussi les personnes qui ont pris le temps de relire mon mémoire et pour leurs
remarques constructives.
Enfin, je remercie le CNAM et son corps professoral pour avoir rendu possible ma transition
professionnelle.
Franck Lopez 1
Résumé
Mots-clefs :
Provisionnement Individuel Stochastique, Réassurance Non-proportionnelle, Responsabilité Ci-
vile, Régression Logistique Multinomiale, Modèle Additif Généralisé Linéaire Paramétrique, Ré-
gression Quantile par Forêt d’arbre décisionnel.
Pour répondre à ces deux aspects fondamentaux, un outil de provisionnement à la fois indi-
viduel et stochastique a été développé sur R. Cet outil permet la réalisation d’une projection
stochastique sinistre par sinistre en cascade jusqu’à l’ultime puis l’estimation des provisions cé-
dées par application de la réassurance au niveau individuel. Chaque pas de temps est décomposé
en deux sous-étapes. La première consiste à prédire l’évolution en boni, stable ou mali de la
charge sinistre via la calibration d’un modèle de régression logistique multinomiale. La seconde
consiste à prédire une charge au décalage suivant au moyen de deux méthodes alternatives,
soit par un modèle additif généralisé linéaire paramétrique, soit par un modèle de régression
quantile par forêt d’arbres décisionnels. La simulation de multiples développements stochas-
tiques des charges individuelles permet enfin d’obtenir la distribution des provisions brutes puis,
après l’application individuelle de la réassurance, la distribution des provisions cédées. Le calcul
des tardifs n’est pas traité dans ce mémoire. Seuls les sinistres connus sont développés à l’ultime.
Franck Lopez 2
Abstract
Key words :
Stochastic Individual Reserving, Non-proportional Reinsurance, Third Party Liability, Multi-
nomial Logistic Regression, Linear Parametric Generalized Additive Model, Quantile Random
Forest Regression.
Insurance activity reverse production cycle requires the constitution of technical reserves to
cover benefits due to insured persons. These benefits, uncertain in nature, requires that the level
of technical reserves be assessed taking into account the available information at the time of
their constitution. In direct insurance, constituted reserves and their volatility can be estimated
globally from paid triangles aggregated by accident year with classic statistical method (Chain
Ladder, Bornhuetter-Ferguson, Mack, Bootstrap, etc.). In the same way, insurers must assess
reserves ceded to reinsurers which come to the benefit of technical reserves. Aggregated methods
for reserves evaluation used for insurance are poorly adapted to the excess of loss reinsurance
which applies individually and non-proportionally. This core charateristic prevents from calcu-
lating average cessions with average loss amounts. In one hand, claims heterogeneity and their
developments require the use of an individual method. In the other hand, this calculation must
also take into account volatility within a given claim.
To address these two fundamental aspects, an individual and stochastic reserving tool has been
developped with R. This tool enables to perform a stochastic projection claim by claim in series
to the ultimate and then ceded reserves estimation by application of reinsurance at individual
level. Each time step is split in two substeps. The first substep consists in claim evolution pre-
diction (positive, negative or stable) with calibration of a multinomial logistic regression model.
The second substep consists in loss amount prediction for next development year. This step can
be performed either by a parametric linear generalized additive model or by a quantile ran-
dom forest regression model. Simulation of multiple stochastic developments for individual loss
amounts finally makes it possible to obtain gross reserves distribution, and after individual rein-
surance application, ceded reserves distribution. Late reported claims calculation is not covered
in this study. Only known claims are developed to the ultimate.
To conclude, methods developed in this study allow not only to improve Best estimate esti-
mation of gross reserves and ceded reserves but also to obtain an estimation for their volatility
and probability density. In addition, the developed tool is now deployed in the company for
ceded losses best estimate calculation and reinsurance treaties commutations.
Franck Lopez 3
Table des matières
Remerciements 1
Résumé 2
Abstract 3
Introduction 6
I Cadre de l’étude 7
1 Contexte de l’étude 8
1.1 Type d’assurance étudiée : l’Assurance Dommage . . . . . . . . . . . . . . . . . . 8
1.2 Garantie Etudiée : la Responsabilité Civile . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Généralités sur la Responsabilité Civile . . . . . . . . . . . . . . . . . . . 8
1.2.2 Les garanties d’assurance . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.3 Les dommages concernés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Provisionnement d’un sinistre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Réassurance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4.2 Réassurance en excédent de sinistre (XS) . . . . . . . . . . . . . . . . . . 11
1.5 Les provisions cédées aux réassureurs . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.1 Un enjeu réglementaire : Best Estimate de cession . . . . . . . . . . . . . 12
1.5.2 Un enjeu économique : commutations . . . . . . . . . . . . . . . . . . . . 13
II Partie Théorique 17
Franck Lopez 4
2.1.2 Les limites de l’utilisation d’une méthode agrégée et déterministe appli-
quée aux sinistres individuels . . . . . . . . . . . . . . . . . . . . . . . . . 21
Franck Lopez 5
2 Présentation et retraitement des données 43
2.1 Présentation du cas étudié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.2 Retraitement des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.3 Statistiques descriptives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Conclusion 70
Annexes 72
Franck Lopez 6
Glossaire des abréviations
Franck Lopez 7
Introduction
La réassurance en excédent de sinistre s’applique par nature sur les sinistres individuels de
manière non proportionnelle. Ce type de couverture est commun notamment en réassurance
responsabilité civile automobile. De la même manière que les assureurs doivent constituer des
provisions techniques pour couvrir les prestations dues aux assurés, ils doivent aussi évaluer
les provisions cédées aux réassureurs qui viennent au bénéfice des provisions techniques. Les
méthodes agrégées d’évaluation des provisions sont peu adaptées à ce type de réassurance qui
s’applique individuellement et de manière non-proportionnelle.
Franck Lopez 8
Première partie
Cadre de l’étude
Franck Lopez 9
Chapitre 1
Contexte de l’étude
Plusieurs éléments de contexte sont développés dans ce chapitre pour permettre d’aborder
la problématique de l’étude par la suite.
Franck Lopez 10
1.2.2 Les garanties d’assurance
Responsabilité Civile Automobile (RCA)
Instaurée le 27 février 1958, l’assurance Automobile est obligatoire pour tout véhicule terrestre
à moteur. Elle couvre la Responsabilité Civile du Conducteur contre les dommages causés aux
tiers avec son véhicule (passagers, piétons, automobilistes). Si cette garantie constitue le mini-
mum obligatoire, elle ne couvre ni les dommages corporels du conducteur, ni les dommages aux
véhicules.
Dommages Matériels
Un dommage matériel est un dommage représentant une atteinte à une chose, un bien ou un
animal. Il s’oppose au dommage corporel qui représente une atteinte à la personne humaine.
Révisé tous les 5 ans en fonction de l’inflation, le plafond minimal de couverture des dommages
Franck Lopez 11
matériels en assurance auto en cas de sinistre est fixé à 1 220 000 €. Très loin, cependant des
pratiques du marché, les contrats d’assurance automobile prévoyant des plafonds plus élevés,
allant de 50 à 100 M€.
Dommages Immatériels
Un dommage immatériel est un dommage « résultant de la privation de jouissance d’un droit,
de l’interruption d’un service rendu par une personne ou par un bien meuble ou immeuble ou
de la perte de bénéfice ». Il s’oppose au dommage corporel et au dommage matériel, même s’il
peut en être une conséquence.
Franck Lopez 12
Dans le calcul de la PSAP peuvent aussi se retrouver la PFGS (Provision pour Frais de Gestion
des Sinistres) et la PRAE (Prévision de Recours A Encaisser). La décomposition de la charge
sinistre est présentée dans l’équation 1.1.
La provision d/d est connue et dépend des éléments connues à ce jour par le gestionnaire du
sinistre. Estimer la charge à l’ultime revient donc à estimer les IBNR. Les méthodes qui sont
développées dans ce mémoire ont pour objectif d’estimer précisément les IBNER. Les IBNYR
ne sont pas traités dans ce mémoire et nécessiterait , pour leur calcul, le développement d’un
modèle de tardif.
1.4 Réassurance
1.4.1 Généralités
L’opération de réassurance est un transfert de risque de l’assureur (la cédante) vers un
réassureur qui accepte de porter une partie du risque, cette partie étant définie contractuellement
dans un traité de réassurance qui lie la cédante et le réassureur. Cependant, seul l’assureur répond
à l’égard de l’assuré, aucun lien contractuel ne lie l’assuré au réassureur. La réassurance permet
de réduire la volatilité et de protéger le résultat des pertes extrêmes mais aussi d’accompagner
le développement d’un portefeuille. La réassurance permet à la cédante de réduire ses fonds
propres nécessaires pour couvrir ses risques grâce à la mutualisation. Le réassureur est lui aussi
soumis à des règles de solvabilité et emploie la diversification dans sa souscription pour réduire
ses besoins en capitaux ainsi que la rétrocession (transfert du risque vers un autre réassureur).
L’opération de réassurance permet ainsi à la cédante de tirer profit de la mutualisation à une
plus grande échelle, qui lui est normalement inaccessible.
Franck Lopez 13
m Une portée (ou capacité) : montant maximal pris en charge par la réassurance pour un
sinistre individuel.
m Un nombre de reconstitution de la capacité ou une limite annuelle agrégée (AAL).
m Une franchise annuelle agrégée (AAD).
m Une clause de rente qui spécifie comment les rentes doivent être valorisées dans la charge
sinistre affectée au traité.
m Une clause de stabilisation qui définit la règle du partage de l’inflation entre l’assureur et
le réassureur par le biais de la multiplication de la priorité et de la portée par un coefficient
dépendant de l’inflation et de la cadence de paiement.
La figure 1 illustre le fonctionnement de la réassurance en excédent de sinistre.
Franck Lopez 14
contrepartie ». Une meilleure estimation des BE de cessions aura donc des répercussions sur
le calcul de la solvabilité de l’assureur. Pour plus de précisions sur les aspects réglementaires
S2 des provisions cédées, le lecteur pourra se reporter à la lecture du manuel Best-Estimate
Liabilities [Taillieu, 2016].
Franck Lopez 15
Chapitre 2
Problématique du provisionnement
pour la réassurance non
proportionnelle
Franck Lopez 16
ensuite une quote-part (eq. 2.1).
Z ∞
Cession_M oyenne = C.f (C).QP.dC
Z0 ∞
Cession_M oyenne = ( C.f (C).dC) × QP (2.1)
0
Cession_M oyenne = Charge_M oyenne × QP
Ce type de réassurance est donc adaptée à une méthode agrégée pour estimer les provisions
cédées puisque le lien entre charge et cession est linéaire. Ce n’est pas le cas pour la réassurance
non proportionnelle et plus spécifiquement pour la réassurance en excédent de sinistre définie par
l’équation (eq. 2.2). La non linéarité du lien qui existe entre la sinistralité brute et les cessions
empêche de raisonner de manière agrégée.
Z ∞
Cession_M oyenne = max(C − priorité, 0).f (C).dC
0
Z ∞ (2.2)
Cession_M oyenne 6= max(( .f (C).dC) − priorité, 0)
0
Les figures 2 et 3 illustrent graphiquement cette idée. Sur la première figure, la charge ultime
projetée avec la méthode Chain Ladder aboutit à une charge en dessous de la priorité et donc à
des cessions nulles tandis que la modélisation de différents scénarios potentiels d’évolution de la
charge sinistre aboutit à une cession non nulle. Sur la seconde figure, la charge est initialement
au dessus de la priorité et est projetée de la même manière que pour le premier sinistre ce
qui aboutit à une cession encore plus élevée tandis que la modélisation individuelle permet
d’appliquer une évolution différente du sinistre précédent (dans ce cas globalement à la baisse)
et fait aussi apparaître des cas où la charge sinistre passe en dessous de la priorité, baissant
d’autant plus les cessions.
Franck Lopez 17
Figure 3 – Illustration de l’intérêt d’un provisionnement individuel stochastique en réassurance
non proportionnelle : sinistre initialement au dessus de la priorité.
Deux biais principaux de la méthode agrégée sont illustrés par cet exemple. Le premier biais
consiste à ne pas tenir compte des caractéristiques individuelles du sinistre, c’est à dire l’hé-
térogénéité de la sinistralité, pour sa projection ce qui entraîne un biais sur la charge ultime
brute individuelle et donc sur la provision cédée individuelle. Au brut, si les provisions à l’ultime
des petits sinistres sont systématiquement sous estimées tandis que celles des gros sinistres sont
surestimées, l’agrégation des provisions individuelles aura tendance à compenser les biais induit
par l’hétérogénéité des sinistres. Ce n’est plus le cas pour la réassurance en excédent de sinistre
qui sera uniquement impactée par les biais des sinistres supérieurs à la priorité. Le deuxième
biais consiste à ne pas tenir compte des différents scénarios d’évolutions possibles pour un même
sinistre individuel ce qui, là aussi, induit un écart sur la provision cédée individuelle et donc sur
la provision cédée totale calculée. Le développement d’une méthode de provisionnement qui est
à la fois individuelle et stochastique permet de répondre conjointement à ces deux biais.
Franck Lopez 18
Deuxième partie
Partie Théorique
Franck Lopez 19
Chapitre 1
La première étape, avant d’utiliser une méthode de projection à l’ultime, est une étape de
préparation des données en leur appliquant les retraitements nécessaires à l’application des mé-
thodes. En effet, les montants présents dans la base sinistre sont issus d’années de survenance
différentes vues à différents arrêtés. Ces montants ne sont donc pas forcément directement com-
parables. Cela peut être du à l’inflation mais aussi à des évolutions des règles de provisionnement
d’une survenance à l’autre (taux d’actualisation des rentes par exemple). Dans un contexte de
tarification, le référentiel de calcul doit être celui du traité de réassurance à renouveler. Dans
le cadre d’un provisionnement, le référentiel de calcul choisi est arbitraire. Il doit avant tout
permettre d’appliquer correctement la méthode de projection à l’ultime pour ensuite revenir
aux référentiels historiques.
Indice(Arrêté)
F lux = F lux_Indexé × (1.2)
Indice(Année_Réf érence + Décalage)
Franck Lopez 20
Chapitre 2
2.1.1 Théorie
Le principe de base du modèle Chain-Ladder est de projeter des montants dans le futur à
partir des accroissements constatés dans le passé. Les facteurs d’accroissement qui permettent
de passer d’un pas de temps au suivant sont appelés facteurs de développement (f ). Soit un
sinistre i survenu l’année surv, la charge au décalage d est notée xsurv,i (d). Le dernier arrêté de
la base de donnée est noté Adiag . Le décalage correspondant dépend de la survenance et vaut
donc Adiag − surv. Enfin, pour l’application correcte du modèle Chain-Ladder, les années de
survenance doivent être indépendantes entre elles. L’équation 2.1 détaille la méthodologie Chain
Ladder.
+ 1) × 1{d<Adiag −surv}
P
surv,i xsurv,i (d
fˆ(d) = (2.1)
× 1{d<Adiag −surv}
P
surv,i xsurv,i (d)
Une autre formulation [Taylor et McGuire, 2016] permet de se placer dans le cadre plus général
d’une régression linéaire de fsurv,i (d) pondérée par des poids wsurv,i (d) (eq. 2.2). Les poids
représentent alors l’importance relative de la charge individuelle de sorte que la somme pondérée
des facteurs de développement individuels soit égale au facteur de développement agrégé par
année de survenance. Les deux formulations sont équivalentes, la deuxième ayant l’avantage de
permettre le calcul d’une volatilité associée à une distribution via un GLM par exemple.
Franck Lopez 21
xsurv,i (d + 1)
fˆsurv,i (d) =
xsurv,i (d)
xsurv,i (d)
wsurv,i (d) = P × 1{d<Adiag −surv} (2.2)
i xsurv,i (d)
surv,i
Dans une approche classique, la projection est réalisée sur les montants agrégés par année de
survenance (eq. 2.3).
NX
surv
xsurv (d) = xsurv,i (d) (2.3)
i
La projection à l’ultime de la charge sinistre agrégée par survenance est réalisée ensuite en
cascade en appliquant l’équation 2.4 d’un décalage à l’autre (fig. 4). On note diagsurv = Adiag −
surv le décalage correspondant au dernier arrêté pour l’année de survenance surv.
Franck Lopez 22
NX
surv
xsurv (d) = xsurv,i (d)
i
Pour obtenir une estimation approximative des charges ultimes individuelles les coefficients de
passage sont appliqués directement aux charges individuelles (eq. 2.5).
L’agrégation par année de survenance des charges ultimes individuelles aboutit aux charges
ultimes agrégées précédentes (eq. 2.6). L’application individuelle de la méthode Chain-Ladder,
à défaut d’être une véritable méthode individuelle, est cohérente avec la méthode agrégée.
NX
surv
xsurv (ultime) = xsurv,i (ultime) (2.6)
i
Franck Lopez 23
Chapitre 3
Méthodologie du modèle de
Provisionnement Individuel
Stochastique
3.1 Objectif
L’objectif est de prédire, pour chaque sinistre individuel, l’ensemble des développements pro-
bables de la charge sinistre en se basant sur l’état actuel connu du sinistre (décalage et charge).
La connaissance de cet ensemble doit permettre d’appliquer la réassurance non proportionnelle
de manière individuelle et stochastique. La construction de cette méthode s’inspire en partie
des travaux de [Taylor et McGuire, 2016] qui développent une méthode de projection stochas-
tique paramétrique mais agrégée et du rapport [ASTIN, 2017] qui développe une méthode de
projection individuelle non-paramétrique mais déterministe.
Franck Lopez 24
3.3 Modèle de génération de bonis ou malis
En observant l’évolution des charges sinistres corporels d’un arrêté à un autre, plusieurs
observations peuvent être faites. Tout d’abord, une grande partie des sinistres garde une charge
stable d’une année à l’autre. Ensuite, pour les cas où la charge est réévaluée, les bonis ne sont
pas de même nature que les malis. En effet, un boni ne peut pas excéder la charge du sinistre
tandis qu’un mali n’a théoriquement pas de borne supérieure. Il est donc justifié de commencer
par séparer les données en trois sous ensembles (boni, stable et mali).
Ainsi, la première étape à accomplir afin de pouvoir développer la charge d’un sinistre d’une an-
née sur l’autre est d’évaluer la probabilité d’évolution d’un sinistre en fonction de son état actuel.
Un modèle multinomiale à trois variables (boni, stable et mali) est indiqué pour accomplir cette
première étape. Soit E la variable aléatoire catégorielle qui peut prendre les valeurs nominales
"boni", "stable" ou "mali". E suit une loi multinomiale avec trois issues possibles (eq. 3.1).
E ∼ E (X, d) (3.1)
Les paramètres de cette loi sont les probabilités de chacune des issues (eq. 3.2).
pBoni(x, d) si e = ”boni”
P(E = e|(X = x, D = d)) = pStable(x, d) si e = ”stable” (3.2)
pM ali(x, d) si e = ”mali”
Cette loi peut être décomposée en trois parties selon l’évolution du sinistre en boni, stable ou
en mali (eq. 3.4 et 3.5).
B(xd , d) avec probabilité pBoni(xd , d)
Xd+1 ∼ x
d avec probabilité pStable(xd , d) (3.5)
M (x , d)
avec probabilité pM ali(xd , d)
d
Les lois de probabilités B et M doivent être calibrées à partir de deux sous ensembles de la base
de données constitué respectivement des bonis et des malis. Cette calibration peut être réalisée
Franck Lopez 25
par plusieurs méthodes et est développée dans le chapitre 4.
Pour calculer une cadence de paiement, une approche agrégée a été choisie. Celle-ci consiste
à calculer, pour chaque décalage, la part de la somme des règlements observés sur la somme
des charges à l’ultime calculées (eq. 3.6). Cette cadence agrégée par triangle est ensuite appli-
quée à l’ensemble des charges individuelles projetées afin d’obtenir une matrice des règlements
individuels.
PN sinistre
Règlementsi,d
Cadenced = Pi=1
N sinistre
(3.6)
i=1 Chargei,ultime
Franck Lopez 26
Puis la provision totale par simulation est obtenue en sommant les provisions par sinistre pour
une simulation donnée. Enfin, l’ensemble des provisions totales par simulation constitue une
distribution des provisions. Ces étapes sont présentées dans l’équation 3.7.
ultime
X Règlementss,i,d
P rovisions,i =
d=diag+1
(1 + tactu )d
(3.7)
N sinistres
X
P rovisions = P rovisions,i
i=1
Isurv
Reglement_Stabi,j = Reglementi ×
Isurv+j
(3.8)
Isurv
Suspens_Stabi,j = Suspensi ×
Isurv+j
Reglements_Cumules + Suspens
Coef Stabi,d =
Reglements_Cumules_Stab + Suspens_Stab
Pd (3.9)
j=0 Reglementi,j + Suspensi,d
Coef Stabi,d = Pd Isurv Isurv
j=0 Reglementi × Isurv+j + Suspensi,d × Isurv+d
Pult
j=0 Reglementi,j
Coef Stabi,ult = Pult Isurv (3.10)
j=0 Reglementi × Isurv+j
Franck Lopez 27
Pult
j=0 Reglementi,j
Coef Stabi,ult =
Pult Isurv si Isurv+j − 1 ≥ seuil (3.11)
Isurv+j Isurv
j=0 Reglementi ×
1 sinon
ultime
X Cessionss,i,d
P rovision_Cédées,i =
d=diag+1
(1 + tactu )d
(3.14)
N sinistres
X
P rovision_Cédées = P rovision_Cédées,i
i=1
Franck Lopez 28
Chapitre 4
4.1 Objectif
Comme cela a été présenté dans le chapitre 3, afin de pouvoir développer la charge d’un
sinistre au décalage suivant, des calibrages de lois de probabilité doivent être effectués. Le premier
calibrage concerne les lois de probabilité prédisant l’évolution du sinistre (boni, stable ou mali)
tandis que le second concerne les lois de probabilité B et M qui prédise la charge au décalage
suivant en prenant en compte son état actuel et son évolution.
p
logit(p) = ln( ) = β0 + β1 x + β2 d
1−p
exp(β0 + β1 x + β2 d) (4.1)
p=
1 + exp(β0 + β1 x + β2 d
Une régression logistique binomiale peut être représentée par un réseau de neurones à une couche
(fig. 5).
Franck Lopez 29
La régression logistique multinomiale est une extension de la régression logistique binomiale
permettant d’étendre au delà de deux le nombre d’issues possibles pour la variable catégorielle.
Elle peut être réalisée par un réseau de neurones avec une couche cachée (fig. 6). Soit y le
résultat de la régression via le réseau de neurone pour un échantillon (x,d) donné. Ce résultat
doit être transformé via la fonction softmax qui est une généralisation de l’équation eq. 4.1 au cas
multinomial. Cette transformation permet d’obtenir les probabilités que l’échantillon de réponse
y appartiennent aux différentes classes i. Cette transformation est décrite par l’équation 4.2.
Figure 6 – Illustration d’un réseau de neurones avec une couche cachée [Rachka., 2020].
ey
P (E = i|y) = Φsof tmax (yi ) = PM i y (4.2)
m=1 em
Franck Lopez 30
4.3 Modèle de prédiction de la charge au décalage suivant
Les lois B et M peuvent être calibrées sur les données sinistres disponibles à l’aide de
différentes méthodes. Ces méthodes consistent toutes à réaliser une régression de la charge
(ou d’une transformation de celle-ci) en fonction de la charge au décalage précédent et du
décalage actuelle. On note Y la variable prédite. Plusieurs manières de définir cette variable sont
présentées dans l’équation 4.3. Elle peut être définie par la charge sinistre, son accroissement
absolu ou bien son accroissement relatif.
Yi = Xi,d+1
ou Yi = Xi,d+1 − Xi,d (4.3)
ou Yi = Xi,d+1 /Xi,d − 1
4.3.1.1 Théorie
La première méthode étudiée est dite paramétrique car la régression est réalisée en postu-
lant une loi de probabilité théorique puis en estimant ses paramètres en fonction des variables
explicatives. Une approche simpliste consiste à réaliser une régression linéaire simple (LM).
L’équation 4.4 présente les caractéristiques principales d’un modèle LM tandis que la figure 7
illustre sur un exemple les résultats du modèle.
Yi = β0 + β1 xi,d + β2 d + i,d
(4.4)
i,d ∼ N (0, σ)
Franck Lopez 31
Figure 7 – Exemple d’une régression linéaire simple [Rigby et Stasinopoulos, 2010]
Une première limitation de la régression linéaire simple est que la variable prédite doit avoir
une relation strictement linéaire avec les variables explicatives. De plus, la variable prédite est
supposée suivre une loi normale de variance constante. La variance peut tout de même être
variable en affectant des poids aux valeurs explicatives mais la distribution reste normale.
Le modèle linéaire généralisé (GLM) permet de s’affranchir en partie des limitations de la régres-
sion linéaire simple. Tout d’abord, la distribution normale de la variable prédite est remplacée
par une famille de distribution notée EDF (Exponential Dispersion Family) tandis que le lien
entre la variable prédite et les variables explicatives est défini par une fonction de lien mono-
tone "g" qui permet la non linéarité. L’équation 4.5 présente les caractéristiques principales d’un
modèle GLM tandis que la figure 8 illustre sur un exemple les résultats du modèle.
Yi ∼ EDF (µi,d , Φ)
(4.5)
g(µi,d ) = β0 + β1 xi,d + β2 d
Franck Lopez 32
Figure 8 – Exemple d’une régression linéaire généralisée [Rigby et Stasinopoulos, 2010]
Les lois faisant parties de la famille exponentielle permettent de couvrir un grand nombre de
cas avec des variances non constantes et la fonction de lien "g" permet de décrire des relations
non linéaires. Néanmoins, la famille de loi exponentielle ne permet pas de décrire toutes les
distributions possibles de la variable prédite.
Le modèle additif généralisé (GAM) permet d’élargir le cadre d’application d’une régression
paramétrique en s’affranchissant de l’hypothèse de distribution appartenant à la famille expo-
nentielle en la substituant par une famille plus générale de distribution. De plus, la régression
peut s’effectuer non seulement sur l’espérance mais aussi sur d’autres paramètres comme la va-
riance permettant une paramétrisation plus fine du modèle de régression. L’équation 4.6 présente
les caractéristiques principales d’un modèle GAM tandis que la figure 9 illustre sur un exemple
les résultats du modèle.
La moyenne µ ainsi que l’écart type σ possèdent leurs propres paramètres de régressions β et
leur propre fonction de lien g (eq. 4.7).
Franck Lopez 33
Figure 9 – Exemple d’une régression additive généralisée [Rigby et Stasinopoulos, 2010]
Cette formulation est celle d’un modèle GAM linéaire paramétrique. En effet, le cadre général du
modèle GAM permet l’ajout d’un terme additif ("A" de GAM) non paramétrique aux expressions
des gk ce qui aboutit à un modèle semi-paramétrique. De plus, des combinaisons non linéaires des
paramètres peuvent être utilisées ce qui aboutit à un modèle non-linéaire semi-paramétrique.
Néanmoins, seule la première formulation linéaire paramétrique du GAM est utilisée dans la
suite de l’étude.
Pour l’ensemble des modèles présentés, les paramètres β sont déterminés par maximisation
de la log-vraisemblance. La fonction de vraisemblance représente la probabilité d’observer les
données d’apprentissage avec les paramètres du modèle. La log-vraisemblance est, comme son
nom l’indique, le log de la fonction de vraisemblance. Sa maximisation permet d’obtenir, pour
un modèle donné, les paramètres les plus vraisemblables du modèle pour générer les données
d’apprentissage.
Le modèle GAM permet d’utiliser une grande variété de loi de probabilité. Etant donné la
partition en boni et mali de la base d’apprentissage, deux lois de probabilité doivent être choisies.
Le critère de sélection AIC (Akaike Information Criterion) permet de faire ce choix (eq. 4.8).
Franck Lopez 34
Loi des bonis
Soit yi,d le boni du sinistre i au décalage d, xi,d sa charge actuelle et xi,d+1 sa charge au décalage
suivant (xi,d+1 < xi,d ), un boni est défini par l’équation 4.9.
La variable Yi,d appartient à ]0, Xi,d ], le boni ne pouvant excéder la charge actuelle du sinistre.
Yi,d est donc borné à gauche et à droite avec une borne supérieure variable. Afin de rendre la
borne supérieure constante, on normalise la variable prédite en divisant celle-ci par la charge
actuelle xi,d (eq. 4.10).
xi,d − xi,d+1
yi,d = (4.10)
xi,d
La figure 10 représente un exemple de bonis avant et après normalisation.
Yi,d appartient désormais à l’intervalle ]0, 1] ce qui permet d’utiliser l’ensemble des lois à support
]0, 1] (fig. 13).
Franck Lopez 35
La variable Yi,d appartient à ]0, ∞[, un mali pouvant théoriquement être sans borne supérieure.
De la même manière que pour les bonis, il peut être utile de définir la variable prédite comme
la variation relative de la charge plutôt que la variation absolue de celle-ci en divisant celle-ci
par la charge actuelle xi,d (eq. 4.12.
xi,d+1 − xi,d
yi,d = (4.12)
xi,d
La figure 12 représente un exemple de malis avant et après transformation.
Le choix d’une loi peut ensuite être fait parmi les lois à support ]0, ∞[ (fig. ??).
Franck Lopez 36
4.4 Méthode non paramétrique : Régression quantile par forêt
d’arbres décisionnels
Cette section s’appuie principalement sur les travaux de [Meinshausen, 2006] qui développent
une approche des régressions quantiles par forêt d’arbres décisionnels.
4.4.1 Généralité
La deuxième méthode étudiée est dite non-paramétrique car la régression est réalisée sans
faire d’hypothèse de famille de lois de probabilité paramétriques pour la variable prédite. En
effet, plutôt que de supposer une distribution théorique de la variable prédite, il est possible de
réaliser directement une régression sur les quantiles de la variable à prédire.
4.4.2 Théorie
4.4.2.1 Régression Quantile
La fonction quantile Qα (x, d) se définit comme la valeur minimale des y pour lesquels la fonction
de répartition conditionnelle F (y|(X = x, D = d)) est supérieure ou égale à α (eq. 4.14).
Une régression sur les quantiles permet d’obtenir la distribution de la variable prédite.
Les arbres de décision (AD) sont une catégorie d’arbres utilisée dans l’exploration de données
et en informatique décisionnelle. Ils emploient une représentation hiérarchique de la structure
des données sous forme des séquences de décisions (tests) en vue de la prédiction d’un résultat ou
d’une classe. Chaque individu (ou observation), qui doit être attribué(e) à une classe, est décrit(e)
par un ensemble de variables qui sont testées dans les nœuds de l’arbre. Les tests s’effectuent
dans les nœuds internes et les décisions sont prises dans les nœuds terminaux appelés feuilles.
Un exemple illustrant la construction d’un arbre de décisions est (fig. 14).
Franck Lopez 37
Figure 14 – Exemple d’arbre de décision : survie des passagers du Titanic [Crucianu, 2020]
Un arbre de décision est construit à partir des observations d’origine (eq 4.15).
Pour un nouveau jeu de variables explicatives (X=x,D=d), une seule feuille sera atteinte. On
définit ωi , le poids de l’observation originale i dans le calcul de la prédiction (eq. 4.16).
1i∈F euille(x,d)
ωi (x, d) = Pn (4.16)
j=1 1j∈F euille(x,d)
La valeur prédite est obtenue en calculant la moyenne des observations Yi contenues dans cette
feuille (eq. 4.17).
n
X
µ(x, d) = ωi (x, d)Yi (4.17)
i=1
Un arbre de décision est très sensible au sur-apprentissage et des changements légers dans les
données d’apprentissage peuvent conduire à des différences de prédictions importantes.
L’algorithme des forêts d’arbres décisionnels est un algorithme d’apprentissage supervisé qui
effectue un apprentissage sur de multiples arbres de décision entraînés sur des sous-ensembles de
données légèrement différents. Il a pour but de réduire la variance de l’estimateur, en d’autres
termes de corriger l’instabilité des arbres de décision (fig. 15).
Franck Lopez 38
Figure 15 – Illustration d’une forêt d’arbres décisionnels.
Pour ce faire, le principe du bootstrap est utilisé en créant de nouveaux échantillons par tirage
aléatoire avec remise d’observations i dans l’échantillon d’origine de taille N . Un grand nombre
d’arbres de décision (K arbres) sont créés à partir de ces sous-ensembles. Les estimateurs ainsi
obtenus sont moyennés (lorsque les données sont quantitatives, cas d’un arbre de régression) ou
utilisés pour un vote à la majorité (pour des données qualitatives, cas d’un arbre de classifica-
tion). En pratique la prédiction de l’espérance de la variable prédite est obtenue en effectuant la
moyenne des observations originales mais, contrairement à un arbre de décision unique, les poids
utilisés pour réaliser cette moyenne sont calculés en réalisant une moyenne des poids ωi (x, d, t)
de chaque arbre t (eq. 4.18).
K
1 X
ωi (x, d) = ωi (x, d, t) (4.18)
K t=1
4.4.2.4 Régression quantile par forêt d’arbres décisionnels (Quantile Random Fo-
rest)
L’algorithme des forêts d’arbres décisionnels prédit une valeur moyenne en effectuant la
moyenne des prédictions de chaque arbre mais il est aussi possible d’utiliser l’ensemble des valeurs
prédites afin d’obtenir une prédiction de la distribution de la variable à prédire. L’espérance
E(Y |(X = x, D = d)) est remplacé par E(1{Y ≤y} |(X = x, D = d)) en utilisant les mêmes poids
ω que pour l’algorithme des forêts d’arbres décisionnels (eq. 4.19 et 4.20).
F (y|(X = x, D = d)) = P(Y ≤ y|(X = x, D = d)) = E(1{Y ≤y} |(X = x, D = d)) (4.19)
n
X
F̂ (y|(X = x, D = d)) = ωi (x, d)1{Yi ≤y} (4.20)
i=1
On obtient finalement les quantiles désirés en remplaçant F (y|(X = x, D = d)) par F̂ (y|(X =
x, D = d)) dans l’équation 4.12.
Franck Lopez 39
4.4.2.5 Choix des hyperparamètres
(
α(y − q̂α ) si y ≥ q̂α
Lα (y, q̂α ) = (4.22)
(α − 1)(y − q̂α ) sinon
Une valeur plus faible de cette fonction pour un quantile donné signifie une meilleure précision
pour la prédiction de ce quantile. La figure 16 illustre graphiquement les résultats de cette
fonction selon l’écart de prédiction. Plus α est petit, plus les écarts positifs sont pénalisés et
inversement plus α est grand, plus les écart négatifs sont pénalisés.
Franck Lopez 40
Figure 16 – Illustration de la fonction de perte quantile [Grover, 2018].
Par définition, l’espérance de Yid est égale à µid et l’espérance du résidu Eid est nulle (eq. 4.24).
E(Eid ) = 0
(4.24)
E(Yid = µid )
La prédiction moyenne de cette variable par le modèle est notée Ŷid (eq. 4.25).
Enfin l’erreur de prédiction est obtenue en calculant l’écart entre la valeur expérimentale et sa
prédiction par le modèle (eq. 4.26). L’erreur sur la moyenne (µid − µ̂id (x, d)) est appelée erreur
de paramétrage tandis que le terme de fluctuation Eid autour de la moyenne est appelé erreur
de processus. En pratique, la fonction µid est une approximation de la véritable fonction qui
détermine l’espérance de la variable aléatoire. Ce troisième terme d’erreur est appelé l’erreur de
modèle et n’est pas traité par la suite (eq. 4.26).
Franck Lopez 41
eid = Yid − Ŷid
eid = (µid − µ̂id (x, d)) + Eid (4.26)
eid = erreur de paramétrage + erreur de processus
La validation des modèles consiste donc à s’assurer que l’erreur de paramétrage soit la plus
faible possible et que la calibration de l’erreur de processus, aléatoire par nature, soit fidèle à
l’expérience.
4.5.2 Validation des modèles sur des données nouvelles : Back Testing
Après avoir validé que les modèles reproduisent correctement les données d’apprentissage,
la capacité de prédiction des différents modèles doit être évaluée sur des données inconnues.
Dans le cadre de séries temporelles, les données inconnues sont les évolutions futures des charges
individuelles. La méthode du Back Testing consiste à exclure les années les plus récentes pour
la phase d’apprentissage puis à prédire les années exclues avec les différents modèles. Les écarts
observés entre les valeurs prédites et observées permettent alors de mesurer les performances des
différents modèles. La figure 17 illustre le processus de Back Testing pour différentes profondeurs,
sur un triangle comportant à l’origine 15 années de survenance. A mesure que la profondeur du
Back Testing augmente, la quantité de données de référence disponible pour la comparaison
diminue.
Franck Lopez 42
Troisième partie
Franck Lopez 43
Chapitre 1
Développement de l’outil de
provisionnement individuel sur R
L’outil prend en entrée une base de sinistres individuels comportant les payés et suspens par
année de survenance et par arrêté puis les tranches de réassurance définies par année de sur-
venance. Il fournit en sortie les provisions brutes et cédées par traité et par réassureur pour
l’ensemble des simulations réalisées.
Franck Lopez 44
Chapitre 2
Ce chapitre présente le cas étudié sur lequel sont appliqués les différentes méthodes de calcul
des provisions brutes et cédées.
L’indice utilisé pour la stabilisation des bornes des traités de réassurance et l’indexation des
payés et suspens est l’indice INSEE des salaires pour la santé humaine (identifiant 001567402
remplacé en 2018 par 010562727). Pour les valeurs futurs de l’indice une hypothèse d’évolution
de 1,5% par an est prise en accord avec les évolutions passées récentes de l’indice. L’évolution
de l’indice est présentée sur la figure 18.
Franck Lopez 45
Figure 18 – Evolution de l’indice utilisé pour l’indexation et la stabilisation
Franck Lopez 46
Figure 19 – Effet de l’indexation sur le seuil de communication
Franck Lopez 47
(a) En fonction du décalage. (b) En fonction de la charge.
Franck Lopez 48
(a) Bonis en fonction du décalage. (b) Malis en fonction du décalage.
Afin d’observer en détail les densités de probabilité empiriques des facteurs de développement
individuels en fonction des variables explicatives, des violinplots sont tracés. Ces diagrammes
permettent l’observation sur une même figure des points de données et de la distribution de
probabilité en fonction d’une variable explicative. La figure 22 présente des violinplots du facteur
de développement individuel en fonction du décalage ou de la charge pour les bonis et les malis.
Ce sont ces distributions que les modèles développés par la suite doivent reproduire tout en les
généralisant à des données inconnues.
Franck Lopez 49
(a) Bonis en fonction du décalage. (b) Malis en fonction du décalage.
Franck Lopez 50
Chapitre 3
La première application pratique du calcul des provisions cédées pour le cas étudié est réalisée
avec un modèle Chain Ladder agrégé appliqué aux sinistres individuels. Cette méthode simple
sert de base de comparaison.
1
Evolution(d) = Qultime (3.1)
k=d f (k)
Franck Lopez 51
de survenance ainsi que les provisions cédées (après application individuelle de la réassurance).
Sur ces figures sont aussi représentées les provisions sans projection pour comparaison.
Franck Lopez 52
Chapitre 4
Franck Lopez 53
L’application du modèle multinomial permet d’obtenir les probabilités d’évolution en fonction
de la charge et du décalage (fig. 26). Sans surprise, la probabilité d’évolution en boni ou en mali
diminue avec la maturité du sinistre. De plus, les sinistres de charge élevée ont plus de chance
de voir leur charge évoluer que ceux plus petits. Néanmoins, l’effet de la variable décalage est le
plus significatif sur l’évolution d’un sinistre. Enfin, l’adéquation entre prédiction et expérience
est bonne au niveau global.
En annexe 4.5, la figure 48 présente les probabilités d’évolution en boni, stable ou mali en
fonction de la charge pour des décalages spécifiques. L’adéquation entre prédiction et expérience
reste bonne au niveau détaillé.
Franck Lopez 54
4.2 Modèle Additif Généralisé linéaire paramétrique
4.2.1 Choix des distributions
Comme présenté dans la partie II au chapitre 4, le choix des distributions de probabilité
pour les lois représentant les bonis ou les malis est effectué en calculant les critères AIC pour
chaque distribution et en sélectionnant les lois qui obtiennent le score le plus faible. Ce critère
est calculé sur l’ensemble des données de sinistre sans distinction de décalage ou de charge. Les
résultats obtenus pour les bonis sont présentés dans le tableau 4.1 et la figure 27. Le choix se
porte sur une loi Beta Généralisée qui obtient le score le plus faible avec le plus grand nombre
de degrés de liberté.
Les résultats obtenus pour les malis sont présentés dans le tableau 4.2 et la figure 28. Le choix
se porte sur une loi Gamma Généralisée qui obtient le score le plus faible avec, elle aussi, le plus
grand nombre de degrés de liberté.
Franck Lopez 55
(a) Gamma. (b) Log-Normale. (c) Gamma Généralisée.
Franck Lopez 56
(a) Bonis par décalage (b) Malis par décalage
Figure 29 – GAM - Validation globale de la calibration des bonis et malis, moyenne et quantiles
(50%, 75% et 95%).
En annexe 4.5, le détail de la comparaison des moyennes prédites en fonction de la charge pour
une sélection de décalage est présenté sur les figures 49 et 50.
Franck Lopez 57
(a) boni (b) mali
Franck Lopez 58
(a) Bonis - Distribution des résidus (b) Malis - Distribution des résidus
Enfin, en annexe 4.5, les figures 51, 52 et 53 présentent la distribution des résidus expérimentale
et calibrée ainsi que le diagramme probabilité-probabilité associé pour des décalages spécifiques
(0, 5 et 10). Les adéquations, bien que moins bonnes qu’au niveau global, restent satisfaisantes.
Franck Lopez 59
Figure 32 – GAM - Provisions estimées par survenance et quantiles 5% et 95%.
Franck Lopez 60
4.3 Modèle non-paramétrique : Régression quantile par forêt
d’arbres décisionnels (Quantile Random Forest)
4.3.1 Choix des hyperparamètres
Comme présenté dans la partie théorique, la calibration d’une forêt d’arbres aléatoire, bien
qu’étant non-paramétrique, nécessite de fixer des hyperparamètres qui contrôlent la forme et
la taille de la forêt. La figure 34 présente les erreurs quadratiques moyennes et les fonctions
de pertes quantiles calculées pour différentes configurations des hyperparamètres ntree (nombre
d’arbre dans la forêt) et nodesize (nombre minimal d’individu que chaque noeud doit contenir).
Pour le choix du nombre d’arbre, les gains sont faibles à partir de 5000 arbres. Pour le nodesize,
l’optimum se trouve autour de 250.
La figure 35 représente les fonctions de pertes quantiles calculées pour les mêmes configurations
d’hyperparamètres. Les résultats détaillés par quantile confirme le choix d’un nombre d’arbre
supérieur ou égal à 5000 et un nodesize autour de 250. Dans la suite de l’étude, les calculs seront
réalisés avec 10 000 arbres et un nodesize de 250.
Franck Lopez 61
(a) Bonis 50% (b) Malis 50%
Franck Lopez 62
4.3.2 Validation générale sur les moyennes prédites
La première validation du modèle se fait au niveau global en comparant les moyennes prédites
ainsi que quelques quantiles (50%, 75% et 95%) avec leurs équivalents expérimentaux (fig. 36).
Une bonne adéquation se dégage de ces figures aussi bien sur les moyennes que sur les quantiles,
pour les bonis et les malis.
Figure 36 – QRF - Validation globale de la calibration des bonis et malis, moyenne et quantiles
(50%, 75% et 95%).
En annexe 4.5, le détail de la comparaison des moyennes prédites en fonction de la charge pour
une sélection de décalage est présenté sur les figures 54 et 55.
Franck Lopez 63
(a) boni (b) mali
Franck Lopez 64
(a) Bonis - Distribution des résidus (b) Malis - Distribution des résidus
Enfin, en annexe 4.5, les figures 56, 57 et 58 présentent la distribution des résidus expérimentale
et calibrée ainsi que le diagramme probabilité-probabilité associé pour des décalages spécifiques
(0, 5 et 10). Les adéquations, bien que moins bonne qu’au niveau globale, restent satisfaisantes.
Franck Lopez 65
Figure 39 – QRF - Provisions estimées par survenance et quantiles 5% et 95%.
Franck Lopez 66
4.4 Comparaison des modèles
4.4.1 Application du Back Testing
Comme présenté dans la partie théorique au chapitre 4, la capacité prédictive des modèles
peut être comparée en réalisant un Back Testing. La profondeur du Back Testing est fixée à
1/3 de la base de données soit 5 années en arrière sur un total de 15 années. Les écarts entre
les quantiles observés et prédits via la fonction de perte quantile sont estimés. La figure 41
présente les résultats de la fonction de perte quantile en fonction du quantile et de la méthode.
Les méthodes individuelles obtiennent des écarts plus faibles que la méthode Chain-Ladder, la
différence étant plus importante pour les quantiles les plus extrêmes. De plus, la mesure de
ces écarts ne permet pas de distinguer significativement l’une ou l’autre des deux méthodes
individuelles étudiées.
Afin de compléter la validation par quantiles, le calcul des RMSE pour une série consécutive
de tranche XS de portée 2 M€ est réalisé pour chaque méthode et présenté sur la figure 42.
Là encore, les méthodes individuelles obtiennent des écarts plus faibles que la méthode Chain-
Ladder.
Franck Lopez 67
Figure 42 – RMSE en fonction de la tranche XS et de la méthode utilisée.
Les distributions des résidus, les fonctions de répartition et les diagrammes probabilité-probabilité des
variables observées en fonction des variables prédites sont tracés pour comparer les méthodes
entre elles. Les figures 43, 44 et 45 présentent les distributions, fonctions de répartition et
diagramme probabilité-probabilité des résidus respectivement pour les méthodes Chain-Ladder,
GAM et QRF.
Franck Lopez 68
(a) Distribution. (b) Fonction de répartition. (c) Diagramme PP.
Franck Lopez 69
Figure 46 – Comparaison des provisions brutes et provisions cédées globales estimées.
La figure 47 présente une comparaison des provisions cédées par traité estimées pour l’ensemble
des modèles étudiés. Les écarts entre les méthodes individuelles et la méthode Chain Ladder ne
sont pas constants et dépendent des bornes du traité ce qui confirme une fois de plus la nécessité
de projeter les charges de manière individuelle et stochastique.
Franck Lopez 70
4.5 Limites des modèles
Bien que les méthodes développées représentent une amélioration importante pour le calcul
des provisions cédées en réassurance non proportionnelle, un certain nombre de limite peut être
identifié :
m Ces méthodes sont basées sur les données passées et supposent donc une relative homogé-
néité des données dans le temps.
m Le volume de données nécessaire pour la calibration d’un modèle individuel qui prédit les
quantiles est plus important que pour la calibration d’un modèle agrégé. Ces méthodes
seront moins adaptées à un cas disposant de trop peu de données.
m L’année de projection maximale (ultime) est limitée par l’ancienneté des sinistres utilisés
pour l’apprentissage.
m L’utilisation d’un nombre restreint de variables explicatives (charge et décalage) peut s’avé-
rer insuffisant pour prédire les évolutions d’un sinistre individuel.
m Enfin, l’utilisation d’une cadence de paiement et d’une inflation future fixe conduit à des
coefficients de stabilisation déterministes ce qui peut réduire la volatilité des provisions
calculées.
Franck Lopez 71
Conclusion et perspectives
Franck Lopez 72
Bibliographie
[Taillieu, 2016] F. Taillieu et al., Manuel « Best Estimate Liabilities Non-vie », 2016, Institut
des Actuaires
[Beneteau, 2004] G. Beneteau, « Modèle de provisionnement sur données détaillées en assurance
non-vie », 2004, Mémoire d’actuariat
[Barbaste, 2017] M. Barbaste, « Une méthode de provisionnement individuel par apprentissage
automatique », 2017, Mémoire d’actuariat
[Quiquet, 2019] J. Quiquet, « Méthode d’estimation de la charge ultime en RC corporelle auto-
mobile basée sur des données individuelles », 2019, mémoire d’actuariat
[Antonio et Plat, 2012] K. Antonio et R. Plat, « Micro-level stochastic loss reserving for general
insurance », 2012, Scandinavian Actuarial Journal
[ASTIN, 2017] B. Harej et al., « Individual Claim Development with Machine Learning », 2017,
ASTIN Report
[Baudry et Y.Robert, 2017] M. Baudry et C. Y.Robert, « Non-parametric individual claim re-
serving in insurance », 2017, Article Chaire DAMI
[Taylor et McGuire, 2016] G. Taylor et G. McGuire, « Stochastic loss reserving using generalized
linear models », 2016, Casualty Actuarial Society
[Hua et al., 2010] C. Hua et al., « Companion to BER 642 : Advanced Regression Methods »,
2020, R-Book University of Alabama
[Rachka., 2020] S. Rachka, « What is the relation between Logistic Regression and Neu-
ral Networks and when to use which ? », 2020, Machine Learning FAQ, https://
sebastianraschka.com/faq/docs/logisticregr-neuralnet.html
[Rigby et Stasinopoulos, 2010] B. Rigby et M. Stasinopoulos, « A flexible regression approach
using GAMLSS in R », 2010, University of Athens
[Meinshausen, 2006] N. Meinshausen, « Quantile Regression Forests », 2006, Journal of Machine
Learning Research
[Crucianu, 2020] M. Crucianu et al., « Apprentissage, réseaux de neurones et modèles gra-
phiques », 2020, Cours CNAM RCP209
[Grover, 2018] P. Grover, « 5 Regression Loss Functions All Ma-
chine Learners Should Know », https://heartbeat.fritz.ai/
5-regression-loss-functions-all-machine-learners-should-know-4fb140e9d4b0
Franck Lopez 73
Annexes
Annexe 1
Modèle d’évolution : la figure 48 présente les probabilités d’évolution en boni, stable ou mali en
fonction de la charge pour des décalages spécifiques. L’adéquation entre prédiction et expérience
reste bonne au niveau détaillé.
Figure 48 – Probabilité d’un boni, stable ou mali en fonction du décalage et de la charge pour
une sélection de décalage.
Franck Lopez 74
Annexe 2
Méthode GAM : le détail de la comparaison des moyennes prédites en fonction de la charge pour
une sélection de décalage est présenté sur les figures 49 et 50.
Franck Lopez 75
Annexe 3
Méthode GAM : les figures 51, 52 et 53 présentent la distribution des résidus expérimentale et
calibrée ainsi que le diagramme probabilité-probabilité associé pour des décalages spécifiques (0,
5 et 10). Les adéquations, bien que moins bonnes qu’au niveau globale, restent satisfaisantes.
(a) Bonis, d=0 - Distribution des résidus (b) Malis, d=0 - Distribution des résidus
Figure 51 – GAM - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=0
Franck Lopez 76
(a) Bonis, d=5 - Distribution des résidus (b) Malis, d=5 - Distribution des résidus
Figure 52 – GAM - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=5
Franck Lopez 77
(a) Bonis, d=10 - Distribution des résidus (b) Malis, d=10 - Distribution des résidus
Figure 53 – GAM - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=10
Franck Lopez 78
Annexe 4
Méthode QRF : le détail de la comparaison des moyennes prédites en fonction de la charge pour
une sélection de décalage est présenté sur les figures 54 et 55.
Franck Lopez 79
Annexe 5
Méthode QRF : les figures 56, 57 et 58 présentent la distribution des résidus expérimentale et
calibrée ainsi que le diagramme probabilité-probabilité associé pour des décalages spécifiques (0,
5 et 10). Les adéquations, bien que moins bonnes qu’au niveau globale, restent satisfaisantes.
(a) Bonis, d=0 - Distribution des résidus (b) Malis, d=0 - Distribution des résidus
Figure 56 – QRF - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=0
Franck Lopez 80
(a) Bonis, d=5 - Distribution des résidus (b) Malis, d=5 - Distribution des résidus
Figure 57 – QRF - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=5
Franck Lopez 81
(a) Bonis, d=10 - Distribution des résidus (b) Malis, d=10 - Distribution des résidus
Figure 58 – QRF - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=10
Franck Lopez 82
Table des figures
Franck Lopez 83
29 GAM - Validation globale de la calibration des bonis et malis, moyenne et quan-
tiles (50%, 75% et 95%). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
30 GAM - Comparaison de la distribution des prédictions avec l’expérience. . . . . . 56
31 GAM - Comparaison de la distribution des résidus avec l’expérience. . . . . . . . 57
32 GAM - Provisions estimées par survenance et quantiles 5% et 95%. . . . . . . . . 58
33 GAM - Provisions totales estimées. . . . . . . . . . . . . . . . . . . . . . . . . . . 58
34 QRF - Choix des hyperparamètres de la forêt aléatoire. . . . . . . . . . . . . . . 59
35 QRF - Choix des hyperparamètres de la forêt aléatoire. . . . . . . . . . . . . . . 60
36 QRF - Validation globale de la calibration des bonis et malis, moyenne et quantiles
(50%, 75% et 95%). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
37 QRF - Comparaison de la distribution des prédictions avec l’expérience. . . . . . 62
38 QRF - Comparaison de la distribution des résidus avec l’expérience. . . . . . . . 63
39 QRF - Provisions estimées par survenance et quantiles 5% et 95%. . . . . . . . . 64
40 QRF - Provisions totales estimées. . . . . . . . . . . . . . . . . . . . . . . . . . . 64
41 Fonction de pertes quantile en fonction du quantile et la méthode utilisée. . . . . 65
42 RMSE en fonction de la tranche XS et de la méthode utilisée. . . . . . . . . . . . 66
43 Distribution, fonction de répartition et diagramme probabilité-probabilité des ré-
sidus Chain-Ladder. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
44 Distribution, fonction de répartition et diagramme probabilité-probabilité des ré-
sidus GAM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
45 Distribution, fonction de répartition et diagramme probabilité-probabilité des ré-
sidus QRF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
46 Comparaison des provisions brutes et provisions cédées globales estimées. . . . . 68
47 Comparaison des Provisions cédées pour les deux traités. . . . . . . . . . . . . . . 68
48 Probabilité d’un boni, stable ou mali en fonction du décalage et de la charge pour
une sélection de décalage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
49 GAM - Validation par décalage de la calibration pour les bonis. . . . . . . . . . . 73
50 GAM - Validation par décalage de la calibration pour les malis. . . . . . . . . . . 73
51 GAM - Comparaison de la distribution des résidus avec l’expérience pour décalage=0 74
52 GAM - Comparaison de la distribution des résidus avec l’expérience pour décalage=5 75
53 GAM - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
54 QRF - Validation par décalage de la calibration pour les bonis. . . . . . . . . . . 77
55 QRF - Validation par décalage de la calibration pour les malis. . . . . . . . . . . 77
56 QRF - Comparaison de la distribution des résidus avec l’expérience pour décalage=0 78
57 QRF - Comparaison de la distribution des résidus avec l’expérience pour décalage=5 79
58 QRF - Comparaison de la distribution des résidus avec l’expérience pour déca-
lage=10 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
Franck Lopez 84