Evaluation Statistiquedu Risque de Credit Par La Technique Du Scoring: Cas de Afriland First Bank

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 72

EVALUATION STATISTIQUEDU RISQUE DE

CREDIT PAR LA TECHNIQUE DU SCORING:


Cas de Afriland First Bank

Présenté par:

TENE Georges Colince

Maître ès-Sciencesen Mathématiques Pures

Sous la direction de

Eugène-Patrice NDONG NGUEMA

Chargé de coursà l’ENSP de Yaoundé

Sous l’encadrement professionnel de

Célestin GUELA SIMO

Directeur des Etudes et du Corporate Banking, AFRILAND FIRST BANK


DEDICACES

A la mémoire de mon père. Papa :Queton âme repose en paix.

A ma mère, Mme TC HO UN DA Madeleine; Maman, c’est sûr que tu ne comprendras


pasgrand-chose au sujetque j’ai traité dans ce document, mais saches que chaque mot, chaque
phrase, chaque ponctuation et chaque lettreque j’y ai inscritontune seule et même significa-
tion :« tu es la meilleure des mères ».

A notre chef de famille, Mr FOYO Jean-Paul, pour tes conseils, tonsoutien inconditionnel
que tu m’as toujours apporté comme à tous tes enfants.

A mes sœurs, Mme WOUAGOU Juliette et Mme MASSO Flore, pour votre amour, votre
soutien moral et financier, votre patience et votre dévouement sans faille qui m’ont permis
d’arriver jusqu’à ce point. Puisse ce diplômenous réserverà tous deslendemains meilleurs.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REMERCIEMENTS

« Louange à Dieu,letrèsclément et le très miséricordieux ».

Au Pr. Henri GWÉT

De primeà bord, nous voudrions lui exprimer notre grande considération à travers lesgrands
efforts fournis pour nous procurer le savoir et le savoir être dans des conditions universitaires
favorables.

Au Dr.Eugène-PatriceNDONG NGUEMA

Une mention toute particulière d’admirationet d’un grand respect à son endroit, dont les
nombreuxconseils méthodologiques et laconstante disponibilitéont été plus quedéterminant
durant notre formation et pour la réalisation de ce mémoire.

Au Pr. Philippe BESSE


Laboratoire de Statistique et Probabilités, UNIV Paul Sabatier de Toulouse III.
Pour sa disponibilité, son aide et les précieux conseils qu’il m’a donné via le Net.

A tout le personnel enseignant du Master 2 de Statistique Appliquée de l’ENSP.

Nous voulons ici exprimer nos sincères gratitudes à toutes les personnes qui nous ont été
d’un apport positif pendant notre stage à la FirstBank.

Nous remercions d’abord M. GUELA SIMO Célestin pour avoir bien voulu nous parrainer
pendant notre séjour au sein de Afriland First Bank.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


3

Mercià M. MOUAHA YEKEL, SIME Brice pour leur encadrement, et surtout pour avoir
bien voululirenotre travail, contribuerparleurs nombreuses critiques positives à son améliora-
tion.

Merciaussià toutlerestedu staff de la Direction des Etudesetdu CorporateBanking,et


plus particulièrementà MM El Hadj OUSMANEMAHAMAT et TACHOULA TSOGNO
Saturnin pournous avoir bien acceptéparmi eux,et nousavoir guidédans les tâchesque nous
avons eu àréaliser pendant notre stage.

Sincères remerciements à Mr Raymond TACHAGO pour l’encadrement et le soutien in-


conditionnel dont j’ai toujours bénéficiéà ses côtés.

AMr Guillaume EYOUM pour le soutien dont il a toujours faire montre à mon égard.

Ames amis et connaissances: Clotilde DJOTUE, Léopold NGUETGNIA, Nicanor NYAND-


JOU, Narcisse ZEBAZE, Samuel MBE et Raphaël FONGANG.

A tous mes camarades du Master 2 de Statistique Appliquée de l’ENSP.

Enfin, à tous ceux qui nous ont oeuvré dansquelque circonstance que ce soitpour la concep-
tion et la réalisation dece document, qu’ils trouvent icil’expression de notre profondegratitude.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


AVANT -PROPOS

Le stage académique de fin de formationfait partie du système d’évaluation de l’étudiant


enMaster 2de Statistique Appliquée del’Ecole Nationale Supérieure Polytechnique de l’Uni-
versité deYaoundé I. Il présentepour celui-ci un double intérêt : ce stage permetà l’apprenant
d’unepart desetrouverdans uncadre mieux indiqué pour pouvoir confronter la théoriereçue
pendant la formationà la pratique sur le terrain deson futurmétier. D’autre part, c’est aussi
l’occasion dese familiariser avec son milieu dedemain, le monde dutravail. C’estla raison
pour laquelle le stage académique est une étape indispensable pour les futursdiplômés en Sta-
tistiqueAppliquée que nous sommes. A l’issue de ce stage,l’étudiant présentera un mémoire
de fin de formation qui sera sanctionné par le diplôme de master 2 de Statistique Appliquée.
Durant notreséjour quia durétrois mois(25 juin au25 septembre2007) àla First Bank,
notre objectif était de fournirun outil statistique pouvant permettre deréduire le tauxd’impayés
élevé par rapport àlamoyennenationale, subie par cettebanqueen 2006, enmettant objec-
tivement sur piedun outil qui permettrait une détection automatique des clientsà risque qui
sont la principale causede cesimpayés. Il s’agissait pour nous de construire un modèle statis-
tique de décèlement précoce du statut «bon» ou «mauvais» client d’un nouvel emprunteur de la
First Bank. L’orientation de notre travail était portée surla conception d’unmodèle statistique
d’octroi de crédit par la technique du scoring : C’est le credit scoring. Ce terme désigne un en-
sembled’outils d’aide à la décision utilisés par les organismes financiers pour évaluer le risque
de nonremboursement des prêts.Un scoring est une note de risque, ou une probabilité de défaut.
Le modèle construit devrait nouspermettre d’évaluerle risque de crédit des emprunteursde la
First Bank.
Nousn’avons pasla prétentiond’avoir cernéles contours du sujet,bien aucontrairenous pen-
sons que plusieurs études doivent encore être faites pour l’amélioration de ce travail. Pour cette
raison, nous restons assujettis àvos remarques et critiques.

‘’ il arrive que les grandes décisions ne se prennent pas, mais se forment d’elles mêmes”

Henri Bosco (1888-1976)

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


RESUME

Comment lesbanques sont-ellescensées évaluer, prévoir et gérer efficacement le risque


crédit, face à l’incroyablediversité des dangers et menaces qui pèsent désormais surleur acti-
vité ? Comment peuvent-elles répondre avec succès aux nouvelles contraintes qui émanent de la
clientèle tout en préservant leur rentabilité future ? Ces deux questions sont au coeur des enjeux
liés à la mesure durisque de crédit, et ne sont pas sans effet sur la capacité future des banques
à gérer ce type derisque. Encore aujourd’hui,seules les banqueset institutions financières de
premier plan sont capables d’évaluer leur risque de crédit avec un certain degré de confiance ou
disposent d’une base de données fiable pour lescoring ou la segmentation comportementale des
emprunteurs. Spécifier des modèles de risque plus robustes que les méthodes traditionnelles, en
intégrant davantage de facteurs de risque de crédit et en améliorant la précision dela mesure de
ce risque, tel est le défi que doivent aujourd’hui releverles banques.
Dansle cadre decemémoire, notre travail consiste à la mesuredu risque de crédit parune
notation statistiquedesemprunteursà Afriland First Bank.On y développe deuxméthodespa-
ramétriques de construction d’un scoring, puis une comparaison finale des qualités de prévision
sur la base du taux de mal classés y est faite pour l’optimisation des modèles.

Mots clés : Banque, Risque de crédit, scoring, emprunteur, modèle.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


ABSTRACT

How banks are supposed to evaluate, forecast and manage efficiently credit risk,given
the multiple dangers and threats they have to face now ? How can they answer successfully to
the new constraints arising from supervisors while preserving their future profitability ? These
two questions are the most challenging issues related to credit risk,and they can impacton the
future banks’ability tomanage this type of risk. Even now, only first-ranked financial institu-
tions are really able to evaluate their credit risk with an acceptable levelof confidence or have
areliable database for the scoringorthebehavioural segmentation of the borrowers.Building
more robust credit risk models than traditional methods, by including more risk factors and im-
proving the accuracy of operational risk measures andindicators, such arethe challengesbanks
have to deal with in the near short term.
Withintheframework of thismemory,our work consistswith the measurement of risk
credit, by a statisticalnotation of the borrowers at Afriland First Bank. We develop two para-
metric methods of construction of a scoring, thena finalcomparison ofqualitiesofforecaston
the basis of rate of evil classified is made for the optimization of the models.

Keywords : Banks, credit Risk, scoring, model, borrower

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


SIGLES ET ABBREVIATIONS

BTP :BâtimentTravaux Publics.


CA :Chiffre d’Affaire.
DECB : Direction des Etudes et du CorporateBanking.
ENSP :EcoleNationaleSupérieurePolytechnique.
ESDC :ÉtudeStatistiquedesDossiersde Crédit.
Ets :Etablissement (entreprise personnelle).
FCFA : Franc de la Communauté Financièrede l’AfriqueCentrale.
GIC : Groupementd’IntérêtCommun.
IC :Intervalle de Confiance.
M :millions.
RN :Résultat Net.
SA :Société Anonyme.
SARL :SociétéàResponsabilitéLimitée.
SN :Situation Net.
VA :Valeur Ajoutée.
i.e :c’est-à-dire

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


LEXIQUE DES TERMES
TECHNIQUES[15]

– Actifs : c’est l’ensembledesbiens ou droitsconstituant le patrimoine de l’entreprise,i.e


tout ce qu’elle possède.
– Autonomie financièred’une entreprise : c’est la capacité de s’autogérerelle-même.
Elle est évaluée par les ratios: capital / dettes ; SN/dettes; SN/total passif.
– Cash flow :Le cash flow d’une entreprisepermet de mesurer sacapacité à autofinancer
ses investissements. C’estlemoyen leplus« sain » puisqu’ilcorrespond aux liquidités
dégagées par l’entreprise.
– Charges directes : une charge est dite directe parrapport à un produit lorsqu’elle parti-
cipe sansambiguïté à lafabrication deceproduit. Parmi lescharges directes,on a entre
autreslesmatières premières et fournitures quientrent en fabrication desproduits et la
main d’œuvredirecte composée des frais de personnel résultant destravaux effectués sur
un seul produit.
– Charges indirectes : ce sont les charges qui concernent plusieurs produits (et parfois
même tous les produits) de l’entreprise etqui sont réparties(ou "imputées") entre ces
produits àl’aide de clés de répartition.
Ce sont par exemple : certains frais d’usine (bâtiment,entretien, assurances,etc.), lescoûtsdes
services généraux de l’entreprise(direction générale, directionde la recherche, directioncom-
merciale, etc.), les campagnes publicitaires portant sur plusieurs produits de l’entreprise ou sur
l’entreprise elle-même (publicité corporate).

– Chiffre d’affaire :Le chiffred’affaire désignele total desventes de biens etde services
facturés par une entreprise sur un exercice comptable.
–C redit scoring : c’estun ensemble d’outils d’aideà la décision utilisés parlesorganismes
financiers pour évaluer le risque de nonremboursement des prêts.
– Fonds propresou capitaux propres : ils correspondentaux ressources stables de l’entre-
prise i.e dans une optique fonctionnelle, lescapitaux propres participent, concurremment
avec les éléments du passif externe, aufinancementde l’entreprise
– Montantdes investissements : Pour une entreprise,C’est le montant placé essentielle-
mentdansuneopération économiquepour acquérir des biens durables utilisés à court ou
àmoyen terme.
– Passifs : ce sont les élémentsdu patrimoineayant une valeur économique négative pour

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


9

l’entreprise, ieles obligations del’entreprise à l’égardd’un tiers dont il est probable ou


certain qu’elleprovoquera une sortie de ressources au bénéfice de ce tiers, sans contre-
partie au moins équivalente attenduede celui-ci. Les passifs comprennent les provisions
et les dettes.
– Taux d’intérêt horstaxes en% : Le taux d’intérêt d’un prêt ou d’un emprunt est le
pourcentage, calculéselon des conventions prédéfinies, qui mesure de façon synthétique,
sur unepériode donnée, larentabilité pour leprêteurou lecoût pour l’emprunteur de
l’échéancier de flux financiers du prêt ou de l’emprunt.
– Valeur ajoutée : C’est la contribution additionnelle d’une ressource, d’une activité ou
d’unprocessusdans laréalisation d’un produit oud’un service.En comptabilitéelle est
donnée par: Valeur Ajoutée = Chiffre d’affaire - Valeur des consommations intermé-
diaires.
– Rentabilité d’une entreprise : c’est l’aptitude à donner des résultats (positif ou négatif).
La rentabilité permet d’évaluer l’efficacité, ou plutôt l’utilisation rationnelle de ressources
limitées. Elle est évaluée via les ratios suivants: VA/CA ; RN/CA ou taux de marge nette;
RN/capitaux propres.
– Résultat net : Le résultat net d’une entreprise sur une période donnée (par exemple : une
année) est égal à:
la somme des produits réalisés par celle-ci sur la période, (chiffre d’affaires) delaquelle ona
déduit l’ensemble des charges (directes et indirectes) engagées sur la même période, ainsi que
l’impôt sur les sociétés.
Le résultat net peut donc prendrela forme d’une perte (résultat net négatif)ou d’un bénéfice
(résultat net positif).
– Scoring : c’est une note de risque, ou une probabilité de défaut.
– Siège social ou lieud’exploitation : Le siège social d’une entreprise est un lieu, pré-
cisédanslesstatuts d’unesociété,quiconstitue sondomicile et détermine son domicile
juridique.
– Solvabilité d’uneentreprise : c’est sa capacité à payer ses dettes ou ses créanciers. Elle
est évaluée par le ratio actif total/dettes.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


RESUME EXECUTIF

Cette note propose une applicationaux techniques de «credit scoring » à partir d’une
étude decas sur les difficultésfinancières desemprunteurs de la First Bank servant de sup-
port àdes formations initiales et continuéesen analyse des données. On présente tout d’abord
la problématique del’évaluationdu risquede crédit, les contraintesqu’imposela collecte de
données comptables dans un telcontexte, et la batterie des critères micro-économiques retenus
pourmesurer le degréd’insolvabilité desmicrocréditeurs. L’informationfourniepar cettebat-
terie de variables financiers est ensuite analysée aux moyens de techniques statistiquestelle que
la régressionlogistique et la discrimination linéaireau sens de Fisher. Les résultats fournis par
ces techniques d’analysediscriminante, et de classement permettent de montrer l’intérêt mé-
thodologiquede cesoutils pource type d’étude micro-économique. Lesrésultats obtenus sont
interprétés directement à partir des sorties dulogiciel R.

Objectif de l’étude:

Proposer une base méthodologique de mesure durisque de crédit applicable aux emprun-
teurs àl’intention de la First Bank.

0.1 Problème
Dans un contexte de transition issu des résultatscomptables peusatisfaisantsdu rapport an-
nuel 2006, il est vraisemblable quela problématique de l’évaluation du risque de crédit bancaire
connaisse un regain d’intérêt compte tenu des multiples sollicitations de crédit auxquelles fait
face la First Bank. Lescréances douteuses ont ainsi peséassez lourdes sur le résultat net qu’a
connu la First Bank. Il s’avère dès lors indispensable de mettre en place desmoyens efficaces
qui puissent permettre autantqu’il est possible de réduire les risques liés aux crédits accordés
par la First Bank, faute de pouvoir les éviter complètement.

0.2 Données
Les données sont collectées à la DECB-division des projets etinvestissements, l’unité sta-
tistique étant undossier de crédit. Malgrélesdifficultés de collectes auxquelles nous avons été
confrontés pendant la périodede stage, nousavons pucollecter 130 dossiersde crédit pour un
total de 25 variables par dossierde crédit. Ceci nous a permis de confectionner notre base de
données sous forme d’un tableau individus-variables pour enfaire uneanalyse.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


11

0.3 Méthodologie
Il s’agit d’une classification supervisée àdeux groupes: « bons clients» et «mauvais
clients». Afin dediscriminer au mieuxles deuxgroupes d’emprunteursrépertoriés dupoint
devue descritères financières et comptables, nous avons utilisé l’analysediscriminante sur la
base des variables financièresles plus pertinentes,pour prédire l’appartenancede chaque em-
prunteurouclient au groupe définiparlavaleurdelavariablequalitativeY «statut duclient»
àdeux modalités:
- si (Y =0), l’entreprise(emprunteur) est considérée comme financièrement saine;
-sinon (Y=1), l’entreprise est considéré comme défaillante.
À partir de combinaisons des caractéristiques financières utilisées comme variables explica-
tives (exogènes) dans l’analyse, l’analyse discriminante construitdes fonctions discriminantes
ou credit scoringpermettantd’affecter l’emprunteur àl’undes groupesprédéfinis sur la base
d’une règle probabiliste bayésienne. Lesméthodes utilisées sont la régressionlogistique à deux
classes et la discrimination au sens de Fisher.
Afinde valider les résultats obtenus, nous utiliserons une procédure de validationcroisée
qui consiste pour chaqueindividu de l’échantillon àréaliser son classement sur la base de la
fonction linéaire discriminante obtenue avec les autres individus de l’échantillon. Cela revient
àeffectuer autant d’estimationsqu’il ya d’individus dans l’échantillon. Selon cette procédure,
chaque individuclassé sert d’échantillon-testpour le calcul du pourcentage de bien-classés et
le classements’effectue sur la base d’un échantillon d’apprentissage constitué par lesn-1 indi-
vidus restants.

0.4 Résultats
Lescoring obtenu parlarégression logistique binairesemble être la mieux appropriéepour
la notationstatistique des emprunteurs à laFirst Bank. Ainsi, l’expression mathématique du
scoring est:
Ŝ (X) = 0.9209897CREDIT- 0.4030249R1+ 0.7310701R3- 0.0876921 R6+0.061002 R7
qui est une probabilité de défaut.
La méthode théorique nous fournit unseuil s=0 et un pourcentage de plusde 80% debons
classements, conséquemment la régle de décision suivante:
– Ŝ(X) ≤ 0 alors Ŷ =0 , ie que l’emprunteur est non risqué, il est donc considéré comme
bon.
– Ŝ(X) 0 alors Ŷ =1 , ie que l’emprunteur est risqué, il est mauvaisclient.
La construction de cescoring a généré un seuil s=80.3. En supposantque la politique écono-
mique delaFirst Bank estdenepasprendrederisqueieonestauseuilde 80.3,alorsonala
régle de décision suivante:
–Si Ŝ(X) ≤ 80.3, alors le client estconsidérécomme non risqué ie bon.
–Si Ŝ (X) 80.3, alors leclientest peut-êtrerisqué car icion rencotre les bons etles
mauvais clients.
Il est possible de faire encore varier ce seuil, cela signifie qu’on accroît le risque et l’erreur.
L’examen statistiquede la situation économiqueet financière des entreprises (emprunteurs),
envue deladétection précocedesdifficultés de laclientèle, est extrêmementfructueux. Par

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


12

l’analyse multicritères, il permet la construction d’un scoringqui fournit une image synthétique
du profil de l’entreprise empreunteuse. Celui-ci est, dans la très grandemajorité des cas, révé-
lateur dela santé de l’entreprise. Si un tel outil ne peut se substituer au jugement de l’expert,
il peut contribuer à l’informer rapidement sur le niveau de risque de l’entreprise et concourir
au diagnostic, grâce aux aides à l’interprétation qui l’accompagnent. L’analyste pourra alors se
concentrer sur des aspectsplus délicats et moins quantifiables de l’évaluation, en particulierles
aspects qualitatifs. Ainsi, expertise et utilisation d’un scoring ne sont pas contradictoires ; au
contraire, ellesse complètent etpermettent d’affiner l’analyse du risquede crédit . De même,
lorsque plusieurs outils d’évaluation du risquesont disponibles, généralement fondés sur des
systèmes d’information différents, il est très fructueux de les examiner tous. En effet, les rensei-
gnementsqu’ils apportent relativisent les points de vue, accroissent la fiabilité de la prévision
et renforcent le diagnostic.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


INTRODUCTION

Contexte et problématique

Le risque de crédit [6] est le risque (vu comme une probabilité) que l’emprunteur ne rem-
bourse pas sa detteen partie ouen totalité, àl’échéance fixée. De nos jours, sa maîtrise est
l’unedes principales préoccupations pour la plupart desorganismes bancaires, notammentvia
lescréances qu’elles accordent à leurs clients, qui sont pourlaplupartdesformes de prêtà court
terme, et pour cetteraison, de nombreuses banques sont aujourd’hui amenées à l’intégrer dans
leur gestion afin de le minimiser. Ce risque esten effet lourd de conséquences pour la banque,
car toute dettenon remboursée estéconomiquementuneperte sèchequesupporte le créancier.
Comptablement parlant, les créances et emprunts accordés à des tiers constituentainsi unposte
spécifique dans lebilan de l’entreprise et toute évolution négativeobère d’autant la survie de
l’entreprise àmoyen ou long terme. Très tôt, les établissements bancaires ont donc cherchéà
s’immunisercontre cerisquede crédit.En amont,ce risque peutfairel’objet d’uneévaluation
grâceà différentscritèreset destechniquesmêlant calcul et intuition. Suiteà cette évaluation,
lesbanquesdisposentensuite dedifférentsmoyensdeprotectionpour minimiser,voire annuler
ce risque économique.

Dans le cadrede leur fonction d’intermédiationfinancière, lesbanquess’exposentau risque


dene pas recouvrir latotalitédes fondsengagés dans lesdélais impartis. La First Bank, 4me
banque en total du bilan au Cameroun en 2006, a dû constituer FCFA 4 milliardsde provisions
pourfaire face aux mauvaisescréancesau titre du même exercice, pour un résultat net(RN)d’ex-
ploitation de FCFA1 milliard [3]. Ce qui représente un taux moyen de créances en souffrance
ou tauxd’impayés d’environ 17% (taux supérieur à la moyenne nationale qui est de 12%). Les
créances douteuses ont ainsi pesé assez lourd surce résultat netqu’a connu la First Bank. Il
s’avère dès lors indispensable de mettre enplace desmoyens efficacesqui puissent permettre
autant qu’ilest possible de réduire les risques liés aux crédits accordés par la FirstBank, faute
de pouvoir les éviter complètement. C’est la raison pour laquelle l’un des défis économiques
majeurs pour la First Bank en 2007 est réduire demanière considérableces impayés.

Le marché ducrédit bancaire mettant en relation le banquier et le client emprunteur est


caractérisé par uneimperfection d’information, source de rationnement du crédit aux yeux de
Christophe Godlewski[11]. Le banquierse doit ainsi dechercher les moyens efficaces qui lui
permettent debien faire lasélection deses clients.La pratique de cettesélection nécessite que
le banquier dispose d’au moins deux choses : l’information sur les clients, et une technique

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


14

objective de sélection elle-même. Pour détenir cette information, il y a une source officielle
représentée par les documents comptables et sociaux, et une sourceprivée nécessitant que le
banquier soit effectivement en relation avecl’emprunteur. Pour analyser l’information qu’un
banquier détient sur ses clients, on dispose à la FirstBankd’une méthode « subjective » dont
les exigences majeuressont lejugement et le bon sens,ce quinepermet pasà la First Bank de
déceler judicieusementles clientssusceptibles de ne pas honorerà leurs engagements avec la
banque. Ainsi, Pour analyser l’information que le banquier détientsur son client, ilfaut trouver
une autre approche complémentaire pourl’étude des dossiersde crédit, amélioratricedu taux
d’impayés. Ceci passeobjectivement parla misesurpied d’unmodèle statistique d’évaluation
du risque de non remboursement (risquede crédit)des emprunteurs de la FirstBank.

L’utilisationdelastatistiquepour étudierles dossiersde demande de créditpasse paruntravail


desynthèsed’unegrande massed’informationscollectéedans lepassé.En effet,lestechniques
statistiques permettent de retracer le profil des bonsclients et des mauvais clients à travers leur
passé à partir duquelil est possible de pronostiquer le risque de défaut d’un nouveau client.
Si un modèle d’évaluationest utilisé, les variables discriminantes contenues dans ce modèle
doivent être statistiquement représentatives. Lafiabilité du modèleet ses paramètres doivent
être contrôlés à priori (mesure de la performance prédictive) età posteriori (back-testing).

Enjeu:
La mesure du risque de crédit sur lesemprunteurs est un enjeu important,surtout lorsqu’il
s’agit des besoins traditionnels tel que le créditbancaire. La nécessité pour les banques de dis-
poser d’outilsfiables est encoreplus forte dansla périodeactuelle de montéedurisque decrédit
et de doutes sur les comptes dela clientèle. La réalisation d’unmodèle de notation statistique
d’octroide créditpar le scoring( credit scoring) estd’une grande importance en cesens que
sa capacité de pronostiquer facilite l’évaluation des risques des candidats aux microcrédits. Le
credit scoring est objectif, cohérent et explicite, il permet de quantifier le risque comme proba-
bilité et supposequ’une bonne partie des risquesestliée aux caractéristiquesquantifiées dans
la base de données.

Plan de travail:

Notre travail est divisé en cinq principaux chapitres. Le squelette seprésente comme suit:
dansun premiertemps, nousprésentons labanque Afriland First Bank, sa Direction des Etudes
et du CorporateBanking(DECB) et lesdifférentsrisques auxquelles font face laplupart des
banques en mettant unaccentparticulier sur lerisque de crédit. Ladescriptionde nosdonnées
faitl’objet du chapitre deux. Le chapitretroisest consacré àun exposé surquelques applications
statistiques version paramétrique du credit scoring à savoir la régression logistiqueet la discri-
mination linéaire-quadratiqueau sens deFisher, ensuite un quatrième chapitre est consacréà
la technique pratique de constructionet représentation d’unscoring, on fait varier le seuil s de
discriminationet onproposeunalgorithme pour estimer les malclassés lorsde laprédiction,
ils’agitdeserreurs depremièreetdeuxième espèce. Le chapitre cinqenfin, est essentiellement
portésurlesapplicationsinformatiquesvia le logiciel R des différentes méthodes annoncées
auxchapitres trois et quatre, enessayantd’interpréterles sorties obtenues.Un paragraphe pour
les recommandations y est inséré à la fin pour conclure ce travail.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


C H AP I TRE P RE M IER

P RE SE N TAT IO N DE LA
S T RU CT UR E D’ AC CU EI L ET
C ON C EP T D E R IS QU E BA NC AI RE

Ce premier chapitre de notre travail est d’une part consacréà une présentation sommaire de
la structure danslequelnousavonseffectuénotre stage académique. D’autrepart, ony présente
dans sa généralité le concept de risque bancaire en y mettant un accentparticulier sur lerisque
de crédit, la raison d’être de notre travail.

1.1 Présentation delastructure d’accueil


1.1.1 AfrilandFirst Bank
Afriland First Bank est un établissement bancaire de 6 500 000 000 FCFA de capital social.
C’est une SociétéAnonyme (SA) dont l’histoire remonte au 4 octobre 1987, date de création
dela CaisseCommuned’Épargneet d’Investissement (CCEI) quiallait être rebaptisée Afriland
First Bank en abrégé First Bank 15 années plustard. Son siège social est à Yaoundé. Le tableau
1.1 présente les principales caractéristiques de la FirstBank.

Notre stage s’est dérouléau siègesocial de la FirstBank àYaoundé, précisément au sein


de la Direction des Études et du CorporateBanking (DECB) dont les missions etl’organisation
sont sommairement présentées dans les lignesqui suivent:

1.1.2 LaDirectiondes Etudeset duCorporate Banking(DECB)


a- Les missions de la DECB
Plusieurs missions sont assignées àla DECB, notamment:
– l’étude de faisabilités des projets;
– l’évaluation des entreprises;
– l’étude de la restructuration des entreprises;
– l’élaboration d’une banque de données économiques et statistiques;

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


PRESENTATION DE LA STRUCTURE D’ACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 16

TAB . 1.1– Fiched’identification deAfriland First Bank

Raison sociale :Afriland First Bank

Forme juridique :S.A

Siège social : Yaoundé, Hippodrome, Place de l’indépendance,

B.P :11834

Tel. : 22 23 30 68 / 22 22 37 34/22 23 63 27

Fax :22 22 17 85

Telex :8907 KN

Web :www.afrilandfirstbank.com

Capital social :6 500 000 000 FCFA

Vocation : La volonté d’être et de rester une banqueafricaine

Ambitions:
- rester le partenaire de l’entreprise gagnante;

- entretenir la flamme de l’innovation;

- rester la banque de proximité;

- nourrir la croissance par une bonne liquidité.

Source :www.afrilandfirstbank.com

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


PRESENTATION DE LA STRUCTURE D’ACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 17

– l’analyse des filières économiques;


– l’alimentation permanente de la banque des projets;
– l’organisation / le conseil / le suivi des entreprises;
– la gestion des lignes de financement;
– la promotion des entreprises;
– la promotion des fonds de garanties mutuelles;
– la recherche des solutions aux problèmes spécifiques de financement des entreprises;
– la recherche des subventions pour le financement du suivi/conseil des entrepreneurs;
– la recherche des lignes de financement moyen et long terme;
– la recherche des partenaires étrangers ainsi que l’assistance technique pour les projets;
– le développement des diverses relations avec les bailleurs de fonds;
– la promotion et le suivi des microstructures;
– lagestiondu portefeuilledesparticipations locales.

b- L’organisation de la DECB
LaDECBest dirigée par undirecteur quien assure le suivietla gestion. Elle comprendtrois
Départements:

Le Département Micro banque organisé en cinqdivisions:


– la Division Micro banque Ouest et Nord-ouest;
– la Division Micro banque Grand Nord;
– la Division Micro banque Littoral, Est et Sud-Ouest;
– la Division Micro banque Sud-Centre;
– la Division Audit

Le Département des Études, des Projets et des Investissements avec trois divisions:
– la Division des Études;
– la Division des Projets et Investissements;
– la Division Documentation et Archivage.

Le Département du Corporate Banking et des Marchés Financiers qui comprend trois


divisions:
– la Division des Marchés Financiers;
– la Division Asset Management / Gestion Actif;
– la Division du Corporate Banking

1.1.3 Contexte de l’étude


Le dispositif actuel d’étude des dossiers de crédit àla First Bank
Leréemploi desressources collectées au titre des crédits accordésaux agentséconomiques
à besoinde financementest laraison d’être de laFirst Bank. En effet, plusieurs types de clients,
personnesphysiques oumoralespeuvent, au besoin, solliciter le concours dela First Bankpour
le financement de leurs projets ou diverses activités économiques.
Cependant, la First Bankne répond pas favorablement àtoutes les demandes exprimées

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


PRESENTATION DE LA STRUCTURE D’ACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 18

par ses clients potentiels. Seuls les clients jugés aptesà retourner les fondsreçus aux condi-
tionsconvenues peuventêtre financés.Cette aptitudeà respecter sesengagements vis-à-vis de
la banque s’évalueà travers l’étude des dossiers de demandede crédit introduitspar lesclients
auprès dela banque. Cette étude est conduite respectivement par les analystes, les contre ana-
lystes des dossiers de crédit et les comités decrédit.

a. Les analystes et les contre analystes des dossiers de crédit


Lesanalystes des dossiers decrédit débutent l’analysede tout dossier de crédit introduitauprès
de la First Bank par les clients. Mais, parallèlement àcetteanalysedes dossiersde demande de
crédit, les analystes assurent leconseil et l’orientation du client afin de lui permettre de bien
circonscrire l’objet de sa demande.
Ce début d’analyse consiste notamment à:
– faire une description des caractéristiques du client et de son besoin exprimé;
– fairel’état dela situation desengagements en coursdu clientvis-à-vis du systèmeban-
caire en général, et en particulier ses engagements vis-à-vis de la First Bank;
– décrireleprojetobjetdelademande,eten analyserlesrisques,larentabilitéetlasolva-
bilité;
– recenserles types de garanties quele client propose pour la couvertured’éventuels enga-
gements de la banque;
– résumerlespoints forts etlespoints faiblessusceptiblesd’orienter uneappréciationdu
dossier en traitement;
– faireune proposition dedécision vis-à-vis dufinancement sollicité parle client, ainsique
les conditions debanqueque sont l’échéance,lesgaranties, le mode d’amortissement du
crédit et le taux d’intérêt.
Ce travail des analystes est par la suite présentéà uncontre analystepour descritiquesen vue
de son amélioration. Le dossier étudié parl’analyste et lecontre analyste estalors prêt à être
présenté aux comités de crédit pour son appréciation.

b. Les comités de crédit


Ce sont les seulesinstances à même de valider définitivement un dossier decrédit devantbéné-
ficier du concours de labanque dans les limites deleurs compétences. Il yaà cet effet5 comités
de crédit chacun habileté à valider lesdossiers de crédit portant des montants comprisdansun
intervalle donné. Un autre critère distinctifde cescomités estla qualité desmembres.
Le comité 1 commence l’analyse de tout dossier étudié par l’analyste etle contre analyste.
Lesmembres débattentdu dossier decrédit sur la based’unefiched’analyserédigéeparl’ana-
lyste. Il valide lademandede financementenreprécisantlesconditions debanque(échéance,
garantiesettaux), oularejette,sile montant setrouvedansleslimitesde sescompétences. Si
non,il donnesonavis,favorable ounon,pour le financementdu besoin du client, puis transmet
le dossier au comité 2 qui suit le même processus. Cette démarche se poursuit jusqu’au comité
5 pourles montants des crédits pour lesquels les4 premiers comités ne peuvent se prononcer
définitivement. Enfin, notons quela décisionde chaque comité est motivée, et accompagnée
d’un procès verbal.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


PRESENTATION DE LA STRUCTURE D’ACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 19

1.2 Concept de risque bancaire:


Dans cettepartie, nousabordons sommairement le concept de risque bancaire et nous nous
articulons essentiellement sur la zoologiedu risque financier.
La principale mission des banques est d’assurer la fonction d’intermédiaire financier. Lors-
qu’une banque combine des ressourcesd’origines diversespour financerplusieursemplois dis-
tincts, cette fonction est qualifiée d’allocation.Cette fonction d’intermédiation dansun environ-
nement instable fait ainsi supporter à l’établissement financier quatre types de risques [7] :

1.Les risques commerciaux : cesont les risquesrésultant de l’insolvabilité d’un acheteur


privé dans le cadred’une vente de marchandisesou d’uneprestation deservice, oud’un four-
nisseurprivé dans le cadre d’une opération de préfinancement. Lacouverturede cerisque peut
êtrelimitée à l’insolvabilité juridiquement constatéeou élargie à l’insolvabilité de fait (présu-
mée) ou àla carence pure et simple (défaut).
2.Les risques de positionnement concurrentiel: C’est untype de risque principalement ca-
ractérisé parla situation d’un produit ou une entreprise à produitunique par rapport àla concur-
rence et depouvoir tirer les enseignements quis’imposent quant àla position concurrentielle
de la firme et àl’attrait du marché.
3.Les risques opérationnels : Ce sont les risques que l’organisation, ses acteurs et l’environ-
nement externe font courir à la banque. Ils se décomposent en 4 sous-ensembles:
– Lerisque liéau systèmed’information : défaillance matérielle,bogue logiciel,obsoles-
cence des technologies (matériel, langages deprogrammation, SGBD,..).
– Le risque lié aux processus (saisies erronées, non respect des procédures,. ..);
– Lerisque liéauxpersonnes(absentéisme, fraude, mouvements sociaux,. .. mais aussi
capacité de l’entreprise à assurer la relève sur les postes clés);
– Le risque lié auxévénements extérieurs (terrorisme, catastrophe naturelle).
4. Les risques financiers :Ce sontlesplus importants, ces risques, pouvant entraîner des pertes
sérieusespour labanque, doiventêtre prisen compte dans sagestioninterne. On endistingue
six principaux types:
Le risquede liquidité, pour unebanque, représente l’éventualitéde ne paspouvoir faire
face, à un moment donné, à ses engagementsouà ses échéances.
Le risque de tauxd’un établissement financier est celui de voir sa rentabilité ou la valeur de
ses fonds propres affectées par l’évolution destaux d’intérêt,
Le risque de marché est lerisque de pertes sur les positions du bilan etduhorsbilanà la
suite de variations des prix de marché.
Le risque de change traduitlefait qu’une baisse descours dechange peutentraînerune
perte de valeur libellée en de vises étrangères.
Le risque de solvabilitéest l’éventualité de ne pas disposer de fonds propres suffisants pour
absorber les pertes éventuelles.
Lerisque de crédit oudecontrepartie: c’estle risque pour uncréancierde perdredéfi-
nitivement sa créance dans la mesure où ledébiteur ne peut pas, même enliquidant l’ensemble
de ses avoirs, rembourser la totalité de ses engagements.
Ce dernier estlaprincipale typologiede risque àlaquelle sont confrontéslesétablissements
decrédit (banque) de nos jours. Le crédit comporte toujours un certain degré de risques. La
banque ne peut les éliminer totalement, mais plutôt en les mesurant correctement, elle doit

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


PRESENTATION DE LA STRUCTURE D’ACCUEIL ET CONCEPT DE
RISQUE BANCAIRE 20

pouvoir les gérer, par exemple les couvrir s’ils sont importants. Lorsque la banque octroie un
crédit, elle pose un acte de confiance vis-à-vis dudébiteur. Faire crédit, c’est essentiellement
faire confiance: labanque croitauremboursement ultérieurdelasommeempruntée. Maisil
n‘y a jamais decertitude absolueque le débiteur rembourseradans les délais convenus. C’est
la raison pourlaquelle la gestion du risquede crédit requiert une attention de grande envergure
car le contraire pourrait entraîner la faillite de la banque.

1.2.1 Le risquedecrédit:veillerauxdéfautsdepaiement[13]
L’événement risqué est le non-respect par un client ou par unecontrepartie de ses obli-
gations financières ou, de manière plus générale, ladétérioration de la qualité crédit de cette
contrepartie. Tout produit bancaire pourlequel undéfaut depaiement du client entraînerait une
perte pour la banque doit donc faire l’objet d’un calculde risque crédit. L’horizonde temps per-
tinentpour le risque decrédit s’étale donc jusqu’à l’expiration descontrats,mais il est souvent
ramené à un an, période de recapitalisation delabanque.

1.2.2 Le risquedecrédit:niveauxdegestion[7]
Le risque de crédit est géré à plusieurs niveaux:
1- Les systèmes de gestiondes limites permettent de diversifier le risque et d’éviter la
concentrationdes encours crédit sur un pays (risque géofigure), un secteur économique, un
groupe international, etc.
2-Les systèmes de scoring évaluent la probabilitéde défaut de paiement pour un client ex-
ante (avant même de lui octroyer le crédit) ; ces systèmes sont souvent basés sur des statistiques
de défaillances et permettent de segmenter les clients suivant le risque.
3- Un systèmede gestion de portefeuille , au-delà des systèmes utilisés pour l’octroidu
crédit, permetd’optimiser les transactions.La notion de pertes moyennes intervient à nouveau,
mais coupléeà lanotion de capitaléconomique, pour dériver un « RiskAdjusted ReturnOn
Capital »(RAROC). Ce RAROC sera disponibleà plusieurs niveaux: par transaction,par client
et par entité de la banque. Ce système permet également, grâce aux investisseurs et aux marchés
financiers, deredistribuer leportefeuille descrédits pour un rapport rendement /risque optimal.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


C H AP I TRE D EUX

D ESCR IPTION S TATIS TI QUE DE


L A BASE DE DO NNE ES

Introduction:
Lesoutils de laStatistique descriptive fournissent des résumés synthétiquesde séries
devaleursadaptées à leurtype (qualitatives ou quantitatives), et observées sur une population
ou un échantillon. Ce chapitrese propose de présenter quelques moyens permettant de résu-
mer les caractéristiques (tendance centrale, dispersion, boîte àmoustaches, histogramme, tests
statistiques) d’une variablestatistique ou les relations entre variables de même type quantita-
tif (coefficient de corrélation, nuage de points) ouqualitatif. De typesdifférents(rapport de
corrélation, diagrammes en boîtes parallèles). Les notions présentées sont illustrées sur un jeu
de données typique d’un creditscoring en marketingbancaire. C’estensuite larecherche de
prétraitementsdes donnéesafin de les rendre conformes aux techniques de modélisationou
d’apprentissage qu’il sera nécessaire de mettre enoeuvre afin d’atteindre lesobjectifsfixés:
•Codage en classe ou recodage de classes,
•Imputations ou non des données manquantes,
• Classification supervisée et premier choix de variables.
Dans le cas d’une seulevariable, Les notions les plus classiques sont cellesde médiane,
quantile, moyenne, fréquence, variance,écart-type définiesparallèlement àdes représentations
figures : diagrammeen bâton, histogramme, diagramme-boîte, figurescumulatifs, diagrammes
en colonnes,en barre ou en secteurs. Dans le cas de deux variables, ons’intéressera àla corré-
lation, aurapport decorrélation ou encore àla statistique d’un testdu khi deux associéà une
table de contingence. Ces notions sont associées à différentes figures commele nuage de points
(scatterplot), les diagrammes-boîtes parallèles.
Dans ce qui suit, nousprésentonsla méthodologiedecollecte desdonnées et nous nous
proposonssimplement de produire via certains outils moinsclassiques mais efficacesetprésents
dansla plupart des logiciels statistiques comme le logiciel R.Cela nous permettra également
d’illustrer les premières étapes exploratoires àréaliser sur notre jeu de données.

2.1 Méthodologie de collectedes données


Laconstitutiond’unéchantillon pour notreétude s’avèretrès coûteuse entempsdu point
devue de la collectedes données,pourdesraisons techniquesliéesà l’harmonisation despra-
tiques comptables de la First Bank ; mais également en raison des règles strictes de confidentia-

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 22

lité imposées par la nature des informationscomptables et financières.Lesdonnées financières


et comptables sontissues de la DECB - division des projets et investissements dela FirstBank.
La sélection s’est effectuée sur la base dedonnées physiques comptables, disponiblesetfiables
pour des exercices datant jusqu’en fin 2006 1 .
Pour notre étude, nous avonsconsidéré comme unité statistique un dossier de crédit.A
la First Bank, un dossier de crédit estun fichier physique dans lequel on retrouve toutes les
informations comptablesetfinancièressurun client. Les dossiers de crédit qu’ona puconsulter
étaient essentiellement les dossiers sur les projets d’investissements pour lesquels la First Bank
s’était s’engagée en mettant àladisposition du promoteur lecrédit (en totalité ou enpartialité
suivant les recommandations des différents comités de crédit) dont il avait besoin pourle fi-
nancement de son affaire.Dansla conduite d’uneanalysestatistiquedes dossiers decrédit,le
premier travail a consisté à constituer unfichierqui contient desinformations complètes surdes
dossiers deprêts. La constitution dela base de donnéessous forme d’un tableau à deux entrées
individus-variables nécessaireà cette l’analyse a commencé avecladéfinition des variables de
natures diversesà collecter à partir des dossiers decrédit déjà octroyés par la First Bank et qui
étaientarrivésàéchéance. L’étape de lacollectesera suivieparcelledela saisie afindedisposer
d’une base de données sous forme de fichierélectronique pour les besoins d’analyse. Malgré
la difficulté de collecte de données à laquelle nous avonsété confrontés pour des raisons de«
secret bancaire » émispar labanque,nousavonstout demêmerecueilli pendant unedurée de
trois semaines un total de 130 dossiersde crédit, bien évidemmentpeusatisfaisant en nombre,
mais aussi, suffisantpourmener àterme notre travail.A l’issue de cette collecte, des 130dos-
siersde crédit obtenus,on endénombre 19dont le crédit octroyé par la First Bank n’était pas
remboursé totalement,en partieou même pasremboursé aprèsla date de l’échéance convenue
avec la banque.

2.2 Description des variables d’analyse


Le choixdes variables d’analysese doit d’obéirà la seule logique de couverturemaximale,
autant que faire se peut, de l’information susceptible d’aider à distinguer les bonsdossiers de
crédit des mauvais dossiers, oules mauvais clientsdesbons clients. Les variablesà retenir
doiventdonc contenir l’essentiel del’information sur le client. Labatterie de critères écono-
miques etfinanciers comporte 25variables explicatives et une variable qualitative Yà expliquer
dont les sélections sont faites selon les thèmes décrits dans le tableau 2.1.

Remarque

Dans le tableau2.1, les variables FORJU, NACTI, SISO etY sont qualitatives et les 22
autres sont quantitatives. Il est à noter la variable Y= statut d’un client estla variable qualitative
binaire àprédire dont les modalités sont 0= « bon client ou client non risqué » et1 =« mauvais
client ou client risqué». Nous déclaronsunclient bonlorsqu’il aremboursé la totalité de son
emprunt à l’échéance fixée avec la banque, sinon il est considérécommemauvais client.
1
Etant donné qu’un crédit mis sur pied en 2007 ne pouvait pas encore être à son terme au moment de notre
étude, en effet la plupart des dossiers de créditavaitunedurée de remboursement supérieure à 12 mois.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 23

TAB . 2.1 – codage desvariablesd’étude


NOM VARIABLE CODAGE
FORJU forme juridique 1= SARL; 2= Ets; 3=SA; 4=particulier;
5= autres(association et GIC)
CAP montant du capital en FCFA
NACTI nature de l’activité 1= commerce général; 2=BTP; 3= industrie;
4=santé publique ; 5=agriculture;
6=commerce spécialisé ; 7=autres
SISO siège social 1=Yaoundé ; 2=Douala; 3=bafoussan;
4=batouri ; 5=autres
CREDIT montant du crédit octroyé en FCFA
EFF effectif de l’entreprise en nombrede personnes
DUREMB durée du remboursement en mois
GAR montant des garanties en FCFA
AGE âge du promoteur en années
EXP expériencedu promoteur en années
THT tauxd’intérêthors taxes en%
INVEST montant des investissements en FCFA
CHDI charges directes et indirectes en FCFA
MASA masse salariale ou frais dupersonnel en FCFA
CAF cash flow en FCFA
VA valeur ajoutée en FCFA
CA chiffre d’affaire en FCFA
RN résultat net en FCFA
R1 ratio 1de rentabilité=CA/VA numérique
R2 ratio 2de rentabilité=RN/CA numérique
=taux de marge nette
R3 ratio 3 de rentabilité numérique
=RN/capitaux propres
R4 ratio 1d’autonomie financière numérique
=capital/dettes
R5 ratio 2d’autonomie financière numérique
=SN/dettes
R6 ratio 3d’autonomie financière numérique
=SN/total passif
R7 ratiode solvabilité numérique
=actif total/dettes
Y statut d’un client 0=<< bon client >>; 1=<< mauvais client >>

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 24

TAB . 2.2– Répartition des dossiersde créditsuivantlaforme juridiquedes entreprises.


Forme juridique(FORJU) effectif (%)
Société àresponsabilité limité(SARL) 53 40.77
Etablissement(Ets) 24 18,46
Société Anonyme(SA) 23 17,69
particulier 21 16.15
autres 9 6,92
Total 130 100,00

F IG . 2.1– Répartition desdossiers selon laforme juridique.

Dans ce qui suit, nous décrivonsd’abord les variablesendogènesqualitatives, ensuite la


description est portée sur certaines variables quantitativesendogènes en privilégiantles figures
et en recherchant les éventuelles liaisons entre elles.

– La forme juridique(FORJU)
Letableau2.2donne larépartitiondesdossiersdecréditenregistrés dansnotreétude suivant
la formejuridique des entreprises ayant initié ces dossiers. Le plus gros lot de dossiers (40,77
%) est issu desSARL. LesEts suiventavec 18,46% de ces dossiers, les SAoccupent 17,69%,
les particuliers avec un peuplus de 16,15% des dossiersdans chaque cas. Environ 6,92% des
dossiers proviennent des autres i.e des groupements et associations.
Cette répartition des dossiers de crédit suivant la forme juridique peut être expliquée par
des facteurstels que le nombre dedemandes exprimées, la qualité des projets présentés, ou le
passé des entreprises auprès de la banque. Nous associons au tableau2.2 un histogramme de la
variable FORJU.(Cf. figure 2.1)

– Nature de l’activité (NACTI)

Une riche gamme d’activités est couvertepar les entreprisesayant sollicitéavec succès le

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 25

TAB . 2.3– Répartiondesdossiers par activitésprincipales desentreprises.


Activité principale des entreprises Effectif
commerce général 28
BTP 26
industrie 14
santé publique 9
agriculture 8
enseignement 7
commerce spécialisé 7
import-export 6
hôtellerie 4
médecine et chirugie 2
restauration 4
prestations de services 4
services de transport 2
télécommunications 2
gestion immobilière 1
distribution des hydrocarbures 1
social 1
services financiers 1
pharmacie 1
imprimerie 1
communication audiovisuelle 1
Total 130

concours dela First Bank.La liste des domaines d’activités principales des entreprisesdont les
dossiers de crédit sont validés est donnée dans le tableau2.3.

Les commerçants, les entreprises de bâtiment et travaux publics (54dossiers)ont enregistré


près de la moitié des dossiers validés. Les autresactivitéssonttrès peu représentées dansnotre
base de données. Nous illustrons ces propos par une représentationde la variableNACTI .(Cf
figure 2.2)

– Le siège social ou le lieu d’implantationdes entreprisesfinancées(SISO)


Nous avons utilisé5 modalités pour cette variable lors de la collecte. Ces modalités sont no-
tamment : Yaoundé, Douala, Bafoussam, Batouri et les autres villes. Surle plan national, cette
répartition suit la logique de concentration des entreprises et d’intensité de l’activité écono-
mique, comme le montre la figure 2.3.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 26

F IG . 2.2– Diagrammeen bâtonsde NACTI.

1=commerce général | 2=BTP| 3=industrie| 4=santé publique| 5=agriculture| 6=commerce


spécialisé |7=autres.

F IG . 2.3– Répartition desdossiers parlieud’implantation desclients (%)

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 27

TAB . 2.4 – Répartition des dossiers de créditparlesmontantsdes besoinsexprimés.


Classe de besoin Nombre de clients
10 Met moins 8
]10M ;25M] 30
]25M ;50M] 20
]50M ;500M] 62
]500M ;900M] 6
supérieur à 900M 4
Total 130

D’après la figure 2.3, On observe que la plus grande part dedossiers validésproviennent
des entreprises basées à Yaoundé (59,23%). Les dossiersprovenantdes entreprises implantées
à Douala, où la concentration des entreprises est la plus grande àl’échelle nationale n’est que
d’environ20%. Lesautresvilleset les zonesrurales camerounaisessont représentées à hauteur
de 8,46 %environ des avis de financement.
– Crédit octroyé(CREDIT)
La répartition des dossiers de crédit par montantde besoinexprimé du Tableau 2.4montre que
prèsdelamoitiédesemprunteursdelaFirstBank sont ceuxqui sesontvusaccordésuncrédit
dont le besoin est compris entre 50 millions et500 millions. Parcontre, peude clientsonteuun
avis favorableàleur demandedecréditlorsque lebesoindufinancementestélevé(supérieurà
900 millions). Laréticence delaFirst Bank à ce type decréditprovient peut-être du fait qu’elle
ne veut pas financer les projets à coût trop élevé à cause dugrand risque encouru pouvant
engendrer des pertes énormes pour la banque.Par ailleurs,ilestà remarqueraussique laFirst
Bank n’est pas intéressée par les clients dont la demande de crédit en besoin est faible (inférieur
à 15millions), uneraison pouvant expliquerce fait est quela banque estimele rendement de ce
type de projet négligeablepour sa prospérité au vu desefforts investiset du tempsconsacré par
les analystes pour l’étude d’undossier d’uncrédit. Le tableau 2.4 et la figure 2.4 illustrent ces
propos.

– Variable garantie (GAR)


La répartitiondes garantiesdu Tableau 2.5 montre que plusde la moitié, soit 56% des dossiers
de créditporte une garantie comprise entre 100 millions et 500 millions, avec une moyenne
des garanties=889.200.000 et un maximum=68.480.000.000 qui se présentecomme une valeur
aberrante.
Le diagramme-boîte (boxplot)et l’histogramme de la variable GARillustre la distribution
delavariablecumulant lesgarantiesdes emprunteurs. Onconstate une forte concentration de
la variableGAR àlabasede lafigurededroite etune valeur atypique àl’extrémitésupérieure,
ce que confirme l’histogramme de GAR. Trèspeude concours decrédit ayant eu une faible
garantie ont été acceptés. On conclut donc que l’octroi d’un crédit à la First Bank est aussi
déterminé par une masse matérielle assez imposante de garanties.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 28

F IG . 2.4– histogrammedelavariable CREDIT

TAB . 2.5– Répartition desdossiersde créditpar les montants desgaranties.


Classe de la garantie Nombre de clients
15M et moins 3
]15M ;50M] 16
]50M ;100M] 17
]100M ;500M] 73
]500M ;1000M] 10
supérieur à1000 11
Total 130

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 29

F IG . 2.5– Histogramme et BoxplotdeGAR

– Différents ratios de notre base dedonnées


Nous résumerons la description desratiosfinanciers R1, R2, R3, R4, R5,R6, R7dans le tableau
2.6.

On contacte quela plupart des ratiosont des valeurs qui fluctuent autour de zéro et ils ont
une p-value résultant du test de Shapiro-Wilk inférieure au seuil 5% ; on rejette l’hypothèse
nulle(Ho) : le ratio suit uneloinormale, doncon conclutqu’au seuil 5%,les ratios financiers
denotrebase dedonnéesnesont pasdes variables gaussiennes.Les représentations figuresdes
fonctions de densité des ratios R1 et R5 contenues dans le figure 2.6confirment lesrésultats du

TAB . 2.6– Résuméettest denormalité desratios


Min Median Mean Max p-valuedutestde Shapiro au seuil5%

R1 -1.8000 0.4350 0.4793 4.6000 2, 257.10 13

R2 -3.0300 0.0800 0.1351 2.9100 pvalue < 2, 2.10 16
− 12
R3 -0.7800 0.3500 0.5040 3.7100 1, 696.10

R4 -9.6200 0.2300 0.5249 8.6400 2, 894.10 12

R5 -4.810 0.845 1.146 8.360 1, 240.10 05

R6 1.3600 0.6800 0.6352 3.2500 2, 779.10 07
R7 -5.8600 1.5500 1.8980 9.3800 0.01168

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 30

F IG . 2.6– Réprésentation des densités des ratios R1 et R5.

test précédent:

– Le taux d’intérêt hors taxes (THT)


Les taux d’intérêt hors taxes appliqués aux crédits à la First Bank sont très diversifiés en
nombres,allant d’unminimumde 3% (appliqué à un seuldossier à long terme) à 16.8%(appli-
qué deux dossiers court et moyen terme). L’évolution dunombre de dossiers validésen fonction
dutaux d’intérêtest représentéedans letableau 2.7. Letaux de13,75 %apparaît plusfréquem-
mentaussi bien dans les contratsdecourte période quedansles contrats de moyen terme. Pour
l’ensemble desdossiers portant les taux d’intérêt(130 dossiers au total), on dénombre 49 dos-
siers portant ce taux de 13,75 %.

D’aprés le tableau 2.7, on constate que l’intervalle de THT qui est ]13,50 ;14,00] regorge
une forte concentration des dossiers de crédit.
– Liaison entre les variables de nosdonnées
Afin de vérifiers’ily a unéventuellien entre les différentes variables prisesen compte dans
2
notreétude, nous avons calculélecoefficientde corrélation. Lechoixde couple de variables
2
La matrice de variance-covariance de notre tableau nous permettait de voir les variables qui étaient liées.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 31

TAB . 2.7– Répartitiondes dossierssuivantlestaux decréditet leséchéancesde rembourse-


ment.
Echéances deremboursement
Taux de crédit HT en % Court terme Moyen terme Long terme Total
([0 ;2 ans[) ([2;10 ans[) (≥ 10 ans)
3,000 0 0 1 1
8,000 1 3 0 4
]8,000 ;8,500] 5 0 0 5
]8,500 ;9,000] 7 3 0 10
]9,000 ;9,500] 6 1 0 7
]9,500 ;10,00] 2 0 0 2
]10,00 ;10,50] 0 0 0 0
]10,50 ;11,00] 1 0 0 1
]11,00 ;11,50] 0 0 0 0
]11,50 ;12,00] 1 0 0 0
]12,00 ;12,50] 2 1 0 3
]12,50 ;13,00] 12 11 0 23
]13,00 ;13,50] 4 2 0 6
]13,50 ;14,00] 44 7 0 51
]14,00 ;14,50] 3 1 0 4
]14,50 ;15,00] 3 0 0 3
]15,00 ;15,50] 4 1 0 5
]15,50 ;16,00] 2 0 0 2
]16,00 ;17,00] 1 1 0 2
Total 98 31 1 130

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DESCRIPTION STATISTIQUE DE LA BASE DE DONNEES 32

aété guidé pardes présomptions de relation entre celles-ci qui nous sont apparues logique.
Ainsi, Le coefficient de corrélationlinéaireentrele tauxd’intérêt hors taxes et la durée de
remboursementdu créditvaut 0.13avecunIC 95%=[-0.0441833 ; 0.2946267]. On peut donc dire
quelacaractéristique« durée de remboursement du crédit » est faiblement corrélée au taux
d’intérêt, en sorte que les échéances de plus en plus courtes correspondent auxtaux d’intérêt
deplus en plusélevés.Cetterelation peutnousparaîtreplutôtsurprenante, étantentendu que
le tauxd’intérêt est traditionnellementunefonctioncroissante du temps :« lestauxd’intérêt
à longterme sont généralement, maispas toujours, supérieurs aux taux d’intérêt à court terme
».[13](Gregory N. Mankiw, 2003, P 70).
Un résultat similaires’établit aussi enutilisant lemontantducrédit accordéet letauxd’in-
térêt hors taxes (coefficient de corrélationr = - 0,011, IC 95%= [-0.1827414 ; 0.1615911]). Les
taux diminuent avec les montantsde financement élevés. Mais à la différence du résultat pré-
cédent,ce secondrésultatparaît plus vraisemblable.Les plusgros clients représentent parfois
une bonne opportunité de réemploi des ressources détenues par la banque, et ceux d’entre eux
jugés« bons » méritent dèslors unassouplissementdescontraintesdecrédit, notamment en
termes decoût definancement. A l’inverse, les clientssollicitant des concours decrédit assez
petits supportent des taux d’intérêt de plus enplus élevés. On est ici face à un «système de
rationnement du crédit » destiné à éviterlemécanisme d’ « antisélection», et depermettre à la
banque de garder ses «bons »clients. [15](Patrick Villieu, 2000, P56).
En considérant la corrélation positive entre le montant du crédit sollicité et l’échéance de
remboursement (coefficient de corrélation r= 0,27, IC95%= [0.1009225; 0.4211627]) d’une
part, et étant donné lesrésultats précédents, l’effet du montant des fonds prêtéssur le taux
d’intérêthorstaxes sembleplus probable. Une très forte corrélation entrelavariableEFFet
les variables CHDIet MASA, avec des coefficientsde corrélationrespectifs cor(EFF,CHDI)=
0.99 avec IC95%=[0.9819636 ; 0.9909637] et cor(EFF, MASA)=0.98 avec IC95% =[0.9750032;
0.9874546].Résultat prévisible àceniveau carles charges d’une entreprise dont la masse sala-
riale fait partie sont fonction de l’effectif dupersonnelde cette entreprise[ 13].
CONCLUSION:
Cetteétudeimportante permetdemettreen exerguelefait qu’il n’existepasuneméthode
unique permettant de traiter des données d’expression; la question "Quelle méthode dois je
utiliser pour traiter mes données d’expression ?" n’a pas de sens. Il apparaît ainsi que face à des
données d’expression, un statisticien seul, unanalyste de crédit seul ou uncomptable seul n’est
pas en mesure de proposer des méthodes pertinentes ; la solution réside dans la collaboration
des trois spécialités.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


C H AP I TRE T RO IS

D EU X ME T HO DE S DE
D IS CR IM I N AT IO N PO UR LE
C RE DIT SCO RI NG

Introduction:
Grosso modo, le scoring consisteà affecter une note globale à un individu à partir denotes
partielles, calculées sur desvariables isolées ou eninteraction. Cettenote est utilisée essentiel-
lement pourclasser lesindividusparordre ascendantoudescendantafin d’ensélectionner une
partie pour une action marketing, par exemple lecredit scoring. La construction d’un scoring fait
appel à la modélisationprédictive, et l’on ne parle d’un scoring que lorsque la variable à prédire
n’a que deux modalités[ 12]. Côté technique, le scoring est basé sur des méthodes classiques
etquin’évoluent quetrès peud’un point de vue mathématique. En revanche, les possibilités
d’évolution setrouvent dans leur application pour réaliser des analysescomplexes. Etlà toutes
les possibilités ne sont pas encore explorées.
Dans ce chapitre, nous exposonsdeux approches mathématiques « classiques» du credit
scoringpour la modélisation durisque de crédità partir de l’étudedu conceptcentral de Data
Mining pour les modèlesparamétriques.Cependant, ilexiste plusieurs méthodes statistiques de
construction d’unscoring dont lesplus reconnues sont : l’analyse discriminante (linéaire, qua-
dratique de Fisher), la régression logistique discriminante, les arbresde classification, méthode
k-nn, les réseaux de neurones, les Séparateurs à Vaste Marge (SVM), etc.. .. ..
Dans le cadrede notre étude, notre modèle sera construit à base deux modèles paramétriques
àsavoirla régression logistiquediscriminanteet l’analyse discriminante (linéaire et/ou quadra-
tique) deFisher àcause deleur grande robustesse et leur facile interprétabilité. En effet, il sera
question pour nous dont le but est d’identifierlesclignotantsdurisque de créditpermettant de
prévoir lesdéfaillances, de construirepour chacune de cesméthodes un modèle et finalement
mettre encompétition lesdeux modèlespour en retenir celuiqui s’ajustera le mieuxdu point
de vu prédictif ànos données.

3.1 Lemodèleprobabiliste de prédiction


p
Nous sommes en présence de n observations { X i1 , ....,X ip ,Y i } i=1 d’uncouple(Y,X) dans
une population Ω.Pour la i e observation notée (Y i ;X i ) , Yi estunlabel quidénotel’appartenance
àun groupe ∈{ 0;1} .

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 34

Une nouvelle observation x 0 arrive,nous mesuronslesvariablesexplicatives, cettemesure


est noté x 0 ∈ Rp et noussouhaitonsprédire songroupe Y =y 0 àpartir del’observation de
p p
ses attributs { X i } i=1 = { x 0i } i=1 avec uneprobabilité dese tromper danscette prédictionaussi
faible que possible. Ceci revient à mettre enevidence unefonction:

p
g: R −→{ 0;1 }
telle que l’erreur ε (g )= P(g(X) = Y) soitaussi petiteque possible.
Dans l’idéal, il faudrait chercher une fonction
g∗ : Rp −→{ 0;1 } vérifiant ε(g ∗ ) = min ε (g) .
g: Rp →{ 0;1}
Si une telle fonction g∗ existe, le prédicteur g∗ (X) serait le meilleur pour prédire Yà partir
de l’observation de X. [1]

Prédicteur de Bayes- Erreur de Bayes


Pour g: Rp −→{ 0;1} , on a:

ε (g) = P (g (X) = Y)= P(g(X) = 0; Y = 1)+ P(g(X) = 1; Y = 0)= E 1g(X) =Y (3.1)


.

Posons alors ε(g |X = x) = P (g (X) =Y |X= x) = probabilité de se tromper dans la pré-


diction de la valeur de Y pour un individu connaissantdéjà lesvaleursde ses attributs X=x .
On adonc d’après (3.1)

ε (g )= P (g(X) =Y |X = x) dP X (x)

= ε(g |X =x 0) dPX (x)


Ainsi g∗ rend minimum ε (g) parmi les fonctions g: Rp −→{ 0;1 } si et seulement si g∗
rend minimum ε(g |X =x 0) , ∀x 0 ∈ Rp , parmi les fonctions g: Rp −→{ 0;1 }

définition
1.un prédicteur g∗ (X) de Y qui vérifie

ε(g |X =x 0) ∀g: Rp −→{ 0;1 }
= min ε(g |X =x 0 );

est appelé prédicteur de Bayes pour prédire Y |X =x 0 .


2.C’est le meilleur prédicteur de Y |X =x 0 car
∗ p
ε (g ) = min ε (g ); ∀g: R →{ 0;1}

3. ε ∗ = ε(g ∗ ) est appelé erreur de Bayes.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 35

Vocabulaire
Pour j = 0;1 on a:
– Pj = P (Y = j) = probabilité à priori de la classe (Y=j) dans l’échantillon.
– P (Y =j |X =x 0 ) = probabilité à postéroiri de la classe (Y=j)pour un individu dans la
population.
– Vj (x 0 )= P (X =x 0 |Y= j) =probabilité que X=x 0 danslaclasse (Y=j). C’est aussi la
vraisemblance de la valeur Y=j lorsqu’on aobservé X=x 0.
Le théorème de Bayes nous permet d’écrire:

pour j=0 ;1 P (Y =j |X =x 0)= Pj × P (X =x 0|Y = j) .


P1× P (X =x 0 |Y = 1) +P 0× P (X =x 0|Y= 0)
Le prédicteur de Bayes g∗ (X) peut aussi se définit par:

∀j = 0,1 g∗ (X ) =j ⇐⇒ Pj × P (X =x 0|Y =j) = max Pk × P (X =x 0|Y = k)


k=0;1

i.e j = arg max Pk × P (X =x 0|Y= k);


k=0;1

On demontre que la règle de décision finale s’écrit comme suit:


1. si P (Y =1 |X =x 0) 12 ,alors g∗ (x 0) =0
2. si P (Y =1 |X =x 0) 12 ,alors g∗ (x 0) =1
3.si P (Y =1 |X =x 0)= 12 ,alors g∗ (x 0 ) =1 ou g∗ (x 0) =0 ,peu importe.

3.2 Analyse discriminantelinéaire et quadratique


Lesprobabilités à priori desgroupes j,notées P (Y = j) , j = 0;1 sont connues. Quandon
n’a pas d’à priori,on peut, soit choisir que les groupessontéquivalents P(Y = j)= 12 , soit l’es-
n
timer à partir des fréquencesde chaque groupedans lesobservations { Yi } i=1 . Afin de spécifier le
modèle de discriminationlinéaire et quadratique, nous allons supposer l’hypothèse de normalité
ci-dessous.
– Discrimination quadratique: La densité desvariables explicatives dans chaque groupe
j suit une loi multinormale f (x |y =j) ∼ N p (µ j ;Σ j );Σ j ∈ M p ( R), j = o;1 .
Ensuite, nous pouvonsajouterune hypothèse supplémentaire pourobtenir le modèle dediscri-
mination linéaire.
– Discrimination linéaire: Ladensité desvariables explicatives dans chaque groupej
suit uneloi multinormale de même matrice de variance-covariance Σ dans chacun des
groupes:

f(x |y =j) ∼ N p (µ j ; Σ) ;Σ ∈ M p ( R), j = 0;1


Une fois estimés tous les paramètres des loisnormales,ilsuffitalors d’utiliser la règle de
prédiction de Bayes pour connaître les probabilités d’affectation dela nouvelleobservation aux
différents groupes. Evidemment la prévision parla méthodesera donnée par le groupe le plus
probable i.e

j = ar g max P (Y =k |X =x 0) = argmax f (x 0|y =k) P (Y = k); ∀k ∈{ 0;1 } .

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 36

3.2.1 Estimation desparamètres


Nous devons dans les 2 groupes, estimer (µ j ;Σ j ) ;j = 0;1 où µj ∈ Rp et Σ j ∈ M p ( R ) .Il
y a donc 2 moyennes à estimer et 1ou2 matrices de variance-covariance à estimer. Il existede
nombreuses procédures d’estimations plusou moins classiques.
Citons par exemple:
– La méthode des moments.
– La méthode de vraisemblance.
a) La méthode des moments.
Les moyennes par groupes µj sont estiméspar le centredegravité dechacun desgroupes

µ̂j = 1 x 0i ;
nj i∈J

où Jest l’ensemble des numéros d’observations qui sont dans le groupej et n j le nombre
d’observations dans le groupe j (ce qui est lecardinal deJ).
Pourles matrices devariance-covariance (méthode discriminante quadratique), elles sont
estimées par:

1 T
Σ̂ j = (x 0i − µ̂j ) (x 0i − µ̂j )
nj − 1 i∈J

Pour la discrination linéaire, la matrice de variance-covariance est estimé par


g
1 T
Σ̂ j = n − (x 0i − µ̂j ) (x 0i − µ̂j )
2 j=1 i∈J

b) La méthode du maximun de vraisemblance


Les moyennes par groupes µj sontencoreestimésparlecentre degravitédechacundes
groupes

µ̂j = 1 Xi
nj i∈J

où J est l’ensembledes numéros d’observationsqui sont dansle groupe j et n j le nombre


d’observations dans le groupe j (ce qui est le cardinal de J ). Parcontre les variances sont
estimées par:
– Discrimination quadratique
1 T
Σ̂ j = n (x 0i − µ̂j ) (x 0i − µ̂j )
j
i∈J

– Discrimination linéaire
g
1 T
Σ̂= n (x 0i − µ̂j ) (x 0i − µ̂j )
j=1 i∈J

Dans le cadre de notre travail, Nous avons posé Y = 1ou Y =0 selon que X suit une
loi multinomiale N (µ 1;Σ 1 ) (de densité f X |Y =1 ) ou N (µ 0 ;Σ 0) (de densité f X |Y =0 ). Supposons

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 37

de plus Σ 0 =Σ 1 ieque ladiscrimination devraêtre linéaire. Comme, nous souhaitons avoir


une mesure quantitative entre 0et 1, donnant lapropension à être 1, nous nous interessonsà la
probabilité àposteriori de Y=1, P(Y =1 |X) .

3.2.2 Calculduseuil théorique s


Si nous souhaitons savoir si un individu est franchement estimé à1, alors P(Y =1 |X) sera
élévé par rapportà P(Y =0 |X) . On a alors

P (Y =1 |X= x) P(Y =0 |X =x)

f X |Y =1 P(Y = 1) fX |Y=0 P(Y = 0)


ornous connaissonsles 2densités qui sont celles de 2lois normales N (µ 1; Σ) et N (µ 0 ; Σ) .
Nous avons donc:

1 exp − 1 (x − µ1) T Σ − 1 (x − µ1)


P (Y = 1) p
|Σ | 2
(2π) 2

T
P (Y = 0)
1√
p
|Σ |
exp − 12 (x − µ0) Σ − 1 (x − µ0) .
(2π) 2

En passant au log, nous avons alors:

x T Σ − 1 (µ 1 − µ0 ) + log( P (Y = 0)) − log( P (Y = 1)) − 12 µT1 Σ − 1µ1 + 12 µT0 Σ − 1µ0 0

Ce qui s’écrit comme S (x) s ;


T −
avec S( x) =x Σ 1 (µ 1 − µ0)
1 T −1 − 12 µT0 Σ − 1µ0 .
et s = log( P (Y = 1)) − log( P (Y = 0))+ 2 1Σ
µ µ1

S(x) est appélée fonction discriminante de Bayes. C’est la fonction scoring de l’analyse dis-
criminante linéaire à 2 classes et s est le seuil. Ce seuil dépend des probabilités à priori de
(Y =1) et celle de (Y = 0) .
En général, ces probabilités sont inconnuesà priori.Si des études ontété ménéessur d’autres
données, il est alorspossiblede connaître ces 2 probabilités. Mais, en l’absencede connais-
sance,elles sont posées égalesà 12 chacune.La determination duseuilséparantlechoix (Y = 1)
du choix (Y = 0) est doncdélicat. Par ailleurs, le faitde ne plus considérer la probabilitéà
postériori,mais un scoring permet d’éviterlecalcul de f X (x) quiest une densité difficilement
calculable.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 38

L’analyse discriminante linéaire est très répandue dans les logiciels de Statistique et d’ap-
prentissage et est très utilisée. Les raisons deson succès sontlessuivantes:
- elle offre souvent un très bon compromispertinence/complexité; autrement dit, elle permet
souvent de bien résoudrele dilemmebiais-variance. Elleest ainsisouvent supérieureà l’analyse
discriminante quadratique qui dépend d’un nombre notamment plus important de paramètres.
- dans le cadre del’analyse discriminante linéaire, la sélection devariables peut être réa-
lisée de manièrequasi optimale en utilisant une statistique F de Fisher[4]. En fait, lescritères
classiques de sélection de variables supposent de manière sous-jacente les hypothèsesgaus-
siennes de l’analyse discriminante gaussienne. Ainsi, dans une prédiction àdeux classes, on
peut montrerque,la probabilitéoptimale d’erreurs s’écrit Φ( − ∆/2) , Φ étant lafonction de ré-
partition d’une loi normale centrée réduite et ∆ représentant la distance de Mahalanobis entre
deux groupes:
2 T −1
∆ = ||µ1 − µ0||Σ − 1 =(µ 1 − µ0 ) Σ (µ 1 − µ0);

-l’analyse discriminante linéaire fournit des résultats stables (peu sujets aux fluctuations
d’échantillonnage) et robustes (i.e supportant biendes écarts assez importantsà ces hypothèses
de normalité des groupes et d’égalité des matrices variances).

3.3 Analyse discriminantelogistique


3.3.1 Définition
a)introduction
L’analyse discriminantelogistique est une méthodologie statistique quia pour objectif,à par-
tir d’observations, de produireun modèle permettant deprédire les valeurs prisespar une
variable catégorielle, à partir d’une série de variablesexplicativescontinues et|oubinaires.Il
s’agit ici pour nous de prévoirà l’aide de p variables explicativesl’appartenance à un groupe.
Comme il existe une incertitude, nousla modélisons commeune probabilité et nous cherchons
P (Y =j |X =x 0) ie laprobabilitéquel’observation soitdans legroupe j sachant nous avons
en main l’observation x 0 desvariablesexplicatives.On pourra poser x 0 =(1,x 01, ...,x 0p ) .
Le premier problème est que nous modélisons desprobabilités discrètes, nous avons donc
une contrainte:
g

P (Y =j |X =x 0 ) =1
j=1

Une fois déterminées (g − 1) probabilités, ladernièreest donc connue. Pour tenir compte
de cette contrainte, nous allonsdonc considérer un groupe témoin, par exemple le ge groupe,
ensuite, nous allons modéliser non pas P (Y =j |X =x 0) , mais le rapportde cette probabilitéà
(Y=j |X=x 0 )
la probabilité témoin P(Y=g |X=x 0 ) .
P
Ce rapport est toujours positif et il est compris entre 0et + ∞ . En passant au log, nous
obtenons une mesure qui sera dans R et que nous pouvons relier auxvariablesexplicatives

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 39

X 1, .......,X p via unefonction f . Cette fonction est choisiedans la classe la plus simple, à
savoir les fonctions linéaires. Et on écrit donc:
|
ln P(Y =j X =x 0 ) = f(x 0 ) =x T0 β j (3.2)
P(Y =g |X =x 0)
Ce type de modélisation est appelé analysediscriminante logistique multiclasse ou régres-
sion logistique multiclasse.
Cependant lecas le plus classique est le cas où il existeg =2 classes. Dans ce cas la notation
standard veut que Y = 0ou Y =1 et que l’on prenne comme référence le groupe Y =1 .Nous
ne traiterons par la suite que le cas binaire,cas quiest utilisé dansl’élaboration d’unscoring.

b) Régression logistique (binaire)


définition(2.1.1) :(Régression logistique)
Nous sommes enprésence d’une variable à expliquer binaire Y et de variables explicatives
(X 1, ....,X p ) =X ∈ Rp .
Le modèle de la régression logistique s’écrit:
|
ln P (Y =1 X =x 0) =x T
0β (3.3)
1− P(Y =1 |X =x 0)

ou
T
logit( P(Y =1 |X =x 0 )) =x 0β

p
Son nom provientdu faitquela fonction p −→ ln 1− p estappelée fonctionlogit, qui estune
fonction dérivable bijective de ]0; 1[dans R.

Remarquons que nous pouvons réécrire (3.3) P (Y =1 |X =x 0 )= (


exp x T0 β
) .
(x 0 β )
T
1+exp

Remarque
Nous pouvons aussi écrire P ( Y =j |X =x 0) dans le modèle multiclasse comme suit:

exp xT0 β j
P(Y =j |X =x 0 )= 1+
g Tβ
.
k=1 exp (x0 j )

3.3.2 Lien avecles GLM:


Nous modélisons deux probabilités P(Y =1 |X =x 0) et P (Y =0 |X =x 0 ) ie quela loi de
(Y |X =x 0) estsimplement uneBernouilli de paramètre P (Y =1 |X =x 0) quidépend de la
valeurx 0 de X.
L’espérance d’une Bernoulli est simplement son paramètre,E (Y |X =x 0 )= P(Y =1 |X =x 0) .

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 40

Dans un modèle de régression logistique, nouseffectuons donc 2choix:


1. le choix d’une loi pour Y|X=x0, ici la loi de Bernoulli,
2. le choixde la modélisation de E(Y |X =x 0 ) par log it( E(Y |X =x 0)) =x T0 β . La fonc-
tion logit(.) est bijective, dérivable etest appelée fonctionde lien . C’est une fonctionde lien
spéciale, appelée canonique (pour la loi de Bernoulli). La variance d’une loide Bernouilli est
V (Y |X =x 0)= P(Y =1 |X =x 0 ) [1 − P(Y =1 |X =x 0)]
La variance des observations décrites par le modèle n’est donc pas constante et varieselon
la valeurde X. La fonction dex 0 quia pour valeur P (Y =1 |X =x 0) [1 − P(Y =1 |X =x 0 )] est
appelée fonction de variance.

Remarque
Il est possible de choisird’autres fonctions de lien bijectives. Les choixclassiques sontla
fonction probit(.) (Qui est l’inverse dela fonctionde répartitiond’une loi normale N (0; 1)).
Une généralisation de la méthode de régression logistique (ou régressionprobit) est appelée
GLM (generalized linear model). Cetteméthode revient à choisir uneloiparmiun ensemble
restreint de loi (les loisexponentielles GLM), puis une fonction de lien ϕ (.) parmi un ensemble
réduit de fonctions bijectives dérivables.Ensuitenous avons ϕ( E(Y |X =x 0)) =x T0 β .

3.3.3 Estimation desparamètres


L’estimation des paramètres se fait ici par maximum de vraisemblance. Dans le cas général
(multiclasse), cette maximisation fait appel àdes procédures itératives de minimisations clas-
siques comme laméthode de Newton. Dans le cas dela régression logistique (binaire), il existe
une procédure spécifique dite IRLS (Iterative ReweightedLeast Squares).
Nous sommes enprésence den observations desvariables notées { X i1 , .....,X ip ,Y i } ni=1 ,
dont la i e est notée (x i ,y i ) , y i ∈{ 0;1 } . La vraisemblance conditionnelle de Y |X =x i associée
àl’observation i s’écrit:

V (y i , β)= P (Y =1 |X =x i ) y i P (Y =0 |X =x i ) 1 y i
Et donc la vraisemblance conditionnellede l’échantillon y = (y 1, ....y n ) de taille n s’écrit
sous la forme:
n
− yi
V (y , β )= yi
P (Y =1 |X =x i ) P (Y =0 |X =x i )
1

i=1

Dans la pratique, il est plus aisé de seservir de la Log-vraisemblance notée L (y,β) .


En passant au log, nous avons alors
n
(Y =1 |X =x i )
L (y,β )= yi ln P |
|X =x i ) + ln( P (Y =0 X =x i ))
i=1 P (Y =0
Grâce à la définition du modèle logistique (3.3), nous avons alors:

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 41

n
L (y , β )= T T
yi xi β − ln 1 + exp(xi β)
i=1

Ainsi, si les estimations desprobabilités pi = P(Y =1 |X =x i0 ) sont en accordavec les


observations, la vraisemblance seramaximisée. Ilrevientdonc dechercherla valeur de β qui
maximise L (y , β).
La fonction logarithme étant continue et strictement croissante, la Log-vraisemblance se
maximise avec la valeur de β en mêmetemps quela vraisemblance. Pouravoir lemaximum β̂ ,
il nereste plus qu’à annuler le gradient de lafonction L (y , β) : Mais du point devue pratique,
à cause de la macroforme de L (y , β) et de la grandeur de lataille n ; on utilise des méthodes
numériques d’optimisation pour obtenir lavaleurs estimée de β .

( ) par (3.3), onen


T
exp x 0 β
Prédicteur de Bayes estimé g∗ (X ): On a: P (Y =1 |X =x 0 )=
1+exp ( x 0 β )
T

1
déduit que P (Y =0 |X =x 0)= .
1+exp ( x 0 β )
T

On en déduitg∗ (X) en remplaçant β par sa valeur estiméeβ̂ danslesexpressions de P (Y =1 |X =x 0 ) et


P (Y =1 |X =x 0 ) ci-dessus:
– g∗ (x 0 ) =0 ⇐⇒P (Y =0 |X =x 0) P (Y =1 |X =x 0) ⇐⇒ x T0 β̂ 0.
– g∗ (x 0 ) =1 ⇐⇒P (Y =1 |X =x 0) P (Y =0 |X =x 0) ⇐⇒ x T0 β̂ 0.
Le scalaire x T0 β̂ est appélé fonction discriminante logistique binaire, aussi appélé scoring.On
constate dans ce cas que le seuil s apparaîtclairement et il vaut s=0.
Dans la pratique, il seraitmaladroit de se figer sur ce seuilthéorique s=0, ilestvivement
conseillé de faire varier le seuil et de conservercelui quirend la prédiction meilleure.

3.3.4 Précisiondes estimations:


Puisque nous utilisons le maximumde vraisemblance,il est alors possible debâtir desin-
tervalles de confiance pour β j au seuil α selon laformule suivante:

IC α (β j )= β̂ j − U1− α2 √1 σ βˆj ; β̂ j +U 1−
α √1 σ βˆj
n 2
n
Où U1− α2 représentele quantiledeniveau 1−
α
2
de la loi normale N (0; 1), σ β2ˆj est égalà
−1 −1
2L
− I( β̂) et I( β̂) est l’élément (j , j) de l’inverse de la matrice de Fisher E ∂∂β 2 .
jj jj
La validitéde ces intervalles est toute relative puisqu’il s’agit d’une approximation valable
asymptotiquement et dont la variance danslecas de l’approximation normale, doit être évaluée
àla vraie valeur du paramètre inconnu.

Il est toujours possible de compléter cette étude par boostrap afin d’obtenir d’autres inter-
vallesde confiance dans le cas où ceux-ci sont particulièrementimportants .Cela dit, en pratique,
on se contente de l’intervalle de confiance bâti grâce àla matrice d’informationde Fisher.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 42

3.3.5 La qualité du modèle


3.3.5.1 Un outil spécifique :la déviance
Comme la vraisemblance n’est jamaisà lamême échelle(cela dépend des données), il n’est
pasfacile d’avoir une idée de laqualité d’ajustement. Pour cela, un outil spécifique est introduit:
la déviance. Ellecompare la vraisemblance obtenueà celle que l’onobtiendrait dans un modèle
parfait : le modèle saturé. Danslemodèle saturé, la prévision est parfaite, il n’existe donc
aucuneincertitude et la probabilitéestimée par le modèle au point X =x i estdonc 1 pour le
groupe observé et0 sinon. Dansle cas où plusieurs observations seraientdisponibles au point
X =x i , alors, si le modèle était parfait,ŷ i serait lamoyenne des y i au point X =x i . Ce modèle
est appelé modèle saturé par définition.

Pour le modèle logistique binaire, la vraisemblancepour l’observation i pour ce modèle saturé


est égale par définition à:
n
L satur = Y i logYi +(1 − Y i ) log (1− Y i ).
i=1

La déviance d’unmodèle notéeD, estdéfinieparrapport au modèlesaturé correspondant


comme
n

D=2 ( L satur − L (β )) ≥ 0
i=1

La déviance est égale à2 fois une différence de vraisemblance .Elle constitue un écart
en terme de log-vraisemblance entre le modèle saturé d’ajustement maximum et le modèle
considéré:

La déviance dans le cas binaire est donnée par:


n
Yi 1 − Yi
D =2 Yi log +(1 − Yi ) log
i=1
P̂i 1 − P̂i

Test d’adéquation par la déviance

Puisque nous élaborons un test, définissons hypothèses nulle et alternative:


-H 0 le modèle considéré àp paramètresestadéquat.
-H 1 le modèle considéré àp paramètresn’estpas adéquat.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 43

F IG . 3.1– Test de déviance,la droite verticalereprésente leseuil derejet D c =q 1− α (n − p) .

Ici, nous allons comparer lemodèle saturé au modèle considéré au moyen de ladéviance.
Nous savonsque si la déviance est grande, alors le modèle considéré est loin du modèle saturé
et donc il n’est pas très adéquat. Par contre si la déviance est prochede 0, le modèle considéré
sera adéquat. Pourquantifier cette notion de “proche de 0” et de “grande déviance”, la loi de la
déviance sous H 0 (lemodèleconsidéréestlevrai modèle) vanousêtreutile.Eneffet H 0 si est
+
vraie, le modèle considéré est vrai par définition. La déviance serarépartie sur R , mais avec
plus dechance d’être prochede 0. Par contre si H 0 n’est pasvraie la déviancesera répartiesur
+
R mais avec plus de chance d’être éloignée de 0. Nous nous accordons α %de chancedese
tromper sous H 0 donc si, l’on connaîtla loi de D sous H 0 alorsen prenant le quantilede niveau
1 − α nousexcluons les α % d’erreur tout en excluantles déviances les plus grandes, ie les cas
qui se présenteront vraisemblablement si H 0 n’estpas vraie.
La déviance est en fait le test de rapport de vraisemblance et sous des hypothèses techniques
([8]Schervish, 1995, p. 459), D suit donc une loi du χ 2(n − p) degrés deliberté, où pest le
nombre de paramètres du modèle et n le nombred’observations. Letest se déroulealors de la
manière classique:
1.Les hypothèses sont fixées
-H 0 le modèle considéré àp paramètre estadéquat
-H 1 le modèle considéré àp paramètresn’estpas adéquat
2.α est choisi(engénéral5%)
3.L’observation de D est calculée, notons la D obs
4.Calcul du quantile de niveau (1 − α) de la loi du χ 2 (n − p), noté q1− α (n − p) .
-Si D q1− α (n − p) alors H 0 estrepoussé auprofitde H 1, le modèle considéré n’est pas
adéquat.
-Si D obs ≤ q1− α (n − p) alors H 0 estconservé,lemodèleconsidéré est adéquat.

Remarques
Lavalidité de laloi etdonc dutest n’est qu’asymptotique,ilest donc nécessaire d’avoirun peu
de recul quant aux conclusions.
Lorsqueles donnéessont binaireset qu’aucune répétition n’est présenteau point X i =x i ,∀i,

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 44

alors D ne suit pas une loi du χ 2. Pourlesdonnéesbinaires letest d’adéquation d’Hosmer


Lemershow est àconseiller.
Test d’Hosmer Lemershow
Ce testpermet de vérifier l’adéquation d’un modèle quandla variableà expliquer est une
variable binaire uniquement. Il permet donc de vérifierl’adéquation dans lescas où le test
d’adéquation par la déviance est particulièrement déconseillé.
Pour cela, les P̂i = P (Y =1 |X =x i ) sont ordonnés par ordre croissant. Ensuite K groupes
detailleségales sont créés, engénéral K =10 et le dernier groupe,celui des P̂i les plusgrands,
possède uneffectifinégal aux autres. Notonsm ∗k l’effectifdu groupe k. Ensuite une statistique
du type χ 2 estcalculée surces groupes.L’effectif observé ok des cas (Y = 1) dans le groupe k
estdécompté, ce qui donne de manière mathématique ok = j ∈gpek y i .La fréquence théorique
est simplementla moyenne desprobabilités estimées par le modèle, pour toutes les observations

du groupe: µ= j ∈g pek P̂ j . La statistiquede testestalors

K 2
(ok − m k µ¯k ) ,

2
C =
m ∗k µ¯k (1 − µ¯k )
k=1

où m ∗k
estl’effectifdugroupe k.
Le test seconduit de manièreidentiqueau testde déviance, lastatistique C 2 suivant approxi-
mativement un χ 2 à K − 1 degrés de liberté. Cette approximation ayant étévalidée uniquement
par simulation[4](Collett,2003, p.88), il semble doncimportant de nepas appliquer tropstric-
tement la procédure de test, mais plutôt delaconsidérer comme uneindication.
Critère de choix de modèles
L’objet de cescritères de choix est de comparer des modèles entre eux et qui nesont pas
forcément emboîtés les uns dans les autres.
Par définition l’AIC (Akaike InformativeCriterion) pourun modèle àp paramètres est

AI C= − 2L + 2p.

Laphilosophie est simple :plus la vraisemblance est grande, plusgrande est donc la log-
vraisemblance L et meilleur est le modèle. Cependant si l’on met le nombre maximum de
paramètres (cequi est le modèle saturé) alors L sera maximum. Il suffit donc de rajouter des
paramètres pourla faireaugmenter.Pourobtenir unmodèledetaille raisonnable ilsera donc
bon de la pénaliser par une fonction du nombre de paramètre, ici 2p. Un autre critère de choix
de modèlele BIC (Bayesian Informative Criterion) pour un modèleà p paramètres estimé sur n
observations est défini par:
BI C= − 2L + p l og (n).
L’utilisation de ces critères est simple. Pour chaquemodèle concurrent le critère de choix
de modèle est calculé et le modèle qui présenteleplus faible est sélectionné.
Remarquonsque certains logiciels utilisent −AICet −BIC, il est doncprudentde bienvé-
rifier dans quel sens doivent être optimisés ces critères (maximisation ou minimisation). Ceci
peut être fait aisément en comparantun modèle très mauvais (sans variable explicative) à un
bon modèle (à une variable) et de vérifierdans quel sensvarieles critères dechoix.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 45

F IG . 3.2 – Procédured’apprentissage/validation

3.3.5.2 Evaluationdes performances


L’analyse discriminante décisionnelle vise à proposer une règlede décision destinée à être
appliquée pour le classement dans le futurd’observations deprovenance inconnue. Il est donc
très important d’être capable demesurer letaux d’erreur que l’on risque lors de l’application
d’une règle de décision construite sur la based’un échantillon d’apprentissage. Dansce quisuit,
nous passons en revue quelques moyensd’estimer le tauxd’erreur réel d’une règle de décision.
Apprentissage/validation
La procédure de validation consiste à séparer demanière aléatoire les données en deux
parties distinctes (y a , X a ) et (y v , X v ) . Tous les modèles concurrents sont construits avec le
jeu d’apprentissage (y a , X a ) (figure 3.2). Ensuite en utilisant tousces modèlesetles variables
explicatives X v , les valeurs de la variables à expliquer sont préditesyˆv (j) pourtous lesmodèles
j concurrents. Comme le modèlede régression logistique binaire donnedes estimatitions des
probabilités P̂ (Y =1 |X =X v ) , pour avoir une prévision binaire, on prend la modalité dont la
probabilité estimée est la plus élevée. Nous noterons cette prévisionainsi obtenue yˆv .

La qualité du modèle est ensuite obtenue enmesurant ladistance entre lesobservations


prévues et les vraies observations par uncritère. Le plus connu est le PRESS

P RE S S (j )= ||yˆv (j) − yˆv ||2 ,

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 46

mais dans le cas d’observations binairesil n’est pasutilisé.Engénéral, on utiliselenombre de


mal classé, ie

MC= ||yˆv (j) − yˆv ||1 ,

où ||x||1 = i |x i |. Comme les valeursdeYsont0 ou 1, cetteméthodeestbien le nombre de


mal classés.

Le modèle optimal k choisi est celui qui conduit au MC minimum (ou au critère choisi
minimum). Cette procédure semble la plus indiquéemais elle nécessite beaucoup de données
puisqu’ilen fautsuffisammentpour estimer lemodèleet pastroppénaliser les modèlesavec
beaucoup de variables dontles coefficients seront moins bien estimés, mais il faut aussi beau-
coupd’observations dans le jeude validation (y v ,X v ) pourbien évaluer la capacité de prévision
dansde nombreuxcas defigure. Deplus, commentdiviser le nombre d’observations dans le jeu
d’apprentissage par rapport au jeu de validation ? Là encore aucune règle n’existe mais l’on
mentionne souvent la règle 3/4 dans l’apprentissage et 1/4 dans la validation. De plus, il faut
pouvoir calculer le MCsur chacun des modèles concurrents cequi danscertains cas est impos-
sible, lorsque le nombre de variables possibles pest grand.

Validation croisée
Lorsque l’on n’a pas assez de données pourl’apprentissage/validation,la validation croisée
estutiliséepourévaluerle tauxd’erreur. La validation croisée, danssa versionla plus classique,
connue sous le nom de leave-one-out, procède comme décrit ci-dessous.
Pour i= 1, ... ,n on construit la règle de décisionsur la base de l’échantillond’apprentissage
privé de son i e élémenteton affectecedernierà l’undes groupessuivantcetterègle. Letaux
d’erreur estimé est alors la fréquence depoints demal classés de la sorte. L’estimation du
taux d’erreur ainsi obtenue est pratiquement sans biais. Mais la variance de l’estimation est
d’autant plusimportanteque nestgrandpuisque,dans cecas, les différentesrèglesdedécision
construitesà partir den-2observations communesauront tendance à se ressembler. De plus,
cette procédure est également assez coûteuse même si, du fait qu’à chaque étape l’échantillon
soit amputé d’une seule observation, il est en général possible de recalculer la règle de décision.
Aussi, on peut lui préférer la procédure suivante. On divise l’échantillon aléatoirement en
L parties (approximativement) égales. Pour l=1,...,L, on construit la règle de décision sur la
base de cet échantillonprivédesa l eme partie,ensuitepour cette l eme partiedonnée, onutilise
la procédure d’apprentissage/validation, la l eme partie étant le jeu de validation et les autres
observations formant le jeu d’apprentissage. Si L=n, on rétombesur la procédure standard de
leave-one-out.Onévaluela qualitédumodèle parun critère, le nombre demalclassés MC par
exemple, donnant ainsi MC (j) l etensuite onitèrele procédésurtoutes lesparties l variant de
1à L. Le critère final àminimiser est alors
L
MC CV (j )= M C (j) l ,
l=1
On en déduit une estimation de l’erreurde prédiction pourle modèle j :

1 MC
ε̂(j )= CV (j)
L

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 47

et le modèle k retenu estcelui qui conduit auminimum sur { MC CV (j) } ,donc sur ε̂(j) .
Bien entendu le choix du nombre L parties n’est pas anodin. Plus le nombre L est faible, plus la
capacité de prévision seraévaluée dans de nombreux cas puisque le nombre d’observations dans
la validation sera élevé, maismoins l’estimation sera précise. Au contraire, un L élevéconduit
à peu d’observations danslavalidation et doncà uneplus grande variancedansles nombres de
mal classés.

3.3.6 Sélection automatique


La sélection demodèle peut être vue comme rechercher le modèle optimum au sens d’un
critèrechoisiparmitoutesles possibilités. Cela peutdoncêtrevu comme une optimisationd’une
fonctionobjectif (le critère). Pour cela et à l’image despossibilitésen optimisation, on peutsoit
faire une rechercheexhaustive carlenombre de modèles possibles est fini, soit partir d’unpoint
de départ et utiliser une méthode d’optimisation de la fonctionobjectif (recherchepas àpas).
Remarquonsqu’en généraltrouverle minimum globalde lafonctionobjectif n’estpasga-
ranti dans les recherches pas à pas et que seul un optimum local seratrouvé dépendant du point
de départ choisi.en général, on utilise l’une des méthodes suivantes[10]:
– Recherchepasà pas, méthode descendante(backward selection)
– Recherchepasà pas, méthode progressive (stepwiseselection)
– Recherchepas à pas, méthode ascendante(forward selection) dont l’algorithmefigure de
procédure se présente dans la figure 3.3.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


DEUX METHODES DE DISCRIMINATION POUR LE CREDITSCORING 48

F IG . 3.3 – Techniqueascendanteutilisant l’AIC

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


C H A PI TRE Q UAT RE

R EPRESEN TATIO N D’UN SCORING

Si l’analyse discriminante permet de prévoir correctement (ou non) la variable binaire Y,


ilest rarequ’iln’y aitpasd’erreur. Ainsi,dans unebanque,chaque clientest particulier et son
comportement dépenddu temps présentde son environnement, des circonstances extérieures
qu’il rencontre etc.. Le modèle discriminant fournit, surles données d’apprentissage, des erreurs
que l’on peut résumer par un tableau de contingence.
Ainsi nousavons le nombrea de bien classés pourY= 1 etd le nombre de bien classés pour
Y = 0. Les erreurs sont elles résumées par cet b.(Cf. figure 4.1)
Dans la réprésentation du scoring, le seuil n’est pasfixé àpriori comme ill’est dans l’analyse
discriminante classique ou théorique.

4.1 Représentation théoriques


4.1.1 Présentation sous forme de densité
Toutes les variables explicatives X 1, ...,X p sont aléatoireset donc lescoring S(X) est une
variable aléatoire à valeur dans R. En théorie, nous pouvons tracer sa densité sachant que Y=
0et sadensité sachantque Y= 1.Le tracédesdensités dans les 2cas renseignesur lepouvoir
discriminant du scoring. Rappelons que pour un seuil donné, nous choisissonsla valeur prévue
par lemodèle. Nous pouvons donc avoir des renseignements sur le pouvoir discriminant d’un
scoring, pour un seuil donné, grâce aux erreursde première et seconde espèce:
α= P (S(X) s|Y =0), prévoir 1 alors qu’enréalitéY=0.
β= P ( S(X) ≤ s|Y = 1), prévoir 0 alors qu’en réalité Y=1.

F IG . 4.1 – Tableau decontingeancerésumant lacapacitéd’ajustementde l’analysediscrimi-


nante

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REPRESENTATION D’UN SCORING 50

F IG . 4.2– Densité de S(X) sachant Y=0 et Y=1(traits pleins)et leurs estimations (traits pointil-
lés). Le premier dessinfigure un cas oùdes erreurs risquentd’apparaître. Lesaires colorées
correspondent au choix d’un seuil de s=450 et auxerreurs α et β .

F IG . 4.3– CourbeROC d’évolutiondeserreurs enfonctiondu seuil, à gauchescoringparfait


et àdroite scoring avec des erreurs de classement.

Plus ces erreurs sont faibles, meilleur est le scoring(Cf figure 4.2)
Dans le cas de notre étude, l’erreur α est ici nepas prendre un nouveau client (prévoir1)
alors qu’il ne serait jamais à découvert (Y=0)et l’erreur β serade prendre unnouveauclient
alors qu’il sera àdecouvert.
La présentation sous forme de densité permet de montrer lesdispersions potentielles des
scoringssous les 2 hypothèses. Cependant il est difficile de voirl’influence d’un changement
de seuil.

4.1.2 ReceiverOperating Curve(ROC)


La courbe ROC est une courbe paramétrée ayant en abscisseβ (s) et en ordonnée (1 − α (s )).
Ellepermet desynthétiser demanière plus simplel’évolutiondes erreursen fonctiondes. Pour
1s donné, plus β (s) est faible et (1 − α (s )) est fort, meilleur est le scoring.(figure 4.3)

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REPRESENTATION D’UN SCORING 51

F IG . 4.4– Courbedeperformance, à gaucheunscoringparfaitetà droiteunscoringavec des


erreurs.

Ce typede courbe esttrès facile à lire mais ne dépend pas de la probabilité des Y = 0et
desY =1. Pour les faire intervenir, les praticiens utilisent les courbes de performance ou les
courbes de sélection.

4.1.3 Courbe de performance


Nous allons cette fois ci nous intéresser à la proportion des individus dont le scoringest
inférieur au seuil s, ie P (S(X) ≤ s). Cette grandeur sera l’abscisse de notre courbe paramétrée:
x(s )= P (S(X) ≤ s). Cette abscisse peut s’interpréter comme le pourcentage (ici la probabilité)
de la population (les observations dont (Y= 0) et celles dont (Y = 1) dont lescoring est inférieur
às).
En ordonnéenous allons regarderla probabilité de (Y = 1) danscette population desindi-
vidus dontlescoringestinférieurà s.Afind’avoiruneabscisse quisoit égale à1quands est
maximum, nous choisissons y (s )= P (Y =1 |S(X) ≤ s)/ P (Y = 1) .(figure 4.4)

Remarquonsqu’unscore parfait “touche” l’axe des abscissesauseuil s 0 qui sépareparfai-


tement les deux populations.Cependant un score qui touche l’axe au point (p 0, 0) (av ecp0 >0)
n’est pas forcément un score parfait. Un score possèdeune courbe de performance qui touche
l’axe desabscisses au seuil s 0 endeçàduquel iln’existeplusde Y =1 .Au dessus de s 0 peuvent
cohabiter des 0 et des 1 (si il n’y a que des 1, le score est alors parfait).

Remarques
-Si le score est fantaisiste, alors la courbe peut remonterau dessusde la droite y = 1.
En effet, si dans tous les scores élevés, au lieu de regrouper lesindividus {Y = 1}, on ne re-
groupe que des {Y =0}, cequi constitue un scoretoutàfaitfantaisiste, alors la probabilité

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REPRESENTATION D’UN SCORING 52

F IG . 4.5– Courbe de performance(à gauche) et de sélection (àdroite) pour un scoring fantai-


siste (pointillés) et un scoring indépendant deY (tiretslongs)

P (Y =1 |S(X) ≤ s)va diminuer avec s. Ce cas est bien sûr un cas “limite” que l’on ne souhaite
pas voir.
- Si le score est simplement indépendantdeY, ie que l’on cherche àdiscriminer Ymais
aucune variable n’explique Y, alors nous avons P (Y =1 |S(X) ≤ s)=P (Y = 1) et nous avons
alors que le scoring est la droite y= 1.(Cf. figure 4.4)

4.1.4 Courbe de sélection


Afin de contenir la courbe dans undemi carré, une autrecourbe voisine existe. Elleest peut
être plus naturelle àlire, dans le sens où elle ressemble à une courbe de concentration. L’abscisse
reste toujours identique x(s )= P(S(X) ≤ s), mais l’ordonnée est la probabilité d’avoir un score
inférieur às sachant que (Y = 1), cette ordonnéepeutse réécrire comme

P (S(X) ≤ s ∩ (Y = 1)) = P (Y =1 |S(X) ≤ s) (S(X) ≤ s)


P (S(X) ≤ s|Y = 1)= P
P (Y = 1) P (Y = 1)
ie l’ordonnée de la courbede performancemultipliée par une probabilité (compriseentre0
et 1).
- Si le score est un tant soit peu réaliste,ilesten dessous de la première bissectrice.
-Si le score est parfait, il “touche” l’axe des abscisses à lavaleur du paramètre s 0 (figure
4.5).
-Un score possède unecourbe de sélectionquitouche l’axe des abscisses au seuil s 0 en
deçà duquel il n’existe plus deY= 1.Cen’est pas forcémentun score parfait (au dessusde s0
peuvent cohabiter des 0et des 1).
- Si le score est indépendant de Y (ie pasdepouvoir explicatifdesvariables X 1 , ...,X p surY
), alors la courbe est la première bissectrice (figure 4.6).

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REPRESENTATION D’UN SCORING 53

F IG . 4.6– Courbede sélection. A gauche scoringparfaitet à droitescoring avecdeserreurs


de classements.

4.2 Estimations
Nous n’avons jamaisles scores vrais mais des estimations quenousnoterons Ŝ (.). De
même nous ne pouvons avoir la densité de Ŝ (.) sachant Y =0 ou de Ŝ (.) sachant Y =1, mais
nouspouvons l’estimerparun estimateur à noyau ouun histogramme. Enfinles probabilités

P (S(X) s) sont simplement estimées par des pourcentages.

4.2.1 Qualité d’ajustement


n
Nous possédons n mesures des variablesnotées { X i1 , ......,X ip ,Y } i=1 . A partir de ces me-
sures, nous estimons un scoring, parexemplepar régression logistique avec choix devariables.
Nous avons donc un scoring estimé Ŝ (.).

1. La première étape est d’ordonner les observations selon les valeurs du scoring:

X (1)1 , ...,X (1)p ,Y (1) ; ....;X (n )1 , ...,X (n)p ,Y (n).


2. Il faut choisir une grille s 1, s 2,..., s K devaleurs de scoring. En général, on chosit les
valeurs extrêmes du scoring, s 1 ≈ Ŝ(X (1) ) et s K ≈ Ŝ(X ( n) ) .
3. Pour chaque intervalle, ondénombre le nombre d’observations n 1, ...,n k quisont dans
l’intervalle ]sk ;sk+1 ] pour k ∈{ 1, ....,K } . De même, on dénombre le nombred’observations
qui possèdent une valeur de Y égale à1 que nousnoterons n 11, ....,n 1k .
K
4. Les totaux sont le nombre total d’observation n= k=1
n k et le nombretotald’observa-
K 1
tions avec Yi =1 ,noté n = 1
k=1
n k . L’estimation de P (Y = 1) est alors nn .
1
k k
5. Les dénombrements sont ensuite cumulésdonnant N k = n
l=1 l et
N k1 = n 1.
l=1 l
Les probabilités sont estimées par

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REPRESENTATION D’UN SCORING 54

F IG . 4.7– Etapes deconstructiond’une représentation d’unscoring.

Nk
P (S(X) ≤ sk+1 ) ≈ n

| ≤ N1k
P (Y =1 S(X) sk+1 ) ≈ Nk

≤ | N1k n N k
P (S(X) s Y =1) ≈ Nk n 1 n
6.Enfin un type de courbe est choisi eton représentealors Kpoints (x (sk ), y(s k )),
k ∈{ 1, ...,K } et on ajoute le point (1 ;1) (Cf. figure 4.7)

Remarques
- Plus nous avons de pointsdans la grille dedécoupage (ie plus K est grand) plus nous
aurons de points dans la représentationfinaleet plus elleaura l’aspect d’unecourbe.
- Plusnous avons de points dans un intervalle]s k ,s k +1 ] plus les estimations des probabilités
seront précises.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REPRESENTATION D’UN SCORING 55

-Comme nous utilisons les Yi pour construire l’estimation du score Ŝ() etpour estimer les
probabilités, nous n’avonsque descourbes “optimistes”, c’est le problème del’ajustement qui
est toujours meilleur que la prévision...

4.2.2 Qualité de prévision


n
Nous possédons n mesures des variables notées{ X i1 , ...,X ip ,Y i } i=1 . A partir de ces mesures
nous estimons un scoring,par exemple par une régression logistique avec choix de variables.
Nous avons donc un score estimé Ŝ (.).
Ensuite nous avons un jeu de données de validation qui n’a pas encore été utilisé. Nous
∗ ∗ n
avons les observations suivantes X i1 , ...,X ip ,Y i i=1 .
1. La première étape est d’ordonner les observations selon les valeurs du scoring.
∗ ∗ ∗ ∗ ∗ ∗
X (1)1 , ...,X (1)p ,Y (1) ; ...;X (n)1 , ...,X (n )p ,Y (n) .
2. Il faut choisir une grille s 1 ,s 2 ,s K+1 de valeurs duscoring. En général, on choisit les
∗ ∗
valeurs extrêmes du scoring, s 1 ≈ Ŝ(X (1) ) et s K ≈ Ŝ(X (n) ) .
3. Pour chaque intervalle ondénombre le nombre d’observations dujeudevalidation n ∗1, ....,n ∗k qui
sont dans les intervalles] s k ;s k +1 ] pour k ∈{ 1, ...,K } . De même, ondénombre le nombre le
nombre d’observations du jeu de validation qui possèdent une valeur de Y ∗ =1 que nous note-
rons n 11∗ , ...,n 1k ∗ .
K
4. Pour chacun des intervalles, on dénombre le nombre d’observations n ∗ = k=1
n ∗k
K
et le nombre total d’observations avecY ∗i =1, noté n 1∗ = k=1
n 1k ∗ . L’estimation de
∗ n1 ∗

P(Y =1)= P(Y =1) est alors n . k k


5. Les dénobrements sont ensuite cumulés donnant N k = n ∗ N k1∗ =
l=1 k .
n 1∗ .
l=1 k
Les probabilités sont alors estimées par

Nk
P(S(X) ≤ sk+1 )= n∗

N1k

| ≤
P (Y =1 S(X) sk+1 )= N∗
k

N1k n Nk
∗ ∗ ∗

P (S(X) ≤ s|Y= 1)=


∗ ∗
Nk Nk n
6. Enfin untype de courbe est choisi et on représente alors Kpoints (x (sk +1 ), y(s k +1 )),
k ∈{ 1, ...,K } et on ajoute le point (1 ;1).

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


C H AP I TRE C INQ

M O DE L IS AT ION

Introduction :
Dans ce chapitre, on s’intéresseau thème de la modélisation du creditscoring par un traite-
mentdenosdonnées enappliquant lesméthodesparamétriquesexposéesau chapitre 3.Compte
tenu de la variété des outils pouvant être mis en jeu, nousavons faitle choixd’insistersur la
pratique desméthodes considéréesainsique sur lacompréhensiondes sorties proposées par le
logiciel R1 . R comme la plupart des logiciels en Statistique supposent implicitement les hy-
pothèse de normalité, les distributions des estimateurs et donc lesstatistiques detest comme
valides[5](Data Mining 1, p 67 ). Plus rigoureusement, ces résultats sont justifiés par les pro-
priétés des distributions asymptotiques des estimateurs, propriétés quine sont pas développées
dans ce mémoire. Nous allons estimer unefonctionde scoring par régressionlogistiquepuis
par discrimination linéaire. Nous appliquerons la validationcroisée pour estimer l’erreur de
prédiction.
Warning: Recodage des variables qualitatives.
Le cas oùles variables explicatives sont qualitatives ont nécessité un traitementparticulier.
En effet comment faire une combinaison linéaire de variables qualitatives et quantitatives ? Cela
n’a pas évidemment pas de sens. La solution retenue est basée sur ce qu’on appellela forme
disjonctive d’une variable Xà m modalités [12]. On définit les m variables indicatrices des
modalités(11,1 2, ...,1 m ) telles que 1j vaut 1 sion appartient à lamodalitéj,0 sinon.Seuleune
des indicatrices vaut 1, celle qui correspondà la modalité prise. Les m indicatrices sont donc
équivalentes à la variable qualitative. Au cas où l’une de ces variables figurerait dans le scoring,
celui-ci serait alors une combinaison des indicatrices.Les variablesexplicatives qualitativesqui
interviennent dans le scoring sont doncles indicatrices de variables qualitatives. Cependant,
une difficulté intervient :la matrice Σ n’est pas de plein rang et n’est donc pasinversible car la
sommedes indicatrices des modalités dechaquevariable vaut1. Celasignifie qu’ilexiste une
infinitéde solutions équivalentespour estimer les coefficients : une des solutions couramment
utilisée consiste alors à ne prendre quem-1 indicatrices pourchaque variable qualitative puisque
la dernière est redondante.

5.1 Régression logistique


Nous allons diviser aléatoirement notre ensemble d’apprentsissageA en L = 5parties A 1, A 2,A 3, A 4, A 5
distintes, soit26 individus pour chaque bloc. Pour chacune de ces parties, on vaconstruire le
1
dont la version 2.5.1 est téléchargeable sur le site www.cran.at.r-project.org

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 57

TAB . 5.1– Coefficients du modèle logistique.


Variables Coef. Estimate Std. Error zvalue p-value IC95%
retenues
CREDIT 0.9209897 0.0479373 19.21 <10 − 3 0.8270343 |1.014945
R1 -0.4030249 0.0263697 -15.28 <10 − 13 -0.4547085 |-0.3513413
R3 0.7310701 0.0404733 18.06 <10 − 8 0.6517439 | 0.8103964
R6 -0.0876921 0.0289502 -3.03 0.002 -0.1444334 |-0.0309509
R7 0.061002 0.0066751 9.14 <10 − 5 0.047919 |0.0740851

prédicteur de Y et on vacalculer l’erreur de prédictionpar validation croisée en utilisant la


fonction cv.glm qui setrouvedanslabibliothèque boot du logiciel R.

Construction du modèle et estimation de l’erreur


La construction du modèle logistique se fait en utilisant la fonctionglm du logiciel R, ensuite
une sélection automatique des variables par minimisation de l’AIC est faite parla fonction step
pour la sélection des variables pertinentes dumodèle.
Le modèle construit a retenu les variablesCREDIT, R1,R3, R6, R7 comme significatives.
L’estimation de l’erreur par une validation croiséeen 5 blocs est 0.44957681.
Nous jugeons l’erreurun peu élévée. Etant donné la taille réduite de notre échantillon, on
peut se permettre d’augmenter le nombreL de blocs,voire appliquer une estimation de l’erreur
par leave-one-out. On obtient alors une estimation de l’erreur égale à 0.1886792, soit près 82%
des observations originales classées correctement ce qui est acceptable car cette erreur est plus
petite que celle obtenue par une segmentation des données en5 blocs. La qualité d’ajustement
peu être donnéepar par le taux demal classés. En effet, le scoring estimé Ŝ(X) étant determiné,
il est possible pour chaque individu denotre échantillon d’estimer son scoring2 . Au delà du seuil
s=0, l’estimation parle modèleest 1. Lescoringestimé par la régression logistique avec une
erreur de 0.1886792 est:

Ŝ (X) = 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3 -0.0876921 R6+0.061002R7.

Construction d’un scoring àpartir de la régression logistique


Dans lemodèle de scoring ci-dessus, l’erreur etla réglede décisionfinale sont obtenues
avec un seuil théorique s=0. Maintenant, le seuil sest variable. On va estimer les scoring de
tous les individus de l’échantillon. Il estd’usage de ramener ces scoringestimés entre 0et 100
(en %), ce qui peut se faire en utilisant la transformation:
scor ing = (scor ing − min (scoring )) ∗ 100/ (max (scoring) − min(scor ing ))) .

Ainsi pourles 130 individus de notre échantillon, on obtientune suitede 130 nombres réels
inférieurs entre 0 et 100. Ensuite, onles ordonne par valeurs croissantes du scoring. Puis un
2
Dans R, cela sefait en utilisant la fonction predict

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 58

TAB . 5.2– Découpage du scoring enclassesen classesd’éffectifsapproximativement égaux.


decoupage en classes effectif parclasse
[0 ; 2.59] 12
]2.59 ;80.3] 11
]80.3 ;84.6] 12
]84.6 ;86.3] 12
]86.3 ;87.6] 12
]87.6 ;90.1] 12
]90.1 ;91] 11
]91 ;92] 12
]92 ;93.2] 12
]93.2 ;95.2] 12
]95.2 ;100] 12

découpage est faiten 11classes(par exemple)d’éffectifségaux comme expliqué dansl’algo-


rithme de réprésentation d’un scoring du paragraphe 4.2.1 duchapitre précédent 3 .
Au niveau numérique, cela donne lesrésultats suivants:

Pour connaître le nombre d’observations pour lesquelles la variable à expliquervaut 0 dans


chaque classe, ou connaître le nombre d’observations pour lesquelles la variable àexpliquer
vaut 1 dans chaque classe, ilsuffit de faire le tableau de contingence entre les observations de
Y.

D’aprèsletableau 5.3, nousjugeonsdonc laqualitéd’un scoring basésurla régression


logistique. Nous voyons qu’en décà d’uneprobabilité P(S s0 ) d’environ 0.2, aucun client
risquéoumauvaisclient (Y=1)n’esttrouvé.Cetteprobabilité correspond à lafin de laseconde
classe ie àun seuil s 0 de 80.3.
A partir deces dénombrementspar classe, nous devons estimer les probabilités P(S ≤ s)
et P(S s) grâce aux cumuls comme présenté au paragraphe 4.2.1. Puis nouspouvons estimer
les probabilités suivantes P(Y =1 |S ≤ s) , P(Y =0 |S s). Enfin nous estimons P(Y = 0) et
P(Y = 1) . Nous pouvons maintenant tracer la courbe ROC, la courbe de performance et la
courbe sélection contenues dans la figure 5.1.

La figure 5.1 montre que les deux derniers graphiques touchent l’axe des abcisses au point(0.2 ;0),
ce qui concorde bien avec les résultatas obtenusdans le tableau 5.3ieen deçadelaprobablité
0.2 aucun mauvais client n’est trouvé, ce qui correspond à un seuil de 80.3.
Si la politique dela banque consiste à ne pasprendre de risque, ce seuil est celui à sélec-
tionner. Le seuil“pas de mauvais client”est 80.3 car la fin de la seconde classecorrespond à une
probabilité P(S s0) ≈ 0.2 .
3
Voir en ANNEXE pour les commandes du logiciel R qui fournissent les résultats de cet algorithme.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 59

TAB . 5.3– Découpage du scoring suivant lesmodalitésdeY


Découpage Y effectifpar classe
[0 ;2.59] 0 12
1 0
]2.59 ;80.3] 0 11
1 0
]80.3 ;84.6] 0 11
1 1
]84.6 ;86.3] 0 11
1 1
]86.3 ;87.6] 0 10
1 2
]87.6 ;90.1] 0 9
1 3
]90.1 ;91] 0 10
1 1
]91 ;92] 0 10
1 2
]92 ;93.2] 0 10
1 2
]93.2 ;95.2] 0 8
1 4
]95.2 ;100] 0 9
1 3

F IG . 5.1– Courbes ROC, de performance et de sélection liée à la regression logistique

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 60

TAB . 5.4– Coefficientsestimésdu modèle linéaire


Variables Coefficients IC95%
−2
Intercept 1,367.10 1,221465.10 |4.750795.10 − 2
−2

CAP 0,1951406 -0,1697578 |0,2243187


CREDIT 4,205561 -2,404566 |6,006555
EFF 2,175276 1,320829 |3,029722
DUREMB -1,641947 -1,777509 |-0,506386
GAR -0,1855474 -0.2673828 |-0.103712
AGE -0.2934967 -0.3563134 |-0.23068
EXP -0.8431434 -0.9661575 |-0.7201294
−2
THT 1.029068.10 -0.0455745 |0.568789
−2
INVEST 8.923639.10 -2.36664.10− 5 |9.215487.10− 10
CHDI -1,041.10− 2 -2.063303.10− 2 |3.093465.10 − 2
MASA 0,7230202 -0,5667727 |0,9223421
CAF 0,6557301 -0,5473226 |0,7856098
VA 0,7451563 -0,6188638 |0,8972216
CA 0,9554785 -0,0111789 |1,125447
RN 0,4991191 -0,2016577 |1,23536
R1 1,805436 -0,7369857 |4,422879
R2 -1,075136 -1,9113738 |-0,268324
R3 0,1880326 -0,1593717 |0,218477
R4 2,175276 -1,320829 |3,029722
R5 -1,641947 -1,777509 |0,506386
R6 -0,1855474 -0,2673828 |0,103712
R7 -0,0165511 -0,0964645 |0,0633623

5.2 Analyse discriminante


– Le cas quadratique:
Le logiciel R nous signale un message d’avertissement que la commandeqda de la bibliothèque
MASS ne peut être appliquée ceci étant dûà lataille réduite denos données.
– Le cas linéaire:
Les coefficientsde l’analyse discriminate linéaire sont obtenues par la commande lda de la
bibliothèque MASS, dans laquelle figure l’option CV de la validation croisée.

Le tableau 3.5 montre qu’en observant les intervalles de confiance 4 , les variables qu’on
peut retenir sont : EFF, DUREMB, AGE, EXP,CHDI, R2 et l’intercept. Lescoring pour la
discrimination linéaire est:

Ŝ (X) =2,175276EFF - 1,641947DUREMB - 0,2934967AGE - 0,8431434EXP +(-1,041.10 9)CHDI
−2
-1,075136R2 +1,367.10 .
4
Les intrevalles de confiance qui contiennent 0 sont non significatifs pour les coefficients correspondants.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 61

F IG . 5.2– Courbes ROC, de performance et de sélection liée à la discrimination linéaire.

La transformation

scor ing = (scor ing − min (scoring )) ∗ 100/ (max (scoring) − min(scor ing )))

nous permet d’avoir le scoring commeune probabilité(entre 0 et 100%).


L’option CV de lacommande lda nous permetd’avoir l’erreur de prédictionpar leave-one-
out. L’erreur de prédiction ainsi obtenu estde 0.62547, soit0.37453 desobservations originales
classées correctement, ce qui n’est pas intéressant.
Le calcul du seuil par la formule

1 µT − 1 µ − 1 µ T − 1 µ
s = log( P (Y = 1)) − log( P (Y = 0))+ 1Σ 1 0Σ 0
2 2
obtenu ci-dessus nous donne s =0,4125833.

Construction du scoring àpartir de la discrimination linéaire


La procédure est identique que celle élaborée àlarégression logistique.On décide defaire
varier le seuil en espérant pouvant améliorer l’erreur deprédiction.
On constate d’après la figure 5.2 que la construction d’un scoring pardiscrimination linéaire
est dégradée, l’allure destroiscourbesmontreque la déduction d’un seuil parréprésentationdu
scoring n’est pas possible. Il est pratiquement difficiled’en tirer desconclusions.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


CONCLUSIONS ET
RECOMMENDATIONS

Le butde notre travail était de construirevia des outilsstatistiques, uneméthode denotation


des empruteurs àla First Bank.
Au terme de ce travail, il enressort que des deuxméthodes annoncées au chapitre 3 (à savoir
la régression logistiqueet ladiscrimination linéaire), seulela régression logistique binaire nous
donne un résultat satisfaisant. Le problème avec la discrimination linéaire, estqu’il est un peu
difficile de se prononcer eu égardde la figure 5.2 qui montre 3 courbes dontles allures sont
loin de fournir unindicesurle calcul graphiquedu seuil. On pourraitsecontenter duseuilthéo-
rique s= 0,4125833, mais l’erreur estimée (= 0.62547) par validation croisée(leave-one-out) est
élévée. Cependant, l’étude faite avec la régression logistique nous fournit des résultats concrets
au seuils=0.On a obtenu uneerreur de 0.1886792,soit plus de 80%de bons classements . En
faisant varierle seuil parconstruction du scoring, on se rend compte qu’avec un seuil = 80.3,
la discriminationest parfaiteie qu’on estsûr de l’affectation d’unempruteurà l’une des deux
classes(erreur nulle). Toutefois, ilest à remarquer quece seuilnous paraît un peutrop rigou-
reux, elle n’estapplicable quesila banquene veutcourir aucun risque,ce quin’est pastoujours
une bonne politique bancaire car cette stratégie peutavoir un impact négatif sur la rentabilité de
la banque5 . Cette méthode de seuil variable permet de prendre des risques pour la sélection des
clients dans la banque et ce selon les objectifsdu moment.
Pour la First Bank, il convient d’adopter le scoring évaluéparlarégression logistique:
Ŝ (X) = 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3 -0.0876921 R6+0.061002R7.
Ŝ (X) est une fonction des ratios de rentabilité R1=CA/VA, R3=RN/capitaux propres, du
ratiod’autonomie financièreR6=SN/total passif, du ratio de solvabilité R7=actif total/dettes et
du financement (CREDIT) que l’emprunteura bénéficié auprèsde la FirstBank.
Recommendations
Pourun nouvelemprunteur ouun clientde crédit qui sollicite unsoutien financier dans le
cadre d’un projet d’investissement:
1. La First Bank récueille auprès du client les ratios R1, R3, R6, R7 et le crédit solli-
cité(CREDIT).
2. La banque calcule son scoringŜ (X) = 0.9209897CREDIT - 0.4030249R1 + 0.7310701R3
- 0.0876921 R6+0.061002 R7 qui est une probabilité de défaut.
5
Etant donné que l’octroi de crédits fait partie de l’activité principale des banques, chercher à annuler le risque
decrédit influencesur les bénéfices de la banque.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 63

Enconsidérant leseuil théoriques=0, avecune erreur de 0.1886792de mauvaisclassement,


on a le choix d’affectation d’un nouvel emprunteur régis de manière suivante:
–Si Ŝ (X) 0 alors Ŷ =0 , ie que l’emprunteur est non risqué, il est donc considéré
comme bon.
–Si Ŝ(X) 0 alors Ŷ =1 , ie que l’emprunteur est risqué, il est mauvaisclient.
–Si Ŝ(X ) =0 alors Ŷ =0 ou Ŷ =1 , peu importe.

Cependant, en supposant que lapolitique économique de la First Bank est de ne pas


prendre de risque ie on est au seuil des=80.3,alors on alaréglede décision suivante:
–Si Ŝ(X) ≤ 80.3, alors le client estconsidérécomme non risqué ie bon.
–Si Ŝ(X) 80.3, alors le client est peut-être risqué.
L’examen statistiquede la situationéconomique et financière des entreprises (emprunteurs), en
vuedela détectionprécocedesdifficultés de la clientèle, estextrêmement fructueux. Parl’ana-
lyse multicritères,ilpermet laconstruction d’un scoringqui fournit uneimage synthétiquedu
profil del’entreprise empreunteuse. Celui-ci est, dans la très grande majoritédes cas, révéla-
teurde lasanté del’entreprise. Si untel outil nepeut se substituer aujugementdel’expert,
il peut contribuer à l’informer rapidement sur le niveau de risque de l’entreprise et concourir
au diagnostic, grâce aux aides à l’interprétation qui l’accompagnent. L’analyste pourra alors se
concentrer sur des aspectsplus délicats et moins quantifiables de l’évaluation, en particulierles
aspects qualitatifs. Ainsi, expertise et utilisation d’un scoring ne sont pas contradictoires ; au
contraire, ellesse complètent etpermettent d’affiner l’analyse du risquede crédit . De même,
lorsque plusieurs outils d’évaluation du risquesont disponibles, généralement fondés sur des
systèmes d’information différents, il est très fructueux de les examiner tous. En effet, les rensei-
gnementsqu’ils apportent relativisent les points de vue, accroissent la fiabilité de la prévision
et renforcent le diagnostic.

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


ANNEXES

Codes Rdes fonctions utilisées


Chapitre5
##### importation du fichier base
tab=read.table("donnee.txt",header=TRUE,sep="\t",dec=",")
####on rend visible le fichier des donnees
attach(tab)
#### résumé des données
summary(tab)
##### modele simple
modelsimple =glm(Y~1,data=donnee,family=binomial)
summary(modelsimple)
##### modele complet
modelcomplet=glm(Y~.,data=donnee,family=binomial)
summary(modelcomplet)
##### Sélection ascendante des variables du modèlefinal
Modelfinal=step(modelecomplet,scope=list(upper=formula("Y~(FORJU+CAP +NACTI+SISO+CREDIT
+INVEST+CHDI+MASA+CAF+VA+CA+RN+R1+R2+R3+R4+R5+R6+R7)", direction=”forward”),
lower=formula("Y~1")))
##### ajustement
table(modelfinal$fitted.values>0,tabapp$Y= =0)
##### calcul du scoring de chaque individu
score=predict(modelfinal)
#### on ramène le scoring entre 0et 100.
score= (score -min(score))*100/(max(score)-min(score))
#### on ordonne les valeurs du scoring par valeurs croissantes
ordre =order(score)
y.ordonne =donnee[ordre,"Y"]
score.ordonne =score[ordre]
decoupage=quantile(score.ordonne,seq(0,1,length=12))
score.decoupage =cut(score.ordonne,breaks=decoupage)
table.score=table(score.decoupage)
table.y =table(y.ordonne,score.decoupage)

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 65

## Proba (S()<s)
px.v= cumsum(table.score)/sum(table.score)
## Proba( S()>s)
px2.v = rev( cumsum(rev(table.score))/sum(table.score))
## Proba (Y=1 |S()<s)
py.v =cumsum(table.y.[2,])/cumsum(apply(table.y,2,sum))
## Proba (Y=0 |S()>s)
py2.v =rev(cumsum(rev(table.y[1,]))/cumsum(rev(apply(table.y,2,sum))))
## Proba (Y=0)
p0.v = table(y.ordonne)[1]/sum(table(y.ordonne))
## Proba (Y=1)
p1.v = table(y.ordonne)[2]/sum(table(y.ordonne))
### construction des courbes ROC, de sélection et de performance
par(mfrow=c(1,3))
### courbe ROC
plot(c(0,py.v/p1.v*px.v),1-c(py2.v*px2.v/p0.v,0),type="b",xlab=expression(beta), ylab=expression(1-
alpha),col="red")
segments(0,0,1,1)
#### courbe de sélection
plot(c(0,px.v),c(0,py.v/p1.v),type="l",xlab="P(S(x)<s)", ylab="P(Y=1|S(x)<s)/P(Y=1)", xlim=c(0,1),ylim
segments(c(0,0),c(0,1),c(0,1),c(1,1))
#### courbe de performance
plot(c(0,px.v),c(0,py.v/p1.v*px.v),type="l",xlab="P(S(x)<s)", ylab="P(S(x)>s|Y=1)/P(Y=1)”,
xlim=c(0,1),ylim=c(0,1),col="red")
segments(0,0,1,1)

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


REFERENCES

[1]NDONG NGUEMA, Coursde Data Mining(2007) , Ecole Nationale Supérieure Poly-


technique de Yaoundé.

[2]NDONG NGUEMA, Cours de Statistique Mathématique(2007),Ecole Nationale Supérieure


Polytechnique de Yaoundé.

[3]RAPPORT ANNUEL 2006, Afriland First Bank.

[4]Collett D. (2003). Modelling binary data.Chapman & Hall/CRC, 2ed.

[5]Philippe BESSE Data Mining1 , Laboratoire de Statistique et Probabilités, Université


Paul Sabatier, Toulouse III.

[6] Glossaire 2007de la banque centrale tunisienne.

[7]Duffie (D.), Singleton (K. J.). Credit Risk. Princeton University Press (2003)

[8]Schervish M.J. (1995). Theory of statistics.Springer-Verlag, New-York.

[9]Mallows C.L. (1986). Augmented partial residuals.Technometrics, 28, 313–319.

[10]Schwarz G. (1978).Estimating thedimensionof a model . Annals of statistics, 6, 461–464.

[11]Christophe J. GODLEWSKI,« Rôle de la Nature de l’Information dans l’Intermédiation


Bancaire», LaRGE, Avril 2004

[12] GilbertSAPORTA,« La Notation Statistique desEmprunteurs(ou scoring) », CREM,


mars 2003

[13] Gregory N. MANKIW, « Macroéconomie », Nouveaux Horizons, De Boeck, 3ème


Édition, Bruxelles, 2003.

[14] Mark SCHREINER, « LesVertus et Faiblesses de l’Évaluation Statistique enMicro

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


MODELISATION 67

finance», Septembre 2003.

[15]Cohen, E. (1999), Dictionnaire de Gestion,Al Manar, Dictionnaires Repères.

[16]Patrick VILLIEU,« Macroéconomie : l’Investissement», (Repères, 276), La Découverte,


Paris, 2000.
[17] www.afrilandfirstbank.com

[18] www.microfinance.com

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


Table des matières

1 PRESENTATION DE LA STRUCTURE D’ACCUEIL ETCONCEPT DE RISQUE


BANCAIRE 15
1.1 Présentation de la structure d’accueil . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 AfrilandFirstBank. . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.2 La Direction des Etudesetdu CorporateBanking(DECB) . . . . . . . 15
1.1.3 Contextedel’étude. . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.2 Conceptderisque bancaire: . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.2.1 Le risque de crédit :veiller auxdéfautsde paiement[13] . . . . . . . . 20
1.2.2 Lerisquedecrédit:niveaux de gestion[7] . . . . . . . . . . . . . . . 20

2 DESCRIPTIONSTATISTIQUE DELA BASE DEDONNEES 21


2.1 Méthodologie de collecte desdonnées . . . . . . . . . . . . . . . . . . . . . . 21
2.2 Descriptiondesvariablesd’analyse. . . . . . . . . . . . . . . . . . . . . . . . 22

3 DEUXMETHODESDEDISCRIMINATION POUR LE CREDIT SCORING 33


3.1 Le modèle probabiliste de prédiction. . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Analyse discriminante linéaireetquadratique . . . . . . . . . . . . . . . . . . 35
3.2.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Calcul du seuil théorique s . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Analyse discriminante logistique. . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Définition. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.2 Lien avec les GLM: . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . 40
3.3.4 Précision des estimations: . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3.5 La qualité du modèle. . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.5.1 Un outil spécifique:ladéviance . . . . . . . . . . . . . . . 42
3.3.5.2 Evaluationdes performances . . . . . . . . . . . . . . . . . 45
3.3.6 Sélection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 REPRESENTATION D’UN SCORING 49


4.1 Représentationthéoriques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.1.1 Présentationsousformededensité. . . . . . . . . . . . . . . . . . . . 49
4.1.2 ReceiverOperatingCurve (ROC) . . . . . . . . . . . . . . . . . . . . 50

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


TABLE DES MATIÈRES i

4.1.3 Courbedeperformance. . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.4 Courbedesélection. . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Qualité d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.2 Qualité de prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5 MODELISATION 56
5.1 Régressionlogistique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Analyse discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


Table des figures

2.1 Répartitiondesdossiersselon laforme juridique. . . . . . . . . . . . . . . . 24


2.2 Diagramme en bâtons de NACTI. . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Répartition des dossiers parlieud’implantationdes clients(%) . . . . . . . . 26
2.4 histogrammedelavariable CREDIT . . . . . . . . . . . . . . . . . . . . . . 28
2.5 HistogrammeetBoxplotde GAR . . . . . . . . . . . . . . . . . . . . . . . . 29
2.6 Réprésentationdesdensités desratios R1 et R5. . . . . . . . . . . . . . . . . 30

3.1 Test de déviance,ladroiteverticale représenteleseuil derejet D c =q 1− α (n − p) .


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Procédure d’apprentissage/validation . . . . . . . . . . . . . . . . . . . . . . 45
3.3 Techniqueascendanteutilisant l’AIC. . . . . . . . . . . . . . . . . . . . . . 48

4.1 Tableaude contingeancerésumantlacapacitéd’ajustement del’analysedis-


criminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Densité de S(X)sachant Y=0 et Y=1(traitspleins) et leurs estimations (traits
pointillés). Le premierdessin figure uncas oùdeserreursrisquent d’apparaître.
Lesaires colorées correspondent au choixd’un seuil des=450 et auxerreurs α
et β . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 CourbeROC d’évolutiondes erreursen fonctiondu seuil, àgauche scoring
parfait et à droite scoring avec des erreurs de classement. . . . . . . . . . . . 50
4.4 Courbe deperformance, àgaucheunscoring parfaitetàdroiteun scoring
avec des erreurs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5 Courbe de performance (à gauche) et de sélection (à droite) pourun scoring
fantaisiste (pointillés) et un scoring indépendant de Y (tirets longs) . . . . . . 52
4.6 Courbede sélection. A gauchescoringparfaitet à droitescoringavec des
erreurs de classements. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.7 Etapes de construction d’unereprésentationd’un scoring. . . . . . . . . . . . 54

5.1 Courbes ROC, de performanceetde sélectionliée à la regressionlogistique . . 59


5.2 Courbes ROC,deperformanceetde sélectionliée à la discrimination linéaire . 61

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007


Liste des tableaux

1.1 Fiched’identificationdeAfriland First Bank


. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.1 codagedesvariables d’étude . . . . . . . . . . . . . . . . . . . . . . . . . . 23


2.2 Répartition des dossiers de créditsuivantlaformejuridique des entreprises. . 24
2.3 Répartiondesdossiersparactivités principalesdes entreprises. . . . . . . . 25
2.4 Répartitiondesdossiersdecréditpar les montantsdes besoins exprimés. 27
2.5 Répartition des dossiers de crédit parlesmontantsdes garanties. . . . . . . 28
2.6 Résumé et test de normalité desratios . . . . . . . . . . . . . . . . . . . . . 29
2.7 Répartitiondesdossiers suivant les tauxde crédit et les échéancesde rem-
boursement. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1 Coefficients du modèle logistique. . . . . . . . . . . . . . . . . . . . . . . . . 57


5.2 Découpageduscoringenclassesen classesd’éffectifs approximativement égaux. 58
5.3 Découpageduscoringsuivant les modalités deY . . . . . . . . . . . . . . . . 59
5.4 Coefficientsestimésdumodèle linéaire . . . . . . . . . . . . . . . . . . . . . . 60

Mémoire de Master de Statistique Appliquée TENEGeorgesColince©ENSP 2006-2007

Vous aimerez peut-être aussi