Evaluation Statistiquedu Risque de Credit Par La Technique Du Scoring: Cas de Afriland First Bank
Evaluation Statistiquedu Risque de Credit Par La Technique Du Scoring: Cas de Afriland First Bank
Evaluation Statistiquedu Risque de Credit Par La Technique Du Scoring: Cas de Afriland First Bank
Présenté par:
Sous la direction de
A notre chef de famille, Mr FOYO Jean-Paul, pour tes conseils, tonsoutien inconditionnel
que tu m’as toujours apporté comme à tous tes enfants.
A mes sœurs, Mme WOUAGOU Juliette et Mme MASSO Flore, pour votre amour, votre
soutien moral et financier, votre patience et votre dévouement sans faille qui m’ont permis
d’arriver jusqu’à ce point. Puisse ce diplômenous réserverà tous deslendemains meilleurs.
De primeà bord, nous voudrions lui exprimer notre grande considération à travers lesgrands
efforts fournis pour nous procurer le savoir et le savoir être dans des conditions universitaires
favorables.
Au Dr.Eugène-PatriceNDONG NGUEMA
Une mention toute particulière d’admirationet d’un grand respect à son endroit, dont les
nombreuxconseils méthodologiques et laconstante disponibilitéont été plus quedéterminant
durant notre formation et pour la réalisation de ce mémoire.
Nous voulons ici exprimer nos sincères gratitudes à toutes les personnes qui nous ont été
d’un apport positif pendant notre stage à la FirstBank.
Nous remercions d’abord M. GUELA SIMO Célestin pour avoir bien voulu nous parrainer
pendant notre séjour au sein de Afriland First Bank.
Mercià M. MOUAHA YEKEL, SIME Brice pour leur encadrement, et surtout pour avoir
bien voululirenotre travail, contribuerparleurs nombreuses critiques positives à son améliora-
tion.
AMr Guillaume EYOUM pour le soutien dont il a toujours faire montre à mon égard.
Enfin, à tous ceux qui nous ont oeuvré dansquelque circonstance que ce soitpour la concep-
tion et la réalisation dece document, qu’ils trouvent icil’expression de notre profondegratitude.
‘’ il arrive que les grandes décisions ne se prennent pas, mais se forment d’elles mêmes”
How banks are supposed to evaluate, forecast and manage efficiently credit risk,given
the multiple dangers and threats they have to face now ? How can they answer successfully to
the new constraints arising from supervisors while preserving their future profitability ? These
two questions are the most challenging issues related to credit risk,and they can impacton the
future banks’ability tomanage this type of risk. Even now, only first-ranked financial institu-
tions are really able to evaluate their credit risk with an acceptable levelof confidence or have
areliable database for the scoringorthebehavioural segmentation of the borrowers.Building
more robust credit risk models than traditional methods, by including more risk factors and im-
proving the accuracy of operational risk measures andindicators, such arethe challengesbanks
have to deal with in the near short term.
Withintheframework of thismemory,our work consistswith the measurement of risk
credit, by a statisticalnotation of the borrowers at Afriland First Bank. We develop two para-
metric methods of construction of a scoring, thena finalcomparison ofqualitiesofforecaston
the basis of rate of evil classified is made for the optimization of the models.
– Chiffre d’affaire :Le chiffred’affaire désignele total desventes de biens etde services
facturés par une entreprise sur un exercice comptable.
–C redit scoring : c’estun ensemble d’outils d’aideà la décision utilisés parlesorganismes
financiers pour évaluer le risque de nonremboursement des prêts.
– Fonds propresou capitaux propres : ils correspondentaux ressources stables de l’entre-
prise i.e dans une optique fonctionnelle, lescapitaux propres participent, concurremment
avec les éléments du passif externe, aufinancementde l’entreprise
– Montantdes investissements : Pour une entreprise,C’est le montant placé essentielle-
mentdansuneopération économiquepour acquérir des biens durables utilisés à court ou
àmoyen terme.
– Passifs : ce sont les élémentsdu patrimoineayant une valeur économique négative pour
Cette note propose une applicationaux techniques de «credit scoring » à partir d’une
étude decas sur les difficultésfinancières desemprunteurs de la First Bank servant de sup-
port àdes formations initiales et continuéesen analyse des données. On présente tout d’abord
la problématique del’évaluationdu risquede crédit, les contraintesqu’imposela collecte de
données comptables dans un telcontexte, et la batterie des critères micro-économiques retenus
pourmesurer le degréd’insolvabilité desmicrocréditeurs. L’informationfourniepar cettebat-
terie de variables financiers est ensuite analysée aux moyens de techniques statistiquestelle que
la régressionlogistique et la discrimination linéaireau sens de Fisher. Les résultats fournis par
ces techniques d’analysediscriminante, et de classement permettent de montrer l’intérêt mé-
thodologiquede cesoutils pource type d’étude micro-économique. Lesrésultats obtenus sont
interprétés directement à partir des sorties dulogiciel R.
Objectif de l’étude:
Proposer une base méthodologique de mesure durisque de crédit applicable aux emprun-
teurs àl’intention de la First Bank.
0.1 Problème
Dans un contexte de transition issu des résultatscomptables peusatisfaisantsdu rapport an-
nuel 2006, il est vraisemblable quela problématique de l’évaluation du risque de crédit bancaire
connaisse un regain d’intérêt compte tenu des multiples sollicitations de crédit auxquelles fait
face la First Bank. Lescréances douteuses ont ainsi peséassez lourdes sur le résultat net qu’a
connu la First Bank. Il s’avère dès lors indispensable de mettre en place desmoyens efficaces
qui puissent permettre autantqu’il est possible de réduire les risques liés aux crédits accordés
par la First Bank, faute de pouvoir les éviter complètement.
0.2 Données
Les données sont collectées à la DECB-division des projets etinvestissements, l’unité sta-
tistique étant undossier de crédit. Malgrélesdifficultés de collectes auxquelles nous avons été
confrontés pendant la périodede stage, nousavons pucollecter 130 dossiersde crédit pour un
total de 25 variables par dossierde crédit. Ceci nous a permis de confectionner notre base de
données sous forme d’un tableau individus-variables pour enfaire uneanalyse.
0.3 Méthodologie
Il s’agit d’une classification supervisée àdeux groupes: « bons clients» et «mauvais
clients». Afin dediscriminer au mieuxles deuxgroupes d’emprunteursrépertoriés dupoint
devue descritères financières et comptables, nous avons utilisé l’analysediscriminante sur la
base des variables financièresles plus pertinentes,pour prédire l’appartenancede chaque em-
prunteurouclient au groupe définiparlavaleurdelavariablequalitativeY «statut duclient»
àdeux modalités:
- si (Y =0), l’entreprise(emprunteur) est considérée comme financièrement saine;
-sinon (Y=1), l’entreprise est considéré comme défaillante.
À partir de combinaisons des caractéristiques financières utilisées comme variables explica-
tives (exogènes) dans l’analyse, l’analyse discriminante construitdes fonctions discriminantes
ou credit scoringpermettantd’affecter l’emprunteur àl’undes groupesprédéfinis sur la base
d’une règle probabiliste bayésienne. Lesméthodes utilisées sont la régressionlogistique à deux
classes et la discrimination au sens de Fisher.
Afinde valider les résultats obtenus, nous utiliserons une procédure de validationcroisée
qui consiste pour chaqueindividu de l’échantillon àréaliser son classement sur la base de la
fonction linéaire discriminante obtenue avec les autres individus de l’échantillon. Cela revient
àeffectuer autant d’estimationsqu’il ya d’individus dans l’échantillon. Selon cette procédure,
chaque individuclassé sert d’échantillon-testpour le calcul du pourcentage de bien-classés et
le classements’effectue sur la base d’un échantillon d’apprentissage constitué par lesn-1 indi-
vidus restants.
0.4 Résultats
Lescoring obtenu parlarégression logistique binairesemble être la mieux appropriéepour
la notationstatistique des emprunteurs à laFirst Bank. Ainsi, l’expression mathématique du
scoring est:
Ŝ (X) = 0.9209897CREDIT- 0.4030249R1+ 0.7310701R3- 0.0876921 R6+0.061002 R7
qui est une probabilité de défaut.
La méthode théorique nous fournit unseuil s=0 et un pourcentage de plusde 80% debons
classements, conséquemment la régle de décision suivante:
– Ŝ(X) ≤ 0 alors Ŷ =0 , ie que l’emprunteur est non risqué, il est donc considéré comme
bon.
– Ŝ(X) 0 alors Ŷ =1 , ie que l’emprunteur est risqué, il est mauvaisclient.
La construction de cescoring a généré un seuil s=80.3. En supposantque la politique écono-
mique delaFirst Bank estdenepasprendrederisqueieonestauseuilde 80.3,alorsonala
régle de décision suivante:
–Si Ŝ(X) ≤ 80.3, alors le client estconsidérécomme non risqué ie bon.
–Si Ŝ (X) 80.3, alors leclientest peut-êtrerisqué car icion rencotre les bons etles
mauvais clients.
Il est possible de faire encore varier ce seuil, cela signifie qu’on accroît le risque et l’erreur.
L’examen statistiquede la situation économiqueet financière des entreprises (emprunteurs),
envue deladétection précocedesdifficultés de laclientèle, est extrêmementfructueux. Par
l’analyse multicritères, il permet la construction d’un scoringqui fournit une image synthétique
du profil de l’entreprise empreunteuse. Celui-ci est, dans la très grandemajorité des cas, révé-
lateur dela santé de l’entreprise. Si un tel outil ne peut se substituer au jugement de l’expert,
il peut contribuer à l’informer rapidement sur le niveau de risque de l’entreprise et concourir
au diagnostic, grâce aux aides à l’interprétation qui l’accompagnent. L’analyste pourra alors se
concentrer sur des aspectsplus délicats et moins quantifiables de l’évaluation, en particulierles
aspects qualitatifs. Ainsi, expertise et utilisation d’un scoring ne sont pas contradictoires ; au
contraire, ellesse complètent etpermettent d’affiner l’analyse du risquede crédit . De même,
lorsque plusieurs outils d’évaluation du risquesont disponibles, généralement fondés sur des
systèmes d’information différents, il est très fructueux de les examiner tous. En effet, les rensei-
gnementsqu’ils apportent relativisent les points de vue, accroissent la fiabilité de la prévision
et renforcent le diagnostic.
Contexte et problématique
Le risque de crédit [6] est le risque (vu comme une probabilité) que l’emprunteur ne rem-
bourse pas sa detteen partie ouen totalité, àl’échéance fixée. De nos jours, sa maîtrise est
l’unedes principales préoccupations pour la plupart desorganismes bancaires, notammentvia
lescréances qu’elles accordent à leurs clients, qui sont pourlaplupartdesformes de prêtà court
terme, et pour cetteraison, de nombreuses banques sont aujourd’hui amenées à l’intégrer dans
leur gestion afin de le minimiser. Ce risque esten effet lourd de conséquences pour la banque,
car toute dettenon remboursée estéconomiquementuneperte sèchequesupporte le créancier.
Comptablement parlant, les créances et emprunts accordés à des tiers constituentainsi unposte
spécifique dans lebilan de l’entreprise et toute évolution négativeobère d’autant la survie de
l’entreprise àmoyen ou long terme. Très tôt, les établissements bancaires ont donc cherchéà
s’immunisercontre cerisquede crédit.En amont,ce risque peutfairel’objet d’uneévaluation
grâceà différentscritèreset destechniquesmêlant calcul et intuition. Suiteà cette évaluation,
lesbanquesdisposentensuite dedifférentsmoyensdeprotectionpour minimiser,voire annuler
ce risque économique.
objective de sélection elle-même. Pour détenir cette information, il y a une source officielle
représentée par les documents comptables et sociaux, et une sourceprivée nécessitant que le
banquier soit effectivement en relation avecl’emprunteur. Pour analyser l’information qu’un
banquier détient sur ses clients, on dispose à la FirstBankd’une méthode « subjective » dont
les exigences majeuressont lejugement et le bon sens,ce quinepermet pasà la First Bank de
déceler judicieusementles clientssusceptibles de ne pas honorerà leurs engagements avec la
banque. Ainsi, Pour analyser l’information que le banquier détientsur son client, ilfaut trouver
une autre approche complémentaire pourl’étude des dossiersde crédit, amélioratricedu taux
d’impayés. Ceci passeobjectivement parla misesurpied d’unmodèle statistique d’évaluation
du risque de non remboursement (risquede crédit)des emprunteurs de la FirstBank.
Enjeu:
La mesure du risque de crédit sur lesemprunteurs est un enjeu important,surtout lorsqu’il
s’agit des besoins traditionnels tel que le créditbancaire. La nécessité pour les banques de dis-
poser d’outilsfiables est encoreplus forte dansla périodeactuelle de montéedurisque decrédit
et de doutes sur les comptes dela clientèle. La réalisation d’unmodèle de notation statistique
d’octroide créditpar le scoring( credit scoring) estd’une grande importance en cesens que
sa capacité de pronostiquer facilite l’évaluation des risques des candidats aux microcrédits. Le
credit scoring est objectif, cohérent et explicite, il permet de quantifier le risque comme proba-
bilité et supposequ’une bonne partie des risquesestliée aux caractéristiquesquantifiées dans
la base de données.
Plan de travail:
Notre travail est divisé en cinq principaux chapitres. Le squelette seprésente comme suit:
dansun premiertemps, nousprésentons labanque Afriland First Bank, sa Direction des Etudes
et du CorporateBanking(DECB) et lesdifférentsrisques auxquelles font face laplupart des
banques en mettant unaccentparticulier sur lerisque de crédit. Ladescriptionde nosdonnées
faitl’objet du chapitre deux. Le chapitretroisest consacré àun exposé surquelques applications
statistiques version paramétrique du credit scoring à savoir la régression logistiqueet la discri-
mination linéaire-quadratiqueau sens deFisher, ensuite un quatrième chapitre est consacréà
la technique pratique de constructionet représentation d’unscoring, on fait varier le seuil s de
discriminationet onproposeunalgorithme pour estimer les malclassés lorsde laprédiction,
ils’agitdeserreurs depremièreetdeuxième espèce. Le chapitre cinqenfin, est essentiellement
portésurlesapplicationsinformatiquesvia le logiciel R des différentes méthodes annoncées
auxchapitres trois et quatre, enessayantd’interpréterles sorties obtenues.Un paragraphe pour
les recommandations y est inséré à la fin pour conclure ce travail.
P RE SE N TAT IO N DE LA
S T RU CT UR E D’ AC CU EI L ET
C ON C EP T D E R IS QU E BA NC AI RE
Ce premier chapitre de notre travail est d’une part consacréà une présentation sommaire de
la structure danslequelnousavonseffectuénotre stage académique. D’autrepart, ony présente
dans sa généralité le concept de risque bancaire en y mettant un accentparticulier sur lerisque
de crédit, la raison d’être de notre travail.
B.P :11834
Tel. : 22 23 30 68 / 22 22 37 34/22 23 63 27
Fax :22 22 17 85
Telex :8907 KN
Web :www.afrilandfirstbank.com
Ambitions:
- rester le partenaire de l’entreprise gagnante;
Source :www.afrilandfirstbank.com
b- L’organisation de la DECB
LaDECBest dirigée par undirecteur quien assure le suivietla gestion. Elle comprendtrois
Départements:
Le Département des Études, des Projets et des Investissements avec trois divisions:
– la Division des Études;
– la Division des Projets et Investissements;
– la Division Documentation et Archivage.
par ses clients potentiels. Seuls les clients jugés aptesà retourner les fondsreçus aux condi-
tionsconvenues peuventêtre financés.Cette aptitudeà respecter sesengagements vis-à-vis de
la banque s’évalueà travers l’étude des dossiers de demandede crédit introduitspar lesclients
auprès dela banque. Cette étude est conduite respectivement par les analystes, les contre ana-
lystes des dossiers de crédit et les comités decrédit.
pouvoir les gérer, par exemple les couvrir s’ils sont importants. Lorsque la banque octroie un
crédit, elle pose un acte de confiance vis-à-vis dudébiteur. Faire crédit, c’est essentiellement
faire confiance: labanque croitauremboursement ultérieurdelasommeempruntée. Maisil
n‘y a jamais decertitude absolueque le débiteur rembourseradans les délais convenus. C’est
la raison pourlaquelle la gestion du risquede crédit requiert une attention de grande envergure
car le contraire pourrait entraîner la faillite de la banque.
1.2.1 Le risquedecrédit:veillerauxdéfautsdepaiement[13]
L’événement risqué est le non-respect par un client ou par unecontrepartie de ses obli-
gations financières ou, de manière plus générale, ladétérioration de la qualité crédit de cette
contrepartie. Tout produit bancaire pourlequel undéfaut depaiement du client entraînerait une
perte pour la banque doit donc faire l’objet d’un calculde risque crédit. L’horizonde temps per-
tinentpour le risque decrédit s’étale donc jusqu’à l’expiration descontrats,mais il est souvent
ramené à un an, période de recapitalisation delabanque.
1.2.2 Le risquedecrédit:niveauxdegestion[7]
Le risque de crédit est géré à plusieurs niveaux:
1- Les systèmes de gestiondes limites permettent de diversifier le risque et d’éviter la
concentrationdes encours crédit sur un pays (risque géofigure), un secteur économique, un
groupe international, etc.
2-Les systèmes de scoring évaluent la probabilitéde défaut de paiement pour un client ex-
ante (avant même de lui octroyer le crédit) ; ces systèmes sont souvent basés sur des statistiques
de défaillances et permettent de segmenter les clients suivant le risque.
3- Un systèmede gestion de portefeuille , au-delà des systèmes utilisés pour l’octroidu
crédit, permetd’optimiser les transactions.La notion de pertes moyennes intervient à nouveau,
mais coupléeà lanotion de capitaléconomique, pour dériver un « RiskAdjusted ReturnOn
Capital »(RAROC). Ce RAROC sera disponibleà plusieurs niveaux: par transaction,par client
et par entité de la banque. Ce système permet également, grâce aux investisseurs et aux marchés
financiers, deredistribuer leportefeuille descrédits pour un rapport rendement /risque optimal.
Introduction:
Lesoutils de laStatistique descriptive fournissent des résumés synthétiquesde séries
devaleursadaptées à leurtype (qualitatives ou quantitatives), et observées sur une population
ou un échantillon. Ce chapitrese propose de présenter quelques moyens permettant de résu-
mer les caractéristiques (tendance centrale, dispersion, boîte àmoustaches, histogramme, tests
statistiques) d’une variablestatistique ou les relations entre variables de même type quantita-
tif (coefficient de corrélation, nuage de points) ouqualitatif. De typesdifférents(rapport de
corrélation, diagrammes en boîtes parallèles). Les notions présentées sont illustrées sur un jeu
de données typique d’un creditscoring en marketingbancaire. C’estensuite larecherche de
prétraitementsdes donnéesafin de les rendre conformes aux techniques de modélisationou
d’apprentissage qu’il sera nécessaire de mettre enoeuvre afin d’atteindre lesobjectifsfixés:
•Codage en classe ou recodage de classes,
•Imputations ou non des données manquantes,
• Classification supervisée et premier choix de variables.
Dans le cas d’une seulevariable, Les notions les plus classiques sont cellesde médiane,
quantile, moyenne, fréquence, variance,écart-type définiesparallèlement àdes représentations
figures : diagrammeen bâton, histogramme, diagramme-boîte, figurescumulatifs, diagrammes
en colonnes,en barre ou en secteurs. Dans le cas de deux variables, ons’intéressera àla corré-
lation, aurapport decorrélation ou encore àla statistique d’un testdu khi deux associéà une
table de contingence. Ces notions sont associées à différentes figures commele nuage de points
(scatterplot), les diagrammes-boîtes parallèles.
Dans ce qui suit, nousprésentonsla méthodologiedecollecte desdonnées et nous nous
proposonssimplement de produire via certains outils moinsclassiques mais efficacesetprésents
dansla plupart des logiciels statistiques comme le logiciel R.Cela nous permettra également
d’illustrer les premières étapes exploratoires àréaliser sur notre jeu de données.
Remarque
Dans le tableau2.1, les variables FORJU, NACTI, SISO etY sont qualitatives et les 22
autres sont quantitatives. Il est à noter la variable Y= statut d’un client estla variable qualitative
binaire àprédire dont les modalités sont 0= « bon client ou client non risqué » et1 =« mauvais
client ou client risqué». Nous déclaronsunclient bonlorsqu’il aremboursé la totalité de son
emprunt à l’échéance fixée avec la banque, sinon il est considérécommemauvais client.
1
Etant donné qu’un crédit mis sur pied en 2007 ne pouvait pas encore être à son terme au moment de notre
étude, en effet la plupart des dossiers de créditavaitunedurée de remboursement supérieure à 12 mois.
– La forme juridique(FORJU)
Letableau2.2donne larépartitiondesdossiersdecréditenregistrés dansnotreétude suivant
la formejuridique des entreprises ayant initié ces dossiers. Le plus gros lot de dossiers (40,77
%) est issu desSARL. LesEts suiventavec 18,46% de ces dossiers, les SAoccupent 17,69%,
les particuliers avec un peuplus de 16,15% des dossiersdans chaque cas. Environ 6,92% des
dossiers proviennent des autres i.e des groupements et associations.
Cette répartition des dossiers de crédit suivant la forme juridique peut être expliquée par
des facteurstels que le nombre dedemandes exprimées, la qualité des projets présentés, ou le
passé des entreprises auprès de la banque. Nous associons au tableau2.2 un histogramme de la
variable FORJU.(Cf. figure 2.1)
Une riche gamme d’activités est couvertepar les entreprisesayant sollicitéavec succès le
concours dela First Bank.La liste des domaines d’activités principales des entreprisesdont les
dossiers de crédit sont validés est donnée dans le tableau2.3.
D’après la figure 2.3, On observe que la plus grande part dedossiers validésproviennent
des entreprises basées à Yaoundé (59,23%). Les dossiersprovenantdes entreprises implantées
à Douala, où la concentration des entreprises est la plus grande àl’échelle nationale n’est que
d’environ20%. Lesautresvilleset les zonesrurales camerounaisessont représentées à hauteur
de 8,46 %environ des avis de financement.
– Crédit octroyé(CREDIT)
La répartition des dossiers de crédit par montantde besoinexprimé du Tableau 2.4montre que
prèsdelamoitiédesemprunteursdelaFirstBank sont ceuxqui sesontvusaccordésuncrédit
dont le besoin est compris entre 50 millions et500 millions. Parcontre, peude clientsonteuun
avis favorableàleur demandedecréditlorsque lebesoindufinancementestélevé(supérieurà
900 millions). Laréticence delaFirst Bank à ce type decréditprovient peut-être du fait qu’elle
ne veut pas financer les projets à coût trop élevé à cause dugrand risque encouru pouvant
engendrer des pertes énormes pour la banque.Par ailleurs,ilestà remarqueraussique laFirst
Bank n’est pas intéressée par les clients dont la demande de crédit en besoin est faible (inférieur
à 15millions), uneraison pouvant expliquerce fait est quela banque estimele rendement de ce
type de projet négligeablepour sa prospérité au vu desefforts investiset du tempsconsacré par
les analystes pour l’étude d’undossier d’uncrédit. Le tableau 2.4 et la figure 2.4 illustrent ces
propos.
On contacte quela plupart des ratiosont des valeurs qui fluctuent autour de zéro et ils ont
une p-value résultant du test de Shapiro-Wilk inférieure au seuil 5% ; on rejette l’hypothèse
nulle(Ho) : le ratio suit uneloinormale, doncon conclutqu’au seuil 5%,les ratios financiers
denotrebase dedonnéesnesont pasdes variables gaussiennes.Les représentations figuresdes
fonctions de densité des ratios R1 et R5 contenues dans le figure 2.6confirment lesrésultats du
test précédent:
D’aprés le tableau 2.7, on constate que l’intervalle de THT qui est ]13,50 ;14,00] regorge
une forte concentration des dossiers de crédit.
– Liaison entre les variables de nosdonnées
Afin de vérifiers’ily a unéventuellien entre les différentes variables prisesen compte dans
2
notreétude, nous avons calculélecoefficientde corrélation. Lechoixde couple de variables
2
La matrice de variance-covariance de notre tableau nous permettait de voir les variables qui étaient liées.
aété guidé pardes présomptions de relation entre celles-ci qui nous sont apparues logique.
Ainsi, Le coefficient de corrélationlinéaireentrele tauxd’intérêt hors taxes et la durée de
remboursementdu créditvaut 0.13avecunIC 95%=[-0.0441833 ; 0.2946267]. On peut donc dire
quelacaractéristique« durée de remboursement du crédit » est faiblement corrélée au taux
d’intérêt, en sorte que les échéances de plus en plus courtes correspondent auxtaux d’intérêt
deplus en plusélevés.Cetterelation peutnousparaîtreplutôtsurprenante, étantentendu que
le tauxd’intérêt est traditionnellementunefonctioncroissante du temps :« lestauxd’intérêt
à longterme sont généralement, maispas toujours, supérieurs aux taux d’intérêt à court terme
».[13](Gregory N. Mankiw, 2003, P 70).
Un résultat similaires’établit aussi enutilisant lemontantducrédit accordéet letauxd’in-
térêt hors taxes (coefficient de corrélationr = - 0,011, IC 95%= [-0.1827414 ; 0.1615911]). Les
taux diminuent avec les montantsde financement élevés. Mais à la différence du résultat pré-
cédent,ce secondrésultatparaît plus vraisemblable.Les plusgros clients représentent parfois
une bonne opportunité de réemploi des ressources détenues par la banque, et ceux d’entre eux
jugés« bons » méritent dèslors unassouplissementdescontraintesdecrédit, notamment en
termes decoût definancement. A l’inverse, les clientssollicitant des concours decrédit assez
petits supportent des taux d’intérêt de plus enplus élevés. On est ici face à un «système de
rationnement du crédit » destiné à éviterlemécanisme d’ « antisélection», et depermettre à la
banque de garder ses «bons »clients. [15](Patrick Villieu, 2000, P56).
En considérant la corrélation positive entre le montant du crédit sollicité et l’échéance de
remboursement (coefficient de corrélation r= 0,27, IC95%= [0.1009225; 0.4211627]) d’une
part, et étant donné lesrésultats précédents, l’effet du montant des fonds prêtéssur le taux
d’intérêthorstaxes sembleplus probable. Une très forte corrélation entrelavariableEFFet
les variables CHDIet MASA, avec des coefficientsde corrélationrespectifs cor(EFF,CHDI)=
0.99 avec IC95%=[0.9819636 ; 0.9909637] et cor(EFF, MASA)=0.98 avec IC95% =[0.9750032;
0.9874546].Résultat prévisible àceniveau carles charges d’une entreprise dont la masse sala-
riale fait partie sont fonction de l’effectif dupersonnelde cette entreprise[ 13].
CONCLUSION:
Cetteétudeimportante permetdemettreen exerguelefait qu’il n’existepasuneméthode
unique permettant de traiter des données d’expression; la question "Quelle méthode dois je
utiliser pour traiter mes données d’expression ?" n’a pas de sens. Il apparaît ainsi que face à des
données d’expression, un statisticien seul, unanalyste de crédit seul ou uncomptable seul n’est
pas en mesure de proposer des méthodes pertinentes ; la solution réside dans la collaboration
des trois spécialités.
D EU X ME T HO DE S DE
D IS CR IM I N AT IO N PO UR LE
C RE DIT SCO RI NG
Introduction:
Grosso modo, le scoring consisteà affecter une note globale à un individu à partir denotes
partielles, calculées sur desvariables isolées ou eninteraction. Cettenote est utilisée essentiel-
lement pourclasser lesindividusparordre ascendantoudescendantafin d’ensélectionner une
partie pour une action marketing, par exemple lecredit scoring. La construction d’un scoring fait
appel à la modélisationprédictive, et l’on ne parle d’un scoring que lorsque la variable à prédire
n’a que deux modalités[ 12]. Côté technique, le scoring est basé sur des méthodes classiques
etquin’évoluent quetrès peud’un point de vue mathématique. En revanche, les possibilités
d’évolution setrouvent dans leur application pour réaliser des analysescomplexes. Etlà toutes
les possibilités ne sont pas encore explorées.
Dans ce chapitre, nous exposonsdeux approches mathématiques « classiques» du credit
scoringpour la modélisation durisque de crédità partir de l’étudedu conceptcentral de Data
Mining pour les modèlesparamétriques.Cependant, ilexiste plusieurs méthodes statistiques de
construction d’unscoring dont lesplus reconnues sont : l’analyse discriminante (linéaire, qua-
dratique de Fisher), la régression logistique discriminante, les arbresde classification, méthode
k-nn, les réseaux de neurones, les Séparateurs à Vaste Marge (SVM), etc.. .. ..
Dans le cadrede notre étude, notre modèle sera construit à base deux modèles paramétriques
àsavoirla régression logistiquediscriminanteet l’analyse discriminante (linéaire et/ou quadra-
tique) deFisher àcause deleur grande robustesse et leur facile interprétabilité. En effet, il sera
question pour nous dont le but est d’identifierlesclignotantsdurisque de créditpermettant de
prévoir lesdéfaillances, de construirepour chacune de cesméthodes un modèle et finalement
mettre encompétition lesdeux modèlespour en retenir celuiqui s’ajustera le mieuxdu point
de vu prédictif ànos données.
p
g: R −→{ 0;1 }
telle que l’erreur ε (g )= P(g(X) = Y) soitaussi petiteque possible.
Dans l’idéal, il faudrait chercher une fonction
g∗ : Rp −→{ 0;1 } vérifiant ε(g ∗ ) = min ε (g) .
g: Rp →{ 0;1}
Si une telle fonction g∗ existe, le prédicteur g∗ (X) serait le meilleur pour prédire Yà partir
de l’observation de X. [1]
ε (g )= P (g(X) =Y |X = x) dP X (x)
Ω
Ainsi g∗ rend minimum ε (g) parmi les fonctions g: Rp −→{ 0;1 } si et seulement si g∗
rend minimum ε(g |X =x 0) , ∀x 0 ∈ Rp , parmi les fonctions g: Rp −→{ 0;1 }
définition
1.un prédicteur g∗ (X) de Y qui vérifie
∗
ε(g |X =x 0) ∀g: Rp −→{ 0;1 }
= min ε(g |X =x 0 );
Vocabulaire
Pour j = 0;1 on a:
– Pj = P (Y = j) = probabilité à priori de la classe (Y=j) dans l’échantillon.
– P (Y =j |X =x 0 ) = probabilité à postéroiri de la classe (Y=j)pour un individu dans la
population.
– Vj (x 0 )= P (X =x 0 |Y= j) =probabilité que X=x 0 danslaclasse (Y=j). C’est aussi la
vraisemblance de la valeur Y=j lorsqu’on aobservé X=x 0.
Le théorème de Bayes nous permet d’écrire:
µ̂j = 1 x 0i ;
nj i∈J
où Jest l’ensemble des numéros d’observations qui sont dans le groupej et n j le nombre
d’observations dans le groupe j (ce qui est lecardinal deJ).
Pourles matrices devariance-covariance (méthode discriminante quadratique), elles sont
estimées par:
1 T
Σ̂ j = (x 0i − µ̂j ) (x 0i − µ̂j )
nj − 1 i∈J
µ̂j = 1 Xi
nj i∈J
– Discrimination linéaire
g
1 T
Σ̂= n (x 0i − µ̂j ) (x 0i − µ̂j )
j=1 i∈J
Dans le cadre de notre travail, Nous avons posé Y = 1ou Y =0 selon que X suit une
loi multinomiale N (µ 1;Σ 1 ) (de densité f X |Y =1 ) ou N (µ 0 ;Σ 0) (de densité f X |Y =0 ). Supposons
T
P (Y = 0)
1√
p
|Σ |
exp − 12 (x − µ0) Σ − 1 (x − µ0) .
(2π) 2
S(x) est appélée fonction discriminante de Bayes. C’est la fonction scoring de l’analyse dis-
criminante linéaire à 2 classes et s est le seuil. Ce seuil dépend des probabilités à priori de
(Y =1) et celle de (Y = 0) .
En général, ces probabilités sont inconnuesà priori.Si des études ontété ménéessur d’autres
données, il est alorspossiblede connaître ces 2 probabilités. Mais, en l’absencede connais-
sance,elles sont posées égalesà 12 chacune.La determination duseuilséparantlechoix (Y = 1)
du choix (Y = 0) est doncdélicat. Par ailleurs, le faitde ne plus considérer la probabilitéà
postériori,mais un scoring permet d’éviterlecalcul de f X (x) quiest une densité difficilement
calculable.
L’analyse discriminante linéaire est très répandue dans les logiciels de Statistique et d’ap-
prentissage et est très utilisée. Les raisons deson succès sontlessuivantes:
- elle offre souvent un très bon compromispertinence/complexité; autrement dit, elle permet
souvent de bien résoudrele dilemmebiais-variance. Elleest ainsisouvent supérieureà l’analyse
discriminante quadratique qui dépend d’un nombre notamment plus important de paramètres.
- dans le cadre del’analyse discriminante linéaire, la sélection devariables peut être réa-
lisée de manièrequasi optimale en utilisant une statistique F de Fisher[4]. En fait, lescritères
classiques de sélection de variables supposent de manière sous-jacente les hypothèsesgaus-
siennes de l’analyse discriminante gaussienne. Ainsi, dans une prédiction àdeux classes, on
peut montrerque,la probabilitéoptimale d’erreurs s’écrit Φ( − ∆/2) , Φ étant lafonction de ré-
partition d’une loi normale centrée réduite et ∆ représentant la distance de Mahalanobis entre
deux groupes:
2 T −1
∆ = ||µ1 − µ0||Σ − 1 =(µ 1 − µ0 ) Σ (µ 1 − µ0);
-l’analyse discriminante linéaire fournit des résultats stables (peu sujets aux fluctuations
d’échantillonnage) et robustes (i.e supportant biendes écarts assez importantsà ces hypothèses
de normalité des groupes et d’égalité des matrices variances).
P (Y =j |X =x 0 ) =1
j=1
Une fois déterminées (g − 1) probabilités, ladernièreest donc connue. Pour tenir compte
de cette contrainte, nous allonsdonc considérer un groupe témoin, par exemple le ge groupe,
ensuite, nous allons modéliser non pas P (Y =j |X =x 0) , mais le rapportde cette probabilitéà
(Y=j |X=x 0 )
la probabilité témoin P(Y=g |X=x 0 ) .
P
Ce rapport est toujours positif et il est compris entre 0et + ∞ . En passant au log, nous
obtenons une mesure qui sera dans R et que nous pouvons relier auxvariablesexplicatives
X 1, .......,X p via unefonction f . Cette fonction est choisiedans la classe la plus simple, à
savoir les fonctions linéaires. Et on écrit donc:
|
ln P(Y =j X =x 0 ) = f(x 0 ) =x T0 β j (3.2)
P(Y =g |X =x 0)
Ce type de modélisation est appelé analysediscriminante logistique multiclasse ou régres-
sion logistique multiclasse.
Cependant lecas le plus classique est le cas où il existeg =2 classes. Dans ce cas la notation
standard veut que Y = 0ou Y =1 et que l’on prenne comme référence le groupe Y =1 .Nous
ne traiterons par la suite que le cas binaire,cas quiest utilisé dansl’élaboration d’unscoring.
ou
T
logit( P(Y =1 |X =x 0 )) =x 0β
p
Son nom provientdu faitquela fonction p −→ ln 1− p estappelée fonctionlogit, qui estune
fonction dérivable bijective de ]0; 1[dans R.
Remarque
Nous pouvons aussi écrire P ( Y =j |X =x 0) dans le modèle multiclasse comme suit:
exp xT0 β j
P(Y =j |X =x 0 )= 1+
g Tβ
.
k=1 exp (x0 j )
Remarque
Il est possible de choisird’autres fonctions de lien bijectives. Les choixclassiques sontla
fonction probit(.) (Qui est l’inverse dela fonctionde répartitiond’une loi normale N (0; 1)).
Une généralisation de la méthode de régression logistique (ou régressionprobit) est appelée
GLM (generalized linear model). Cetteméthode revient à choisir uneloiparmiun ensemble
restreint de loi (les loisexponentielles GLM), puis une fonction de lien ϕ (.) parmi un ensemble
réduit de fonctions bijectives dérivables.Ensuitenous avons ϕ( E(Y |X =x 0)) =x T0 β .
i=1
n
L (y , β )= T T
yi xi β − ln 1 + exp(xi β)
i=1
1
déduit que P (Y =0 |X =x 0)= .
1+exp ( x 0 β )
T
IC α (β j )= β̂ j − U1− α2 √1 σ βˆj ; β̂ j +U 1−
α √1 σ βˆj
n 2
n
Où U1− α2 représentele quantiledeniveau 1−
α
2
de la loi normale N (0; 1), σ β2ˆj est égalà
−1 −1
2L
− I( β̂) et I( β̂) est l’élément (j , j) de l’inverse de la matrice de Fisher E ∂∂β 2 .
jj jj
La validitéde ces intervalles est toute relative puisqu’il s’agit d’une approximation valable
asymptotiquement et dont la variance danslecas de l’approximation normale, doit être évaluée
àla vraie valeur du paramètre inconnu.
Il est toujours possible de compléter cette étude par boostrap afin d’obtenir d’autres inter-
vallesde confiance dans le cas où ceux-ci sont particulièrementimportants .Cela dit, en pratique,
on se contente de l’intervalle de confiance bâti grâce àla matrice d’informationde Fisher.
D=2 ( L satur − L (β )) ≥ 0
i=1
La déviance est égale à2 fois une différence de vraisemblance .Elle constitue un écart
en terme de log-vraisemblance entre le modèle saturé d’ajustement maximum et le modèle
considéré:
Ici, nous allons comparer lemodèle saturé au modèle considéré au moyen de ladéviance.
Nous savonsque si la déviance est grande, alors le modèle considéré est loin du modèle saturé
et donc il n’est pas très adéquat. Par contre si la déviance est prochede 0, le modèle considéré
sera adéquat. Pourquantifier cette notion de “proche de 0” et de “grande déviance”, la loi de la
déviance sous H 0 (lemodèleconsidéréestlevrai modèle) vanousêtreutile.Eneffet H 0 si est
+
vraie, le modèle considéré est vrai par définition. La déviance serarépartie sur R , mais avec
plus dechance d’être prochede 0. Par contre si H 0 n’est pasvraie la déviancesera répartiesur
+
R mais avec plus de chance d’être éloignée de 0. Nous nous accordons α %de chancedese
tromper sous H 0 donc si, l’on connaîtla loi de D sous H 0 alorsen prenant le quantilede niveau
1 − α nousexcluons les α % d’erreur tout en excluantles déviances les plus grandes, ie les cas
qui se présenteront vraisemblablement si H 0 n’estpas vraie.
La déviance est en fait le test de rapport de vraisemblance et sous des hypothèses techniques
([8]Schervish, 1995, p. 459), D suit donc une loi du χ 2(n − p) degrés deliberté, où pest le
nombre de paramètres du modèle et n le nombred’observations. Letest se déroulealors de la
manière classique:
1.Les hypothèses sont fixées
-H 0 le modèle considéré àp paramètre estadéquat
-H 1 le modèle considéré àp paramètresn’estpas adéquat
2.α est choisi(engénéral5%)
3.L’observation de D est calculée, notons la D obs
4.Calcul du quantile de niveau (1 − α) de la loi du χ 2 (n − p), noté q1− α (n − p) .
-Si D q1− α (n − p) alors H 0 estrepoussé auprofitde H 1, le modèle considéré n’est pas
adéquat.
-Si D obs ≤ q1− α (n − p) alors H 0 estconservé,lemodèleconsidéré est adéquat.
Remarques
Lavalidité de laloi etdonc dutest n’est qu’asymptotique,ilest donc nécessaire d’avoirun peu
de recul quant aux conclusions.
Lorsqueles donnéessont binaireset qu’aucune répétition n’est présenteau point X i =x i ,∀i,
K 2
(ok − m k µ¯k ) ,
∗
2
C =
m ∗k µ¯k (1 − µ¯k )
k=1
où m ∗k
estl’effectifdugroupe k.
Le test seconduit de manièreidentiqueau testde déviance, lastatistique C 2 suivant approxi-
mativement un χ 2 à K − 1 degrés de liberté. Cette approximation ayant étévalidée uniquement
par simulation[4](Collett,2003, p.88), il semble doncimportant de nepas appliquer tropstric-
tement la procédure de test, mais plutôt delaconsidérer comme uneindication.
Critère de choix de modèles
L’objet de cescritères de choix est de comparer des modèles entre eux et qui nesont pas
forcément emboîtés les uns dans les autres.
Par définition l’AIC (Akaike InformativeCriterion) pourun modèle àp paramètres est
AI C= − 2L + 2p.
Laphilosophie est simple :plus la vraisemblance est grande, plusgrande est donc la log-
vraisemblance L et meilleur est le modèle. Cependant si l’on met le nombre maximum de
paramètres (cequi est le modèle saturé) alors L sera maximum. Il suffit donc de rajouter des
paramètres pourla faireaugmenter.Pourobtenir unmodèledetaille raisonnable ilsera donc
bon de la pénaliser par une fonction du nombre de paramètre, ici 2p. Un autre critère de choix
de modèlele BIC (Bayesian Informative Criterion) pour un modèleà p paramètres estimé sur n
observations est défini par:
BI C= − 2L + p l og (n).
L’utilisation de ces critères est simple. Pour chaquemodèle concurrent le critère de choix
de modèle est calculé et le modèle qui présenteleplus faible est sélectionné.
Remarquonsque certains logiciels utilisent −AICet −BIC, il est doncprudentde bienvé-
rifier dans quel sens doivent être optimisés ces critères (maximisation ou minimisation). Ceci
peut être fait aisément en comparantun modèle très mauvais (sans variable explicative) à un
bon modèle (à une variable) et de vérifierdans quel sensvarieles critères dechoix.
F IG . 3.2 – Procédured’apprentissage/validation
Le modèle optimal k choisi est celui qui conduit au MC minimum (ou au critère choisi
minimum). Cette procédure semble la plus indiquéemais elle nécessite beaucoup de données
puisqu’ilen fautsuffisammentpour estimer lemodèleet pastroppénaliser les modèlesavec
beaucoup de variables dontles coefficients seront moins bien estimés, mais il faut aussi beau-
coupd’observations dans le jeude validation (y v ,X v ) pourbien évaluer la capacité de prévision
dansde nombreuxcas defigure. Deplus, commentdiviser le nombre d’observations dans le jeu
d’apprentissage par rapport au jeu de validation ? Là encore aucune règle n’existe mais l’on
mentionne souvent la règle 3/4 dans l’apprentissage et 1/4 dans la validation. De plus, il faut
pouvoir calculer le MCsur chacun des modèles concurrents cequi danscertains cas est impos-
sible, lorsque le nombre de variables possibles pest grand.
Validation croisée
Lorsque l’on n’a pas assez de données pourl’apprentissage/validation,la validation croisée
estutiliséepourévaluerle tauxd’erreur. La validation croisée, danssa versionla plus classique,
connue sous le nom de leave-one-out, procède comme décrit ci-dessous.
Pour i= 1, ... ,n on construit la règle de décisionsur la base de l’échantillond’apprentissage
privé de son i e élémenteton affectecedernierà l’undes groupessuivantcetterègle. Letaux
d’erreur estimé est alors la fréquence depoints demal classés de la sorte. L’estimation du
taux d’erreur ainsi obtenue est pratiquement sans biais. Mais la variance de l’estimation est
d’autant plusimportanteque nestgrandpuisque,dans cecas, les différentesrèglesdedécision
construitesà partir den-2observations communesauront tendance à se ressembler. De plus,
cette procédure est également assez coûteuse même si, du fait qu’à chaque étape l’échantillon
soit amputé d’une seule observation, il est en général possible de recalculer la règle de décision.
Aussi, on peut lui préférer la procédure suivante. On divise l’échantillon aléatoirement en
L parties (approximativement) égales. Pour l=1,...,L, on construit la règle de décision sur la
base de cet échantillonprivédesa l eme partie,ensuitepour cette l eme partiedonnée, onutilise
la procédure d’apprentissage/validation, la l eme partie étant le jeu de validation et les autres
observations formant le jeu d’apprentissage. Si L=n, on rétombesur la procédure standard de
leave-one-out.Onévaluela qualitédumodèle parun critère, le nombre demalclassés MC par
exemple, donnant ainsi MC (j) l etensuite onitèrele procédésurtoutes lesparties l variant de
1à L. Le critère final àminimiser est alors
L
MC CV (j )= M C (j) l ,
l=1
On en déduit une estimation de l’erreurde prédiction pourle modèle j :
1 MC
ε̂(j )= CV (j)
L
et le modèle k retenu estcelui qui conduit auminimum sur { MC CV (j) } ,donc sur ε̂(j) .
Bien entendu le choix du nombre L parties n’est pas anodin. Plus le nombre L est faible, plus la
capacité de prévision seraévaluée dans de nombreux cas puisque le nombre d’observations dans
la validation sera élevé, maismoins l’estimation sera précise. Au contraire, un L élevéconduit
à peu d’observations danslavalidation et doncà uneplus grande variancedansles nombres de
mal classés.
F IG . 4.2– Densité de S(X) sachant Y=0 et Y=1(traits pleins)et leurs estimations (traits pointil-
lés). Le premier dessinfigure un cas oùdes erreurs risquentd’apparaître. Lesaires colorées
correspondent au choix d’un seuil de s=450 et auxerreurs α et β .
Plus ces erreurs sont faibles, meilleur est le scoring(Cf figure 4.2)
Dans le cas de notre étude, l’erreur α est ici nepas prendre un nouveau client (prévoir1)
alors qu’il ne serait jamais à découvert (Y=0)et l’erreur β serade prendre unnouveauclient
alors qu’il sera àdecouvert.
La présentation sous forme de densité permet de montrer lesdispersions potentielles des
scoringssous les 2 hypothèses. Cependant il est difficile de voirl’influence d’un changement
de seuil.
Ce typede courbe esttrès facile à lire mais ne dépend pas de la probabilité des Y = 0et
desY =1. Pour les faire intervenir, les praticiens utilisent les courbes de performance ou les
courbes de sélection.
Remarques
-Si le score est fantaisiste, alors la courbe peut remonterau dessusde la droite y = 1.
En effet, si dans tous les scores élevés, au lieu de regrouper lesindividus {Y = 1}, on ne re-
groupe que des {Y =0}, cequi constitue un scoretoutàfaitfantaisiste, alors la probabilité
P (Y =1 |S(X) ≤ s)va diminuer avec s. Ce cas est bien sûr un cas “limite” que l’on ne souhaite
pas voir.
- Si le score est simplement indépendantdeY, ie que l’on cherche àdiscriminer Ymais
aucune variable n’explique Y, alors nous avons P (Y =1 |S(X) ≤ s)=P (Y = 1) et nous avons
alors que le scoring est la droite y= 1.(Cf. figure 4.4)
4.2 Estimations
Nous n’avons jamaisles scores vrais mais des estimations quenousnoterons Ŝ (.). De
même nous ne pouvons avoir la densité de Ŝ (.) sachant Y =0 ou de Ŝ (.) sachant Y =1, mais
nouspouvons l’estimerparun estimateur à noyau ouun histogramme. Enfinles probabilités
≤
P (S(X) s) sont simplement estimées par des pourcentages.
1. La première étape est d’ordonner les observations selon les valeurs du scoring:
Nk
P (S(X) ≤ sk+1 ) ≈ n
| ≤ N1k
P (Y =1 S(X) sk+1 ) ≈ Nk
≤ | N1k n N k
P (S(X) s Y =1) ≈ Nk n 1 n
6.Enfin un type de courbe est choisi eton représentealors Kpoints (x (sk ), y(s k )),
k ∈{ 1, ...,K } et on ajoute le point (1 ;1) (Cf. figure 4.7)
Remarques
- Plus nous avons de pointsdans la grille dedécoupage (ie plus K est grand) plus nous
aurons de points dans la représentationfinaleet plus elleaura l’aspect d’unecourbe.
- Plusnous avons de points dans un intervalle]s k ,s k +1 ] plus les estimations des probabilités
seront précises.
-Comme nous utilisons les Yi pour construire l’estimation du score Ŝ() etpour estimer les
probabilités, nous n’avonsque descourbes “optimistes”, c’est le problème del’ajustement qui
est toujours meilleur que la prévision...
N1k
∗
| ≤
P (Y =1 S(X) sk+1 )= N∗
k
N1k n Nk
∗ ∗ ∗
M O DE L IS AT ION
Introduction :
Dans ce chapitre, on s’intéresseau thème de la modélisation du creditscoring par un traite-
mentdenosdonnées enappliquant lesméthodesparamétriquesexposéesau chapitre 3.Compte
tenu de la variété des outils pouvant être mis en jeu, nousavons faitle choixd’insistersur la
pratique desméthodes considéréesainsique sur lacompréhensiondes sorties proposées par le
logiciel R1 . R comme la plupart des logiciels en Statistique supposent implicitement les hy-
pothèse de normalité, les distributions des estimateurs et donc lesstatistiques detest comme
valides[5](Data Mining 1, p 67 ). Plus rigoureusement, ces résultats sont justifiés par les pro-
priétés des distributions asymptotiques des estimateurs, propriétés quine sont pas développées
dans ce mémoire. Nous allons estimer unefonctionde scoring par régressionlogistiquepuis
par discrimination linéaire. Nous appliquerons la validationcroisée pour estimer l’erreur de
prédiction.
Warning: Recodage des variables qualitatives.
Le cas oùles variables explicatives sont qualitatives ont nécessité un traitementparticulier.
En effet comment faire une combinaison linéaire de variables qualitatives et quantitatives ? Cela
n’a pas évidemment pas de sens. La solution retenue est basée sur ce qu’on appellela forme
disjonctive d’une variable Xà m modalités [12]. On définit les m variables indicatrices des
modalités(11,1 2, ...,1 m ) telles que 1j vaut 1 sion appartient à lamodalitéj,0 sinon.Seuleune
des indicatrices vaut 1, celle qui correspondà la modalité prise. Les m indicatrices sont donc
équivalentes à la variable qualitative. Au cas où l’une de ces variables figurerait dans le scoring,
celui-ci serait alors une combinaison des indicatrices.Les variablesexplicatives qualitativesqui
interviennent dans le scoring sont doncles indicatrices de variables qualitatives. Cependant,
une difficulté intervient :la matrice Σ n’est pas de plein rang et n’est donc pasinversible car la
sommedes indicatrices des modalités dechaquevariable vaut1. Celasignifie qu’ilexiste une
infinitéde solutions équivalentespour estimer les coefficients : une des solutions couramment
utilisée consiste alors à ne prendre quem-1 indicatrices pourchaque variable qualitative puisque
la dernière est redondante.
Ainsi pourles 130 individus de notre échantillon, on obtientune suitede 130 nombres réels
inférieurs entre 0 et 100. Ensuite, onles ordonne par valeurs croissantes du scoring. Puis un
2
Dans R, cela sefait en utilisant la fonction predict
La figure 5.1 montre que les deux derniers graphiques touchent l’axe des abcisses au point(0.2 ;0),
ce qui concorde bien avec les résultatas obtenusdans le tableau 5.3ieen deçadelaprobablité
0.2 aucun mauvais client n’est trouvé, ce qui correspond à un seuil de 80.3.
Si la politique dela banque consiste à ne pasprendre de risque, ce seuil est celui à sélec-
tionner. Le seuil“pas de mauvais client”est 80.3 car la fin de la seconde classecorrespond à une
probabilité P(S s0) ≈ 0.2 .
3
Voir en ANNEXE pour les commandes du logiciel R qui fournissent les résultats de cet algorithme.
Le tableau 3.5 montre qu’en observant les intervalles de confiance 4 , les variables qu’on
peut retenir sont : EFF, DUREMB, AGE, EXP,CHDI, R2 et l’intercept. Lescoring pour la
discrimination linéaire est:
−
Ŝ (X) =2,175276EFF - 1,641947DUREMB - 0,2934967AGE - 0,8431434EXP +(-1,041.10 9)CHDI
−2
-1,075136R2 +1,367.10 .
4
Les intrevalles de confiance qui contiennent 0 sont non significatifs pour les coefficients correspondants.
La transformation
scor ing = (scor ing − min (scoring )) ∗ 100/ (max (scoring) − min(scor ing )))
1 µT − 1 µ − 1 µ T − 1 µ
s = log( P (Y = 1)) − log( P (Y = 0))+ 1Σ 1 0Σ 0
2 2
obtenu ci-dessus nous donne s =0,4125833.
## Proba (S()<s)
px.v= cumsum(table.score)/sum(table.score)
## Proba( S()>s)
px2.v = rev( cumsum(rev(table.score))/sum(table.score))
## Proba (Y=1 |S()<s)
py.v =cumsum(table.y.[2,])/cumsum(apply(table.y,2,sum))
## Proba (Y=0 |S()>s)
py2.v =rev(cumsum(rev(table.y[1,]))/cumsum(rev(apply(table.y,2,sum))))
## Proba (Y=0)
p0.v = table(y.ordonne)[1]/sum(table(y.ordonne))
## Proba (Y=1)
p1.v = table(y.ordonne)[2]/sum(table(y.ordonne))
### construction des courbes ROC, de sélection et de performance
par(mfrow=c(1,3))
### courbe ROC
plot(c(0,py.v/p1.v*px.v),1-c(py2.v*px2.v/p0.v,0),type="b",xlab=expression(beta), ylab=expression(1-
alpha),col="red")
segments(0,0,1,1)
#### courbe de sélection
plot(c(0,px.v),c(0,py.v/p1.v),type="l",xlab="P(S(x)<s)", ylab="P(Y=1|S(x)<s)/P(Y=1)", xlim=c(0,1),ylim
segments(c(0,0),c(0,1),c(0,1),c(1,1))
#### courbe de performance
plot(c(0,px.v),c(0,py.v/p1.v*px.v),type="l",xlab="P(S(x)<s)", ylab="P(S(x)>s|Y=1)/P(Y=1)”,
xlim=c(0,1),ylim=c(0,1),col="red")
segments(0,0,1,1)
[7]Duffie (D.), Singleton (K. J.). Credit Risk. Princeton University Press (2003)
[18] www.microfinance.com
4.1.3 Courbedeperformance. . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.1.4 Courbedesélection. . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.1 Qualité d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.2 Qualité de prévision . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 MODELISATION 56
5.1 Régressionlogistique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2 Analyse discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60