RC Clase 02
RC Clase 02
RC Clase 02
3
SCORE DE ADMISIÓN
El scoring de admisión permite determinar en el momento de la solicitud cuál es el nivel de riesgo
asociado a cada solicitud de financiación antes de la aceptación efectiva de la misma.
El score o puntuación de aceptación requiere dos tipos de información: la relativa al momento de
la solicitud y la relativa al resultado positivo o negativo de la financiación.
4
SCORE DE ADMISIÓN
Incluir el scoring como elemento de la toma de decisiones permite poner en práctica distintas
estrategias de admisión, como por ejemplo:
Mantener sin cambios el índice de rechazo (mismo volumen de solicitudes aceptadas) reduciendo la incidencia
de la morosidad
Mantener el mismo volumen de clientes “No en Default ” aumentando el índice de rechazo; esta estrategia
puede definirse como “conservadora”, e implica una significativa reducción de la morosidad y una disminución
del volumen de expedientes aceptados
Mantener el mismo volumen de clientes “en Default” reduciendo el índice de rechazo; con esta estrategia
“agresiva” se obtiene un aumento del número de expedientes aceptados manteniendo sin cambios la incidencia
de las insolvencias
Mantener constante la relación entre “No en Default ” y clientes “en Default” reduciendo el índice de rechazo;
con esta estrategia se obtiene un considerable aumento del volumen de expedientes aceptados, manteniendo
constante la calidad de la cartera al nivel inicial.
5
SCORE DE COMPORTAMIENTO
El credit scoring tiene aplicación también en el
ámbito de la gestión en base al
comportamiento, para evaluar el modo de
actuar de los clientes a los que ya se ha
concedido una financiación o un crédito.
El scoring de comportamiento utiliza
información disponible en el período posterior
a la admisión de la solicitud de crédito, y se
calcula sólo para todos los clientes de la
institución financiera.
6
SCORE DE COMPORTAMIENTO
Incluir el scoring como elemento de la toma de decisiones permite introducir distintas estrategias de
gestión de los clientes, como por ejemplo:
7
VENTAJAS DEL CREDIT SCORING
Los modelos de credit scoring se han implementado desde hace unos 60 años, siendo su objetivo el
predecir los potenciales patrones medios de pago de los clientes (default), permitiendo de esta manera
conseguir las siguientes ventajas:
Resuelven problemas como la relación entre variables, el potencial discriminante de las variables y la
relación entre niveles de riesgo
Discriminación de clientes buenos y malos (reducción de subjetividad)
Eficiencia de costos (reducción en los tiempos de respuesta)
Pricing de las operaciones acorde al riesgo asumido
Pequeñas reducciones en el riesgo de la cartera (con importante suma de capital) significan enormes
incrementos en la rentabilidad del negocio.
8
TÉCNICAS PARA CONSTRUCCIÓN DE CREDIT
SCORING
Entre las técnicas basadas en datos, existen dos enfoques para la modelación y construcción de modelos
analíticos de Credit Scoring:
1. Estadísticas
2. Minería de Datos
9
TÉCNICAS ESTADÍSTICAS PARA CONSTRUCCIÓN
DE CREDIT SCORING
Análisis discriminante al igual que varias técnicas estadísticas, tiene una serie supuestos estadísticos
que deben ser cumplidos a cabalidad para que el modelo construido tenga cierta validez, supuestos
que rara vez en los problemas reales se cumplen. Entre estos supuestos se puede mencionar que no
se permite trabajar directamente con variables categóricas (por ejemplo: rubro, estado civil,
separación de bienes, etc.) las cuales son comúnmente utilizadas en problemáticas de Credit Scoring.
Además, esa técnica exige normalidad en las variables, lo que tampoco se tiene necesariamente en
la práctica.
Regresión Logística es la técnica más utilizada, con esta técnica es posible incorporar tanto
variables categóricas como variables continuas. Además, al construir este tipo de modelos es posible
obtener el grado de importancia relativa de cada una de las variables de entrada y poder
cuantificar su efecto, en términos de explicabilidad y relevancia respecto de la variable objetivo del
estudio.
10
MINERÍA DE DATOS PARA CONSTRUCCIÓN DE
CREDIT SCORING
Estas técnicas tienen la ventaja de no
tener demasiados requerimientos y
supuestos para las variables de entrada,
aumentando su validez. Entre las técnicas
más utilizadas están:
Árboles de decisión
11
MINERÍA DE DATOS PARA CONSTRUCCIÓN DE
CREDIT SCORING
Estas técnicas tienen la ventaja de no
tener demasiados requerimientos y
supuestos para las variables de entrada,
aumentando su validez. Entre las técnicas
más utilizadas están:
Árboles de decisión
Support vector machines
12
MINERÍA DE DATOS PARA CONSTRUCCIÓN DE
CREDIT SCORING
Estas técnicas tienen la ventaja de no
tener demasiados requerimientos y
supuestos para las variables de entrada,
aumentando su validez. Entre las técnicas
más utilizadas están:
Árboles de decisión
Support vector machines
13
MINERÍA DE DATOS PARA CONSTRUCCIÓN DE
CREDIT SCORING
Estas técnicas tienen la ventaja de no
tener demasiados requerimientos y
supuestos para las variables de entrada,
aumentando su validez. Entre las técnicas
más utilizadas están:
Árboles de decisión
Support vector machines
Redes neuronales
14
MINERÍA DE DATOS PARA CONSTRUCCIÓN DE
CREDIT SCORING
Estas técnicas tienen la ventaja de no
tener demasiados requerimientos y
supuestos para las variables de entrada,
aumentando su validez. Entre las técnicas
más utilizadas están:
Árboles de decisión
Support vector machines
Redes neuronales
Machine learning
15
COMPARACIÓN DE MODELOS CREDIT SCORING
16
EVALUACIÓN DE MODELOS CREDIT SCORING
Existen diferentes indicadores para
evaluar y comparar la capacidad
predictiva de los modelos scorecard.
Curva ROC
17
EVALUACIÓN DE MODELOS CREDIT SCORING
Existen diferentes indicadores para
evaluar y comparar la capacidad
predictiva de los modelos scorecard.
Curva ROC
KS
18
EVALUACIÓN DE MODELOS CREDIT SCORING
Existen diferentes indicadores para
evaluar y comparar la capacidad
predictiva de los modelos scorecard.
Curva ROC
KS
Gini
Curva ROC
KS
Gini
Matriz de confusión
20
EVALUACIÓN DE MODELOS CREDIT SCORING
Existen diferentes indicadores para
evaluar y comparar la capacidad
predictiva de los modelos scorecard.
Curva ROC
KS
Gini
Matriz de confusión
21
EVALUACIÓN DE MODELOS CREDIT SCORING
Existen diferentes indicadores para
evaluar y comparar la capacidad
predictiva de los modelos scorecard.
Curva ROC
KS
Gini
Matriz de confusión
Curva Lift
22
SELECCIÓN DE PUNTO DE CORTE DEL SCORE
En un scoring de admisión, la selección
del punto de corte es usada para definir
el valor óptimo del score para separar
aplicantes aceptados y rechazados.
23
APLICACION
24
APLICACIÓN A DATA HMDA BOSTON
• Los créditos hipotecarios es un vehículo importante para la compra de una casa.
• ¿Existe diferencia por tipo de raza para el acceso a créditos hipotecarios?
• Si dos individuos idénticos, uno blanco y otro negro aplican a un crédito
hipotecario, ¿existe diferencias en la probabilidad de denegar el crédito?
25
DATOS DEL HMDA
• Datos de características del individuo
• Datos de características de propiedad
• Se incluyen créditos aprobados y denegados
• El proceso de aplicación de los créditos fue entre los años 1990 – 1991
26
DECISIÓN DEL CRÉDITO
• El oficial de crédito usa variables claves:
o Ratio pago de deuda entre ingreso mensual (P/I)
o Ratio de cobertura del crédito (Loan-to-value)
o Historial crediticio
27
VARIABLES
28
VARIABLES
29
ESPECIFICACIONES DE REGRESIÓN
• Los siguientes modelos son útiles cuando la variable dependiente es
categórica:
o Modelo lineal de probabilidad
o Probit
o Logit
30
MODELO LINEAL DE PROBABILIDAD
Probabilidades deben estar entre 0 y 1
El problema con el modelo lineal de probabilidad es que los modelos de
probabilidad de Y = 1 siguen siendo lineales:
Pr 𝑌 = 1 𝑋 = 𝛽0 + 𝛽1 𝑋
• Pr 𝑌 = 1 𝑋 se incrementa en X cuando 𝛽1 > 0, y
• 0 ≤ Pr 𝑌 = 1 𝑋 ≤ 1 para todo X
Se requiere usar una función no lineal para la probabilidad. Similar a una
curva “S”.
31
MODELO PROBIT
32
MODELO PROBIT
La regresión Probit modela la probabilidad que Y=1 usando la función de
distribución normal estándar acumulada, Φ 𝑧 evaluada en z = 𝛽0 + 𝛽1 𝑋.
El modelo de regresión Probit es,
Pr 𝑌 = 1 𝑋 = Φ(𝛽0 + 𝛽1 𝑋)
Donde Φ es la función de distribución normal estándar acumulada y
z = 𝛽0 + 𝛽1 𝑋 es el “z-value” o “z-index” del modelo probit.
33
Pr 𝑧 <= −0.8 = 0.2119
34
REGRESIÓN PROBIT
¿Por qué se usa la distribución normal estándar acumulada?
La forma “S” nos proporciona
• Pr 𝑌 = 1 𝑋 se incrementa en X cuando 𝛽1 > 0, y
• 0 ≤ Pr 𝑌 = 1 𝑋 ≤ 1 para todo X
Es fácil de usar, las probabilidades son tabuladas según la tabla normal acumulada
(su cálculo es fácil en un software para regresión)
Interpretación sencilla:
• 𝛽0 + 𝛽1 𝑋 = “z-value”
• 𝛽0 + 𝛽1 𝑋 es el valor predicho del “z-value”, dado X
• 𝛽1 es el cambio en el z-score cuando cambia en una unidad X
35
STATA
36
STATA – EJEMPLO DATA HMDA
37
REGRESIÓN PROBIT CON MÚLTIPLES REGRESORES
Pr 𝑌 = 1 𝑋1 , 𝑋2 = Φ(𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 )
38
AÑADIENDO VARIABLE “BLACK”
39
DATA HMDA CON VARIABLE “BLACK”
40
MODELO LOGIT
La regresión Probit modela la probabilidad que Y=1 usando la función de
distribución logística estándar acumulada, 𝐹 𝑧 evaluada en z = 𝛽0 + 𝛽1 𝑋.
El modelo de regresión Probit es,
Pr 𝑌 = 1 𝑋 = 𝐹(𝛽0 + 𝛽1 𝑋)
Donde 𝐹 es la función de distribución logística estándar acumulada:
1
𝐹 𝛽0 + 𝛽1 𝑋 =
1 + 𝑒 −(𝛽0 +𝛽1 𝑋)
Dado que los modelos logit y probit usando funciones de probabilidad diferentes, los
coeficientes (β’s) son diferentes en el logit y probit
41
MODELO LOGIT
42
MODELO LOGIT
¿Por qué complicarse con logit si tenemos probit?
• La principal razón es histórica: logit es computacionalmente más rápido y
más fácil, pero eso no importa hoy en día.
• En la práctica, logit y probit son muy similares - ya que los resultados
empíricos típicamente no dependen de la elección logit/probit, ambos
tienden a ser utilizado en la práctica. Sin embargo, hay que tener en cuenta
que en algunos casos (p.e. cuando regresores en su mayoria son variables
categóricas) la regresión logit es mejor.
43
LOGIT STATA
44
LOGIT Y PROBIT: DIFERENCIA
45
ESTIMACIÓN E INFERENCIA EN LOS MODELOS
Nos enfocaremos en el modelo probit
Pr 𝑌 = 1 𝑋 = Φ(𝛽0 + 𝛽1 𝑋)
1. Estimación e inferencia
o ¿Como podemos estimar 𝛽0 𝑦 𝛽1 ?
o ¿Cuál es la distribución muestral de los estimadores?
o ¿Por qué no podemos usar los métodos comunes de inferencia?
46
INTRODUCCIÓN (I)
– Método
TÉCNICA DE ANALISIS DE GRUPOS – Variables explicativas
– Resultado
ANÁLISIS DE REGRESIÓN
Y = f (X1, X2, …, XK)
47
INTRODUCCIÓN (II)
Regresión tradicional Regresión logística
ENDOGENA vs. X1
10 1.5
8
1.0
ENDOGENA
ENDOGENA
6
0.5
NUBE DE PUNTOS A AJUSTAR 4
0.0
2
0 -0.5
0 2 4 6 8 10 0 10 20 30 40 50 60
X1 XI
s2
X i 1
Yi (2 )1/ 2
e 2
ds ui
0,5
Logit
Modelo Logit
Probit
0 X
1 e k ki
Yi k X k i
ui k X k i
ui
1 e 1 e
49
TIPOLOGÍA DE MODELOS LOGIT(I)
Respuesta binaria: LOGIT DICOTÓMICO
(0, 1)
LOGIT
Datos no ordenados:
LOGIT MULTINOMIAL
Respuesta múltiple
(1, 2, …, J) Datos ordenados:
LOGIT ORDINAL
50
TIPOLOGÍA DE MODELOS LOGIT(II)
LOGIT DICOTÓMICO
Características:
Se modeliza una ecuación cuyo resultado se interpreta como probabilidad de pertenencia al
grupo codificado como 1.
Expresión general del modelo:
k X k i
1 e
Pr ob(Yi 1) ( k X k i )
k X ki
1 e 1 e
Ejemplo:
Para el caso de dos variables explicativas
1 X 1i 2 X 2 i
1 e
Pr ob(Yi 1) 1 X 1i 2 X 2 i
1 e 1 e 1 X 1i 2 X 2 i 51
ETAPAS PARA CONSTRUIR UN MODELO LOGIT(I)
Predicción
UTILIZACIÓN
Interpretación de los parámetros 52
ESTIMACIÓN
Método de máxima verosimilitud
e X i e X i
log L Yi ln X i
(1 Yi ) ln 1
1 e 1 e X i
0,25
Acepto H0 si:
t n / k2
0,20
0,15
0,05
0,00
Niv. sig. >
/2 /2
tnk tnk
1
11
13
15
17
19
CONJUNTA
log L(completo)
1. Pseudo R2 = 1
log L(reducido)
2. Razón de Verosimilitud = X2 = 2 log L(reducido ) 2 log L(completo)
54
3. Porcentaje de aciertos: a través de un punto de corte
UTILIZACIÓN
1
PREDICCIÓN Yˆi ˆ ˆ k X k i
1 e
Signo
INTERPRETACIÓN DEL PARÁMETRO:
Cuantía
Yˆi
Ratio odds: e xi
1 Yˆi
Yˆi
Razón entre odds: 1 Yˆi e xi Caso especial:
x j Obs j con x=x e x x e
ˆ
Yj e Obs i con x=x+1
1 Yˆj
Esta medida se utiliza para comparar cada atributo de cada variable predictiva,
ya que no considera las unidades en las que fue medida cada variable.
56
VALOR DE LA INFORMACIÓN (IV)
Este indicador es una medida relativa que indica que tan discriminante es cada
atributo y cada variable predictiva. Su cálculo se basa en el indicador WOE.
Un valor más alto de IV, indica que la variable tiene más poder discriminante.
57
ANÁLISIS POR VARIABLE
Antigüedad Laboral Debe ordenar Deben ser diferentes (p.e. doble)
58
REGRESIÓN LOGÍSTICA USANDO WOES
Ecuación a estimar
1
𝑃𝑟𝑜𝑏 𝑌 = 𝑀𝑎𝑙𝑜 =
1 + 𝑒 −(𝛽0+𝛽1 𝑊𝑂𝐸𝑉𝑎𝑟1+𝛽2 𝑊𝑂𝐸𝑉𝑎𝑟2+⋯+𝛽𝑛 𝑊𝑂𝐸𝑉𝑎𝑟𝑁)
59
REGRESIÓN LOGÍSTICA
Se deben especificar las variables (dependiente e independientes),
alternativamente se puede aplicar el modelo para un grupo de datos
definidos por una regla sobre alguna variable seleccionada que no se esté
utilizando para la estimación del modelo.
60
CONSTRUCCIÓN DEL SCORECARD
Es usual que la PD estimada por la regresión logística sea el score de un modelo de scoring, sin
embargo también resulta útil convertir la PD en una escala de puntuación asociada a unos “odds”.
Para estimar el scorecard se puede emplear el siguiente algoritmo:
Un deudor que recibe 600 puntos es 50 veces más probable que sea bueno a que sea malo y cada
vez que se dobla esta proporción en los odds, se incrementa la puntuación en 20.
61
CONSTRUCCIÓN DEL SCORECARD
Factor es la pendiente
Offset es la
ordenada al origen
62
PUNTO DE CORTE
Nivel mínimo de score en el cual el aplicante es denegado o aceptado.
Umbrales por rentabilidad y riesgo.
63
PUNTO DE CORTE
Punto de corte
ajustado a PD media
De 2.5%
Punto de corte
ajustado a la tasa
Aprobación 70%
64