Apuntes de Clase. Modelo Logit Probit en R Studio

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 80

Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Serie Apuntes de Clase F&E N° 03


Noviembre de 2020

MODELOS DE VARIABLE
DEPENDIENTE DISCRETA: EL MODELO
LOGIT Y PROBIT

La Serie Apuntes de Finance and Econometrics Group S.A.C. tiene por objetivo difundir los
materiales de enseñanza generados por los docentes que tienen a su cargo el desarrollo de las
asignaturas de la empresa. Estos documentos buscan proporcionar a los estudiantes una
explicación de algunos temas específicos que son abordados en su formación profesional

MBA. Rafael Bustamante


[email protected]

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


1
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Modelos de variable dependiente discreta: El modelo


Logit y Probit

Rafael Bustamante 

Resumen
Este trabajo pretende señalar que las especificaciones del comportamiento económico de

los agentes económicos en su proceso de elección individual, en el que la decisión está

orientada por la maximización de la utilidad. Para ello se especifican los modelos de

probabilidad lineal, los modelos de probabilidad no lineal expresados en los

denominados: Logit y Probit en su versión básica. Asimismo, se plantea los

procedimientos básicos de cómo se deben manejar las variables y los principales

indicadores, inferencia estadística, análisis del efecto marginal y las medidas de bondad

de ajuste.

Palabras Claves: Modelos de elección discreta, especificaciones, Logit, Probit

Clasificación JEL: C2, C25

 Estudios de Doctorado en Economía, Universidad Nacional Autónoma de México. MBA Gerencial, CENTRUM Pontificia
Universidad Católica del Perú. Maestría en Economía con mención en Finanzas, Universidad Nacional Mayor de San
Marcos. Profesor Auxiliar del Departamento de Economía de la UNMSM. Investigador asociado al Instituto de
Investigaciones FCE - UNMSM. Contacto: [email protected], [email protected]

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


2
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Contents
1. Introducción ................................................................................................................................... 5
2. Modelo simple................................................................................................................................. 8
2.1. Las variables aleatorias binomiales .......................................................................................... 9
2.2. Modelo de probabilidad lineal (MPL) ..................................................................................... 10
2.3 Modelo lineal de probabilidad ponderado 0 MLP estimado mediante mínimos cuadrados
generalizados (MCG): sus limitaciones ......................................................................................... 12
2.4 Los modelos probabilísticos Logit y Probit .............................................................................. 15
2.5 El modelo Probit ...................................................................................................................... 21
2.7. Interpretación del modelo probit .......................................................................................... 24
3.Modelo Logit .................................................................................................................................. 25
3.1. Especificación ......................................................................................................................... 25
2.6 Validación y contrastes de hipótesis ....................................................................................... 27
2.7 Contraste individual de un coeficiente ................................................................................... 27
2.8 Pruebas estadísticas basadas en la función de verosimilitud y en el logaritmo neperiano de la
función de verosimilitud (log likelihood) ...................................................................................... 29
2.9 Medidas de bondad del ajuste ................................................................................................ 32
2.9.1 R2 propuesto por MCFADDEN (1974) (MC FADDEN R-SQUARED) .................................. 32
2.10. Prueba de significancia global con el criterio de razón de verosimilitud (LR) ...................... 33
2.9.3 Proporción de predicciones correctas (expectación-predicción). ................................... 34
3. Procedimiento para estimar un modelo ....................................................................................... 35
3.1. Efecto impacto, marginal o efecto escala .............................................................................. 36
4. Aplicaciones en R Studio ............................................................................................................... 38
4.1. Función glm ............................................................................................................................ 48
4.2. Datos sin agrupar ................................................................................................................... 50
4.4.Datos agrupados ..................................................................................................................... 58
4.5. Variables explicativas nominales y ordinales. ....................................................................... 62
4.5.1. Una variable explicativa categórica ................................................................................ 62
4.6. Variables explicativas nominales y ordinales. ........................................................................ 63
4.7. Una variable explicativa categórica ........................................................................................ 63
5. Regresión LOGIT ............................................................................................................................ 67
6. Falta de normalidad ...................................................................................................................... 70
6.1. Interpretación de las estimaciones obtenidas ....................................................................... 72

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


3
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

6.2. Cálculo de probabilidad de éxito ............................................................................................ 73


6.3. Regresión PROBIT ................................................................................................................... 76
6.4. Bondad del ajuste ................................................................................................................... 79
Bibliography ...................................................................................................................................... 80

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


4
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

1. Introducción

En ocasiones los ciudadanos, en general y los economistas, en particular se

encuentran ante situaciones en que deben elegir o decidir entre posibles alternativas.

En el caso de que estas alternativas fuesen las de la modelización adquiere un

carácter especial denominándose modelos de respuesta dicotómica (o binaria).

Algunos de los ejemplos que se pueden plantear de este tipo de modelización son

los siguientes:

➢ Una familia puede o no tener vivienda en propiedad (atendiendo a un

conjunto de características económicas: nivel de renta o ingresos mensuales,

nivel cultural del cabeza de familia, edad del cabeza de familia, etc.).

➢ Una persona activa puede estar en situación de paro o trabajando.

➢ Un trabajador se puede plantear afiliarse o no a un sindicato.

➢ Un trabajador puede optar entre seguir o no una huelga.

➢ Un ciudadano se puede plantear elegir el medio de transponer, público o pri-

vado, para su desplazamiento al lugar de trabajo.

➢ Un ciudadano decide comprar (cambiar) un coche.

➢ Un individuo decide suscribir o no una póliza de seguro.

➢ Una familia se puede plantear el tipo de escuela (pública / privada) a la que

desea mandar a sus hijos.

➢ Un banco o una entidad financiera se encuentra ante la situación de conceder

o no un crédito a un agente económico (ciudadano, familia. empresa,

corporación).

➢ Una entidad financiera puede estudiar la probabilidad de si un crédito con-

cedido a un cliente será devuelto o no en la fecha de vencimiento.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


5
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

El planteamiento de estos modelos se fundamenta en la ecuación:

Prob( yi = 1) = F ( ' X i ) = Prob(Ui1  Ui 0 ) (1)

Donde se especifica que el individuo se enfrenta a un proceso de decisión entre

dos alternativas denominadas 0 y 1, por ejemplo, comprar o no comprar un bien,

afiliarse a un sindicato o no, etc., decidiendo realizar aquella decisión que le

proporcione la mayor utilidad.

Además, esta decisión está condicionada al valor de la función de distribución en

el punto  ' X i y por tanto, según se establezcan las hipótesis de cómo es esta fun-

ción de distribución, se especifican diferentes modelos de elección dicotómica. En

este tema, se supone que F es una función de distribución uniforme 1y, por tanto,

F= 1. La modelización de la decisión se establecería a través de la siguiente

ecuación:

Pr ob( yi = 1) =  ' xi (2)

Por tanto, el Modelo Lineal de Probabilidad quedaría especificado de la siguiente

forma:

1
La distribución uniforme continua es una familia de distribuciones de probabilidad para variables aleatorias
continuas, tales que cada miembro de la familia, todos los intervalos de igual longitud en la distribución en su rango
son igualmente probables. El dominio está definido por dos parámetros, a y b, que son sus valores mínimo y máximo.
La distribución es a menudo escrita en forma abreviada como U(a,b).

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


6
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

yi =  ' xi + ui (3)

Una característica específica de este tipo de modelos es la distribución de la

muestra, cuya representación gráfica para una sola variable explicativa configura

una nube de puntos: que se obtiene a través de su representación sobre un

diagrama definido por el

regresor en el eje de abscisas y por el regresando, que toma los valores uno o cero,
en el eje de ordenadas.

En la nube de puntos de la figura 1 se aprecia que la muestra está dividida en dos


subgrupos. Uno de ellos está dispuesto alrededor de la recta Y = 0 que representa
al conjunto de individuos que no optaron por la realización de la opción y el otro
subgrupo está dispuesto en torno a la recta Y = 1, que representa a los individuos
que optaron por realizarla opción.

La elaboración del modelo econométrico requiere el ajuste de esa nube de puntos


a una función capaz de explicar el comportamiento de la muestra. En el caso del
Modelo Lineal de Probabilidad, el ajuste realizadores una recta de regresión (véase
figura 1).

Figura 1:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


7
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Modelo Lineal de Probabilidad (MPL)

1
.8
.6
grade

.4
.2
0
2 2.5 3 3.5 4
gpa

2. Modelo simple

Desde el punto de vista general se pueden relacionar, a través de una ecuación de


comportamiento, una variable endógena que indica un «hecho» o «suceso» (la va-
riable endógena real tan sólo puede tomar los valores uno o cero) en función de
una variable explicativa o característica, por ejemplo, el «hecho» de poseer
ordenador en función del nivel de renta familiar. Dicho modelo se especificó en el
apartado anterior de la forma siguiente:

1 
Yi =   X i + ui =  11    (4)
 X 2i 

Las herramientas metodológicas que se presentan a continuación son aplicables a la


información obtenidas en un momento en el tiempo para un grupo determinado de
“individuos”, sean estos personas, empresas, bancos, etc. por lo mismo, el
componente temporal pierde (momentáneamente) importancia, centrándose ahora
el interés en las similitudes o disparidades de ese grupo en determinado instante de
tiempo; es así que nuestras observaciones pasarán a tener el subíndice i (y ya no t).
Donde i hace referencia al individuo i de la muestra.

Pese a estas características de la información, el uso de MCO no se invalida siempre


que la dependiente sea una variable continua sin ninguna limitación, siendo solo
necesario ser cuidadoso con la posible heteroscedasticidad del modelo estimado, la

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


8
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

misma que debe ser convenientemente corregida. No obstante, cuando la


dependiente no satisface estas condiciones, el estimador MCO deja de ser el más
apropiado surgiendo otros estimadores de mejores propiedades finitas y asintóticas.
Son éstos estimadores el centro del análisis de las siguientes páginas.

Debido a que el problema se centra en la dependiente, dividiremos el análisis sobre


la base de las características que esta muestre, distinguiendo entre una dependiente
discreta de aquella que siendo continua siempre tiene rangos limitados de trabajo.

2.1. Las variables aleatorias binomiales

Son aquellas que solo toman dos valores, tradicionalmente 0 y 1, es decir

 1; si secumplecierta condicion
Yi =  (5)
 0; decualquier otra forma

Y = 1+  2 X 2 + 3 X 3 + U (6)

*Las variables que nos vienen a la mente: La edad, la formación el estado civil, el
número de hijos y ciertas características económicas (es común en las encuestas
nacional de Hogares que formula el INE (ENAHO).

Donde Y es generado mediante la siguiente regla:

Cuando se trata de decidir si o no. Por lo que no resultan adecuados los métodos de
regresión.

 1; Si la persona tiene trabajo



Yi =  0; en otro caso (7)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


9
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2.2. Modelo de probabilidad lineal (MPL)

Supongamos que decidimos modelar la variable de (1) usando un modelo lineal de


la forma:

Yi =   X i + U i (8)

Si Y toma valores entre cero y uno. Un modelo simple de regresión lineal de Y sobre
X no es apropiado, debido a que pone restricciones inadecuadas sobre los residuos
del modelo.

Además del valor pronosticado de Y es 𝑌̂

E ( ui ) = 0 (9)

Podemos decir que:

E (Yi / X i ) = 1* Prob(Yi = 1) + 0* Prob(Y1 = 0) = Prob(Yi = 1) (10)

(Yi / X i ) =  ' X i (11)

Por lo que se puede concluir que:

Prob (Yi = 1) =  ' X i = E (Yi / X i ) (12)

Es decir, la probabilidad de que la persona trabaje es  ' X i la lógica es que tiene que
estar entre cero y uno. No obstante, en el modelo no hay nada que restrinja a 𝑌𝑖 a
estarlo. Además, se tiene problemas con el error, pues esta toma solo dos valores a
saber:

Cuadro N.º 1

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


10
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Es decir, el error el error es Binomial y no Normal, siendo su varianza igual a:

Var (ui ) = (1 −  ' X i )2 ( ', X i ) + (− ' X i )2 (1 −  ' X i ) =  ' X i (1 −  ' X i ) = Pi (1 − Pi ) (13)

De forma tal que, como depende de las observaciones, termina siendo


heterocedástico. De esta forma podemos concluir que existen tres grandes
limitaciones para el uso del estimador MCO en estos modelos:

• El error es heterocedástico.
• El error no es normal
Nada restringe a P(Yi = 1) =  X i = E(Yi / X i ) a estar entre cero y uno.
,

Los dos primeros problemas pueden ser resueltos con relativa facilidad, utilizando
MCG y ampliando la muestra, respectivamente. No obstante, no existe forma de
resolver el último problema, razón por la cual nos vemos en la necesidad de trabajar
con un método que garantice que la probabilidad resultante se mueva entre esos
límites; para ello se recurrirá a la función de distribución acumulada del error, la
cual será utilizada para obtener el estimador MCO en estos modelos.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


11
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2.3 Modelo lineal de probabilidad ponderado 0 MLP estimado


mediante mínimos cuadrados generalizados (MCG): sus limitaciones

En el apartado anterior se han expuesto los problemas que lleva asociada la es-

timación por MCO del Modelo Lineal de Probabilidad. Ante estos problemas es

necesario buscar una alternativa a la estimación del modelo. Dado que uno de los

problemas más importantes que presenta el proceso de la estimación por MICO es

la presencia de un problema de heteroscedasticidad, se plantea una solución

posible para estimar estos modelos dicotómicos desde la óptica de la linealidad.

Para ello se utiliza la estimación por Mínimos Cuadrados Generalizados (MCG)

del Modelo Lineal de Probabilidad. A este tipo de modelos se les denomina MLP

ponderados.

Los pasos a realizar son los siguientes:

Se estima el modelo Yi =  ' X i + ui mediante el método de los MCO sin tener en


cuenta el problema de la heteroscedasticidad, obteniendo el valor estimado 𝑌𝑖 ; que
se puede considerar como la estimación de la esperanza condicional o bien de la
probabilidad condicional. Las estimaciones 𝑤̂𝑖 se utilizan para estimar la varianza

de la perturbación aleatoria, wi luego se obtiene la siguiente estimación de la
varianza:
  
wi = Yi (1 − Yi ) (14)

Si los valores estimados de Yi son mayores que la unidad se debe sustituir por la

unidad. En este caso el valor resultante de 𝑌𝑖 ; será cero. Este hecho provocaría

̂𝑖 como ponderador (se tendría que dividir


serios problemas al utilizar la variable𝑤

un número por cero). Es por ello por lo que, en definitiva, se opta entre las dos

opciones alternativas siguientes:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


12
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

➢ Se eliminan estas observaciones, con lo que se pierde información (se reduce

el tamaño de la muestra), por lo que los estimadores que se obtienen ya no

son robustos.

➢ Se sustituyen los valores mayores o iguales a la unidad por 0,999.

Si los valores estimados de 𝑌𝑖 son negativos (menores que cero) se deben sustituir

por cero. En este caso el valor resultante de 𝑤


̂𝑖 también será cero. Esto provocaría

serios problemas al utilizar la variable sí; como ponderador (se tendría que dividir

un número por cero). Es por ello por lo que, en definitiva, se opta entre las dos

alternativas siguientes:

➢ Se eliminan estas observaciones con lo que se pierde información (se reduce


el tamaño de la muestra), por lo que los estimadores que se obtienen ya no
son robustos.
➢ Se sustituyen los valores menores o iguales a cero por 0.001.

Se pondera el modelo dividiendo ambos miembros de la ecuación por la desviación


típica estimada, wi = Pi (1 − Pi con el fin de transformar el modelo en
homoscedástico, esto es:

Yi = 1 +  2 X 2i + 3 X 3i + ... +  k X ki + ui (15)

Yi 1 +  2 X 2i + 3 X 3i + ... +  k X ki ui
= + (16)
wi wi wi

ui
Ahora varianza de = vi :
wi

ui 1 1
Var ( )= .Pi .(1 − Pi ) = ( Pi .(1 − Pi )) = 1 (17)
wi wi Pi .(1 − Pi )

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


13
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

La estimación del modelo transformado, mediante el método MCO es equivalente

a aplicar MCG en el modelo y en ambos casos se obtienen estimaciones eficientes

de los coeficientes de regresión.

Los problemas asociados a la estimación del MLP mediante son análogos a los que

presenta la estimación del modelo por MCO ya que:

Aunque se puede demostrar que las estimaciones llevadas a cabo mediante MCG

son eficientes, en la práctica no se garantiza que los resultados obtenidos para las

estimaciones de la variable Yi , que son estimaciones de la probabilidad Pi , no

puedan ser negativos o bien mayores que uno. Es decir, que las estimaciones de la

variable 𝑌𝑖 i, o predicciones de 𝑃𝑖 , pueden tomar valores fuera del intervalo (0,1).

✓ Dado que se omiten aquellas observaciones que no resultan coherentes con

una interpretación probabilística, los estimadores obtenidos por MCG no

son robustos.

✓ El coeficiente de determinación continúa siendo excesivamente bajo

(subestimación del coeficiente de determinación).

✓ Debido a la pérdida del término independiente en el modelo, ya que se



han ponderado todas las variables de la ecuación por wi la suma de

todas las probabilidades no será necesariamente igual a la unidad.

✓ La omisión del término independiente puede provocar que la suma de

los residuos sea distinta de cero. Este error de especificación del modelo

puede tener consecuencias sobre el coeficiente de determinación (puede

ser negativo), la función de verosimilitud estimada a partir de los re-

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


14
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

siduos (la suma de los residuos no es necesariamente igual a cero) y los

estadísticos que se obtienen a partir de ella.

✓ La no normalidad de las perturbaciones aleatorias se sigue manteniendo

a pesar de la transformación realizada. Por tanto, los tests de significación

tradicionales quedan invalidados (los tests paramétricos: t-Student. F de

Snedecor, etc.). No obstante, el tamaño de la muestra tiene un papel

importante en estos modelos ya que, si ésta es suficientemente grande,

los contrastes sí que sirven de forma asintótica.

✓ Todos estos problemas nos llevan a la búsqueda de modelos y métodos

de estimación alternativos (generalmente no lineales) que solucionen los

efectos producidos por los estimadores anteriormente expuestos.

2.4 Los modelos probabilísticos Logit y Probit

Los modelos dicotómicos modelaran los problemas asociados a la toma de deci-

siones cuando los agentes económicos se enfrentan a un proceso de elección

binaria. El criterio de selección entre opciones depende de la probabilidad asociada

a cada una de las alternativas posibles que puede tener un individuo.

El Modelo Lineal de Probabilidad (MPL) no es capaz de dar una respuesta

adecuada a los problemas que presentan los procesos de decisión dicotómica. Por

esta razón este tema se dedica a un planteamiento no lineal de los modelos de

elección dicotómica que, sin duda, solucionan algunos de los problemas asociados

al MLP.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


15
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

El proceso de elección de un individuo en un modelo dicotómico depende de que

la utilidad que obtiene el individuo en una opción supere la utilidad que le pro-

porciona la opción complementaria. Es decir, el individuo opta por la alternativa

uno (𝑦𝑖 = 1) frente a la alternativa cero (𝑦𝑖 = 0) si la utilidad que le proporciona

esta opción. 𝑈𝑖1 supera la de la opción cero, 𝑈𝑖0 .

Ahora bien, esta utilidad depende de los valores que toman las características del

agente económico y de la opción a elegir que serán las variables del problema re-

presentadas mediante la combinación lineal 𝛽 , 𝑋𝑖 . Desde el punto de vista formal,

se tiene:

Prob(Yi = 1) = F (  ' X i ) = Prob(U i1  U i 0 )


(18)
U i 0 : Variable de Utilidad de referencia

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


16
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Cada evento es independiente. Es decir, el resultado (éxito o fracaso) de cualquier

ensayo (o evento) es independiente de cualquier otro evento. La probabilidad de

permanencia permanece constante de evento a evento. Además, si definimos a la

variable latente:

Yi * =  ' X i + ui
Yi *  Yi 0
(19)
Yi *  Yi 0
Si Yi 0 = 0, Yi *  0, Yi *  0

1 Yi*  0 Ocurre el evento


Yi = G (Yi ) = 
*
(20)
0 Yi  0 No ocurre el evento
*

Prob(Yi*  0) = Prob(Yi = 1) = Prob( ' X i + ui  0) = Prob(− ' X i  ui ) = Prob( ' X i  ui )


(21)

Si asumimos que ui tiene una función de densidad continua y simétrica tenemos


como se muestra en la figura Nº 2

Figura N º2

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


17
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Supongamos que tenemos una muestra de tamaño N. Por propiedad de simetría y


variable independientemente distribuidas tenemos que:

L = F (Y1 , Y2 ,..., YN ) = F (Y1 ).F (Y2 ),..., F (YN ) (22)

L = F (Y1 , Y2 ,..., YN ) = Pr ob(Yi = y1 ).Pr ob(Yi = y2 )...Pr ob(Yi = yN ) (23)

Se entiende que la variable Yi sigue el comportamiento de una función de


probabilidad tipo Bernoulli.

1 Y1  0  Yi = 1
*

Yi 
 0 Y1  0  Yi = 0
*

Pr ob(Yi = 1) =  Éxito
Pr ob(Yi = 0) = 1 −  Fracaso

Definimos yi como la variable aleatoria Yi una vez conocida y fijada. Es decir, Yi va


cambiando aleatoriamente (por ejemplo: el dado gira y gira en un único
lanzamiento) pero cuando la observamos fijamos el valor (cuando el dado cae
encima de la mesa y da un resultado concreto). Es en ese momento cuando
evaluamos el resultado y le asignamos uno (1) o cero (0) en función de lo que
consideremos “éxito” o no “éxito”.

La variable aleatoria tipo Bernoulli Yi una vez fijada solo podrá tomar dos valores
concretos: cero (0) o uno (1). Entones, la función de distribución de probabilidad de
la distribución de Bernoulli solo será distinta de cero (0) cuando yi sea cero (0) o uno
(1). El caso contrario sería que la función de distribución de la distribución de
Bernoulli fuera cero (0) dado que z será cualquier valor distinto de cero (0) o uno (1)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


18
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Si sustituimos Yi = 0 en la primera fórmula de la función de probabilidad veremos


que el resultado es  que coincide con el valor de la segunda función de
probabilidad cuando Yi = 0 . Del mismo modo, cuando Yi = 0 obtenemos (1 −  ) para
cualquier valor de  .

  Yi = 1

f ( yi ;  ) = 1 −   Yi = 0
0  Otros

  yi (1 −  )1− yi
f (Yi ;  ) = 
0 En otros casos

L =  ( y1 ) (1 −  )(1− y1 )  ( y2 ) (1 −  )(1− y2 )  ( y3 ) (1 −  ) (1− y3 ) ....


(24)
 ( y ) (1 −  )(1− y
N N )

L = ( F (  ' X i ))( y1 ) (1 − F (  ' X i ))(1− y1 ) ( F (  ' X i ))( y2 ) (1 − F (  ' X i )) (1− y2 )


(25)
( F (  ' X i ))( yN ) (1 − F (  ' X i ))(1− yN )

Dónde:

Prob(Yi = 1) = F ( ' X i ) (26)

Entonces tenemos la función de Verosimilitud que viene expresada por:

L = 1n (1 − F (  ' X i ))(1− yi ) (Ni =n+1) ( F (  ' X i ))( yi ) = 1n (1 − Pi )(1− yi ) (Ni =n+1) ( Pi ) ( y1 ) (27)

para i=1,2,3,..., n  Yi = 0
para i=n+1,n+2,n+3,..., N  Yi = 1

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


19
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Si F (u) es normal estándar estaríamos hablando del modelo Probit, mientras que si
fuera logística nos referiríamos al modelo Logit. Cabe mencionar que como ambas
funciones son simétricas podemos concluir que:

Prob(Yi = 1) = 1 − F ( ' X i ) = F ( ' X i ) (28)

Comparemos un poca más de estas funciones. La principal diferencia entre ellas es


la amplitud de sus colas, ya que la logística tiene cola más ancha. Por los mismos
que los resultados que se obtienen con cada una de ellas no son comparables. Dado
que en el modelo Probit el uso de una normal estándar arroja ’s estandarizados
(Siendo =1), la comparación con los ’s logit requiere estandarizar estos últimos
también para lo cual hay que dividir los estimados entre la desviación estándar, que

es igual a .
3

Es decir:

L 3
vs  p (29)

Dado que no hay forma de saber a priori cómo se comportan los errores de los

modelos que queremos estimar, y que la diferencia entre estas funciones es

relativamente útil, la elección entre logit y probit dependerá del mejor ajuste que se

logre utilizando una indistintamente del otro.

 ' Xi 1  −z2 
Pi = Prob(Yi = 1) = (  X i ) = '
 exp   dz (30)
− 2  2 
Donde:
 ' Xi
Zi = Es el término de perturbación estandarizado.
 u2

Yi = Pi + ui

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


20
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

La función de distribución estándar restringe a la probabilidad entre uno y cero.

lim z → ( Zi ) = 1 lim z →− ( Zi ) = 0 (31)

2.5 El modelo Probit

Definimos una variable latente tal que:

Yi* =  ' X i + ui (32)

Aplicando la regla de observalidad que generan las alternativas que se dan en la

realidad. Desde este punto de vista el modelo dicotómico se expresaría como:

1 si Yi *  0
G (Yi * ) = Yi =  (33)
0 de otra foma

Donde G(.) es una transformación monótona que se le aplica a Yi * .

ui N (0,  u 2 ) (34)

Yi * : Tiene media  ' X i varianza 𝜎 2 , y la relación establecida entre la probabilidad de


que el suceso ocurra y el valor de la variable latente es monótona creciente. Cada
individuo realiza la elección comparando su valor  ' X i con el valor crítico Yi * que
refleja sus preferencias.

Suponiendo que es una variable aleatoria, un individuo elegiría la opción 1 si


 ' X i  Yi* y 0 en caso contrario .

Entonces tenemos:

Pr ob(Yi = 1) = Pr ob(Yi *  0)
= Pr ob(  ' X i + ui  0)
= Pr ob(ui  −  ' X i ) = Pr ob(ui  −  ' X i ) = Pr ob(ui   ' X i ) =  (  ' X i ) (35)
 : Denota la FDA Normal
: Denota la F. de Densidad Normal

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


21
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Debido a la propiedad de simetría de las funciones de distribución Logística y


Normal tenemos lo siguiente.

Pr ob(Yi = 1) = Pr ob(ui   ' X i ) = ( ' X i ) (36)

De esto se obtiene lo siguiente.

Pr ob(Yi = 0) = 1 − Pr ob(Yi = 1) = 1 − Pr ob(ui   ' X i ) = 1 − ( ' X i ) (37)

Si además suponemos que tenemos una muestra independientemente de n


observaciones con las m primeras iguales a cero, y las n-m restantes iguales a uno,
entonces se tiene lo siguiente:

La variable aleatoria Yi se comporta como un proceso Bernoulli2.

Distribuida la función de Verosimilitud para la muestra es:

L = F (Y1 , Y2 ,...YN ) = F (Y1 ).F (Y2 )...F (YN ) = Pr ob(Yi = y1 ).Pr ob(Yi = y2 )...Pr ob(Yi = y N ) (38)

L =  ( y1 ) (1 −  )(1− y1 )  ( y2 ) (1 −  )(1− y2 )  ( y3 ) (1 −  )(1− y3 ) ... ( yN ) (1 −  )(1− yN ) (39)

 = Prob(Y = 1) = ( , X i ) (40)

1 −  = Prob(Y = 0) = 1 − ( , X i ) (41)

L = ((  , X i ))( y1 ) (1 − (  , X i ))(1− y1 ) ((  , X i ))( y2 ) (1 − (  , X i ))(1− y2 ) ((  , X i ))( y3 ) (1 − (  , X i ))(1− y3 ) ...
(42)
( , X i ))( yN ) (1 − (  , X i ))(1− yN )

Poniendo la serie en forma:

L =  (Ni =1) [1 − (  ' X i )]1− yi .[(  ' X i )] yi (43)

De la cual obtenemos la función Log-Likelihood, cuando aplicamos logaritmo


neperiano a la función:

2
𝑃𝑟𝑜𝑏(𝑌 = 𝑦𝑖 ) = 𝛼 𝑦1 (1 − 𝛼)1−𝑦1 Dónde: 𝛼 = 𝑃𝑟𝑜𝑏 (𝑌 = 1) , 1 − 𝛼 = 𝑃𝑟𝑜𝑏 (𝑌 = 0)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


22
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

l = ln( L)
N
l =  (Yi ln[(  ' X i ] + (1 − Yi ).ln[1 − (  ' X i )]) (44)
i =1

l
=0 Obtenemos un sistema de ecuaciones no lineales que tienen que ser

estimados con el uso de algoritmos como el Newton Raphason, Gauss Newton, etc.

Note que la función Likelihood está acotada superiormente por cero, debido a que

0 ≤ 𝛷(. ) ≤ 1 esto implica que:

ln 𝛷(. ) ≤ 0 y ln(1 − 𝛷(. )) ≤ 0

Así es conveniente normalizar 𝜎 a uno, así se podrá analizar 𝛽 También recordar


que 𝜎 puede presentar problemas de heteroscedasticidad para tal caso hay que
realizar las correcciones pertinentes3.

2.6 ESPECIFICACIÓN

El modelo Probit relaciona, a través de una función no lineal, la variable 𝑌𝑖 con


un conjunto de variables: 𝑋2𝑖 , 𝑋3𝑖 , … , 𝑋𝑘𝑖 , que definen:

Así pues, la especificación del modelo Probit se efectúa a través de la ecuación de


distribución de la normal:

3
Otro importante aspecto de trabajar con funciones de distribución estandarizadas es que los parámetros 𝛽 y
𝜎 siempre aparecen juntos. Por consiguiente, ellos no pueden ser identificados separadamente solo importa la

ratio

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


23
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

 Xi −1
1 ( Zi 2 )
Yi =  exp 2 2
dzi + ui =
( 2 2 )
1/2
− (45)
Yi = (  X i ) + ui = Pr ob(Yi = 1) + ui = Pi + ui

Donde la variable 𝛽 , 𝑋𝑖 es el índice que define el modelo Probit y z es una variable


«muda» de integración con media cero y varianza uno. De forma compacta, el Si
conocidos (dados) los valores de las características X; se asigna una probabilidad,
por ejemplo, P, para que la variable Y; valga la unidad, se tiene:

Yi = (  X i ) + ui (46)

Pr ob(Y = 1) = Pi = (  X i ) (47)

Para los mismos valores de las variables 𝑋𝑖 , la probabilidad de que la variable


𝑌𝑖 valga cero es (1 - 𝑃𝑖 ), puesto que la suma de ambas probabilidades debe ser
igual a la unidad. En este caso se tiene:

𝑃𝑟𝑜𝑏(𝑌𝑖 = 0/𝑋𝑖 ) = (1 − 𝑃𝑖 ) (48)

2.7. Interpretación del modelo probit

Una vez estimado el modelo, un valor concreto del regresando cuantifica, a través
de la probabilidad, la utilidad de elegir la opción 1, cuya expresión es:

Yi = (  X i ) + ui = Pr ob(Yi = 1) + ui = Pi + ui

E (Yi / X i ) = Pi = (  ' X i ) (49)

Si nosotros ya estimamos el modelo con algún algoritmo computacional y hemos


obtenidos los estimadores de los parámetros  . Entonces denotamos a estos

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


24
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.


estimadores muestrales como  .

La interpretación de los parámetros del modelo Probit se puede efectuar a


través de las derivadas parciales. La derivada parcial del modelo Probit
respecto a la variable Xki, si es derivable, es igual a:
   '
E (Yi / X i ) = Pi =  (  X i )

 Pi ( ˆ ' X i )  ˆ

=  k =  ( X i )  k
'
(50)
X ik X ik

El efecto marginal en estos modelos de probabilidad no lineal no es constante y más

bien dependen del individuo en la característica de la variable explicativa: X ik Una

cuestión importante a tener en cuenta en los modelos Probit es la interpretación

de los distintos elementos que intervienen en su especificación.

Así pues, a través de ambas alternativas, se obtiene que el modelo estimado

cuantifica la probabilidad de elegir la opción 1.

3.Modelo Logit

3.1. Especificación

El modelo Logit relaciona la variable 𝑌𝑖 ; con las variables


𝑋1 , 𝑋2, … , 𝑋𝑘−1 , 𝑋𝑘 ; a través de la siguiente ecuación:

1
Yi = − ( 0 + 1 x1i +  2 x2 i + 3 x3 i +...+  k xki )
+ ui
1+ e (51)

O bien de forma compacta:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


25
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Yi = ( X i ) + ui = Pi + uí (52)

exp  X i
'
1
Yi = − ' Xi
+u i=  ' Xi
+ui (53)
1 + exp 1 + exp

Dónde:

 ( .) : Hace referencia a la FDA Logística

𝑢𝑖 : es una variable aleatoria que se distribuye normal. Las variables o


características 𝑋𝑖 ; son fijas en el muestreo.

La variable dependiente Y puede tomar los valores cero o la unidad.

La interpretación del modelo Logit se puede efectuar a partir del siguiente hecho:
conocidos (dados) los valores de las características 𝑋𝑖 ; se les asigna una
probabilidad por ejemplo 𝑃𝑖 , de que la variable 𝑌𝑖 valga la unidad.

Efecto Marginal


 Pi ( ˆ X i )  
=  k =  ( ˆ X i )  k
X ik X ik
 : Función Logistica Acumulativa (54)
 : Función de Densidad Logistica

El efecto marginal no es constante.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


26
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2.6 Validación y contrastes de hipótesis

En el campo de los modelos de elección discreta, se pueden construir los contrastes

habituales, sobre un coeficiente o un conjunto de coeficientes. A partir de es-

timaciones consistentes y asintóticamente 4 eficientes de la matriz de varianzas

covarianzas del modelo.

Podemos diferenciar dos situaciones distintas: el contraste de una hipótesis sobre

un parámetro individual y la significatividad estadística del modelo en su conjunto.

a través de los tests fundamentados en la función de verosimilitud y en la bondad

del ajuste.

2.7 Contraste individual de un coeficiente

Dadas las propiedades estadísticas de los estimadores máximo-verosímiles y su

distribución asintótica según una normal, se puede plantear el siguiente contraste

de hipótesis sobre un coeficiente de regresión aislado. En efecto, dado un grado de

significación de  se acepta la hipótesis nula sobre  k con una probabilidad de

(1 −  ) si se cumple la desigualdad probabilística siguiente:

H 0 : k = 0
(55)
H1 :  k  0

Pruebas de dos colas:

4. Es importante recalcar que la función de verosimilitud, bajo ciertas condiciones de regularidad, es uno de los principales
candidatos a poseer las propiedades asintóticas.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


27
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

ˆK −  K a
t= Z (0,1)
 ˆ
K
(56)
ˆ a
t= K Z (0,1)
 ˆ
K

 ˆ −  K 
Prob  − Z   K  Z  = 1 −  =1-5%=95% (57)
 2  ˆ 
 K
2 

Reemplazando la hipótesis nula:

 ˆ 
Prob  −Z   K  Z   = 1−  (58)
 2  ˆ 
 K
2 
Los intervalos de confianza para t están dados por:

ˆK
−Z   Z (59)
2  ˆ 2
K

Despejando tenemos:

− Z  . ˆ  ˆK  Z  . ˆ (60)
K K
2 2

Lo cual es el intervalo de confianza de ˆK .

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


28
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2.8 Pruebas estadísticas basadas en la función de verosimilitud y en


el logaritmo neperiano de la función de verosimilitud (log
likelihood)

A partir de la función de verosimilitud estimada de los residuos o bien de su


logaritmo5:
N
lSR =  (Yi ln[(  ' X i )] + (1 − Yi ).ln[1 − (  ' X i )]) = l (  ,  2 ) (61)
i =1

 NR ' =  1 2 3 .. j ... k  El vector de  NR no restringido


  NR '  l (  NR ,  u 2 )
H 0 :  j =  j0 = 0 (62)
 R ' =  1 2 3 .. j0 ... k  El vector de  NR no restringido
  R '  l ( R , 2 )

Considerar que siempre

l ( NR , 2 )  l (R ,  2 )
Se pueden construir distintos contrastes de hipótesis. El criterio general para la

elección entre distintos modelos es el siguiente: se prefiere aquel modelo que

presente un valor de la función de verosimilitud mayor.

Además, a partir de la función de verosimilitud se pueden construir distintos

contrastes de hipótesis. Entre otros, cabe destacar el de la Razón de Verosimilitud,

que sirve para realizar las pruebas hipótesis entre dos modelos que presentan la

misma variable endógena. El primer modelo se estima bajo la hipótesis nula

5
La expresión de función de verosimilitud que se expone a continuación tan sólo se cumple cuando el ta maño de la
muestra tiende a infinito (suficientemente grande). En este tipo de modelos la función de verosimilitud no se puede
simplificar ya que el estimador de la varianza del modelo y los estimadores de los coefi cientes de regresión no son
independientes

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


29
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

(modelo con restricciones), cuya función de verosimilitud se denota por LR;

mientras que el segundo modelo se estima bajo la hipótesis alternativa (modelo

sin restricciones). Cuya función de verosimilitud se denota por L sR. A partir de

estas dos funciones de verosimilitud (LcR Y LsR) se construye la Razón de

Verosimilitud 6 entre ambas funciones, que se define como:

𝐿𝐶𝑅
𝐿𝑅 = −2 ln(𝜆) = −2𝑙𝑛 ( ) = 2(𝑙𝑛𝐿𝑆𝑅 − 𝑙𝑛𝐿𝐶𝑅 ) = −2(𝑙𝐶𝑅 − 𝑙𝑆𝑅 ) (63)
𝐿𝑆𝑅

El estadístico 𝐿𝑅 = −2 ln(𝜆) se distribuye según una función de probabilidad

Chi- Cuadrado  2 ; con un número de grados de libertad igual al número de

restricciones.

H 0 : k =  0k = 0
H1 :  k  0

LR  K 2  Re chaza la H0  Pr ob( LR)   (64)

LR  K 2  Acepta la H 0  Pr ob( LR)  


(65)
 = 5%,10%( Nivel de significancia)

Akaike (1973) 7 propone una corrección a los estadísticos anteriores por el número

de parámetros del modelo (coeficientes de regresión). La expresión del estadísti-

co de Akaike (AIC) es:

2k 2l
AIC = − (66)
N N

6
En el Eviews es LR statistic (K df) donde K df son los grados de libertad igual al número de variables explicativas en
el modelo. Estos se ven cuando estimo el modelo ya sea Logia o Probit.
7
En el Eviews es Akaike info criterion

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


30
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

y sirve para comparar la bondad del ajuste entre dos modelos. Según este criterio

es preferible aquel modelo que presente un valor del AIC menor, es decir siempre

un modelo es más parsimonioso que en el sentido de que tiene mayor poder

explicativo y esto se ve con el AIC.

Una alternativa al criterio propuesto por Akaike es el propuesto por Schwarz


(1978) que se define como:

𝐾 ∗ ln 𝑛 2𝑙
𝑆𝐶 = 𝑆𝑐ℎ𝑎𝑤𝑟𝑧 = − (67)
𝑛 𝑛

Dicho estadístico, al igual que el AIC de Akaike, sirve para comparar la bondad
del ajuste entre dos modelos (no es necesario que presenten la misma variable
endógena).

En este caso se tiene en cuenta explícitamente el tamaño de la muestra. Según este


criterio es preferible aquel modelo que presente un valor del estadístico de
Schwarz menor.

Otra alternativa al criterio propuesto por Akaike es el propuesto por Hannan--


Quinn (1979) que se define como:
2∗ 𝐾∗ ln(ln 𝑛) 2𝑙
𝐻 − 𝑄 = 𝐻𝑎𝑛𝑛𝑎𝑛 − 𝑄𝑢𝑖𝑛𝑛 = − (68)
𝑛 𝑛

Dicho estadístico, al igual que el AIC de Akaike, sirve para comparar la bondad
del ajuste entre dos modelos. En este caso se tiene en cuenta explícitamente el
tamaño de la muestra. Según este criterio es preferible aquel modelo que presente
un valor del estadístico de Hannan-Quinn menor.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


31
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2.9 Medidas de bondad del ajuste

Dado que las pruebas tradicionales de bondad del ajuste, tales como el R2, no son

válidas en los modelos en los que la variable endógena toma exclusivamente los

valores uno o cero, se van a proponer unas medidas alternativas que midan la

bondad del ajuste del modelo a los datos.

2.9.1 R2 propuesto por MCFADDEN (1974) (MC FADDEN R-


SQUARED)

Que se define como:

lnLSR
R 2 McFadden =  2 = 1 − ( )
lnLCR ( solo con int ercepto )
LSR  LCR / 0  L  1 0.2   2  0.4 Indicador de un buen
ln LSR  ln LCR  0

ajuste

Donde, InLcR es el logaritmo de la función de verosimilitud del modelo


restringido (con restricciones) que se obtiene bajo la hipótesis nula:

H 0 :  2 = 3 = ... =  k = 0

 L(0) = LCR
 ln L(0) = ln LCR
 l (0) = lCR

El estadístico propuesto no tiene una interpretación tan directa como el R 2 en el

modelo de regresión lineal. En concreto, toma el valor uno cuando la predicción

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


32
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

es perfecta es decir, cuando la probabilidad estimada de que se produzca el evento

es uno y es cero cuando no se produzca el evento. Por su parte, el estadístico

tomará el valor cero cuando ambas funciones de verosimilitud sean iguales. El

problema es que, fuera de estos dos valores extremos, el estadístico no tiene un

significado tan intuitivo como el coeficiente de determinación. Algunos autores

han señalado que, en realidad, lo que este estadístico mide es el porcentaje de

«incertidumbre» en los datos explicada por el modelo. Como Regla práctica, es de

esperar que un buen modelo tenga un 𝜌2 Entre 0.2 y 0.4 ( Colin Cameron & Trivedi,

2005).

2.10. Prueba de significancia global con el criterio de razón de


verosimilitud (LR)

Razón de Verosimilitud 8 entre ambas funciones, que se define como:

𝐿𝐶𝑅
𝐿𝑅 = −2 ln(𝜆) = −2𝑙𝑛 ( ) = 2(𝑙𝑛𝐿𝑆𝑅 − 𝑙𝑛𝐿𝐶𝑅 ) = −2(𝑙𝐶𝑅 − 𝑙𝑆𝑅 ) (69)
𝐿𝑆𝑅

El estadístico 𝐿𝑅 = −2 ln(𝜆) se distribuye según una  2 ; con un número de


grados de libertad igual al número de restricciones.

LR  K 2  Re chaza la H0  Pr ob( LR)   (70)

LR  K 2  Acepta la H 0  Pr ob( LR)  


(71)
 = 5%,10%( Nivel de significancia)
Donde:
H 0 :  2 = 3 =  4 = ... k = 0
(72)
H1 :  2  3   4  ... k  0

8
En el Eviews es LR statistic (K df) donde K df son los grados de libertad igual al número de variables explicativas en
el modelo. Estos se ven cuando estimo el modelo ya sea Logia o Probit.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


33
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2.9.3 Proporción de predicciones correctas (expectacion-prediccion).

Se puede representar, también, una medida de la bondad del ajuste al considerar

el porcentaje de predicciones correctas que proporciona la estimación. Para ello,

consideramos un valor verdadero de 𝑌 ∗ 𝑖 y el obtenido a partir de la estimación o

predicción Yi, de forma que:

Tabla N 2: Clasificación de las predicciones


Valor real del regresando 𝑌𝑖

𝑌𝑖 = 1 𝑌𝑖 = 0

Frecuencia = 𝐼.1 Frecuencia = 𝐼.2

𝑌̂𝑖 > 𝐶 = 0.5 Frecuencia de aciertos = 𝐼11 Frecuencia de errores =

Frecuencia = 𝐼1 . ( Predicción Correcta) 𝐼12 (Predicción errónea)

Predicción

de 𝑌̂𝑖

Es la
𝑌̂𝑖 < 𝐶 = 0.5 Frecuencia de errores =𝐼12 Frecuencia de aciertos
probabilidad
Frecuencia = 𝐼2 (Predicción errónea) =𝐼22
estimada de Pi

(Predicción correcta)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


34
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Analizando la tabla se comprueba que las frecuencias dispuestas en la diagonal

principal corresponden a las predicciones correctas, mientras que las frecuencias

de la diagonal secundaria son las que no se adecuan al modelo. Se define el

estadístico pseudo coeficiente de determinación de la predicción.

𝑃𝑟𝑒𝑑𝑖𝑐𝑐𝑖𝑜𝑛𝑒𝑠 𝑐𝑜𝑟𝑟𝑒𝑐𝑡𝑎𝑠 𝐼11 +𝐼22


𝑃𝑠𝑒𝑢𝑑𝑜 𝑅2 𝑑𝑒 𝑝𝑟𝑒𝑑𝑖𝑐𝑐𝑖ó𝑛 = = (73)
𝐹𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑡𝑜𝑡𝑎𝑙 𝐼11 +𝐼22 +𝐼33 +𝐼44

En el caso de los modelos MLP, Logit, Probit y Valor Extremo se asigna gene-
ralmente el valor de predicción igual a uno cuando 𝑌̂𝑖 > 0.5 e igual a cero
cuando ̂𝑌𝑖 < 0.5. (Bernardí Cabrer Borrás & Amparo Sancho Pérez, Guada, 2001)

3. Procedimiento para estimar un modelo

Para estimar correctamente un modelo discreto se sugiere seguir los pasos que se
explican a continuación (Beltran Barco, 2001):

1. Analizar la matriz de correlaciones entre la dependiente y el conjunto de


posibles explicativas. A partir de ella se busca rescatar dos cosas:

➢ Establecer el grado de relación de las explicativas y la dependiente como su


signo esperado.
➢ Establecer la posible correlación entre explicativas potenciales, regla
práctica, si dos variables tienen una correlación mayor a 75% debe elegir
entre ellas a aquella que ajuste mejor; no incluir a ambas: el modelo.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


35
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

2. Analizar tablas cruzadas entre la dependiente y las explicativas que

mostraron en 1 ser las más relacionadas con la primera. A través de este

análisis pretende confirmar la dirección y magnitud de la relación.

3. Estimar la ecuación con todas las explicativas que aparecieron como

relevantes en 1 y 2. Una vez corrido el modelo dejar aquellas explicativas

que tengan el signo esperado y cuya probabilidad asociada a t no sea

mayor a 10% o 15%. Nótese que en el caso de los modelos discretos él t

reduce su validez por lo que se relaja la necesidad de ser muy estrictos

respecto de las conclusiones que arroja este test. Esta regla práctica se da

porque el t estadístico pierde relevancia debido a problemas de

multicolinealidad.

Uno de los resultados claves del modelo estimado es la predicción de probabilidad

asociada a la variable dependiente, la misma que puede ser determinada para la

media muestral o para individuos con características específicas dentro de la

muestra.

3.1. Efecto impacto, marginal o efecto escala

Determinar los efectos impactos de las variables explicativas del modelo. En caso
de una variable explicativa continua k éste sería igual a:
𝜕𝑃𝑟𝑜𝑏(𝑌𝑖 =1)
𝐸𝐼 = = 𝑓(𝛽, 𝑋𝑖 )𝛽̂𝑘𝑖 (74)
𝜕𝑋𝐾

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


36
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Acá la probabilidad no permanece constante, sino que depende de la función de

densidad 𝑓(𝛽̂𝑋𝑖 ) que viene a ser la derivada de la función de distribución

acumulada Logit o Probit ya explicados9

El mismo que puede ser evaluado en la media muestral o para un conjunto

específico de valores de las explicativas.

• En el caso de una variable explicativa discreta tendría que calcularse la

diferencia de la probabilidad cuando dicha variable toma un valor u otro.

Pe ejemplo, si estamos analizando la decisión de trabajar y la variable

explicativa de interés es el sexo de la persona, definido como 1 si es hombre

y 0 si e mujer, el efecto impacto de la misma sobre la probabilidad de trabajar

sería:

𝐸𝐼𝑥2 = 𝐹(𝛽1 + 𝛽2 (1) + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 )


(75)
− 𝐹(𝛽1 + 𝛽2 (0) + 𝛽3 𝑋3𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 )

En este caso también podría calcularse el efecto para la media muestral o para

características determinadas del individuo.

Note que cualquiera sea el tipo de variable explicativa, el efecto impacto arroja

el cambio de la probabilidad, en puntos porcentuales, frente a la variación en

una unidad de la explicativa, razón por la cual su utilidad mayor cuando

analizamos explicativas discretas. Se determina la elasticidad de la

probabilidad respecto de cambios en las variables explicativas. La misma

puede definirse como para las variables explicativa k:

9
Tener en cuenta que en la formulación de estos modelos la especificación es con la funcion de distribución
acumulada y no la función de densidad.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


37
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

𝑋̅𝑘
𝑛𝑘 𝐸𝐼𝑋𝐾 ∗ ( ) (76)
𝐹(𝛽 , 𝑋𝑖 )

La elasticidad indica el cambio porcentual en la probabilidad ante una variación de

1 % en la variable explicativa de interés, razón por la cual resulta más conveniente

estimarla para explicativas continúas. No obstante, dado que carece de unidades, la

elasticidad puede servir también para rankear todas las variables explicativas de

acuerdo con su importancia relativa en el modelo.

4. Aplicaciones en R Studio

El fichero que se va a usar corresponde a la Encuesta sobre Equipamiento y Uso de

Tecnologías de la Información y Comunicación en los hogares realizada en 2011 (TIC-

H 2011) (http://www.ine.es/prodyser/micro_tich.htm ), y más concretamente a la

muestra para Andalucía de 3.485 personas. La variable dependiente será el uso de

internet (¿Ha usado internet alguna vez?) de la persona seleccionada en el hogar.

Como posibles variables explicativas consideraremos la edad, el sexo, el nivel de

estudios alcanzado y el hábitat.

Los datos están en un fichero sav de SPSS1, que se puede leer en R utilizando el paquete

foreign (R Core Team, 2013a).

library(foreign)
setwd("C:/Users/RAFAEL/Documents/modelos MPL T de micro")
# mostrar directorio actual
getwd()

# el fichero de datos está en el directorio Datos del nivel superior


# lectura del fichero con read.spss indicando el path, los '..' indican el
# directorio superior al actual
datos <- read.spss(file = "../Datos/t11And_18_mas.sav", use.value.labels = TRUE,
to.data.frame = TRUE)
Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.
38
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Como sólo nos interesan algunas variables del total, vamos a construir un nuevo data.frame
que
contenga sólo a las variables de interés. También recodificamos la variable uso_int (uso de
internet), para que valga 110 si la persona ha utilizado alguna vez internet y 0 en otro caso,
utilizando la función ifelse11 (Cañadas Reche, 2003).

uso_int <- datos$USO_INT


uso_int <- ifelse(uso_int == 1, 1, 0)
sexo <- datos$SEXO
edad <- datos$EDAD
nivelest <- datos$NIVELEST
habitat <- datos$HABITAT
datos.bin <- data.frame(uso_int, sexo, edad, nivelest, habitat)
# borramos todos los objetos creados salvo el data.frame datos.bin, para
# evitar confusiones
rm(uso_int, sexo, edad, nivelest, habitat)

En algunas variables ha tomado el valor del código en vez de la etiqueta. En R es importante


saber qué tipo de objeto es cada variable, puesto que la mayoría de funciones lo tienen en
cuenta. Para ver el tipo de un objeto, se puede utilizar la función class12. Utilizamos la
función sapply que toma

10
La codificación original de las variables se puede ver en ftp://www.ine.es/temas/tich/tich_disreg_11.xls
11
La función ifelse es una versión vectorial de la función if. Aplicada a un vector evalúa la condición sobre todos los elementos
devolviendo un vector de la misma longitud que el original.

12

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


39
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

como argumento el data.frame, y a cada elemento del data.frame (variables) le aplica la


función que especifiquemos (Cañadas Reche, 2003).

sapply(datos.bin, class)

## uso_int sexo edad nivelest habitat


## "numeric" "factor" "numeric" "numeric" "numeric"

El nivel de estudios y el hábitat deberían ser variables categóricas, así que vamos a
convertirlas a la clase factor.

datos.bin$habitat <- factor(datos.bin$habitat, levels = 0:6, labels = paste("estrato",0:6, sep =


""))
datos.bin$nivelest <- factor(datos.bin$nivelest)
sapply(datos.bin, class)

Hemos especificado que la convierta a factor y que tome las categorías de 0 a 6, con
etiquetas iguales a estrato0, estrato1, etc. Con la función levels vemos cuales son los niveles
de los factores.

levels(datos.bin$habitat)
## [1] "estrato0" "estrato1" "estrato2" "estrato3" "estrato4" "estrato5"
## [7] "estrato6"
levels(datos.bin$nivelest)
## [1] "1" "2" "3" "4" "5" "6" "7" "8" "9"

Estrat Descripción
o

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


40
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

0 Capitales provincia de más de 500 mil habitantes

1 Resto de capitales de provincia

2 Municipios (no capitales) con más de 100 mil habitantes


3 Municipios (no capitales) con más de 50 mil y menos de 100
mil habitantes
4 Municipios con más de 20 mil y menos de 50 mil habitantes

5 Municipios con más de 10 mil y menos de 20 mil habitantes

6 Municipios con menos de 10 mil habitantes

Las frecuencias en cada estrato se pueden obtener utilizando table, y con barplot

obtenemos su representación gráfica.

barplot(table(datos.bin$habitat), cex.names = 0.7, cex.axis = 0.7)

Figura N1: frecuencias de encuestados en cada estrato de hábitat.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


41
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Se observa que el estrato con más casos es el que corresponde a los municipios de menos

de 10.000 habitantes. Para el nivel de estudios los códigos se corresponden con las

siguientes categorías.

Código Descripción
1 Analfabetos
2 Educación primaria
3 Primera etapa de la educación secundaria
4 Segunda etapa de la educación secundaria
5 Enseñanza postsecundaria no superior
6 Formación profesional de grado superior
7 Educación superior universitaria (excepto
Doctores)
8 Título de Doctorado
9 No se puede codificar

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


42
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Recodificamos las categorías del nivel de estudios utilizando por ejemplo la función

recode del paquete car.

library(car)
datos.bin$nivelest <- with( datos.bin, recode( nivelest,
" c(1,9) = 'Analfabetos';
2:3 = 'Primaria';
4:6 = 'Secundaria y F.P';
7:8= 'Universitaria o superior'")
)
levels(datos.bin$nivelest)
## [1] "Analfabetos" "Primaria"
## [3] "Secundaria y F.P" "Universitaria o superior"

La función with permite no tener que utilizar la indexación o el símbolo $ para utilizar

una variable que esté dentro de un data.frame. Se utilizará indistintamente el uso de

with con el de los corchetes o el símbolo $.

Utilizando de nuevo barplot, obtenemos el gráfico de las frecuencias.

barplot(table(datos.bin$nivelest), cex.names = 0.6, cex.axis = 0.7)

FIGURA N2: FRECUENCIAS DE ENCUESTADOS EN CADA NIVEL DE ESTUDIOS.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


43
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Vemos un resumen de los datos con summary.

uso_int sexo edad


Min. :0.000 Hombre:1517 Min. : 18.00
1st Qu.:0.000 Mujer :1968 1st Qu.: 38.00
Median :0.000 Median : 52.00
Mean :0.468 Mean : 52.98
3rd Qu.:1.000 3rd Qu.: 69.00
Max. :1.000 Max. :101.00

nivelest habitat
Analfabetos : 290 estrato0: 343
Primaria :2061 estrato1: 454
Secundaria y F.P : 692 estrato2: 134
Universitaria o superior: 442 estrato3: 306
estrato4: 349
estrato5: 570
estrato6:1329

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


44
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

La media de uso_int es de 0.468, es decir, un 46.8% de los encuestados responden que

han utilizado internet alguna vez. La distribución de la variable uso_int según las

distintas variables explicativas, la podemos obtener utilizando la función prop.table. La

función prop.table aplicada a una tabla devuelve la proporción de cada celda, también

se puede calcular la proporción de las filas o de las columnas especificando 1 o 2 en el

argumento margin13. Distribución uso_int según sexo.

with(datos.bin, prop.table(table(sexo, uso_int), margin = 1))

uso_int
sexo 0 1
Hombre 0.4891233 0.5108767
Mujer 0.5650407 0.4349593

Distribución uso_int según edad. Utilizamos la función cut para dividir la variable

edad en 5 intervalos de igual amplitud.

with(datos.bin, prop.table(table(cut(edad, 5), uso_int), 1))


uso_int
0 1
(17.9,34.6] 0.083958021 0.916041979
(34.6,51.2] 0.309004739 0.690995261
(51.2,67.8] 0.706443914 0.293556086
(67.8,84.4] 0.945137157 0.054862843
(84.4,101] 0.991869919 0.008130081

with(datos.bin, prop.table(table(habitat, uso_int), 1))

uso_int
habitat 0 1
estrato0 0.4752187 0.5247813
estrato1 0.4691630 0.5308370
estrato2 0.3955224 0.6044776
estrato3 0.4836601 0.5163399
estrato4 0.5100287 0.4899713
estrato5 0.4947368 0.5052632
13 estrato6
El nombre 0.6147479
del argumento se puede0.3852521
obviar si se ha introducido en el orden correcto. R interpreta que si no
se especifica el nombre del argumento, lo asigna en función de la posición en que aparece en la función.
Utilizando args(funcion) se puede ver en qué orden aparecen los argumentos.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


45
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Distribución uso_int según hábitat.

with(datos.bin, prop.table(table(habitat, uso_int), 1))


uso_int
habitat 0 1
estrato0 0.4752187 0.5247813
estrato1 0.4691630 0.5308370
estrato2 0.3955224 0.6044776
estrato3 0.4836601 0.5163399
estrato4 0.5100287 0.4899713
estrato5 0.4947368 0.5052632
estrato6 0.6147479 0.3852521

Distribución uso_int según nivel de estudios.

with(datos.bin, prop.table(table(nivelest, uso_int), 1))


uso_int
nivelest 0 1
Analfabetos 0.98965517 0.01034483
Primaria 0.69529355 0.30470645
Secundaria y F.P 0.14450867 0.85549133
Universitaria o superior 0.07692308 0.92307692

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


46
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Asumiendo que las n observaciones son independientes, la función de verosimilitud

viene dada por

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


47
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

La estimación de los parámetros se obtiene maximizando la función de verosimilitud

de los datos respecto de los parámetros del modelo. Para los modelos logit, la log-

verosimilitud es una función cóncava y por tanto los estimadores máximos verosímiles

existen y son únicos.

El cálculo de los estimadores es más complejo que para los modelos lineales y requieren

métodos de aproximación iterativa como el de Newton -Raphson, gradiente

descendente o estimación por mínimos cuadrados iterativamente reponderados. En el

apéndice A, se puede encontrar una descripción de las distintas formas de ajuste y cómo

se pueden programar en R.

4.1. Función glm

Para ajustar un modelo lineal generalizado, la función genérica que se usa en R es glm.
Cuyos argumentos son:

args(glm)
function (formula, family = gaussian, data, weights, subset,
na.action, start = NULL, etastart, mustart, offset, control = l
ist(...),
model = TRUE, method = "glm.fit", x = FALSE, y = TRUE,
singular.ok = TRUE, contrasts = NULL, ...)
NULL

Los argumentos más importantes de glm son formula, family, data y subset. El

argumento formula es ampliamente usado en la modelización con R y permite una

sintaxis comprensible

para expresar relaciones entre variables. La sintaxis de formula describe la relación

entre la variable respuesta y las variables predictoras.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


48
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

formula tiene tres partes: el lado izquierdo, el símbolo ~ y el lado derecho. En el lado

izquierdo

se especifica la variable respuesta, normalmente el nombre de la variable, aunque

también se pueden poner expresiones matemáticas dentro de la función glm como por

ejemplo log(variable), o sqrt(variable), sin necesidad de crear una nueva variable. El

símbolo ~ se usa como separador. El lado derecho de una fórmula es una expresión

especial que incluye los nombres de las variables predictoras. Por ejemplo, si utilizamos

la función lm para ajustar regresión lineal y escribimos lm(y~x1), se ajusta el modelo y

El argumento family sirve para indicar el componente aleatorio del modelo, así como

la función de enlace (link) que se utilizará. Si especificamos family=binomial, o

simplemente binomial, la función glm utilizará la función logit como función de enlace.

La elección de otra función de enlace se especifica mediante el argumento link, por

ejemplo, para ajustar un modelo probit se escribiría family=binomial(link=probit)

Los argumentos datan y subset son para especificar respectivamente, el data frame

dónde están los datos, y si se va a realizar el análisis sobre un subconjunto de los

mismos. Si las variables del modelo no están en un data frame, el argumento data no es

necesario.

En R, cuando la variable respuesta es binaria, ésta debe venir expresada bien en 0 y 1

(fracaso, éxito), o ser una variable lógica (con TRUE siendo el éxito y FALSE el fracaso)

o como un factor, en cuyo caso la primera categoría6 representa los fracasos y la otra los

éxitos. También se puede considerar el caso general de una variable de respuesta

binomial, dónde la variable de respuesta es el número de éxitos en uno o más ensayos.

En este caso la sintaxis de glm varía levemente, como se verá cuando se trate el ajuste

del modelo con datos agrupados.

Un ejemplo típico de la sintaxis de la función glm es.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


49
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

glm(y ~ x, family = binomial, data = mis.datos)

Dónde y es una variable discreta con valores 0, 1 y x una variable continua (aunque se

verá más adelante que también podría ser una categórica, en cuyo caso glm crea

internamente las variables de diseño asociadas), que están en el data frame “mis.datos”.

Se ha especificado la familia binomial, la cual toma por defecto la función logit como

función de enlace.

La función glm es la más usual para ajustar modelos lineales generalizados, si bien

también existen alternativas en algunos paquetes desarrollados por la comunidad de R,

tales como la función lrm en el paquete rms o vglm del paquete VGAM, o se pueden

crear funciones propias implementando algún algoritmo iterativo de ajuste, como el de

Newton-Raphson. En el apéndice A se verán algunas funciones sencillas para ajustar el

modelo mediante otros procedimientos.

4.2. Datos sin agrupar

En el ajuste de un modelo de regresión logística, nos referimos a datos sin agrupar

cuando tenemos los datos de forma que, para cada observación tenemos el valor de la

variable repuesta. Los datos de la encuesta TIC son datos sin agrupar, dónde para cada

individuo se tiene el valor 1 si ha utilizado internet alguna vez y 0 en caso contrario.

> # 3 primeras filas


> head(datos.bin)
uso_int sexo edad nivelest habitat
1 0 Hombre 52 Primaria estrato1
2 0 Mujer 76 Primaria estrato1
3 0 Mujer 73 Primaria estrato1
4 0 Mujer 66 Primaria estrato1
Modelos
5 Logit y
0Probit
Hombreen R Studio
53Bustamante Romaní, Rafael. estrato1
Primaria
6 1 Mujer 63 Secundaria y F.P estrato1 50
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

FIGURA N 3: USO DE INTERNET Y EDAD. DATOS SIN AGRUPAR

Para evitar el solapamiento de los puntos en la figura (3), se ha utilizado la función jitter

que

añade un pequeño error aleatorio.

Al modelo de regresión logística con datos de este tipo se le denomina regresión

logística binaria, ya que la variable respuesta toma sólo dos valores. El ajuste de un

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


51
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

modelo de regresión logística para la variable uso_int, tomando como variable

explicativa la edad, utilizando la función glm es.

modelo.1 <- glm(uso_int ~ edad, data = datos.bin, family = binomial)

> class(modelo.1)
[1] "glm" "lm"

En este objeto se han guardado varias características y valores del ajuste. Para ver qué

se ha guardado en modelo.1 podemos utilizar varias funciones, como str (structure) o

names.

En la ayuda de glm se explica con mayor detalle el uso de la función y qué resultados

devuelve. Por ejemplo, en fitted.values se han guardado los valores predichos para

p(x). En linear.predictors se tienen los valores ajustados en la escala de la función link,

es decir, los valores ajustados para log( p ( x) .


)
1 − p ( x)
residuals no se corresponde con los residuos de pearson o los de la devianza, sino que

son los últimos obtenidos en el algoritmo de reponderación por mínimos cuadrados

utilizado en el ajuste. Para obtener los residuos correctamente se utilizará la función

residuals, que aplicada a un objeto de tipo glm, permite obtener varios tipos de

residuos. Otras funciones que extraen o calculan valores son fitted (valores ajustados),

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


52
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

coef (coeficientes del modelo) o predict, que aplicada a un data.frame permite calcular

los valores predichos por el modelo (Cañadas Reche, 2003).

Para acceder a los valores guardado en modelo.1, se puede utilizar indistintamente la

indexación mediante corchetes o el símbolo $.

# primeros 6 valores predichos para p(x)


> head(modelo.1$fitted.values)
1 2 3 4 5
0.45687341 0.05369925 0.07363600 0.14858605 0.42916009
6
0.19643823
>
>
> # primeros 6 valores de los residuos del m??todo de ajuste
> head(modelo.1$residuals)
1 2 3 4 5 6
-1.841191 -1.056746 -1.079489 -1.174517 -1.751805 5.090659
>
> # primeros 6 valores de los residuos de pearson
> head(residuals(modelo.1, type = "pearson"))
1 2 3 4 5
-0.9171649 -0.2382152 -0.2819384 -0.4177521 -0.8670667
6
2.0225377

Otra forma de acceder a la información del modelo es simplemente escribiendo el

nombre del objeto.

modelo.1

Call: glm(formula = uso_int ~ edad, family = binomial, data =


datos.bin)

Coefficients:
(Intercept) edad
5.6689 -0.1123

Degrees of Freedom: 3484 Total (i.e. Null); 3483 Residual


Null Deviance: 4817
Residual Deviance: 2917 AIC: 2921

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


53
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

que muestra parte de la información más importante del modelo, tal como los

coeficientes ajustados, la devianza del modelo ajustado y la del modelo nulo. R

denomina modelo nulo al modelo sin variables explicativas, este modelo es el más

simple que se puede considerar, y estima la misma respuesta para todas las

observaciones, asignando como estimación común la proporción muestral de éxitos.

Al asignar a modelo.1 el resultado de la función glm, hemos creado un objeto de tipo

glm.

class(modelo.1)
## [1] "glm" "lm"

En este objeto se han guardado varias características y valores del ajuste. Para ver qué
se ha guardado en modelo.1 podemos utilizar varias funciones, como str (structure) o
names.

names(modelo.1)
[1] "coefficients" "residuals" "fitted.values"
[4] "effects" "R" "rank"
[7] "qr" "family" "linear.predict
ors"
[10] "deviance" "aic" "null.deviance"
[13] "iter" "weights" "prior.weights"
[16] "df.residual" "df.null" "y"
[19] "converged" "boundary" "model"
[22] "call" "formula" "terms"
[25] "data" "offset" "control"
[28] "method" "contrasts" "xlevels"
Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.
54
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

En la ayuda de glm se explica con mayor detalle el uso de la función y qué resultados

devuelve. Por ejemplo, en fitted.values se han guardado los valores predichos para p(x).

En linear.predictors se tienen los valores ajustados en la escala de la función link, es

decir, los valores ajustados para log( p(x)/ 1 − (px) ).

residuals no se corresponde con los residuos de pearson o los de la devianza, sino que

son los últimos obtenidos en el algoritmo de reponderación por mínimos cuadrados

utilizado en el ajuste. Para obtener los residuos correctamente se utilizará la función

residuals, que aplicada a un objeto de tipo glm, permite obtener varios tipos de

residuos. Otras funciones que extraen o calculan valores son fitted (valores ajustados),

coef (coeficientes del modelo) o predict, que aplicada a un data.frame permite calcular

los valores predichos por el modelo.

Para acceder a los valores guardados en modelo.1, se puede utilizar indistintamente la

indexación mediante corchetes o el símbolo $.

> # coeficientes del modelo


> modelo.1[1]
$coefficients
(Intercept) edad
5.6688855 -0.1123427
# devianza
modelo.1$deviance
## [1] 2917
# primeros 6 valores predichos para p(x)
head(modelo.1$fitted.values)
## 1 2 3 4 5 6
## 0.45687 0.05370 0.07364 0.14859 0.42916 0.19644

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


55
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Un resumen del modelo se puede obtener utilizando la función genérica summary, la

cual extrae diferente información según la clase del objeto a la que se le aplique.

summary(modelo.1)

Call:
glm(formula = uso_int ~ edad, family = binomial, data = datos.
bin)

Deviance Residuals:
Min 1Q Median 3Q Max
-2.7102 -0.5973 -0.2022 0.6640 2.9093

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 5.668886 0.187706 30.20 <2e-16 ***
edad -0.112343 0.003605 -31.16 <2e-16 ***
---
Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 4817.0 on 3484 degrees of freedom


Residual deviance: 2916.8 on 3483 degrees of freedom
AIC: 2920.8

Number of Fisher Scoring iterations: 5

summary ofrece un resumen del modelo de forma más ordenada, en primer lugar,

muestra la expresión utilizada para ajustar el modelo, junto con algunos valores

descriptivos de los residuos de la devianza, como el mínimo, máximo, mediana y

primer y tercer cuartil.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


56
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Los coeficientes del modelo los muestra en formato tabular, añadiendo el error

estándar, y el valor z14 que es el coeficiente dividido por el error. Este valor se utiliza en

el test de Wald para contrastar si el coeficiente es significativo. En la tercera columna

muestra el p-valor de ese contraste y a qué nivel de confianza es significativo. Por último

se muestra la devianza del modelo nulo (null deviance) y del modelo ajustado (Residual

deviance), con sus respectivos grados de libertad, así como el valor del

AIC (Criterio de información de Akaike) que es una modificación de la devianza en la

que se tiene en cuenta el número de parámetros ajustados.15

El modelo ajustado mediante glm tiene la siguiente expresión.

with(datos.bin, plot(jitter(edad), jitter(uso_int, 0.2), xlab = "Edad", ylab = quote(p(x)),


main = "Curva ajustada", cex = 0.4, cex.axis = 0.6, cex.lab = 0.6, cex.main = 0.7))
# Añadimos la función ajustada
curve(1/(1 + exp(-modelo.1$coefficients[1] - modelo.1$coefficients[2] * x)), add = TRUE)

14 Se utiliza z porque la distribución asintótica del parámetro es normal, a diferencia de en los modelos lineales en los que
la distribución es la t de Student.
15 La devianza se utiliza en la evaluación del ajuste global del modelo, mientras que el valor de AIC es útil en la comparación

de modelos y en la selección automática de variables (apartado 4.5)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


57
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

CURVA AJUSTADA

4.4.Datos agrupados

Considerando el mismo ejemplo que en el apartado anterior, pero agrupando por edad

se tiene la siguiente tabla.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


58
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

habitat no.internet si.internet


estrato0 163 180
estrato1 213 241
estrato2 53 81
estrato3 148 158
estrato4 178 171
estrato5 282 288
estrato6 817 512

La variable respuesta es el número de éxitos en un número fijo de N ensayos

independientes. El ajuste de un modelo de regresión logística a este tipo de datos se

conoce como regresión logística binomial. La regresión logística binaria es un caso

particular dónde N = 1.

En el ajuste de este tipo de datos es necesario especificar tanto el número de éxitos como

el número de casos en cada una de las combinaciones. En la función glm se especifica

el número de éxitos y fracasos mediante el argumento formula, creando con la función

cbind una matriz con dos columnas, la primera con el número de éxitos y la segunda

con el número de fracasos. Una alternativa es poner en el argumento formula como

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


59
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

variable respuesta la proporción de éxitos, y en el argumento weights, el número total

de casos. El código para el ajuste es (Cañadas Reche, 2003).

Para representar gráficamente el ajuste, calculamos en primer lugar la proporción

muestral del uso de internet en cada combinación de edad

modelo.2 <- glm(cbind(si.internet, no.internet) ~ edad, data = iagrupado, family =


binomial)

summary(modelo.2)
Call:
glm(formula = cbind(si.internet, no.internet) ~ edad, family = b
inomial,
data = iagrupado)

Deviance Residuals:
1 2 3 4 5 6 7
-1.6448 -0.5494 2.0073 0.8275 0.8527 3.0381 -2.3420
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.11746 0.34888 6.069 1.29e-09 ***
edad -0.10222 0.01581 -6.467 1.00e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 65.340 on 6 degrees of freedom


Residual deviance: 23.164 on 5 degrees of freedom
AIC: 72.199

Number of Fisher Scoring iterations: 3

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


60
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Este modelo estima los mismos parámetros que el modelo.1, pero vemos que el valor

de la

devianza es distinto. Esto es debido a cómo se han considerado los datos, en el primer

caso se ajustan 3.485 individuos, mientras en el segundo el ajuste es sobre 79

combinaciones de edad, nótese que los grados de libertad de la Residual deviance, son

en el primer caso de 3.483 ( 3.485 individuos menos 2 parámetros ajustados) y en otro

de 77 (79 valores de edad en la encuesta menos 2 parámetros ajustados).

La devianza, provee una medida de la falta de ajuste de un modelo, pero sólo en el caso

de que se trate con datos agrupados9. Una demostración de la diferencia del cálculo de

la devianza, y de por qué no es una medida de la falta de ajuste en el caso de datos no

agrupados, se puede encontrar en el libro “A Modern Approach to Regression with R”

(Sheather, 2009) y que reproducimos en el apéndice B.

Para representar gráficamente el ajuste, calculamos en primer lugar la proporción

muestral del uso de internet en cada combinación de edad.

iagrupado$prop <- with(iagrupado, si.internet/(si.internet + no.internet))


head(iagrupado)

head(iagrupado)
edad habitat no.internet si.internet prop
1 18 estrato0 163 180 0.5247813
2 19 estrato1 213 241 0.5308370
3 20 estrato2 53 81 0.6044776
4 21 estrato3 148 158 0.5163399
5 22 estrato4 178 171 0.4899713
6 23 estrato5 282 288 0.5052632

>

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


61
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

y utilizando las funciones plot y curve representamos las proporciones muestrales y la


curva logit
ajustada por el modelo.

plot(iagrupado$edad, iagrupado$prop, cex = 0.4, cex.axis = 0.6, cex.lab = 0.6,


cex.main = 0.7, xlab = "Edad", ylab = quote(p(x)), main = "Curva ajustada para los
datos agrupados")
curve(1/(1 + exp(-modelo.2$coefficients[1] - modelo.2$coefficients[2] * x)),
add = TRUE)

4.5. Variables explicativas nominales y ordinales.

Tal y como se comenta en la sección (2.4), cuando se tienen variables explicativas

categóricas, el problema se reduce a codificarlas y tratar a las variables auxiliares

obtenidas como numéricas. La codificación más utilizada es la codificación parcial y es

la que R toma por defecto utilizando como categoría de referencia la primera. Cuando

se tienen factores es conveniente utilizar la orden levels(variable) que nos devuelve las

categorías ordenadas de la variable.

4.5.1. Una variable explicativa categórica

Retomando los datos del uso de internet entre los andaluces, teníamos como variables

categóricas el sexo, el nivel de estudios y el hábitat. Para ver cómo las va a codificar R

para los distintos procedimientos, utilizamos la función contrasts10. Para la variable

hábitat, por ejemplo, se tiene.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


62
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

contrasts(datos.bin$habitat)

4.6. Variables explicativas nominales y ordinales.

Cuando se tienen variables explicativas categóricas, el problema se reduce a codificarlas

y tratar a las variables auxiliares obtenidas como numéricas. La codificación más

utilizada es la codificación parcial y es la que R toma por defecto utilizando como

categoría de referencia la primera. Cuando se tienen factores es conveniente utilizar la

orden levels(variable) que nos devuelve las categorías ordenadas de la variable.

4.7. Una variable explicativa categórica

Retomando los datos del uso de internet entre los andaluces, teníamos

como variables categóricas el sexo, el nivel de estudios y el hábitat. Para

ver cómo las va a codificar R para los distintos procedimientos, utilizamos

la función contrasts. Para la variable hábitat, por ejemplo, se tiene16.

16
En la ayuda de la función, se explica cómo especificar otro tipo de codificaciones.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


63
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

contrasts(datos.bin$habitat)
estrato1 estrato2 estrato3 estrato4 estrato5 estrato6
estrato0 0 0 0 0 0 0
estrato1 1 0 0 0 0 0
estrato2 0 1 0 0 0 0
estrato3 0 0 1 0 0 0
estrato4 0 0 0 1 0 0
estrato5 0 0 0 0 1 0
estrato6 0 0 0 0 0 1

En las filas tenemos las categorías originales y en las columnas las variables auxiliares,

tantas como categorías existentes menos una. El estrato0 lo ha codificado con el valor 0

en todas las variables auxiliares y al resto de categorías les pone el valor 1 en una

variable auxiliar y 0 en el resto.

En la tabla sobre el uso de internet en los diferentes estratos, vimos que el estrato6

(municipios de menos de 10 mil habitantes), es dónde hay una menor proporción del

uso de internet (0.3853), así que vamos a tomar este estrato como referencia. Utilizando

la función relevel podemos cambiar la categoría de referencia.

Con la función levels, vemos que ahora la primera categoría es estrato6

> levels(datos.bin$habitat)

[1] "estrato0" "estrato1" "estrato2" "estrato3" "estrato4"


[6] "estrato5" "estrato6"

Y con contrasts, como sería la nueva recodificación en variables auxiliares.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


64
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

> contrasts(datos.bin$habitat)
estrato1 estrato2 estrato3 estrato4 estrato5 estrato6
estrato0 0 0 0 0 0 0
estrato1 1 0 0 0 0 0
estrato2 0 1 0 0 0 0
estrato3 0 0 1 0 0 0
estrato4 0 0 0 1 0 0
estrato5 0 0 0 0 1 0
estrato6 0 0 0 0 0 1

El modelo ajustado si sólo tenemos como variable explicativa el hábitat sería:

Al haber especificado que hábitat es de tipo factor, R construye las variables auxiliares

automáticamente. La sintaxis sería la siguiente.

modelo.3 <- glm(uso_int ~ habitat, data = datos.bin, family = binomial)

Es decir, en la sintaxis de la función glm sólo se indica el nombre de la variable

categórica y la función identifica que se trata de una variable tipo factor e incorpora las

variables auxiliares en la “matriz del modelo”. Dicha matriz contiene una columna de

unos para el intercept y las 5 columnas con las variables auxiliares. Podemos ver la

matriz del modelo con la función model.matrix.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


65
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

# matriz del modelo para los 3 primeros individuos


> head(model.matrix(modelo.3), 3)
(Intercept) habitatestrato1 habitatestrato2 habitatestrato3
1 1 1 0 0
2 1 1 0 0
3 1 1 0 0
habitatestrato4 habitatestrato5 habitatestrato6
1 0 0 0
2 0 0 0
3 0 0 0

Así, el modelo de regresión logística con una variable categórica explicativa, se reduce

al ajuste de un modelo de regresión logística con tantas variables explicativas continuas

como categorías de la variable categórica menos una. El resumen del modelo, extraído

con summary es.

summary(modelo.3)

La expresión del modelo es.

summary(modelo.3)
Call:
glm(formula = uso_int ~ habitat, family = binomial, data = datos.bin)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.3620 -1.1604 -0.9865 1.1685 1.3812
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.09921 0.10812 0.918 0.359
habitatestrato1 0.02430 0.14330 0.170 0.865
habitatestrato2 0.32495 0.20713 1.569 0.117
habitatestrato3 -0.03382 0.15741 -0.215 0.830
habitatestrato4 -0.13933 0.15217 -0.916 0.360
habitatestrato5 -0.07815 0.13678 -0.571 0.568
habitatestrato6 -0.56652 0.12193 -4.646 3.38e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 4817.0 on 3484 degrees of freedom
Residual deviance: 4751.6 on 3478 degrees of freedom
AIC: 4765.6
Number of Fisher Scoring iterations: 4

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


66
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Los

coeficientes del modelo se interpretan en base a la categoría de referencia elegida. Las

variables de estrato toman el valor 1 para los individuos de ese estrato, y 0 para los que

no pertenecen a ese estrato. Para un individuo del estrato 5 (municipios entre 10 mil y

20 mil habitantes) el logit de la ventaja de respuesta 1 estimado por el modelo sería.

5. Regresión LOGIT

Un caso particular (que aparece con asiduidad en Economía) es aquel en el que la

variable dependiente es binaria, es decir, toma únicamente dos valores. En tal caso,

como hemos visto, la estimación por MCO no es adecuada, siendo necesaria una

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


67
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

estimación logit o probit. Para ello recurrimos al código glm (esta función también se

puede usar para corregir heteroscedasticidad y autocorrelación):

datosWeb <- read.table("http://www.ugr.es/local/romansg/material/WebEco/04-


Eco2/Ordenador/R/credito.csv", header=T, sep=";")

head(datosWeb)

Si estamos interesados en analizar la influencia que tiene sobre la devolución de un

crédito el resto de variables, por ejemplo, podemos realizar una regresión lineal

múltiple estimada por Mínimos Cuadrados Ordinarios (MCO). Para ello recurrimos al

código lm:

mlp = lm(credito~ingresos+as.factor(laboral)+cargas)
summary(mlp)

Es interesante advertir cómo se han creado variables binarias a partir de la variable

referente a la situación laboral del cliente y que la categoría de referencia es aquella en

la que el cliente está en paro. Otra opción es la de generar las variables dummys:

n = length(ingresos)

laboral0 = array(0,n)

laboral1 = array(0,n)

laboral2 = array(0,n)

for (i in 1:n){

if(laboral[i] == 0){laboral0[i] = 1}

if(laboral[i] == 1){laboral1[i] = 1}
Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.
if(laboral[i] == 2){laboral2[i] = 1}
68
}
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

mlp.bis = lm(credito~ingresos+laboral1+laboral2+cargas)
summary(mlp.bis)

Call:
lm(formula = credito ~ ingresos + laboral1 + laboral2 + cargas)

Residuals:
Min 1Q Median 3Q Max
-0.74378 -0.14089 0.01514 0.13246 0.55486

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.006364 0.086622 -0.073 0.9417
ingresos 0.045123 0.008943 5.046 5.87e-06 ***
laboral1 0.203331 0.099414 2.045 0.0459 *
laboral2 0.648285 0.103144 6.285 6.80e-08 ***
cargas -0.168883 0.075703 -2.231 0.0300 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.2646 on 52 degrees of freedom


Multiple R-squared: 0.7444, Adjusted R-squared: 0.7248
F-statistic: 37.87 on 4 and 52 DF, p-value: 8.003e-15

Sin embargo, cuando la variable dependiente es discreta (en este caso,

binaria/dicotómica/dummy) no es adecuado estimar por MCO ya que se suelen

presentar algunos problemas como los siguientes.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


69
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

6. Falta de normalidad

Al representar los residuos se puede observar el comportamiento de una binomial,

aunque en este caso no es claro:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


70
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Representando de forma conjunta la variable dependiente y los residuos se observa que

se distorsiona la distribución binomial inicial:

plot(ts(cbind(credito, residuos)), plot.type="single", type="p", xlab="Individuo",


ylab="Crédito (azul) y residuos (rojo)", col=c("blue","red"),lwd=2)

logit = glm(credito~ingresos+as.factor(laboral)+cargas, family=binomial("logit"))


summary(logit)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


71
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Ahora, por ejemplo, se tiene garantizado obtener estimaciones en el intervalo [0, 1]:

logit = glm(credito~ingresos+as.factor(laboral)+cargas, family=binomial("logit"))


summary(logit)

Ahora, por ejemplo, se tiene garantizado obtener estimaciones en el intervalo [0, 1]:

estimaciones2 = logit$fitted.values
plot(estimaciones2,main="¿Datos estimados fuera de [0, 1]?", xlab="Individuo",
ylab="Estimación de CREDITO", col="blue",lwd=2)
abline(a=1,b=0,col="red",lwd=2) # línea y=1
abline(a=0,b=0,col="red",lwd=2) # línea y=0

6.1. Interpretación de las estimaciones obtenidas

En este caso, al ser el logit un modelo no lineal no es fácil interpretar las estimaciones

de los coeficientes y los efectos marginales. Lo que si está claro es que:

Si el efecto marginal tiene signo positivo, entonces aumentos de la correspondiente

variable implica aumento en la probabilidad de que Y=1.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


72
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Si el efecto marginal tiene signo negativo, entonces aumentos de la correspondiente

variable implica disminución en la probabilidad de que Y=1.

El efecto marginal tiene el signo de la estimación del coeficiente.

En tal caso, puesto que la única variable con coeficiente significativamente distinto de

cero es ingresos (p-valor=0.0223), y al ser este positivo, se tiene que conforme aumentan

los ingresos mayor probabilidad de devolver el crédito.

Que el resto de coeficientes no sean significativamente distintos de cero indica que la

probabilidad de dovelver el crédito es la misma para clientes en paro, con contrato

temporal o indefinido y para clientes con carga y sin carga familiar.

6.2. Cálculo de probabilidad de éxito

Para el individuo medio se calcularía la probabilidad de éxito como sigue:

X = cbind(ingresos, laboral1, laboral2, cargas)

individuo.medio = colMeans(X) # calcula la media de una matriz por columnas

individuo.medio = c(1, individuo.medio) # añado 1 correspondiente a la cte

individuo.medio

Para nuestro modelo se han clasificado correctamente el 92.98% de los casos.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


73
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Como corte se ha considerado la proporción de unos que hay en la variable dependiente

(0.5087) en lugar de 0.5. Aunque en este caso prácticamente coinciden, de esta forma se

adecúa el análisis a la información muestral en cada caso. Finalmente, con el siguiente

código se puede observar la evolución de la tasa de aciertos en función de diversos

valores de corte:

## [1] 92.98246

estimacion = ifelse(estimaciones2 > mean(credito), 1, 0)


clasificacion = ifelse(credito == estimacion, "Correcto", "Incorrecto")
data.frame(credito, estimacion, clasificacion)

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


74
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

> data.frame(credito, estimacion, clasificacion)


credito estimacion clasificacion
1 1 1 Correcto
2 1 1 Correcto
3 1 1 Correcto
4 1 1 Correcto
5 0 0 Correcto
6 0 0 Correcto
7 1 1 Correcto
8 1 1 Correcto
9 0 0 Correcto
10 0 0 Correcto
11 1 1 Correcto
12 0 0 Correcto
13 1 1 Correcto
14 1 1 Correcto
15 0 0 Correcto
16 0 0 Correcto
17 0 0 Correcto
18 0 0 Correcto
19 0 1 Incorrecto
20 1 1 Correcto
21 1 1 Correcto
22 1 0 Incorrecto
23 0 0 Correcto
24 0 0 Correcto
25 0 0 Correcto
26 1 1 Correcto
27 1 1 Correcto
28 1 1 Correcto
29 0 0 Correcto
30 1 1 Correcto
31 0 0 Correcto
32 1 1 Correcto
33 0 0 Correcto
34 1 1 Correcto
35 1 1 Correcto
36 0 0 Correcto
37 1 1 Correcto
38 1 0 Incorrecto
39 0 0 Correcto
40 0 0 Correcto
41 0 0 Correcto
42 1 1 Correcto
43 1 1 Correcto
44 1 1 Correcto
45 0 0 Correcto
46 0 0 Correcto
47 0 0 Correcto
48 1 1 Correcto
49 0 0 Correcto
50 1 1 Correcto
51 1 1 Correcto
52 0 0 Correcto
53 0 0 Correcto
54 0 0 Correcto
55 1 1 Correcto
56 1 1 Correcto
57 0 1 Incorrecto

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


75
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

6.3. Regresión PROBIT

Para la regresión probit hay que usar la siguiente orden:

Call:
glm(formula = credito ~ ingresos + as.factor(laboral) + cargas,
family = binomial("probit"))

Deviance Residuals:
Min 1Q Median 3Q Max
-2.37719 -0.00010 0.00462 0.22918 1.28415

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -6.4991 570.0072 -0.011 0.9909
ingresos 0.2562 0.1016 2.521 0.0117 *
as.factor(laboral)1 4.9853 570.0074 0.009 0.9930
as.factor(laboral)2 7.1625 570.0075 0.013 0.9900
cargas -1.2033 0.6740 -1.785 0.0742 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 79.001 on 56 degrees of freedom


Residual deviance: 18.330 on 52 degrees of freedom
AIC: 28.33

Number of Fisher Scoring iterations: 18

Comparando las estimaciones de ambos modelos se observa que se obtienen el mismo

signo en las estimaciones de los coeficientes, por lo que la interpretación del signo de

los efectos marginales del probit coinciden con las del logit:

Aunque la magnitud de las estimaciones de los coeficientes difiere, representando los

valores estimados del modelo logit y probit se obtienen que prácticamente coinciden

(se sitúan sobre la bisectriz del primer cuadrante):

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


76
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

plot(fitted.values(probit),fitted.values(logit),xlab="Valores ajustados
modelo PROBIT",ylab="Valores ajustados modelo LOGIT",col="blue",lwd=2)
abline(a=0,b=1,col="red",lwd=2) # recta y=x

Interpretación coeficientes, odds, odds ratio y efectos marginales

La interpretación de estas estimaciones se hace como se ha indicado antes para el

modelo logit, al igual que el cálculo e interpretación del odd y odd-ratio. Ahora bien, el

uso de la exponencial para obtener estas medidas en este caso no es correcto ya que

detrás del modelo probit está la función de distribución de la distribución normal y no

la función logística (que depende exclusivamente de la exponencial).

Así, por ejemplo, para calcular la probabilidad de devolver un crédito para un

individuo con ingresos medios que tenga contrato temporal y no tenga cargas

familiares:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


77
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

En este caso se tendría que la probabilidad de devolver el crédito del 52.67% y que es

1.113 veces más probable que se devuelva el crédito frente a que no lo haga. Mientras

que si se considera que sí tiene cargas familiares, se tiene que la probabilidad de

devolver el crédito frente a no hacerlo es del 12.79% y es 6.816 veces menos probable

que se devuelva el crédito frente a que no se haga:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


78
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

De forma que para este individuo (de ingresos medios y contrato temporal) si tiene

cargas (cargas=1) familiares es 7.587 veces menos probable que devuelva el crédito

frente a no hacerlo que cuando no las tiene (cargas=0).

Además, el efecto marginal se podría calcular como:

Una vez más se observa que el efecto marginal depende de los valores usados en las

variables explicativas.

Adviértase que se obtienen valores muy parecidos a los obtenidos con el modelo logit.

6.4. Bondad del ajuste

De igual forma, se puede obtener la tasa de aciertos para un umbral concreto (para la

proporción de unos en la variable dependiente se obtiene una tasa de aciertos del

92.98%) y la evolución de la tasa de aciertos en función de diversos valores de corte:

Una vez más se observa que el efecto marginal depende de los valores usados en las

variables explicativas.

Adviértase que se obtienen valores muy parecidos a los obtenidos con el modelo logit.

Bondad del ajuste

De igual forma, se puede obtener la tasa de aciertos para un umbral concreto (para la

proporción de unos en la variable dependiente se obtiene una tasa de aciertos del

92.98%) y la evolución de la tasa de aciertos en función de diversos valores de corte:

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


79
Serie Apuntes de Finance and Econometrics Group N°03. Noviembre del 2020.

Bibliography

Colin Cameron , A., & Trivedi, P. (2005). Microeconometrics: Methods and Applications. (C. U.
Press, Ed.) New York.

Beltran Barco, A. (2001). Econometria de Corte Transversal. Notas de Clase.

Bernardí Cabrer Borrás, & Amparo Sancho Pérez, Guada. (2001). Microeconometría y Decisión.
Ediciones Pirámide, .

Cañadas Reche, J. L. (2003). Regresión logística. Tratamiento computacional con R. Facultad de


Ciencias. Universidad de Granada, Granada. Departamento de Estadística e Investigación
Operativa.

Greene, W. (1997). Análisis Econometrico (Tercera ed.). Prentice Hall.

Modelos Logit y Probit en R Studio Bustamante Romaní, Rafael.


80

También podría gustarte