Lemonte Vanegas

Revista Colombiana de Estadı́stica
Volumen 28 No 1. pp. 77 a 96. Junio 2005
Una comparación entre la inferencia basada en las

estadı́sticas de Wald y razón de verosimilitud en
los modelos logit y probit vı́a Monte Carlo
Artur José Lemonte*
Luis Hernando Vanegas**
Resumen
Presentamos un estudio que evalúa y compara el desempeño de puebas de

hipótesis e intervalos de confianza basados en la estadı́stica de Wald con
los basados en la estadı́stica de razón de verosimilitud para los modelos
logit y probit. Esta comparación se hace a través de las tasas de cobertura
de los intervalos de confianza, tasas superior e inferior de los intervalos de
confianza, y la potencia de la prueba de significancia. Se emplearon métodos
de simulación de Monte Carlo. También se compararon las estadı́sticas de
Wald y de razón de verosimilitud en los modelos logit y probit en presencia
de errores en la especificación del modelo.
Palabras Claves: Modelo logit, modelo probit, error de especificación, si-

mulación de Monte Carlo, test de razón de verosimilitud, test de Wald.
Abstract
In this paper we present a study which evaluates and compares the perfor-
mance of hypothesis testing and confidence intervals based on Wald’s sta-
tistic with those based on the likelihood ratio statistic for probit and logit
models. We compare the rate of coverage of the confidence intervals, the
maximum and minimum confidence interval coverage rate, and the power
of the significance tests employing Monte Carlo simulation methods. The
Wald and likelihood ratio statistics are also compared for the logit and pro-
bit models in the presence of errors in model specification.
Keywords: Logit model, Probit model, Specification errors, Monte Carlo

methods, Likelihood ratio test, Wald’s test.
* Departamento de Estatı́stica, Universidade Federal de Pernambuco, Cidade Universitária,

Recife/PE, 50740-540, Brasil. E-mail: [email protected]
** Departamento de Estatı́stica, Universidade Federal de Pernambuco, Cidade Universitária,
Recife/PE, 50740-540, Brasil. E-mail: [email protected]
77
78 Artur José Lemonte & Luis Hernando Vanegas
1. Introducción
Los métodos de regresión han sido la herramienta principal para describir la
relación existente entre una variable respuesta y una o más variables explicativas.
En particular, cuando la variable respuesta es dicotómica, los modelos de regresión
logit y probit vienen siendo los métodos más aplicados en muchos campos del
conocimiento, como por ejemplo Medicina o Biologı́a, cuando el interés primario
del análisis de datos está en evaluar y cuantificar la influencia de una o más
variables sobre un evento de interés. Este análisis es aplicado usando intervalos de
confianza y pruebas de significancia para los parámetros del modelo. A través de la
estimación puntual o por intervalo de los parámetros, es posible calcular medidas
de asociación como el riesgo relativo y el riesgo relativo indirecto. Además, la
significancia y la parsimonia del modelo son evaluadas a través de pruebas de
significancia. Por lo tanto, es necesario contar con una metodologı́a de inferencia
confiable que permita obtener conclusiones válidas de los datos.
Este artı́culo tiene como objetivo evaluar y comparar el desempeño de la infer-
encia basada en la estadı́stica de Wald con la basada en la estadı́stica de razón de
verosimilitud, siendo estas dos estrategias, las más usadas para la construcción de
intervalos de confianza y pruebas de hipótesis en modelos de respuesta dicotómica.
Es nuestro interés comparar caracterı́sticas tales como: tasas de cobertura de los
intervalos de confianza, tasas superior e inferior de los intervalos de confianza y
potencia de la prueba de significancia.
En la sección 2, exponemos algunos conceptos en modelos para respuesta bina-
ria; en la sección 3 presentamos los resultados obtenidos a través de simulaciones
de Monte Carlo sobre el desempeño de las pruebas de significancia basadas en las
estadı́sticas de Wald y de razón de verosimilitud en modelos logit y probit; en la
sección 4 se resumen algunas conclusiones.
2. Modelo para respuesta binaria

Supongamos que para cada individuo o unidad experimental k, tenemos el vec-
tor (yk , xk1 , xk2 , . . . , xkp ) donde yk puede asumir sólo uno de dos valores posibles,
denotados por conveniencia 1 (éxito) y 0 (fracaso), y sea xk = (xk1 , . . . , xkp ) un
conjunto de variables observadas para explicar o predecir el valor de yk . Deno-
tamos la probabilidad de éxito condicionada por la información en el vector xk
como:
π(xk ) = P [Yk = 1|xk1 , . . . , xkp ] = P [Yk = 1|xk ] (1)
Suponer que la dependencia de la probabilidad de éxito sobre el vector xk

ocurre a partir de una combinación lineal implica que el valor de π puede asumir
valores mayores que uno o menores que cero, generando inconsistencias con las
leyes de la probabilidad. Una forma simple de solucionar este problema es usando
una función g, llamada función de enlace, que proyecte el intervalo (0, 1) en toda
Comparación entre inferencias de Wald y máxima verosimilitud en modelos logit 79
la recta. Esta solución conduce al siguiente modelo:

p
X
g [π(xk )] = βj xkj , (2)
j=0
donde (β0 , β1 , . . . , βp ) es un conjunto de parámetros desconocidos y xk0 = 1.

Se consideran diferentes funciones de enlace, dependiendo del fenómeno en
estudio y de la relación entre la probabilidad de éxito y las variables explicativas.
Tres funciones usadas comúnmente en la práctica son:
1. Logit:
π(xk )
g[π(xk )] = log
1 − π(xk )
2. Probit:
g[π(xk )] = Φ−1 (xk )
3. log-log:
g[π(xk )] = − log {− log[π(xk )]}
donde Φ(·) es la función de distribución acumulada normal estándar. En este

artı́culo se consideran sólamente 1 y 2.
La relación entre la probabilidad de éxito y el conjunto de variables explicativas
puede expresarse con el siguiente modelo:
y = µ + ε, (3)
donde µ = E (Y |x) = π (x) es la componente sistemática y ε la componente
aleatoria con la distribución siguiente:
(
1 − π(x) con probabilidad π(x)
ε=
−π(x) con probabilidad 1 − π(x)
y, además, E(ε) = 0 y Var(ε) = π(x) (1 − π(x)). La relación entre la probabilidad

de éxito y el conjunto de variables explicativas se determina especificando la forma
de la función de enlace g, dada en (2).
2.1. Estimación Puntual de los Parámetros

Los parámetros del vector β = (β0 , β1 , . . . , βp ) se estiman usando datos mues-
trales obtenidos con un diseño experimental controlado o por medio de registros
históricos existentes. Estos datos consisten de n ocurrencias independientes del
fenómeno en estudio, pudiendo ser expresados en la forma:
   
x1 1 x11 . . . x1p
 x2   1 x21 . . . x2p 
   
y = (y1 , . . . , yn )⊤ y X =  .  =  . .. .. .. 
 ..   .. . . . 
xn 1 xn1 . . . xnp
donde se asume que las variables en X pueden explicar parte de la variabilidad de

la respuesta Y .
El método de estimación más usado es el de máxima verosimilitud que con-
siste proponer como estimaciones de los parámetros del modelo, los valores que
maximizam la función de verosimilitud:
n
Y 1−yk
L(y, X) = π(xk )yk (1 − xk ) (4)
k=1
o, equivalentemente, aquellos que maximizan la función de log-verosimilitud:

n
X
l(y, X) = yk log[π(xk )] + (1 − yk ) log[1 − π(xk )]
k=1
A partir de la ecuación anterior los parámetros serán estimados substituyendo

π(xk ) por:  
Xp
g −1  βj xkj 
j=0
maximizando la función resultante con respecto a β. En el caso del modelo logit,

la función a ser maximizada es:
  
n X
X p n
X X p
l(β; y, X) = yk βj xkj − log 1 + exp βj xkj  (5)
k=1 j=0 k=1 j=0
cuyo gradiente está dado por:

 P 
p
∂l (β; y, X)
n
X exp j=0 βj xkj
= y k − Pp  xkr
∂βr 1 + exp j=0 βj xkj
k=1
Analogamente, para el modelo probit, la función a ser maximizada es:

(   
Xn X p
l(β; y, X) = yk logΦ βj xkj 
k=1 j=0
  )
p
X
+(1 − yk ) log1 − Φ βj xkj  (6)
j=0
cuyo gradiente está dado por:

n
" p
!
∂l(β; y, X) X X yk
= f βj xkj xkr Pp
∂βr j=0
Φ j=0 βj xkj
k=1
!#
(1 − yk )
− Pp
1 − Φ j=0 βj xkj
Los estimadores de máxima verosimilitud para los modelos logit y probit no

tienen fórmulas analı́ticas para su cálculo, pues estos dependen de un sistema de
ecuaciones no lineales, por tanto las estimaciones se obtienen maximizando las fun-
ciones (5) y (6) a través de métodos de optimización no lineal como, por ejemplo,
BFGS, Newton-Raphson, etc. En este artı́culo se utilizó el método cuasi-Newton
BFGS para la maximización de las funciones (5) y (7) considerando gradiente
analı́tico. Con estas dos funciones, acontecen rara vez problemas con la conver-
gencia de los métodos de optimización, pues usualmente esto ocurre cuando alguna
combinación de variables, discrimina perfectamente los éxitos de los fracasos en la
respuesta (McCullagh & Nelder 1989).
Asintóticamente los estimadores de máxima verosimilitud de los parámetros de
los modelos logit y probit son insesgados y tienen varianza igual a la inversa de la
matriz de información de Fisher (Hosmer & Lemeshow 1989), es decir:
2 −1
b ∂ l(β; y, X)
Var(β) = − E = (X⊤ GX)−1
∂β∂β ⊤
En el modelo logit, G es dada por:

 
π(x1 )(1 − π(x1 )) 0 ··· 0
 0 π(x )(1 − π(x )) · · · 0 
 2 2 
G = .. .. . .. 
 . . . . . 
0 0 · · · π(xn )(1 − π(xn ))
y en el modelo probit por:


f( p
P
i=0 βi x1i )

 π(x1 )(1−π(x1 ))
 P
f( p
0
i=0 βi x2i )
··· 0


 0 ··· 0 
G=  ..
π(x2 )(1−π(x2 ))
.. ..


..

 . . .
P
f( p
.
i=0 βi xni )


0 0 ··· π(xn )(1−π(xn ))
La función f (·) representa la densidad de la distribución normal estándar. Ası́,

la varianza estimada de los estimadores se obtiene sustituyendo las cantidades
poblacionales por las cantidades muestrales, es decir, sustituyendo β y π(xk ) por
sus valores estimados.
2.2. Estimación por intervalo de los Parámetros

En el caso de la estimación por intervalo de los parámetros, se dispone de dos
estratégias diferentes, basadas en las estadı́sticas de máxima verosimilitud (LR) y
de Wald, cuya distribución asintótica es Ji-cuadrado. La estadı́stica LR para el
j-ésimo elemento del vector β, evaluada en el punto γ está definida por:
LRj (γ) = −2 [l∗(β ⋆ ; y, X) − l∗∗(β; y, X)] , j = 0, 1, . . . , p (7)

donde l∗∗(β; y, X) es el máximo de la función log-verosimilitud (definida para el

caso logit y probit en las ecuaciones (5) y (6) respectivamente) en relación a β
y l∗(β ⋆ ; y, X) es el máximo de la función log-verosimilitud en relación a β ⋆ =
(β0 , . . . , βj−1 , βj+1 , . . . , βp ) siendo βj = γ. Ası́, el intervalo de confianza para
βj , considerando un nivel de confianza (1 − α), donde α representa el nivel de
significancia, utilizando la estadı́stica LR es:
IC[βj , 1 − α] = {β | LRj (β) < q1−α }, (8)
donde q1−α es el percentil (1 − α) de la distribución Ji-cuadrado con un grado
de libertad. Análogamente, la estadı́stica de Wald para el j-ésimo elemento del
vector β evaluada γ está definida por:
(βbj − γ)2
Wj (γ) = , (9)
d βbj )
Var(
donde βbj y Var(
d βbj ) son los valores estimados de βj y de la varianza del estimador de
βj respectivamente. Ası́, el intervalo de confianza para βj utilizando la estadı́stica
de Wald está dado por:
IC[βj , 1 − α] = {β | Wj (β) < q1−α } (10)
Normalmente en aplicaciones prácticas, el intervalo de confianza para βj basado

en la estadı́stica de Wald es más usado que el basado en LR, pues este último no
tiene una fórmula analı́tica para su cálculo, siendo más difı́cil de calcular y más
“costoso” computacionalmente.
Es posible probar hipótesis sobre βj utilizando su intervalo de confianza, ver-
ificando si IC[βj , 1 − α] contiene el valor de βj0 (valor atribuido para βj en H0 ).
Entonces, una prueba de hipótesis para βj con un nivel de significancia α puede
describirse de la forma siguiente:
H0 : βj = βj0
(11)
H1 : βj 6= βj0
con la regla de decisión: rechazar H0 si βj0 ∈/ IC[βj , 1 − α] o, equivalentemente,
rechazar H0 si Wj (βj0 ) > q1−α en el caso de la estadı́stica de Wald y rechazar
H0 si LRj (βj0 ) > q1−α para LR. Particularmente, para evaluar la significancia
de βj en el modelo, las estadı́sticas de prueba para Wald y LR son representadas
por Wj (0) y LRj (0) respectivamente. Dada la importancia de la prueba (11),
evaluamos sus caracterı́sticas:
P (error tipo 1), denotado por α: probabilidad de concluir que βj es signi-
ficativo cuando realmente no lo es;
P (error tipo 2), denotado por δ: probabilidad de concluir que βj no es sig-

nificativo cuando realmente lo es;
Potencia de la prueba, dada por 1 − δ: probabilidad de concluir que βj es

significativo cuando realmente lo es.
3. Experimentos de Monte Carlo

Los resultados presentados en esta sección corresponden al modelo de la ecuación
(3), con π(x) = g −1 (β0 + β1 x), es decir, apenas una variable explicativa. Este
modelo fue considerado en diferentes escenarios de simulación, definidos por las
caracterı́sticas siguientes:
(i) probabilidad de éxito en la población, P = P (Y = 1);

(ii) fuerza y dirección de la asociación entre la respuesta y la variable explicativa,
representada por β1 ;
(iii) tamaño de la muestra, n.
Estas cantidades son especificadas en las tablas. En las Tablas 1 y 2, presen-

tamos la potencia de la prueba de significancia para β1 dada por:
#{0 ∈ IC[β1 , 1 − α]}

1 − δb = 1 −
r
donde r es el número de réplicas de Monte Carlo (r = 5000). En las Tablas 3 y
4 tenemos la potencia de la pruebas de significancia para β1 cuando las pruebas
de Wald y de razón de verosimilitud se aplican con error en la especificación del
modelo. En las Tablas 5 a 22 presentamos la tasa de cobertura del intervalo de
confianza para β1 , dada por:
#{β1 ∈ IC[β1 , 1 − α]}

TC[β1 , 1 − α] =
r
tambien presentamos la tasa superior, representada por TSup, que es la frecuencia
con que el lı́mite superior de los r intervalos de confianza no excede el verdadero
valor de β1 , la tasa inferior, representada por TInf, que es la frecuencia con que el
lı́mite inferior de los r intervalos de confianza exceden el verdadero valor de β1 .
3.1. Resultados
En esta sección presentamos los resultados obtenidos. Todo el proceso de
simulación fue realizado utilizando el lenguaje de programación Ox (Doornik 2001).
En las Tablas 1 y 2 el comportamiento de la inferencia en los modelos logit
y probit es similar. La potencia aumenta con el tamaño de la muestra y con la
fuerza de la asociación entre la respuesta y la variable explicativa, medida a través
del valor de β1 . Además, el comportamiento de la potencia cuando P = 0.3 es
bastante similar a P = 0.7, lo que indica que la potencia es simétrica con respecto a
P = 0.5, caso donde la inferencia fue más eficiente, pues presentó en todos los casos
mayor potencia. Este hecho puede explicarse de la siguiente forma: cuando P está
próximo a cero, es necesario considerar una muestra “grande” de observaciones
para obtener un número de éxitos (individuos con la caracterı́stica de interés)
suficiente para poder estudiar adecuadamente la asociación entre la respuesta y
la variable explicativa; análogamente cuando P está próximo de uno, es necesario

considerar una muestra “grande” de observaciones para obtener un número de
fracasos (indivı́duos sin la caracterı́stica de interés) suficiente para poder estudiar
adecuadamente la asociación entre las variables respuesta y explicativa. De tal
manera, para un tamaño de la muestra fijo, la eficacia de la inferencia estadı́stica
será mayor en el caso de P = 0.5 con relación a los otros valores de P. Se nota
también que la potencia de las pruebas de Wald y LR fueron similares en todos los
casos, evidenciando que para los modelos logit y probit, estas pruebas presentan
la misma eficiencia.
En las Tablas 5 a 13, considerando n = 100, que los intervalos de confianza
para β1 en el modelo logit presentan tasas de cobertura muy similares esperadas; es
decir, presentan valores próximos de 90%, 95% y 99% respectivamente. En el caso
de los valores de TInf y TSup, considerando la estadı́stica de Wald, se observa que
los valores de TInf disminuyen a medida que el valor de β1 aumenta, confirmando
los resultados obtenidos por Hauck & Donner (1977) y Jennings (1986), segun los
cuales, la distribución de la estadı́stica de prueba el test de Wald converge a la
distribución Ji-cuadrado con un grado de liberdad (esto es, la distribución de la
estadı́stica en H0 ) cuando β1 −→ ∞.
Para la estadı́stica LR, los valores de TInf y TSup presentaron comportamiento
más uniforme, manteniendo en casi todos los casos la simetrı́a del intervalo de
confianza, es decir, el valor de TInf está próximo del valor de TSup. En las Tablas
14 a 22, los intervalos de confianza para β1 en el modelo probit presentan tasas
de cobertura muy similares a las esperadas, es decir, presentan valores próximos
de 90%, 95% y 99% respectivamente. En relación a los valores de TInf y TSup, es
posible observar que el valor de TInf en la mayorı́a de los casos es mayor que los
valores de TSup, indicando que la distribución de βb1 no es simétrica en relación a
β1 .
En la Tabla 3 consideramos la presencia de errores en la especificación, es de-
cir, generamos ocurrencias del modelo logit y estimamos un modelo probit. En
la práctica, conocer el comportamiento de la inferencia en esta situación es muy
importante, pues la selección del modelo se debe en muchos casos a razones sub-
jetivas del investigador. Por lo tanto, es importante evaluar el desempeño de la
inferencia cuando la función de enlace usada es inadecuada. Se observa que la po-
tencia aumenta con el tamaño de la muestra y con el valor de β1 . Además, puede
observarse que la prueba de Wald fue más eficiente en todos los casos; este test
no se afecta por el error en la especificación del modelo, pues no depende fuerte-
mente de la función de enlace utilizada para el modelo aplicado. La prueba LR
es fuertemente afectada por el error en la especificación del modelo, presentando
tasas muy bajas comparadas con las de la Tabla 3 donde el modelo generado y el
estimado fueron el mismo.
En la Tabla 4 también consideramos la presencia de error en la especificación
del modelo; en este caso, generamos ocurrencias del modelo probit y estimamos
un modelo logit. El desempeño de las prueba de Wald y de razón de verosimilitud
son similares a los presentados en la Tabla 3, es decir, la potencia crece con el
tamaño de la muestra y con el valor de β1 , siendo más eficiente la prueba de Wald
en todos los casos. El desempeño de la prueba LR fue también bastante afectado

por el error de especificación, presentando tasas muy bajas comparadas con las de
la Tabla 2 donde el modelo generado y el estimado fueron el mismo.
Tabla 1: Poder de la prueba de Wald y LR en el modelo logit

LR Wald
P n β1 10% 5% 1% 10% 5% 1%
0,3 0,2 0,153 0,085 0,022 0,152 0,083 0,019
50 0,7 0,578 0,441 0,210 0,576 0,436 0,191
1,2 0,912 0,849 0,627 0,911 0,845 0,596
0,2 0,181 0,109 0,029 0,183 0,110 0,029
80 0,7 0,800 0,690 0,435 0,802 0,693 0,438
1,2 0,992 0,981 0,919 0,992 0,981 0,921
0,2 0,239 0,152 0,049 0,238 0,149 0,046
100 0,7 0,919 0,856 0,663 0,916 0,852 0,656
1,2 0,999 0,998 0,985 0,999 0,998 0,985
0,5 0,2 0,152 0,084 0,021 0,152 0,084 0,021
50 0,7 0,639 0,509 0,260 0,639 0,510 0,260
1,2 0,954 0,905 0,724 0,954 0,905 0,727
0,2 0,188 0,111 0,035 0,188 0,111 0,035
80 0,7 0,848 0,748 0,488 0,848 0,748 0,488
1,2 0,996 0,990 0,951 0,996 0,990 0,951
0,2 0,266 0,170 0,059 0,267 0,170 0,058
100 0,7 0,956 0,917 0,769 0,956 0,917 0,769
1,2 0,999 0,999 0,997 0,999 0,999 0,997
0,7 0,2 0,140 0,075 0,017 0,142 0,077 0,020
50 0,7 0,566 0,437 0,208 0,568 0,441 0,224
1,2 0,901 0,830 0,609 0,901 0,832 0,631
0,2 0,183 0,104 0,032 0,181 0,102 0,032
80 0,7 0,767 0,656 0,399 0,765 0,652 0,397
1,2 0,987 0,967 0,875 0,986 0,966 0,873
0,2 0,249 0,161 0,054 0,249 0,161 0,054
100 0,7 0,928 0,874 0,706 0,931 0,877 0,715
1,2 0,999 0,998 0,991 0,999 0,998 0,992
Tabla 2: Poder de la prueba de Wald y LR en el modelo probit

LR Wald
P n β1 10% 5% 1% 10% 5% 1%
0,3 0,2 0,230 0,140 0,047 0,231 0,142 0,044
50 0,4 0,554 0,414 0,193 0,554 0,413 0,191
0,7 0,923 0,863 0,660 0,923 0,864 0,659
0,2 0,324 0,212 0,077 0,325 0,213 0,077
80 0,4 0,773 0,661 0,401 0,775 0,663 0,402
0,7 0,995 0,985 0,928 0,995 0,985 0,930
0,2 0,447 0,327 0,133 0,447 0,325 0,132
100 0,4 0,906 0,840 0,630 0,904 0,841 0,625
0,7 0,999 0,998 0,989 0,999 0,998 0,990
0,5 0,2 0,232 0,146 0,041 0,233 0,148 0,042
50 0,4 0,585 0,454 0,219 0,584 0,455 0,218
0,7 0,941 0,887 0,684 0,942 0,887 0,687
0,2 0,339 0,224 0,079 0,339 0,223 0,080
80 0,4 0,793 0,681 0,413 0,793 0,683 0,419
0,7 0,994 0,987 0,938 0,994 0,987 0,938
0,2 0,491 0,361 0,171 0,491 0,363 0,169
100 0,4 0,934 0,883 0,706 0,935 0,883 0,706
0,7 1,000 0,999 0,995 1,000 0,999 0,996
0,7 0,2 0,217 0,131 0,040 0,217 0,133 0,042
50 0,4 0,548 0,417 0,192 0,549 0,419 0,197
0,7 0,914 0,845 0,641 0,915 0,847 0,646
0,2 0,315 0,207 0,074 0,314 0,206 0,072
80 0,4 0,744 0,629 0,373 0,744 0,626 0,367
0,7 0,990 0,979 0,906 0,990 0,981 0,904
0,2 0,461 0,341 0,149 0,464 0,342 0,153
100 0,4 0,916 0,856 0,672 0,915 0,858 0,675
0,7 0,916 0,856 0,672 0,915 0,858 0,675
Tabla 3: Poder de la prueba de Wald y LR generando logit y estimando probit

LR Wald
P n β1 10% 5% 1% 10% 5% 1%
0,3 0,2 0,122 0,067 0,017 0,153 0,087 0,020
50 0,7 0,185 0,116 0,031 0,281 0,182 0,060
1,2 0,304 0,198 0,079 0,579 0,437 0,209
0,2 0,137 0,079 0,022 0,181 0,109 0,029
80 0,7 0,237 0,146 0,050 0,414 0,289 0,111
1,2 0,438 0,322 0,144 0,801 0,690 0,434
0,2 0,161 0,091 0,024 0,238 0,150 0,047
100 0,7 0,310 0,214 0,075 0,554 0,436 0,203
1,2 0,438 0,322 0,144 0,915 0,690 0,434
0,5 0,2 0,111 0,060 0,012 0,153 0,085 0,020
50 0,7 0,170 0,096 0,026 0,311 0,208 0,069
1,2 0,299 0,202 0,075 0,636 0,511 0,256
0,2 0,140 0,075 0,015 0,187 0,112 0,035
80 0,7 0,238 0,144 0,040 0,459 0,326 0,133
1,2 0,432 0,317 0,133 0,846 0,750 0,490
0,2 0,159 0,095 0,025 0,266 0,170 0,060
100 0,7 0,308 0,206 0,081 0,639 0,512 0,276
1,2 0,552 0,434 0,250 0,957 0,916 0,769
0,7 0,2 0,115 0,066 0,014 0,141 0,075 0,018
50 0,7 0,168 0,100 0,030 0,274 0,177 0,061
1,2 0,284 0,193 0,073 0,566 0,437 0,210
0,2 0,138 0,074 0,018 0,181 0,104 0,031
80 0,7 0,231 0,149 0,047 0,396 0,277 0,107
1,2 0,425 0,317 0,142 0,766 0,653 0,391
0,2 0,166 0,096 0,026 0,246 0,160 0,053
100 0,7 0,314 0,213 0,079 0,583 0,456 0,239
1,2 0,563 0,453 0,244 0,930 0,875 0,708
Tabla 4: Poder de la prueba de Wald y LR generando probit y estimando logit

LR Wald
P n β1 10% 5% 1% 10% 5% 1%
0,3 0,2 0,119 0,067 0,013 0,230 0,138 0,040
50 0,4 0,163 0,096 0,026 0,554 0,407 0,176
0,7 0,281 0,175 0,056 0,924 0,860 0,638
0,2 0,134 0,074 0,017 0,326 0,215 0,080
80 0,4 0,234 0,139 0,040 0,776 0,663 0,404
0,7 0,431 0,301 0,111 0,995 0,985 0,930
0,2 0,160 0,093 0,025 0,442 0,322 0,130
100 0,4 0,308 0,207 0,074 0,905 0,835 0,625
0,7 0,552 0,417 0,185 0,999 0,998 0,989
0,5 0,2 0,115 0,057 0,012 0,237 0,145 0,042
50 0,4 0,175 0,097 0,025 0,589 0,454 0,220
0,7 0,297 0,185 0,062 0,943 0,886 0,687
0,2 0,126 0,074 0,016 0,339 0,224 0,080
80 0,4 0,231 0,140 0,038 0,794 0,681 0,414
0,7 0,417 0,296 0,107 0,994 0,987 0,938
0,2 0,171 0,099 0,027 0,492 0,361 0,168
100 0,4 0,315 0,212 0,077 0,934 0,883 0,706
0,7 0,567 0,432 0,207 1,000 0,999 0,995
0,7 0,2 0,112 0,059 0,013 0,220 0,135 0,045
50 0,4 0,171 0,098 0,026 0,548 0,417 0,205
0,7 0,294 0,189 0,058 0,914 0,846 0,657
0,2 0,128 0,072 0,018 0,314 0,203 0,074
80 0,4 0,222 0,139 0,044 0,743 0,625 0,373
0,7 0,407 0,285 0,117 0,990 0,978 0,906
0,2 0,166 0,096 0,029 0,466 0,344 0,155
100 0,4 0,322 0,209 0,077 0,917 0,858 0,683
0,7 0,577 0,443 0,210 0,999 0,999 0,993
Tabla 5: Tasas de cobertura − modelo logit

Intervalo de Confianza
P n β1 1−α LR Wald Esperado
0,3 100 0,2 90% TInf 0,0564 0,0506 0,05
TC 0,8970 0,8980 0,90
TSup 0,0470 0,0514 0,05
95% TInf 0,0270 0,0252 0,025
TC 0,9498 0,9490 0,95
TSup 0,0232 0,0256 0,025
99% TInf 0,0056 0,0044 0,005
TC 0,9890 0,9880 0,99
TSup 0,0054 0,0080 0,005

0,3 100 0,7 90% TInf 0,0608 0,0498 0,05
TC 0,8914 0,8938 0,90
TSup 0,0478 0,0564 0,05
95% TInf 0,0128 0,0226 0,025
TC 0,9452 0,9442 0,95
TSup 0,0420 0,0332 0,025
99% TInf 0,0070 0,0020 0,005
TC 0,9876 0,9890 0,99
TSup 0,0054 0,0090 0,005

0,3 100 1,2 90% TInf 0,0646 0,0470 0,05
TC 0,8888 0,8940 0,90
TSup 0,0466 0,0590 0,05
95% TInf 0,0334 0,0166 0,025
TC 0,9470 0,9498 0,95
TSup 0,0196 0,0336 0,025
99% TInf 0,0054 0,0018 0,005
TC 0,9902 0,990 0,99
TSup 0,0044 0,0086 0,005

0,5 100 0,2 90% TInf 0,0526 0,0484 0,05
TC 0,8934 0,8936 0,90
TSup 0,0540 0,0580 0,05
95% TInf 0,0246 0,0226 0,025
TC 0,9504 0,9486 0,95
TSup 0,0250 0,0288 0,025
99% TInf 0,0044 0,0032 0,005
TC 0,9900 0,9904 0,99
TSup 0,0056 0,0064 0,005

0,5 100 0,7 90% TInf 0,0618 0,0524 0,05
TC 0,8926 0,8926 0,90
TSup 0,0448 0,0550 0,05
95% TInf 0,0322 0,0244 0,025
TC 0,9454 0,9468 0,95
TSup 0,0224 0,0288 0,025
99% TInf 0,0076 0,0038 0,005
TC 0,9872 0,9870 0,99
TSup 0,0052 0,0092 0,005

0,5 100 1,2 90% TInf 0,0604 0,0476 0,05
TC 0,8948 0,8936 0,90
TSup 0,0448 0,0588 0,05
95% TInf 0,0302 0,0180 0,025
TC 0,9464 0,9466 0,95
TSup 0,0234 0,0354 0,025
99% TInf 0,0058 0,0024 0,005
TC 0,9892 0,9840 0,99
TSup 0,0050 0,0136 0,005

0,7 100 0,2 90% TInf 0,0526 0,0526 0,05
TC 0,8946 0,8946 0,90
TSup 0,0528 0,0528 0,05
95% TInf 0,0284 0,0284 0,025
TC 0,9430 0,9430 0,95
TSup 0,0286 0,0286 0,025
99% TInf 0,0064 0,0064 0,005
TC 0,9860 0,9866 0,99
TSup 0,0076 0,007 0,005

0,7 100 0,7 90% TInf 0,0554 0,0466 0,05
TC 0,8980 0,8976 0,90
TSup 0,0466 0,0552 0,05
95% TInf 0,0280 0,0202 0,025
TC 0,9452 0,9464 0,95
TSup 0,0268 0,0314 0,025
99% TInf 0,0064 0,0034 0,005
TC 0,9872 0,9876 0,99
TSup 0,0064 0,0090 0,005

0,7 100 1,2 90% TInf 0,0622 0,0462 0,05
TC 0,8950 0,8986 0,90
TSup 0,0228 0,0552 0,05
95% TInf 0,0296 0,0180 0,025
TC 0,9476 0,9506 0,95
TSup 0,0228 0,0314 0,025
99% TInf 0,0060 0,0022 0,005
TC 0,9894 0,9870 0,99
TSup 0,0046 0,0108 0,005
Tabla 14: Tasas de cobertura − modelo probit

0,3 100 0,2 90% TInf 0,0564 0,0524 0,05
TC 0,8984 0,8998 0,90
TSup 0,0452 0,0478 0,05
95% TInf 0,0290 0,0264 0,025
TC 0,9462 0,9480 0,95
TSup 0,0248 0,0256 0,025
99% TInf 0,0060 0,0056 0,005
TC 0,9890 0,9886 0,99
TSup 0,0050 0,0058 0,005

0,3 100 0,4 90% TInf 0,0600 0,0536 0,050
TC 0,8948 0,8968 0,90
TSup 0,0452 0,0496 0,05
95% TInf 0,0326 0,0284 0,025
TC 0,9446 0,9452 0,95
TSup 0,0228 0,0264 0,025
99% TInf 0,0056 0,0032 0,005
TC 0,9888 0,9904 0,99
TSup 0,0056 0,0064 0,005

0,3 100 0,7 90% TInf 0,0642 0,0520 0,05
TC 0,8960 0,9014 0,90
TSup 0,0398 0,0466 0,05
95% TInf 0,0304 0,0210 0,025
TC 0,9488 0,9530 0,95
TSup 0,0208 0,0260 0,025
99% TInf 0,0072 0,0036 0,005
TC 0,9878 0,9888 0,99
TSup 0,0050 0,0076 0,005

0,5 100 0,2 90% TInf 0,0542 0,0508 0,05
TC 0,8946 0,8958 0,90
TSup 0,0512 0,0534 0,05
95% TInf 0,0272 0,0258 0,025
TC 0,9478 0,9472 0,95
TSup 0,0250 0,0270 0,025
99% TInf 0,0054 0,0046 0,005
TC 0,9888 0,9892 0,99
TSup 0,0058 0,0062 0,005

0,5 100 0,4 90% TInf 0,0600 0,0542 0,05
TC 0,8946 0,8962 0,90
TSup 0,0454 0,0496 0,05
95% TInf 0,0330 0,0280 0,025
TC 0,9444 0,9480 0,95
TSup 0,0226 0,0240 0,025
99% TInf 0,0078 0,0054 0,005
TC 0,9858 0,9870 0,99
TSup 0,0064 0,0076 0,005

0,5 100 0,7 90% TInf 0,0604 0,0498 0,05
TC 0,8952 0,8992 0,90
TSup 0,0444 0,0510 0,05
95% TInf 0,0324 0,0218 0,025
TC 0,9428 0,9492 0,95
TSup 0,0248 0,0290 0,025
99% TInf 0,0070 0,0040 0,005
TC 0,9886 0,9886 0,99
TSup 0,0044 0,0074 0,005

0,7 100 0,2 90% TInf 0,0576 0,0550 0,05
TC 0,8940 0,8948 0,90
TSup 0,0484 0,0502 0,05
95% TInf 0,0302 0,0296 0,025
TC 0,9456 0,9456 0,95
TSup 0,0242 0,0248 0,025
99% TInf 0,0054 0,0046 0,005
TC 0,9902 0,9900 0,99
TSup 0,0044 0,0054 0,005

0,7 100 0,4 90% TInf 0,0552 0,0522 0,05
TC 0,8864 0,8968 0,90
TSup 0,0584 0,0510 0,05
95% TInf 0,0288 0,0256 0,025
TC 0,9472 0,9460 0,95
TSup 0,0240 0,0284 0,025
99% TInf 0,0066 0,0078 0,005
TC 0,9872 0,9850 0,99
TSup 0,0062 0,0092 0,005

0,7 100 0,7 90% TInf 0,0568 0,0512 0,05
TC 0,8954 0,8960 0,90
TSup 0,0478 0,0528 0,05
95% TInf 0,0282 0,0246 0,025
TC 0,9472 0,9466 0,95
TSup 0,0478 0,0288 0,025
99% TInf 0,0062 0,0054 0,005
TC 0,9870 0,9856 0,99
TSup 0,0068 0,0090 0,005
4. Conclusiones
En este artı́culo se estudió la inferencia en modelos logit y probit basada en
dos estadı́sticas muy utilizadas en la práctica: la de razón de verosimilitud y la
de Wald. El objetivo fue comparar el desempeño de estas estadı́sticas en estos
modelos. Para esto, analizamos algunas caracterı́sticas, tales como la potencia de
la prueba de significancia y las tasas de cobertura de los intervalos de confianza. Se
concluyó que para los modelos logit y probit las dos estadı́sticas poseen desempeño
muy similar, pues presentaron en todos los casos, intervalos de confianza con tasas
de cobertura próximas de los valores nominales. Además, el desempeño de la
potencia en relación con el tamaño de la muestra y con la fuerza de la asociación
fue el esperado: aumenta a medida que el tamaño de la muestra aumenta y el valor
de β1 se aleja de cero. De acuerdo con la literatura sobre inferencia en el modelo
logit, no se recomienda la prueba de Wald, pues, para altos grados de asociación,
su potencia decrece para el nivel de significancia. Este comportamiento sugiere
que esta prueba no debe usarse, ya que puede conducir a conclusiones equivocadas
sobre la significancia de los parámetros en un análisis de regresión usando el modelo
logit.
En relación al desempeño de las estadı́sticas en la presencia de errores en la
especificación del modelo, se concluye que la prueba de razón de verosimilitud es
fuertemente afectada por este tipo de error, pues presentó en todos los casos una
potencia menor que la de la prueba basada en la estadı́stica de Wald. Además, esta
última tuvo un desempeño similar al de los casos donde no estaba presente el error
de especificación del modelo, es decir, esta prueba no se afectó por la presencia de
error en la especificación del modelo. Por lo tanto, en la práctica recomendamos
utilizar las dos pruebas para la inferencia de los modelos logit y probit, y verificar
si las conclusiones obtenidas en relación a la significancia de los parámetros son
las mismas. En caso contrario, recomendamos la estadı́stica de Wald, pues en la
práctica es más común equivocarse en la especificación del modelo, que estar en
la presencia de una asociación exageradamente grande.
Agradecimientos
Artur José Lemonte agradece el apoyo financiero concedido por la CAPES,
y Luis Hernando Vanegas a la CNPq. Los autores agradecen a los profesores
de la Maestria en Estadı́stica de la Universidad Federal de Pernambuco por los
conocimientos transmitidos, y en especial a los profesores Francisco Cribari Neto y
Klaus Leite Pinto Vasconcellos. Los autores también agradecen a Renata Nunes de
Souza y a Polyane Alves Santos por su ayuda en la realización de las simulaciones.
Bibliografı́a
Doornik, J. (2001), Ox: An Object-Oriented Matrix Language, 4 edn, Timberlake
Consultants Press, London.
Hauck, W. W. & Donner, A. (1977), ‘Wald’s test as applied to hipotesis in logit
analysis’, JASA 72, 851–853.
Hosmer, D. & Lemeshow, S. (1989), Applied Logistic Regression, Wiley & Sons,
New York.
Jennings, D. E. (1986), ‘Judgind inference adequacy logistic regression’, JASA

81, 471–476.
McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, Chapman & Hall,
New York.

Lemonte Vanegas

Cargado por

Copyright:

Formatos disponibles

Lemonte Vanegas

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lemonte Vanegas

Cargado por

Copyright:

Formatos disponibles

Revista Colombiana de Estadı́stica

Volumen 28 No 1. pp. 77 a 96. Junio 2005

Una comparación entre la inferencia basada en las

Presentamos un estudio que evalúa y compara el desempeño de puebas de

Palabras Claves: Modelo logit, modelo probit, error de especificación, si-

Keywords: Logit model, Probit model, Specification errors, Monte Carlo

* Departamento de Estatı́stica, Universidade Federal de Pernambuco, Cidade Universitária,

Recife/PE, 50740-540, Brasil. E-mail: [email protected]

2. Modelo para respuesta binaria

Suponer que la dependencia de la probabilidad de éxito sobre el vector xk

la recta. Esta solución conduce al siguiente modelo:

donde (β0 , β1 , . . . , βp ) es un conjunto de parámetros desconocidos y xk0 = 1.

donde Φ(·) es la función de distribución acumulada normal estándar. En este

y, además, E(ε) = 0 y Var(ε) = π(x) (1 − π(x)). La relación entre la probabilidad

2.1. Estimación Puntual de los Parámetros

donde se asume que las variables en X pueden explicar parte de la variabilidad de

o, equivalentemente, aquellos que maximizan la función de log-verosimilitud:

A partir de la ecuación anterior los parámetros serán estimados substituyendo

maximizando la función resultante con respecto a β. En el caso del modelo logit,

cuyo gradiente está dado por:

Analogamente, para el modelo probit, la función a ser maximizada es:

cuyo gradiente está dado por:

Los estimadores de máxima verosimilitud para los modelos logit y probit no

En el modelo logit, G es dada por:

y en el modelo probit por:

La función f (·) representa la densidad de la distribución normal estándar. Ası́,

2.2. Estimación por intervalo de los Parámetros

LRj (γ) = −2 [l∗(β ⋆ ; y, X) − l∗∗(β; y, X)] , j = 0, 1, . . . , p (7)

donde l∗∗(β; y, X) es el máximo de la función log-verosimilitud (definida para el

Normalmente en aplicaciones prácticas, el intervalo de confianza para βj basado

P (error tipo 2), denotado por δ: probabilidad de concluir que βj no es sig-

Potencia de la prueba, dada por 1 − δ: probabilidad de concluir que βj es

3. Experimentos de Monte Carlo

(i) probabilidad de éxito en la población, P = P (Y = 1);

Estas cantidades son especificadas en las tablas. En las Tablas 1 y 2, presen-

#{0 ∈ IC[β1 , 1 − α]}

#{β1 ∈ IC[β1 , 1 − α]}

la variable explicativa; análogamente cuando P está próximo de uno, es necesario

en todos los casos. El desempeño de la prueba LR fue también bastante afectado

Tabla 1: Poder de la prueba de Wald y LR en el modelo logit

Tabla 2: Poder de la prueba de Wald y LR en el modelo probit

Tabla 3: Poder de la prueba de Wald y LR generando logit y estimando probit

Tabla 4: Poder de la prueba de Wald y LR generando probit y estimando logit

Tabla 5: Tasas de cobertura − modelo logit

Tabla 6: Tasas de cobertura − modelo logit

Tabla 7: Tasas de cobertura − modelo logit

Tabla 8: Tasas de cobertura − modelo logit

Tabla 9: Tasas de cobertura − modelo logit

Tabla 10: Tasas de cobertura − modelo logit

Tabla 11: Tasas de cobertura − modelo logit

Tabla 12: Tasas de cobertura − modelo logit

Tabla 13: Tasas de cobertura − modelo logit

Tabla 14: Tasas de cobertura − modelo probit

Tabla 15: Tasas de cobertura − modelo probit

Tabla 16: Tasas de cobertura − modelo probit

Tabla 17: Tasas de cobertura − modelo probit

Tabla 18: Tasas de cobertura − modelo probit

Tabla 19: Tasas de cobertura − modelo probit