Lemonte Vanegas
Lemonte Vanegas
Lemonte Vanegas
Resumen
Abstract
In this paper we present a study which evaluates and compares the perfor-
mance of hypothesis testing and confidence intervals based on Wald’s sta-
tistic with those based on the likelihood ratio statistic for probit and logit
models. We compare the rate of coverage of the confidence intervals, the
maximum and minimum confidence interval coverage rate, and the power
of the significance tests employing Monte Carlo simulation methods. The
Wald and likelihood ratio statistics are also compared for the logit and pro-
bit models in the presence of errors in model specification.
77
78 Artur José Lemonte & Luis Hernando Vanegas
1. Introducción
Los métodos de regresión han sido la herramienta principal para describir la
relación existente entre una variable respuesta y una o más variables explicativas.
En particular, cuando la variable respuesta es dicotómica, los modelos de regresión
logit y probit vienen siendo los métodos más aplicados en muchos campos del
conocimiento, como por ejemplo Medicina o Biologı́a, cuando el interés primario
del análisis de datos está en evaluar y cuantificar la influencia de una o más
variables sobre un evento de interés. Este análisis es aplicado usando intervalos de
confianza y pruebas de significancia para los parámetros del modelo. A través de la
estimación puntual o por intervalo de los parámetros, es posible calcular medidas
de asociación como el riesgo relativo y el riesgo relativo indirecto. Además, la
significancia y la parsimonia del modelo son evaluadas a través de pruebas de
significancia. Por lo tanto, es necesario contar con una metodologı́a de inferencia
confiable que permita obtener conclusiones válidas de los datos.
Este artı́culo tiene como objetivo evaluar y comparar el desempeño de la infer-
encia basada en la estadı́stica de Wald con la basada en la estadı́stica de razón de
verosimilitud, siendo estas dos estrategias, las más usadas para la construcción de
intervalos de confianza y pruebas de hipótesis en modelos de respuesta dicotómica.
Es nuestro interés comparar caracterı́sticas tales como: tasas de cobertura de los
intervalos de confianza, tasas superior e inferior de los intervalos de confianza y
potencia de la prueba de significancia.
En la sección 2, exponemos algunos conceptos en modelos para respuesta bina-
ria; en la sección 3 presentamos los resultados obtenidos a través de simulaciones
de Monte Carlo sobre el desempeño de las pruebas de significancia basadas en las
estadı́sticas de Wald y de razón de verosimilitud en modelos logit y probit; en la
sección 4 se resumen algunas conclusiones.
1. Logit:
π(xk )
g[π(xk )] = log
1 − π(xk )
2. Probit:
g[π(xk )] = Φ−1 (xk )
3. log-log:
g[π(xk )] = − log {− log[π(xk )]}
3.1. Resultados
En esta sección presentamos los resultados obtenidos. Todo el proceso de
simulación fue realizado utilizando el lenguaje de programación Ox (Doornik 2001).
En las Tablas 1 y 2 el comportamiento de la inferencia en los modelos logit
y probit es similar. La potencia aumenta con el tamaño de la muestra y con la
fuerza de la asociación entre la respuesta y la variable explicativa, medida a través
del valor de β1 . Además, el comportamiento de la potencia cuando P = 0.3 es
bastante similar a P = 0.7, lo que indica que la potencia es simétrica con respecto a
P = 0.5, caso donde la inferencia fue más eficiente, pues presentó en todos los casos
mayor potencia. Este hecho puede explicarse de la siguiente forma: cuando P está
próximo a cero, es necesario considerar una muestra “grande” de observaciones
para obtener un número de éxitos (individuos con la caracterı́stica de interés)
suficiente para poder estudiar adecuadamente la asociación entre la respuesta y
84 Artur José Lemonte & Luis Hernando Vanegas
4. Conclusiones
En este artı́culo se estudió la inferencia en modelos logit y probit basada en
dos estadı́sticas muy utilizadas en la práctica: la de razón de verosimilitud y la
de Wald. El objetivo fue comparar el desempeño de estas estadı́sticas en estos
modelos. Para esto, analizamos algunas caracterı́sticas, tales como la potencia de
la prueba de significancia y las tasas de cobertura de los intervalos de confianza. Se
concluyó que para los modelos logit y probit las dos estadı́sticas poseen desempeño
muy similar, pues presentaron en todos los casos, intervalos de confianza con tasas
de cobertura próximas de los valores nominales. Además, el desempeño de la
potencia en relación con el tamaño de la muestra y con la fuerza de la asociación
fue el esperado: aumenta a medida que el tamaño de la muestra aumenta y el valor
de β1 se aleja de cero. De acuerdo con la literatura sobre inferencia en el modelo
logit, no se recomienda la prueba de Wald, pues, para altos grados de asociación,
su potencia decrece para el nivel de significancia. Este comportamiento sugiere
que esta prueba no debe usarse, ya que puede conducir a conclusiones equivocadas
sobre la significancia de los parámetros en un análisis de regresión usando el modelo
logit.
En relación al desempeño de las estadı́sticas en la presencia de errores en la
especificación del modelo, se concluye que la prueba de razón de verosimilitud es
fuertemente afectada por este tipo de error, pues presentó en todos los casos una
potencia menor que la de la prueba basada en la estadı́stica de Wald. Además, esta
última tuvo un desempeño similar al de los casos donde no estaba presente el error
de especificación del modelo, es decir, esta prueba no se afectó por la presencia de
error en la especificación del modelo. Por lo tanto, en la práctica recomendamos
utilizar las dos pruebas para la inferencia de los modelos logit y probit, y verificar
si las conclusiones obtenidas en relación a la significancia de los parámetros son
las mismas. En caso contrario, recomendamos la estadı́stica de Wald, pues en la
práctica es más común equivocarse en la especificación del modelo, que estar en
96 Artur José Lemonte & Luis Hernando Vanegas
Agradecimientos
Artur José Lemonte agradece el apoyo financiero concedido por la CAPES,
y Luis Hernando Vanegas a la CNPq. Los autores agradecen a los profesores
de la Maestria en Estadı́stica de la Universidad Federal de Pernambuco por los
conocimientos transmitidos, y en especial a los profesores Francisco Cribari Neto y
Klaus Leite Pinto Vasconcellos. Los autores también agradecen a Renata Nunes de
Souza y a Polyane Alves Santos por su ayuda en la realización de las simulaciones.
Bibliografı́a
Doornik, J. (2001), Ox: An Object-Oriented Matrix Language, 4 edn, Timberlake
Consultants Press, London.
Hauck, W. W. & Donner, A. (1977), ‘Wald’s test as applied to hipotesis in logit
analysis’, JASA 72, 851–853.
Hosmer, D. & Lemeshow, S. (1989), Applied Logistic Regression, Wiley & Sons,
New York.
McCullagh, P. & Nelder, J. (1989), Generalized Linear Models, Chapman & Hall,
New York.