Capı́tulo 1
Verificación de supuestos
En esta sección se parte de la definición del residual ǫ̂i = yi − ŷi , sobre
el que se formulan algunos supuestos los cuales resulta necesario verificar
para que al realizar inferencias resulten válida (sobre el modelo:ajuste, adecuación, validez de la predicción, etc). La validación lleva en consideración la
realización de un análisis de los residuales para verificar cualquier anomalı́a
sobre el ajuste del modelo lineal.
Cuando se propone un modelo para el ajuste de los datos se establecen
básicamente los siguientes supuestos sobre el error: Independencia, normalidad, media cero y varianza constante.
Es importante notar que los errores (ǫi ) son no observables, no se conocen,
pero se pueden estimar mediante los residuales (ǫ̂i ), ası́ todas las pruebas
de los supuestos se realizan sobre estos últimos. Al ajustar el modelo se
espera que los residuales satisfagan los anteriores supuestos sobre el error.
Después de examinar los residuales sólo se podrá concluir que los supuestos
“se cumplen”, ó “no se cumplen” con los riesgos inherentes a toda decisión
estadı́stica.
Toda la inferencia que se puede realizar (estimación por intervalo de las
combinaciones lineales o no lineales de los parámetros, pruebas de hipótesis,
entre otras) sobre el modelo, tiene como base los supuestos sobre la variable
respuesta. Si alguno de éstos no se cumple, los procesos de inferencia conllevan a decisiones con alto riesgo de estar equivocadas.
1
2
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
El objetivo de esta sección es mostrar los posibles problemas que se presentan
cuando alguno de los supuestos no se cumple, ası́ como mostrar diferentes
formas de corregir las desviaciones de los supuestos en el caso en quese incumplan.
El supuesto de media cero de los errores verificado a través de los residuales
es de fácil cumplimiento, puesto que el promedio de los errores por construcción es cero.
1.0.1.
Causas de desvı́os de supuestos
La aplicación de una técnica estadı́stica implica verificar que los supuestos
del modelo son razonablemente satisfechos. Se aconseja que un análisis estadı́stico se inicie con un estudio exploratorio de datos, con eso se gana en
sensibilidad e información adicional sobre la variable estudiada.
El análisis de residuos es una técnica bastante eficiente para detectar desvı́os
de los supuestos. Abarca análisis gráficos, numéricos y mixtos; este debe ser
un procedimiento de rutina en el análisis de los datos. El análisis de residuos
también puede ser utilizado para detectar outliers.
Los supuestos básicos que se deben verificar en el ajuste de los modelos son
los siguientes:
i. La no correlación de los errores: Este supuesto se incumple cuando las
observaciones son tomadas secuencialmente en el tiempo, el espacio y
en datos cluster, entre otros. Cuando los datos están correlacionados
se debe trabajar con métodos estadı́sticos apropiados.
ii. La homocedasticidad de los errores: Este supuesto se puede incumplir
por varias razones, por ejemplo: Por daños en alguna parte del experimento, contratiempos, uso del material experimental menos homogéneo en algunas réplicas, por no tener cuidado en el control durante
la ejecución del experimento o en el control de las unidades experimentales.
3
La naturaleza de los tratamientos, puede producir algunas respuestas más variables que otras, causando heterogeneidad en la varianza
de los errores, caso frecuente en ensayos con fertilizantes o en experimentación biológica, cuando se desea comparar efectos de tratamientos.
La heterocedasticidad puede ocurrir también en los casos donde la media y la varianza están relacionadas, caso tı́pico, un estudio de conteos
que siguen una distribución Poisson o en datos con respuesta binaria. También la heterocedasticidad puede ser causada por la presencia
de observaciones atı́picas u outliers, las cuales se clasifican en “no
genuinas” o “genuinas”. Las primeras son datos leı́dos pero con transcripción errónea, en tanto que las genuinas pueden ser causadas por
cambios no controlados en la conducción del experimento.
iii. La normalidad. Que el comportamiento de los datos sea normal casi
nunca ocurre con la información real proveniente de los datos, la distribución de la variable puede ser asimétrica y aún con distribución
simétrica puede no seguir una distribución normal.
iv. No aditividad en el modelo. La construcción de gráficos de perfiles
puede indicar la existencia o no de interacción. Para verificar si dicha
interacción es causada por la presencia de un outlier, tal observación
se debe retirar y volver a hacer el gráfico. Si se mantiene la estructura
de este gráfico, existen indicios de que la interacción es inherente al
fenómeno de estudio y no es causada por la presencia del outlier.
A continuación se presentan los métodos y pruebas para detectar problemas
sobre homocedásticidad, normalidad y aditividad en el modelo.
1.0.2.
Análisis gráfico y medidas descriptivas de los residuales
Las formas gráficas y las medidas descriptivas, son los métodos usados tradicionalmente para detectar problemas en la validez de los supuestos del modelo lineal planteado; por su importancia, en esta sección se presentan algunos
de éstos métodos.
1. Histograma y gráfico probabilı́stico normal. Estos gráficos son
útiles para analizar la normalidad de los residuos e identificar valores
4
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
atı́picos. La potencia de las pruebas de normalidad sobre los residuos
suele ser baja, porque aunque el vector de variables aleatorias no sea
normal, es posible que los residuos lo sean. La razón es que ǫ̂i es una
combinación lineal de todas las variables aleatorias, y según el teorema
central del lı́mite, su distribución tenderá a ser aproximadamente normal. Los histogramas pueden ayudar a detectar la falta de normalidad.
En la aplicación del método se deben tener en cuenta los siguientes
pasos:
a) Ordene los valores de la variable aleatoria W de menor a mayor
(w(1) > . . . > w(n) ).
b) Calcule la probabilidad acumulada observada: pi = 100(i−0,5)/n.
El valor de 0,5 se emplea para no obtener p = 1, el cual tiene
un valor de infinito para W ; el arreglo que se tiene para esta
información es el siguiente:
W
w(1)
..
.
Percentil (P)
p1
..
.
w(n)
pn
c) Grafique los valores de W contra P .
Observaciones que no proceden de una distribución normal presentan una forma curva, mientras observaciones que se ajusten a la normalidad siguen una ecuación lineal. Este método se recomienda con
tamaños de muestra donde n > 100 observaciones sokal (1969).
Si hay un ajuste cercano a una lı́nea recta, hay evidencia para indicar que los datos provienen de una distribución normal, sin embargo
se debe tener en cuenta que en algunos casos, aunque los puntos se
ajusten a una lı́nea recta puede que los datos no provengan de una distribución normal: Por ello se recomienda utilizar algunos otros “métodos objetivos”.
Otra alternativa de realizar el gráfico de probabilidad normal se basa
en la estandarización de las observaciones mediante la transfomación
a la variable zi , i = 1, . . . , n
5
zi =
wi − µ
σ
i = 1, . . . , n.
La idea es calcular la probabilidad observada de cada una de las observaciones y estimar el valor de zi aplicando la función inversa; si la
distribución adyacente es normal, el gráfico de los valores de zi versus
wi tienen una forma lineal.
2. Gráfico de residuos frente a valores estimados. Con estos gráficos se pueden identificar falta de linealidad, heterocedasticidad y presencia de valores atı́picos. El gráfico puede hacerse con cualquiera de
los tipos de residuos, aunque preferiblemente, se utilizan los residuos
sin transformar ǫ̂i , o los estandarizados ri0 , donde
ri0 = p
ǫ̂i
1 − xi (X t X)− xti
con xi la i-ésima fila de la matriz X.
3. Gráfico de residuos frente a factores o variables explicativas.
Puede ayudar a detectar si la falta de linealidad o heterocedasticidad
es debida a algún factor especı́fico. En este caso, es conveniente realizar los gráficos parciales de los residuos de cada factor incluido en el
modelo para detectar en dónde se presenta la heterocedasticidad.
4. Gráficos parciales de residuos. Con estos gráficos se estudia la
relación entre una variable respuesta y alguna explicativa eliminando
el efecto de las restantes variables explicativas, para la construcción
del gráfico se debe:
a) Ajustar un modelo lineal entre la respuesta y los factores o variables cuyos efectos se trata de eliminar.
b) Obtener los residuos del modelo, que representan la parte de la
respuesta no explicada por las otras variables.
c) Graficar el vector de variables aleatorias.
5. Gráficos de residuales frente a factores o variables omitidas.
La posible influencia de un nuevo factor o variable no incluida en el
análisis, se puede detectar graficando la variable omitida con los residuos, en particular siempre que las observaciones se hayan obtenido
en orden temporal, es conveniente representar los residuos en función
6
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
del tiempo, esto permite ver posibles autocorrelaciones entre las observaciones.
6. Se debe inspeccionar las varianzas muestrales de los grupos
analizados. Hay indicios de falta de homocedasticidad cuando son
muy pronunciadas las diferencias.
7. El cálculo de la amplitud de la varianza. Este puede indicar heterocedasticidad si las amplitudes para los diferentes grupos estudiados
fueron distintas.
8. El cálculo de los coeficientes de variación. Este puede indicar
heterocedasticidad, si los grupos presentan coeficientes de variación
semejantes, indica que la varianza crece con la media. Si las medias
fueran semejantes, los coeficientes de variación disı́miles pueden indicar
que las varianzas difieren considerablemente de un valor constante.
1.0.3.
Prueba de significancia para detectar anomalı́as
A. Para detectar heterocedasticidad, se pueden usar los estadı́sticos
Cochran, de Hartley o el de Bartlett; los dos primeros son apropiados para datos balanceados. Cuando las poblaciones no son normales,
la estadı́stica de Box(1955), puede ser empleada.
B. Para detectar la falta de normalidad se tiene la χ2 de Pearson, la
cual puede estudiarse en Snedecor (1967), las pruebas de KolmogorovSmirnov, Shapiro-Wilk y Lilliefors los cuales se pueden estudiar en
Conover (1980).
También se puede evaluar la estadı́stica de asimetrı́a
r1 =
E(Y − µ)3
σ3
donde si
> 0
r1 = = 0
<0
distribución asimétrica a la derecha
distribución simétrica
distribución asimétrica a la izquierda
Y la estadı́stica de curtosis
7
r2 =
E(Y − µ)4
σ4
donde si
> 3 leptocúrtica
r2 = = 3 normal
< 3 platicúrtica
C. Para detectar correlación de los errores se usan los estadı́sticos de
Spearman y del signo (Conover 1980) o la prueba de Durbin-Watson
(Graybill 1976).
D. No aditividad: Si hay suficientes grados de libertad, el estadı́stico F de
análisis de varianza puede ser usado; sin embargo la prueba propuesta
por Tukey para experimentos cruzados con dos factores fijos es la más
usada. Para diseños en cuadro latino se recomienda el estadı́stico de
Walk-Kempthorne (1957).
En las siguientes secciones se presentan algunas de las anteriores pruebas,
las cuales se espera, sean de gran ayuda en el desarrollo de los siguientes
capı́tulos.
1.0.4.
Pruebas para detectar heterocedasticidad
Lo contrario a homocedasticidad es la heterocedasticidad, que consiste en
que la varianza cambia a través de las observaciones. Cuando la varianza
cambia de individuo a individuo ó de tratamiento a tratamiento, se dice que
los errores son heterocedásticos.
Las consecuencias que produce la heterocedasticidad son:
a. Los estimadores de mı́nimos cuadrados o de máxima verosimilitud
siguen siendo insesgados pero no son de mı́nima varianza.
b. El estimador de la varianza de los errores es sesgado y por ende, las
varianzas de combinaciones de los estimadores de parámetros son erradas, conllevando esto a que las pruebas de significancia carezcan de
validez.
8
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
A continuación se presentan algunos estadı́sticos de prueba para la detección
de anomalı́as y la solución al problema en cada caso.
1.0.4.1.
Prueba de Bartlett de homogeneidad de varianzas
La prueba de Bartlett (1937) es quizá la más ampliamente usada para probar homogeneidad de varianza. Para introducir el test, vamos a considerar k
poblaciones, a través de estas el objetivo de la prueba se centra en determinar si todas tienen la misma varianza. Para la realización adecuada de esta
prueba, se exige que las poblaciones sean independientes y se distribuyan
normalmente.
La prueba es frecuentemente llamada M-de Bartlett o también NeymanPearson-Bartlett. Su aplicación básica como ya se mencionó es para la comparación de varianzas (homogeneidad de varianzas) entre grupos, pero también puede ser usada para chequear homogeneidad en interacciones de mayor
grado en experimentos factoriales.
En la conducción de la prueba se suponen k poblaciones normales con media µi y varianza σi2 (i = 1, . . . , k); si de cada una de las poblaciones se
toman muestras aleatorias de tamaño ni independientes, y se observa la
caracterı́stica de interés {wij } con j = 1, . . . , ni , se plantea la hipótesis
H0 : σ12 = · · · = σk2
versus
Ha : σi2 6= σi2′ para algún i 6= i′ ; i, i′ = 1, 2, . . . , k
se propone el estadı́stico de prueba:
L=
k
Q
(s2i )vi /v
i=1
k
P
(vi /v)s2i
i=1
9
donde, vi = ni − 1, v =
i = 1, 2, . . . , k.
k
P
i=1
vi y s2i =
(wij −w̄i. )2
j=1
ni −1
Pni
con w̄i. =
1
ni
ni
P
wij ;
j=1
La prueba de Bartlett de homogeneidad de varianzas tiene como región
crı́tica 0 < L < A, donde A se determina por el tamaño de la prueba.
En particular si se tiene un valor crı́tico de tamaño α, A se determina por
la ecuación PH0 (0 < L < A) = α.
Observación 1.1.
i. s2i estima insesgadamente a σi2 : i = 1, 2, . . . , k.
ii. El numerador de L es una media geométrica ponderada (MGP) de s2i ,
donde el factor de ponderación son los grados de libertad.
iii. El denominador de L es la correspondiente media aritmética ponderada (MAP) de s2i , donde la ponderación son los grados de libertad.
iv. Es bien conocido que la relación (MGP)/(MAP)≤ 1. La igualdad se
satisface siempre que s1 = s2 = · · · = sk .
v. Valores altos de L sugieren valores semejantes de σi2 y valores bajos
sugieren gran dispersión entre los σi2 .
vi. Los valores crı́ticos de A se obtienen en tablas; existen dos tipos de
tablas una basada en la distribución nula aproximada de L y la otra
basada en la distribución exacta.
Hartley introduce una modificación al estadı́stico de Bartlett obteniendo la
siguiente expresión:
M1 = −vlnL = vln
k
X
vi
i=1
v
s2i
!
−
k
X
vi lns2i
i=1
la cual bajo H0 cierta tiene una distribución asintótica χ2(k−1) .
Una aproximación a la χ2(k−1) cuando vi es finita, sugerida por Bartlett
consiste en usar el estadı́stico
10
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
T =
M1
∼ χ2(k−1)
C
con
1
C =1+
3(k − 1)
k
X
1
1
−
vi v
i=1
!
.
En este caso, se rechaza H0 si T > χ2(k−1) .
Observación 1.2. Existe otra prueba clásica de igualdad de varianzas, conocida como la estadı́stica de Cochran, la caracterı́stica de esta junto con la
de Bartlett y Hartley es que se basan en datos con distribución normal y
son extremadamente sensibles cuando esto no ocurre. Si la normalidad no se
presenta, existen otras pruebas bastante robustas pero involucran cálculos
bastante engorrosos.
Hartley (1950) compara el estadı́stico
M2 =
M ax{s21 , . . . , s2k }
s2M ax
=
2
sM in
M in{s21 , . . . , s2k }
Con el percentil superior 100α % de la distribución F , la hipótesis nula de
igualdad de varianzas se rechaza si M2 > F(gl(s2 );gl(s2 );α) .
M ax
1.0.4.2.
M in
Prueba de razón de verosimilitud (RV)
La prueba RV es aplicable cuando el número de observaciones de la muestra
es grande. El primer paso para la aplicación de esta prueba consiste en
dividir los residuos obtenidos por el método de mı́nimos cuadrados
P ordinarios
(MCO) en k grupos, cada uno con ni observaciones tal que n = i ni , donde
n es el número de observaciones en la muestra. Luego se estima la varianza
de los residuos para cada subgrupo (s2i ) y la varianza de los residuos para
toda la muestra (σ 2 ). A partir de esta información se define una función λ
de la forma
λ=
k
Y
s ni
i
i=1
sn
11
donde s es la desviación estándar muestral de los datos, se demuestra que
−2Lnλ se distribuye como una χ2(k−1) .
El paso final consiste en comparar la siguiente relación χ2(k−1) > −2Lnλ, si
no se cumple, se rechaza la hipótesis nula de homocedasticidad entre grupos. Si existe sólo una variable explicativa, el ordenamiento de los residuos
se puede hacer sobre la base de las magnitudes absolutas de estos. Sin embargo, si existiesen dos o más variables explicativas se puede utilizar el valor
estimado (ŷ) para hacer el ordenamiento de los residuales.
1.0.4.3.
Prueba de Spearman
Esta prueba supone que la varianza del término de error depende de los
valores de predicción. Si existe esta dependencia, el tamaño de los residuos
deberı́a estar relacionado con el tamaño de la variable predicha. Se debe
tener en cuenta en estos casos que las variaciones en el término de error
tienden a ser pequeñas cuando las predicciones registran valores pequeños,
y grandes cuando las variables involucradas muestran valores elevados.
Para llevar a cabo esta prueba, es necesario ordenar en sentido creciente tanto los residuos obtenidos a través de la estimación MCO (en valor absoluto),
como los valores de las predicciones. Una vez obtenido este ordenamiento,
se calcula el coeficiente de correlación de rangos rSp con la expresión
6
rSp = 1 −
n
P
Di2
i=1
n(n2 −
1)
donde Di es la diferencia entre el puesto que ocupan en la ordenación el
valor de la i−ésima predicción y el i−ésimo valor absoluto del residuo.
Si n está entre 4 y 30, se compara el valor calculado de rSp con el valor
∗ , de la tabla establecida. Se rechaza H al nivel de significancia
crı́tico, rSp
0
∗ .
α si rSp es mayor que rSp
Si el tamaño muestral es grande, entonces la expresión
12
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
√
rSp n − 2
t= q
2
1 − rSp
se distribuye aproximadamente como una t-student con (n − 2) grados de
libertad. Esta expresión podrı́a calcularse para cada una de las variables
explicativas del modelo con el fin de determinar si alguna de ellas determina
el comportamiento de la varianza del término de error. Especı́ficamente, si
el valor calculado del estadı́stico t es menor al valor tabulado, no se tiene
evidencia para rechazar la hipótesis nula de homocedasticidad respecto a los
residuos analizados.
1.0.4.4.
Prueba de Levene
Esta prueba fue propuesta por Levene (1960). La prueba es robusta al
supuesto de normalidad. Para su implementación se debe reemplazar cada valor observado wij por zij = |wij − w̄i. | y luego realizar el análisis de
varianza a una vı́a. Se rechaza H0 si la prueba es significativa.
Recomendaciones
Conover,Johnson Johnson (1981) realizaron un estudio de pruebas de homogeneidad de varianza como las citadas anteriormente. Con base en éstos
resultados, hacen las siguientes recomendaciones:
1. Si hay confianza de que la variable (en este caso error) esta cercana a
una distribución normal, entonces use la prueba de Bartlet o Hartley.
Si los tamaños de muestra son muy desiguales use la prueba de Bartlet;
en otro caso, la prueba de Hartley.
2. Si los datos no son normales y se tiene un tamaño de muestra grande,
use la prueba de Levene. Esta prueba es muy robusta a la normalidad
pero no es muy potente en muestras de tamaño pequeño.
3. En todas las demás situaciones, usar Levene la cual es tan buena como Bartlet y Hartley cuando los datos provienen de una distribución
normal y es superior a ellas para distribuciones de datos no normales.
Si los datos tienden a ser muy sesgados, la prueba de Levene puede
ser mejorada reemplazando w̄i. por w̃i. donde w̃i. es la mediana del
13
i−ésimo grupo. En este caso, se debe usar zij = |wij − w̃i. | y el análisis
de varianza se hace sobre los zij .
Como se ha visto a lo largo de esta sección, es importante el cumplimiento del
supuesto de normalidad para la realización de las pruebas de homocedasticidad y para la validez del modelo, por su importancia, en la siguiente sección
se presenta una discusión del tema.
1.0.5.
Pruebas de normalidad
La distribución normal es fundamental para la mayorı́a de los análisis estadı́sticos que se plantean en este texto. Existen varias formas de verificar la
normalidad de los datos; entre los diferentes métodos se tienen los numéricos y los gráficos. La falta de normalidad no es un problema severo, pues
el ANOVA es robusta a la falta de normalidad. Solo cuando se encuentran
valores extremadamente alejados puede haber problemas en la significancia
de las pruebas. La correción de este problema se hace mediante el uso de:
Transformaciones, pruebas no paramétricas, modelos lineales generalizados
o modelos generalizados en métodos de cuasi-verosimilitud.
El problema fundamental que ocasiona el incumplimiento de este supuesto
es que las inferencias que se hacen no son válidas.
Para detectar anormalidad, lo que en general se usa son contrastes de hipótesis,
donde la hipótesis nula se plantea como: La información proviene de una
población normal y la alterna es que este supuesto no se cumple.
Algunos estadı́sticos de prueba para llevar a cabo la prueba del supuesto de
normalidad se presenta a continuación:
1.0.5.1.
Prueba de Kolmogorov-Smirnov
Esta es una prueba no paramétrica para variables de tipo continuo o discreto
y sirve para contrastar la hipótesis nula H0 : Los datos analizados siguen
una distribución M o equivalentemente:
H0 : Fn (w) = F0 (w) contra Ha : Fn (w) 6= F0 (w)
14
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
Donde Fn (w) hace referencia a la distribución muestral acumulada observada, F0 (w) es cualquier distribución teórica con la cual se desea contrastar la
distribución muestral y w1 , ..., wn son los valores observados, a los cuales se
les quiere aplicar esta prueba.
Caracterı́sticas de la prueba:
i. No hay pérdida de información como en el caso de la prueba
ji-cuadrado; en ésta todos los valores son incluidos en el desarrollo
de la prueba.
ii. La prueba es conservativa. El valor de α es menor al especificado.
iii. La prueba es exacta para cualquier tamaño de muestra n, en cambio,
la prueba de ji-cuadrada es correcta en términos asintóticos (muestras
grandes).
iv. Esta tiene mayor poder que la ji-cuadrada cuando se prueba en contra
de varias distribuciones alternativas.
v. Es difı́cil aplicarla en distribuciones discretas. Cuando la prueba se
utiliza con datos discretos, el investigador debe tener en mente que la
probabilidad real de cometer un error tipo I es, cuando mucho, igual
al nivel significancia establecido α.
vi. La prueba es “moderada” cuando uno o más parámetros deban ser
estimados a partir de los datos de la muestra.
La prueba se puede aplicar a los siguientes modelos: Normal, exponencial,
Weibull, entre otros. En estos casos se pueden usar los estimadores de los
parámetros de dichos modelos.
La metodologı́a para usar esta prueba es la siguiente:
1. Ordene los valores observados w1 , ..., wn , o sea w(1) , ..., w(n) la muestra
ordenada.
2. Sea Fn (w(i) ) = i/n, es decir la función de distribución empı́rica de la
muestra en w(i) , es igual al número de valores observados menores o
iguales a w(i) . Fn (.) asigna a cada observación una probabilidad igual
a 1/n.
15
3. Usando la función de distribución teórica calcule F (w(1) ), F (w(2) ), . . . ,
F (w(n) ).
4. Determine la distancia más grande entre la función muestral y la teórica:
D1 = Supw |Fn (w) − F0 (w)|
D1 es el valor ”supremo” de la diferencia absoluta entre la frecuencia
acumulada observada Fn (w) y la frecuencia acumulada teórica F0 (w),
obtenida del modelo. Note que si los valores esperados F0 (w) son similares a los observados Fn (w), entonces la diferencia D1 es pequeña, por
lo tanto, discrepancias entre el modelo y las observaciones se reflejan
en altos valores de D1 .
Observación 1.3. Se debe tener en cuenta que, al determinar el valor de
D1 , no siempre es suficiente calcular y elegir entre los valores posibles de
|Fn (w) − F0 (w)|, esto quiere decir que la distancia vertical más larga entre
Fn (w) y F0 (w) posiblemente no ocurra en un valor observado w, sino en
algún otro valor de W .
Es posible determinar el valor correcto para D1 de manera algebraica al
calcular, además de las diferencias |Fn (w) − F0 (w)| para todos los valores
de i = 1, . . . , (r + 1), donde r es el número de valores diferentes de w y
Fn (w0 ) = 0. Por lo tanto, para encontrar el valor correcto de la estadı́stica
es necesario seleccionar
D = max[max1≤i≤r (|Fn (w(i) ) − F0 (w(i) )|), max1≤i≤r (|Fn (w(i−1) ) − F0 (w(i) )|)].
El valor de D se compara con un valor crı́tico Dc y con un nivel de significancia α. Estos valores crı́ticos dependen del tipo de distribución que se ha
supuesto. Existen valores crı́ticos para la distribución normal, exponencial
y Weibull, éstos se encuentran en Law (1991).
Si el modelo que se propone se basa en la distribución normal, entonces D
se debe ajustar cuando los parámetros son estimados (es decir, cuando se
emplean la media y la varianza muestrales).
16
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
La regla de decisión es: El valor de D se compara con un valor de la tabla
Dn (1 − α); si el valor calculado es mayor o igual al de las tablas, se rechaza
H0 .
1.0.5.2.
Prueba de Shapiro-Wilk
Dada una muestra aleatoria simple de tamaño n, digamos (w1 , . . . , wn ), se
quiere saber si proviene de una población con distribución normal. Este
problema es muy frecuente, ya que son muchas las pruebas de inferencia
estadı́stica que exigen como condición imprescindible para su aplicabilidad
que la población de procedencia de la información sea normal.
La hipótesis nula de interés: H0 : La muestra procede de una población normal.
En el desarrollo del test de normalidad propuesto por Shapiro, se deben
tener en cuenta los siguientes pasos:
1. Se ordena la muestra de menor a mayor, al igual que en la prueba
anterior, se obtiene el nuevo vector muestral (w(1) , . . . , w(n) ) siendo
w(i) el i−ésimo valor de la muestra ordenada.
2. Se calcula el estadı́stico:
#2
" h
1 X
ain (w(n−i+1) − w(i) )
Wc = 2
ns
i=1
siendo s2 la varianza muestral.
h=
(
n
2,
n−1
2 ,
si n par
si n impar.
y ain es un valor tabulado.
3. La distribución del estadı́stico W se encuentra también tabulado para
cada nivel de significación.
Si Wc es mayor que Wn (α) entonces se rechaza la hipótesis de normalidad.
17
1.0.5.3.
Contraste de Jarque - Bera
El contraste de Jarque-Bera (1987) utiliza las dos principales caracterı́sticas
de la distribución normal, como es la simetrı́a y el apuntamiento, usando
estas dos caracterı́sticas se busca determinar si la distribución donde proceden los datos es o no normal.
Sea Fn (w) la distribución de los datos, w1 , . . . , wn , a este conjunto de datos
se les quiere aplicar esta prueba; para el caso de interés son los residuales
obtenidos del ajuste del modelo propuesto.
H0 : Fn (w) = N (µ0 , σ02 )
Ha : Fn (w) 6= N (µ0 , σ02 )
La estadı́stica de prueba es
n − (k + 1)
τ=
6
r12
1
+ (r2 − 3)2
4
donde (k + 1) es el número de parámetros del modelo, r1 y r2 son los coeficientes de asimetrı́a y de apuntamiento (curtosis) de Fn (w) estimados,
respectivamente. Bajo la hipótesis nula τ ∼ χ2(2) , la hipótesis nula se rechaza
si τ ≥ χ2(2,1−α) .
1.0.6.
Pruebas de no aditividad
Puede suceder que el modelo aditivo no sea adecuado para describir el ensayo. La escogencia de un modelo aditivo o no, depende de la naturaleza del
experimento, la experiencia es la mejor guı́a para la decisión sobre uno u
otro modelo.
Cuando el experimento se hace en cuadros latinos, cuadros grecolatinos, series de cuadros ortogonales o en experimentos cruzados con una observación
por celda, arbitrariamente se postula un modelo como aditivo (se supone
que las interacciones son nulas) ya que no es posible realizar pruebas de
hipótesis sobre interacciones.
18
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
Para evaluar si el modelo es o no aditivo se hace uso de la prueba de no
aditividad propuesta por Tukey, la cual se describe a continuación.
1.0.6.1.
Contraste de Tukey de no aditividad
Para ilustrar el prueba se parte del modelo cruzado
yij = µ + Ai + Bj + ABij + ǫij ; i = 1, . . . , a; j = 1, . . . b
(1.1)
se supone además que ǫij ∼ N (0, σ 2 ). Adicionalmente, se imponen las restricciones
a
X
Ai =
i=1
b
X
Bj =
j=1
a
X
ABij =
b
X
ABij = 0
j=1
i=1
El interés es probar la hipótesis
H0 : AB11 = · · · = AB1b = · · · = ABa1 = · · · = ABab = 0.
Tukey impuso una restricción conveniente sobre la interacción ABij , al
asumir que el efecto de la interacción para cada celda es una función de
los efectos principales según un polinomio de segundo grado, es decir,
ABij = α0 + α1 Ai + β1 Bj + α2 A2i + γAi Bj + β2 Bj2
(1.2)
donde α0 , α1 , α2 , β1 , β2 , γ1 y γ2 son constantes.
Promediando sobre j la ecuación, se tiene
b
AB i =
1X
ABij
b
j=1
AB i = α0 + α1 Ai +
b
b
b
β1 X
β2 X 2
γ1 X
Bj +
Bj + α2 A2i + Ai
Bj
b
b
b
j=1
j=1
j=1
(1.3)
19
y ahora sobre i,
a
a
a
α1 X
α2 X 2 γ1 X
AB j = α0 +
Ai + β1 Bj +
Ai + Bj
Ai + β2 Bj2
a
a
a
i=1
i=1
(1.4)
i=1
por las restricciones impuestas pueden simplificarse como
AB i = α0 + α1 Ai +
α2 A2i
b
β2 X 2
+
Bj = 0
b
j=1
AB j = α0 + β1 Bj +
a
α2 X 2
Ai + β2 Bj2 = 0
a
i=1
por lo tanto
α1 Ai + α2 A2i = −α0 −
b
β2 X 2
Bj
b
(1.5)
β1 Bj + β2 Bj2 = −α0 −
a
α2 X 2
Ai
a
(1.6)
j=1
i=1
sustituyendo se encuentra
a
b
α2 X 2 β2 X 2
ABij = −α0 −
Ai −
Bj + γAi Bj
a
b
i=1
Pero
j=1
(1.7)
20
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
AB i =
b
1X
b
ABij =
j=1
b
1X
b
j=1
a
b
X
X
β2
−α0 − α2
A2i −
Bj2 + γAi Bj
a
b
i=1
α2
= −α0 −
a
α2
a
= −α0 −
debido al hecho que
b
P
A2i
i=1
a
X
i=1
b
P
Bj = 0 y
j=1
a
X
j=1
β2
−
b
A2i −
β2
b
b
X
b
Ai X
+γ
Bj
b
Bj2
j=1
b
X
j=1
Bj2 = 0
j=1
ABij = 0 entonces se reduce a
j=1
ABij = γAi Bj
(1.8)
sustituyendo se obtiene el nuevo modelo
yij = µ + Ai + Bj + γAi Bj + ǫij
a
P
al imponer las restricciones
Ai = 0 y
i=1
H0 : γ = 0.
b
P
(1.9)
Bj = 0 se tiene la hipótesis
j=1
Para obtener una estadı́stica de prueba, se tiene inicialmente los estimadores
de mı́nimos cuadrados del modelo es decir,
Q=
XX
i
j
ǫ2ij =
XX
i
j
(yij − µ − Ai − Bj − γAi Bj )2
Al derivar Q con respecto a γ e igualar a cero, se tiene las ecuaciones
XX
i
j
Ai Bj yij − µ
−
XX
i
j
XX
i
j
Ai Bj −
Ai Bj2 − γ
XX
i
j
XX
i
A2i Bj
j
A2i Bj2 = 0.
21
Por las restricciones impuestas
PP
i
se tiene que
XX
i
Ai Bj =
j
PP
i
XX
Ai Bj yij = γ
j
i
j
A2i Bj =
PP
i
j
Ai Bj2 = 0,
A2i Bj2
j
por lo tanto
PP
Ai Bj yij
γ̂ = P P 2 2
Ai Bj
i
j
i
(1.10)
j
La definición natural para la suma de cuadrados de la interacción es
XX
i
(γ̂Ai Bj )2 = γ̂ 2
X
i
j
A2i
X
Bj2
j
sustituyendo se obtiene
PP
Ai Bj yij
i j
PP 2 2
Ai Bj
SCN A =
i
2
j
como Ai y Bj son desconocidos, se estiman a partir del modelo como Âi =
ȳi − ȳ y B̂j = ȳj − ȳ, luego la suma de cuadrados de no aditividad es
hPP
i2
(ȳi − ȳ)(ȳj − ȳ)yij
i j
SCN A = P P
.
(ȳi − ȳ)2 (ȳj − ȳ)2
i
(1.11)
j
Para la construcción del estadı́stico de prueba se postula el siguiente teorema
PP
Teorema 1.1. Sea SCE =
(yij − ȳi − ȳj + ȳ)2 en el modelo entonces
i
j
la suma de cuadrados de residuales es
SCE(N uevo) = SCE − SCN A
22
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
SCE(N uevo)
se distribuyen en forma
bajo H0 : γ = 0 cierta entonces SCE
σ2 y
σ2
independiente como una chi-cuadrado. Por consiguiente el cociente
F =
SCN A
SCE(N uevo)
(ab−a−b)
∼ F(1,ab−a−b)
La prueba de este teorema puede verse en Rao (1973).
Cuando se tengan tres factores, la suma de cuadrados de no aditividad es
obtenida como
hPPP
i2
(ȳi − ȳ)(ȳj − ȳ)(ȳk − ȳ)yijk
i j k
PPP
(ȳi − ȳ)2 (ȳj − ȳ)2 (ȳk − ȳ)2
i
j
k
El desarrollo de la prueba puede verse en Tukey (1949).
1.1.
Solución a los problemas de heterocedasticidad y anormalidad
Las siguientes son algunas de las estrategias para solucionar los diferentes
problemas en el ajuste del modelo propuesto.
1.1.1.
Uso de transformaciones
Transformar significa un cambio de métrica de la variable original por una
medida en otra escala. La transformación tiene como idea central, que si en
la variable original los supuestos no son adecuados, puede existir una transformación conveniente tal que en la nueva métrica estos se satisfacen.
Entre 1936 y 1940 fueron publicados algunos artı́culos sobre la transformación raı́z cuadrada, logaritmo natural y transformación angular aplicables en
el análisis de varianza. En 1954 surgen algunas publicaciones sobre el uso de
las transformaciones; en particular cabe citar los trabajos de Moore-Tukey
y Anscombe-Tukey quienes desarrollaron una familia de transformaciones.
1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD...
23
Box Cox (1964) publicaron un artı́culo que es considerado como un gran
marco de trabajo para la obtención de las transformaciones.
1.1.1.1.
Consideraciones generales sobre transformaciones
En análisis de varianza y regresión las transformaciones pueden ser aplicadas
para:
i) Linealizar el modelo.
ii) Corregir desvı́os de los supuestos del modelo.
iii) Simplificar el modelo.
En la tabla se presentan algunas transformaciones para linealizar el modelo.
Exponencial
Potencia
Multiplicativo
Recı́proco
Modelo
Y = β 0 eβ1 X ǫ
Y = β 0 X β1 ǫ
Y = β0 X1β1 X2β2 ǫ
Y = β +β X 1+β X
Logı́stico
Y =
2 2 +ǫ
1
1+exp[−(β0 +β1 X+ǫ)]
0
Y =
√
k
1
1
Xβ + ǫ
Tranformación
LnY = Lnβ0 + β1 X + Lnǫ
LogY = Logβ0 + β1 LogX + Logǫ
LogY = Logβ0 + β1 LogX1 + β2 LogX2 + Logǫ
1
= β0 + β1 X1 + β2 X2 + ǫ
Y
Y
= β0 + β1 X + ǫ
Log 1−Y
Y k = Xβ + ǫ
Cuadro 1.1. Transformaciones que linealizan el modelo.
1.1.2.
Uso de las transformaciones para estabilizar varianza
Si el supuesto de homogeneidad de varianza no es satisfecho, puede suceder que una transformación de la variable dependiente estabilice la varianza. Bartlett(1947) y Siqueira (1983), determinan una transformación conveniente en el caso de que exista una relación entre E(Y ) = µ y V ar(Y ) = σ 2 ,
es decir
σ 2 = F (µ)
(1.12)
La idea ahora es buscar la transformación de Y , por ejemplo Z = g(Y ) tal
que V ar(Z) = constante = K.
24
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
Desarrollando g(Y ) en series de Taylor, se tiene
Z = g(Y ) = g(µ) + (Y − µ)g′ (µ).
(1.13)
Tomando valor esperado y varianza de la nueva variable Z, se llega a:
E(Z) = E[g(µ) + (Y − µ)g′ (µ)] = g(µ)
(1.14)
V ar(Z) = E[Z − E(Z)]2 = E[(Y − µ)g′ (µ)]2
= [g′ (µ)]2 V ar(Y ).
Haciendo V ar(Z) = K y V ar(Y ) = F (µ), se llega en la anterior expresión
a
[g′ (µ)]2 F (µ) = K
y despejando g′ (µ), se sigue que
′
g (µ) =
s
K
F (µ)
y entonces
g(µ) =
Z s
K
dµ
F (µ)
(1.15)
K
dY
F (Y )
(1.16)
De forma general se tiene que
g(Y ) =
Z s
Con la expresión anterior se determina la forma genérica de la transformación que estabiliza la varianza.
1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD...
25
A continuación se presentan algunos ejemplos en donde se evidencia el anterior problema.
La tabla tomada de Bartlett, resume algunas transformaciones cuando las
varianzas y las medias están relacionadas:
Rel. Var.-Media
µ
K 2µ
2µ2
n−1
2 2
K µ
µ(1−µ)
n
2 2
2
K µ (1 − µ)
(1−µ2 )2
n−1
2 2
µ+K µ
µ4
Transformación
√
√
√Y o Y + 1
Y
LogY
LogY o Log(Y + 1)
√
Arcos( Y )
Y
Log 1−Y
1
1+Y
2 Log 1−Y
√
1
k Arcosenh(k Y )
1
Y
Var. nueva escala
0,25
0,25K 2
2
n−1
2
K
0,25
n
2
K
1
n−3
0,25
1
Distribución
Poisson
Poisson
Varianzas M
Empı́rica
Binomial
Empı́rica
Correlación
Binomial Neg.
Empı́rica
Cuadro 1.2. Transformaciones recomendadas según Bartlett (1947) cuando
hay relación entre media y varianza.
Observación 1.4. En la práctica, para ver la relación entre σ 2 y µ se debe
construir un gráfico de Si2 en función de Ȳi o también entre Log(Si2 ) y
Log(Ȳi ) para indicar la relación existente.
Las soluciones (transformaciones) dependen del comportamiento que se observe en los residuales, es decir de los supuestos que se hagan del comportamiento de la varianza.
1.1.3.
Uso de transformaciones para corregir no normalidad
Desvı́os moderados a la falta de normalidad, no afectan los resultados de las
estadı́sticas t y F , pero si la distribución presenta una asimetrı́a acentuada,
el coeficiente de asimetrı́a difiere ampliamente de cero y ocurre algún desvı́o
grande en la región de las observaciones extremas, cuando esto sucede los
métodos estadı́sticos que suponen normalidad no deben emplearse. En estos
casos es posible encontrar una transformación que lleve a una distribución
razonablemente simétrica.
Ejemplo 1.1. En Bhattacharya, se presenta el siguiente conjunto de datos:
26
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
39, 3
3, 5
6, 0
2, 7
7, 4
3, 5
19, 4
19, 7
1, 0
8, 7
14, 8
8, 3
17, 1
26, 2
6, 6
8, 3
19, 0
10, 3
7, 6
18, 9
Y
6, 3
10
16, 8
24, 3
5, 2
44, 8
14, 1
3, 4
28, 3
3, 4
0, 9
1, 3
0, 7
17, 7
8, 3
8, 3
1, 9
16, 7
26, 2
10, 0
6, 5
7, 1
7, 9
3, 2
5, 9
13, 4
12, 0
4, 3
31, 7
2, 5
1, 37
1, 57
1, 29
1, 64
1, 37
2, 07
2, 11
1, 0
1, 72
Z = Y 1/4
1, 96 1, 58 0, 97
1, 70 1, 78 1, 07
2, 03 2, 02 0, 91
2, 26 2, 22 2, 05
1, 60 1, 51 1, 70
1, 70 2, 59 1, 70
2, 10 1, 93 1, 17
1, 79 1, 36 2, 02
1, 66 2, 31 2, 26
2, 09 1, 36 1, 78
1, 60
1, 63
1, 68
1, 34
1, 56
1, 91
1, 86
1, 44
2, 31
En este caso, al trabajar con la variable Y y probar la hipótesis de normalidad, se encuentra según los resultados de los estadı́sticos de prueba de
Kolmogorov y Shapiro en la siguiente tabla:
Prueba
Shapiro-Wilk
Kolmogorov-Smirnov
Estadı́stico
W=0,8706
D=0,1806
valor p
< 0, 0001
< 0, 0100
A partir de los anteriores resultados, se rechaza la hipótesis de normalidad,
a través tanto del estadı́stico de Shapiro-Wilk (valor p < 0, 0001) como el
de Kolmogorov-Smirnov (valor p < 0,0100), con lo cual se evidencia que se
debe transformar esta variable.
Al realizar la transformación Z = Y 1/4 se satisface el supuesto de normalidad, que se evidencia según los resultados de las pruebas estadı́sticas
obtenidas en la siguiente tabla:
Prueba
Shapiro-Wilk
Kolmogorov-Smirnov
Estadı́stico
W=0,9856
D=0,0729
valor p
0,8099
> 0, 1500
en la gráfica que se presenta en la figura se satisface la normalidad al realizar
esta transformación.
Existen trabajos teóricos que tratan el problema de escoger las transformaciones, pero no existen métodos prácticos que indiquen la información
1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD...
(a)
27
(b)
Figura 1.1. Histogramas de la variable sin transformar (a) y transformada
(b).
√
√
adecuada. En la práctica se sugiere la transformación Y , 4 Y , LogY , Y1
para disminuir valores grandes, en tanto que Y 2 y Y 3 tienden a aumentar
valores pequeños.
A continuación se presenta una transformación que permite estabilizar varianza y corregir a la vez el problema de no normalidad.
1.1.4.
Transformación de Box - Cox
El objetivo de esta transformación es homogeneizar la varianza. En la mayorı́a de los casos al cumplirse este objetivo se esta corrigiendo de una vez
el problema de falta de normalidad.
Esta transformación tiene como supuesto que la varianza es una función de
la media, σt2 = f (µt ), por lo tanto la metodologı́a tiene como objetivo buscar
un valor para λ tal que σt /µt1−λ = constante.
La transformación se hace sobre la variable dependiente y tiene la siguiente
estructura general:
T(y)=
y λ si λ 6= 0
ln y si λ = 0
28
CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS
Para hacer uso de la transformación de deben tener en cuenta los siguientes
pasos:
1. Se dividen las n observaciones en H grupos, cada uno con igual número
observaciones. Ejemplo: Si se tiene 125 observaciones y se quiere 7
grupos cada uno tendrá 17 observaciones (125/7=17). Se deja por fuera
las 6 últimas o primeras observaciones. Cada grupo tendrá (n − h)/H
observaciones, con h el número de observaciones que se dejan por fuera
de la clasificación inicial.
2. En cada grupo se calcula la media y la desviación estándar, es decir,
se obtiene {ȳ1 , s1 }, {ȳ2 , s2 }, . . . , {ȳH , sH }.
3. Para cada λ se calcula los coeficientes de variación presentados en la
tabla. En dicha tabla CV (.) = Coeficiente de Variación = DS(λ)
µ(λ) con
!
H
si
1 X
µ(λ) =
H
ȳi1−λ
i=1
v
"
!
#2
u
H
u
X
s
1
i
DS(λ) = t
− µ(λ)
1−λ
(H − 1)
λ
i
i=1
Grupo
1
2
..
.
-1
s1 /ȳ12
s2 /ȳ22
..
.
H
Coeficiente
2
sH /ȳH
CV(-1)
Potencia (λ)
-0.5
0
0.5
1,5
s1 /ȳ1
s1 /ȳ1
s1 /ȳ10,5
1,5
s2 /ȳ2
s2 /ȳ2
s2 /ȳ20,5
..
..
..
.
.
.
1,5
0,5
s2 /ȳH
s2 /ȳH
s2 /ȳH
CV(-0.5) CV(0) CV(0.5)
1
s1
s2
..
.
sH
CV(1)
Cuadro 1.3. Transformación de la variable dependiente a través de la escogencia de λ.
El λ que se escoge para realizar la transformación, es aquel con menor
coeficiente de variación.