Academia.eduAcademia.edu

Validaciondesupuestosunidad

Abstract

En esta sección se parte de la definición del residualǫ i = y i −ŷ i , sobre el que se formulan algunos supuestos los cuales resulta necesario verificar para que al realizar inferencias resulten válida (sobre el modelo:ajuste, adecuación, validez de la predicción, etc). La validación lleva en consideración la realización de un análisis de los residuales para verificar cualquier anomalía sobre el ajuste del modelo lineal.

Capı́tulo 1 Verificación de supuestos En esta sección se parte de la definición del residual ǫ̂i = yi − ŷi , sobre el que se formulan algunos supuestos los cuales resulta necesario verificar para que al realizar inferencias resulten válida (sobre el modelo:ajuste, adecuación, validez de la predicción, etc). La validación lleva en consideración la realización de un análisis de los residuales para verificar cualquier anomalı́a sobre el ajuste del modelo lineal. Cuando se propone un modelo para el ajuste de los datos se establecen básicamente los siguientes supuestos sobre el error: Independencia, normalidad, media cero y varianza constante. Es importante notar que los errores (ǫi ) son no observables, no se conocen, pero se pueden estimar mediante los residuales (ǫ̂i ), ası́ todas las pruebas de los supuestos se realizan sobre estos últimos. Al ajustar el modelo se espera que los residuales satisfagan los anteriores supuestos sobre el error. Después de examinar los residuales sólo se podrá concluir que los supuestos “se cumplen”, ó “no se cumplen” con los riesgos inherentes a toda decisión estadı́stica. Toda la inferencia que se puede realizar (estimación por intervalo de las combinaciones lineales o no lineales de los parámetros, pruebas de hipótesis, entre otras) sobre el modelo, tiene como base los supuestos sobre la variable respuesta. Si alguno de éstos no se cumple, los procesos de inferencia conllevan a decisiones con alto riesgo de estar equivocadas. 1 2 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS El objetivo de esta sección es mostrar los posibles problemas que se presentan cuando alguno de los supuestos no se cumple, ası́ como mostrar diferentes formas de corregir las desviaciones de los supuestos en el caso en quese incumplan. El supuesto de media cero de los errores verificado a través de los residuales es de fácil cumplimiento, puesto que el promedio de los errores por construcción es cero. 1.0.1. Causas de desvı́os de supuestos La aplicación de una técnica estadı́stica implica verificar que los supuestos del modelo son razonablemente satisfechos. Se aconseja que un análisis estadı́stico se inicie con un estudio exploratorio de datos, con eso se gana en sensibilidad e información adicional sobre la variable estudiada. El análisis de residuos es una técnica bastante eficiente para detectar desvı́os de los supuestos. Abarca análisis gráficos, numéricos y mixtos; este debe ser un procedimiento de rutina en el análisis de los datos. El análisis de residuos también puede ser utilizado para detectar outliers. Los supuestos básicos que se deben verificar en el ajuste de los modelos son los siguientes: i. La no correlación de los errores: Este supuesto se incumple cuando las observaciones son tomadas secuencialmente en el tiempo, el espacio y en datos cluster, entre otros. Cuando los datos están correlacionados se debe trabajar con métodos estadı́sticos apropiados. ii. La homocedasticidad de los errores: Este supuesto se puede incumplir por varias razones, por ejemplo: Por daños en alguna parte del experimento, contratiempos, uso del material experimental menos homogéneo en algunas réplicas, por no tener cuidado en el control durante la ejecución del experimento o en el control de las unidades experimentales. 3 La naturaleza de los tratamientos, puede producir algunas respuestas más variables que otras, causando heterogeneidad en la varianza de los errores, caso frecuente en ensayos con fertilizantes o en experimentación biológica, cuando se desea comparar efectos de tratamientos. La heterocedasticidad puede ocurrir también en los casos donde la media y la varianza están relacionadas, caso tı́pico, un estudio de conteos que siguen una distribución Poisson o en datos con respuesta binaria. También la heterocedasticidad puede ser causada por la presencia de observaciones atı́picas u outliers, las cuales se clasifican en “no genuinas” o “genuinas”. Las primeras son datos leı́dos pero con transcripción errónea, en tanto que las genuinas pueden ser causadas por cambios no controlados en la conducción del experimento. iii. La normalidad. Que el comportamiento de los datos sea normal casi nunca ocurre con la información real proveniente de los datos, la distribución de la variable puede ser asimétrica y aún con distribución simétrica puede no seguir una distribución normal. iv. No aditividad en el modelo. La construcción de gráficos de perfiles puede indicar la existencia o no de interacción. Para verificar si dicha interacción es causada por la presencia de un outlier, tal observación se debe retirar y volver a hacer el gráfico. Si se mantiene la estructura de este gráfico, existen indicios de que la interacción es inherente al fenómeno de estudio y no es causada por la presencia del outlier. A continuación se presentan los métodos y pruebas para detectar problemas sobre homocedásticidad, normalidad y aditividad en el modelo. 1.0.2. Análisis gráfico y medidas descriptivas de los residuales Las formas gráficas y las medidas descriptivas, son los métodos usados tradicionalmente para detectar problemas en la validez de los supuestos del modelo lineal planteado; por su importancia, en esta sección se presentan algunos de éstos métodos. 1. Histograma y gráfico probabilı́stico normal. Estos gráficos son útiles para analizar la normalidad de los residuos e identificar valores 4 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS atı́picos. La potencia de las pruebas de normalidad sobre los residuos suele ser baja, porque aunque el vector de variables aleatorias no sea normal, es posible que los residuos lo sean. La razón es que ǫ̂i es una combinación lineal de todas las variables aleatorias, y según el teorema central del lı́mite, su distribución tenderá a ser aproximadamente normal. Los histogramas pueden ayudar a detectar la falta de normalidad. En la aplicación del método se deben tener en cuenta los siguientes pasos: a) Ordene los valores de la variable aleatoria W de menor a mayor (w(1) > . . . > w(n) ). b) Calcule la probabilidad acumulada observada: pi = 100(i−0,5)/n. El valor de 0,5 se emplea para no obtener p = 1, el cual tiene un valor de infinito para W ; el arreglo que se tiene para esta información es el siguiente: W w(1) .. . Percentil (P) p1 .. . w(n) pn c) Grafique los valores de W contra P . Observaciones que no proceden de una distribución normal presentan una forma curva, mientras observaciones que se ajusten a la normalidad siguen una ecuación lineal. Este método se recomienda con tamaños de muestra donde n > 100 observaciones sokal (1969). Si hay un ajuste cercano a una lı́nea recta, hay evidencia para indicar que los datos provienen de una distribución normal, sin embargo se debe tener en cuenta que en algunos casos, aunque los puntos se ajusten a una lı́nea recta puede que los datos no provengan de una distribución normal: Por ello se recomienda utilizar algunos otros “métodos objetivos”. Otra alternativa de realizar el gráfico de probabilidad normal se basa en la estandarización de las observaciones mediante la transfomación a la variable zi , i = 1, . . . , n 5 zi = wi − µ σ i = 1, . . . , n. La idea es calcular la probabilidad observada de cada una de las observaciones y estimar el valor de zi aplicando la función inversa; si la distribución adyacente es normal, el gráfico de los valores de zi versus wi tienen una forma lineal. 2. Gráfico de residuos frente a valores estimados. Con estos gráficos se pueden identificar falta de linealidad, heterocedasticidad y presencia de valores atı́picos. El gráfico puede hacerse con cualquiera de los tipos de residuos, aunque preferiblemente, se utilizan los residuos sin transformar ǫ̂i , o los estandarizados ri0 , donde ri0 = p ǫ̂i 1 − xi (X t X)− xti con xi la i-ésima fila de la matriz X. 3. Gráfico de residuos frente a factores o variables explicativas. Puede ayudar a detectar si la falta de linealidad o heterocedasticidad es debida a algún factor especı́fico. En este caso, es conveniente realizar los gráficos parciales de los residuos de cada factor incluido en el modelo para detectar en dónde se presenta la heterocedasticidad. 4. Gráficos parciales de residuos. Con estos gráficos se estudia la relación entre una variable respuesta y alguna explicativa eliminando el efecto de las restantes variables explicativas, para la construcción del gráfico se debe: a) Ajustar un modelo lineal entre la respuesta y los factores o variables cuyos efectos se trata de eliminar. b) Obtener los residuos del modelo, que representan la parte de la respuesta no explicada por las otras variables. c) Graficar el vector de variables aleatorias. 5. Gráficos de residuales frente a factores o variables omitidas. La posible influencia de un nuevo factor o variable no incluida en el análisis, se puede detectar graficando la variable omitida con los residuos, en particular siempre que las observaciones se hayan obtenido en orden temporal, es conveniente representar los residuos en función 6 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS del tiempo, esto permite ver posibles autocorrelaciones entre las observaciones. 6. Se debe inspeccionar las varianzas muestrales de los grupos analizados. Hay indicios de falta de homocedasticidad cuando son muy pronunciadas las diferencias. 7. El cálculo de la amplitud de la varianza. Este puede indicar heterocedasticidad si las amplitudes para los diferentes grupos estudiados fueron distintas. 8. El cálculo de los coeficientes de variación. Este puede indicar heterocedasticidad, si los grupos presentan coeficientes de variación semejantes, indica que la varianza crece con la media. Si las medias fueran semejantes, los coeficientes de variación disı́miles pueden indicar que las varianzas difieren considerablemente de un valor constante. 1.0.3. Prueba de significancia para detectar anomalı́as A. Para detectar heterocedasticidad, se pueden usar los estadı́sticos Cochran, de Hartley o el de Bartlett; los dos primeros son apropiados para datos balanceados. Cuando las poblaciones no son normales, la estadı́stica de Box(1955), puede ser empleada. B. Para detectar la falta de normalidad se tiene la χ2 de Pearson, la cual puede estudiarse en Snedecor (1967), las pruebas de KolmogorovSmirnov, Shapiro-Wilk y Lilliefors los cuales se pueden estudiar en Conover (1980). También se puede evaluar la estadı́stica de asimetrı́a r1 = E(Y − µ)3 σ3 donde si   > 0 r1 = = 0   <0 distribución asimétrica a la derecha distribución simétrica distribución asimétrica a la izquierda Y la estadı́stica de curtosis 7 r2 = E(Y − µ)4 σ4 donde si   > 3 leptocúrtica r2 = = 3 normal   < 3 platicúrtica C. Para detectar correlación de los errores se usan los estadı́sticos de Spearman y del signo (Conover 1980) o la prueba de Durbin-Watson (Graybill 1976). D. No aditividad: Si hay suficientes grados de libertad, el estadı́stico F de análisis de varianza puede ser usado; sin embargo la prueba propuesta por Tukey para experimentos cruzados con dos factores fijos es la más usada. Para diseños en cuadro latino se recomienda el estadı́stico de Walk-Kempthorne (1957). En las siguientes secciones se presentan algunas de las anteriores pruebas, las cuales se espera, sean de gran ayuda en el desarrollo de los siguientes capı́tulos. 1.0.4. Pruebas para detectar heterocedasticidad Lo contrario a homocedasticidad es la heterocedasticidad, que consiste en que la varianza cambia a través de las observaciones. Cuando la varianza cambia de individuo a individuo ó de tratamiento a tratamiento, se dice que los errores son heterocedásticos. Las consecuencias que produce la heterocedasticidad son: a. Los estimadores de mı́nimos cuadrados o de máxima verosimilitud siguen siendo insesgados pero no son de mı́nima varianza. b. El estimador de la varianza de los errores es sesgado y por ende, las varianzas de combinaciones de los estimadores de parámetros son erradas, conllevando esto a que las pruebas de significancia carezcan de validez. 8 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS A continuación se presentan algunos estadı́sticos de prueba para la detección de anomalı́as y la solución al problema en cada caso. 1.0.4.1. Prueba de Bartlett de homogeneidad de varianzas La prueba de Bartlett (1937) es quizá la más ampliamente usada para probar homogeneidad de varianza. Para introducir el test, vamos a considerar k poblaciones, a través de estas el objetivo de la prueba se centra en determinar si todas tienen la misma varianza. Para la realización adecuada de esta prueba, se exige que las poblaciones sean independientes y se distribuyan normalmente. La prueba es frecuentemente llamada M-de Bartlett o también NeymanPearson-Bartlett. Su aplicación básica como ya se mencionó es para la comparación de varianzas (homogeneidad de varianzas) entre grupos, pero también puede ser usada para chequear homogeneidad en interacciones de mayor grado en experimentos factoriales. En la conducción de la prueba se suponen k poblaciones normales con media µi y varianza σi2 (i = 1, . . . , k); si de cada una de las poblaciones se toman muestras aleatorias de tamaño ni independientes, y se observa la caracterı́stica de interés {wij } con j = 1, . . . , ni , se plantea la hipótesis H0 : σ12 = · · · = σk2 versus Ha : σi2 6= σi2′ para algún i 6= i′ ; i, i′ = 1, 2, . . . , k se propone el estadı́stico de prueba: L= k Q (s2i )vi /v i=1 k P (vi /v)s2i i=1 9 donde, vi = ni − 1, v = i = 1, 2, . . . , k. k P i=1 vi y s2i = (wij −w̄i. )2 j=1 ni −1 Pni con w̄i. = 1 ni ni P wij ; j=1 La prueba de Bartlett de homogeneidad de varianzas tiene como región crı́tica 0 < L < A, donde A se determina por el tamaño de la prueba. En particular si se tiene un valor crı́tico de tamaño α, A se determina por la ecuación PH0 (0 < L < A) = α. Observación 1.1. i. s2i estima insesgadamente a σi2 : i = 1, 2, . . . , k. ii. El numerador de L es una media geométrica ponderada (MGP) de s2i , donde el factor de ponderación son los grados de libertad. iii. El denominador de L es la correspondiente media aritmética ponderada (MAP) de s2i , donde la ponderación son los grados de libertad. iv. Es bien conocido que la relación (MGP)/(MAP)≤ 1. La igualdad se satisface siempre que s1 = s2 = · · · = sk . v. Valores altos de L sugieren valores semejantes de σi2 y valores bajos sugieren gran dispersión entre los σi2 . vi. Los valores crı́ticos de A se obtienen en tablas; existen dos tipos de tablas una basada en la distribución nula aproximada de L y la otra basada en la distribución exacta. Hartley introduce una modificación al estadı́stico de Bartlett obteniendo la siguiente expresión: M1 = −vlnL = vln k X vi i=1 v s2i ! − k X vi lns2i i=1 la cual bajo H0 cierta tiene una distribución asintótica χ2(k−1) . Una aproximación a la χ2(k−1) cuando vi es finita, sugerida por Bartlett consiste en usar el estadı́stico 10 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS T = M1 ∼ χ2(k−1) C con 1 C =1+ 3(k − 1) k X 1 1 − vi v i=1 ! . En este caso, se rechaza H0 si T > χ2(k−1) . Observación 1.2. Existe otra prueba clásica de igualdad de varianzas, conocida como la estadı́stica de Cochran, la caracterı́stica de esta junto con la de Bartlett y Hartley es que se basan en datos con distribución normal y son extremadamente sensibles cuando esto no ocurre. Si la normalidad no se presenta, existen otras pruebas bastante robustas pero involucran cálculos bastante engorrosos. Hartley (1950) compara el estadı́stico M2 = M ax{s21 , . . . , s2k } s2M ax = 2 sM in M in{s21 , . . . , s2k } Con el percentil superior 100α % de la distribución F , la hipótesis nula de igualdad de varianzas se rechaza si M2 > F(gl(s2 );gl(s2 );α) . M ax 1.0.4.2. M in Prueba de razón de verosimilitud (RV) La prueba RV es aplicable cuando el número de observaciones de la muestra es grande. El primer paso para la aplicación de esta prueba consiste en dividir los residuos obtenidos por el método de mı́nimos cuadrados P ordinarios (MCO) en k grupos, cada uno con ni observaciones tal que n = i ni , donde n es el número de observaciones en la muestra. Luego se estima la varianza de los residuos para cada subgrupo (s2i ) y la varianza de los residuos para toda la muestra (σ 2 ). A partir de esta información se define una función λ de la forma λ= k Y s ni i i=1 sn 11 donde s es la desviación estándar muestral de los datos, se demuestra que −2Lnλ se distribuye como una χ2(k−1) . El paso final consiste en comparar la siguiente relación χ2(k−1) > −2Lnλ, si no se cumple, se rechaza la hipótesis nula de homocedasticidad entre grupos. Si existe sólo una variable explicativa, el ordenamiento de los residuos se puede hacer sobre la base de las magnitudes absolutas de estos. Sin embargo, si existiesen dos o más variables explicativas se puede utilizar el valor estimado (ŷ) para hacer el ordenamiento de los residuales. 1.0.4.3. Prueba de Spearman Esta prueba supone que la varianza del término de error depende de los valores de predicción. Si existe esta dependencia, el tamaño de los residuos deberı́a estar relacionado con el tamaño de la variable predicha. Se debe tener en cuenta en estos casos que las variaciones en el término de error tienden a ser pequeñas cuando las predicciones registran valores pequeños, y grandes cuando las variables involucradas muestran valores elevados. Para llevar a cabo esta prueba, es necesario ordenar en sentido creciente tanto los residuos obtenidos a través de la estimación MCO (en valor absoluto), como los valores de las predicciones. Una vez obtenido este ordenamiento, se calcula el coeficiente de correlación de rangos rSp con la expresión 6 rSp = 1 − n P Di2 i=1 n(n2 − 1) donde Di es la diferencia entre el puesto que ocupan en la ordenación el valor de la i−ésima predicción y el i−ésimo valor absoluto del residuo. Si n está entre 4 y 30, se compara el valor calculado de rSp con el valor ∗ , de la tabla establecida. Se rechaza H al nivel de significancia crı́tico, rSp 0 ∗ . α si rSp es mayor que rSp Si el tamaño muestral es grande, entonces la expresión 12 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS √ rSp n − 2 t= q 2 1 − rSp se distribuye aproximadamente como una t-student con (n − 2) grados de libertad. Esta expresión podrı́a calcularse para cada una de las variables explicativas del modelo con el fin de determinar si alguna de ellas determina el comportamiento de la varianza del término de error. Especı́ficamente, si el valor calculado del estadı́stico t es menor al valor tabulado, no se tiene evidencia para rechazar la hipótesis nula de homocedasticidad respecto a los residuos analizados. 1.0.4.4. Prueba de Levene Esta prueba fue propuesta por Levene (1960). La prueba es robusta al supuesto de normalidad. Para su implementación se debe reemplazar cada valor observado wij por zij = |wij − w̄i. | y luego realizar el análisis de varianza a una vı́a. Se rechaza H0 si la prueba es significativa. Recomendaciones Conover,Johnson Johnson (1981) realizaron un estudio de pruebas de homogeneidad de varianza como las citadas anteriormente. Con base en éstos resultados, hacen las siguientes recomendaciones: 1. Si hay confianza de que la variable (en este caso error) esta cercana a una distribución normal, entonces use la prueba de Bartlet o Hartley. Si los tamaños de muestra son muy desiguales use la prueba de Bartlet; en otro caso, la prueba de Hartley. 2. Si los datos no son normales y se tiene un tamaño de muestra grande, use la prueba de Levene. Esta prueba es muy robusta a la normalidad pero no es muy potente en muestras de tamaño pequeño. 3. En todas las demás situaciones, usar Levene la cual es tan buena como Bartlet y Hartley cuando los datos provienen de una distribución normal y es superior a ellas para distribuciones de datos no normales. Si los datos tienden a ser muy sesgados, la prueba de Levene puede ser mejorada reemplazando w̄i. por w̃i. donde w̃i. es la mediana del 13 i−ésimo grupo. En este caso, se debe usar zij = |wij − w̃i. | y el análisis de varianza se hace sobre los zij . Como se ha visto a lo largo de esta sección, es importante el cumplimiento del supuesto de normalidad para la realización de las pruebas de homocedasticidad y para la validez del modelo, por su importancia, en la siguiente sección se presenta una discusión del tema. 1.0.5. Pruebas de normalidad La distribución normal es fundamental para la mayorı́a de los análisis estadı́sticos que se plantean en este texto. Existen varias formas de verificar la normalidad de los datos; entre los diferentes métodos se tienen los numéricos y los gráficos. La falta de normalidad no es un problema severo, pues el ANOVA es robusta a la falta de normalidad. Solo cuando se encuentran valores extremadamente alejados puede haber problemas en la significancia de las pruebas. La correción de este problema se hace mediante el uso de: Transformaciones, pruebas no paramétricas, modelos lineales generalizados o modelos generalizados en métodos de cuasi-verosimilitud. El problema fundamental que ocasiona el incumplimiento de este supuesto es que las inferencias que se hacen no son válidas. Para detectar anormalidad, lo que en general se usa son contrastes de hipótesis, donde la hipótesis nula se plantea como: La información proviene de una población normal y la alterna es que este supuesto no se cumple. Algunos estadı́sticos de prueba para llevar a cabo la prueba del supuesto de normalidad se presenta a continuación: 1.0.5.1. Prueba de Kolmogorov-Smirnov Esta es una prueba no paramétrica para variables de tipo continuo o discreto y sirve para contrastar la hipótesis nula H0 : Los datos analizados siguen una distribución M o equivalentemente: H0 : Fn (w) = F0 (w) contra Ha : Fn (w) 6= F0 (w) 14 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Donde Fn (w) hace referencia a la distribución muestral acumulada observada, F0 (w) es cualquier distribución teórica con la cual se desea contrastar la distribución muestral y w1 , ..., wn son los valores observados, a los cuales se les quiere aplicar esta prueba. Caracterı́sticas de la prueba: i. No hay pérdida de información como en el caso de la prueba ji-cuadrado; en ésta todos los valores son incluidos en el desarrollo de la prueba. ii. La prueba es conservativa. El valor de α es menor al especificado. iii. La prueba es exacta para cualquier tamaño de muestra n, en cambio, la prueba de ji-cuadrada es correcta en términos asintóticos (muestras grandes). iv. Esta tiene mayor poder que la ji-cuadrada cuando se prueba en contra de varias distribuciones alternativas. v. Es difı́cil aplicarla en distribuciones discretas. Cuando la prueba se utiliza con datos discretos, el investigador debe tener en mente que la probabilidad real de cometer un error tipo I es, cuando mucho, igual al nivel significancia establecido α. vi. La prueba es “moderada” cuando uno o más parámetros deban ser estimados a partir de los datos de la muestra. La prueba se puede aplicar a los siguientes modelos: Normal, exponencial, Weibull, entre otros. En estos casos se pueden usar los estimadores de los parámetros de dichos modelos. La metodologı́a para usar esta prueba es la siguiente: 1. Ordene los valores observados w1 , ..., wn , o sea w(1) , ..., w(n) la muestra ordenada. 2. Sea Fn (w(i) ) = i/n, es decir la función de distribución empı́rica de la muestra en w(i) , es igual al número de valores observados menores o iguales a w(i) . Fn (.) asigna a cada observación una probabilidad igual a 1/n. 15 3. Usando la función de distribución teórica calcule F (w(1) ), F (w(2) ), . . . , F (w(n) ). 4. Determine la distancia más grande entre la función muestral y la teórica: D1 = Supw |Fn (w) − F0 (w)| D1 es el valor ”supremo” de la diferencia absoluta entre la frecuencia acumulada observada Fn (w) y la frecuencia acumulada teórica F0 (w), obtenida del modelo. Note que si los valores esperados F0 (w) son similares a los observados Fn (w), entonces la diferencia D1 es pequeña, por lo tanto, discrepancias entre el modelo y las observaciones se reflejan en altos valores de D1 . Observación 1.3. Se debe tener en cuenta que, al determinar el valor de D1 , no siempre es suficiente calcular y elegir entre los valores posibles de |Fn (w) − F0 (w)|, esto quiere decir que la distancia vertical más larga entre Fn (w) y F0 (w) posiblemente no ocurra en un valor observado w, sino en algún otro valor de W . Es posible determinar el valor correcto para D1 de manera algebraica al calcular, además de las diferencias |Fn (w) − F0 (w)| para todos los valores de i = 1, . . . , (r + 1), donde r es el número de valores diferentes de w y Fn (w0 ) = 0. Por lo tanto, para encontrar el valor correcto de la estadı́stica es necesario seleccionar D = max[max1≤i≤r (|Fn (w(i) ) − F0 (w(i) )|), max1≤i≤r (|Fn (w(i−1) ) − F0 (w(i) )|)]. El valor de D se compara con un valor crı́tico Dc y con un nivel de significancia α. Estos valores crı́ticos dependen del tipo de distribución que se ha supuesto. Existen valores crı́ticos para la distribución normal, exponencial y Weibull, éstos se encuentran en Law (1991). Si el modelo que se propone se basa en la distribución normal, entonces D se debe ajustar cuando los parámetros son estimados (es decir, cuando se emplean la media y la varianza muestrales). 16 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS La regla de decisión es: El valor de D se compara con un valor de la tabla Dn (1 − α); si el valor calculado es mayor o igual al de las tablas, se rechaza H0 . 1.0.5.2. Prueba de Shapiro-Wilk Dada una muestra aleatoria simple de tamaño n, digamos (w1 , . . . , wn ), se quiere saber si proviene de una población con distribución normal. Este problema es muy frecuente, ya que son muchas las pruebas de inferencia estadı́stica que exigen como condición imprescindible para su aplicabilidad que la población de procedencia de la información sea normal. La hipótesis nula de interés: H0 : La muestra procede de una población normal. En el desarrollo del test de normalidad propuesto por Shapiro, se deben tener en cuenta los siguientes pasos: 1. Se ordena la muestra de menor a mayor, al igual que en la prueba anterior, se obtiene el nuevo vector muestral (w(1) , . . . , w(n) ) siendo w(i) el i−ésimo valor de la muestra ordenada. 2. Se calcula el estadı́stico: #2 " h 1 X ain (w(n−i+1) − w(i) ) Wc = 2 ns i=1 siendo s2 la varianza muestral. h= ( n 2, n−1 2 , si n par si n impar. y ain es un valor tabulado. 3. La distribución del estadı́stico W se encuentra también tabulado para cada nivel de significación. Si Wc es mayor que Wn (α) entonces se rechaza la hipótesis de normalidad. 17 1.0.5.3. Contraste de Jarque - Bera El contraste de Jarque-Bera (1987) utiliza las dos principales caracterı́sticas de la distribución normal, como es la simetrı́a y el apuntamiento, usando estas dos caracterı́sticas se busca determinar si la distribución donde proceden los datos es o no normal. Sea Fn (w) la distribución de los datos, w1 , . . . , wn , a este conjunto de datos se les quiere aplicar esta prueba; para el caso de interés son los residuales obtenidos del ajuste del modelo propuesto. H0 : Fn (w) = N (µ0 , σ02 ) Ha : Fn (w) 6= N (µ0 , σ02 ) La estadı́stica de prueba es n − (k + 1) τ= 6  r12 1 + (r2 − 3)2 4  donde (k + 1) es el número de parámetros del modelo, r1 y r2 son los coeficientes de asimetrı́a y de apuntamiento (curtosis) de Fn (w) estimados, respectivamente. Bajo la hipótesis nula τ ∼ χ2(2) , la hipótesis nula se rechaza si τ ≥ χ2(2,1−α) . 1.0.6. Pruebas de no aditividad Puede suceder que el modelo aditivo no sea adecuado para describir el ensayo. La escogencia de un modelo aditivo o no, depende de la naturaleza del experimento, la experiencia es la mejor guı́a para la decisión sobre uno u otro modelo. Cuando el experimento se hace en cuadros latinos, cuadros grecolatinos, series de cuadros ortogonales o en experimentos cruzados con una observación por celda, arbitrariamente se postula un modelo como aditivo (se supone que las interacciones son nulas) ya que no es posible realizar pruebas de hipótesis sobre interacciones. 18 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Para evaluar si el modelo es o no aditivo se hace uso de la prueba de no aditividad propuesta por Tukey, la cual se describe a continuación. 1.0.6.1. Contraste de Tukey de no aditividad Para ilustrar el prueba se parte del modelo cruzado yij = µ + Ai + Bj + ABij + ǫij ; i = 1, . . . , a; j = 1, . . . b (1.1) se supone además que ǫij ∼ N (0, σ 2 ). Adicionalmente, se imponen las restricciones a X Ai = i=1 b X Bj = j=1 a X ABij = b X ABij = 0 j=1 i=1 El interés es probar la hipótesis H0 : AB11 = · · · = AB1b = · · · = ABa1 = · · · = ABab = 0. Tukey impuso una restricción conveniente sobre la interacción ABij , al asumir que el efecto de la interacción para cada celda es una función de los efectos principales según un polinomio de segundo grado, es decir, ABij = α0 + α1 Ai + β1 Bj + α2 A2i + γAi Bj + β2 Bj2 (1.2) donde α0 , α1 , α2 , β1 , β2 , γ1 y γ2 son constantes. Promediando sobre j la ecuación, se tiene b AB i = 1X ABij b j=1 AB i = α0 + α1 Ai + b b b β1 X β2 X 2 γ1 X Bj + Bj + α2 A2i + Ai Bj b b b j=1 j=1 j=1 (1.3) 19 y ahora sobre i, a a a α1 X α2 X 2 γ1 X AB j = α0 + Ai + β1 Bj + Ai + Bj Ai + β2 Bj2 a a a i=1 i=1 (1.4) i=1 por las restricciones impuestas pueden simplificarse como AB i = α0 + α1 Ai + α2 A2i b β2 X 2 + Bj = 0 b j=1 AB j = α0 + β1 Bj + a α2 X 2 Ai + β2 Bj2 = 0 a i=1 por lo tanto α1 Ai + α2 A2i = −α0 − b β2 X 2 Bj b (1.5) β1 Bj + β2 Bj2 = −α0 − a α2 X 2 Ai a (1.6) j=1 i=1 sustituyendo se encuentra a b α2 X 2 β2 X 2 ABij = −α0 − Ai − Bj + γAi Bj a b i=1 Pero j=1 (1.7) 20 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS AB i = b 1X b ABij = j=1 b 1X b j=1  a b X X β2 −α0 − α2 A2i − Bj2 + γAi Bj  a b  i=1 α2 = −α0 − a α2 a = −α0 − debido al hecho que b P A2i i=1 a X i=1 b P Bj = 0 y j=1 a X j=1 β2 − b A2i − β2 b b X b Ai X +γ Bj b Bj2 j=1 b X j=1 Bj2 = 0 j=1 ABij = 0 entonces se reduce a j=1 ABij = γAi Bj (1.8) sustituyendo se obtiene el nuevo modelo yij = µ + Ai + Bj + γAi Bj + ǫij a P al imponer las restricciones Ai = 0 y i=1 H0 : γ = 0. b P (1.9) Bj = 0 se tiene la hipótesis j=1 Para obtener una estadı́stica de prueba, se tiene inicialmente los estimadores de mı́nimos cuadrados del modelo es decir, Q= XX i j ǫ2ij = XX i j (yij − µ − Ai − Bj − γAi Bj )2 Al derivar Q con respecto a γ e igualar a cero, se tiene las ecuaciones XX i j Ai Bj yij − µ − XX i j XX i j Ai Bj − Ai Bj2 − γ XX i j XX i A2i Bj j A2i Bj2 = 0. 21 Por las restricciones impuestas PP i se tiene que XX i Ai Bj = j PP i XX Ai Bj yij = γ j i j A2i Bj = PP i j Ai Bj2 = 0, A2i Bj2 j por lo tanto PP Ai Bj yij γ̂ = P P 2 2 Ai Bj i j i (1.10) j La definición natural para la suma de cuadrados de la interacción es XX i (γ̂Ai Bj )2 = γ̂ 2 X i j A2i X Bj2 j sustituyendo se obtiene PP Ai Bj yij i j PP 2 2 Ai Bj SCN A = i 2 j como Ai y Bj son desconocidos, se estiman a partir del modelo como Âi = ȳi − ȳ y B̂j = ȳj − ȳ, luego la suma de cuadrados de no aditividad es hPP i2 (ȳi − ȳ)(ȳj − ȳ)yij i j SCN A = P P . (ȳi − ȳ)2 (ȳj − ȳ)2 i (1.11) j Para la construcción del estadı́stico de prueba se postula el siguiente teorema PP Teorema 1.1. Sea SCE = (yij − ȳi − ȳj + ȳ)2 en el modelo entonces i j la suma de cuadrados de residuales es SCE(N uevo) = SCE − SCN A 22 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS SCE(N uevo) se distribuyen en forma bajo H0 : γ = 0 cierta entonces SCE σ2 y σ2 independiente como una chi-cuadrado. Por consiguiente el cociente F = SCN A SCE(N uevo) (ab−a−b) ∼ F(1,ab−a−b) La prueba de este teorema puede verse en Rao (1973). Cuando se tengan tres factores, la suma de cuadrados de no aditividad es obtenida como hPPP i2 (ȳi − ȳ)(ȳj − ȳ)(ȳk − ȳ)yijk i j k PPP (ȳi − ȳ)2 (ȳj − ȳ)2 (ȳk − ȳ)2 i j k El desarrollo de la prueba puede verse en Tukey (1949). 1.1. Solución a los problemas de heterocedasticidad y anormalidad Las siguientes son algunas de las estrategias para solucionar los diferentes problemas en el ajuste del modelo propuesto. 1.1.1. Uso de transformaciones Transformar significa un cambio de métrica de la variable original por una medida en otra escala. La transformación tiene como idea central, que si en la variable original los supuestos no son adecuados, puede existir una transformación conveniente tal que en la nueva métrica estos se satisfacen. Entre 1936 y 1940 fueron publicados algunos artı́culos sobre la transformación raı́z cuadrada, logaritmo natural y transformación angular aplicables en el análisis de varianza. En 1954 surgen algunas publicaciones sobre el uso de las transformaciones; en particular cabe citar los trabajos de Moore-Tukey y Anscombe-Tukey quienes desarrollaron una familia de transformaciones. 1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD... 23 Box Cox (1964) publicaron un artı́culo que es considerado como un gran marco de trabajo para la obtención de las transformaciones. 1.1.1.1. Consideraciones generales sobre transformaciones En análisis de varianza y regresión las transformaciones pueden ser aplicadas para: i) Linealizar el modelo. ii) Corregir desvı́os de los supuestos del modelo. iii) Simplificar el modelo. En la tabla se presentan algunas transformaciones para linealizar el modelo. Exponencial Potencia Multiplicativo Recı́proco Modelo Y = β 0 eβ1 X ǫ Y = β 0 X β1 ǫ Y = β0 X1β1 X2β2 ǫ Y = β +β X 1+β X Logı́stico Y = 2 2 +ǫ 1 1+exp[−(β0 +β1 X+ǫ)] 0 Y = √ k 1 1 Xβ + ǫ Tranformación LnY = Lnβ0 + β1 X + Lnǫ LogY = Logβ0 + β1 LogX + Logǫ LogY = Logβ0 + β1 LogX1 + β2 LogX2 + Logǫ 1 = β0 + β1 X1 + β2 X2 + ǫ Y   Y = β0 + β1 X + ǫ Log 1−Y Y k = Xβ + ǫ Cuadro 1.1. Transformaciones que linealizan el modelo. 1.1.2. Uso de las transformaciones para estabilizar varianza Si el supuesto de homogeneidad de varianza no es satisfecho, puede suceder que una transformación de la variable dependiente estabilice la varianza. Bartlett(1947) y Siqueira (1983), determinan una transformación conveniente en el caso de que exista una relación entre E(Y ) = µ y V ar(Y ) = σ 2 , es decir σ 2 = F (µ) (1.12) La idea ahora es buscar la transformación de Y , por ejemplo Z = g(Y ) tal que V ar(Z) = constante = K. 24 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Desarrollando g(Y ) en series de Taylor, se tiene Z = g(Y ) = g(µ) + (Y − µ)g′ (µ). (1.13) Tomando valor esperado y varianza de la nueva variable Z, se llega a: E(Z) = E[g(µ) + (Y − µ)g′ (µ)] = g(µ) (1.14) V ar(Z) = E[Z − E(Z)]2 = E[(Y − µ)g′ (µ)]2 = [g′ (µ)]2 V ar(Y ). Haciendo V ar(Z) = K y V ar(Y ) = F (µ), se llega en la anterior expresión a [g′ (µ)]2 F (µ) = K y despejando g′ (µ), se sigue que ′ g (µ) = s K F (µ) y entonces g(µ) = Z s K dµ F (µ) (1.15) K dY F (Y ) (1.16) De forma general se tiene que g(Y ) = Z s Con la expresión anterior se determina la forma genérica de la transformación que estabiliza la varianza. 1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD... 25 A continuación se presentan algunos ejemplos en donde se evidencia el anterior problema. La tabla tomada de Bartlett, resume algunas transformaciones cuando las varianzas y las medias están relacionadas: Rel. Var.-Media µ K 2µ 2µ2 n−1 2 2 K µ µ(1−µ) n 2 2 2 K µ (1 − µ) (1−µ2 )2 n−1 2 2 µ+K µ µ4 Transformación √ √ √Y o Y + 1 Y LogY LogY o Log(Y + 1) √ Arcos( Y ) Y Log 1−Y  1 1+Y 2 Log 1−Y √ 1 k Arcosenh(k Y ) 1 Y Var. nueva escala 0,25 0,25K 2 2 n−1 2 K 0,25 n 2 K 1 n−3 0,25 1 Distribución Poisson Poisson Varianzas M Empı́rica Binomial Empı́rica Correlación Binomial Neg. Empı́rica Cuadro 1.2. Transformaciones recomendadas según Bartlett (1947) cuando hay relación entre media y varianza. Observación 1.4. En la práctica, para ver la relación entre σ 2 y µ se debe construir un gráfico de Si2 en función de Ȳi o también entre Log(Si2 ) y Log(Ȳi ) para indicar la relación existente. Las soluciones (transformaciones) dependen del comportamiento que se observe en los residuales, es decir de los supuestos que se hagan del comportamiento de la varianza. 1.1.3. Uso de transformaciones para corregir no normalidad Desvı́os moderados a la falta de normalidad, no afectan los resultados de las estadı́sticas t y F , pero si la distribución presenta una asimetrı́a acentuada, el coeficiente de asimetrı́a difiere ampliamente de cero y ocurre algún desvı́o grande en la región de las observaciones extremas, cuando esto sucede los métodos estadı́sticos que suponen normalidad no deben emplearse. En estos casos es posible encontrar una transformación que lleve a una distribución razonablemente simétrica. Ejemplo 1.1. En Bhattacharya, se presenta el siguiente conjunto de datos: 26 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS 39, 3 3, 5 6, 0 2, 7 7, 4 3, 5 19, 4 19, 7 1, 0 8, 7 14, 8 8, 3 17, 1 26, 2 6, 6 8, 3 19, 0 10, 3 7, 6 18, 9 Y 6, 3 10 16, 8 24, 3 5, 2 44, 8 14, 1 3, 4 28, 3 3, 4 0, 9 1, 3 0, 7 17, 7 8, 3 8, 3 1, 9 16, 7 26, 2 10, 0 6, 5 7, 1 7, 9 3, 2 5, 9 13, 4 12, 0 4, 3 31, 7 2, 5 1, 37 1, 57 1, 29 1, 64 1, 37 2, 07 2, 11 1, 0 1, 72 Z = Y 1/4 1, 96 1, 58 0, 97 1, 70 1, 78 1, 07 2, 03 2, 02 0, 91 2, 26 2, 22 2, 05 1, 60 1, 51 1, 70 1, 70 2, 59 1, 70 2, 10 1, 93 1, 17 1, 79 1, 36 2, 02 1, 66 2, 31 2, 26 2, 09 1, 36 1, 78 1, 60 1, 63 1, 68 1, 34 1, 56 1, 91 1, 86 1, 44 2, 31 En este caso, al trabajar con la variable Y y probar la hipótesis de normalidad, se encuentra según los resultados de los estadı́sticos de prueba de Kolmogorov y Shapiro en la siguiente tabla: Prueba Shapiro-Wilk Kolmogorov-Smirnov Estadı́stico W=0,8706 D=0,1806 valor p < 0, 0001 < 0, 0100 A partir de los anteriores resultados, se rechaza la hipótesis de normalidad, a través tanto del estadı́stico de Shapiro-Wilk (valor p < 0, 0001) como el de Kolmogorov-Smirnov (valor p < 0,0100), con lo cual se evidencia que se debe transformar esta variable. Al realizar la transformación Z = Y 1/4 se satisface el supuesto de normalidad, que se evidencia según los resultados de las pruebas estadı́sticas obtenidas en la siguiente tabla: Prueba Shapiro-Wilk Kolmogorov-Smirnov Estadı́stico W=0,9856 D=0,0729 valor p 0,8099 > 0, 1500 en la gráfica que se presenta en la figura se satisface la normalidad al realizar esta transformación. Existen trabajos teóricos que tratan el problema de escoger las transformaciones, pero no existen métodos prácticos que indiquen la información 1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD... (a) 27 (b) Figura 1.1. Histogramas de la variable sin transformar (a) y transformada (b). √ √ adecuada. En la práctica se sugiere la transformación Y , 4 Y , LogY , Y1 para disminuir valores grandes, en tanto que Y 2 y Y 3 tienden a aumentar valores pequeños. A continuación se presenta una transformación que permite estabilizar varianza y corregir a la vez el problema de no normalidad. 1.1.4. Transformación de Box - Cox El objetivo de esta transformación es homogeneizar la varianza. En la mayorı́a de los casos al cumplirse este objetivo se esta corrigiendo de una vez el problema de falta de normalidad. Esta transformación tiene como supuesto que la varianza es una función de la media, σt2 = f (µt ), por lo tanto la metodologı́a tiene como objetivo buscar un valor para λ tal que σt /µt1−λ = constante. La transformación se hace sobre la variable dependiente y tiene la siguiente estructura general: T(y)=  y λ si λ 6= 0 ln y si λ = 0 28 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Para hacer uso de la transformación de deben tener en cuenta los siguientes pasos: 1. Se dividen las n observaciones en H grupos, cada uno con igual número observaciones. Ejemplo: Si se tiene 125 observaciones y se quiere 7 grupos cada uno tendrá 17 observaciones (125/7=17). Se deja por fuera las 6 últimas o primeras observaciones. Cada grupo tendrá (n − h)/H observaciones, con h el número de observaciones que se dejan por fuera de la clasificación inicial. 2. En cada grupo se calcula la media y la desviación estándar, es decir, se obtiene {ȳ1 , s1 }, {ȳ2 , s2 }, . . . , {ȳH , sH }. 3. Para cada λ se calcula los coeficientes de variación presentados en la tabla. En dicha tabla CV (.) = Coeficiente de Variación = DS(λ) µ(λ) con ! H si 1 X µ(λ) = H ȳi1−λ i=1 v " ! #2 u H u X s 1 i DS(λ) = t − µ(λ) 1−λ (H − 1) λ i i=1 Grupo 1 2 .. . -1 s1 /ȳ12 s2 /ȳ22 .. . H Coeficiente 2 sH /ȳH CV(-1) Potencia (λ) -0.5 0 0.5 1,5 s1 /ȳ1 s1 /ȳ1 s1 /ȳ10,5 1,5 s2 /ȳ2 s2 /ȳ2 s2 /ȳ20,5 .. .. .. . . . 1,5 0,5 s2 /ȳH s2 /ȳH s2 /ȳH CV(-0.5) CV(0) CV(0.5) 1 s1 s2 .. . sH CV(1) Cuadro 1.3. Transformación de la variable dependiente a través de la escogencia de λ. El λ que se escoge para realizar la transformación, es aquel con menor coeficiente de variación.