Validaciondesupuestosunidad

William solorzano vargas

Validaciondesupuestosunidad

William solorzano vargas

visibility

…

description

28 pages

link

1 file

Abstract

En esta sección se parte de la definición del residualǫ i = y i −ŷ i , sobre el que se formulan algunos supuestos los cuales resulta necesario verificar para que al realizar inferencias resulten válida (sobre el modelo:ajuste, adecuación, validez de la predicción, etc). La validación lleva en consideración la realización de un análisis de los residuales para verificar cualquier anomalía sobre el ajuste del modelo lineal.

Capı́tulo 1 Verificación de supuestos En esta sección se parte de la definición del residual ǫ̂i = yi − ŷi , sobre el que se formulan algunos supuestos los cuales resulta necesario verificar para que al realizar inferencias resulten válida (sobre el modelo:ajuste, adecuación, validez de la predicción, etc). La validación lleva en consideración la realización de un análisis de los residuales para verificar cualquier anomalı́a sobre el ajuste del modelo lineal. Cuando se propone un modelo para el ajuste de los datos se establecen básicamente los siguientes supuestos sobre el error: Independencia, normalidad, media cero y varianza constante. Es importante notar que los errores (ǫi ) son no observables, no se conocen, pero se pueden estimar mediante los residuales (ǫ̂i ), ası́ todas las pruebas de los supuestos se realizan sobre estos últimos. Al ajustar el modelo se espera que los residuales satisfagan los anteriores supuestos sobre el error. Después de examinar los residuales sólo se podrá concluir que los supuestos “se cumplen”, ó “no se cumplen” con los riesgos inherentes a toda decisión estadı́stica. Toda la inferencia que se puede realizar (estimación por intervalo de las combinaciones lineales o no lineales de los parámetros, pruebas de hipótesis, entre otras) sobre el modelo, tiene como base los supuestos sobre la variable respuesta. Si alguno de éstos no se cumple, los procesos de inferencia conllevan a decisiones con alto riesgo de estar equivocadas. 1 2 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS El objetivo de esta sección es mostrar los posibles problemas que se presentan cuando alguno de los supuestos no se cumple, ası́ como mostrar diferentes formas de corregir las desviaciones de los supuestos en el caso en quese incumplan. El supuesto de media cero de los errores verificado a través de los residuales es de fácil cumplimiento, puesto que el promedio de los errores por construcción es cero. 1.0.1. Causas de desvı́os de supuestos La aplicación de una técnica estadı́stica implica verificar que los supuestos del modelo son razonablemente satisfechos. Se aconseja que un análisis estadı́stico se inicie con un estudio exploratorio de datos, con eso se gana en sensibilidad e información adicional sobre la variable estudiada. El análisis de residuos es una técnica bastante eficiente para detectar desvı́os de los supuestos. Abarca análisis gráficos, numéricos y mixtos; este debe ser un procedimiento de rutina en el análisis de los datos. El análisis de residuos también puede ser utilizado para detectar outliers. Los supuestos básicos que se deben verificar en el ajuste de los modelos son los siguientes: i. La no correlación de los errores: Este supuesto se incumple cuando las observaciones son tomadas secuencialmente en el tiempo, el espacio y en datos cluster, entre otros. Cuando los datos están correlacionados se debe trabajar con métodos estadı́sticos apropiados. ii. La homocedasticidad de los errores: Este supuesto se puede incumplir por varias razones, por ejemplo: Por daños en alguna parte del experimento, contratiempos, uso del material experimental menos homogéneo en algunas réplicas, por no tener cuidado en el control durante la ejecución del experimento o en el control de las unidades experimentales. 3 La naturaleza de los tratamientos, puede producir algunas respuestas más variables que otras, causando heterogeneidad en la varianza de los errores, caso frecuente en ensayos con fertilizantes o en experimentación biológica, cuando se desea comparar efectos de tratamientos. La heterocedasticidad puede ocurrir también en los casos donde la media y la varianza están relacionadas, caso tı́pico, un estudio de conteos que siguen una distribución Poisson o en datos con respuesta binaria. También la heterocedasticidad puede ser causada por la presencia de observaciones atı́picas u outliers, las cuales se clasifican en “no genuinas” o “genuinas”. Las primeras son datos leı́dos pero con transcripción errónea, en tanto que las genuinas pueden ser causadas por cambios no controlados en la conducción del experimento. iii. La normalidad. Que el comportamiento de los datos sea normal casi nunca ocurre con la información real proveniente de los datos, la distribución de la variable puede ser asimétrica y aún con distribución simétrica puede no seguir una distribución normal. iv. No aditividad en el modelo. La construcción de gráficos de perfiles puede indicar la existencia o no de interacción. Para verificar si dicha interacción es causada por la presencia de un outlier, tal observación se debe retirar y volver a hacer el gráfico. Si se mantiene la estructura de este gráfico, existen indicios de que la interacción es inherente al fenómeno de estudio y no es causada por la presencia del outlier. A continuación se presentan los métodos y pruebas para detectar problemas sobre homocedásticidad, normalidad y aditividad en el modelo. 1.0.2. Análisis gráfico y medidas descriptivas de los residuales Las formas gráficas y las medidas descriptivas, son los métodos usados tradicionalmente para detectar problemas en la validez de los supuestos del modelo lineal planteado; por su importancia, en esta sección se presentan algunos de éstos métodos. 1. Histograma y gráfico probabilı́stico normal. Estos gráficos son útiles para analizar la normalidad de los residuos e identificar valores 4 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS atı́picos. La potencia de las pruebas de normalidad sobre los residuos suele ser baja, porque aunque el vector de variables aleatorias no sea normal, es posible que los residuos lo sean. La razón es que ǫ̂i es una combinación lineal de todas las variables aleatorias, y según el teorema central del lı́mite, su distribución tenderá a ser aproximadamente normal. Los histogramas pueden ayudar a detectar la falta de normalidad. En la aplicación del método se deben tener en cuenta los siguientes pasos: a) Ordene los valores de la variable aleatoria W de menor a mayor (w(1) > . . . > w(n) ). b) Calcule la probabilidad acumulada observada: pi = 100(i−0,5)/n. El valor de 0,5 se emplea para no obtener p = 1, el cual tiene un valor de infinito para W ; el arreglo que se tiene para esta información es el siguiente: W w(1) .. . Percentil (P) p1 .. . w(n) pn c) Grafique los valores de W contra P . Observaciones que no proceden de una distribución normal presentan una forma curva, mientras observaciones que se ajusten a la normalidad siguen una ecuación lineal. Este método se recomienda con tamaños de muestra donde n > 100 observaciones sokal (1969). Si hay un ajuste cercano a una lı́nea recta, hay evidencia para indicar que los datos provienen de una distribución normal, sin embargo se debe tener en cuenta que en algunos casos, aunque los puntos se ajusten a una lı́nea recta puede que los datos no provengan de una distribución normal: Por ello se recomienda utilizar algunos otros “métodos objetivos”. Otra alternativa de realizar el gráfico de probabilidad normal se basa en la estandarización de las observaciones mediante la transfomación a la variable zi , i = 1, . . . , n 5 zi = wi − µ σ i = 1, . . . , n. La idea es calcular la probabilidad observada de cada una de las observaciones y estimar el valor de zi aplicando la función inversa; si la distribución adyacente es normal, el gráfico de los valores de zi versus wi tienen una forma lineal. 2. Gráfico de residuos frente a valores estimados. Con estos gráficos se pueden identificar falta de linealidad, heterocedasticidad y presencia de valores atı́picos. El gráfico puede hacerse con cualquiera de los tipos de residuos, aunque preferiblemente, se utilizan los residuos sin transformar ǫ̂i , o los estandarizados ri0 , donde ri0 = p ǫ̂i 1 − xi (X t X)− xti con xi la i-ésima fila de la matriz X. 3. Gráfico de residuos frente a factores o variables explicativas. Puede ayudar a detectar si la falta de linealidad o heterocedasticidad es debida a algún factor especı́fico. En este caso, es conveniente realizar los gráficos parciales de los residuos de cada factor incluido en el modelo para detectar en dónde se presenta la heterocedasticidad. 4. Gráficos parciales de residuos. Con estos gráficos se estudia la relación entre una variable respuesta y alguna explicativa eliminando el efecto de las restantes variables explicativas, para la construcción del gráfico se debe: a) Ajustar un modelo lineal entre la respuesta y los factores o variables cuyos efectos se trata de eliminar. b) Obtener los residuos del modelo, que representan la parte de la respuesta no explicada por las otras variables. c) Graficar el vector de variables aleatorias. 5. Gráficos de residuales frente a factores o variables omitidas. La posible influencia de un nuevo factor o variable no incluida en el análisis, se puede detectar graficando la variable omitida con los residuos, en particular siempre que las observaciones se hayan obtenido en orden temporal, es conveniente representar los residuos en función 6 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS del tiempo, esto permite ver posibles autocorrelaciones entre las observaciones. 6. Se debe inspeccionar las varianzas muestrales de los grupos analizados. Hay indicios de falta de homocedasticidad cuando son muy pronunciadas las diferencias. 7. El cálculo de la amplitud de la varianza. Este puede indicar heterocedasticidad si las amplitudes para los diferentes grupos estudiados fueron distintas. 8. El cálculo de los coeficientes de variación. Este puede indicar heterocedasticidad, si los grupos presentan coeficientes de variación semejantes, indica que la varianza crece con la media. Si las medias fueran semejantes, los coeficientes de variación disı́miles pueden indicar que las varianzas difieren considerablemente de un valor constante. 1.0.3. Prueba de significancia para detectar anomalı́as A. Para detectar heterocedasticidad, se pueden usar los estadı́sticos Cochran, de Hartley o el de Bartlett; los dos primeros son apropiados para datos balanceados. Cuando las poblaciones no son normales, la estadı́stica de Box(1955), puede ser empleada. B. Para detectar la falta de normalidad se tiene la χ2 de Pearson, la cual puede estudiarse en Snedecor (1967), las pruebas de KolmogorovSmirnov, Shapiro-Wilk y Lilliefors los cuales se pueden estudiar en Conover (1980). También se puede evaluar la estadı́stica de asimetrı́a r1 = E(Y − µ)3 σ3 donde si   > 0 r1 = = 0   <0 distribución asimétrica a la derecha distribución simétrica distribución asimétrica a la izquierda Y la estadı́stica de curtosis 7 r2 = E(Y − µ)4 σ4 donde si   > 3 leptocúrtica r2 = = 3 normal   < 3 platicúrtica C. Para detectar correlación de los errores se usan los estadı́sticos de Spearman y del signo (Conover 1980) o la prueba de Durbin-Watson (Graybill 1976). D. No aditividad: Si hay suficientes grados de libertad, el estadı́stico F de análisis de varianza puede ser usado; sin embargo la prueba propuesta por Tukey para experimentos cruzados con dos factores fijos es la más usada. Para diseños en cuadro latino se recomienda el estadı́stico de Walk-Kempthorne (1957). En las siguientes secciones se presentan algunas de las anteriores pruebas, las cuales se espera, sean de gran ayuda en el desarrollo de los siguientes capı́tulos. 1.0.4. Pruebas para detectar heterocedasticidad Lo contrario a homocedasticidad es la heterocedasticidad, que consiste en que la varianza cambia a través de las observaciones. Cuando la varianza cambia de individuo a individuo ó de tratamiento a tratamiento, se dice que los errores son heterocedásticos. Las consecuencias que produce la heterocedasticidad son: a. Los estimadores de mı́nimos cuadrados o de máxima verosimilitud siguen siendo insesgados pero no son de mı́nima varianza. b. El estimador de la varianza de los errores es sesgado y por ende, las varianzas de combinaciones de los estimadores de parámetros son erradas, conllevando esto a que las pruebas de significancia carezcan de validez. 8 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS A continuación se presentan algunos estadı́sticos de prueba para la detección de anomalı́as y la solución al problema en cada caso. 1.0.4.1. Prueba de Bartlett de homogeneidad de varianzas La prueba de Bartlett (1937) es quizá la más ampliamente usada para probar homogeneidad de varianza. Para introducir el test, vamos a considerar k poblaciones, a través de estas el objetivo de la prueba se centra en determinar si todas tienen la misma varianza. Para la realización adecuada de esta prueba, se exige que las poblaciones sean independientes y se distribuyan normalmente. La prueba es frecuentemente llamada M-de Bartlett o también NeymanPearson-Bartlett. Su aplicación básica como ya se mencionó es para la comparación de varianzas (homogeneidad de varianzas) entre grupos, pero también puede ser usada para chequear homogeneidad en interacciones de mayor grado en experimentos factoriales. En la conducción de la prueba se suponen k poblaciones normales con media µi y varianza σi2 (i = 1, . . . , k); si de cada una de las poblaciones se toman muestras aleatorias de tamaño ni independientes, y se observa la caracterı́stica de interés {wij } con j = 1, . . . , ni , se plantea la hipótesis H0 : σ12 = · · · = σk2 versus Ha : σi2 6= σi2′ para algún i 6= i′ ; i, i′ = 1, 2, . . . , k se propone el estadı́stico de prueba: L= k Q (s2i )vi /v i=1 k P (vi /v)s2i i=1 9 donde, vi = ni − 1, v = i = 1, 2, . . . , k. k P i=1 vi y s2i = (wij −w̄i. )2 j=1 ni −1 Pni con w̄i. = 1 ni ni P wij ; j=1 La prueba de Bartlett de homogeneidad de varianzas tiene como región crı́tica 0 < L < A, donde A se determina por el tamaño de la prueba. En particular si se tiene un valor crı́tico de tamaño α, A se determina por la ecuación PH0 (0 < L < A) = α. Observación 1.1. i. s2i estima insesgadamente a σi2 : i = 1, 2, . . . , k. ii. El numerador de L es una media geométrica ponderada (MGP) de s2i , donde el factor de ponderación son los grados de libertad. iii. El denominador de L es la correspondiente media aritmética ponderada (MAP) de s2i , donde la ponderación son los grados de libertad. iv. Es bien conocido que la relación (MGP)/(MAP)≤ 1. La igualdad se satisface siempre que s1 = s2 = · · · = sk . v. Valores altos de L sugieren valores semejantes de σi2 y valores bajos sugieren gran dispersión entre los σi2 . vi. Los valores crı́ticos de A se obtienen en tablas; existen dos tipos de tablas una basada en la distribución nula aproximada de L y la otra basada en la distribución exacta. Hartley introduce una modificación al estadı́stico de Bartlett obteniendo la siguiente expresión: M1 = −vlnL = vln k X vi i=1 v s2i ! − k X vi lns2i i=1 la cual bajo H0 cierta tiene una distribución asintótica χ2(k−1) . Una aproximación a la χ2(k−1) cuando vi es finita, sugerida por Bartlett consiste en usar el estadı́stico 10 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS T = M1 ∼ χ2(k−1) C con 1 C =1+ 3(k − 1) k X 1 1 − vi v i=1 ! . En este caso, se rechaza H0 si T > χ2(k−1) . Observación 1.2. Existe otra prueba clásica de igualdad de varianzas, conocida como la estadı́stica de Cochran, la caracterı́stica de esta junto con la de Bartlett y Hartley es que se basan en datos con distribución normal y son extremadamente sensibles cuando esto no ocurre. Si la normalidad no se presenta, existen otras pruebas bastante robustas pero involucran cálculos bastante engorrosos. Hartley (1950) compara el estadı́stico M2 = M ax{s21 , . . . , s2k } s2M ax = 2 sM in M in{s21 , . . . , s2k } Con el percentil superior 100α % de la distribución F , la hipótesis nula de igualdad de varianzas se rechaza si M2 > F(gl(s2 );gl(s2 );α) . M ax 1.0.4.2. M in Prueba de razón de verosimilitud (RV) La prueba RV es aplicable cuando el número de observaciones de la muestra es grande. El primer paso para la aplicación de esta prueba consiste en dividir los residuos obtenidos por el método de mı́nimos cuadrados P ordinarios (MCO) en k grupos, cada uno con ni observaciones tal que n = i ni , donde n es el número de observaciones en la muestra. Luego se estima la varianza de los residuos para cada subgrupo (s2i ) y la varianza de los residuos para toda la muestra (σ 2 ). A partir de esta información se define una función λ de la forma λ= k Y s ni i i=1 sn 11 donde s es la desviación estándar muestral de los datos, se demuestra que −2Lnλ se distribuye como una χ2(k−1) . El paso final consiste en comparar la siguiente relación χ2(k−1) > −2Lnλ, si no se cumple, se rechaza la hipótesis nula de homocedasticidad entre grupos. Si existe sólo una variable explicativa, el ordenamiento de los residuos se puede hacer sobre la base de las magnitudes absolutas de estos. Sin embargo, si existiesen dos o más variables explicativas se puede utilizar el valor estimado (ŷ) para hacer el ordenamiento de los residuales. 1.0.4.3. Prueba de Spearman Esta prueba supone que la varianza del término de error depende de los valores de predicción. Si existe esta dependencia, el tamaño de los residuos deberı́a estar relacionado con el tamaño de la variable predicha. Se debe tener en cuenta en estos casos que las variaciones en el término de error tienden a ser pequeñas cuando las predicciones registran valores pequeños, y grandes cuando las variables involucradas muestran valores elevados. Para llevar a cabo esta prueba, es necesario ordenar en sentido creciente tanto los residuos obtenidos a través de la estimación MCO (en valor absoluto), como los valores de las predicciones. Una vez obtenido este ordenamiento, se calcula el coeficiente de correlación de rangos rSp con la expresión 6 rSp = 1 − n P Di2 i=1 n(n2 − 1) donde Di es la diferencia entre el puesto que ocupan en la ordenación el valor de la i−ésima predicción y el i−ésimo valor absoluto del residuo. Si n está entre 4 y 30, se compara el valor calculado de rSp con el valor ∗ , de la tabla establecida. Se rechaza H al nivel de significancia crı́tico, rSp 0 ∗ . α si rSp es mayor que rSp Si el tamaño muestral es grande, entonces la expresión 12 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS √ rSp n − 2 t= q 2 1 − rSp se distribuye aproximadamente como una t-student con (n − 2) grados de libertad. Esta expresión podrı́a calcularse para cada una de las variables explicativas del modelo con el fin de determinar si alguna de ellas determina el comportamiento de la varianza del término de error. Especı́ficamente, si el valor calculado del estadı́stico t es menor al valor tabulado, no se tiene evidencia para rechazar la hipótesis nula de homocedasticidad respecto a los residuos analizados. 1.0.4.4. Prueba de Levene Esta prueba fue propuesta por Levene (1960). La prueba es robusta al supuesto de normalidad. Para su implementación se debe reemplazar cada valor observado wij por zij = |wij − w̄i. | y luego realizar el análisis de varianza a una vı́a. Se rechaza H0 si la prueba es significativa. Recomendaciones Conover,Johnson Johnson (1981) realizaron un estudio de pruebas de homogeneidad de varianza como las citadas anteriormente. Con base en éstos resultados, hacen las siguientes recomendaciones: 1. Si hay confianza de que la variable (en este caso error) esta cercana a una distribución normal, entonces use la prueba de Bartlet o Hartley. Si los tamaños de muestra son muy desiguales use la prueba de Bartlet; en otro caso, la prueba de Hartley. 2. Si los datos no son normales y se tiene un tamaño de muestra grande, use la prueba de Levene. Esta prueba es muy robusta a la normalidad pero no es muy potente en muestras de tamaño pequeño. 3. En todas las demás situaciones, usar Levene la cual es tan buena como Bartlet y Hartley cuando los datos provienen de una distribución normal y es superior a ellas para distribuciones de datos no normales. Si los datos tienden a ser muy sesgados, la prueba de Levene puede ser mejorada reemplazando w̄i. por w̃i. donde w̃i. es la mediana del 13 i−ésimo grupo. En este caso, se debe usar zij = |wij − w̃i. | y el análisis de varianza se hace sobre los zij . Como se ha visto a lo largo de esta sección, es importante el cumplimiento del supuesto de normalidad para la realización de las pruebas de homocedasticidad y para la validez del modelo, por su importancia, en la siguiente sección se presenta una discusión del tema. 1.0.5. Pruebas de normalidad La distribución normal es fundamental para la mayorı́a de los análisis estadı́sticos que se plantean en este texto. Existen varias formas de verificar la normalidad de los datos; entre los diferentes métodos se tienen los numéricos y los gráficos. La falta de normalidad no es un problema severo, pues el ANOVA es robusta a la falta de normalidad. Solo cuando se encuentran valores extremadamente alejados puede haber problemas en la significancia de las pruebas. La correción de este problema se hace mediante el uso de: Transformaciones, pruebas no paramétricas, modelos lineales generalizados o modelos generalizados en métodos de cuasi-verosimilitud. El problema fundamental que ocasiona el incumplimiento de este supuesto es que las inferencias que se hacen no son válidas. Para detectar anormalidad, lo que en general se usa son contrastes de hipótesis, donde la hipótesis nula se plantea como: La información proviene de una población normal y la alterna es que este supuesto no se cumple. Algunos estadı́sticos de prueba para llevar a cabo la prueba del supuesto de normalidad se presenta a continuación: 1.0.5.1. Prueba de Kolmogorov-Smirnov Esta es una prueba no paramétrica para variables de tipo continuo o discreto y sirve para contrastar la hipótesis nula H0 : Los datos analizados siguen una distribución M o equivalentemente: H0 : Fn (w) = F0 (w) contra Ha : Fn (w) 6= F0 (w) 14 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Donde Fn (w) hace referencia a la distribución muestral acumulada observada, F0 (w) es cualquier distribución teórica con la cual se desea contrastar la distribución muestral y w1 , ..., wn son los valores observados, a los cuales se les quiere aplicar esta prueba. Caracterı́sticas de la prueba: i. No hay pérdida de información como en el caso de la prueba ji-cuadrado; en ésta todos los valores son incluidos en el desarrollo de la prueba. ii. La prueba es conservativa. El valor de α es menor al especificado. iii. La prueba es exacta para cualquier tamaño de muestra n, en cambio, la prueba de ji-cuadrada es correcta en términos asintóticos (muestras grandes). iv. Esta tiene mayor poder que la ji-cuadrada cuando se prueba en contra de varias distribuciones alternativas. v. Es difı́cil aplicarla en distribuciones discretas. Cuando la prueba se utiliza con datos discretos, el investigador debe tener en mente que la probabilidad real de cometer un error tipo I es, cuando mucho, igual al nivel significancia establecido α. vi. La prueba es “moderada” cuando uno o más parámetros deban ser estimados a partir de los datos de la muestra. La prueba se puede aplicar a los siguientes modelos: Normal, exponencial, Weibull, entre otros. En estos casos se pueden usar los estimadores de los parámetros de dichos modelos. La metodologı́a para usar esta prueba es la siguiente: 1. Ordene los valores observados w1 , ..., wn , o sea w(1) , ..., w(n) la muestra ordenada. 2. Sea Fn (w(i) ) = i/n, es decir la función de distribución empı́rica de la muestra en w(i) , es igual al número de valores observados menores o iguales a w(i) . Fn (.) asigna a cada observación una probabilidad igual a 1/n. 15 3. Usando la función de distribución teórica calcule F (w(1) ), F (w(2) ), . . . , F (w(n) ). 4. Determine la distancia más grande entre la función muestral y la teórica: D1 = Supw |Fn (w) − F0 (w)| D1 es el valor ”supremo” de la diferencia absoluta entre la frecuencia acumulada observada Fn (w) y la frecuencia acumulada teórica F0 (w), obtenida del modelo. Note que si los valores esperados F0 (w) son similares a los observados Fn (w), entonces la diferencia D1 es pequeña, por lo tanto, discrepancias entre el modelo y las observaciones se reflejan en altos valores de D1 . Observación 1.3. Se debe tener en cuenta que, al determinar el valor de D1 , no siempre es suficiente calcular y elegir entre los valores posibles de |Fn (w) − F0 (w)|, esto quiere decir que la distancia vertical más larga entre Fn (w) y F0 (w) posiblemente no ocurra en un valor observado w, sino en algún otro valor de W . Es posible determinar el valor correcto para D1 de manera algebraica al calcular, además de las diferencias |Fn (w) − F0 (w)| para todos los valores de i = 1, . . . , (r + 1), donde r es el número de valores diferentes de w y Fn (w0 ) = 0. Por lo tanto, para encontrar el valor correcto de la estadı́stica es necesario seleccionar D = max[max1≤i≤r (|Fn (w(i) ) − F0 (w(i) )|), max1≤i≤r (|Fn (w(i−1) ) − F0 (w(i) )|)]. El valor de D se compara con un valor crı́tico Dc y con un nivel de significancia α. Estos valores crı́ticos dependen del tipo de distribución que se ha supuesto. Existen valores crı́ticos para la distribución normal, exponencial y Weibull, éstos se encuentran en Law (1991). Si el modelo que se propone se basa en la distribución normal, entonces D se debe ajustar cuando los parámetros son estimados (es decir, cuando se emplean la media y la varianza muestrales). 16 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS La regla de decisión es: El valor de D se compara con un valor de la tabla Dn (1 − α); si el valor calculado es mayor o igual al de las tablas, se rechaza H0 . 1.0.5.2. Prueba de Shapiro-Wilk Dada una muestra aleatoria simple de tamaño n, digamos (w1 , . . . , wn ), se quiere saber si proviene de una población con distribución normal. Este problema es muy frecuente, ya que son muchas las pruebas de inferencia estadı́stica que exigen como condición imprescindible para su aplicabilidad que la población de procedencia de la información sea normal. La hipótesis nula de interés: H0 : La muestra procede de una población normal. En el desarrollo del test de normalidad propuesto por Shapiro, se deben tener en cuenta los siguientes pasos: 1. Se ordena la muestra de menor a mayor, al igual que en la prueba anterior, se obtiene el nuevo vector muestral (w(1) , . . . , w(n) ) siendo w(i) el i−ésimo valor de la muestra ordenada. 2. Se calcula el estadı́stico: #2 " h 1 X ain (w(n−i+1) − w(i) ) Wc = 2 ns i=1 siendo s2 la varianza muestral. h= ( n 2, n−1 2 , si n par si n impar. y ain es un valor tabulado. 3. La distribución del estadı́stico W se encuentra también tabulado para cada nivel de significación. Si Wc es mayor que Wn (α) entonces se rechaza la hipótesis de normalidad. 17 1.0.5.3. Contraste de Jarque - Bera El contraste de Jarque-Bera (1987) utiliza las dos principales caracterı́sticas de la distribución normal, como es la simetrı́a y el apuntamiento, usando estas dos caracterı́sticas se busca determinar si la distribución donde proceden los datos es o no normal. Sea Fn (w) la distribución de los datos, w1 , . . . , wn , a este conjunto de datos se les quiere aplicar esta prueba; para el caso de interés son los residuales obtenidos del ajuste del modelo propuesto. H0 : Fn (w) = N (µ0 , σ02 ) Ha : Fn (w) 6= N (µ0 , σ02 ) La estadı́stica de prueba es n − (k + 1) τ= 6 r12 1 + (r2 − 3)2 4 donde (k + 1) es el número de parámetros del modelo, r1 y r2 son los coeficientes de asimetrı́a y de apuntamiento (curtosis) de Fn (w) estimados, respectivamente. Bajo la hipótesis nula τ ∼ χ2(2) , la hipótesis nula se rechaza si τ ≥ χ2(2,1−α) . 1.0.6. Pruebas de no aditividad Puede suceder que el modelo aditivo no sea adecuado para describir el ensayo. La escogencia de un modelo aditivo o no, depende de la naturaleza del experimento, la experiencia es la mejor guı́a para la decisión sobre uno u otro modelo. Cuando el experimento se hace en cuadros latinos, cuadros grecolatinos, series de cuadros ortogonales o en experimentos cruzados con una observación por celda, arbitrariamente se postula un modelo como aditivo (se supone que las interacciones son nulas) ya que no es posible realizar pruebas de hipótesis sobre interacciones. 18 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Para evaluar si el modelo es o no aditivo se hace uso de la prueba de no aditividad propuesta por Tukey, la cual se describe a continuación. 1.0.6.1. Contraste de Tukey de no aditividad Para ilustrar el prueba se parte del modelo cruzado yij = µ + Ai + Bj + ABij + ǫij ; i = 1, . . . , a; j = 1, . . . b (1.1) se supone además que ǫij ∼ N (0, σ 2 ). Adicionalmente, se imponen las restricciones a X Ai = i=1 b X Bj = j=1 a X ABij = b X ABij = 0 j=1 i=1 El interés es probar la hipótesis H0 : AB11 = · · · = AB1b = · · · = ABa1 = · · · = ABab = 0. Tukey impuso una restricción conveniente sobre la interacción ABij , al asumir que el efecto de la interacción para cada celda es una función de los efectos principales según un polinomio de segundo grado, es decir, ABij = α0 + α1 Ai + β1 Bj + α2 A2i + γAi Bj + β2 Bj2 (1.2) donde α0 , α1 , α2 , β1 , β2 , γ1 y γ2 son constantes. Promediando sobre j la ecuación, se tiene b AB i = 1X ABij b j=1 AB i = α0 + α1 Ai + b b b β1 X β2 X 2 γ1 X Bj + Bj + α2 A2i + Ai Bj b b b j=1 j=1 j=1 (1.3) 19 y ahora sobre i, a a a α1 X α2 X 2 γ1 X AB j = α0 + Ai + β1 Bj + Ai + Bj Ai + β2 Bj2 a a a i=1 i=1 (1.4) i=1 por las restricciones impuestas pueden simplificarse como AB i = α0 + α1 Ai + α2 A2i b β2 X 2 + Bj = 0 b j=1 AB j = α0 + β1 Bj + a α2 X 2 Ai + β2 Bj2 = 0 a i=1 por lo tanto α1 Ai + α2 A2i = −α0 − b β2 X 2 Bj b (1.5) β1 Bj + β2 Bj2 = −α0 − a α2 X 2 Ai a (1.6) j=1 i=1 sustituyendo se encuentra a b α2 X 2 β2 X 2 ABij = −α0 − Ai − Bj + γAi Bj a b i=1 Pero j=1 (1.7) 20 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS AB i = b 1X b ABij = j=1 b 1X b j=1  a b X X β2 −α0 − α2 A2i − Bj2 + γAi Bj  a b  i=1 α2 = −α0 − a α2 a = −α0 − debido al hecho que b P A2i i=1 a X i=1 b P Bj = 0 y j=1 a X j=1 β2 − b A2i − β2 b b X b Ai X +γ Bj b Bj2 j=1 b X j=1 Bj2 = 0 j=1 ABij = 0 entonces se reduce a j=1 ABij = γAi Bj (1.8) sustituyendo se obtiene el nuevo modelo yij = µ + Ai + Bj + γAi Bj + ǫij a P al imponer las restricciones Ai = 0 y i=1 H0 : γ = 0. b P (1.9) Bj = 0 se tiene la hipótesis j=1 Para obtener una estadı́stica de prueba, se tiene inicialmente los estimadores de mı́nimos cuadrados del modelo es decir, Q= XX i j ǫ2ij = XX i j (yij − µ − Ai − Bj − γAi Bj )2 Al derivar Q con respecto a γ e igualar a cero, se tiene las ecuaciones XX i j Ai Bj yij − µ − XX i j XX i j Ai Bj − Ai Bj2 − γ XX i j XX i A2i Bj j A2i Bj2 = 0. 21 Por las restricciones impuestas PP i se tiene que XX i Ai Bj = j PP i XX Ai Bj yij = γ j i j A2i Bj = PP i j Ai Bj2 = 0, A2i Bj2 j por lo tanto PP Ai Bj yij γ̂ = P P 2 2 Ai Bj i j i (1.10) j La definición natural para la suma de cuadrados de la interacción es XX i (γ̂Ai Bj )2 = γ̂ 2 X i j A2i X Bj2 j sustituyendo se obtiene PP Ai Bj yij i j PP 2 2 Ai Bj SCN A = i 2 j como Ai y Bj son desconocidos, se estiman a partir del modelo como Âi = ȳi − ȳ y B̂j = ȳj − ȳ, luego la suma de cuadrados de no aditividad es hPP i2 (ȳi − ȳ)(ȳj − ȳ)yij i j SCN A = P P . (ȳi − ȳ)2 (ȳj − ȳ)2 i (1.11) j Para la construcción del estadı́stico de prueba se postula el siguiente teorema PP Teorema 1.1. Sea SCE = (yij − ȳi − ȳj + ȳ)2 en el modelo entonces i j la suma de cuadrados de residuales es SCE(N uevo) = SCE − SCN A 22 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS SCE(N uevo) se distribuyen en forma bajo H0 : γ = 0 cierta entonces SCE σ2 y σ2 independiente como una chi-cuadrado. Por consiguiente el cociente F = SCN A SCE(N uevo) (ab−a−b) ∼ F(1,ab−a−b) La prueba de este teorema puede verse en Rao (1973). Cuando se tengan tres factores, la suma de cuadrados de no aditividad es obtenida como hPPP i2 (ȳi − ȳ)(ȳj − ȳ)(ȳk − ȳ)yijk i j k PPP (ȳi − ȳ)2 (ȳj − ȳ)2 (ȳk − ȳ)2 i j k El desarrollo de la prueba puede verse en Tukey (1949). 1.1. Solución a los problemas de heterocedasticidad y anormalidad Las siguientes son algunas de las estrategias para solucionar los diferentes problemas en el ajuste del modelo propuesto. 1.1.1. Uso de transformaciones Transformar significa un cambio de métrica de la variable original por una medida en otra escala. La transformación tiene como idea central, que si en la variable original los supuestos no son adecuados, puede existir una transformación conveniente tal que en la nueva métrica estos se satisfacen. Entre 1936 y 1940 fueron publicados algunos artı́culos sobre la transformación raı́z cuadrada, logaritmo natural y transformación angular aplicables en el análisis de varianza. En 1954 surgen algunas publicaciones sobre el uso de las transformaciones; en particular cabe citar los trabajos de Moore-Tukey y Anscombe-Tukey quienes desarrollaron una familia de transformaciones. 1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD... 23 Box Cox (1964) publicaron un artı́culo que es considerado como un gran marco de trabajo para la obtención de las transformaciones. 1.1.1.1. Consideraciones generales sobre transformaciones En análisis de varianza y regresión las transformaciones pueden ser aplicadas para: i) Linealizar el modelo. ii) Corregir desvı́os de los supuestos del modelo. iii) Simplificar el modelo. En la tabla se presentan algunas transformaciones para linealizar el modelo. Exponencial Potencia Multiplicativo Recı́proco Modelo Y = β 0 eβ1 X ǫ Y = β 0 X β1 ǫ Y = β0 X1β1 X2β2 ǫ Y = β +β X 1+β X Logı́stico Y = 2 2 +ǫ 1 1+exp[−(β0 +β1 X+ǫ)] 0 Y = √ k 1 1 Xβ + ǫ Tranformación LnY = Lnβ0 + β1 X + Lnǫ LogY = Logβ0 + β1 LogX + Logǫ LogY = Logβ0 + β1 LogX1 + β2 LogX2 + Logǫ 1 = β0 + β1 X1 + β2 X2 + ǫ Y Y = β0 + β1 X + ǫ Log 1−Y Y k = Xβ + ǫ Cuadro 1.1. Transformaciones que linealizan el modelo. 1.1.2. Uso de las transformaciones para estabilizar varianza Si el supuesto de homogeneidad de varianza no es satisfecho, puede suceder que una transformación de la variable dependiente estabilice la varianza. Bartlett(1947) y Siqueira (1983), determinan una transformación conveniente en el caso de que exista una relación entre E(Y ) = µ y V ar(Y ) = σ 2 , es decir σ 2 = F (µ) (1.12) La idea ahora es buscar la transformación de Y , por ejemplo Z = g(Y ) tal que V ar(Z) = constante = K. 24 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Desarrollando g(Y ) en series de Taylor, se tiene Z = g(Y ) = g(µ) + (Y − µ)g′ (µ). (1.13) Tomando valor esperado y varianza de la nueva variable Z, se llega a: E(Z) = E[g(µ) + (Y − µ)g′ (µ)] = g(µ) (1.14) V ar(Z) = E[Z − E(Z)]2 = E[(Y − µ)g′ (µ)]2 = [g′ (µ)]2 V ar(Y ). Haciendo V ar(Z) = K y V ar(Y ) = F (µ), se llega en la anterior expresión a [g′ (µ)]2 F (µ) = K y despejando g′ (µ), se sigue que ′ g (µ) = s K F (µ) y entonces g(µ) = Z s K dµ F (µ) (1.15) K dY F (Y ) (1.16) De forma general se tiene que g(Y ) = Z s Con la expresión anterior se determina la forma genérica de la transformación que estabiliza la varianza. 1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD... 25 A continuación se presentan algunos ejemplos en donde se evidencia el anterior problema. La tabla tomada de Bartlett, resume algunas transformaciones cuando las varianzas y las medias están relacionadas: Rel. Var.-Media µ K 2µ 2µ2 n−1 2 2 K µ µ(1−µ) n 2 2 2 K µ (1 − µ) (1−µ2 )2 n−1 2 2 µ+K µ µ4 Transformación √ √ √Y o Y + 1 Y LogY LogY o Log(Y + 1) √ Arcos( Y ) Y Log 1−Y 1 1+Y 2 Log 1−Y √ 1 k Arcosenh(k Y ) 1 Y Var. nueva escala 0,25 0,25K 2 2 n−1 2 K 0,25 n 2 K 1 n−3 0,25 1 Distribución Poisson Poisson Varianzas M Empı́rica Binomial Empı́rica Correlación Binomial Neg. Empı́rica Cuadro 1.2. Transformaciones recomendadas según Bartlett (1947) cuando hay relación entre media y varianza. Observación 1.4. En la práctica, para ver la relación entre σ 2 y µ se debe construir un gráfico de Si2 en función de Ȳi o también entre Log(Si2 ) y Log(Ȳi ) para indicar la relación existente. Las soluciones (transformaciones) dependen del comportamiento que se observe en los residuales, es decir de los supuestos que se hagan del comportamiento de la varianza. 1.1.3. Uso de transformaciones para corregir no normalidad Desvı́os moderados a la falta de normalidad, no afectan los resultados de las estadı́sticas t y F , pero si la distribución presenta una asimetrı́a acentuada, el coeficiente de asimetrı́a difiere ampliamente de cero y ocurre algún desvı́o grande en la región de las observaciones extremas, cuando esto sucede los métodos estadı́sticos que suponen normalidad no deben emplearse. En estos casos es posible encontrar una transformación que lleve a una distribución razonablemente simétrica. Ejemplo 1.1. En Bhattacharya, se presenta el siguiente conjunto de datos: 26 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS 39, 3 3, 5 6, 0 2, 7 7, 4 3, 5 19, 4 19, 7 1, 0 8, 7 14, 8 8, 3 17, 1 26, 2 6, 6 8, 3 19, 0 10, 3 7, 6 18, 9 Y 6, 3 10 16, 8 24, 3 5, 2 44, 8 14, 1 3, 4 28, 3 3, 4 0, 9 1, 3 0, 7 17, 7 8, 3 8, 3 1, 9 16, 7 26, 2 10, 0 6, 5 7, 1 7, 9 3, 2 5, 9 13, 4 12, 0 4, 3 31, 7 2, 5 1, 37 1, 57 1, 29 1, 64 1, 37 2, 07 2, 11 1, 0 1, 72 Z = Y 1/4 1, 96 1, 58 0, 97 1, 70 1, 78 1, 07 2, 03 2, 02 0, 91 2, 26 2, 22 2, 05 1, 60 1, 51 1, 70 1, 70 2, 59 1, 70 2, 10 1, 93 1, 17 1, 79 1, 36 2, 02 1, 66 2, 31 2, 26 2, 09 1, 36 1, 78 1, 60 1, 63 1, 68 1, 34 1, 56 1, 91 1, 86 1, 44 2, 31 En este caso, al trabajar con la variable Y y probar la hipótesis de normalidad, se encuentra según los resultados de los estadı́sticos de prueba de Kolmogorov y Shapiro en la siguiente tabla: Prueba Shapiro-Wilk Kolmogorov-Smirnov Estadı́stico W=0,8706 D=0,1806 valor p < 0, 0001 < 0, 0100 A partir de los anteriores resultados, se rechaza la hipótesis de normalidad, a través tanto del estadı́stico de Shapiro-Wilk (valor p < 0, 0001) como el de Kolmogorov-Smirnov (valor p < 0,0100), con lo cual se evidencia que se debe transformar esta variable. Al realizar la transformación Z = Y 1/4 se satisface el supuesto de normalidad, que se evidencia según los resultados de las pruebas estadı́sticas obtenidas en la siguiente tabla: Prueba Shapiro-Wilk Kolmogorov-Smirnov Estadı́stico W=0,9856 D=0,0729 valor p 0,8099 > 0, 1500 en la gráfica que se presenta en la figura se satisface la normalidad al realizar esta transformación. Existen trabajos teóricos que tratan el problema de escoger las transformaciones, pero no existen métodos prácticos que indiquen la información 1.1. SOLUCIÓN A LOS PROBLEMAS DE NO HOMOCEDASTICIDAD... (a) 27 (b) Figura 1.1. Histogramas de la variable sin transformar (a) y transformada (b). √ √ adecuada. En la práctica se sugiere la transformación Y , 4 Y , LogY , Y1 para disminuir valores grandes, en tanto que Y 2 y Y 3 tienden a aumentar valores pequeños. A continuación se presenta una transformación que permite estabilizar varianza y corregir a la vez el problema de no normalidad. 1.1.4. Transformación de Box - Cox El objetivo de esta transformación es homogeneizar la varianza. En la mayorı́a de los casos al cumplirse este objetivo se esta corrigiendo de una vez el problema de falta de normalidad. Esta transformación tiene como supuesto que la varianza es una función de la media, σt2 = f (µt ), por lo tanto la metodologı́a tiene como objetivo buscar un valor para λ tal que σt /µt1−λ = constante. La transformación se hace sobre la variable dependiente y tiene la siguiente estructura general: T(y)= y λ si λ 6= 0 ln y si λ = 0 28 CAPÍTULO 1. VERIFICACIÓN DE SUPUESTOS Para hacer uso de la transformación de deben tener en cuenta los siguientes pasos: 1. Se dividen las n observaciones en H grupos, cada uno con igual número observaciones. Ejemplo: Si se tiene 125 observaciones y se quiere 7 grupos cada uno tendrá 17 observaciones (125/7=17). Se deja por fuera las 6 últimas o primeras observaciones. Cada grupo tendrá (n − h)/H observaciones, con h el número de observaciones que se dejan por fuera de la clasificación inicial. 2. En cada grupo se calcula la media y la desviación estándar, es decir, se obtiene {ȳ1 , s1 }, {ȳ2 , s2 }, . . . , {ȳH , sH }. 3. Para cada λ se calcula los coeficientes de variación presentados en la tabla. En dicha tabla CV (.) = Coeficiente de Variación = DS(λ) µ(λ) con ! H si 1 X µ(λ) = H ȳi1−λ i=1 v " ! #2 u H u X s 1 i DS(λ) = t − µ(λ) 1−λ (H − 1) λ i i=1 Grupo 1 2 .. . -1 s1 /ȳ12 s2 /ȳ22 .. . H Coeficiente 2 sH /ȳH CV(-1) Potencia (λ) -0.5 0 0.5 1,5 s1 /ȳ1 s1 /ȳ1 s1 /ȳ10,5 1,5 s2 /ȳ2 s2 /ȳ2 s2 /ȳ20,5 .. .. .. . . . 1,5 0,5 s2 /ȳH s2 /ȳH s2 /ȳH CV(-0.5) CV(0) CV(0.5) 1 s1 s2 .. . sH CV(1) Cuadro 1.3. Transformación de la variable dependiente a través de la escogencia de λ. El λ que se escoge para realizar la transformación, es aquel con menor coeficiente de variación.

Log In

Validaciondesupuestosunidad

Sign up for access to the world's latest research

Abstract

Related papers

Related papers