Análisis Estadístico ApéndiceANOVA

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 24

Introducción al análisis estadístico con SPSS

Apéndice A: Comparaciones de medias


para más de dos grupos. ANOVA de un
factor
Conceptos generales
• Generalización de la prueba T para muestras independientes
• Explorando diferencias
• ANOVA de un factor
• Pruebas Post Hoc
• Sacar los gráficos de diferencia de medias
• Apéndice: diferencia de medias tomando rangos

Datos
En este apéndice utilizaremos el fichero GSS2004Intro.sav.

Panorámica general
Utilizando nuevamente el fichero GSS 2004 queremos analizar si hay relación entre el nivel de
estudio y la cantidad de horas viendo la TV. Una aproximación consistiría en agrupar los años de
estudio y comparar esos grupos en horas al día viendo la TV. En la encuesta, sin embargo, existe
una variable que es Estudios que contiene cinco categorías: Menos de primaria, Primaria,
Secundaria, Bachillerato y Diplomado/Universitario. Asumiendo que nos quedamos con estas
categorías nos preguntaremos primero si hay diferencias poblacionales en las medias de horas
vistas de TV por día y los grupos de estudios. Si existen diferencias en la población, nos
interesará además ver qué grupos difieren concretamente de qué otros grupos.

A.1 Introducción
En análisis de varianza (ANOVA) es un método general para extraer conclusiones sobre
diferencia de medias poblacionales cuando dos o más grupos están implicados. La prueba T para
muestras independientes (vista en el capítulo 7) se aplica al caso particular de dos grupos. En
cambio, el ANOVA puede acomodarse a situaciones más complejas. De hecho, la prueba T para
muestras independientes puede verse como un caso particular de ANOVA (de hecho, la
significación arrojada por el estadístico T es la misma que la sacada con el estadístico F del
ANOVA).

Compararemos cinco grupos compuestos por gente con diferente nivel educacional y
evaluaremos si hay diferencias poblacionales en las medias que estos grupos dedican a ver
diariamente la TV. Antes de ejecutar el análisis examinaremos los grupos del análisis (como ya
sabemos con el menú explorar).

194 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

A.2 Generalizando la lógica a más de dos grupos


La lógica de la comparación de medias entre dos grupos para la prueba T es la misma que la que
hay para comparar medias en más de dos grupos. Así que como veíamos en el capítulo 7,
utilizando la prueba T, teníamos:

Ho (la hipótesis nula) en la que asumimos que las medias poblacionales son las mismas

Determinar la probabilidad de obtener unas diferencias en las medias muestrales como las
obtenidas por nosotros o mayores: para hacer esto la variación entre los grupos (variación
inter-grupos) se compara con la variación dentro de cada grupo (variación intra-grupos).
Asumiendo que en la población las medias poblacionales son las mismas (asumiendo la hipótesis
nula), la única fuente de variación entre las muestras provendría por el hecho de que los grupos
están compuestos por diferentes individuos (y no porque las poblaciones difieran en las medias).

Lo que se hace es un cociente entre las dos fuentes de variación (variación inter-grupos /
variación intra-grupos). Cuando no hay diferencia de medias poblacionales ambas variaciones
son muy parecidas, por lo que el cociente debería valer en torno a 1. Cuando la distribución de
los grupos sigue la curva normal, el cociente entre las dos fuentes de variación sigue una
distribución de probabilidad conocida (la distribución F) por lo que podemos extraer la
probabilidad de los datos con respecto a la hipótesis nula. El resultado final es la probabilidad de
encontrar unas diferencias muestrales como las obtenidas por nosotros (o mayores) si no hubiese
diferencias poblacionales. Si esta probabilidad es muy pequeña (habitualmente menor de 0,05)
concluiremos que la hipótesis nula no se sostiene y que por lo tanto hay diferencia de medias.

El supuesto de normalidad para las distribuciones de cada grupo, así como el supuesto de que las
varianzas son iguales entre todos los grupos que discutimos en el capítulo 7 son aplicables a los
modelos ANOVA. De la misma forma, las mismas reglas generales cuando se violan estos
supuestos pueden extenderse al ANOVA.

Factores
Cuando ejecutamos una prueba sobre diferencia de dos medias solamente se puede hacer una
comparación posible: el grupo 1 frente al grupo 2. Por esta razón es habitual que los grupos estén
construidos de forma que sus miembros únicamente varíen en un aspecto (por ejemplo, mujeres
frente a hombres; o fármaco A frente a fármaco B), ya que si administrásemos a los hombres el
fármaco A y a las mujeres el fármaco B sería imposible diferenciar entre los dos efectos (¿las
diferencias dependen del sexo o del fármaco administrado?).

Cuando los datos se pueden dividir en más de dos grupos, aparecen más comparaciones posibles.
Podemos comparar medias en cuatro regiones diferentes, diferencias entre niños de colegios
privados, públicos y concertados, diferencias entre cinco fármacos, etc. A la variable de
comparación en el ANOVA la llamamos factor, que es equivalente a la variable independiente en
la regresión. Las variables factor están medidas habitualmente a nivel nominal u ordinal. A la
variable de escala la llamamos variable dependiente. En los diseños ANOVAS podemos incluir
más de un factor a la vez. Cuando utilizamos una variable factor y una dependiente estamos ante
un ANOVA de un factor, si tenemos dos factores y una variable dependiente tendremos un

ANOVA de 1 factor 195


Introducción al análisis estadístico con SPSS

ANOVA de dos factores, etc. En este curso veremos el ANOVA más simple de todos: el
ANOVA de un factor.

De todas formas, si el diseño requiere la incorporación de más de un factor (por ejemplo, ver
cómo es el rendimiento escolar entre centros privados, públicos y concertados (factor 1) en niños
y niñas (factor 2)), tendremos que dirigirnos al procedimiento Univariante bajo el menú Modelo
lineal general. Otros procedimientos dentro del modelo lineal general como la opción
Multivariante, Medidas repetidas o los Modelos lineales mixtos pertenecen al módulo Modelos
avanzados.

A.3 Exploración de los datos


Como hicimos en el capítulo 7, comenzaremos aplicando el procedimiento Explorar para las
variables de interés. En la práctica, sería recomendable examinar los estadísticos descriptivos
para cada grupo de interés, así como detectar posibles datos atípicos y los supuestos del análisis
(normalidad e igualdad de varianzas). Por brevedad en nuestra presentación examinaremos
únicamente los gráficos de caja.

Abrir el fichero GSS2004Intro.sav si no está abierto


Pulsar en el menú Analizar... Estadísticos descriptivos... Explorar
Desplazar la variable tvhoras a la caja Dependientes
Desplazar la variable estudios a la caja Factores

Figura A.1 Cuadro de diálogo Explorar para la variable dependiente tvhoras y el factor
estudios

La variable dependiente es la variable de escala por la que tenemos interés en comparar sus
medias y la variable factor es la que define los grupos que queremos comparar. Dado que
compararemos diferentes grupos que forman distintos niveles educativos, designamos la variable

196 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

estudios como variable factor (variable nominal u ordinal también llamada variable
independiente). La variable dependiente es tvhoras. Aceptaremos la salida por defecto. Como
hemos visto en anteriores capítulos, se pueden elegir histogramas en lugar de los diagramas de
tallo y hojas, así como pedir estadísticos adicionales (estimadores robustos centrales, datos más
extremos y los percentiles).

Pulsar en el botón Aceptar

La salida muestra un análisis minucioso del número de horas que dedica cada grupo de nivel de
estudios a ver la TV. Por brevedad nos detendremos únicamente en los diagramas de cajas.

Figura A.2 Diagrama de cajas del número de horas viendo la TV para distintos niveles de
estudio

La tendencia de las medianas (la línea gruesa que divide las cajas) es que disminuya a medida
que aumentamos el nivel de estudios. Todos los grupos exhiben asimetría positiva. Esto se puede
ver porque los valores atípicos y extremos están en la zona alta de la distribución. La asimetría
positiva es tanto más acusada cuanto menor es el nivel de estudios. Hay determinados individuos
con unos valores exageradísimos en la variable (piénsese que el máximo es de 24 horas, aunque
es un valor ciertamente imposible), por lo que convendría asegurarse de que han comprendido
correctamente la pregunta. Otra cosa que se desprende del diagrama de cajas es que los niveles
de estudio más bajos (menos de primaria y primaria) tienen una variabilidad intra-grupo mayor

ANOVA de 1 factor 197


Introducción al análisis estadístico con SPSS

que la de los otros tres niveles de estudio, dando probablemente al traste con el supuesto de
homogeneidad de varianzas (debe ser comprobado formalmente por la prueba de Levene, ver
más adelante). Esto puede suponer un inconveniente, más cuando los tamaños de los grupos son
dispares.

Debemos hacer notar que no parece haber un patrón entre la mediana y la amplitud intercuartil
(por ejemplo que una se incremente con la otra), lo que podría derivar en una transformación en
los datos para estabilizar las varianzas dentro de los grupos. Volveremos a este punto después de
comprobar el supuesto de igualdad de varianzas. Accederemos ahora al procedimiento ANOVA
de un factor.

A.4 ANOVA de un factor


Para ejecutar el ANOVA de un factor

Pulsar en el menú Analizar... Comparar medias... ANOVA de un factor


Desplazar la variable tvhoras a la caja Dependientes
Desplazar la variable estudios a la caja Factor

Figura A3 Cuadro de diálogo ANOVA de un factor

Hemos especificado el mínimo de información necesaria para ejecutar un ANOVA de un factor:


una variable dependiente y la variable factor. En este procedimiento se pueden incorporar
conjuntamente más de una variable dependiente para la misma variable factor (ya que sólo se
puede incluir una). El botón Contrastes se utiliza para realizar lo que se conoce como las
comparaciones planeadas que sean de interés para el investigador. El botón Post Hoc genera
todas las comparaciones por pares, de modo que cada grupo se compara por pares con todos los
demás. Estas comparaciones sirven para determinar qué grupos difieren de qué otros y se suelen
realizar tras evaluar el estadístico F del ANOVA. Evaluaremos las comparaciones múltiples en la
siguiente sección.

Finalmente, el botón Opciones controla varias características como el manejo de los valores
perdidos, si se quiere mostrar o no los estadísticos descriptivos, un gráfico de perfil para las
medias de los grupos o la prueba de homogeneidad de las varianzas entre otras cosas.

198 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Mostraremos los estadísticos descriptivos (aunque los habríamos examinado previamente desde
el procedimiento Explorar) y pediremos igualmente la prueba de homogeneidad de varianzas.

Pulsar sobre el botón Opciones


Pulsar sobre la casilla Descriptivos
Pulsar sobre la casilla Prueba de homogeneidad de las varianzas
Pulsar sobre la opción Brown-Forsythe y Welch

El cuadro de diálogo completo se muestra en la figura A.4. Como mencionamos anteriormente, el


procedimiento ANOVA asume que las varianzas para cada grupo son iguales. Sin embargo,
cuando la prueba de homogeneidad no se sostiene existen varias pruebas robustas ante su
incumplimiento que pretenden ser sustitutos del estadístico F. Pedimos estas opciones dado que
los diagramas de cajas examinados antes parecían hacernos dudar mucho sobre la igualdad de las
varianzas.

Figura A.4 Subcuadro de diálogo Opciones

Los valores perdidos también se pueden tratar desde el subcuadro de diálogo Opciones. Cuando
hay más de una variable dependiente se puede optar por excluir los casos según análisis donde se
excluye el caso sólo del análisis de la variable dependiente en el que tenga el valor perdido, o
bien se puede optar por excluir el caso según lista, donde basta que un caso tenga un valor
perdido en una de las variables dependientes para que se excluya del resto de análisis en los que
participen otras variables dependientes (obviamente esta opción es más restrictiva). No importa
qué opción elijamos nosotros dado que tenemos una sola variable dependiente. El gráfico de las
medias produce un gráfico de líneas mostrando las medias para los grupos de la variable factor.
Este es un tipo de gráfico con el que se puede presentar los resultados de un ANOVA, pero no el
único. También podemos pedir un gráfico de barras de error (lo haremos luego) en tanto que
muestra más información que el gráfico de líneas.

ANOVA de 1 factor 199


Introducción al análisis estadístico con SPSS

Pulsar en el botón Continuar


Pulsar en el botón Aceptar

Interpretaremos los resultados.

Resultados del ANOVA de un factor


El ANOVA de un factor solicitado incluye una tabla con los estadísticos descriptivos, la tabla
con el resumen del análisis de varianza, las pruebas robustas cuando no se puede asumir igualdad
de varianzas junto con los valores de probabilidad para juzgar la hipótesis nula sometida a
contraste. Comenzaremos por interpretar la tabla resumen del ANOVA que nos permite decidir si
hay diferencias entre las medias de los grupos.

Figura A.5 Tabla resumen del ANOVA de un factor

La mayor parte de la información contenida en la tabla (Figura A.5) es técnica y no se interpreta


directamente. Más bien, la información aparecida se puede utilizar para calcular el estadístico F
y, sobre todo, para calcular la probabilidad que evalúa la hipótesis de igualdad de medias.

En la primera columna hay una fila llama Inter-grupos y una fila llamada Intra-grupos. Son las
dos fuentes de variación comentadas anteriormente. La columna gl se refiere a los grados de
libertad, información relacionada con el número de grupos de la variable factor y con el número
total de observaciones. Los grados de libertad tampoco se interpretan directamente, sino que se
utilizan para calcular la varianza inter-grupos y la varianza intra-grupos. Igualmente, las suma de
cuadrados son fuentes de variación que divididos por los grados de libertad dan precisamente lo
que se conoce en el ANOVA (y en la tabla) como las medias cuadráticas. Éstas son las
estimaciones de la varianza inter-grupos y la varianza intra-grupos. Dividiendo ambas medias
cuadráticas da el estadístico F. Recuérdese que si no hay diferencia de medias poblacionales, las
medias cuadráticas (es decir, las varianzas inter-grupos e intra-grupos) serán más o menos
iguales. De modo que efectuar su cociente debería arrojar un valor próximo a 1. En la medida en
que el cociente sea mayor que 1 llevará a sospechar que no se sostiene la hipótesis de igualdad de
medias. La probabilidad o significación asociado al estadístico F precisamente nos informa de la
probabilidad de encontrar diferencias de medias muestrales como las que tenemos o más alejadas
suponiendo que en la población las medias son iguales. Esta significación, si se quiere, se puede
interpretar como el grado de compatibilidad de la hipótesis nula con los datos. Dado que tenemos
una probabilidad de 0,000 (menor de 0,0005), lo lógico será rechazar la hipótesis de igualdad de
medias y concluir que las medias poblacionales de las horas al día viendo la TV difieren entre los
distintos niveles educativos.

200 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

En la práctica, la mayoría de los investigadores se fijan directamente en el valor de la


significación, ya que las sumas de cuadrados, los grados de libertad, las medias cuadráticas e
incluso el estadístico F son medios para llegar a la significación y raramente son interesantes en
sí mismos (desde un punto de vista aplicado). Para facilitar la interpretación observaremos la
información contenida en la tabla de descriptivos (Figura A.6).

Figura A.6 Estadísticos descriptivos para cada grupo de estudios en la variable tvhoras

El patrón observado en las medias es consistente con lo que ya observamos en el diagrama de


cajas, en el sentido de que a medida que aumenta el nivel de estudios disminuye las horas
dedicadas diariamente a ver la TV. El intervalo de confianza al 95% muestra entre qué valores
cabe esperar encontrar las medias poblacionales para cada grupo y nos permite comparar
informalmente las medias muestrales. Los valores mínimo y máximo también aparecen en la
tabla y como hemos visto, los valores máximos resultan sorprendentes.

A menudo en este momento resulta de interés conocer qué grupos difieren de qué otros. Esta
información no nos la da el estadístico F ya que es un estadístico global que evalúa la hipótesis
de que todas las medias son iguales. Desde el momento en que rechacemos la hipótesis sabremos
que al menos dos medias, cualesquiera que sean, difieren, pero no sabemos nada más. Decir que
los grupos no son iguales es demasiado poco específico. De ahí que sea habitual proceder con las
comparaciones múltiples por pares, las pruebas Post Hoc que permiten ver todas las
comparaciones por pares. Primero, sin embargo debemos observar si se puede asumir el supuesto
de igualdad de varianzas.

Prueba de homogeneidad de varianzas. Qué hacer si no se cumple el


supuesto
También habíamos solicitado la prueba de homogeneidad de varianzas. Es la misma prueba vista
en el capítulo 7 en la prueba T para muestras independientes y aquí se interpreta de la misma
forma.

Figura A.7 Prueba de homogeneidad de las varianzas

ANOVA de 1 factor 201


Introducción al análisis estadístico con SPSS

Desafortunadamente la hipótesis nula de que las varianzas de los grupos son iguales en la
población debe ser rechazada (sig = 0,000 < 0,0005). Esto es lo que contrasta la prueba de
Levene y lo que se concluye a partir de su significación. El tamaño de las muestras es bastante
dispar, de modo que no contamos con la robustez que aporta para el estadístico F tamaños
muestrales iguales. Por esta razón podemos evaluar las pruebas robustas de Brown-Forsythe o la
prueba de Welch, que evalúan la hipótesis de igualdad de medias (es decir, la misma que la F)
pero se suponen robustas ante el incumplimiento de la homogeneidad de las varianzas. Los
resultados de estas pruebas robustas se muestran en la Figura A.8.

Figura A.8 Pruebas robustas de igualdad de medias

Matemáticamente, ambas versiones intentan ajustar la falta de homogeneidad de varianzas. La


prueba de Brown-Forsythe lo que hace es calcular el cociente entre la variabilidad inter-grupos e
intra-grupos. Corrige la heterogeneidad de varianzas ajustando la contribución de cada grupo a la
variación inter-grupos mediante una ponderación relacionada con su variación intra-grupo. La
prueba de Welch corrige el denominador del cociente de modo que tenga la misma esperanza que
el numerador cuando la hipótesis nula es verdadera, a pesar de la heterogeneidad de las varianzas
intra-grupo.

Ambas pruebas indican que hay diferencias significativas en las medias viendo la TV
diariamente entre los distintos niveles educativos, que es consistente con las conclusiones
extraídas por la F del ANOVA.

Estas pruebas robustas, como se muestra a pie de tabla, se distribuyen asintóticamente según la F,
lo cual significa que sus propiedades mejoran cuanto mayor sea el tamaño de la muestra. Ambas
pruebas asumen que la distribución es normal en la variable dependiente para cada grupo. Los
trabajos de simulación de Brown y Forsythe (1974) indican que las pruebas funcionan
correctamente con tamaños grupales pequeños (con 10 casos por grupo e incluso con 5 casos por
grupo).

Otra alternativa, un poco más sofisticada consiste en aplicar una transformación a la variable
dependiente con el fin de estabilizar las varianzas de los grupos. Estas transformaciones exceden
los propósitos de este manual, pero los lectores interesados pueden consultar Emerson in
Hoaglin, Mosteller y Tukey (1991) desde una perspectiva exploratoria de los datos. También
puede revisarse Box, Hunter y Huter (1978) y el trabajo pionero de Box y Cox (1964).

Una segunda alternativa podría ser proceder con un análisis no paramétrico ya que no necesita
asumir ni normalidad ni igualdad de varianzas (recuérdese que tanto Brown-Forsythe asumen
que las poblaciones son normales). Un análisis de varianza de un factor no paramétrico asume
que la variable dependiente está medida a nivel ordinal (lo que supone asignarle rangos). Cuando
se procede con el análisis no paramétrico (lo veremos al final del apéndice) las diferencias entre

202 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

los grupos siguen siendo estadísticamente significativas. Esto sirve para corroborar nuestros
resultados. El problema de esta segunda aproximación es que no se dispone de procedimientos no
paramétricos para todos los diseños ANOVAS.

En las situaciones en las que no haya pruebas robustas ni el equivalente no paramétrico, muchos
investigadores aceptan los resultados del ANOVA advirtiendo que los niveles de probabilidad
pueden no ser demasiado exactos. En nuestro ejemplo, dado que el valor de significación es
menor de 0,0005, incluso aunque existan ciertos desajustes tendrían que ser de considerable
magnitud para que los resultados no fuesen estadísticamente significativos (al 0,05). Mientras
estas aproximaciones no son enteramente satisfactorias y entre los propios estadísticos pueden
discrepar sobre lo que podría ser más conveniente ante una determinada situación, las guías para
afrontar el problema suelen ser parecidas.

Habiendo concluido que hay diferencias en el tiempo medio que dedican los diferentes niveles
educativos a ver diariamente la TV, trataremos de analizar qué grupos difieren de qué otros.

A.5 Pruebas Post Hoc de diferencia de medias


Las pruebas Post hoc se utilizan habitualmente siempre y cuando el estadístico F indique que
existen diferencia entre las medias, aunque para una revisión más extensa puede consultarse
Milliken y Johnson (1984). En este punto del análisis suele ser habitual detenerse para comprobar
qué grupos difieren de qué otros. En un aspecto, el procedimiento es bastante directo: cada par de
grupos se contrasta si difieren en sus medias poblacionales y una tabla de resumen aparece en el
visor de resultados informando de ello. Sin embargo, un problema existe al respecto. Tiene que
ver con el hecho de que cuando se realizan muchas comparaciones por pares, es cada vez más
fácil que aparezca un falso positivo; esto es, detectar diferencia de medias entre dos grupos por
azar cuando en realidad no difieren. Recuérdese la discusión sobre el Error tipo I y el Error tipo
II en el capítulo 5. Como un ejemplo extremo, si tenemos 10 grupos podemos hacer 45
comparaciones por pares ((J *(J – 1) / 2) = total de comparaciones siendo J el número de grupos).
Si estamos utilizando un nivel de significación de 0,05 (que es la probabilidad que asumimos
como riesgo de detectar diferencia de medias que no difieren), podríamos esperar obtener por
término medio aproximadamente 2(0,05*45) falsos positivos. Ante este problema, muchos
estadísticos han ideado procedimientos que corrijan el aumento de error tipo I por el hecho de
hacer tantas comparaciones.

¿Por qué existen tantos métodos?


Una prueba post hoc ideal sería aquella que demostrase un buen control sobre el error tipo I que
además tenga una buena potencia de contraste (probabilidad de detectar diferencias cuando las
hay en la población) y que, además, sea robusta ante el incumplimiento de los supuestos
(violaciones en la igualdad de varianzas y distribuciones alejadas de la normal).
Desafortunadamente hay que sacrificar una cosa por otra cuando buscamos lograr determinadas
características (error típo I y la potencia) y no hay una prueba post hoc ideal ante todo tipo de
situaciones. Si añadimos a esto que hay pruebas que utilizan diferentes distribuciones de
probabilidad (T, F, rango estudentizado y otras) y que el error tipo I puede ser controlado a
diferentes niveles (por individuo, por familia, etc), todo esto hace que aparezca una larga
colección de pruebas.

Nosotros compararemos las pruebas post hoc desde la perspectiva de cuáles son más liberales o
más conservadoras teniendo en cuenta el control sobre el Error tipo I. Aplicaremos más de una
prueba sobre nuestros datos. Hay mucha literatura al respecto (y varios libros) que examinan las

ANOVA de 1 factor 203


Introducción al análisis estadístico con SPSS

pruebas post hoc (también llamados comparaciones múltiples). Algunos libros (Toothaker, 1991)
resume estudios de simulación que comparan varias pruebas sobre la potencia de contraste de las
pruebas post-hoc, así como su rendimiento bajo diferentes escenarios de patrones de medias y
violaciones de la homogeneidad.

La existencia de numerosos procedimientos post hoc sugiere que no hay una única aproximación
con la que los estadísticos se manifieste de acuerdo sobre cuál es óptima en todas las situaciones.
En algunos campos de investigación, las publicaciones requieren métodos post hoc particulares,
simplificando así la decisión del investigador. Para más detalles puede consultarse un libro breve
de Klockars y Sax (1986), Toothaker (1991) o Hsu (1996). También para tomar decisiones sobre
qué prueba post hoc utilizar puede consultarse Tukey (1991) o Milliken y Johnson (1984).

Abajo presentamos las pruebas disponibles en el SPSS, aproximadamente descritas desde las más
liberales (más potencia pero más falsos positivos o menos control sobre el error tipo I) a las más
conservadoras (menos falsos positivos pero menos potencia) y también mencionamos algunos
diseños adecuados cuando se incumple la prueba de homogeneidad de varianzas.

DMS
El procedimiento DMS o diferencia mínima significativa aplica una prueba T a todos los posibles
pares de medias. Así que no se hace ningún ajuste sobre el control del Error tipo I. El argumento
es que dado que se ha contrastado con una prueba global la hipótesis de igualdad de medias
seleccionando un nivel de significación de 0,05, no es necesario establecer ningún control
adicional Esta es la prueba post hoc más liberal de todas.

SNK, REGWF, REGWQ y DUNCAN


La prueba SNK (Student-Newman-Keuls), REGWF (Ryan-Einot-Gabriel-Welsh F), REGWQ
(Ryan-Einot-Gabriel-Welsh Q, basada en la distribución del rango estudentizado) y el test de
Duncan implican comparaciones secuenciales. Después de ordenar las medias de los grupos
desde la más baja a la más alta, las dos medias más extremas se comparan para ver si hay
diferencia de medias utilizando un valor crítico ajustado para el hecho de que esas son las más
extremas de un conjunto de medias más grande. Si esas medias no resultan ser estadísticamente
distintas, las comparaciones siguientes no se realizan (no serán significativas lógicamente); si son
diferentes entonces las comparaciones continúan con las dos medias más alejadas de las restantes
comparaciones y así sucesivamente. Todas ellas son más conservadoras que la prueba DMS.
REGWF y REGWQ mejoran los resultados sobre la más tradicional SNK en el sentido de que las
primeras ajustan el ligeramente elevado ratio de falsos positivos atribuido a SNK.

Bonferroni y Sidak
La prueba de Bonferroni (también conocida como el procedimiento de Dunn) y la de Sidak
(también conocida como Dunn-Sidak) efectúan a cada prueba una corrección estricta en el nivel
de significación para evitar que la probabilidad de obtener un falso positivo no exceda un valor
especificado (normalmente 0,05). Ambos están basados en desigualdades que relacionan la
probabilidad de obtener un falso positivo individual con la probabilidad de obtener uno o más
falsos positivos en un conjunto de contrastes independientes. Por ejemplo, la prueba de
Bonferroni se basa en dividir el nivel de significación original (es decir, 0,05 habitualmente)
entre el conjunto de todas las comparaciones por pares ((J*(J – 1) / 2). Por ejemplo, para cinco
medias (10 comparaciones posibles) para cada comparación entre dos medias se corrige la
significación dividiéndola entre 10 (tenemos pues un nivel de significación de 0,005, de modo
que si es menor se rechazará la hipótesis de igualdad de medias).

204 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Tukey (b)
La prueba Tukey (b) es un test que combina el test de Tukey (ver siguiente prueba) y la prueba
SNK produciendo un resultado que cae entre las dos.

Tukey
La prueba DHS de Tukey (diferencias honestamente significativas, llamada también prueba de
Tukey) controla los falsos positivos por familia de comparaciones. Esto significa que si estamos
evaluando a un nivel de 0,05 cuando se realizan todas las comparaciones, la probabilidad de
obtener uno o más falsos positivos sigue siendo 0,05. Es más conservador que Duncan o SNK. Si
todas las comparaciones por pares resultan de interés, como usualmente es el caso, la prueba de
Tukey es más potente que las pruebas de Bonferroni o Sidak.

Scheffe
El método de Scheffe también controla la tasa de error por familia de comparaciones. Corrige el
error no solo para todas las comparaciones posibles dos a dos con los grupos, sino todas las
posibles comparaciones que un investigador pudiera ocurrírsele. De este modo, se convierte en la
prueba más conservadora de todas (la probabilidad de obtener un falso positivo es la menor de
todas), pero consecuentemente tiene menos potencia.

Pruebas especiales Post Hoc

GT2 de Hochberg y Gabriel: Tamaños desiguales


La mayoría de las pruebas mencionadas arriba (exceptuando DMS, Bonferroni y Sidak) están
concebidas para cuando los tamaños de los grupos son iguales además de suponer igualdad de
varianzas así como distribuciones normales. Cuando los tamaños de los grupos no son iguales,
SPSS sustituye la media armónica para el tamaño de la muestra. Las pruebas GT2 de Hochberg y
Gabriel están pensadas para cuando los tamaños de los grupos no son iguales.

Waller-Duncan
La prueba de Waller-Duncan adopta una aproximación bayesiana, de forma que el nivel de
significación se basa en el tamaño del estadístico F con el fin de ser sensible a las diferencias
entre los grupos asociadas con su tamaño muestral. Además, se puede especificar la ratio entre el
Error tipo I y el Error tipo II. Esta característica permite manejar qué error tiene más importancia
previo a hacer las comparaciones de medias.

Varianzas distintas y tamaños distintos

T2 de Tamhane, T3 de Dunnett, Games-Howell y C de Dunnett


Cada una de estas pruebas post hoc ajusta las distintas varianzas y los tamaños de los grupos de
distinta forma. Los estudios de simulación (resumidos en Toothaker, 1991) sugieren que aunque
Games-Howell puede ser algo liberal cuando las varianzas de los grupos es igual y los tamaños
de los grupos diferentes, es una prueba más potente que el resto.

Como aproximación algunos analistas ejecutan una prueba liberal (por ejemplo, DMS) y una
conservadora (por ejemplo, Scheffe). Cuando ambas coinciden en las comparaciones es un signo
de solidez en los resultados, mientras que discrepancias entre ambas tienden a considerarse como
resultados tentativos, que deben interpretarse con cautela.

Para ilustrar las comparaciones múltiples para los cinco niveles de estudio escogeremos tres
pruebas: una liberal (DMS), otra no demasiado liberal ni conservadora (REGWT) y otra

ANOVA de 1 factor 205


Introducción al análisis estadístico con SPSS

conservadora (Scheffe). Además, dado que se violaba el supuesto de igualdad de varianzas,


pediremos Games-Howell. Habitualmente un analista no efectuará tantas pruebas post hoc,
aunque veremos que hacerlo tiene su utilidad. En la práctica recomendamos utilizar la prueba de
Games-Howell debido a que no tenemos igualdad de varianzas y, además, porque los tamaños de
los grupos son distintos.

Ir al menú Analizar... Comparar medias... ANOVA de un factor


Pulsar en el botón Post hoc
Pulsar en la opción DMS (diferencia mínima significativa), pulsar en R-E-G-W-F
(Ryan-Eniot-Gabriel-Welsh F), Scheffe y Games-Howell

La figura A.9 muestra el subcuadro de diálogo completado

Figura A.9 Subcuadro de diálogo Post hoc para comparaciones múltiples

Pulsar en Continuar
Pulsar en Aceptar

Por defecto, estos estadísticos toman un nivel de significación de 0,05. Si lo desea el usuario
puede utilizar un valor de significación diferente (por ejemplo, 0,01) que especificará en el
subcuadro de diálogo Post hoc (abajo a la izquierda, ver Figura A.9).

Los resultados muestran la tabla del ANOVA, las pruebas robustas para las diferencia de medias,
los estadísticos descriptivos y la prueba de homogeneidad de varianzas que ya hemos comentado.
Iremos directamente a las Pruebas Post hoc (tabla Comparaciones múltiples).

Nota: se ha editado la tabla de las comparaciones múltiples (cambiando el tamaño de las


columnas y haciendo que sólo se visualice un método) para poder presentar la tabla en la
documentación.

206 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Figura A.10 Pruebas Post hoc con el procedimiento DMS para los cinco niveles educativos

En las filas se puede ver que aparecen todas las comparaciones por partes posibles. Por ejemplo,
en lo alto de la tabla tenemos el grupo “Menos de primaria” comparado con los otros cuatro
grupos (Primaria, Secundaria, Bachillerato y Diplomado/Universitario). La columna Diferencia
de medias (I – J) contiene las diferencias de medias muestrales. El grupo cuyo nivel de estudios
es “Menos de primaria” ve de media 1,54 horas más la TV diariamente que los de “Primaria”,
1,96 horas más de los de “Secundaria”, etc. Si esta diferencia es estadísticamente significativa, se
decir, si puede extrapolarse a la población, aparecen seguidas de un asterisco (*).

Así que ya sabemos que el nivel de estudios “Menos de primaria” difiere significativamente del
resto en horas de TV vistas diariamente (de hecho, este grupo ve más la TV que cualquier otro
nivel educativo).

En la siguiente columna se muestra el Error típico y a la derecha de la tabla el Intervalo de


confianza al 95%. Estas medidas proporcionan información sobre la precisión con la que se han
estimados las diferencias de medias. Si el intervalo de confianza no incluye el cero la diferencia
es estadísticamente significativa, al revés cuando sí incluya el cero.

Obsérvese que cada comparación aparece dos veces en la tabla (tenemos Primaria – Secundaria y
Secundaria – Primaria). Aunque esto hace que se dupliquen los resultados en la tabla, la

ANOVA de 1 factor 207


Introducción al análisis estadístico con SPSS

diferencia de medias y los intervalos de confianza cambian de signo según sea uno u otro el que
aparece en primer o segundo lugar en la resta.

Resumiendo la tabla de la Figura A.10 podemos decir que el grupo con un nivel educativo más
bajo (“Menos de primaria”) difiere en la media dedicada a ver la TV con el resto de niveles
educativos. De éstos, los de Primaria difieren de los de Bachillerato y Diplomado/Universitario,
pero no con los de Secundaria. Los tres niveles educativos más altos no difieren entre sí en sus
medias. Dado que el procedimiento DSM es el más liberal de todos comprobaremos con otra
prueba si se replican los resultados. La tabla A.11 muestra estas mismas comparaciones pero con
el procedimiento REGWF.

Figura A.11 Tabla de grupos homogéneos con los procedimientos de Scheffe y REGWF
para los cinco niveles educativos

Los resultados para el procedimiento REGWF no se presentan con el mismo formato que la
prueba DMS. Esto se debe únicamente a que se basan en métodos diferentes (por ejemplo,
REGWF puede dejar de comparar medias cuando detecta que dos no difieren, por lo que no da
información sobre todas las comparaciones posibles). Como este método no calcula todos los
errores típicos ni todos los intervalos de confianza para la diferencia de métodos, en lugar de
dejar celdas vacías con el formato anterior de tabla, lo que hace es presentar subconjuntos
homogéneos entre sí. Un subconjunto homogéneo contiene un grupo de medias que no difieren
entre sí significativamente (el valor sig. se muestra al final de la tabla). Dependiendo del
procedimiento elegido, el visor de resultados muestra las comparaciones múltiples como en la
tabla de arriba (DMS), como lo hace para REGWF o en ambos formatos (por ejemplo, Scheffe).

208 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Atendiendo a los resultados de REGWF, podemos ver tres grupos homogéneos de medias (tres
columnas). La primera se compone los niveles educativos Diplomado/Universitario, Bachillerato
y Secundaria. No difieren entre ellos, pero sí difieren del resto de los grupos. Este resultado es
consistente con la prueba DMS. El segundo grupo se compone de Secundaria y Primaria (entre
ellos no difieren significativamente). También es consistente este resultado con DMS. El último
grupo únicamente contiene a los de Menos de primaria. Esto se debe a que este grupo difiere
significativamente del resto de los grupos en el número de horas viendo la TV (también
consistente este resultado con la prueba DMS). Por lo tanto, esta tabla de subgrupos homogéneos
presenta qué grupos no difieren entre sí (y por deducción cuáles sí difieren entre sí). Tal vez sea
más cómodo de interpretar que la tabla anterior.

La tabla de subgrupos homogéneos también muestra la prueba de Scheffe (Figura A.11). Aunque
los resultados son similares el subgrupo 2 no es exactamente igual, ya que el grupo de
Bachillerato se une al de Secundaria y Primaria. Esto es consecuente con la lógica de la prueba
de Scheffé, más conservadora que el resto, por lo que es más difícil detectar diferencias
significativas. De este modo, bajo el criterio de Scheffe, Bachillerato y Primaria no se consideran
diferentes respecto a la media de horas que ven la TV. Con DMS y REGWF sí se consideran
diferentes.

Figura A.12 Pruebas Post hoc con el procedimiento de Scheffe para los cinco niveles
educativos

ANOVA de 1 factor 209


Introducción al análisis estadístico con SPSS

Alguien que haya observado cuidadosamente la tabla de las comparaciones múltiples con la
prueba de Scheffe (Figura A.12) habrá visto que sus resultados no son totalmente coherentes con
lo mostrado en la tabla de los subconjuntos homogéneos. Mientras que la tabla de comparaciones
múltiples muestra que entre Bachillerato y Primaria hay diferencias significativas, en la tabla de
subconjuntos homogéneos no aparece así. Lo que ocurre aquí es que hay ajustes ligeramente
distintos sobre el tamaño de los grupos tomados para los cálculos de la significación para las
diferencias de medias (en los subgrupos homogéneos, los tamaños de los grupos se establecen a
partir de la media armónica para todos ellos, mientras que en las comparaciones múltiples por
defecto se calcula a partir de la media armónica de cada par de grupos).

Esto que vemos ocurre bastante a menudo cuando se solicitan varios procedimientos de
comparaciones múltiples, según se ha comentado debido a las diferencias asociadas a los propios
procedimientos. Por lo tanto, no es mala idea pedir varios procedimientos para detectar alguna
discrepancia en los resultados.

Por último, echaremos un vistazo al procedimiento de Games-Howell (Figura A.13).

Figura A.13 Pruebas Post hoc con el procedimiento de Games-Howell para los cinco niveles
educativos

Como señalamos anteriormente, el procedimiento de Games-Howell está pensado para cuando


no se puede asumir igualdad de varianzas entre los grupos (como ocurre de hecho en este
ejemplo según vimos antes con la prueba de Levene). Games-Howell vuelve a detectar

210 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

diferencias significativas entre Primaria y Bachillerato (sig = 0,002) y además ahora también
detecta diferencias entre los Diplomados/Universitarios y Secundaria.

Aunque con algunas diferencias, los resultados con Games-Howell muestran resultados similares
al resto de los métodos teniendo en cuenta que corrige la ausencia de igualdad de varianzas y
tiene en cuenta los tamaños de los grupos desiguales. La cuestión es ¿cuál de los métodos arroja
exactamente la situación real de la población? No se sabe. Aquí, dependiendo de lo liberal o
conservador que sea el procedimiento detectamos diferencias o no entre Primaria y Bachillerato,
por lo que se podría tomar estas diferencias con alguna cautela. Si se asumen los resultados de
Games-Howell tomaríamos ambos grupos como diferentes, además de tomar como diferentes los
grupos de Diplomado/Universitario frente a los de Secundaria. Por otro lado podemos tener
confianza en el resto de resultados a tenor de la coherencia mostrada entre las pruebas post hoc.
Por ejemplo, parece claro que en la población los grupos con nivel de estudios por debajo de
primaria o de primaria ven más la TV que el grupo de Bachillerato o los
diplomados/universitarios. Teniendo en cuenta esto, debemos pensar siempre en si los resultados
son relevantes. Hemos de considerar la significación práctica o ecológica y no basar todo el peso
en la significación estadística. Las valoraciones sobre la relevancia de los resultados dependen de
la teoría que esté detrás de los resultados.

La elección de la prueba post hoc dependerá de lo conservador o liberal que desee ser el
investigador. Si es más importante no cometer un Error tipo I que un error tipo II seremos
conservadores y nuestra elección debería ser conservadora. Si ocurre lo contrario podemos elegir
procedimientos más liberales. También debemos tener en cuenta los supuestos del ANOVA
(varianzas y normalidad) y el tamaño de los grupos. Por ejemplo, tal vez la mejor opción sea
utilizar el método de Games-Howell teniendo como tenemos varianzas desiguales y tamaños de
los grupos diferentes.

A.6 Gráficos de diferencia de medias


Para presentar los resultados de comparaciones de medias ya vimos en el capítulo 7 la utilidad de
los gráficos de barras de error. Vimos el ejemplo cuando la variable factor definía dos grupos,
ahora veremos el caso de más de dos grupos para el mismo ejemplo realizado hasta ahora.

Pulsar en el menú Gráficos... Generador de gráficos


Pulsar en el botón Restablecer
Pulsar en la pestaña Galería
Seleccionar del listado la opción Barra

Seleccionar el icono para los gráficos de Barras de error (usualmente será el


tercer icono de la segunda fila). Arrastrar el icono al tapiz superior
Arrastrar la variable estudios del listado de variables al área ¿Eje-X?
Arrastrar la variable tvhoras del listado de variables al área ¿Eje-Y?

La Figura A.14 muestra el cuadro de diálogo completado.

ANOVA de 1 factor 211


Introducción al análisis estadístico con SPSS

Figura A.14 Generador de gráficos para un gráfico de barras de error

Pulsar en Aceptar

El gráfico se muestra en la Figura A.15, mostrando de forma clara hasta qué punto las medias
parecen separarse entre los grupos. Los intervalos de confianza se calculan individualmente para
cada grupo y en su cálculo no participa ningún control sobre la tasa de error, todo lo cual hace
que el gráfico nos permita examinar de forma informal las comparaciones de las medias. Del
gráfico se desprende la sensación de que existe relación entre el nivel educativo y las horas
dedicadas a ver la TV.

212 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Figura A.15 Gráfico de barras de error para la variable Horas al día viendo la TV
dependiendo del nivel de estudios

A.7 Apéndice: comparaciones de medias con la prueba


no paramétrica
El análisis de varianza asume como hemos visto que la distribución de la variable dependiente en
cada grupo es normal y que la varianza de los grupos es igual. Si se viola alguno de estos
supuestos de forma muy acusada, una alternativa más consiste en aplicar alguna prueba
estadística que no necesite estos supuestos. Vimos que el procedimiento ANOVA de un factor
dispone de pruebas robustas cuando se viola el supuesto de igualdad de varianzas (Brown-
Forsythe y Welch), pero estos estadísticos asumen normalidad en los datos. Así que, ¿qué ocurre
si ambos supuestos, normalidad e igualdad de varianzas, no se sostienen? Para este diseño
concreto contamos con una prueba no paramétrica que no asume ninguna distribución particular
de los datos. Estas pruebas no paramétricas se pueden utilizar cuando ambos supuestos no se
sostengan o cuando el nivel de medida de la variable dependiente sea ordinal.

El lado negativo de estos métodos es que si los supuestos paramétricos se cumplen, las pruebas
no paramétricas son menos potentes (la probabilidad de detectar diferencias reales) que sus
equivalente paramétricos. Segundo, hay diseños con pruebas paramétricas que no tienen su
equivalente no paramétrico. Conviene saber que tampoco hay una frontera clara sobre cuándo
utilizar las pruebas no paramétricas. Los estadísticos tampoco se ponen muy de acuerdo. Para un

ANOVA de 1 factor 213


Introducción al análisis estadístico con SPSS

examen más minucioso sobre las pruebas no paramétricas puede consultarse las obras de Daniel
(1978), Siegel y Castellan (1988) o Wilcox (1997).

El procedimiento no paramétrico que utilizaremos es la prueba de Kruskal-Wallis que


únicamente asume que la variable dependiente tiene un nivel de medida ordinal. Se requiere al
menos un nivel de medida ordinal (es decir que hay una relación al menos de orden entre los
valores de la variable dependiente, de modo que un valor más alto que otro implica más
magnitud en la variable dependiente, cosa que lógicamente tenemos en nuestra variable
dependiente donde 15 horas viendo la TV es más que, por ejemplo, 6 horas viendo la TV).

La lógica en la que se basa este estadístico es sencilla. Si ordenamos los valores de la variable
dependiente para toda la muestra (asignándole números consecutivos de 1 a n, donde n es el
tamaño de la muestra), cabe esperar bajo la hipótesis nula (no diferencias poblacionales) que el
rango medio (técnicamente la suma de rangos corregida para el tamaño de la muestra) sea el
mismo para todos los grupos. La prueba de Kruskal-Wallis calcula los rangos, los rangos medios
para los grupos y la probabilidad de obtener rangos medios que se alejan tanto o más que los
obtenidos en nuestras muestras, si en la población no hay diferencia de medias.

Para ejecutar el procedimiento Kruskal-Wallis con el SPSS, declararemos la variable tvhoras


como la variable de contraste y la variable estudios como la variable independiente o variable de
grupos.

Pulsar en el menú Analizar... Pruebas no paramétricas... K muestras independientes


Desplazar la variable tvhoras en la caja Contrastar variables
Desplazar la variable estudios en la caja Variable de agrupación

Necesitamos definir el valor mínimo y máximo con el que están definidos los niveles educativos
en la variable DEGREE.

Pulsar en el botón Definir rango


Introducir el valor 0 en la caja Mínimo y el valor 4 en la caja Máximo

214 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Figura A.16 Cuadro de diálogo Prueba para varias muestras independientes

Pulsar en el botón Continuar


Pulsar en el botón Aceptar

Por defecto, la prueba de Kruskal-Wallis se ejecuta. La prueba no paramétrica de Kruskal-Wallis


es la más utilizada cuando se quiere comparar más de dos medias. Sin embargo, hay disponibles
dos estadísticos adicionales a Kruskal-Wallis si se desea (pueden ejecutarse los tres).

ANOVA de 1 factor 215


Introducción al análisis estadístico con SPSS

Figura A.17 Resultados de la prueba de Kruskal-Wallis

Los resultados se muestran en dos tablas (Figura A.17). En la primera de ellas podemos ver los
promedios de los rangos (recuérdese que rangos más pequeños significa menos tiempo viendo la
TV). El estadístico chi-cuadrado utilizado en la prueba Kruskal-Wallis indica que es muy poco
probable (menos de 0,0005) obtener promedios como los nuestros que se alejen tanto de la
hipótesis nula. Basándose en este resultado podemos sentirnos muy seguros de nuestra
conclusión original extraída del ANOVA de un factor: existen diferencia en las medias del
número de horas dedicadas a ver la TV dependiendo del nivel de estudios.

Como probablemente habrá adivinado el lector, haría falta ahora extraer las diferencias por pares
(las pruebas post hoc). Desafortunadamente no existe tal equivalente aquí, de modo que
tendríamos que basarnos en las pruebas post hoc del procedimiento ANOVA de un factor.

216 ANOVA de 1 factor


Introducción al análisis estadístico con SPSS

Ejercicios de resumen
Continuaremos nuestra investigación del capítulo 7 sobre el número de horas viendo la TV
(tvhoras) y el número de horas en la Web (wwwhr). Queremos ver si las medias de horas viendo
la TV o las medias en la Web difieren para el estado civil (ecivil).

1. Ejecutar un análisis exploratorio sobre las variables tvhoras, wwwhr utilizando como
factor la variable ecivil (conviene no olvidar marcar la opción Excluir casos según
pareja). ¿Alguna de estas variables se distribuye normalmente?, ¿Qué diferencias
parecen darse en relación a las medias y las desviaciones típicas dependiendo del estado
civil?, ¿Cree que el supuesto de igualdad de varianzas se cumplirá? Puede utilizar el
Generador de gráficos para sacar histogramas panelados por el estado civil.
2. Ejecutar el ANOVA de un factor para comparar las medias de horas viendo la TV y las
horas en Internet para los grupos de estado civil. Solicitar las pruebas robustas y la
prueba de homogeneidad. ¿Son las medias diferentes para los distintos grupos?
3. Ejecutar las pruebas Post hoc seleccionando una prueba liberal (por ejemplo, DMS) y
otra más conservadora (Scheffé). También puede pedirse Games-Howell si no se cumple
es supuesto de igualdad de varianzas. ¿Qué grupos difieren de otros? ¿son coherentes
todas las pruebas? Si no lo son, ¿cómo resumiría usted los resultados?
4. Utilice el Generador de gráficos para sacar un gráfico de barras de error para las dos
variables dependientes.

Opcionalmente:

1. En los ejercicios del capítulo 7 examinamos la edad a la que se tuvo el primer hijo
(edadprimerhijo) y el número de miembros en la familia (miembroshogar) entre hombres
y mujeres. ¿Esperaría encontrar diferencias en las medias de estas dos variables si
tomamos como variable factor el nivel de estudios (estudios)? ¿y con el estado civil
(ecivil)? Realice un ANOVA con estas variables examinando los supuestos e
interpretando los resultados

ANOVA de 1 factor 217

También podría gustarte