Análisis Estadístico ApéndiceANOVA
Análisis Estadístico ApéndiceANOVA
Análisis Estadístico ApéndiceANOVA
Datos
En este apéndice utilizaremos el fichero GSS2004Intro.sav.
Panorámica general
Utilizando nuevamente el fichero GSS 2004 queremos analizar si hay relación entre el nivel de
estudio y la cantidad de horas viendo la TV. Una aproximación consistiría en agrupar los años de
estudio y comparar esos grupos en horas al día viendo la TV. En la encuesta, sin embargo, existe
una variable que es Estudios que contiene cinco categorías: Menos de primaria, Primaria,
Secundaria, Bachillerato y Diplomado/Universitario. Asumiendo que nos quedamos con estas
categorías nos preguntaremos primero si hay diferencias poblacionales en las medias de horas
vistas de TV por día y los grupos de estudios. Si existen diferencias en la población, nos
interesará además ver qué grupos difieren concretamente de qué otros grupos.
A.1 Introducción
En análisis de varianza (ANOVA) es un método general para extraer conclusiones sobre
diferencia de medias poblacionales cuando dos o más grupos están implicados. La prueba T para
muestras independientes (vista en el capítulo 7) se aplica al caso particular de dos grupos. En
cambio, el ANOVA puede acomodarse a situaciones más complejas. De hecho, la prueba T para
muestras independientes puede verse como un caso particular de ANOVA (de hecho, la
significación arrojada por el estadístico T es la misma que la sacada con el estadístico F del
ANOVA).
Compararemos cinco grupos compuestos por gente con diferente nivel educacional y
evaluaremos si hay diferencias poblacionales en las medias que estos grupos dedican a ver
diariamente la TV. Antes de ejecutar el análisis examinaremos los grupos del análisis (como ya
sabemos con el menú explorar).
Ho (la hipótesis nula) en la que asumimos que las medias poblacionales son las mismas
Determinar la probabilidad de obtener unas diferencias en las medias muestrales como las
obtenidas por nosotros o mayores: para hacer esto la variación entre los grupos (variación
inter-grupos) se compara con la variación dentro de cada grupo (variación intra-grupos).
Asumiendo que en la población las medias poblacionales son las mismas (asumiendo la hipótesis
nula), la única fuente de variación entre las muestras provendría por el hecho de que los grupos
están compuestos por diferentes individuos (y no porque las poblaciones difieran en las medias).
Lo que se hace es un cociente entre las dos fuentes de variación (variación inter-grupos /
variación intra-grupos). Cuando no hay diferencia de medias poblacionales ambas variaciones
son muy parecidas, por lo que el cociente debería valer en torno a 1. Cuando la distribución de
los grupos sigue la curva normal, el cociente entre las dos fuentes de variación sigue una
distribución de probabilidad conocida (la distribución F) por lo que podemos extraer la
probabilidad de los datos con respecto a la hipótesis nula. El resultado final es la probabilidad de
encontrar unas diferencias muestrales como las obtenidas por nosotros (o mayores) si no hubiese
diferencias poblacionales. Si esta probabilidad es muy pequeña (habitualmente menor de 0,05)
concluiremos que la hipótesis nula no se sostiene y que por lo tanto hay diferencia de medias.
El supuesto de normalidad para las distribuciones de cada grupo, así como el supuesto de que las
varianzas son iguales entre todos los grupos que discutimos en el capítulo 7 son aplicables a los
modelos ANOVA. De la misma forma, las mismas reglas generales cuando se violan estos
supuestos pueden extenderse al ANOVA.
Factores
Cuando ejecutamos una prueba sobre diferencia de dos medias solamente se puede hacer una
comparación posible: el grupo 1 frente al grupo 2. Por esta razón es habitual que los grupos estén
construidos de forma que sus miembros únicamente varíen en un aspecto (por ejemplo, mujeres
frente a hombres; o fármaco A frente a fármaco B), ya que si administrásemos a los hombres el
fármaco A y a las mujeres el fármaco B sería imposible diferenciar entre los dos efectos (¿las
diferencias dependen del sexo o del fármaco administrado?).
Cuando los datos se pueden dividir en más de dos grupos, aparecen más comparaciones posibles.
Podemos comparar medias en cuatro regiones diferentes, diferencias entre niños de colegios
privados, públicos y concertados, diferencias entre cinco fármacos, etc. A la variable de
comparación en el ANOVA la llamamos factor, que es equivalente a la variable independiente en
la regresión. Las variables factor están medidas habitualmente a nivel nominal u ordinal. A la
variable de escala la llamamos variable dependiente. En los diseños ANOVAS podemos incluir
más de un factor a la vez. Cuando utilizamos una variable factor y una dependiente estamos ante
un ANOVA de un factor, si tenemos dos factores y una variable dependiente tendremos un
ANOVA de dos factores, etc. En este curso veremos el ANOVA más simple de todos: el
ANOVA de un factor.
De todas formas, si el diseño requiere la incorporación de más de un factor (por ejemplo, ver
cómo es el rendimiento escolar entre centros privados, públicos y concertados (factor 1) en niños
y niñas (factor 2)), tendremos que dirigirnos al procedimiento Univariante bajo el menú Modelo
lineal general. Otros procedimientos dentro del modelo lineal general como la opción
Multivariante, Medidas repetidas o los Modelos lineales mixtos pertenecen al módulo Modelos
avanzados.
Figura A.1 Cuadro de diálogo Explorar para la variable dependiente tvhoras y el factor
estudios
La variable dependiente es la variable de escala por la que tenemos interés en comparar sus
medias y la variable factor es la que define los grupos que queremos comparar. Dado que
compararemos diferentes grupos que forman distintos niveles educativos, designamos la variable
estudios como variable factor (variable nominal u ordinal también llamada variable
independiente). La variable dependiente es tvhoras. Aceptaremos la salida por defecto. Como
hemos visto en anteriores capítulos, se pueden elegir histogramas en lugar de los diagramas de
tallo y hojas, así como pedir estadísticos adicionales (estimadores robustos centrales, datos más
extremos y los percentiles).
La salida muestra un análisis minucioso del número de horas que dedica cada grupo de nivel de
estudios a ver la TV. Por brevedad nos detendremos únicamente en los diagramas de cajas.
Figura A.2 Diagrama de cajas del número de horas viendo la TV para distintos niveles de
estudio
La tendencia de las medianas (la línea gruesa que divide las cajas) es que disminuya a medida
que aumentamos el nivel de estudios. Todos los grupos exhiben asimetría positiva. Esto se puede
ver porque los valores atípicos y extremos están en la zona alta de la distribución. La asimetría
positiva es tanto más acusada cuanto menor es el nivel de estudios. Hay determinados individuos
con unos valores exageradísimos en la variable (piénsese que el máximo es de 24 horas, aunque
es un valor ciertamente imposible), por lo que convendría asegurarse de que han comprendido
correctamente la pregunta. Otra cosa que se desprende del diagrama de cajas es que los niveles
de estudio más bajos (menos de primaria y primaria) tienen una variabilidad intra-grupo mayor
que la de los otros tres niveles de estudio, dando probablemente al traste con el supuesto de
homogeneidad de varianzas (debe ser comprobado formalmente por la prueba de Levene, ver
más adelante). Esto puede suponer un inconveniente, más cuando los tamaños de los grupos son
dispares.
Debemos hacer notar que no parece haber un patrón entre la mediana y la amplitud intercuartil
(por ejemplo que una se incremente con la otra), lo que podría derivar en una transformación en
los datos para estabilizar las varianzas dentro de los grupos. Volveremos a este punto después de
comprobar el supuesto de igualdad de varianzas. Accederemos ahora al procedimiento ANOVA
de un factor.
Finalmente, el botón Opciones controla varias características como el manejo de los valores
perdidos, si se quiere mostrar o no los estadísticos descriptivos, un gráfico de perfil para las
medias de los grupos o la prueba de homogeneidad de las varianzas entre otras cosas.
Mostraremos los estadísticos descriptivos (aunque los habríamos examinado previamente desde
el procedimiento Explorar) y pediremos igualmente la prueba de homogeneidad de varianzas.
Los valores perdidos también se pueden tratar desde el subcuadro de diálogo Opciones. Cuando
hay más de una variable dependiente se puede optar por excluir los casos según análisis donde se
excluye el caso sólo del análisis de la variable dependiente en el que tenga el valor perdido, o
bien se puede optar por excluir el caso según lista, donde basta que un caso tenga un valor
perdido en una de las variables dependientes para que se excluya del resto de análisis en los que
participen otras variables dependientes (obviamente esta opción es más restrictiva). No importa
qué opción elijamos nosotros dado que tenemos una sola variable dependiente. El gráfico de las
medias produce un gráfico de líneas mostrando las medias para los grupos de la variable factor.
Este es un tipo de gráfico con el que se puede presentar los resultados de un ANOVA, pero no el
único. También podemos pedir un gráfico de barras de error (lo haremos luego) en tanto que
muestra más información que el gráfico de líneas.
En la primera columna hay una fila llama Inter-grupos y una fila llamada Intra-grupos. Son las
dos fuentes de variación comentadas anteriormente. La columna gl se refiere a los grados de
libertad, información relacionada con el número de grupos de la variable factor y con el número
total de observaciones. Los grados de libertad tampoco se interpretan directamente, sino que se
utilizan para calcular la varianza inter-grupos y la varianza intra-grupos. Igualmente, las suma de
cuadrados son fuentes de variación que divididos por los grados de libertad dan precisamente lo
que se conoce en el ANOVA (y en la tabla) como las medias cuadráticas. Éstas son las
estimaciones de la varianza inter-grupos y la varianza intra-grupos. Dividiendo ambas medias
cuadráticas da el estadístico F. Recuérdese que si no hay diferencia de medias poblacionales, las
medias cuadráticas (es decir, las varianzas inter-grupos e intra-grupos) serán más o menos
iguales. De modo que efectuar su cociente debería arrojar un valor próximo a 1. En la medida en
que el cociente sea mayor que 1 llevará a sospechar que no se sostiene la hipótesis de igualdad de
medias. La probabilidad o significación asociado al estadístico F precisamente nos informa de la
probabilidad de encontrar diferencias de medias muestrales como las que tenemos o más alejadas
suponiendo que en la población las medias son iguales. Esta significación, si se quiere, se puede
interpretar como el grado de compatibilidad de la hipótesis nula con los datos. Dado que tenemos
una probabilidad de 0,000 (menor de 0,0005), lo lógico será rechazar la hipótesis de igualdad de
medias y concluir que las medias poblacionales de las horas al día viendo la TV difieren entre los
distintos niveles educativos.
Figura A.6 Estadísticos descriptivos para cada grupo de estudios en la variable tvhoras
A menudo en este momento resulta de interés conocer qué grupos difieren de qué otros. Esta
información no nos la da el estadístico F ya que es un estadístico global que evalúa la hipótesis
de que todas las medias son iguales. Desde el momento en que rechacemos la hipótesis sabremos
que al menos dos medias, cualesquiera que sean, difieren, pero no sabemos nada más. Decir que
los grupos no son iguales es demasiado poco específico. De ahí que sea habitual proceder con las
comparaciones múltiples por pares, las pruebas Post Hoc que permiten ver todas las
comparaciones por pares. Primero, sin embargo debemos observar si se puede asumir el supuesto
de igualdad de varianzas.
Desafortunadamente la hipótesis nula de que las varianzas de los grupos son iguales en la
población debe ser rechazada (sig = 0,000 < 0,0005). Esto es lo que contrasta la prueba de
Levene y lo que se concluye a partir de su significación. El tamaño de las muestras es bastante
dispar, de modo que no contamos con la robustez que aporta para el estadístico F tamaños
muestrales iguales. Por esta razón podemos evaluar las pruebas robustas de Brown-Forsythe o la
prueba de Welch, que evalúan la hipótesis de igualdad de medias (es decir, la misma que la F)
pero se suponen robustas ante el incumplimiento de la homogeneidad de las varianzas. Los
resultados de estas pruebas robustas se muestran en la Figura A.8.
Ambas pruebas indican que hay diferencias significativas en las medias viendo la TV
diariamente entre los distintos niveles educativos, que es consistente con las conclusiones
extraídas por la F del ANOVA.
Estas pruebas robustas, como se muestra a pie de tabla, se distribuyen asintóticamente según la F,
lo cual significa que sus propiedades mejoran cuanto mayor sea el tamaño de la muestra. Ambas
pruebas asumen que la distribución es normal en la variable dependiente para cada grupo. Los
trabajos de simulación de Brown y Forsythe (1974) indican que las pruebas funcionan
correctamente con tamaños grupales pequeños (con 10 casos por grupo e incluso con 5 casos por
grupo).
Otra alternativa, un poco más sofisticada consiste en aplicar una transformación a la variable
dependiente con el fin de estabilizar las varianzas de los grupos. Estas transformaciones exceden
los propósitos de este manual, pero los lectores interesados pueden consultar Emerson in
Hoaglin, Mosteller y Tukey (1991) desde una perspectiva exploratoria de los datos. También
puede revisarse Box, Hunter y Huter (1978) y el trabajo pionero de Box y Cox (1964).
Una segunda alternativa podría ser proceder con un análisis no paramétrico ya que no necesita
asumir ni normalidad ni igualdad de varianzas (recuérdese que tanto Brown-Forsythe asumen
que las poblaciones son normales). Un análisis de varianza de un factor no paramétrico asume
que la variable dependiente está medida a nivel ordinal (lo que supone asignarle rangos). Cuando
se procede con el análisis no paramétrico (lo veremos al final del apéndice) las diferencias entre
los grupos siguen siendo estadísticamente significativas. Esto sirve para corroborar nuestros
resultados. El problema de esta segunda aproximación es que no se dispone de procedimientos no
paramétricos para todos los diseños ANOVAS.
En las situaciones en las que no haya pruebas robustas ni el equivalente no paramétrico, muchos
investigadores aceptan los resultados del ANOVA advirtiendo que los niveles de probabilidad
pueden no ser demasiado exactos. En nuestro ejemplo, dado que el valor de significación es
menor de 0,0005, incluso aunque existan ciertos desajustes tendrían que ser de considerable
magnitud para que los resultados no fuesen estadísticamente significativos (al 0,05). Mientras
estas aproximaciones no son enteramente satisfactorias y entre los propios estadísticos pueden
discrepar sobre lo que podría ser más conveniente ante una determinada situación, las guías para
afrontar el problema suelen ser parecidas.
Habiendo concluido que hay diferencias en el tiempo medio que dedican los diferentes niveles
educativos a ver diariamente la TV, trataremos de analizar qué grupos difieren de qué otros.
Nosotros compararemos las pruebas post hoc desde la perspectiva de cuáles son más liberales o
más conservadoras teniendo en cuenta el control sobre el Error tipo I. Aplicaremos más de una
prueba sobre nuestros datos. Hay mucha literatura al respecto (y varios libros) que examinan las
pruebas post hoc (también llamados comparaciones múltiples). Algunos libros (Toothaker, 1991)
resume estudios de simulación que comparan varias pruebas sobre la potencia de contraste de las
pruebas post-hoc, así como su rendimiento bajo diferentes escenarios de patrones de medias y
violaciones de la homogeneidad.
La existencia de numerosos procedimientos post hoc sugiere que no hay una única aproximación
con la que los estadísticos se manifieste de acuerdo sobre cuál es óptima en todas las situaciones.
En algunos campos de investigación, las publicaciones requieren métodos post hoc particulares,
simplificando así la decisión del investigador. Para más detalles puede consultarse un libro breve
de Klockars y Sax (1986), Toothaker (1991) o Hsu (1996). También para tomar decisiones sobre
qué prueba post hoc utilizar puede consultarse Tukey (1991) o Milliken y Johnson (1984).
Abajo presentamos las pruebas disponibles en el SPSS, aproximadamente descritas desde las más
liberales (más potencia pero más falsos positivos o menos control sobre el error tipo I) a las más
conservadoras (menos falsos positivos pero menos potencia) y también mencionamos algunos
diseños adecuados cuando se incumple la prueba de homogeneidad de varianzas.
DMS
El procedimiento DMS o diferencia mínima significativa aplica una prueba T a todos los posibles
pares de medias. Así que no se hace ningún ajuste sobre el control del Error tipo I. El argumento
es que dado que se ha contrastado con una prueba global la hipótesis de igualdad de medias
seleccionando un nivel de significación de 0,05, no es necesario establecer ningún control
adicional Esta es la prueba post hoc más liberal de todas.
Bonferroni y Sidak
La prueba de Bonferroni (también conocida como el procedimiento de Dunn) y la de Sidak
(también conocida como Dunn-Sidak) efectúan a cada prueba una corrección estricta en el nivel
de significación para evitar que la probabilidad de obtener un falso positivo no exceda un valor
especificado (normalmente 0,05). Ambos están basados en desigualdades que relacionan la
probabilidad de obtener un falso positivo individual con la probabilidad de obtener uno o más
falsos positivos en un conjunto de contrastes independientes. Por ejemplo, la prueba de
Bonferroni se basa en dividir el nivel de significación original (es decir, 0,05 habitualmente)
entre el conjunto de todas las comparaciones por pares ((J*(J – 1) / 2). Por ejemplo, para cinco
medias (10 comparaciones posibles) para cada comparación entre dos medias se corrige la
significación dividiéndola entre 10 (tenemos pues un nivel de significación de 0,005, de modo
que si es menor se rechazará la hipótesis de igualdad de medias).
Tukey (b)
La prueba Tukey (b) es un test que combina el test de Tukey (ver siguiente prueba) y la prueba
SNK produciendo un resultado que cae entre las dos.
Tukey
La prueba DHS de Tukey (diferencias honestamente significativas, llamada también prueba de
Tukey) controla los falsos positivos por familia de comparaciones. Esto significa que si estamos
evaluando a un nivel de 0,05 cuando se realizan todas las comparaciones, la probabilidad de
obtener uno o más falsos positivos sigue siendo 0,05. Es más conservador que Duncan o SNK. Si
todas las comparaciones por pares resultan de interés, como usualmente es el caso, la prueba de
Tukey es más potente que las pruebas de Bonferroni o Sidak.
Scheffe
El método de Scheffe también controla la tasa de error por familia de comparaciones. Corrige el
error no solo para todas las comparaciones posibles dos a dos con los grupos, sino todas las
posibles comparaciones que un investigador pudiera ocurrírsele. De este modo, se convierte en la
prueba más conservadora de todas (la probabilidad de obtener un falso positivo es la menor de
todas), pero consecuentemente tiene menos potencia.
Waller-Duncan
La prueba de Waller-Duncan adopta una aproximación bayesiana, de forma que el nivel de
significación se basa en el tamaño del estadístico F con el fin de ser sensible a las diferencias
entre los grupos asociadas con su tamaño muestral. Además, se puede especificar la ratio entre el
Error tipo I y el Error tipo II. Esta característica permite manejar qué error tiene más importancia
previo a hacer las comparaciones de medias.
Como aproximación algunos analistas ejecutan una prueba liberal (por ejemplo, DMS) y una
conservadora (por ejemplo, Scheffe). Cuando ambas coinciden en las comparaciones es un signo
de solidez en los resultados, mientras que discrepancias entre ambas tienden a considerarse como
resultados tentativos, que deben interpretarse con cautela.
Para ilustrar las comparaciones múltiples para los cinco niveles de estudio escogeremos tres
pruebas: una liberal (DMS), otra no demasiado liberal ni conservadora (REGWT) y otra
Pulsar en Continuar
Pulsar en Aceptar
Por defecto, estos estadísticos toman un nivel de significación de 0,05. Si lo desea el usuario
puede utilizar un valor de significación diferente (por ejemplo, 0,01) que especificará en el
subcuadro de diálogo Post hoc (abajo a la izquierda, ver Figura A.9).
Los resultados muestran la tabla del ANOVA, las pruebas robustas para las diferencia de medias,
los estadísticos descriptivos y la prueba de homogeneidad de varianzas que ya hemos comentado.
Iremos directamente a las Pruebas Post hoc (tabla Comparaciones múltiples).
Figura A.10 Pruebas Post hoc con el procedimiento DMS para los cinco niveles educativos
En las filas se puede ver que aparecen todas las comparaciones por partes posibles. Por ejemplo,
en lo alto de la tabla tenemos el grupo “Menos de primaria” comparado con los otros cuatro
grupos (Primaria, Secundaria, Bachillerato y Diplomado/Universitario). La columna Diferencia
de medias (I – J) contiene las diferencias de medias muestrales. El grupo cuyo nivel de estudios
es “Menos de primaria” ve de media 1,54 horas más la TV diariamente que los de “Primaria”,
1,96 horas más de los de “Secundaria”, etc. Si esta diferencia es estadísticamente significativa, se
decir, si puede extrapolarse a la población, aparecen seguidas de un asterisco (*).
Así que ya sabemos que el nivel de estudios “Menos de primaria” difiere significativamente del
resto en horas de TV vistas diariamente (de hecho, este grupo ve más la TV que cualquier otro
nivel educativo).
Obsérvese que cada comparación aparece dos veces en la tabla (tenemos Primaria – Secundaria y
Secundaria – Primaria). Aunque esto hace que se dupliquen los resultados en la tabla, la
diferencia de medias y los intervalos de confianza cambian de signo según sea uno u otro el que
aparece en primer o segundo lugar en la resta.
Resumiendo la tabla de la Figura A.10 podemos decir que el grupo con un nivel educativo más
bajo (“Menos de primaria”) difiere en la media dedicada a ver la TV con el resto de niveles
educativos. De éstos, los de Primaria difieren de los de Bachillerato y Diplomado/Universitario,
pero no con los de Secundaria. Los tres niveles educativos más altos no difieren entre sí en sus
medias. Dado que el procedimiento DSM es el más liberal de todos comprobaremos con otra
prueba si se replican los resultados. La tabla A.11 muestra estas mismas comparaciones pero con
el procedimiento REGWF.
Figura A.11 Tabla de grupos homogéneos con los procedimientos de Scheffe y REGWF
para los cinco niveles educativos
Los resultados para el procedimiento REGWF no se presentan con el mismo formato que la
prueba DMS. Esto se debe únicamente a que se basan en métodos diferentes (por ejemplo,
REGWF puede dejar de comparar medias cuando detecta que dos no difieren, por lo que no da
información sobre todas las comparaciones posibles). Como este método no calcula todos los
errores típicos ni todos los intervalos de confianza para la diferencia de métodos, en lugar de
dejar celdas vacías con el formato anterior de tabla, lo que hace es presentar subconjuntos
homogéneos entre sí. Un subconjunto homogéneo contiene un grupo de medias que no difieren
entre sí significativamente (el valor sig. se muestra al final de la tabla). Dependiendo del
procedimiento elegido, el visor de resultados muestra las comparaciones múltiples como en la
tabla de arriba (DMS), como lo hace para REGWF o en ambos formatos (por ejemplo, Scheffe).
Atendiendo a los resultados de REGWF, podemos ver tres grupos homogéneos de medias (tres
columnas). La primera se compone los niveles educativos Diplomado/Universitario, Bachillerato
y Secundaria. No difieren entre ellos, pero sí difieren del resto de los grupos. Este resultado es
consistente con la prueba DMS. El segundo grupo se compone de Secundaria y Primaria (entre
ellos no difieren significativamente). También es consistente este resultado con DMS. El último
grupo únicamente contiene a los de Menos de primaria. Esto se debe a que este grupo difiere
significativamente del resto de los grupos en el número de horas viendo la TV (también
consistente este resultado con la prueba DMS). Por lo tanto, esta tabla de subgrupos homogéneos
presenta qué grupos no difieren entre sí (y por deducción cuáles sí difieren entre sí). Tal vez sea
más cómodo de interpretar que la tabla anterior.
La tabla de subgrupos homogéneos también muestra la prueba de Scheffe (Figura A.11). Aunque
los resultados son similares el subgrupo 2 no es exactamente igual, ya que el grupo de
Bachillerato se une al de Secundaria y Primaria. Esto es consecuente con la lógica de la prueba
de Scheffé, más conservadora que el resto, por lo que es más difícil detectar diferencias
significativas. De este modo, bajo el criterio de Scheffe, Bachillerato y Primaria no se consideran
diferentes respecto a la media de horas que ven la TV. Con DMS y REGWF sí se consideran
diferentes.
Figura A.12 Pruebas Post hoc con el procedimiento de Scheffe para los cinco niveles
educativos
Alguien que haya observado cuidadosamente la tabla de las comparaciones múltiples con la
prueba de Scheffe (Figura A.12) habrá visto que sus resultados no son totalmente coherentes con
lo mostrado en la tabla de los subconjuntos homogéneos. Mientras que la tabla de comparaciones
múltiples muestra que entre Bachillerato y Primaria hay diferencias significativas, en la tabla de
subconjuntos homogéneos no aparece así. Lo que ocurre aquí es que hay ajustes ligeramente
distintos sobre el tamaño de los grupos tomados para los cálculos de la significación para las
diferencias de medias (en los subgrupos homogéneos, los tamaños de los grupos se establecen a
partir de la media armónica para todos ellos, mientras que en las comparaciones múltiples por
defecto se calcula a partir de la media armónica de cada par de grupos).
Esto que vemos ocurre bastante a menudo cuando se solicitan varios procedimientos de
comparaciones múltiples, según se ha comentado debido a las diferencias asociadas a los propios
procedimientos. Por lo tanto, no es mala idea pedir varios procedimientos para detectar alguna
discrepancia en los resultados.
Figura A.13 Pruebas Post hoc con el procedimiento de Games-Howell para los cinco niveles
educativos
diferencias significativas entre Primaria y Bachillerato (sig = 0,002) y además ahora también
detecta diferencias entre los Diplomados/Universitarios y Secundaria.
Aunque con algunas diferencias, los resultados con Games-Howell muestran resultados similares
al resto de los métodos teniendo en cuenta que corrige la ausencia de igualdad de varianzas y
tiene en cuenta los tamaños de los grupos desiguales. La cuestión es ¿cuál de los métodos arroja
exactamente la situación real de la población? No se sabe. Aquí, dependiendo de lo liberal o
conservador que sea el procedimiento detectamos diferencias o no entre Primaria y Bachillerato,
por lo que se podría tomar estas diferencias con alguna cautela. Si se asumen los resultados de
Games-Howell tomaríamos ambos grupos como diferentes, además de tomar como diferentes los
grupos de Diplomado/Universitario frente a los de Secundaria. Por otro lado podemos tener
confianza en el resto de resultados a tenor de la coherencia mostrada entre las pruebas post hoc.
Por ejemplo, parece claro que en la población los grupos con nivel de estudios por debajo de
primaria o de primaria ven más la TV que el grupo de Bachillerato o los
diplomados/universitarios. Teniendo en cuenta esto, debemos pensar siempre en si los resultados
son relevantes. Hemos de considerar la significación práctica o ecológica y no basar todo el peso
en la significación estadística. Las valoraciones sobre la relevancia de los resultados dependen de
la teoría que esté detrás de los resultados.
La elección de la prueba post hoc dependerá de lo conservador o liberal que desee ser el
investigador. Si es más importante no cometer un Error tipo I que un error tipo II seremos
conservadores y nuestra elección debería ser conservadora. Si ocurre lo contrario podemos elegir
procedimientos más liberales. También debemos tener en cuenta los supuestos del ANOVA
(varianzas y normalidad) y el tamaño de los grupos. Por ejemplo, tal vez la mejor opción sea
utilizar el método de Games-Howell teniendo como tenemos varianzas desiguales y tamaños de
los grupos diferentes.
Pulsar en Aceptar
El gráfico se muestra en la Figura A.15, mostrando de forma clara hasta qué punto las medias
parecen separarse entre los grupos. Los intervalos de confianza se calculan individualmente para
cada grupo y en su cálculo no participa ningún control sobre la tasa de error, todo lo cual hace
que el gráfico nos permita examinar de forma informal las comparaciones de las medias. Del
gráfico se desprende la sensación de que existe relación entre el nivel educativo y las horas
dedicadas a ver la TV.
Figura A.15 Gráfico de barras de error para la variable Horas al día viendo la TV
dependiendo del nivel de estudios
El lado negativo de estos métodos es que si los supuestos paramétricos se cumplen, las pruebas
no paramétricas son menos potentes (la probabilidad de detectar diferencias reales) que sus
equivalente paramétricos. Segundo, hay diseños con pruebas paramétricas que no tienen su
equivalente no paramétrico. Conviene saber que tampoco hay una frontera clara sobre cuándo
utilizar las pruebas no paramétricas. Los estadísticos tampoco se ponen muy de acuerdo. Para un
examen más minucioso sobre las pruebas no paramétricas puede consultarse las obras de Daniel
(1978), Siegel y Castellan (1988) o Wilcox (1997).
La lógica en la que se basa este estadístico es sencilla. Si ordenamos los valores de la variable
dependiente para toda la muestra (asignándole números consecutivos de 1 a n, donde n es el
tamaño de la muestra), cabe esperar bajo la hipótesis nula (no diferencias poblacionales) que el
rango medio (técnicamente la suma de rangos corregida para el tamaño de la muestra) sea el
mismo para todos los grupos. La prueba de Kruskal-Wallis calcula los rangos, los rangos medios
para los grupos y la probabilidad de obtener rangos medios que se alejan tanto o más que los
obtenidos en nuestras muestras, si en la población no hay diferencia de medias.
Necesitamos definir el valor mínimo y máximo con el que están definidos los niveles educativos
en la variable DEGREE.
Los resultados se muestran en dos tablas (Figura A.17). En la primera de ellas podemos ver los
promedios de los rangos (recuérdese que rangos más pequeños significa menos tiempo viendo la
TV). El estadístico chi-cuadrado utilizado en la prueba Kruskal-Wallis indica que es muy poco
probable (menos de 0,0005) obtener promedios como los nuestros que se alejen tanto de la
hipótesis nula. Basándose en este resultado podemos sentirnos muy seguros de nuestra
conclusión original extraída del ANOVA de un factor: existen diferencia en las medias del
número de horas dedicadas a ver la TV dependiendo del nivel de estudios.
Como probablemente habrá adivinado el lector, haría falta ahora extraer las diferencias por pares
(las pruebas post hoc). Desafortunadamente no existe tal equivalente aquí, de modo que
tendríamos que basarnos en las pruebas post hoc del procedimiento ANOVA de un factor.
Ejercicios de resumen
Continuaremos nuestra investigación del capítulo 7 sobre el número de horas viendo la TV
(tvhoras) y el número de horas en la Web (wwwhr). Queremos ver si las medias de horas viendo
la TV o las medias en la Web difieren para el estado civil (ecivil).
1. Ejecutar un análisis exploratorio sobre las variables tvhoras, wwwhr utilizando como
factor la variable ecivil (conviene no olvidar marcar la opción Excluir casos según
pareja). ¿Alguna de estas variables se distribuye normalmente?, ¿Qué diferencias
parecen darse en relación a las medias y las desviaciones típicas dependiendo del estado
civil?, ¿Cree que el supuesto de igualdad de varianzas se cumplirá? Puede utilizar el
Generador de gráficos para sacar histogramas panelados por el estado civil.
2. Ejecutar el ANOVA de un factor para comparar las medias de horas viendo la TV y las
horas en Internet para los grupos de estado civil. Solicitar las pruebas robustas y la
prueba de homogeneidad. ¿Son las medias diferentes para los distintos grupos?
3. Ejecutar las pruebas Post hoc seleccionando una prueba liberal (por ejemplo, DMS) y
otra más conservadora (Scheffé). También puede pedirse Games-Howell si no se cumple
es supuesto de igualdad de varianzas. ¿Qué grupos difieren de otros? ¿son coherentes
todas las pruebas? Si no lo son, ¿cómo resumiría usted los resultados?
4. Utilice el Generador de gráficos para sacar un gráfico de barras de error para las dos
variables dependientes.
Opcionalmente:
1. En los ejercicios del capítulo 7 examinamos la edad a la que se tuvo el primer hijo
(edadprimerhijo) y el número de miembros en la familia (miembroshogar) entre hombres
y mujeres. ¿Esperaría encontrar diferencias en las medias de estas dos variables si
tomamos como variable factor el nivel de estudios (estudios)? ¿y con el estado civil
(ecivil)? Realice un ANOVA con estas variables examinando los supuestos e
interpretando los resultados