Tema 6

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

FPM II

2º curso

TEMA 6: ANOVA DE 1 FACTOR

1. INTRODUCCIÓN AL ANÁLISIS DE VARIANZA

La prueba T solo permite comparar 2 medias y trabaja sólo con una VI con 2 niveles y una
VD. El análisis de la varianza a través de Anova permite contrastar hipótesis sobre
diferencias de medias con más de 2 muestras independientes a la vez, además, permite
analizar la influencia de más VI sobre una VD.

Modelo científico: representación abstracta, conceptual, gráfica o visual de sistemas o


procesos para analizar, describir, explicar o simularlos. Permite determinar el resultado final
a partir de datos de entrada. Se considera que su creación es parte esencial de la actividad
científica. En análisis de datos, es una ecuación matemática que representa de forma
resumida la relación entre 2 o más variables; es el resumen de esa relación se basa en
parámetros.

En Anova, el modelo es una afirmación algebraica (ecuación) sobre cómo se relacionan 2


o más variables. El simple y flexible es el modelo lineal que intenta describir una VD
como resultado de la suma ponderada de varios efectos. El propósito de Anova es ayudar
a formar un modelo lineal capaz de describir los datos obtenidos en un estudio empírico.

Los eventos sometidos al estudio depende de muchos factores: cuando un sujeto tiene
una puntuación en una variable psicológica o de otro tipo, es realista pensar que los factores
que determinan la puntuación son numerosos y variados, a su vez, una investigación será
posible manipular y medir un nº reducido de las múltiples causas de un evento cualquiera.

El modelo muestral intenta describir el valor observado a una VD recurriendo a efectos


atribuibles a factores tenidos en cuenta (explícitamente incluidos en el modelo y variables
que se incluyen para estudiar su efecto en la VD) y factores no tenidos en cuenta (variables
cuyo efecto no interesa estudiar de inmediatamente o no es posible estudiarlo). Estos se
consideran errores pues son efectos sobre la VD por variables que no pueden controlarse.

➔ MODELO MATEMÁTICO DEL MODELO LINEAL

Y1: puntuación obtenida en la VD


Xi0-i2: factores tenidos en cuenta para explicar el comportamiento de VD.
β0-2: valores desconocidos (parámetros) que se necesitan estimar e informan la importancia
de cada factor de la ecuación.
Ei: efecto por lo valores no tenidos en cuenta y se supone que varían aleatoriamente.
β0Xi0: conjunto de efectos por los factores, manteniéndolos constantes. β0 (media poblacional)
Xi0 (suele ser 1).
FPM II
2º curso

Anova y la regresión son expresiones del modelo lineal general, se asemejan en que
permiten estudiar a las vez una VD (cuantitativa) y una o más VI, pero difieren en la
naturaleza de VI: en Anova, categórica y en la regresión, categórica o cuantitativa.

➔ FACTOR = VI = VARIABLE CATEGÓRICA QUE DEFINE GRUPOS

Con 1 VI usamos Anova de 1 factor, con 2 VI se usa Anova de 2 factores, pero si hay más
de 2 VI son modelos factoriales.

➔ TIPO DE ASIGNACIÓN DE UNIDADES DE ANÁLISIS A LAS CONDICIONES


- Unidades de análisis: por lo general, sujetos.
- Condiciones del estudio: condiciones definidas por los niveles del factor o la
combinación de niveles de los factores, si hubiera más de 1.
- Diseño de investigación: distintas formas de asignar unidades de análisis a las
condiciones. Normalmente se realiza aleatoriamente para que sea un muestreo
aleatorio simple para que así las posibles variables extrañas asociadas a las
características de los sujetos estén repartidas de manera similar en las condiciones.
o Distintos sujetos/intersujeto: completamente aleatorizados y las muestras independientes.
▪ Grupos aleatorios: cada unidad se selecciona aleatoriamente y se asigna un nivel.
▪ Bloques aleatorios: intenta ejercer un mayor control en las posibles variables extrañas,
para ello se modifica la forma de asignar las unidades (se separan) a las condiciones.
o Mismos sujetos o intrasujetos: muestras relacionadas, para un caso extremo de bloqueo
cada bloque se forma por 1 solo sujeto donde a todos se les aplican todos los niveles del
factor. La homogeneidad dentro del bloque es máxima (y mínima las variables extrañas)
pues todas las puntuaciones dentro del mismo bloque son del mismo sujeto.
➔ FORMAS DE ESTABLECER LOS NIVELES DEL FACTOR
- Fijar los niveles a estudiar o usar los niveles del factor: Anova o modelos de efectos
fijos. Aunque se repita el experimento, los niveles del factor son los mismos y el
propósito es valorarlos.
- Elegir al azar pocos niveles de los posibles: Anova o modelo de efectos aleatorios.
No interesan los niveles concretos, sino cualquiera de sus posibilidades, al replicar el
estudio, tanto sujetos como niveles pueden ser diferentes.
➔ CLASIFICACIÓN DE LOS MODELOS
- 1 factor: modelo completamente aleatorizado (A-CA) o aleatorizado en bloques o con
medidas repetidas (A-MR).
- 2 factores: AB-CA, AB-MR, AB-CA-MR. Siguiente tema.
FPM II
2º curso

➔ LÓGICA DE ANOVA

Al extraer una muestra aleatoria, tenemos una variabilidad intragrupo (valores distintos
dentro de cada grupo). Si cogiéramos 3 muestras aleatorias segue teniendo variabilidad
intragrupo pero también intergrupos (variabilidad entre las muestras, grupos).

La esencia del Anova recae en comparar las variabilidades para determinar la magnitud
de la variabilidad intergrupo en comparación con la intragrupal.

Media cuadrática intragrupo o media cuadrática


error o residual:

Media cuadrática intergrupos y recoge la variabilidad


debida al factor A. Depende de las medias pobl.

Si MCA Y MCE se calculan por muestras aleatorias de poblaciones con la misma media,
los valores serán parecidos. Si se calculan en muestras de poblaciones con media
diferente, el valor de MCA (refleja la variabilidad aleatoria entre las medias muestrales y la
variabilidad de que las medias poblacionales son distintas) será mayor que el de MCE.

El tamaño relativo de MCA sobre el de MCE informa del grado


de parecido entre las medias poblacionales, ese es el objetivo
de ANOVA. Se compara MCA y MCE usando →

En medias poblacionales iguales el numerados reflejará un grado de variación similar al


denominados y el coeficiente F será próximo a 1. Si las medias muestrales son distintas
el numerador será mayor que el denominador y F será mayor que 1, a más diferencias,
mayor el valor de F. Si las poblaciones son normales y las varianzas iguales, F se
aproxima a la distribución de F con J – 1 y N – J grados de libertad. Como el estadístico
F informa el parecido entre las medias y tiene distribución muestral conocida, tenemos
todo lo necesario para diseñar un contraste sobre la hipótesis de igualdad de medias.

2. ANOVA DE UN FACTOR COMPLETAMENTE ALEATORIO (A-CA)

Anova comprueba si globalmente hay diferencias entre los grupos, si las medias difieren
o no, pero no nos dice entre qué grupos son las diferencias en caso de rechazar H0.

Se pone a prueba la hipótesis de que J medias poblacionales son


iguales. Es lo mismo que afirmar que los J tratamientos tienen la misma
eficacia o que el efecto del factor es nulo para todo j. Se expresa:
FPM II
2º curso

Los supuestos que deben asumirse son:

- Independencia: cada observación es aleatoriamente seleccionada y/o asignada a los


J tratamientos. Ello significa que la puntuación de cada sujeto es independiente de la
obtenida por los demás. Su incumplimiento genera problemas graves, si hay dudas
sobre ella debe usarse la prueba de las rachas para ver si son aleatorias.
- Normalidad: J muestras aleatorias deben extraerse de J poblaciones normales. Para
comprobar si se cumple tenemos la prueba de Shapiro Wilk, gráficos Q-Q y K-S. Si las
muestras no son normales, siendo simétricas o de formas parecidas el estadístico F
ofrece resultados correctos incluso con muestras pequeñas. Es recomendable usar
muestras grandes para garantizar que el estadístico F se comportará correctamente
aunque las poblaciones se desvíen de la normalidad. Si la muestra es pequeña y de
población no normal, es preferible usar una alternativa: prueba Kruskal – Wallis.
- Homocedasticidad: las J poblaciones se extraen de muestras normales con misma
varianza. Cuando son distintas, el comportamiento de F puede ser insatisfactorio aún
con tamaños iguales. Debe contrastarse previamente con la prueba de Levene o de
Brown-Forsythe. Si no se cumple, se usa el estadístico de Welch y Brown-Forsythe
basados en la modificación de F.

Una vez se sabe que hay diferencias, hay que ver entre cuales a través de las pruebas
post-hoc que solo tiene sentido usarlas cuando se rechaza H0 de igualdad de medias y
permiten ver diferencias entre las medias de varios grupos y controlar la tasa de error.

La tasa de error es de tipo I, α, un falso positivo, rechazar una H0 que es cierta. Al realizar
múltiples pruebas de hipótesis a la vez, esta aumenta. Al realizar post-hoc, en las
diferencias entre medias hay varias comparaciones por pares que hay que explorar. Las
pruebas más usadas son: Tukey, Scheffé, Bonferroni…

Una F significativa no tiene que corresponder con un efecto importante o resultado


relevante, para ello se necesita el tamaño del efecto:
FPM II
2º curso

3. ANOVA DE UN FACTOR DE MEDIDAS REPETIDAS (A-MR)

Se usan más de 2 variables cuantitativas, normalmente se recogen más de 2 medidas de


la misma variable en los mismos sujetos / 2 o más variables distintas en los mismos
sujetos / usan bloques de sujetos igualados por algún vínculo relevante para el análisis.

Los modelos de ANOVA-MR sirven para valorar el efecto de 1 o más factores cuando al
menos uno es un factor intrasujeto o completamente aleatorizados. En ellos, cada nivel
del factor se asocia a un grupo de sujetos. En factores intrasujetos o con medidas
repetidas todos los niveles del factor se aplican a los mismos sujetos.

Las diferencias entre unidades experimentales incrementan la varianza error y ello


enmascara u oscurece el posible efecto de los tratamientos. Las diferencias individuales
pueden considerarse variables extrañas que de alteran los resultados del experimento.
Estas pueden controlarse manteniéndolas constantes, usando los mismos miembros en
todas las condiciones experimentales.

Anova-MR intenta describir cada puntuación recurriendo a los mismos 3 componentes


incluidos en el modelo completamente aleatorizado, más un componente adicional que
recoge el hecho de estar usando los mismos sujetos. La variación dentro de un mismo
tratamiento puede reflejarse por la variación entre los sujetos.

Las hipótesis igual que en el anterior, será H0 que todas las medias son iguales y H1 que
no todas las medias son iguales.

Sabemos que la variabilidad total recoge la variabilidad entre cada observación y la media
total. Se descompone en:

- La variabilidad intergrupo, la variabilidad intrasujetos por las diferentes puntuaciones


de un mismo sujeto.
- La variabilidad intersujetos, entre los diferentes sujetos.
- La variabilidad error, entre la observación y sus medias marginales.

Con ello el estadístico F se calcula como:

Los supuestos que deben cumplirse son:

- Normalidad.
- Independencia: dentro de los distintos sujetos o bloques.
- Esfericidad (igualdad de varianzas).
FPM II
2º curso

➔ ALTERNATIVAS AL ESTADÍSTICO F
- Cuando no se cumple el supuesto de normalidad se adopta la prueba de Friedman, es
una extensión de la prueba de Wilcoxon para 2 muestras relacionadas para el caso de
más de 2 muestras relacionadas.
- Si no se cumple el supuesto de esfericidad debe ajustar los grados de libertad del
estadístico F, para ello se multiplican los gl por un índice corrector llamado ε:
Calculándolo se usan 2 correcciones:
o Greenhouse – Geisser (más conservadora, a la baja).
o Huynh – Feld.

➔ TAMAÑO DEL EFECTO

Son prácticamente idénticas a Anova-CA:

➔ COMPARACIONES MÚLTIPLES

Rechazar H0 implica diferencias, pero no sabemos entre cuales. Para ello se usan las
comparaciones, la misma estrategia que para comparaciones por pares de la prueba T
para muestras relacionadas, pero corrigiendo la tasa de error por comparación mediante:
Holm, Bonferroni…

También podría gustarte