Analisis de Varianza de Un Factor
Analisis de Varianza de Un Factor
Analisis de Varianza de Un Factor
El anlisis de la varianza de un factor (ANOVA) es una metodologa para analizar la variacin entre
muestras y la variacin al interior de las mismas mediante la determinacin de varianzas. Es llamado
de una va porque analiza un variable independiente o Factor ej: Velocidad. Como tal, es un mtodo
estadstico til para comparar dos o ms medias poblacionales. El ANOVA de un criterio nos permite
poner a prueba hiptesis tales como:
H 0 1 2 3 .... k
Los supuestos en que se basa la prueba t de dos muestras que utiliza muestras independientes
son:
1
2
12 22 .
Donde el nmero de grados de libertad para el numerador es k-1 y para el denominador es k(n-1),
siendo
el nivel de significancia.
k = nmero de muestras.
Por ejemplo:
Ejemplo: Se tienen 14 empleados seleccionados al azar que se someten a
3 diferentes cursos de entrenamiento: Programa 1, Programa 2 y Programa 3.
Como los empleados se seleccionan aleatoriamente para cada programa
el diseo se denomina DISEO COMPLETAMENTE ALEATORIZADO
Se observa el aprovechamiento de los empleados en los programas:
TRATAMIENTOS
I
r=1
r=2
r=3
r=4
r=5
Medias
c=1
c=2
Programa
c=3
Programa 1 2
Programa 3
85
80
82
72
84
80
83
81
85
80
78
90
**
82
88
80.00
81.00
85.00
Xj
Media de medias o media
total
82.14
SCT
i 1
( Xij X )
j 1
o variacin entre
SCTR rj ( X j X ) 2
j 1
SCE
i 1
(X
j 1
ij
X j )2
2
En estadstica, un modelo de efectos fijos es un modelo estadstico que representa las
cantidades observadas en las variables explicativas que son tratadas como si las cantidades
fueran no-aleatorias. Esto est en contraste con el Modelo de efectos aleatorios y el Modelo
mixto en los que todas o algunas de las variables explicativas son tratadas como si se
derivaran de causas aleatorias. Tenga en cuenta que esto difiere con la definicin
bioestadstica. Los bioestadsticos se refieren a los efectos "promedio de la poblacin" y
"especficos del sujeto" como efectos "fijo" y "aleatorio" respectivamente. 1 2 3 A menudo, la
misma estructura del modelo, que suele ser una regresin lineal, puede ser tratado como
cualquiera de los tres tipos, dependiendo del punto de vista del analista, aunque puede haber
una eleccin natural en cualquier situacin dada.
En el anlisis de datos de panel, el estimador de efectos fijos (tambin conocido como el
estimador "within") se utiliza para referirse a un estimador para los coeficientes en el modelo
de regresin. Si suponemos efectos fijos, imponemos que los efectos del tiempo son
independientes para cada entidad que posiblemente est correlacionada con los regresores.
ndice
[ocultar]
1Descripcin cualitativa
2Descripcin Formal
3Igualdad de los estimadores de efectos fijos (FE) y de primeras diferencias (FD) cuando T
=2
5Referencias
Descripcin cualitativa[editar]
Estos modelos sirven para controlar la heterogeneidad inobservable, en particular cuando sta
es constante en el tiempo y est correlacionada con las variables independientes. Esta
constante puede ser eliminada de los datos a travs de la diferenciacin, por ejemplo,
teniendo una primera diferencia con la cual se eliminarn los componentes del modelo
invariables en el tiempo.
Hay dos supuestos comunes hechos sobre el efecto individual especfico, el supuesto de
efectos aleatorios y la asuncin de efectos fijos. La hiptesis de efectos aleatorios (hecho en
un modelo de efectos aleatorios), es que.los efectos especficos individuales no estn
correlacionados con las variables independientes. El supuesto del modelo de efectos fijos es
que el efecto especfico individual est correlacionado con las variables independientes. Si la
hiptesis de efectos aleatorios se mantiene, el modelo de efectos aleatorios es
ms eficiente que el modelo de efectos fijos. Sin embargo, si este supuesto no se cumple (es
decir, si la prueba de Durbin-Watson falla), el modelo de efectos aleatorios no es consistente.
Descripcin Formal[editar]
Considere el modelo lineal de efectos no observados para
observaciones y
periodos de
tiempo:
for
donde
and
en el tiempo
es
es lo no observado
es independiente de
para todos
, el modelo de
que se correlacione con la matriz
Donde
constante,
(FE)
. Dado que
es
en
). El estimador
Aunque utilicemos los trminos de anlisis de la varianza, esta prueba no hace sino
comprobar una hiptesis acerca de las medias. Tal comprobacin se realiza mediante una
descomposicin de la variabilidad total de las puntuaciones en dos componentes: varianza
experimental y varianza de error.
a) La varianza experimental es la que se debe a los efectos de la variable o variables
independientes. Esta varianza refleja las diferencias existentes entre los grupos, y son debidas
a que cada grupo presenta un nivel distinto de la variable independiente. En el caso de que
exista ms de una variable independiente (anlisis factorial de la varianza), la varianza
experimental incluye tantas partes como variables e interacciones posibles entre las variables.
Por ejemplo, en el caso en que interesaba estudiar los efectos del mtodo de lectura y la clase
social sobre el rendimiento, habra una varianza experimental debida al mtodo, otra a la clase
social y finalmente otra varianza experimental debida a la interaccin del mtodo y la clase
social.
b) La varianza de error es aquella otra cuyo origen no es posible identificar. La varianza de
error podra deberse a diferencias individuales dentro de cada muestra y no al efecto de la
variable independiente.
l anlisis de la varianza se basar en comparar la varianza experimental (variacin
intergrupos) y la varianza de error (variacin intragrupos)- Teniendo en cuenta que por azar es
posible encontrar un cierto nivel de variabilidad dentro de los grupos, si la variabilidad
intergrupos supera de forma significativa a la variabilidad observada dentro de los grupos,
podemos afirmar que los efectos de la variable independiente son importantes, y en
consecuencia, hay diferencias significativas entre ellos.
GRUPOS
A
9
7
8
4
7
6
9
6
B
5
8
4
6
7
9
7
C
8
4
5
2
6
3
5
3
[D]
En el ejemplo que nos ocupa, podramos comenzar construyendo una tabla que nos permita el
clculo de lasuma de cuadrados total (ver tabla 2). Esta suma de cuadrados total representa la
variabilidad total del grupo.
Tabla 2: Tabla para el clculo de la suma de cuadrados total
Xi
A
B
9
7
8
4
7
6
9
6
5
8
4
6
7
9
7
8
4
5
2
6
3
5
3
Xi 2
81
49
64
16
49
36
81
36
25
64
16
36
49
81
49
64
16
25
4
36
9
25
9
Xi = 138
Xi2 = 920
[D]
[D]
Calculemos ahora la suma de cuadrados intragrupo, es decir, la variacin registrada en el
interior de cada uno de los tres grupos considerados. Para un grupo A, con n A puntuaciones,
este clculo podr realizarse a partir de las diferencias entre cada puntuacin y la media del
grupo. Utilizaremos la segunda de las expresiones para el clculo de sumas de cuadrados,
que como ya se seal, resulta ms cmoda:
[D]
Para facilitar el clculo hemos construido la tabla 3.
Tabla 3: Tabla para el clculo de la suma de cuadrados intragrupos
n
Xi
Xi2
[D]
GRUPOS
A
Xi
9
7
8
4
7
6
9
6
8
56
412
7.00
Xi
81
49
64
16
49
36
81
36
B
Xi
5
8
4
6
7
9
7
7
46
320
6.57
Xi
25
64
16
36
49
81
49
C
Xi
8
4
5
2
6
3
5
3
8
36
188
4.5
Xi2
64
16
25
4
36
9
25
9
7
Cuando se rechaza la hiptesis nula de no diferencia de ms de dos medias
(H0: 1 = 2 = = k) en un anlisis de varianza surge la pregunta acerca de
cules pares de medias son diferentes, puesto que el rechazo de una hiptesis
nula con cuatro tratamientos (H0: 1 = 2 = 3 = 4), podra deberse a uno o
varios de los seis pares de diferencias que se pueden tener, esto
es: 1 2 o 1 3 o 1 4 o 2 3 o 2 4 o 3 4
Existen varios procedimientos para determinar cules son los pares de medias
que son diferentes. El primero de estos procedimientos, y el ms utilizado en el
pasado, es el de la Diferencia Significativa Mnima (DSM) de Fisher publicada
en 1935 en su libro The Design of Experiments. Este procedimiento es una
extensin de la prueba t de Student para el caso de comparacin de dos medias
con varianza ponderada.
Otros procedimientos ms recientemente usados para el mismo propsito son: la
prueba de Student-Neuman-Keuls, la prueba de Diferencia Significativa Honesta
de Tukey (DSH), la prueba del Rango mltiple de Duncan, la prueba de Dunnett
y la prueba de Scheff, entre otras. Vase Steel and Torrie y Federer.
Ejemplo 1: Una empresa tiene cuatro plantas y sabe que la planta A satisface los
requisitos impuestos por el gobierno para el control de desechos de fabricacin,
pero quisiera determinar cul es la situacin de las otras tres. Para el efecto se
toman cinco muestras de los lquidos residuales de cada una de las plantas y se
determina la cantidad de contaminantes. Los resultados del experimento aparecen
en la siguiente tabla.
Tabla 1 Cantidad de contaminantes para cuatro plantas de una empresa.
Planta
contaminantes
ni
1.65
1.72
1.50
1.35
1.60
7.84
1.568
1.70
1.85
1.46
2.05
1.80
8.86
1.772
1.40
1.75
1.38
1.65
1.55
7.73
1.546
2.10
1.95
1.65
1.88
2.00
9.58
1.916
Total: N = 20
Fuente
g.l.
Suma de cuadrados
Cuadrados
medios
Fcalculada
Ftablas
Trat.
4 1=3
"Plantas
"
Error
20 4=1
6
Total
20 1=1
9
Conclusin: Puesto que Fcalc > Fteor se rechaza H0, y se concluye que hay
diferencia significativa (al 5%) entre las cantidades medias de contaminantes
para las diferentes plantas.
La salida de computadora es:
Analysis of variance
12
En lo expuesto en este captulo se supone que el factor tratamiento del
modelo de diseo completamente aleatorizado es de efectos fijos, esto
es, los niveles del factor son seleccionados especficamente por el
experimentador ya que el inters del experimento se centra en conocer
los efectos sobre la respuesta de estos niveles particulares. En este caso
los efectos del factor
son constantes desconocidas (parmetros).
Los modelos conteniendo nicamente efectos fijos se denominan
tambin modelos de efectos fijos.
En muchas situaciones el experimentador tiene inters en un factor
con un nmero elevado de posibles niveles y para realizar el
experimento es necesario seleccionar una muestra de ellos al azar. En
este caso el factor es de efectos aleatorios y, en el modelo matemtico
del diseo los factores son variables aleatorias idnticamente
distribuidas segn la distribucin de la poblacin de niveles. Los
modelos con factores de efectos aleatorios se denominan modelos
de efectos aleatorios. En estos modelos el inters radica en medir la
Efectos Fijos
Efectos Aleatorios
Modelo
yij =
I
i=1
=0
ij
yij =
ij
parmetros desconocidos
variables aleatorias
la respuesta media
en la variabilidad
Influyen en
Objetivo
estimar
Los niveles
son predeterminados
El contraste
H0 :
= 0,
estimar
se eligen al azar
H0 :
=0
(3.33)
ij
, la Cov
= 0.
14
Para muestras de tamao diferente, el efecto de violar la suposicin de varianzas
iguales cuando se comparan dos medias puede ser sustancial. Dado que esta
misma suposicin se formula cuando se contrasta k medias, veamos como puede
detectarse la violacin de estos supuestos.
Un residuo es un estimador del error aleatorio ij. Dado que
15
Concepto y construccin
La estimacin puntual presenta un gran inconveniente: an utilizando el mejor estimador de
una caracterstica poblacional o parmetro, no slo no acertaremos en la estimacin (la
posibilidad de acertar es remota), sino que desconoceremos el grado de precisin y fiabilidad
de la misma. As, cuando estimamos que el nmero medio de horas diarias ante el televisor es
2.3 a partir de la informacin que proporcionan 1000 individuos elegidos al azar, no medimos
ni la discrepancia con el verdadero valor del parmetro (precisin), ni la probabilidad de
equivocarse en menos de una cierta cantidad (fiabilidad). La nica garanta que podemos
tener acerca de la bondad de la estimacin proviene del hecho de que se ha realizado con el
estimador ms adecuado (en ese caso, la media muestral). Para evitar esta insuficiencia de la
estimacin puntual se introducen los intervalos de confianza.
Conceptos
Un ejemplo
Tamao muestral, precisin y fiabilidad
. Un intervalo de
es un conjunto de posibles valores
del parmetro dentro del cual se encuentra el verdadero valor del mismo
con una probabilidad de 1- . Este conjunto est delimitado por dos
estadsticos: el primero de ellos, el extremo inferior del intervalo, es un
estimador por defecto del parmetro, mientras que el segundo, el extremo
superior del intervalo, es un estimador por exceso del mismo. Cuando la
muestra se concreta, el intervalo pasa de ser aleatorio a ser un intervalo en
la recta real en el que confiamos que est el verdadero valor del parmetro.
y dos
, tal que
es un intervalo de confianza aleatorio para el
a nivel 1-
si
siendo 2.7 el nmero medio de horas diarias que dedican al estudio los 1000 bachilleres
seleccionados. La figura muestra el histograma de frecuencias de estos datos.
Vamos a construir el intervalo de confianza para la media de horas diarias de estudio de los
bachilleres, , a un nivel de confianza de 0.95, esto es, con una probabilidad de
equivocarnos de 0.05.
Para abordar el problema suponemos que X, nmero de horas de estudio diarias de un
bachiller, sigue una distribucin normal de media , desconocida, y de varianza 0.81. La
suposicin de normalidad est plenamente justificada dada la naturaleza de la variable, que se
ve influida por mltiples factores; esta suposicin se ve corroborada por la forma que presenta
el histograma anterior, que no es muy diferente a la funcin de densidad de una normal. Por
otro lado, la suposicin de varianza conocida carece de fundamento (si la media es
desconocida, con ms motivo lo ser tambin la varianza), pero esta suposicin sirve para
introducir el problema sin excesivas complicaciones formales. Por tanto,