Tema 6. AnaÌ Lisis de La Varianza
Tema 6. AnaÌ Lisis de La Varianza
Tema 6. AnaÌ Lisis de La Varianza
- Análisis de la varianza
Ø Fuentes de variación.
Ø Comparaciones múltiples.
Estadística ADE/EE.
Ejemplo
El director de un concesionario de automóviles está interesado en elegir un nueva
estrategia de venta para sus empleados y estudia cinco posibles tipos de estrategia.
Para determinar cuál de las cinco es más eficiente, divide a los trabajadores
voluntarios en cinco grupos y a cada uno de ellos les propone una estrategia de
venta distinta. Al cabo de un tiempo, mediante la medición de los resultados
obtenidos, debe determinar si existe algún método mejor que los demás o si todos los
procedimientos son equiparables. Los resultados del número de ventas anuales son los
siguientes:
Estrategia Ventas
1 40 45 42 48 50 51
2 36 42 38 39 37 40
3 49 51 53 53 52 50
4 47 49 51 52 50 51
5 55 60 62 63 59 61
Estadística ADE/EE.
Contraste a resolver
Para ello repartimos aleatoriamente las unidades muestrales en 𝑘 grupos y a cada uno de
los grupos se les asigna un tipo de estrategia (tratamiento). Las muestras aleatorias de los
𝑘 grupos se suponen independientes.
En el ejemplo anterior hay un factor (estrategia de venta) con cinco niveles (tipos de
estrategia) y una variable objetivo:
Estadística ADE/EE.
Otros ejemplos:
ü Eficacia de tres métodos de enseñanza
ü Ventas mensuales medias de cinco grandes almacenes
ü Duración media de varios tipos de bombillas
ü Renta media de familias de varias comunidades autónomas
𝑋#$ ~𝑁 𝜇# , 𝜎# para 𝑗 = 1, 2, … 𝑛#
Estadística ADE/EE.
Ejemplo (cont.). Cálculos previos
'"
1
!
𝑋# = & 𝑋#$ Media muestral del nivel 𝑖-ésimo
𝑛#
$%&
'"
1 (
𝑆#( = & 𝑋#$ − 𝑋# Varianza muestral del nivel 𝑖-ésimo
𝑛# − 1
$%&
* '"
1
𝑋 = & & 𝑋#$ Media muestral total (de todos los individuos)
𝑛
#%& $%&
Estadística ADE/EE.
Comprobación de hipótesis: Homogeneidad de varianzas
*
1
𝑀= 𝑛 − 𝑘 ln(𝑀𝐶𝐷) − & 𝑛# − 1 ln 𝑆#( , donde
𝐶
#%&
* *
1 1 1 𝑆𝐶𝐷 1
𝐶 =1+ & − 𝑦 𝑀𝐶𝐷 = = & 𝑛# − 1 𝑆#(
3(𝑘 − 1) 𝑛# − 1 𝑛 − 𝑘 𝑛−𝑘 𝑛−𝑘
#%& #%&
Región crítica
(
𝑅𝐶 = [𝜒*,&,. , +∞)
Estadística ADE/EE.
Ejemplo (cont.). Homogeneidad de varianzas
Estrategia Ventas Estrategia 𝑛# 𝑥̅# 𝑆#% 𝑆#
1 40 45 42 48 50 51 1 6 46 19.6 4.42
2 36 42 38 39 37 40 2 6 38.66 4.66 2.16
3 49 51 53 53 52 50 3 6 51.33 2.66 1.63
4 47 49 51 52 50 51 4 6 50 3.2 1.78
5 55 60 62 63 59 61 5 6 60 8 2.82
1 1
&
1 Región crítica
% %
𝐶 =1+ g − = 1.08 𝑦 𝑅𝐶 = 𝜒&(",* , +∞ = 𝜒+,!.!- , +∞ = [9.487, +∞)
3(5 − 1) 6 − 1 30 − 5
#'"
& No se rechaza la hipótesis de igualdad de
𝑆𝐶𝐷 1 188.4 varianzas y podremos aplicar el
𝑀𝐶𝐷 = = g 5 m 𝑆#% = = 7.624
𝑛 − 𝑘 30 − 5 25 procedimiento ANOVA.
#'"
Estadística ADE/EE.
Procedimiento ANOVA
𝐻! : 𝜇" = 𝜇% = ⋯ = 𝜇&
]
𝐻" : Al menos una igualdad no es cier𝑡a
Ø La variabilidad de los datos “dentro” de cada muestra, que se debe sólo al azar.
Estadística ADE/EE.
La variabilidad total es
$ &!
'
6 6 𝑋!% − 𝑋
!"# %"#
y se puede descomponer como
$ &! $ $ &!
' ' '
6 6 𝑋!% − 𝑋 = 6 𝑛! 𝑋! − 𝑋 + 6 6 𝑋!% − 𝑋! (∗)
!"# %"# !"# !"# %"#
donde
* '"
(
𝑆𝐶𝑇 = & & 𝑋#$ − 𝑋 Suma de Cuadrados Total
#%& $%&
*
(
𝑆𝐶𝐸 = & 𝑛# 𝑋# − 𝑋 Suma de Cuadrados Entre Tratamientos
#%&
* '" *
(
𝑆𝐶𝐷 = & & 𝑋#$ − 𝑋# = & 𝑛# − 1 𝑆#( Suma de Cuadrados Dentro de Tratamientos
#%& $%& #%&
Estadística ADE/EE.
(∗)
=SCE =SCD
=0
& .! & .!
.! .! .!
1
g 𝑋#$ − 𝑋u# = g 𝑋#$ − 𝑛# g 𝑋#$ = 0
𝑛#
$'" $'" $'"
Estadística ADE/EE.
Las variabilidades medias se estiman mediante los cocientes:
𝑆𝐶𝑇
𝑀𝐶𝑇 = Media de cuadrados del total
𝑛−1
𝑆𝐶𝐸
𝑀𝐶𝐸 = Media de cuadrados entre tratamientos
𝑘−1
𝑆𝐶𝐷
𝑀𝐶𝐷 = Media de cuadrados dentro de tratamientos
𝑛−𝑘
Estadística ADE/EE.
*
(
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝐷 𝑆𝐶𝐸 = & 𝑛# 𝑋# − 𝑋
#%&
Debido al azar, es lógico esperar cierta variabilidad entre los sujetos dentro de sus
respectivos grupos.
Para que podamos afirmar que existen diferencias entre los distintos niveles del
tratamiento, la variabilidad entre los grupos tiene que ser significativamente mayor que
la variabilidad dentro de cada grupo. (SCE grande o, equivalentemente MCE grande)
En consecuencia, (𝑋u# − 𝑋)
u tendrá un valor próximo a 0 y SCE también. Por ello, el valor
de SCD será grande (próximo a SCT). Entonces, el cociente
𝑀𝐶𝐸
𝐹=
𝑀𝐶𝐷
Estadística ADE/EE.
Estadístico del Contraste Región Crítica
TABLA ANOVA
Fuentes de Sumas de Grados de Cuadrados
F p-valor
variación cuadrados libertad medios
Entre 𝑆𝐶𝐸 𝑀𝐶𝐸
SCE 𝑘−1 𝑀𝐶𝐸 = 𝐹= 𝑃(𝐹&(",.(& > 𝑓)
tratamientos 𝑘−1 𝑀𝐶𝐷
Dentro 𝑆𝐶𝐷
SCD 𝑛−𝑘 𝑀𝐶𝐷 =
tratamientos 𝑛−𝑘
𝑆𝐶𝑇
Total SCT 𝑛−1 𝑀𝐶𝑇 =
𝑛−1
Estadística ADE/EE.
Estrategia 𝑛# 𝑥̅# 𝑆#% 𝑆#
Ejemplo (cont.)
1 6 46 19.6 4.42
Estadística ADE/EE.
𝑆𝐶𝑇 1648.73 Estadístico del Contraste
𝑀𝐶𝑇 = = = 56.85
𝑛−1 29
𝑀𝐶𝐸 364.53
𝑆𝐶𝐸 1458.13 𝐹= = = 47.81
𝑀𝐶𝐸 = = = 364.53 𝑀𝐶𝐷 7.624
𝑘−1 4 Región crítica
𝑆𝐶𝐷 190.6
𝑀𝐶𝐷 = = = 7.624
𝑛−𝑘 25 𝑅𝐶 = 𝐹&(",.(&,* , +∞ = 𝐹+,%-,!.!" , +∞ = [4.177, +∞)
Tabla Anova
Fuentes de Sumas de Grados de Cuadrados
F p-valor
variación cuadrados libertad medios
Entre 1458.13 4 364.53 47.81 ≅0
Dentro 190.6 25 7.624
Total 1648.73 29 56.85
Podemos concluir que las distintas estrategias de venta no son igual de efectivas.
Evidentemente, la misma conclusión la obtenemos mediante el p-valor (< 𝛼).
Estadística ADE/EE.
Comparaciones múltiples
Método de Bonferroni
𝐻! : 𝜇# = 𝜇$
] ∀𝑖, 𝑗.
𝐻" : 𝜇# ≠ 𝜇$
Como sabemos que todas las varianzas poblacionales son iguales se podría utilizar
un contraste de igualdad de medias en dos poblaciones normales con varianzas
iguales (tema anterior).
Estadística ADE/EE.
El método de Bonferroni propone sustituir el estimador conjunto de la varianza 𝑆/% por
otro estimador de la varianza: 𝑀𝐶𝐷. Se mejora el contraste habitual, ya que 𝑀𝐶𝐷 utiliza
todos los datos disponibles (no sólo los correspondientes a los tratamientos 𝑖 y 𝑗).
𝑋u# − 𝑋u$
𝑇= ~𝑡.(&
1 1
𝑀𝐶𝐷 𝑛 + 𝑛
# $
Se rechaza la hipótesis nula para valores observados del estadístico tanto grandes
como pequeños. Para un nivel de significación 𝛼, la región crítica es
𝑘
donde 𝐻 es el número de comparaciones: 𝐻 =
2
Estadística ADE/EE.
𝑋!# − 𝑋!$ 𝑋!# − 𝑋!$
𝑋!# − 𝑋!$
𝑇= = =
1 1 1.59
1 1 7.624 +
𝑀𝐶𝐷 + 6 6
𝑛# 𝑛$
𝜇( 𝜇& 𝜇3 𝜇0 𝜇/
Estadística ADE/EE.
Contraste Hipótesis nula Estadístico del Contraste Región Crítica p-valor
1é k
ù
M = ê(n - k ) Ln( MCD) - å (ni - 1) Ln( Si2 ) ú , donde
Homogeneidad
Cë i =1 û
H 0 : σ 12 = σ 22 =… = σ k2 [ c k2-1,a ,+¥) P( c k2-1 > M )
de Varianzas 1 é k 1 1 ù SCD 1 k
C = 1+ êå - ú y MCD = = å (ni - 1) Si2
3(k - 1) ë i =1 ni - 1 n - k û n - k n - k i =1
MCE
Contraste
H 0 : µ1 = µ2 = ... = µk F= [ Fk -1,n - k ,a , +¥) P ( Fk -1,n - k > F )
ANOVA MCD
Xi - X j
T= (-¥, -tn-k ,a /2 H ] [tn -k ,a /2 H , +¥)
Comparaciones
H 0 : µi = µ j æ1 1ö 2 ∙ #(%!"# > |%|)
Múltiples MCD ç + ÷ æk ö
çn n ÷ H =ç ÷
para todo i, j = 1,…,k è i j ø è 2ø
Tabla ANOVA
Grados
Medias de
Fuentes de variación Sumas de cuadrados de F Región Crítica P-valor
Cuadrados
libertad
2
k
SCE MCE æ MCE ö
Entre tratamientos SCE = å ni ( X i - X ) k-1 MCE = F= [ Fk -1,n - k ,a , +¥) P ç Fk -1,n - k > ÷
i =1 k -1 MCD è MCD ø
k
SCD
Dentro tratamientos SCD = å (ni - 1) Si2 n-k MCD =
i =1 n-k
k ni 2
SCT = åå ( X ij - X ) MCT =
SCT
Total n-1
i =1 j =1
n -1
SCT=SCE+SCD
Estadística ADE/EE.