Tema 6. AnaÌ Lisis de La Varianza

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 19

Tema 6.

- Análisis de la varianza

Ø Formulación de hipótesis en ANOVA de un factor.

Ø Fuentes de variación.

Ø Verificación de la hipótesis: Homogeneidad de varianzas.

Ø Contraste de hipótesis en ANOVA de un factor.

Ø Comparaciones múltiples.

Estadística ADE/EE.
Ejemplo
El director de un concesionario de automóviles está interesado en elegir un nueva
estrategia de venta para sus empleados y estudia cinco posibles tipos de estrategia.
Para determinar cuál de las cinco es más eficiente, divide a los trabajadores
voluntarios en cinco grupos y a cada uno de ellos les propone una estrategia de
venta distinta. Al cabo de un tiempo, mediante la medición de los resultados
obtenidos, debe determinar si existe algún método mejor que los demás o si todos los
procedimientos son equiparables. Los resultados del número de ventas anuales son los
siguientes:

Estrategia Ventas
1 40 45 42 48 50 51
2 36 42 38 39 37 40
3 49 51 53 53 52 50
4 47 49 51 52 50 51
5 55 60 62 63 59 61

Estadística ADE/EE.
Contraste a resolver

𝐻! : No existen diferencias entre los 𝑘 niveles tipos de estrategia


!
𝐻" : La hipótesis nula no es cier𝑡a (al menos dos estrategias son diferentes)

El objetivo es contrastar si existen diferencias de resultados entre los 𝑘 (𝑘 = 5) tipos de


estrategia (niveles del factor “estrategia”).

Para ello repartimos aleatoriamente las unidades muestrales en 𝑘 grupos y a cada uno de
los grupos se les asigna un tipo de estrategia (tratamiento). Las muestras aleatorias de los
𝑘 grupos se suponen independientes.

En el ejemplo anterior hay un factor (estrategia de venta) con cinco niveles (tipos de
estrategia) y una variable objetivo:

𝑋𝑖𝑗 = Número de ventas anuales del individuo j con la estrategia i

Estadística ADE/EE.
Otros ejemplos:
ü Eficacia de tres métodos de enseñanza
ü Ventas mensuales medias de cinco grandes almacenes
ü Duración media de varios tipos de bombillas
ü Renta media de familias de varias comunidades autónomas

Hipótesis iniciales para poder aplicar un procedimiento ANOVA (Analysis of Variance)

1. Independencia de los valores obtenidos, es decir, los individuos de cada uno de


los niveles o tipos de estrategia han de ser elegidos aleatoriamente.

2. Normalidad de la respuesta para cada nivel del factor, esto significa

𝑋#$ ~𝑁 𝜇# , 𝜎# para 𝑗 = 1, 2, … 𝑛#

donde 𝜇𝑖 = 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟


𝑛𝑖 = 𝑡𝑎𝑚𝑎ñ𝑜 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 𝑑𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 𝑖 − é𝑠𝑖𝑚𝑜 𝑑𝑒𝑙 𝑓𝑎𝑐𝑡𝑜𝑟

3. Homogeneidad de las varianzas: 𝜎"% = 𝜎%% = ⋯ = 𝜎&%

Varianzas iguales para todos los niveles del factor.

Estadística ADE/EE.
Ejemplo (cont.). Cálculos previos
'"
1
!
𝑋# = & 𝑋#$ Media muestral del nivel 𝑖-ésimo
𝑛#
$%&
'"
1 (
𝑆#( = & 𝑋#$ − 𝑋# Varianza muestral del nivel 𝑖-ésimo
𝑛# − 1
$%&

* '"
1
𝑋 = & & 𝑋#$ Media muestral total (de todos los individuos)
𝑛
#%& $%&

𝑛 = 𝑛& + 𝑛( + ⋯ + 𝑛* Tamaño muestral total

Para los datos del ejemplo:


Estrategia 𝑛# 𝑥̅# 𝑆#( 𝑆#
1 6 46 19.6 4.42
2 6 38.66 4.66 2.16
3 6 51.33 2.66 1.63
4 6 50 3.2 1.78
5 6 60 8 2.82

Estadística ADE/EE.
Comprobación de hipótesis: Homogeneidad de varianzas

𝐻+ : 𝜎&( = 𝜎(( = ⋯ = 𝜎*(


.
𝐻& : Al menos una igualdad no es cier𝑡a

Estadístico del Contraste:

*
1
𝑀= 𝑛 − 𝑘 ln(𝑀𝐶𝐷) − & 𝑛# − 1 ln 𝑆#( , donde
𝐶
#%&

* *
1 1 1 𝑆𝐶𝐷 1
𝐶 =1+ & − 𝑦 𝑀𝐶𝐷 = = & 𝑛# − 1 𝑆#(
3(𝑘 − 1) 𝑛# − 1 𝑛 − 𝑘 𝑛−𝑘 𝑛−𝑘
#%& #%&

Región crítica
(
𝑅𝐶 = [𝜒*,&,. , +∞)

Estadística ADE/EE.
Ejemplo (cont.). Homogeneidad de varianzas
Estrategia Ventas Estrategia 𝑛# 𝑥̅# 𝑆#% 𝑆#
1 40 45 42 48 50 51 1 6 46 19.6 4.42
2 36 42 38 39 37 40 2 6 38.66 4.66 2.16
3 49 51 53 53 52 50 3 6 51.33 2.66 1.63
4 47 49 51 52 50 51 4 6 50 3.2 1.78
5 55 60 62 63 59 61 5 6 60 8 2.82

𝐻! : 𝜎"% = 𝜎%% = ⋯ = 𝜎&%


]
𝐻" : Al menos una igualdad no es cier𝑡a
Estadístico del Contraste:
&
1
𝑀= 30 − 5 ln(7.624) − g 5 ln 𝑆#% = 6.565
1.08
#'"

1 1
&
1 Región crítica
% %
𝐶 =1+ g − = 1.08 𝑦 𝑅𝐶 = 𝜒&(",* , +∞ = 𝜒+,!.!- , +∞ = [9.487, +∞)
3(5 − 1) 6 − 1 30 − 5
#'"
& No se rechaza la hipótesis de igualdad de
𝑆𝐶𝐷 1 188.4 varianzas y podremos aplicar el
𝑀𝐶𝐷 = = g 5 m 𝑆#% = = 7.624
𝑛 − 𝑘 30 − 5 25 procedimiento ANOVA.
#'"

Estadística ADE/EE.
Procedimiento ANOVA

𝐻! : 𝜇" = 𝜇% = ⋯ = 𝜇&
]
𝐻" : Al menos una igualdad no es cier𝑡a

La variabilidad total de los datos es suma de dos variabilidades:

Ø La variabilidad de los datos “dentro” de cada muestra, que se debe sólo al azar.

Ø La variabilidad de los datos “entre” las muestras, que se debe al azar si la


hipótesis nula es cierta; mientras que si no lo es, se debe a que las muestras
provienen de poblaciones con medias diferentes.

𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝐷

Estadística ADE/EE.
La variabilidad total es
$ &!
'
6 6 𝑋!% − 𝑋
!"# %"#
y se puede descomponer como

$ &! $ $ &!
' ' '
6 6 𝑋!% − 𝑋 = 6 𝑛! 𝑋! − 𝑋 + 6 6 𝑋!% − 𝑋! (∗)
!"# %"# !"# !"# %"#

donde
* '"
(
𝑆𝐶𝑇 = & & 𝑋#$ − 𝑋 Suma de Cuadrados Total
#%& $%&
*
(
𝑆𝐶𝐸 = & 𝑛# 𝑋# − 𝑋 Suma de Cuadrados Entre Tratamientos
#%&
* '" *
(
𝑆𝐶𝐷 = & & 𝑋#$ − 𝑋# = & 𝑛# − 1 𝑆#( Suma de Cuadrados Dentro de Tratamientos
#%& $%& #%&

Estadística ADE/EE.
(∗)

𝑋#$ − 𝑋u = 𝑋#$ − 𝑋u# + 𝑋u# − 𝑋u = 𝑋u# − 𝑋u + 𝑋#$ − 𝑋u#


Cuanto mayor sea, con
mayor razón rechazaremos 𝐻!
& .! & .! & .! & .!
% %
⇒ 𝑆𝐶𝑇 = g g 𝑋#$ − 𝑋u = g g 𝑋u# − 𝑋u % + g g 𝑋#$ − 𝑋u# − 2 g g 𝑋u# − 𝑋u 𝑋#$ − 𝑋u#
#'" $'" #'" $'" #'" $'" #'" $'"
=0
& & .!
%
= g 𝑛# 𝑋u# − 𝑋u % + g g 𝑋#$ − 𝑋u# = 𝑆𝐶𝐸 + 𝑆𝐶𝐷
#'" #'" $'"

=SCE =SCD
=0
& .! & .!

g g 𝑋u# − 𝑋u 𝑋#$ − 𝑋u# = g 𝑋u# − 𝑋u g 𝑋#$ − 𝑋u# = 0


#'" $'" #'" $'"

.! .! .!
1
g 𝑋#$ − 𝑋u# = g 𝑋#$ − 𝑛# g 𝑋#$ = 0
𝑛#
$'" $'" $'"

Estadística ADE/EE.
Las variabilidades medias se estiman mediante los cocientes:

𝑆𝐶𝑇
𝑀𝐶𝑇 = Media de cuadrados del total
𝑛−1

𝑆𝐶𝐸
𝑀𝐶𝐸 = Media de cuadrados entre tratamientos
𝑘−1

𝑆𝐶𝐷
𝑀𝐶𝐷 = Media de cuadrados dentro de tratamientos
𝑛−𝑘

Estadística ADE/EE.
*
(
𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝐷 𝑆𝐶𝐸 = & 𝑛# 𝑋# − 𝑋
#%&

Debido al azar, es lógico esperar cierta variabilidad entre los sujetos dentro de sus
respectivos grupos.

Para que podamos afirmar que existen diferencias entre los distintos niveles del
tratamiento, la variabilidad entre los grupos tiene que ser significativamente mayor que
la variabilidad dentro de cada grupo. (SCE grande o, equivalentemente MCE grande)

Si la hipótesis nula es cierta (igualdad de medias), las medias 𝜇𝑖 son aproximadamente


iguales a 𝜇 y, por tanto, 𝑥 estará próxima a 𝑥# .

En consecuencia, (𝑋u# − 𝑋)
u tendrá un valor próximo a 0 y SCE también. Por ello, el valor
de SCD será grande (próximo a SCT). Entonces, el cociente
𝑀𝐶𝐸
𝐹=
𝑀𝐶𝐷

tomará valores pequeños (próximos a 0).

Estadística ADE/EE.
Estadístico del Contraste Región Crítica

𝑀𝐶𝐸 z𝐹&(",.(&,* , +∞)


𝐹= ~𝐹
𝑀𝐶𝐷 &(",.(&
p-valor
𝑝 − 𝑣𝑎𝑙𝑜𝑟 = 𝑃(𝐹&(",.(& > f) (f es el valor observado
del estadístico F)

TABLA ANOVA
Fuentes de Sumas de Grados de Cuadrados
F p-valor
variación cuadrados libertad medios
Entre 𝑆𝐶𝐸 𝑀𝐶𝐸
SCE 𝑘−1 𝑀𝐶𝐸 = 𝐹= 𝑃(𝐹&(",.(& > 𝑓)
tratamientos 𝑘−1 𝑀𝐶𝐷
Dentro 𝑆𝐶𝐷
SCD 𝑛−𝑘 𝑀𝐶𝐷 =
tratamientos 𝑛−𝑘
𝑆𝐶𝑇
Total SCT 𝑛−1 𝑀𝐶𝑇 =
𝑛−1

Estadística ADE/EE.
Estrategia 𝑛# 𝑥̅# 𝑆#% 𝑆#
Ejemplo (cont.)
1 6 46 19.6 4.42

𝑥̅ = 49.2 2 6 38.66 4.66 2.16


3 6 51.33 2.66 1.63
4 6 50 3.2 1.78
5 6 60 8 2.82
* /
SCE = & 𝑛# 𝑥̅# − 𝑥̅ ( = & 6 𝑥̅# − 𝑥̅ ( = 6 46 − 49.2 ( + 6 38.66 − 49.2 ( +
#%& #%&

+ 6 51.33 − 49.2 ( + 6 50 − 49.2 ( + 6 60 − 49.2 ( = 1458.13

𝑆𝐶𝐷 = 𝑛 − 𝑘 _ 𝑀𝐶𝐷 = 30 − 5 ⋅ 7.624 = 25 ⋅ 7.624 = 190.6

𝑆𝐶𝑇 = 𝑆𝐶𝐸 + 𝑆𝐶𝐷 = 1458.13 + 190.6 = 1648.73

Estadística ADE/EE.
𝑆𝐶𝑇 1648.73 Estadístico del Contraste
𝑀𝐶𝑇 = = = 56.85
𝑛−1 29
𝑀𝐶𝐸 364.53
𝑆𝐶𝐸 1458.13 𝐹= = = 47.81
𝑀𝐶𝐸 = = = 364.53 𝑀𝐶𝐷 7.624
𝑘−1 4 Región crítica
𝑆𝐶𝐷 190.6
𝑀𝐶𝐷 = = = 7.624
𝑛−𝑘 25 𝑅𝐶 = 𝐹&(",.(&,* , +∞ = 𝐹+,%-,!.!" , +∞ = [4.177, +∞)

Tabla Anova
Fuentes de Sumas de Grados de Cuadrados
F p-valor
variación cuadrados libertad medios
Entre 1458.13 4 364.53 47.81 ≅0
Dentro 190.6 25 7.624
Total 1648.73 29 56.85

Se rechaza la hipótesis nula.

Podemos concluir que las distintas estrategias de venta no son igual de efectivas.
Evidentemente, la misma conclusión la obtenemos mediante el p-valor (< 𝛼).

Estadística ADE/EE.
Comparaciones múltiples

Ø Si no se ha rechazado la hipótesis nula, 𝐻0 , es que no es posible detectar


diferencias entre las medias poblacionales, en este caso el análisis de los datos
ha sido completado.

Ø Si se ha rechazado la hipótesis nula, existirán diferencias entre las 𝑘 medias (al


menos una), pero no podemos saber cuántas hay en total ni entre que grupos. El
siguiente paso consistirá en contrastar si hay diferencias entre las medias de cada
tratamiento dos a dos.

Método de Bonferroni
𝐻! : 𝜇# = 𝜇$
] ∀𝑖, 𝑗.
𝐻" : 𝜇# ≠ 𝜇$

Como sabemos que todas las varianzas poblacionales son iguales se podría utilizar
un contraste de igualdad de medias en dos poblaciones normales con varianzas
iguales (tema anterior).

Estadística ADE/EE.
El método de Bonferroni propone sustituir el estimador conjunto de la varianza 𝑆/% por
otro estimador de la varianza: 𝑀𝐶𝐷. Se mejora el contraste habitual, ya que 𝑀𝐶𝐷 utiliza
todos los datos disponibles (no sólo los correspondientes a los tratamientos 𝑖 y 𝑗).

Estadístico del contraste

𝑋u# − 𝑋u$
𝑇= ~𝑡.(&
1 1
𝑀𝐶𝐷 𝑛 + 𝑛
# $

Se rechaza la hipótesis nula para valores observados del estadístico tanto grandes
como pequeños. Para un nivel de significación 𝛼, la región crítica es

𝑅𝐶 = (−∞, −𝑡.(&, " ] ∪ [𝑡.(&, " , +∞)


#$ #$

𝑘
donde 𝐻 es el número de comparaciones: 𝐻 =
2

Estadística ADE/EE.
𝑋!# − 𝑋!$ 𝑋!# − 𝑋!$
𝑋!# − 𝑋!$
𝑇= = =
1 1 1.59
1 1 7.624 +
𝑀𝐶𝐷 + 6 6
𝑛# 𝑛$

𝑅𝐶 = (−∞, −𝑡 +.+/ ) ⋃[𝑡 +.+/ , +∞) = (−∞, − 2.787] ∪ [2.787, +∞)


0+,/,(2&+ 0+,/,(2&+

𝐻! Estadístico Decisión 𝐻! Estadístico Decisión


𝜇1=𝜇% 4.61 Significativo 𝜇% =𝜇+ -7.13 Significativo
𝜇1=𝜇0 -3.35 Significativo 𝜇% =𝜇- -13.42 Significativo
𝜇1=𝜇+ -2.51 No Significativo 𝜇0 =𝜇+ 0.83 No Significativo
𝜇1=𝜇- -8.80 Significativo 𝜇0 =𝜇- -5.45 Significativo
𝜇% =𝜇0 -7.96 Significativo 𝜇+ =𝜇- -6.28 Significativo

𝜇( 𝜇& 𝜇3 𝜇0 𝜇/

La mejor estrategia de venta es la 5 y la peor la 2. La 1 y la 4 y la 3 y la 4 son


similares. La 1 es peor que la 3.

Estadística ADE/EE.
Contraste Hipótesis nula Estadístico del Contraste Región Crítica p-valor
1é k
ù
M = ê(n - k ) Ln( MCD) - å (ni - 1) Ln( Si2 ) ú , donde
Homogeneidad
Cë i =1 û
H 0 : σ 12 = σ 22 =… = σ k2 [ c k2-1,a ,+¥) P( c k2-1 > M )
de Varianzas 1 é k 1 1 ù SCD 1 k
C = 1+ êå - ú y MCD = = å (ni - 1) Si2
3(k - 1) ë i =1 ni - 1 n - k û n - k n - k i =1
MCE
Contraste
H 0 : µ1 = µ2 = ... = µk F= [ Fk -1,n - k ,a , +¥) P ( Fk -1,n - k > F )
ANOVA MCD
Xi - X j
T= (-¥, -tn-k ,a /2 H ]  [tn -k ,a /2 H , +¥)
Comparaciones
H 0 : µi = µ j æ1 1ö 2 ∙ #(%!"# > |%|)
Múltiples MCD ç + ÷ æk ö
çn n ÷ H =ç ÷
para todo i, j = 1,…,k è i j ø è 2ø

Tabla ANOVA
Grados
Medias de
Fuentes de variación Sumas de cuadrados de F Región Crítica P-valor
Cuadrados
libertad
2
k
SCE MCE æ MCE ö
Entre tratamientos SCE = å ni ( X i - X ) k-1 MCE = F= [ Fk -1,n - k ,a , +¥) P ç Fk -1,n - k > ÷
i =1 k -1 MCD è MCD ø
k
SCD
Dentro tratamientos SCD = å (ni - 1) Si2 n-k MCD =
i =1 n-k
k ni 2

SCT = åå ( X ij - X ) MCT =
SCT
Total n-1
i =1 j =1
n -1
SCT=SCE+SCD

Estadística ADE/EE.

También podría gustarte