Anova
Anova
Anova
ANALYSIS OF VARIANCE
ANOVA
A fost inventat n 1920 de ctre R.A.
Fischer, care a vrut s vad diferenele
semnificative dintre diferitele tipuri de plante.
Din 1970 este cea mai folosit metod
statistic n studii de psihologie.
Aplicaiile snt dintre cele mai variate:
psihologie, biologie, sociologie, economie.
ANOVA versus Testul t
Testul t permite compararea mediilor a dou
populaii, pentru a vedea dac exist o diferen
semnificativ ntre valorile acestora
Ideea de baz a ANOVA este aceeai ca i a
testului t, doar c n acest caz putem compara
mediile mai multor populaii statistice
n fapt, prin ANOVA putem cuantifica impactul
unuia sau mai multor factori de influen asupra
unei variabile de interes.
Exemplu: Vrem s determinm cum se poate mbunti
productivitatea funcionarilor potali
Lum n considerare 4 tipuri de factori:
Sistemul de stimulente bazat pe calificative acordate de
superiori
Recunoatere din partea superiorilor
Sisitemul de calificative plus recunoatere din partea
superiorilor
Reineri salariale n caz de abateri de la disciplina
muncii
Testul t nu poate testa simultan diferenele dintre
productivitatea muncii n fiecare din grupurile
create conform acestor criterii.
Putem efectua testul t comparnd productivitile
medii dou cte dou: teste.
2
4
6 C =
TERMINOLOGIE
Variabila dependenta ( variabla raspuns )
variabila studiata
Variabila independenta/explicativa (factor)
o variabila care influenteaza variabila dependenta
Nivelul factorului (tratament)
o valoare particulara a factorului
Variatia reziduala
influente aleatoare asupra variabilei dependente
TERMINOLOGIE
Exemplu
Determinam cum recolta este influentata de tipul
de ingrasamint folosit. Un fermier foloseste 3 tipuri
de ingrasamint notate A,B and C
Variabila raspuns - productia
factorul - tipul de ingrasamint
tratamentul - ingrasamintul A, B and C
TERMINOLOGIE
Exemplu 2
Analizam cum pretul actiunilor este
determinat de rata dobinzii pe care o ofera.
Studiem obligatiuni care platesc rate de
6%, 8%,10%
Variabila raspuns - pretul actiunii
factorul - rata dobinzii
tratamentul - 6%,8% sau10%
MODELE ANOVA
In functie de numarul de factori
one-factor ANOVA models
multi-factors ANOVA models
In functie de nivelele factorilor
fixed effect models
random effect models
mixed effect models
ANOVA unifactorial
One Way ANOVA(One Factor ANOVA)
O singur variabil independent X, ale crei
valori pot fi mprite n mai multe grupuri:
X
1
,...,X
k
.
Vrem s vedem dac exist o diferen
semnificativ ntre valorile variabilei
dependente Y n interiorul grupurilor create
dup variabila de grupare X.
Practic, observaiile snt valorile lui Y n
interiorul celor k grupuri create dup valorile
lui X.
Tabelul de intrare pentru ANOVA
Valorile
variabilei
independente
Numrul de
observaii din
fiecare grup
Valorile observate
pentru variabila
dependent Y, n
fiecare grup
Populaia
Media de
selecie
1
X
1
n
11
y
12
y
1
1n
y
2
1 1 1
( , ) Y N o
1
1
1
1
1
n
i
i
y
y
n
=
=
2
X
2
n
21
y
22
y
2
2n
y
2
2 2 2
( , ) Y N o
2
2
1
2
2
n
i
i
y
y
n
=
=
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
k
X
k
n
1 k
y
2 k
y
k
kn
y
2
( , )
k k k
Y N o
1
k
n
ki
i
k
k
y
y
n
=
=
Volumul
eantionului
1 2
...
k
n n n n = + + +
Ipoteze in ANOVA
Media total a populaiei va fi estimat prin media total a
eantionului:
Setul de ipoteze
Dac ipoteza nul este acceptat, atunci putem concluziona
c factorul de grupare nu are o influen semnficativ
asupra variabilei de interes.
Ideea de baz n testarea ipotezelor ANOVA este regula de
adunare a dispersiilor, descompunerea dispersiei totale n
dispersia dintre grupe(factorul sistematic) i dispersia din
interiorul grupelor(factorul aleator).
1 1
1
k
k
n
k
n
ij
i i
i j
i i
y
y n
y
n n
= =
=
= =
0 1 2
0
: ...
: (cel puin dou medii snt neegale)
k
A
H
H non H
= = =
k-1
1
SST
MST
k
=
MST
MSE
Within Groups
(Factorul
aleator)
2
1 1
( )
i
n
k
ij i
i j
SSE y y
= =
=
n-k
SSE
MSE
n k
=
Total
2
1 1
( )
i
n
k
total ij
i j
SS y y
= =
=
n-1
Testul F(Fischer)
Decizia se ia pe baza testului F: se compar valoarea
statisticii F calculat n tabelul ANOVA cu valoarea critic,
corespunztoare cuantilei repartiiei F cu (k-1,n-k) grade de
libertate.
Dac atunci respingem ipoteza nul,
deci putem afirma, cu probabilitatea , c factorul de
grupare are o influen semnificativ asupra variabilei de
interes.
Valoarea critic n EXCEL:
; 1;
( , 1, )
k n k
F FINV k n k
o
o
=
1 o
; 1; k n k
F F
o
>
Comparaii multiple Procedura Tukey-Kramer
Dac n urma ANOVA a rezultat c exist o
diferen semnificativ ntre valorile variabilei de
interes n cele k grupuri, pasul urmtor este acela
de a realiza o procedur de comparaii multiple
pentru a determina care grupuri snt diferite.
Procedura Tukey-Kramer procedur post-hoc
Procedura Tukey-Kramer
Se calculeaz diferenele pentru toate
cele perechi de medii.
Se determin distana critic dup formula
unde Q
U
este cuantila superioar a distribuiei
studentizate a distanei (Studentized range
distribution) cu k grade de libertate la numrtor
i n-k grade de libertate la numitor.
,
i j
y y i j =
2
( 1)
2
k
k k
C
=
1 1
2
U
i j
MSE
DC Q
n n
| |
= +
|
|
\ .
Procedura Tukey-Kramer
Se compar distanele calculate cu
valoarea critic DC definit anterior
Dac exist i,j a.. atunci mediile
snt semnificativ diferite.
,
i j
y y i j =
i j
y y DC >
,
i j
y y
Valorile critice ale distribuiei distanei
pentru
0.05(5%) o =
Distribuia studentizat a distanei
Exemplu
Managerul unui lan de magazine vrea s determine dac
locul unde este amplasat un produs pe raft are o influen
semnificativ asupra valorii vnzrilor. Snt considerate trei
posibile amplasri pe raft: zona 1(nivelul de sus), zona
2(nivelul median) i zona 3(nivelul de jos).
Este selectat aleator un eantion de 18 magazine, 6 care
au produsul n zona 1, 6 n zona 2 i 6 n zona 3.
Dup o lun, a fost ntregistrat valoarea vnzrilor
produsului(n mii dolari) pentru fiecare magazin.
Cum realizm ANOVA folosind EXCEL
1. Introducem datele n Excel
Cum realizm ANOVA folosind EXCEL
2. Apelm procedura ANOVA folosind: Tools >
Data Analysis > ANOVA: Single Factor
Cum realizm ANOVA folosind EXCEL
3. Selectm zona de date i eventual schimbm
pragul de semnificaie i OK.
Cum realizm ANOVA folosind EXCEL
4. Excel Output
Concluzii
Putem afirma, cu probabilitatea 95%, c locul unde
este amplasat produsul pe raft influeneaz
semnificativ valoarea vnzrilor.
Mai mult, comparnd vnzrile medii pentru fiecare
locaie, putem afirm c valoarea medie a vnzrilor
pentru produsele amplasate n zona de sus a raftului
este semnificativ mai mare dect valoarea medie a
vnzrilor din celelalte zone.
n consecin, decizia pe care ar trebui s o ia
managerul respectiv este de a plasa produsul n zona
de sus a raftului.
Foarte important!!!
Atunci cnd realizm comparaii ntre mediile
unor populaii folosind ANOVA trebuie s fie
ndeplinite n mod necesar trei condiii:
Independena i caracterul aleator al
alegerii eantioanelor
Normalitatea eantioanele din fiecare
grup snt extrase din populaii normale
Omogenitatea varianei dispersiile
celor k grupuri snt presupuse a fi egale
ANOVA blocuri randomizate
(ANOVA unifactorial cu observaii repetate)
Testul F pentru blocuri randomizate
Ca i n ANOVA simpl, testm independena
mediilor unor populaii, pentru diferite nivele ale
variabilei factoriale....
...dar vrem s controlm i variaia datorat unui
factor secundar
Nivelele pentru cel de-al doilea factor snt numite
blocuri
Ipoteze: r = numrul de linii, c = numrul de
coloane
1. Normalitatea
Populatiile snt distribuite normal
2. Omogenitatea varianiei
Populaiile au dispersii egale
3. Independena erorilor
Eantioanele snt selectate aleator i
independent
Ipoteze
Descompunerea variaiei totale
Variaia dintre
grupuri
Variaia total
Variaia aleatoare
Variaia dintre
blocuri
SSE
SSA
+
SSBL +
SST=
Sum of Squares for Blocking
Where:
c = number of groups
r = number of blocks
Y
i.
= mean of all values in block i
= grand mean (mean of all data values)
Y
r
2
i.
i 1
SSBL c (Y Y)
=
=
= =
1 r
SSBL
blocking square Mean MSBL
= =
) 1 )( 1 (
= =
c r
SSE
MSE error square Mean
Randomized Block ANOVA Table
Source of
Variation
df SS MS
Among
Blocks
SSBL MSBL
Error
(r1)(c-1) SSE MSE
Total rc - 1 SST
r - 1
MSBL
MSE
F ratio
c = number of populations rc = sum of the sample sizes from all populations
r = number of blocks df = degrees of freedom
Among
Treatments
SSA c - 1 MSA
MSA
MSE
Blocking Test
Blocking test: df
1
= r 1
df
2
= (r 1)(c 1)
MSBL
MSE
... : H
3. 2. 1. 0
= = =
equal are means block all Not : H
1
F =
Reject H
0
if F > F
U
Main Factor test: df
1
= c 1
df
2
= (r 1)(c 1)
MSA
MSE
c
. .3 .2 .1 0
... : H = = = =
equal are means population all Not : H
1
F =
Reject H
0
if F > F
U
Main Factor Test
The Tukey Procedure
To test which population means are
significantly different
e.g.:
1
=
2
3
Done after rejection of equal means in
randomized block ANOVA design
Allows pair-wise comparisons
Compare absolute mean differences with
critical range
x
=
1 2 3
etc...
x x
x x
x x
.3 .2
.3 .1
.2 .1
= =
'
=
=
r
1 i
c
1 j
n
1 k
2
ijk
) X X ( SST
2
r
1 i
.. i
) X X ( n c SSA
'
=
=
2
c
1 j
. j .
) X X ( n r SSB
'
=
=
Total Variation:
Factor A Variation:
Factor B Variation:
Two Factor ANOVA Equations
2
r
1 i
c
1 j
.j. i.. ij.
) X X X X ( n SSAB +
'
=
= =
= =
'
=
=
r
1 i
c
1 j
n
1 k
2
. ij
ijk
) X X ( SSE
Interaction Variation:
Sum of Squares Error:
(continued)
Two Factor ANOVA Equations
where:
Mean Grand
n rc
X
X
r
1 i
c
1 j
n
1 k
ijk
=
'
=
= =
'
=
r) ..., 2, 1, (i A factor of level i of Mean
n c
X
X
th
c
1 j
n
1 k
ijk
.. i = =
'
=
=
'
=
c) ..., 2, 1, (j B factor of level j of Mean
n r
X
X
th
r
1 i
n
1 k
ijk
. j . = =
'
=
=
'
=
ij cell of Mean
n
X
X
n
1 k
ijk
. ij
=
'
=
'
=
r = number of levels of factor A
c = number of levels of factor B
n = number of replications in each cell
(continued)
Mean Square Calculations
1 r
SSA
A factor square Mean MSA
= =
1 c
SSB
B factor square Mean MSB
= =
) 1 c )( 1 r (
SSAB
n interactio square Mean MSAB
= =
) 1 ' n ( rc
SSE
error square Mean MSE
= =
Two-Way ANOVA:
The F Test Statistic
F Test for Factor B Effect
F Test for Interaction Effect
H
0
:
1..
=
2..
=
3..
=
H
1
: Not all
i..
are equal
H
0
: the interaction of A and B is
equal to zero
H
1
: interaction of A and B is not
zero
F Test for Factor A Effect
H
0
:
.1.
=
.2.
=
.3.
=
H
1
: Not all
.j.
are equal
Reject H
0
if F > F
U
MSE
MSA
F =
MSE
MSB
F =
MSE
MSAB
F =
Reject H
0
if F > F
U
Reject H
0
if F > F
U
Two-Way ANOVA
Summary Table
Source of
Variation
Sum of
Square
s
Degrees of
Freedom
Mean
Squares
F
Statisti
c
Factor A SSA r 1
MSA
= SSA
/(r 1)
MSA
MSE
Factor B SSB c 1
MSB
= SSB
/(c 1)
MSB
MSE
AB
(Interaction
)
SSAB
(r 1)(c
1)
MSAB
= SSAB
/ (r 1)(c 1)
MSAB
MSE
Error SSE rc(n 1)
MSE =
SSE/rc(n 1)
Total SST n 1
Features of Two-Way ANOVA
F Test
Degrees of freedom always add up
n-1 = rc(n-1) + (r-1) + (c-1) + (r-1)(c-1)
Total = error + factor A + factor B + interaction
The denominator of the F Test is always the same but
the numerator is different
The sums of squares always add up
SST = SSE + SSA + SSB + SSAB
Total = error + factor A + factor B + interaction
Examples:
Interaction vs. No Interaction
No interaction:
Factor B Level 1
Factor B Level 3
Factor B Level 2
Factor A Levels
Factor B Level 1
Factor B Level 3
Factor B Level 2
Factor A Levels
M
e
a
n
R
e
s
p
o
n
s
e
M
e
a
n
R
e
s
p
o
n
s
e
Interaction is
present:
Multiple Comparisons:
The Tukey Procedure
Unless there is a significant interaction,
you can determine the levels that are
significantly different using the Tukey
procedure
Consider all absolute mean differences
and compare to the calculated critical
range
Example: Absolute differences
for factor A, assuming three factors:
3.. 2..
3.. 1..
2.. 1..
X X
X X
X X
Multiple Comparisons:
The Tukey Procedure
Critical Range for Factor A:
(where Q
u
is from Table E.10 with r and rc(n1) d.f.)
Critical Range for Factor B:
(where Q
u
is from Table E.10 with c and rc(n1) d.f.)
n' c
MSE
Range Critical
U
Q =
n' r
MSE
Range Critical
U
Q =