Korrelaatio

Korrelaatio on todennäköisyyslaskennassa ja tilastotieteessä käytetty käsite, joka kuvaa kahden muuttujan välistä riippuvuutta. Korrelaatiokerroin on numeerinen mitta satunnaismuuttujien väliselle lineaariselle riippuvuudelle. Riippumattomien muuttujien välillä ei ole korrelaatiota.

Korrelaatiokerroin saadaan standardoimalla muuttujien kovarianssi välille [−1, 1]. Standardointi tehdään jakamalla kovarianssi muuttujien keskihajontojen tulolla.

Korrelaatiokerroin ei siis riipu käytetyistä yksiköistä. Mitä enemmän korrelaatiokerroin poikkeaa nollasta, sitä voimakkaampaa muuttujien välinen riippuvuus on. Arvo 1 tarkoittaa, että muuttujien välillä on täydellinen lineaarinen riippuvuus (−1 tarkoittaa täydellistä negatiivista lineaarista riippuvuutta), ts. toisen muuttujan voi laskea tarkasti lineaarisesti toisen arvosta.

Korrelaatio voidaan laskea usealla eri tavalla muuttujien mitta-asteikosta ja käyttötarkoituksesta riippuen. Tavallisesti sanalla korrelaatiokerroin (joskus vain korrelaatio) tarkoitetaan kuitenkin Pearsonin korrelaatiokerrointa. Nimestä huolimatta sen esitti ensimmäisenä Francis Galton. Jos tarkasteltavat muuttujat on mitattu vain järjestysasteikolla, niin korrelaation mittaamiseen soveltuu paremmin jokin ei-parametrinen korrelaatiokerroin.

Riippuvuus voi olla vahva, vaikka korrelaatio olisi nolla

Useita (x, y)-parien pistejoukkoja sekä kunkin joukon x- ja y-koordinaattien korrelaatiokerroin. Korrelaatio heijastaa lineaarisen riippuvuuden suuntaa ja kohinaisuutta (hajontaa), kuten ylärivi kuvaa, muttei kulmakerrointa, kuten keskirivi kuvaa, eikä mitään epälineaarista riippuvuutta, kuten alarivi kuvaa. Huomaa, että keskimmäisen kuvaajan kulmakerroin on nolla mutta korrelaatiokerrointa ("0/0") ei voi laskea.

Korrelaatio mittaa ainoastaan lineaarista riippuvuutta, siis kertoo siitä, jos ensimmäisen muuttujan (x) suuret arvot ovat pieniä arvoja enemmän yhteydessä toisen muuttujan (y) suuriin arvoihin (tai päinvastoin pieniin arvoihin). Se on sitä lähempänä lukua 1 tai −1, mitä lähempänä kuvaaja on jotain suoraa $y=a+bx$ (kuten oheisen kuvan ensimmäisellä rivillä; b:n etumerkki määrää korrelaatin etumerkin).

Jos riippuvuus on ei-lineaarinen, esimerkiksi suuret ja pienet x:n arvot liittyvät suuriin y:n arvoihin mutta keskisuuret x:n arvot pieniin (esimerkiksi käyrä $y=x^{2}$ välillä [−10, +10]), korrelaatio voi olla nolla vaikka riippuvuus olisi täydellinen niin, että x:n arvosta voitaisiin täydellisesti päätellä y:n arvo.

Oheisen kuvan alimman rivin pistejoukoissa selvästi muuttujien y ja x arvojen välillä on yhteys, riippuvuus, vaikka riippuvuus ei olekaan lineaarinen, suuret x:n arvot eivät ole suuriin y:n arvoihin yhteydessä sen useammin kuin pienetkään. Silti tieto x:n arvosta auttaa niissäkin veikkaamaan y:n arvoa.

Korrelaatio ei todista syy-seuraussuhdetta

Korrelaatio voi olla pienestä otoksesta johtuva sattuma. Voi myös olla, että y on x:n syy tai päinvastoin, tai sitten jokin kolmas asia voi olla molempien syy, esimerkiksi jäätelönsyönti ja hukkumiset ovat kumpikin runsaampia kesällä mutta eivät silti ole toistensa syitä vaan kuumuus on molempien syy. Siis korrelaatio ei implikoi kausaliteettia. Usein se on kuitenkin hyvä vihje mahdollisesta syy-seuraussuhteesta.

"Jäätelökorrelaatio" tarkoittaakin sitä klassista virhepäätelmää, että asioiden esiintyminen yhdessä tarkoittaisi toisen olevan toisen syy.^[1]^[2]

Pearsonin korrelaatiokerroin

Matemaattinen määritelmä

Satunnaismuuttujien $X$ ja $Y$ välinen korrelaatio $\rho _{X,Y}$ on määritelty:

\rho _{X,Y}={\mathrm {cov} (X,Y) \over \sigma _{X}\sigma _{Y}}={E((X-\mu _{X})(Y-\mu _{Y})) \over \sigma _{X}\sigma _{Y}},

missä $\mu _{X}$ ja $\mu _{Y}$ ovat muuttujien odotusarvot sekä $\sigma _{X}$ ja $\sigma _{Y}$ ovat muuttujien keskihajonnat.

Koska $\mu _{X}=E(X)$ ja $\sigma _{X}^{2}=E(X^{2})-[E(X)]^{2}$ , voidaan yhtälö kirjoittaa myös:

\rho _{X,Y}={\frac {E(XY)-E(X)E(Y)}{{\sqrt {E(X^{2})-E^{2}(X)}}~{\sqrt {E(Y^{2})-E^{2}(Y)}}}}

Korrelaatio on määritelty vain, jos molemmat keskivirheet ovat äärellisiä ja nollasta poikkeavia. Cauchyn–Schwarzin epäyhtälön perusteella korrelaation itseisarvo ei voi ylittää yhtä. Riippumattomien muuttujien korrelaatio on 0, mutta päinvastainen ei ole välttämättä totta. Esimerkiksi kun $X$ on tasajakautunut välillä (-1,1) ja $Y=X^{2}$ , on niiden välinen korrelaatio 0, vaikka ne riippuvat toisistaan. Normaalijakautuneiden satunnaismuuttujien tapauksessa korreloimattomuus tosin johtaa riippumattomuuteen.

Etenkin kun $X$ ja $Y$ ovat normaalijakautuneita, Pearsonin korrelaatiokerroin on paras korrelaation estimaatti.

Otoskorrelaatio

Kun käytettävissä on koko selitettävä aineisto (esimerkiksi tutkitaan suomalaisten painon riippuvuutta pituudesta ja tiedot on saatu kaikista suomalaisista), Pearsonin korrelaatiokerroin lasketaan yllä esitetyllä tavalla. Mikäli käytettävissä on vain otos aineistosta, tulee yllä esitettyjen kaavojen sijasta laskea otoskorrelaatio seuraavasti:

r_{xy}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{(n-1)s_{x}s_{y}}},

missä ${\bar {x}}$ ja ${\bar {y}}$ ovat otoskeskiarvoja ( ${\overline {x}}=\sum _{i=1}^{n}{\frac {x_{i}}{n}}$ ) sekä $s_{x}$ ja $s_{y}$ ovat otoshajontoja ( $s_{x}={\sqrt {\sum _{i=1}^{n}{\frac {(x_{i}-{\overline {x}})^{2}}{n-1}}}}$ ), joten

r_{xy}={\frac {\sum (x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sqrt {(\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2})\cdot (\sum _{i=1}^{n}(y_{i}-{\overline {y}})^{2})}}}\,.

Tällöin näet otoksesta lasketut keskiarvot ${\bar {x}}$ ja ${\bar {y}}$ ovat yleensä lähempänä otosta kuin todellinen keskiarvo, mutta vastaavasti jakajakin on pienempi (n−1) kuin koko aineiston kohdalla käytetyssä kaavassa (n), mikä korjaa ongelman keskimäärin optimaalisesti, siis $r_{xy}$ on paras koko aineiston $\rho _{xy}$ :n estimaatti, joka pelkän otoksen avulla voidaan tuottaa (kun taas normaali kaava aliarvioisi sitä, miten pitkälti x:n vaihtelut selittävät y:n vaihteluita). Samaan tapaan otoskeskivirheen (otoskeskihajonnan) kaavassa on termi $n-1$ , joka alemmassa, aukikirjoitetummassa otoskorrelaatiokertoimen kaavassa on sievennetty pois.

Ei-parametriset korrelaatiokertoimet

Pearsonin korrelaatiokerroin on parametrinen tunnusluku ja vähemmän hyödyllinen, jos taustalla oleva normaalisuusoletus ei päde. Ei-parametriset korrelaatiokertoimet ovat tällöin parempia korrelaation laskemiseen. Ne ovat vähemmän tehokkaita normaalisuusoletuksen vallitessa mutta antavat epäselvissä tapauksissa luotettavampia tuloksia.

Seuraavat menetelmät perustuvat lukujen järjestykseen, joten niitä voidaan käyttää myös silloin, kun muuttujat on mitattu järjestysasteikolla:

Kendallin järjestyskorrelaatiokerroin (Kendallin tau)
Spearmanin järjestyskorrelaatiokerroin (Spearmanin rho)

Katso myös

Lineaarinen regressioanalyysi

Lähteet

↑ Tervetuloa töihin (Arkistoitu – Internet Archive), Anu Partanen, Helsingin Sanomien kuukausiliite, elokuu 2010.
↑ Cognitive Science: An Introduction to Mind and Brain, Daniel Kolak, William Hirstein, Peter Mandik, Jonathan Waskan, Routledge, 3.10.2006, page 65.

Aiheesta muualla

Kuvia tai muita tiedostoja aiheesta Korrelaatio Wikimedia Commonsissa

[hskk-1] Tervetuloa töihin (Arkistoitu – Internet Archive), Anu Partanen, Helsingin Sanomien kuukausiliite, elokuu 2010.

[CS-2] Cognitive Science: An Introduction to Mind and Brain, Daniel Kolak, William Hirstein, Peter Mandik, Jonathan Waskan, Routledge, 3.10.2006, page 65.

[1]

[2]