Distribuciones Bidimensionales

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 39

Tema 2: Distribuciones bidimensionales

Variable Bidimensional (X,Y) Sobre una poblacin se


observan simultneamente dos variables X e Y.
La distribucin de frecuencias bidimensional de (X,Y) es
el conjunto de valores
{(xi, yj);nij} i=1, , p; j=1, ,q tal que
p

ij

=N

O equivalente:

f
i

ij

=1

donde nij es la frecuencia absoluta conjunta o total de elementos en


la poblacin que presenta el valor bidimensional (xi, yj).
La frecuencia relativa conjunta fij es la proporcin de elementos en la
poblacin que presenta el valor (xi, yj).

f ij =

nij
N

Tema 2: Distribuciones bidimensionales


La distribucin de frecuencias bidimensional de (X,Y) se puede expresar en
una tabla bidimensional:
y1

y2

yj

yq

x1

n11

n12

n1j

n1q

n1*

x2

n21

n22

n2j

n2q

n2*

Columna de
frecuencias
marginales

Frecuencia absoluta

xi

ni1

ni2

nij

niq

ni*

nij
fila

xp

np1

np2

npj

npq

np*

n*1

n*2

n*j

n*q

Fila de
frecuencias
marginales

columna

Total de
elementos en
la poblacin

Tema 2: Distribuciones bidimensionales


La distribucin de frecuencias bidimensional de (X,Y) se puede expresar en
una tabla bidimensional (frecuencias absolutas):
y1

y2

yj

yq
q

x1
x2

n11 n12
n21 n22

n1j
n2j

n1q n1*

Total fila 1

n1* = nij
j =1

n2q n2*
q

xi

ni1

ni2

nij

niq

ni*

xp

np1 np2

npj

n*1

n*j

n*2

Total de
elementos que
presentan el
valor yj

Total de elementos
que presentan el
valor xi

Total fila p
Total de
elementos en la
poblacin

Total
columna j

j =1

Total de elementos
que presentan
xi e yj

npq np*
n*q

ni* = nij

n* j = nij
i =1

n p* = n pj
j =1

N = nij
j =1 i =1

Tema 2: Distribuciones bidimensionales


La distribucin de frecuencias bidimensional de (X,Y) se puede expresar en
una tabla bidimensional (frecuencias relativas):
y1

y2

yj

yq

x1

f11

f12

f1j

f1q

f1*

Total fila 1

x2

f21

f22

f2j

f2q

f2*

Total fila 2

Proporcin de
elementos
que presenta
el valor xi
q

f i* = f ij

j =1

xi

fi1

fi2

fij

fiq

fi*

xp

fp1

fp2

fpj

fpq

fp*

f*1

f*2

f*j

f*q

Proporcin de
elementos
que presenta
xi e yj
q

1 = f ij
j =1 i =1

Proporcin de
elementos que
presenta el valor
yj

Total
columna j
p

f* j = f ij
i =1

Total
columna q

Tema 2: Distribuciones bidimensionales


Uno de los objetivos del anlisis de distribuciones
bidimensionales es estudiar si existe asociacin o relacin entre
las variables X e Y.
A partir de una distribucin bidimensional se obtendrn
distribuciones unidimensionales de dos tipos: marginales y
condicionadas.
Dos distribuciones marginales:
Marginal de X
Marginal de Y

Condicionadas:
q distribuciones condicionadas de los valores de X a los q valores de Y
p distribuciones condicionadas de los valores de Y a los p valores de X

Tema 2: Distribuciones bidimensionales


A partir de una distribucin bidimensional se pueden obtener 2 distribuciones
unidimensionales MARGINALES: Marginal de X y Marginal de Y.
Marginal de X: expresa cmo se distribuye X
en la poblacin total, al margen de la otra
variable

MARGINAL DE X
X

ni*

fi*

x1

n1*

f1*

x2

n2*

f2*

xi

ni*

fi*

xp

np*

fp*

Marginal de Y: expresa cmo se distribuye Y


en la poblacin total, al margen de la otra
variable

f i* =

ni*
N

MARGINAL DE Y
Y

y1

y2

yj

yq

n*j

n*1

n*2

n*j

n*q

f*j

f*1

f*2

f*j

f*q

f* j =

n* j
N

Tema 2: Distribuciones bidimensionales


A partir de una distribucin bidimensional se pueden obtener distribuciones
unidimensionales CONDICIONADAS: de X y de Y.

CONDICIONAL DE X / Y=yj
X

nij

fi/j

x1

n1j

n1j/n*j=f1/j

x2

n2j

n2j /n*j=f2/j

xi

nij

nij /n*j=fi/j

xp

npj

npj /n*j=fp/j

n*j

Total de elementos en
la subpoblacin

Condicional de X dado Y=yj: expresa cmo se


distribuye X en la subpoblacin que cumple la
condicin de presentar el valor Y=yj
Condicional de Y dado X=xi: expresa cmo se
distribuye Y en la subpoblacin que cumple la
condicin de presentar el valor X=xi

CONDICIONAL DE Y / X=xi

Total de
elementos en
la subpoblacin

y1

y2

yj

yq

nij

ni1

ni2

nij

niq

ni*

fj/i

ni1/ni*
=f1/i

ni2/ni*
=f2/i

nij/ni*
=fj/i

niq/ni*
=fq/i

Tema 2: Distribuciones bidimensionales


Ejemplo distribucin bidimensional (en frecuencias absolutas y en relativas):
Un grupo de 91 nios se clasifica segn su edad (X) y puntuacin en un test (Y)
Frecuencias relativas

Frecuencias absolutas

f ij =
TEST

Edad

120

125

130

10

20

21

10

13

25

20

25

20

30

41

nij
N

TEST

Edad

0,110 =

91

0,220 =

10
91

20
91

120

125

130

0,110

0,088

0,022

0,220

0,077

0,088

0,066

0,231

0,022

0,110

0,143

0,275

0,011

0,044

0,220

0,275

0,220

0,330

0,451

1,000

Cmo se expresa la distribucin bidimensional en frecuencias relativas a partir de la de


frecuencias absolutas?
Es muy fcil! Se divide cada casilla (frecuencia absoluta) entre N (91)
Observa que la fila y columna marginales (sombreadas) representan las frecuencias
marginales (las absolutas en tabla de la derecha y las relativas en la de la izquierda).

Tema 2: Distribuciones bidimensionales


Ejemplo distribucin bidimensional (en frecuencias absolutas y en relativas):
Un grupo de 91 nios se clasifica segn su edad (X) y puntuacin en un test (Y)
En frecuencias absolutas

En frecuencias relativas

TEST

TEST

Marginal

Marginal
Edad

Marginal

120

125

130

10

20

21

10

13

25

20

25

20

30

41

Edad

91

Marginal

120

125

130

0,110

0,088

0,022

0,220

0,077

0,088

0,066

0,231

0,022

0,110

0,143

0,275

0,011

0,044

0,220

0,275

0,220

0,330

0,451

1,000

Cmo se interpretan los valores 10 y 20?


Hay 10 nios que tienen 7 aos y puntuacin 125 en el test. Hay 20 nios con puntuacin igual a 120.
Cmo se interpretan los valores 0,110 y 0,220?
Hay una proporcin de 0,11 nios que tiene 7 aos y puntuacin 125 en el test. El 22% de los nios
tiene puntuacin igual a 120.

Tema 2: Distribuciones bidimensionales


Ejemplo (continuacin)
Distribuciones marginales de la Edad y Test
Distribucin marginal
de la Edad
Nmero
alumnos

Edad

Distribucin marginal
Del Test
nmero de
alumnos

TEST

Proporcin
de alumnos

20

0,220

21

0,231

25

0,275

25

0,275

91

proporcin de
alumnos

120

20

0,220

125

30

0,330

130

41

0,451

91

Observa que el total de individuos observados en cada marginal es 91. Todos.


qu porcentaje de nios tiene edad igual 5?
qu proporcin de alumnos obtiene en el test ms de 125 puntos?

Tema 2: Distribuciones bidimensionales


Ejemplo (continuacin)
Distribuciones condicionadas de la Edad a los valores del test
Distribuciones condicionadas de la Edad

Distribucin bidimensional

TEST

TEST
Edad

Edad

120

125

130

10

20

21

10

13

25

20

25

20

30

41

91

120

125

130

0,500

0,267

0,049

0,220

0,350

0,267

0,146

0,231

0,100

0,333

0,317

0,275

0,050

0,133

0,488

0,275

1,000

1,000

1,000

1,000

Cmo se hace?
Se divide cada casilla de la bidimensional (tabla izquierda) entre el total de columna.
Las flechas de la tabla indican la direccin en que se han de hacer los clculos
Por ejemplo, para obtener la distribucin condicionada de la Edad / test =120 se divide
cada casilla de la columna encabezada por 120 por el total de columna (20). Observa
que la poblacin que cumple esa condicin es de 20 nios.
Observa que la ltima fila est formada por unos. Hay 3 distribuciones condicionadas.
Una marginal.

Tema 2: Distribuciones bidimensionales


Ejemplo (continuacin)
Distribuciones condicionadas de la Edad a los valores del test
Distribucin bidimensional
Distribuciones condicionadas de la Edad
TEST

TEST
Edad
Edad

120

125

130

0,500

0,267

0,049

0,220

120

125

130

0,110

0,088

0,022

0,220

0,350

0,267

0,146

0,231

0,077

0,088

0,066

0,231

0,100

0,333

0,317

0,275

0,022

0,110

0,143

0,275

0,050

0,133

0,488

0,275

0,011

0,044

0,220

0,275

1,000

1,000

1,000

1,000

0,220

0,330

0,451

1,000

Cmo se hace si la distribucin bidimensional est en frecuencias relativas?


Igual que antes. Se divide cada casilla de la bidimensional (tabla izquierda) entre el total de columna.

Las flechas de la tabla indican la direccin en que se han de hacer los clculos
Por ejemplo, para obtener la distribucin condicionada de la Edad / test =120 se divide
cada casilla de la columna encabezada por 120 por el total de columna (0,022). Observa
que la poblacin que cumple esa condicin es de una proporcin igual a 0,022 nios.

Observa que la ltima fila est formada por unos. Hay 3 distribuciones condicionadas
de la Edad. Una marginal de la Edad.

Tema 2
Ejemplo (continuacin)
Distribuciones condicionadas del Test a los valores de la edad
Distribucin bidimensional
Distribuciones condicionadas del Test
TEST

TEST
Edad

Edad

120

125

130

0,110

0,088

0,022

0,220

5
0,077

0,088

0,066

0,231

6
0,022

0,110

0,143

0,275

0,011

0,044

0,220

0,275

120

125

130

0,500

0,400

0,100

0,333

0,381

0,286

0,080

0,400

0,520

0,040

0,160

0,800

0,220

0,330

0,451

Cmo se hace?

Las flechas de la tabla indican la direccin en que se han de


hacer los clculos
0,220

0,330

0,451

1,000

Por ejemplo, para obtener la distribucin condicionada del test /Edad=6 aos se divide cada casilla de la
fila encabezada por 6 entre el total de fila (0,231). Observa que la poblacin que cumple esa condicin
es de una proporcin igual a 0,231 nios.

Observa que la ltima columna est formada por unos. Hay 4 distribuciones condicionadas
del test. Y la marginal del test.

Tema 2
Uno de los objetivos del anlisis de distribuciones
bidimensionales es estudiar si son independientes o por el
contrario, existe asociacin o relacin entre las variables X e Y.
Las variables X e Y se dicen que son independientes si los
valores de una de ellas no afecta a la distribucin de la otra. Esto
equivale a decir que todas las distribuciones condicionadas
sean iguales.
De modo equivalente se dice que las variables X e Y son
independientes si se cumple que la frecuencia relativa conjunta
es igual al producto de las frecuencias relativas marginales.
Si las variables no son independientes se dice que estn
relacionadas o asociadas. Las distribuciones condicionadas NO
son iguales.

Tema 2
Ejemplo:
Comprueba si son o no independientes las variables X e Y de la distribucin
bidimensional (X, Y) siguiente:
y2

x1

23

69

92

x2

12

36

48

x3

15

45

60

x4

21

28

57

171

228

Clculo

y1

Basta ver que las distribuciones


condicionadas son iguales. Por ejemplo,
las condicionadas de X/Y

Condicionadas de X a los valores de Y: X/Y


y1

Lectura

Cmo se hacen los clculos?

y2

x1

0,404

0,404

0,404

x2

0,211

0,211

0,211

x3

0,263

0,263

0,263

x4

0,123

0,123

0,123

Verticalmente: Dividiendo cada casilla


(frecuencia) entre el total de columna
Observa que la variable X se distribuye igual
en el conjunto de individuos que presenta la
condicin Y=y1, que en el grupo que cumple
Y=y2.

La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan realizado los clculos; es decir, en el
ejemplo la lectura es horizontal: Fila 1: 0,404 = 0,404; Fila 2: 0,211=0,211; Fila 3: 0,263=0,263; Fila 4: 0,123=0,123.

Todas las condicionadas son iguales. Por tanto las variables X e Y son INDEPENDIENTES

Tema 2
Ejemplo (Continuacin):
Comprueba si son o no independientes las variables X e Y de la distribucin bidimensional (X, Y)
siguiente:

Clculo
y1

y2

x1

23

69

92

x2

12

36

48

x3

15

45

60

x4

21

28

57

171

228

Otro modo de ver que son independientes es


comprobando que las distribuciones condicionadas
de Y/X son todas iguales.

Condicionadas de Y a los valores de X: Y/X


Cmo se hacen los clculos?
y1

y2

Lectura

x1

0,250

0,750

1,000

x2

0,250

0,750

1,000

x3

0,250

0,750

1,000

x4

0,250

0,750

1,000

0,25

0,75

Horizontalmente: Dividiendo cada casilla (frecuencia)


entre el total de fila
Observa que la variable Y se distribuye igual en el conjunto de
individuos que presenta la condicin X=x1, que en el grupo
que cumple X=x2,, y que en el grupo X=x4.

La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan realizado los clculos; es decir, en el
ejemplo la lectura es vertical: Columna 1: 0,250 = 0,250 =0,250 = 0,250 ;Columna 2: 0,750=0,750=0,750=0,750.

Todas las condicionadas son iguales. Por tanto las variables X e Y son INDEPENDIENTES

Tema 2
Ejemplo (Continuacin):
Comprueba si son o no independientes las variables X e Y de la distribucin bidimensional (X, Y)
siguiente: (Puedes hacerlo con frecuencias absolutas o con relativas)
y1

y2

x1

23

69

92

x2

12

36

48

x3

15

45

60

x4

21

28

57

171

228

Otro modo de ver que son independientes es


comprobando que las frecuencias relativas conjuntas
verifican la ecuacin:

f ij = f i* f* j

O la equivalente

Cmo?

Comprueba que cada frecuencia absoluta verifica la ecuacin. Por ejemplo,


y1

y2

x1

0,101

0,303

0,404

x2

0,053

0,158

0,211

x3

0,066

0,197

0,263

x4

0,031

0,092

0,123

0,250

0,750

1,000

nij =

15 =

ni* n* j
N

60 57
228

Cmo?
si prefieres usar la primera ecuacin:
Se obtiene la distribucin bidimensional en
frecuencias relativas. Para ello divide cada casilla
correspondiente a una frecuencia absoluta entre 228
Por ejemplo, 0,101=23/228.

Comprueba luego que se verifica 0,101=0,0404 por 0,.250; 0,303= 0,404 por 0,750; ..,
0,092 = 0,123 por 0,750.

Tema 2: Distribuciones bidimensionales


Resumiendo, habrs observado que una tabla bivariante para una
bidimensional (X, Y) puede expresarse en frecuencias absolutas y relativas.
Cuando las variables X o Y son cualitativas se denomina tabla de
contingencia
Una tabla en proporciones puede indicar que hay una sola distribucin
bidimensional o que hay varias distribuciones unidimensionales condicionadas.
Cmo puedo saber si hay una sola distribucin de carcter bidimensional o
varias condicionadas (unidimensionales)?
La respuesta es fcil. Si la suma de todas las frecuencias de la tabla es 1, hay
una sola distribucin bidimensional. Estas proporciones se obtienen dividiendo
cada frecuencia absoluta nij entre el total de elementos N.
Si la suma de cada columna es 1, hay tantas distribuciones como columnas. Las
proporciones se han obtenido dividiendo cada casilla por el total columna.
Si la suma de cada fila es 1, hay tantas distribuciones como filas. Las
porporciones se han obtenido dividiendo cada casilla por el total de fila.

Vamos a repasar un ejemplo que ya vimos.

Tema 2
Ejemplo (repaso)
TEST
Edad

Observa que la suma de las frecuencias de cada fila es 1

120

125

130

0,500

0,400

0,100

0,333

0,381

0,286

0,080

0,400

0,520

0,040

0,160

0,800

0,220

0,330

0,451

Hay 5 distribuciones UNIDIMENSIONALES: 4 condicionadas y una marginal


Cmo se interpreta la frecuencia 0,100 de la fila 1?
El 10% de los nios que tienen 5 aos ha obtenido una puntuacin de 130 en el test
Cul es la distribucin condicionada del Test para el grupo que tiene 8 aos?
TEST
Edad
8

120

125

130

0,040

0,160

0,800

Cmo se distribuye la edad?


No se puede saber con la informacin que hay en la tabla bidimensional

Tema 2: Distribuciones bidimensionales


Cuando las variables X o Y son cualitativas se
denomina tabla de contingencia.
Un anlisis tpico de una tabla de contingencia es el
estudio de la posible asociacin o relacin entre las
variables X e Y.
Un medida muy importante de asociacin es el
estadstico Chi-cuadrado:
p

=
2

i =1 j =1

(t ij nij ) 2
tij

Con

t ij =

n i* n* j
N

Donde tij es el valor de la frecuencia que tericamente


se observara si las variables X e Y fueran
independientes

Tema 2
Ejemplo:
Vamos a calcular este estadstico en los dos
ejemplos anteriores.
y1

y2

x1

23

69

92

x2

12

36

48

x3

15

45

60

x4

21

28

57

171

228

=
2

(t ij nij ) 2
tij

i =1 j =1

Con

t ij =

n i* n* j
N

Observa que:

t 11=

92 57
92 171
28 171
= 23; t 12 =
= 69;...;t 42 =
= 21
228
228
228

Observa que todo tij coincide con lo observado realmente (nij) y los numeradores
de la expresin de Chi-cuadrado son todos nulos, y por tanto la suma y
Chi-cuadrado es cero.

Tema 2
Ejemplo:Veamos el valor de chi-cuadrado en la
tabla siguiente:
p

2 =

TEST

Edad

t 11=

(t ij nij ) 2

i =1 j =1

120

125

130

10

20

21

10

13

25

20

25

20

30

41

91

Con

t ij =

tij
n i* n* j
N

20 20
20 30
25 41
= 4,396; t 12 =
= 6,593;...;t 43 =
= 11,264
91
91
91

Para realizar los clculos es cmodo colocar columnas que indiquen los pasos
sucesivos a realizar para obtener el estadstico:

Tema 2
Ejemplo:Veamos el valor de chi-cuadrado en la tabla siguiente:
Valores observados (nij)

Valores tericos bajo independencia (tij)

TEST

TEST
Edad
Edad

t 11=

120

125

130

10

20

21

10

13

25

20

25

20

30

41

91

120

125

130

4,396

6,593

9,011

20

4,615

6,923

9,462

21

5,495

8,242

11,264

25

5,495

8,242

11,264

25

20

30

41

91

20 20
20 30
25 41
= 4,396; t 12 =
= 6,593;...;t 43 =
= 11,264
91
91
91

Para realizar los clculos es cmodo colocar columnas que indiquen los pasos
sucesivos a realizar para obtener el estadstico:

Tema 2
Ejemplo:Clculo chi-cuadrado (continuacin):
La tabla siguiente indica los clculos necesarios
nij

tij

nij-tij

(nij-tij)^2

(nij-tij)^2 / tij

10

4,3956

5,6044

31,4093

7,1456

4,6154

2,3846

5,6864

1,2321

5,4945

-3,4945

12,2116

2,2225

5,4945

-4,4945

20,2006

3,6765

6,5934

1,4066

1,9785

0,3001

6,9231

1,0769

1,1598

0,1675

10

8,2418

1,7582

3,0914

0,3751

8,2418

-4,2418

17,9925

2,1831

9,0110

-7,0110

49,1540

5,4549

9,4615

-3,4615

11,9822

1,2664

13

11,2637

1,7363

3,0146

0,2676

20

11,2637

8,7363

76,3223

6,7759

La suma de la ltima columna es el valor de chi-cuadrado

31,067

2 =
i =1 j =1

(t ij nij ) 2
tij

Tema 2
Anlisis de regresin
El anlisis de regresin consiste en la bsqueda de
una funcin que exprese la forma en que se
relaciona una variable dependiente (Y) con una o
ms variables independientes (X)
Nos ocuparemos slo del caso de regresin lineal
simple: una variable dependiente y otra independiente.
Se supone que la relacin entre las variables es
aproximadamente lineal (una recta). Una forma visual
de comprobar si es o no lineal la trayectoria de la
relacin entre las variables es mediante el denominado
diagrama de dispersin o nube de puntos.

Tema 2
Grfico de dispersin o Nube de puntos.
Es la representacin grfica en el plano del conjunto
de puntos (xi, yi) que constituyen los valores
bidimensionales de la variable bidimensional (X, Y).
Renta y mortalidad infantil en 6 pases
Mortalidad
100

110

130

140

140

150

Se observa una trayectoria


casi lineal

7,00

6,00

mortalidad

Renta

5,00

4,00

3,00

2,00
100,00

110,00

120,00

130,00

renta

140,00

150,00

Tema 2
Recta de regresin de Y sobre X.
La recta de regresin Y/X presenta la forma:

Y = a + bX
Variable dependiente
Ordenada
en el origen

Pendiente

Variable independiente

El objetivo es encontrar los valores a y b que definen la recta que se encuentra


a la mnima distancia de los puntos de la nube.
El procedimiento que permite encontrar dicha recta se denomina de mnimos
cuadrados

Tema 2
Recta de regresin de Y sobre X: Y/X: Y=a+bX
S = d i2 ni = ( yi y 'i ) 2 ni =
i

Renta y mortalidad infantil en 6 pases

= ( yi a bxi ) 2 ni

7,00

yi ni = a ni + b x i ni
i

x yn
i

i i

= a xi ni + b x 2i n i
i

Y=a+bX
6,00

yi

mortalidad

Para obtener el mnimo de S se


deriva la ecuacin anterior respecto
de a y b. El sistema de ecuaciones
generado viene dado por:

5,00

(xi, yi)
di=yi-yi

4,00

yi
3,00

2,00

Y la solucin a y b es:

x yn

i i i

N
b=
xi2 ni
i

100,00

110,00

120,00

xi130,00

140,00

renta

XY
X2

Cov( X , Y )
Var ( X )

a = Y bX

Nota: El estadstico Cov(X,Y) se


denomina covarianza de X e Y.

150,00

Tema 2
Recta de regresin de X sobre Y.
La recta de regresin X/Y presenta la forma:

X = a '+b' Y
Variable dependiente
Ordenada
en el origen

Pendiente

Variable independiente

El objetivo es encontrar los valores a y b que definen la recta que se encuentra


a la mnima distancia de los puntos de la nube.
El procedimiento que permite encontrar dicha recta se denomina de mnimos
cuadrados

Tema 2
Recta de regresin de X sobre Y: X/Y: X=a+bY
S = d i2 ni = ( xi x'i ) 2 ni =
i

Renta y mortalidad infantil en 6 pases

= ( xi a 'b' yi ) 2 ni

X=a+bY

7,00

xi ni = a' ni + b' y i ni
i

x y n
i

i i

di=xi-xi

6,00

mortalidad

Para obtener el mnimo de S se


deriva la ecuacin anterior respecto
de a y b. El sistema de ecuaciones
generado viene dado por:

5,00

(xi, yi)

4,00

= a ' yi ni + b' y 2i n i
i

3,00

2,00

Y la solucin a y b es:

x y n

i i i

N
b' =
yi2 ni
i

100,00

110,00

120,00

xi

XY
Y 2

Cov( X , Y )
Var (Y )

a ' = X b' Y

x130,00

renta i

140,00

150,00

Nota: Observa que el procedimientos es


el mismo salvo que se cambian los papeles
de X por Y. Las distancias ahora son
horizontales (paralelas al eje X).

Tema 2
Las rectas de regresin de Y sobre X y de X
sobre Y se cortan en el punto medio de las
variables. Cuando el ajuste es perfecto, las dos
rectas coinciden
Renta y mortalidad infantil en 6 pases

7,00

X = a '+b' Y

Y = a + bX
mortalidad

6,00

5,00

( X ,Y )

4,00

3,00

2,00
100,00

110,00

120,00

130,00

renta

140,00

150,00

Tema 2

Ejemplo:
Obtenga las rectas de regresin de Y sobre X y de X sobre Y.
X = a '+b' Y
Y=Mortalidad infantil, X=Renta per cpita Y = a + bX

Renta
100

Y = a + bX

Recta de regresin de Y sobre X:

Mortalidad

x y n

i i i

110

130

N
xi2 ni

140

140

150

b=

XY

a = Y bX

Cov( X , Y )
Var ( X )

X2

Para determinar a y b necesitamos los clculos que expresamos por comodidad


en las columnas de la tabla siguiente:
X=

Renta(X)

Mortalidad
(Y)

100

700

10000

110

550

12100

130

520

16900

140

420

19600

XY

x n

i i

X^2

140

280

19600

150

300

22500

770

23

2770

100700

770
= 128,333
6

x n

Y =

y n

i i

23
= 3,833
6

V (X ) =

X2 =

Cov( X , Y ) =

100700
128,3332 = 313,889
6

x y n
i

i i

XY =

2770
128,333 3.833 = 30,278
6

Cov( X , Y ) 30,278
b=
=
= 0,096
Var ( X )
313,889

a = Y bX = 3,833 (0,096 128,333) = 16,212

Tema 2

Ejemplo (contina):
La ecuacin de la recta de regresin de Y sobre X es:

Y = 16,212 0,096 X
X = a '+b' Y

Obtenga la recta de regresin de X sobre Y:


Renta(X)

b' =

Mortalida
d(Y)

XY

x y n

i i i

Y^2

100

700

49

110

550

25

130

520

16

140

420

140

280

150

300

770

23

2770

107

Cov ( X , Y ) 30,278
=
= 9,646
Var (Y )
3,139

N
b' =
yi2 ni
i

XY

Cov( X , Y )
Var (Y )

a ' = X b' Y

Y 2

y n
2

V (Y ) =

Y 2 =

107
3,8332 = 3,139
6

a ' = X b' Y = 128,333 (9,646 3,8333) = 165,310

X = 165,310 9,646Y

Tema 2

r=

Coeficiente de correlacin lineal de Pearson.


Un coeficiente muy usado para medir el grado de relacin lineal entre las
variables X e Y es el debido a Pearson, que notamos con r
Se define como el cociente entre la covarianza y el producto de las
desviaciones tpicas de las variables
Al coeficiente r al cuadrado se denomina coeficiente de determinacin y
expresa la proporcin de variacin de la variable dependiente que es
explicada por la independiente.
Tambin se usa como medida de bondad de ajuste. Una propiedad
interesante del coeficiente de correlacin lineal de Pearson es que est
comprendido entre los valores -1 y 1. El valor 0 indica ausencia de
correlacin lineal. Los valores -1 y 1 indican correlacin lineal perfecta
(todos los puntos estn sobre las rectas de regresin), el negativo indican
que cuando una variable crece (disminuye) la otra decrece (aumenta) y el
positivo indica que cuando una aumenta (disminuye) la otra tambin aumenta
(disminuye).
Se dice que la correlacin es ms dbil cuanto ms se aproxima a cero. Y
ms fuerte cuanto ms se aproxima a los extremos -1 1.

Cov( X , Y )

x y

1 r 1

Cov 2 ( X , Y ) Cov( X , Y ) Cov( X , Y )


r =
=

= b b'
V ( X ) V (Y )
V (X )
V (Y )
2

Tema 2

Ejemplo: Con los datos del ejemplo anterior determina el coeficiente de


correlacin lineal de Pearson y Coeficiente de determinacin. Interpretacin.
r2 =

(30,278) 2
Cov 2 ( X , Y )
= 0,930
=
V ( X ) V (Y ) 313,889 3,139

El 93% de la variabilidad de la variable dependiente es explicada por la independiente

r = 0,930 = 0,965

El coeficiente de correlacin lineal de Pearson presenta un valor negativo y prximo


a -1 (-0,965), por tanto, las variables estn relacionadas linealmente con fuerte grado
de relacin positiva. Es decir, cuanto mayor es la renta menor es la mortalidad.
Observa que el signo de la correlacin es el signo de la covarianza

Tema 2

Ejemplo: Con los datos del ejemplo anterior determina el coeficiente de


correlacin lineal de Pearson y Coeficiente de determinacin. Interpretacin.
r2 =

(30,278) 2
Cov 2 ( X , Y )
= 0,930
=
V ( X ) V (Y ) 313,889 3,139

El 93% de la variabilidad de la variable dependiente es explicada por la independiente

r = 0,930 = 0,965

El coeficiente de correlacin lineal de Pearson presenta un valor negativo y prximo


a -1 (-0,965), por tanto, las variables estn relacionadas linealmente con fuerte grado
de relacin negativa. Es decir, cuanto mayor es la renta menor es la mortalidad.
Observa que el signo de la correlacin es el signo de la covarianza

Tema 2

Ejemplo: Con los datos del ejemplo anterior determina la recta de regresin
de Test sobre Edad, el coeficiente de correlacin lineal de Pearson y
Coeficiente de determinacin. Interpretacin. Determina el valor esperado o
ajustado para el test para un nio de 10 aos.
Test = a + bEdad
TEST

Edad

r =

120

125

130

10

20

21

10

13

25

20

25

20

30

41

91

Cov ( X , Y )
X Y

Cov 2 ( X , Y )
r =
V ( X ) V (Y )
2

Test = a + b 10

Vamos a expresar la tabla en un formato ms cmodo para realizar los clculos:


3 columnas
Nota: Observa que en el ejemplo
que vimos anteriormente se omiti
Edad
Test
Frecuencias
la columna frecuencias por valer 1

Tema 2

Ejemplo (continuacin): La tabla siguiente recoge los clculos necesarios

Test=Y

frecuencias
=n

Xn

Yn

XYn

X^2n

Y^2n

120

10

50

1200

6000

250

144000

120

42

840

5040

252

100800

120

14

240

1680

98

28800

120

120

960

64

14400

125

40

1000

5000

200

125000

125

48

1000

6000

288

125000

125

10

70

1250

8750

490

156250

125

32

500

4000

256

62500

130

10

260

1300

50

33800

130

36

780

4680

216

101400

130

13

91

1690

11830

637

219700

130

20

160

2600

20800

1280

338000

601

11480

76040

4081

1449650

Edad=X

Test = a + bEdad Y = a + bX

Tema 2

Ejemplo (continuacin):

X=

601
11480
= 6,6044; Y =
= 126,1538
91
91

Cov( X , Y ) =

76040
6,6044 126,1538 = 2,4345
91

4081
V (X ) =
6,6044 2 = 1,2281
91

V (Y ) =

Test = a + bEdad Y = a + bX

2,4345
= 1,9823
1,2281
a = 126,1538 1,9823 6,6044 = 113,0619

b=

Test = 113,06 + 1,98Edad


132,86 = 113,06 + 1,98 10

1449650
126,15382 = 15,4269
91

Test = 113,06 + 1,98Edad

Cov 2 ( X , Y )
2,43452
r =
=
= 0,3128
V ( x) V (Y ) 1,2281 15,4269
r = 0,5593
2

También podría gustarte