Distribuciones Bidimensionales
Distribuciones Bidimensionales
Distribuciones Bidimensionales
ij
=N
O equivalente:
f
i
ij
=1
f ij =
nij
N
y2
yj
yq
x1
n11
n12
n1j
n1q
n1*
x2
n21
n22
n2j
n2q
n2*
Columna de
frecuencias
marginales
Frecuencia absoluta
xi
ni1
ni2
nij
niq
ni*
nij
fila
xp
np1
np2
npj
npq
np*
n*1
n*2
n*j
n*q
Fila de
frecuencias
marginales
columna
Total de
elementos en
la poblacin
y2
yj
yq
q
x1
x2
n11 n12
n21 n22
n1j
n2j
n1q n1*
Total fila 1
n1* = nij
j =1
n2q n2*
q
xi
ni1
ni2
nij
niq
ni*
xp
np1 np2
npj
n*1
n*j
n*2
Total de
elementos que
presentan el
valor yj
Total de elementos
que presentan el
valor xi
Total fila p
Total de
elementos en la
poblacin
Total
columna j
j =1
Total de elementos
que presentan
xi e yj
npq np*
n*q
ni* = nij
n* j = nij
i =1
n p* = n pj
j =1
N = nij
j =1 i =1
y2
yj
yq
x1
f11
f12
f1j
f1q
f1*
Total fila 1
x2
f21
f22
f2j
f2q
f2*
Total fila 2
Proporcin de
elementos
que presenta
el valor xi
q
f i* = f ij
j =1
xi
fi1
fi2
fij
fiq
fi*
xp
fp1
fp2
fpj
fpq
fp*
f*1
f*2
f*j
f*q
Proporcin de
elementos
que presenta
xi e yj
q
1 = f ij
j =1 i =1
Proporcin de
elementos que
presenta el valor
yj
Total
columna j
p
f* j = f ij
i =1
Total
columna q
Condicionadas:
q distribuciones condicionadas de los valores de X a los q valores de Y
p distribuciones condicionadas de los valores de Y a los p valores de X
MARGINAL DE X
X
ni*
fi*
x1
n1*
f1*
x2
n2*
f2*
xi
ni*
fi*
xp
np*
fp*
f i* =
ni*
N
MARGINAL DE Y
Y
y1
y2
yj
yq
n*j
n*1
n*2
n*j
n*q
f*j
f*1
f*2
f*j
f*q
f* j =
n* j
N
CONDICIONAL DE X / Y=yj
X
nij
fi/j
x1
n1j
n1j/n*j=f1/j
x2
n2j
n2j /n*j=f2/j
xi
nij
nij /n*j=fi/j
xp
npj
npj /n*j=fp/j
n*j
Total de elementos en
la subpoblacin
CONDICIONAL DE Y / X=xi
Total de
elementos en
la subpoblacin
y1
y2
yj
yq
nij
ni1
ni2
nij
niq
ni*
fj/i
ni1/ni*
=f1/i
ni2/ni*
=f2/i
nij/ni*
=fj/i
niq/ni*
=fq/i
Frecuencias absolutas
f ij =
TEST
Edad
120
125
130
10
20
21
10
13
25
20
25
20
30
41
nij
N
TEST
Edad
0,110 =
91
0,220 =
10
91
20
91
120
125
130
0,110
0,088
0,022
0,220
0,077
0,088
0,066
0,231
0,022
0,110
0,143
0,275
0,011
0,044
0,220
0,275
0,220
0,330
0,451
1,000
En frecuencias relativas
TEST
TEST
Marginal
Marginal
Edad
Marginal
120
125
130
10
20
21
10
13
25
20
25
20
30
41
Edad
91
Marginal
120
125
130
0,110
0,088
0,022
0,220
0,077
0,088
0,066
0,231
0,022
0,110
0,143
0,275
0,011
0,044
0,220
0,275
0,220
0,330
0,451
1,000
Edad
Distribucin marginal
Del Test
nmero de
alumnos
TEST
Proporcin
de alumnos
20
0,220
21
0,231
25
0,275
25
0,275
91
proporcin de
alumnos
120
20
0,220
125
30
0,330
130
41
0,451
91
Distribucin bidimensional
TEST
TEST
Edad
Edad
120
125
130
10
20
21
10
13
25
20
25
20
30
41
91
120
125
130
0,500
0,267
0,049
0,220
0,350
0,267
0,146
0,231
0,100
0,333
0,317
0,275
0,050
0,133
0,488
0,275
1,000
1,000
1,000
1,000
Cmo se hace?
Se divide cada casilla de la bidimensional (tabla izquierda) entre el total de columna.
Las flechas de la tabla indican la direccin en que se han de hacer los clculos
Por ejemplo, para obtener la distribucin condicionada de la Edad / test =120 se divide
cada casilla de la columna encabezada por 120 por el total de columna (20). Observa
que la poblacin que cumple esa condicin es de 20 nios.
Observa que la ltima fila est formada por unos. Hay 3 distribuciones condicionadas.
Una marginal.
TEST
Edad
Edad
120
125
130
0,500
0,267
0,049
0,220
120
125
130
0,110
0,088
0,022
0,220
0,350
0,267
0,146
0,231
0,077
0,088
0,066
0,231
0,100
0,333
0,317
0,275
0,022
0,110
0,143
0,275
0,050
0,133
0,488
0,275
0,011
0,044
0,220
0,275
1,000
1,000
1,000
1,000
0,220
0,330
0,451
1,000
Las flechas de la tabla indican la direccin en que se han de hacer los clculos
Por ejemplo, para obtener la distribucin condicionada de la Edad / test =120 se divide
cada casilla de la columna encabezada por 120 por el total de columna (0,022). Observa
que la poblacin que cumple esa condicin es de una proporcin igual a 0,022 nios.
Observa que la ltima fila est formada por unos. Hay 3 distribuciones condicionadas
de la Edad. Una marginal de la Edad.
Tema 2
Ejemplo (continuacin)
Distribuciones condicionadas del Test a los valores de la edad
Distribucin bidimensional
Distribuciones condicionadas del Test
TEST
TEST
Edad
Edad
120
125
130
0,110
0,088
0,022
0,220
5
0,077
0,088
0,066
0,231
6
0,022
0,110
0,143
0,275
0,011
0,044
0,220
0,275
120
125
130
0,500
0,400
0,100
0,333
0,381
0,286
0,080
0,400
0,520
0,040
0,160
0,800
0,220
0,330
0,451
Cmo se hace?
0,330
0,451
1,000
Por ejemplo, para obtener la distribucin condicionada del test /Edad=6 aos se divide cada casilla de la
fila encabezada por 6 entre el total de fila (0,231). Observa que la poblacin que cumple esa condicin
es de una proporcin igual a 0,231 nios.
Observa que la ltima columna est formada por unos. Hay 4 distribuciones condicionadas
del test. Y la marginal del test.
Tema 2
Uno de los objetivos del anlisis de distribuciones
bidimensionales es estudiar si son independientes o por el
contrario, existe asociacin o relacin entre las variables X e Y.
Las variables X e Y se dicen que son independientes si los
valores de una de ellas no afecta a la distribucin de la otra. Esto
equivale a decir que todas las distribuciones condicionadas
sean iguales.
De modo equivalente se dice que las variables X e Y son
independientes si se cumple que la frecuencia relativa conjunta
es igual al producto de las frecuencias relativas marginales.
Si las variables no son independientes se dice que estn
relacionadas o asociadas. Las distribuciones condicionadas NO
son iguales.
Tema 2
Ejemplo:
Comprueba si son o no independientes las variables X e Y de la distribucin
bidimensional (X, Y) siguiente:
y2
x1
23
69
92
x2
12
36
48
x3
15
45
60
x4
21
28
57
171
228
Clculo
y1
Lectura
y2
x1
0,404
0,404
0,404
x2
0,211
0,211
0,211
x3
0,263
0,263
0,263
x4
0,123
0,123
0,123
La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan realizado los clculos; es decir, en el
ejemplo la lectura es horizontal: Fila 1: 0,404 = 0,404; Fila 2: 0,211=0,211; Fila 3: 0,263=0,263; Fila 4: 0,123=0,123.
Todas las condicionadas son iguales. Por tanto las variables X e Y son INDEPENDIENTES
Tema 2
Ejemplo (Continuacin):
Comprueba si son o no independientes las variables X e Y de la distribucin bidimensional (X, Y)
siguiente:
Clculo
y1
y2
x1
23
69
92
x2
12
36
48
x3
15
45
60
x4
21
28
57
171
228
y2
Lectura
x1
0,250
0,750
1,000
x2
0,250
0,750
1,000
x3
0,250
0,750
1,000
x4
0,250
0,750
1,000
0,25
0,75
La lectura de la tabla de condicionadas se hace en sentido contrario al que se hayan realizado los clculos; es decir, en el
ejemplo la lectura es vertical: Columna 1: 0,250 = 0,250 =0,250 = 0,250 ;Columna 2: 0,750=0,750=0,750=0,750.
Todas las condicionadas son iguales. Por tanto las variables X e Y son INDEPENDIENTES
Tema 2
Ejemplo (Continuacin):
Comprueba si son o no independientes las variables X e Y de la distribucin bidimensional (X, Y)
siguiente: (Puedes hacerlo con frecuencias absolutas o con relativas)
y1
y2
x1
23
69
92
x2
12
36
48
x3
15
45
60
x4
21
28
57
171
228
f ij = f i* f* j
O la equivalente
Cmo?
y2
x1
0,101
0,303
0,404
x2
0,053
0,158
0,211
x3
0,066
0,197
0,263
x4
0,031
0,092
0,123
0,250
0,750
1,000
nij =
15 =
ni* n* j
N
60 57
228
Cmo?
si prefieres usar la primera ecuacin:
Se obtiene la distribucin bidimensional en
frecuencias relativas. Para ello divide cada casilla
correspondiente a una frecuencia absoluta entre 228
Por ejemplo, 0,101=23/228.
Comprueba luego que se verifica 0,101=0,0404 por 0,.250; 0,303= 0,404 por 0,750; ..,
0,092 = 0,123 por 0,750.
Tema 2
Ejemplo (repaso)
TEST
Edad
120
125
130
0,500
0,400
0,100
0,333
0,381
0,286
0,080
0,400
0,520
0,040
0,160
0,800
0,220
0,330
0,451
120
125
130
0,040
0,160
0,800
=
2
i =1 j =1
(t ij nij ) 2
tij
Con
t ij =
n i* n* j
N
Tema 2
Ejemplo:
Vamos a calcular este estadstico en los dos
ejemplos anteriores.
y1
y2
x1
23
69
92
x2
12
36
48
x3
15
45
60
x4
21
28
57
171
228
=
2
(t ij nij ) 2
tij
i =1 j =1
Con
t ij =
n i* n* j
N
Observa que:
t 11=
92 57
92 171
28 171
= 23; t 12 =
= 69;...;t 42 =
= 21
228
228
228
Observa que todo tij coincide con lo observado realmente (nij) y los numeradores
de la expresin de Chi-cuadrado son todos nulos, y por tanto la suma y
Chi-cuadrado es cero.
Tema 2
Ejemplo:Veamos el valor de chi-cuadrado en la
tabla siguiente:
p
2 =
TEST
Edad
t 11=
(t ij nij ) 2
i =1 j =1
120
125
130
10
20
21
10
13
25
20
25
20
30
41
91
Con
t ij =
tij
n i* n* j
N
20 20
20 30
25 41
= 4,396; t 12 =
= 6,593;...;t 43 =
= 11,264
91
91
91
Para realizar los clculos es cmodo colocar columnas que indiquen los pasos
sucesivos a realizar para obtener el estadstico:
Tema 2
Ejemplo:Veamos el valor de chi-cuadrado en la tabla siguiente:
Valores observados (nij)
TEST
TEST
Edad
Edad
t 11=
120
125
130
10
20
21
10
13
25
20
25
20
30
41
91
120
125
130
4,396
6,593
9,011
20
4,615
6,923
9,462
21
5,495
8,242
11,264
25
5,495
8,242
11,264
25
20
30
41
91
20 20
20 30
25 41
= 4,396; t 12 =
= 6,593;...;t 43 =
= 11,264
91
91
91
Para realizar los clculos es cmodo colocar columnas que indiquen los pasos
sucesivos a realizar para obtener el estadstico:
Tema 2
Ejemplo:Clculo chi-cuadrado (continuacin):
La tabla siguiente indica los clculos necesarios
nij
tij
nij-tij
(nij-tij)^2
(nij-tij)^2 / tij
10
4,3956
5,6044
31,4093
7,1456
4,6154
2,3846
5,6864
1,2321
5,4945
-3,4945
12,2116
2,2225
5,4945
-4,4945
20,2006
3,6765
6,5934
1,4066
1,9785
0,3001
6,9231
1,0769
1,1598
0,1675
10
8,2418
1,7582
3,0914
0,3751
8,2418
-4,2418
17,9925
2,1831
9,0110
-7,0110
49,1540
5,4549
9,4615
-3,4615
11,9822
1,2664
13
11,2637
1,7363
3,0146
0,2676
20
11,2637
8,7363
76,3223
6,7759
31,067
2 =
i =1 j =1
(t ij nij ) 2
tij
Tema 2
Anlisis de regresin
El anlisis de regresin consiste en la bsqueda de
una funcin que exprese la forma en que se
relaciona una variable dependiente (Y) con una o
ms variables independientes (X)
Nos ocuparemos slo del caso de regresin lineal
simple: una variable dependiente y otra independiente.
Se supone que la relacin entre las variables es
aproximadamente lineal (una recta). Una forma visual
de comprobar si es o no lineal la trayectoria de la
relacin entre las variables es mediante el denominado
diagrama de dispersin o nube de puntos.
Tema 2
Grfico de dispersin o Nube de puntos.
Es la representacin grfica en el plano del conjunto
de puntos (xi, yi) que constituyen los valores
bidimensionales de la variable bidimensional (X, Y).
Renta y mortalidad infantil en 6 pases
Mortalidad
100
110
130
140
140
150
7,00
6,00
mortalidad
Renta
5,00
4,00
3,00
2,00
100,00
110,00
120,00
130,00
renta
140,00
150,00
Tema 2
Recta de regresin de Y sobre X.
La recta de regresin Y/X presenta la forma:
Y = a + bX
Variable dependiente
Ordenada
en el origen
Pendiente
Variable independiente
Tema 2
Recta de regresin de Y sobre X: Y/X: Y=a+bX
S = d i2 ni = ( yi y 'i ) 2 ni =
i
= ( yi a bxi ) 2 ni
7,00
yi ni = a ni + b x i ni
i
x yn
i
i i
= a xi ni + b x 2i n i
i
Y=a+bX
6,00
yi
mortalidad
5,00
(xi, yi)
di=yi-yi
4,00
yi
3,00
2,00
Y la solucin a y b es:
x yn
i i i
N
b=
xi2 ni
i
100,00
110,00
120,00
xi130,00
140,00
renta
XY
X2
Cov( X , Y )
Var ( X )
a = Y bX
150,00
Tema 2
Recta de regresin de X sobre Y.
La recta de regresin X/Y presenta la forma:
X = a '+b' Y
Variable dependiente
Ordenada
en el origen
Pendiente
Variable independiente
Tema 2
Recta de regresin de X sobre Y: X/Y: X=a+bY
S = d i2 ni = ( xi x'i ) 2 ni =
i
= ( xi a 'b' yi ) 2 ni
X=a+bY
7,00
xi ni = a' ni + b' y i ni
i
x y n
i
i i
di=xi-xi
6,00
mortalidad
5,00
(xi, yi)
4,00
= a ' yi ni + b' y 2i n i
i
3,00
2,00
Y la solucin a y b es:
x y n
i i i
N
b' =
yi2 ni
i
100,00
110,00
120,00
xi
XY
Y 2
Cov( X , Y )
Var (Y )
a ' = X b' Y
x130,00
renta i
140,00
150,00
Tema 2
Las rectas de regresin de Y sobre X y de X
sobre Y se cortan en el punto medio de las
variables. Cuando el ajuste es perfecto, las dos
rectas coinciden
Renta y mortalidad infantil en 6 pases
7,00
X = a '+b' Y
Y = a + bX
mortalidad
6,00
5,00
( X ,Y )
4,00
3,00
2,00
100,00
110,00
120,00
130,00
renta
140,00
150,00
Tema 2
Ejemplo:
Obtenga las rectas de regresin de Y sobre X y de X sobre Y.
X = a '+b' Y
Y=Mortalidad infantil, X=Renta per cpita Y = a + bX
Renta
100
Y = a + bX
Mortalidad
x y n
i i i
110
130
N
xi2 ni
140
140
150
b=
XY
a = Y bX
Cov( X , Y )
Var ( X )
X2
Renta(X)
Mortalidad
(Y)
100
700
10000
110
550
12100
130
520
16900
140
420
19600
XY
x n
i i
X^2
140
280
19600
150
300
22500
770
23
2770
100700
770
= 128,333
6
x n
Y =
y n
i i
23
= 3,833
6
V (X ) =
X2 =
Cov( X , Y ) =
100700
128,3332 = 313,889
6
x y n
i
i i
XY =
2770
128,333 3.833 = 30,278
6
Cov( X , Y ) 30,278
b=
=
= 0,096
Var ( X )
313,889
Tema 2
Ejemplo (contina):
La ecuacin de la recta de regresin de Y sobre X es:
Y = 16,212 0,096 X
X = a '+b' Y
b' =
Mortalida
d(Y)
XY
x y n
i i i
Y^2
100
700
49
110
550
25
130
520
16
140
420
140
280
150
300
770
23
2770
107
Cov ( X , Y ) 30,278
=
= 9,646
Var (Y )
3,139
N
b' =
yi2 ni
i
XY
Cov( X , Y )
Var (Y )
a ' = X b' Y
Y 2
y n
2
V (Y ) =
Y 2 =
107
3,8332 = 3,139
6
X = 165,310 9,646Y
Tema 2
r=
Cov( X , Y )
x y
1 r 1
= b b'
V ( X ) V (Y )
V (X )
V (Y )
2
Tema 2
(30,278) 2
Cov 2 ( X , Y )
= 0,930
=
V ( X ) V (Y ) 313,889 3,139
r = 0,930 = 0,965
Tema 2
(30,278) 2
Cov 2 ( X , Y )
= 0,930
=
V ( X ) V (Y ) 313,889 3,139
r = 0,930 = 0,965
Tema 2
Ejemplo: Con los datos del ejemplo anterior determina la recta de regresin
de Test sobre Edad, el coeficiente de correlacin lineal de Pearson y
Coeficiente de determinacin. Interpretacin. Determina el valor esperado o
ajustado para el test para un nio de 10 aos.
Test = a + bEdad
TEST
Edad
r =
120
125
130
10
20
21
10
13
25
20
25
20
30
41
91
Cov ( X , Y )
X Y
Cov 2 ( X , Y )
r =
V ( X ) V (Y )
2
Test = a + b 10
Tema 2
Test=Y
frecuencias
=n
Xn
Yn
XYn
X^2n
Y^2n
120
10
50
1200
6000
250
144000
120
42
840
5040
252
100800
120
14
240
1680
98
28800
120
120
960
64
14400
125
40
1000
5000
200
125000
125
48
1000
6000
288
125000
125
10
70
1250
8750
490
156250
125
32
500
4000
256
62500
130
10
260
1300
50
33800
130
36
780
4680
216
101400
130
13
91
1690
11830
637
219700
130
20
160
2600
20800
1280
338000
601
11480
76040
4081
1449650
Edad=X
Test = a + bEdad Y = a + bX
Tema 2
Ejemplo (continuacin):
X=
601
11480
= 6,6044; Y =
= 126,1538
91
91
Cov( X , Y ) =
76040
6,6044 126,1538 = 2,4345
91
4081
V (X ) =
6,6044 2 = 1,2281
91
V (Y ) =
Test = a + bEdad Y = a + bX
2,4345
= 1,9823
1,2281
a = 126,1538 1,9823 6,6044 = 113,0619
b=
1449650
126,15382 = 15,4269
91
Cov 2 ( X , Y )
2,43452
r =
=
= 0,3128
V ( x) V (Y ) 1,2281 15,4269
r = 0,5593
2