IVc Regresion Lineal y Correlacion PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 35

Regresión Lineal y Correlación

Ing. Jorge P. Calderón Velásquez


[email protected]
Programa de Mejoramiento Animal

Conceptos generales

• En el estudio del comportamiento de los valores productivos


(características o variables) en la zootecnia, se ha observado
que muchas características comparten genes en su
manifestación (efecto pleitrópico), por tanto podemos indicar
que la variación en una característica está relacionada con la
variación de la otra característica.
• De existir la relación anterior, se desea saber si las variaciones
de una de ellas (variable independiente) provocan variaciones
en la magnitud de la otra característica (variable dependiente),
que es quizás la característica en evaluación o selección.

...

• En el análisis de varianza se ha analizado la variación de una


característica debido a los tratamientos a la que se ha sometido
(respuesta), a la que hemos atribuido que el efecto en la
variación es debido exclusivamente a los tratamientos o
factores determinados en el modelo.
• En algunos casos es necesario considerar, en la misma unidad
experimental, varias medidas con la finalidad de poder evaluar
el efecto principal de los tratamientos.
• En el caso de unidades experimentales que refiere animales,
debemos indicar, por ejemplo, si el peso inicial al experimento
fue homogéneo en todas las unidades experimentales
asignadas a los tratamientos, si se está evaluando pesos.
3

Jorge P.Calderón Velásquez 1


...

• De la misma manera, podemos indicar una serie de caracteres


que pueden de alguna forma influenciar en la variación de la
característica en evaluación.
• Una forma de estudiar la dependencia entre dos características
es por medio de la regresión.
• El análisis del coeficiente de regresión entre dos variables
(variables concomitantes) nos permitirá determinar
(estadísticamente) si la posible influencia en la variación de la
característica en evaluación es debido en mayor grado a la
variación de la primera variable (carácter independiente), lo
que indicaría corregir los valores observados para su análisis.

...

• Cuando analizamos dos variables, una pregunta se hace


importante, como determinamos y que tipo de análisis
deberíamos de hacer.
• Es el propósito explorar la naturaleza de la relación,
relación o es el
propósito de usar una variable para explicar la variación en otra
variable.
• Consecuentemente, necesitamos distinguir entre un análisis de
correlación en el cual solamente la fuerza de la relación será
descrita, o una regresión en donde una variable será usada
para predecir el valor de una segunda variable.

Objetivos

• Construir los diagramas de dispersión para evaluar la relación


entre variables cuantitativas
• Elaborar y dibujar la recta de regresión
• Interpretar los parámetros de la recta: altura o intercepto y
pendiente o coeficiente de regresión.
• Hacer inferencias sobre la pendiente o coeficiente de regresión
• Calcular e interpretar los coeficientes de determinación y de
correlación
• Interpretar los cambios producidos en el modelo de predicción
al incorporar más de una variable predictora.

Jorge P.Calderón Velásquez 2


Tipos de regresión

• La regresión entre dos características puede ser lineal o


curvilínea.
• Se dice que es lineal cuando las variaciones de la característica
dependiente está ligada proporcionalmente con las variaciones
de la característica independiente.
• La regresión es curvilínea cuando no hay una dependencia de
constante proporcionalidad.

...

• Se indica que una variable es independiente cuando es capaz


de influenciar en la variación de la otra característica, en
producción animal frecuentemente es la primera característica
en manifestarse en el orden sucesivo.
• Una variable es dependiente cuando es capaz de ser
influenciada por la otra característica.

Ecuación

• Ostle (1979), indica que el modelo matemático para las


relaciones funcionales está representada por:

   ( X 1 ... X p | 1 ... q )

• donde:
= Variable respuesta (dependiente)
Xi = Variable independiente (i = 1, ... , p)
j = Parámetro de la función (j = 1, ... , q)

Jorge P.Calderón Velásquez 3


Regresión lineal

• Modelo y ecuación:

Yi  Y . X   i     X i   i

Yi     ( X i  X )   i

• donde:
 = Parámetros de la ecuación a ser estimados
 = Valor de la intercepción de Y poblacional, cuando X = 0
 = Pendiente de la línea a través de la media de la población
de Y.
X = Variable independiente.

10

Modelos de regresión lineal

• Modelo Tipo I
– Se considera Modelo Tipo I cuando los valores de la variable
independiente son considerados como fijos (X’s).
– Para este modelo el investigador selecciona los valores de X,
entendiéndose que los valores de la variable dependiente son aleatorias.
– Se puede presentar tres casos de variación en la toma de la muestra.
• Modelo Tipo II
– Se considera Modelo Tipo II cuando los valores de la variable
independiente son considerados como aleatorios (X’s).

11

Regresión de Y sobre X; error de medición en Xi


Y  X    X
 X i ' , Yi  .  X i , Yi  .
X ,  
i Y Xi

X ,  
i Y Xi

X ,  
i' Y  X i'

 unidades Y . X    X i
i

Y . X    X i'
i'

  Y .0

1 X’i Xi X
12

Jorge P.Calderón Velásquez 4


Estimación del Modelo

• El criterio de optimización es frecuentemente por mínimos


cuadrados, ya que la recta que mejor se ajusta a la
distribución de puntos (valores) será aquella que cumpla:

Yi  a  bX i  e i
N N

e  
i 1
2
i
i 1
2
i
Mínimo

 e   Y  Yˆi    Yi  a  bX i 
N N N
2 2 2
Mínimo
i i
i 1 i 1 i 1

13

Estimación de los parámetros

• La estimación de los parámetros se parte de una muestra


(supuestamente representativa) de valores (Xi,Yi),
calculándose los valores de a, b de modo tal que cumpla la
condición indicada (mínimo):

 n 2
 Yi  a  bX i    0
â  i  i

 n 2
 Yi  a  bX i    0
b  i  i
14

...

• entonces:
n
2 Yi  a  bX i  1  0
i 1
n
2 Yi  a  bX i  X i   0
i 1

• operando
n

 Y
i 1
i  a  bX i   0

 Y X 
n

i i  aX 1  bX 12  0
i 1

15

Jorge P.Calderón Velásquez 5


...

• desarrollando la ecuación:
n n n

 Y   aˆ  bX
i 1
i
i 1 i 1
i 0
n n n

 Y X   aˆX  bX
i 1
i i
i 1
i
i 1
2
i 0
n
si  aˆ  Naˆ
i 1

• las ecuaciones normales son:


n n

Y
i 1
i  Naˆ  b X i
i 1
n n n

 Yi X i  aˆ  X i  b X i2
i 1 i 1 i 1

16

...

• despejando â en ambas ecuaciones normales:


n n n n

Y i  b X i X Y i i  b X i2
aˆ  i 1 i 1
aˆ  i 1
n
i 1

X
N
i
i 1
• igualando ambas ecuaciones:
n n n n

Y i  b X i X Y i i  b X i2
i 1 i 1
 i 1
n
i 1

X
N
i
i 1

 n n

n   Yi  b X i  n n


i 1
Xi 

i 1
N
i 1
   X iYi  b X i2
 i 1 i 1

 
17

Deducción de los parámetros

• deduciendo el Coeficiente de regresión (b):


  n  
2
n n
n  Xi   n  X i  Yi

b  Xi    
 
i 1
2
 X iYi  i 1 i 1
 i 1 N i 1 N
 
 

n n

n  X Y i i

X Y i i  i 1
N
i 1

b i 1
2
 n 
 Xi 
 i 1 
n


i 1
X 
N
i
2

18

Jorge P.Calderón Velásquez 6


Deducción de los parámetros

• estimación de â

n n

Y i X i
aˆ  i 1
b i 1
N N

aˆ  Y  bX

19

Características del Coeficiente de Regresión

1. b es una estimación del parámetro  de la población


respectiva.
2. b mide la pendiente de la línea de regresión, cuanto más alto
es su valor absoluto, mayor es la pendiente.
3 Si b es positivo,
3. positivo la línea de regresión es ascendente de
izquierda a derecha, y si es negativo, la línea es descendente
de izquierda a derecha.
4. b es el promedio de los incrementos de Y debido a los
aumentos unitarios de X, y -b es el promedio de las
disminuciones de Y debido a los aumentos unitarios de X.
5. b está dado en unidades de la característica o variable
dependiente.

20

Características del Coeficiente de Regresión

6. bYX expresa la regresión de Y sobre X.


7. El coeficiente de correlación (r), es la raíz cuadrada del
producto de la regresión de Y sobre X por la regresión de X
sobre Y.

r  bY . X bX .Y

8. Los coeficientes, tantos de la regresión como de la correlación


debe tener el mismo signo.

21

Jorge P.Calderón Velásquez 7


Propiedades de la línea de regresión

1. El punto (X,Y) es un punto de la línea de regresión.


2. La suma de las desviaciones de la línea de regresión es cero.
 Y
i  Yˆi   0
Una desviación o residual es la diferencia entre el valor
observado y el correspondiente valor estimado de la media de
la población. Además, la suma ponderada por X es igual a
cero.
 X Y i i  Yˆi   0
3. La suma de los cuadrados de los residuales es un mínimo.

22

Fuentes de Variación en la Línea de Regresión

Fuentes de variación en Y  X , Y  . e  Y  Yˆ
Y

X , Yˆ 

Yˆ  Y  b X  X 

Yˆ  Y  b X  X 
X , Y   X ,Y 

X
23

Fuentes de variación

• El modelo de regresión lineal considera una observación como


la suma de la media ( =  + X) y un componente aleatorio
.
• Desde que hay diferentes valores de X observados, diferentes
medias de la población son también involucrados y que
contribuyen a la varianza total. Entonces, estas dos fuentes de
variación son la media y el componente aleatorio.
• La variación atribuido a la media puede ser considerado
atribuible a X, debido a que X determina la media.

Y  Y  Yˆ  Y   Y  Yˆ   b X  X   eY . X

24

Jorge P.Calderón Velásquez 8


Fuentes de variación

• Atribuible a la media

nY 2 
 Y  2

• atribuible a la regresión

b 2  X  X  
2  X  X Y  Y  2

 X  X 
2

• atribuible al error, Suma de Cuadrados del error o residuo


e 2
Y .X

25

Fuentes de variación
• Ecuaciones derivadas:
Y  Y  b X  X   eY . X

Y  nY 2  b 2   X  X    eY2 . X
2 2

 Y    X  X Y  Y 
2 2

Y 2
  SC residual
 X  X 
2
n

SC b | a  
 X  X Y  Y  2

 X  X 
2

SC b | a   b X  X Y  Y   b 2  X  X    Yˆ  Y
2
 
2

26

Análisis de Varianza de la Regresión

grados
Suma de Cuadrado
Fuente de Variación de F
Cuadrado Medio
libertad
Debido a la regresión 1  X  X Y  Y  /  X  X 
2 2
SCb /glb CMb /
Error n-2  Y  Yˆ 
2
SCe /gle CMerror
Total n-1  Y Y 
2

27

Jorge P.Calderón Velásquez 9


Fuentes de Variación en la línea de regresión

Fuente de
Individual Todo el grupo
Variación

 Yˆ 2
Regresión (Yˆ  Y ) i Y SC Regresión

 Y  Yˆi 
2
Residual (Y  Yˆ ) i SC Residual

Total (Y  Y )  Y i Y 2 SC Total

28

SC Total  SC Regresión  SC Residual

Coeficiente de Determinación r2:

SC Regresión 1 SC Regresión SC Total


r2   
SCTotal 0 SC Residual  SC Total

Parte de la variabilidad de la Y explicada por la X

29

Varianzas de los parámetros de la regresión

• Varianza del coeficiente de regresión


sY2 . X
sb2 
 X  X 
2

 X  X Y  Y  2

 Y  Y 
2

 Y  Y   X  X 
2 2

sY2 . X  
n2 n2
• Varianza de un estimado, de la media Y para una X dada.

1
sY2ˆ  sY2 . X  
X  X 2 
 X  X  
2

n

30

Jorge P.Calderón Velásquez 10


Intervalo de Confianza e Intervalo de Predicción
para la media poblacional.
• Intervalo de confianza, t de student con n-2 grados de libertad

CI Y . X   Y  b X  X   t 0.025 sY . X
1

X  X  2

n  X  X 2

• Intervalo de confianza de la predicción del valor medio:

CI Y . X   Y  b X  X   2 F0.05 2, n  2 gl sY . X


1

X  X 2

n   X  X 2

31

Intervalo de confianza del coeficiente de regresión

• El intervalo de confianza del coeficiente de regresión depende


de la varianza del coeficiente, y está dado por:

CI    b 
t 0.025 sY . X

 X  X 
2

32

Prueba de Hipótesis

• Prueba para la Hipótesis nula que la media de la población de


Y’s, para una X=X0, es Y.X0, se realiza determinando t, con n-2
grados de libertad.
YˆX 0  Y . X 0
t
1
sY2 . X  
 X 0  X 2 
 n   X  X  
2

• Prueba para la Hipótesis nula que b=b0, se determina t, con


n-2 grados de libertad, alternativamente puede ser F.
b  0
t
sY2 . X
 X  X 
2

33

Jorge P.Calderón Velásquez 11


Valores ajustados

• Los valores determinados por la ecuación de regresión,


regresión o valores regresionados, son estimados por los
parámetros de la población.
• Los valores ajustados tiene removido la contribución de la
regresión esto indica que cada valor de Y,
regresión, Y fue movido
paralelamente a la línea de regresión hasta un valor de X,
entonces la medida es un valor nuevo o ajustado de Y.

Y Ajustado  Y  eY . X  Yi  b X i  X 

34

Valores ajustados de Y a un valor de X igual a X

Yˆ  a  bX
Y

Y1
Y2 Y1  Y2

Y’2
Y2'  Y1'
Y’1

0
X X
35

Modelo aditivo de la regresión lineal

• Para cada valor de X hay una distribución normal de Y’s, de la


que la Y muestreada se obtiene al azar (Ver gráfico).
• Los promedios  de todas las poblaciones se hallan en una
línea recta, que es la línea de regresión paramétrica dada.

Y . X     X i
• Todas las poblaciones involucradas en la regresión son
normalmente distribuidos, con varianza común 2. La suma de
los errores () es igual a cero.

36

Jorge P.Calderón Velásquez 12


Distribución normal de Y para un X dado

2
Y=+X

2

2

x1 x2 xi

37

Valor de Predicción y su varianza

• Uno de los usos de la regresión es el uso en la predicción de


los valores futuros, bajo ciertas condiciones.
• La varianza de un valor predicho Y está dado por la ecuación:
 Y2 . X  Y2 . X
pred Y )   Y2 . X   X  X 
2
V(p
 X  X 
2
n

 1
V ( pred Y )   Y2 . X  1  
 X  X 2 
 n   X  X 2 
 


s 2  pred Y   sY2 . X  1  
1  X  X 2 
 n   X  X 2 
 
38

Intervalo de confianza para valores predecidos

• El intervalo de confianza para un valor futuro o predicho, se


distribuye con una distribución t de student, con n-2 grados de
libertad:

CI ( pred Y )  Y  b X  X   t 0.025 sY . X 1 
1

X  X  2

n   X  X 2

39

Jorge P.Calderón Velásquez 13


Intervalo de confidencia de la línea de regresión

40

Líneas de regresión e Intervalo de Confianza

41

Intervalo de confidencia e intervalo de predicción

42

Jorge P.Calderón Velásquez 14


Ejemplo 1.
• Se desea estudiar la influencia del peso al nacimiento en
terneros de carne, sobre el Peso al destete, para lo cual se
tiene la siguiente información:
Peso Nacimiento Peso Destete Peso Nacimiento Peso Destete
22.40 157.80 42.80 268.50
40 30
40.30 218 10
218.10 26 20
26.20 176 60
176.60
30.80 145.50 32.40 237.00
21.00 163.80 41.20 288.00
20.60 187.50 39.60 216.90
43.20 283.50 38.80 265.80
31.00 180.60 43.10 219.60
24.20 223.50 22.80 218.70
27.00 220.90 37.40 249.60
42.60 265.50 43.40 288.60
28.50 201.70
43

Desarrollo de las fórmulas para determinar el Análisis de


Varianza.

X = Peso al nacimiento
Y = Peso al destete

 X  699.30 X 2
 24,707.59
 Y  4,707.70 Y 2
 1,089,898.23
X  33.30 Y  224.18
 XY  162,186.20
n  21
s X2  71.05 sY2  1,727.20

44

162,186.20 
699.304,707.70
21 5,419.79
b   3.8143
24,707.59 
699.302 1,420.90
21

SC ( X )  24,707.59 
699.302  1,420.90
21

SP ( X , Y )  162,186.20 
699.304,707.70  5,419.79
21

SP ( X , Y ) 5,419.79
b   3.8143
SC ( X ) 1,420.90

45

Jorge P.Calderón Velásquez 15


SC Re gresión   Yˆ  Y  
2  X  X Y  Y  2


 X  X 
2

SC Re gresión  b  X  X Y  Y   b 2   X  X 
2

 699.304,707.70 2

162,186.20  
 
21
SC Re gresión
24,707.59 
699.302
21

29,374,123.64
SC Re gresión   20,672.90
1,420.90

CM Re gresión  20,672.90

46

SC Error   Y  Yˆ    Y  Y  
2 2  X  X Y  Y  2

 X  X 
2


162,186.20 
699.304,707.70 2


 1,089,898.23 
4,707.702    21 
SC Error 
E
 21  24,707.59 
699.30
2

21

29,734,123.6441
SC Error  34,543.9781   13,871.0781
1,420.90

13,871.0781
CM Error   730.05674
21  2

47

Análisis de Varianza - Resumen

Fuente de Grados de Suma de Cuadrado


F
Variación libertad Cuadrados Medio

Regresión 1 20,672.9000 20,672.90000 28.316

Error 19 13,871.0781 730.05674

Total 20 34,453.9781

48

Jorge P.Calderón Velásquez 16


Prueba de Hipótesis
H 0  El Peso al Nacimiento no está relacionada con el Peso al Destete

H0    0

b  0
t
sY2  X
 X  X 
2

3.8143 3.8143 3.8143


t    5.3213 * *
730.05674 0.513798 0.716797
1,420.90

t 2  F  (5.3213) 2  28.3168
t ( 0.05 ,19 gl )  2.093
t ( 0.01,19 gl )  2.861
49

Valores ajustados por la regresión


Y ajustado  Yi  b X i  X 

Peso Peso
Peso Peso
Peso Nac. Destete Peso Nac. Destete
Destete Destete
ajustado ajustado
20.60 187.50 235.94 37.40 249.60 233.96
21.00 163.80 210.72 38.80 265.80 244.82
22.40 157.80 199.38 39.60 216.90 192.87
22.80 218.70 258.75 40.30 218.10 191.40
24.20 223.50 258.21 41.20 288.00 257.87
26.20 176.60 203.68 42.60 265.50 230.03
27.00 220.90 244.83 42.80 268.50 232.26
28.50 201.70 220.01 43.10 219.60 182.22
30.80 175.50 185.04 43.20 283.50 245.74
31.00 180.60 189.37 43.40 288.60 250.08
32.40 237.00 240.43

50

Línea de regresión, Intervalo de confianza y predicción


Línea de regresión, Intervalo de Confianza e Intervalo de Predicción

300

280

260

240

220
Peso al desttete

200

180

160

140

120

100
20.00 25.00 30.00 35.00 40.00 45.00
Peso al Nacim iento

Linea de regresion Valor Predicho CI Superior CI Inferior CB Superior CB Inferior

51

Jorge P.Calderón Velásquez 17


Ejemplo 2.
• Se tiene el Tamaño de Camada al Nacimiento en marranas
primerizas, se desea saber la magnitud de la variación en el
peso promedio del lechón al nacimiento y su efecto en el peso.
TC Nac. Peso Lechón TC Nac. Peso Lechón TC Nac. Peso Lechón
9 1.46 8 1.40 8 1.28
12 1 59
1.59 12 1 15
1.15 13 1 21
1.21
12 1.51 7 1.39 13 1.21
8 2.11 9 1.36 12 0.93
12 1.51 13 1.17 11 1.14
9 1.40 9 133 6 1.87
9 1.66 9 1.60 10 1.34
11 1.33 8 1.48 7 1.83
9 1.67 12 1.41 2 1.90
10 1.77 14 1.06 13 1.66
9 1.28 9 1.51
52

Desarrollo de las fórmulas para determinar el Análisis de


Varianza.

X = Tamaño de Camada al Nacimiento


Y = Peso promedio del lechón al nacimiento

 X  315.00 X 2
 3,301.00

 Y  46.52 Y 2
 69.799
X  9.8438 Y  1.4538
 XY  445.71
n  32
s X2  6.4587 sY2  0.0700

53

445.71 
315.0046.52
32  12.22
b   0.0610
3,301.00 
315.002 200.2188
32

SC ( X )  3,301.00 
315.002  200.2188
32

SP ( X , Y )  445.71 
315.0046.52  12.22
32

SP ( X , Y )  12.22
b   0.0610
SC ( X ) 200.2188

54

Jorge P.Calderón Velásquez 18


SC Re gresión   Yˆ  Y  
2  X  X Y  Y  2


 X  X 
2

SC Re gresión  b  X  X Y  Y   b 2   X  X 
2

 315.0046.52 2

445.71  32 
SC Re gresión 
3,301.00 
315.002
32

149.3590
SC Re gresión   0.7460
200.2188

CM Re gresión  0.7460

55

SC Error   Y  Yˆ    Y  Y  
2 2  X  X Y  Y  2

 X  X 
2


445.71 
315.0046.52 2


 69.799 
46.522    32 
SC Error 
E
 32 
3,301.00 
315.00
2

32

149.3590
SC Error  2.1706   1.4246
200.2188

1.4246
CM Error   0.04749
32  2

56

Análisis de Varianza - Resumen

Fuente de Grados de Suma de Cuadrado


F
Variación libertad Cuadrados Medio

Regresión 1 0.7460 0.74600 15.7095

Error 30 1.4246 0.04749

Total 31 2.1706

57

Jorge P.Calderón Velásquez 19


Prueba de Hipótesis
H 0  El Peso al Nacimiento no está relacionada con el Peso al Destete

H0    0

b  0
t
sY2  X
 X  X 
2

 0.0610  0.0610  0.0610


t    3.96352 * *
0.04749 0.0002371 0.015400
200.2188

t 2  F  ( 3.96352) 2  15.70954
t ( 0.05 , 30 gl )  2.042
t ( 0.01, 30 gl )  2.750
58

Valores ajustados por la regresión


Y ajustado  Yi  b X i  X 

TC Nac. n Peso Lechón sin ajuste Peso Lechón ajustado


2 1 1.90 1.42
6 1 1.87 1.64
7 2 1.61 1.44
8 4 1.57 1.45
9 9 1.47 1.42
10 2 1.56 1.56
11 2 1.24 1.31
12 6 1.35 1.48
13 4 1.31 1.51
14 1 1.06 1.31

59

Línea de regresión, Intervalo de confianza y predicción


Linea de Regresion, Intervalo de Confianza e Intervalo de Prediccion

2.50

2.00

1.50

1.00

0.50
0 2 4 6 8 10 12 14 16
Tam año de Cam ada al Nacim iento

Tamaño de Camada Valor Predicho CI Superior CI Inferior CB Superior CB Inferior

60

Jorge P.Calderón Velásquez 20


Correlación Lineal

Correlación

• El coeficiente de correlación lineal o de Pearson, mide el


grado de intensidad de esta posible relación entre las variables.
Este coeficiente se aplica cuando la relación que puede existir
entre las variables es lineal.
• Otra definición es que explica el grado de asociación que existe
entre las variables en estudio, es decir entre la variable
independiente y la variable dependiente.
• Es la relación de la covarianza que existe entre las dos
variables con respecto a la raíz cuadrada del producto de sus
varianzas.

62

Propiedades del coeficiente de correlación

i. Número sin dimensiones, el rango del coeficiente de


correlación es entre [-1, 1].
ii. Si las variables son independientes =0. La inversa no es
necesariamente cierta,
cierta aunque si las variables son normales
bivariantes sí.
iii. Si las variables estuvieran relacionadas linealmente =1
iv. Por lo menos una de las variables debe seguir una
distribución normal.

63

Jorge P.Calderón Velásquez 21


Clasificación del coeficiente de correlación

• El coeficiente de correlación puede ser clasificada en tres


grupos, en función a su valor o grado de asociación:

Valor Observaciones
Correlación positiva, si se
r >0 incrementa en X se incrementa
también en Y
Correlación negativa, si se
r<0
incrementa en X se reduce en Y
No existe correlación, relación
r=0
independiente.

64

Clasificación del coeficiente de correlación

• En función a su valor absoluto, se puede clasificar en:

Valor Observaciones
r=0 No existe correlación
r = (0, 0.30] Correlación baja.
r = (0.30, 0.60] Correlación media
r = (0.60, 1.00] Correlación alta

65

Correlación lineal o de Pearson

Correlación positiva Correlación negativa Ausencia de correlación

Correlación no lineal
66

Jorge P.Calderón Velásquez 22


Correlación y Coeficiente de Determinación

No hay correlación r = 0 Correlación r = 0.70 Correlación r = 1.0

67

Tipos de correlación

• Correlación lineal o de Pearson: covarianza de las variables


comparadas, estandarizadas por varianzas, o lo que viene a ser
lo mismo, covarianza calculada sobre los datos centrados -
reducidos.
C l ió de
• Correlación d Spearman:
S fi i t de
coeficiente d correlación
l ió no
paramétrico, estrictamente equivalente al coeficiente de
correlación de Pearson calculado sobre los rangos de valores.
• Correlación de Kendall: coeficiente de correlación no
paramétrico, es decir, calculado sobre los rangos de los
valores.

68

Correlación lineal o de Pearson

• Para poder establecer una discusión del coeficiente de


correlación es necesario observar la distribución de los datos
pareados, para ver si los datos son homogéneos con respecto a
cada una de las variables estudiadas.
• Existe heterogeneidad
g por
p presencia
p de datos atípicos
p

69

Jorge P.Calderón Velásquez 23


Correlación lineal o de Pearson

• Heterogeneidad por presencia de datos agrupados en dos


grupos a más.

70

Determinación del coeficiente de correlación

• El coeficiente de correlación lineal o de Pearson, se puede


determinar mediante la fórmula de desarrollo:

 X  X Y  Y 
n

i 1

r n 1

 X  X   Y  Y 
n n
2 2

i 1 i 1
n 1 n 1

 X  X Y  Y 
n

r i 1

 X  X   Y  Y 
n n
2 2

i 1 i 1
71

Coeficiente de Determinación

• El coeficiente de determinación (r²) es la proporción de la


varianza total (s²) de la variable dependiente que puede ser
explicado por la regresión lineal de Y sobre X.
• El coeficiente de determinación mide cuanto de la varianza
totall observada
b d en la
l variable
i bl dependiente
d di es atribuible
ib ibl all
efecto de la variable independiente.
• Mide la proporción de la variación total en la variable
dependiente Y que está explicada por o se debe a la variación
en la variable independiente X.
• El coeficiente de determinación es el cuadrado del coeficiente
de correlación, R2 = r2, y toma valores de 0 a 1.

72

Jorge P.Calderón Velásquez 24


Coeficiente de determinación

• Asimismo, podemos definir como la diferencia que existe entre


la varianza total y la varianza no explicada con respecto a la
varianza total.

Varianza total  Varianza no expl


p icada
r2 
Varianza total

 Y  Y    Yi  Yˆ  
n n 2
2
i
r 
2 i 1 i 1

 Y Y 
n
2
i
i 1

73

Coeficiente de determinación

• Dicho de otra forma, es la relación que existe entre la varianza


explicada por la regresión con respecto a la varianza total.

 Y2  VTotal  VResidual  VExplicada

VExplicada
R2  r 2 
VTotal

 Y2  VResidual V
R2   1  Resi2dual
 Y2 Y

74

Coeficiente de determinación

• Por definición del coeficiente de correlación, el coeficiente de


determinación será estimado:

2
n 
 X i  X Yi  Y 

r  n
2 i 1 

 X i  X   Yi  Y 
n
2 2

i 1 i 1

75

Jorge P.Calderón Velásquez 25


Coeficiente de determinación

• Otra forma de determinar el coeficiente de determinación:


2
n 
 X i  X Yi  Y   X i  X 
n
2

 i 1  i 1 SC debido a X 
r 
2

 Yi  Y 
n
2 SC Total (Y )
i 1

2
n 
 X i  X Yi  Y   Yi  Y 
n
2

SC debido a Y 
r 2   i 1  i 1

 X i  X 
n
2 SC Total ( X )
i 1

 n  n 
  X i  X Yi  Y     X i  X Yi  Y  
r 2   i 1 n  i 1 b b
 
  X i  X  Yi  Y 2 
n YX XY


2

 i 1  i 1 
76

Coeficiente de No Determinación

• El coeficiente de no determinación (1-r²) es la proporción de la


varianza no explicada por la regresión.
• El coeficiente de no determinación indica la variación q que es
atribuible a otros factores no atribuibles a la variable
independiente.

1 - r² = s²XY / s²Y

77

Significancia del coeficiente de correlación

• Dado que los coeficientes de correlación son estimados en


muestras, no necesariamente son de distribución simétrica
cuando el parámetro de la población es diferente de cero
(≠0).
• La simetría se presenta sólo cuando 0,
0 y la asimetría se
observa cuando los valores de +1 o -1.
• Es conveniente realizar una transformación para poder estimar
un intervalo de confianza del valor del coeficiente.

1 r
Z '  0.5 ln
1 r

78

Jorge P.Calderón Velásquez 26


Significancia del coeficiente de correlación

• El valor transformado es una aproximación a la distribución


normal con una media apropiada y desviación estándar.
1 
uZ '  0.5 ln
1 
1
 Z' 
n3
• Determinado el intervalo de confianza, se puede estimar el
valor que puede tomar el coeficiente de correlación en la
población.
e2Z'  1
r
e2Z'  1

79

Prueba de hipótesis del coeficiente de correlación

• La prueba de la hipótesis nula, cuando  = 0, se puede probar


mediante la siguiente relación de t.

r
t
1 r2
n2

80

Homogeneidad de los coeficientes de correlación

• Cuando se tiene dos valores de coeficientes de correlación, que


han sido estimados de diferentes muestras, pudiendo ser de la
misma población, por ejemplo en el tiempo, se puede
establecer una equivalencia entre dichos valores, la prueba de
homogeneidad.

1   2

Z 1'  Z 2'
Z* 
m
1
n
i 1 i 3

81

Jorge P.Calderón Velásquez 27


Homogeneidad para coeficientes de correlación

• Cuando se tiene más de dos coeficientes de correlación, para


determinar la homogeneidad, se utiliza la prueba de chi
cuadrado, mediante la transformación de los coeficientes a la
distribución z.
2
 Z i'  Z w' 
 2   
1 n 3 
i  i 

 2   ni  3Z i'  Z w' 


2

82

Homogeneidad para coeficientes de correlación

• Determinación de Z promedio:

 n  3Zi
'
i
Z '
 i

 n  3
w
i
i

83

Prueba de homogeneidad de los coeficientes de


correlación.

• Se ha realizado un estudio en cerdos, información de 16 años,


considerando las tres razas criadas en la Unidad Experimental
de Porcinos de la UNALM, Landrace, Yorkshire y Duroc,
determinando la correlación entre las características de:
1. Tamaño de Camada al Nacimiento
2. Tamaño de Camada al Destete
3. Peso de Camada al Nacimiento
4. Peso de Camada al Destete
• Los valores de los coeficientes de la correlación fenotípicas
entre ellas y por razas están dadas en el siguiente cuadro.

84

Jorge P.Calderón Velásquez 28


Coeficientes de Correlación, Raza Landrace.

Tamaño de Tamaño de Peso de la Peso de la


Camada al Camada al Camada al Camada al
Nacimiento Destete Nacimiento Destete

9.83 ± 0.14 7.82 ± 0.12 11.87 ± 0.16 73.92 ± 1.29


Promedios
442 362 440 357

Tamaño
T ñ d
de
1.00 0.597 0.842 0.326
Camada al
442 362 440 357
Nacimiento
Tamaño de
0.597 1.00 0.558 0.771
Camada al
362 362 362 356
Destete
Peso de la
0.842 0.558 1.00 0.353
Camada al
440 362 440 357
Nacimiento
Peso de la
0.326 0.771 0.353 1.00
Camada al
357 356 357 357
Destete

85

Coeficientes de Correlación, Raza Yorkshire.

Tamaño de Tamaño de Peso de la Peso de la


Camada al Camada al Camada al Camada al
Nacimiento Destete Nacimiento Destete

9.43 ± 0.14 7.57 ± 0.13 13.38 ± 0.21 74.63 ± 1.45


Promedios
310 258 309 259

Tamaño
T ñ d
de
1.00 0.530 0.822 0.331
Camada al
310 258 309 259
Nacimiento
Tamaño de
0.530 1.00 0.577 0.793
Camada al
258 258 258 258
Destete
Peso de la
0.822 0.577 1.00 0.481
Camada al
309 258 309 259
Nacimiento
Peso de la
0.331 0.793 0.481 1.00
Camada al
259 258 259 259
Destete

86

Coeficientes de Correlación, Raza Duroc.

Tamaño de Tamaño de Peso de la Peso de la


Camada al Camada al Camada al Camada al
Nacimiento Destete Nacimiento Destete

8.76 ± 0.15 6.62 ± 0.13 11.42 ± 0.20 58.88 ± 1.29


Promedios
316 261 313 260

T
Tamaño
ñ d
de
1.00 0.528 0.838 0.387
Camada al
316 261 313 260
Nacimiento
Tamaño de
0.528 1.00 0.545 0.826
Camada al
261 261 261 259
Destete
Peso de la
0.838 0.545 1.00 0.431
Camada al
313 261 313 260
Nacimiento
Peso de la
0.387 0.826 0.431 1.00
Camada al
260 259 260 260
Destete

87

Jorge P.Calderón Velásquez 29


Homogeneidad de coeficientes de correlación

• Para el Peso de Camada al Nacimiento con el Peso de la


Camada al Destete.
Raza n r n–3 z (n – 3)z zi - zw (n-3)(zi - zw)2

Landrace 357 0.354 354 0.3700 130.9834 -0.0726 1.8638

Yorkshire 259 0.481 256 0.5243 134.2168 0.0817 1.7093

Duroc 260 0.431 257 0.4611 118.5089 0.0186 0.0884

Total 867 383.7091 X2 = 3.6616

Promedio (zw) 0.4426 P= 0.16028

X2(0.05, 2 gl) 5.99146

• r = 0.416

88

Anexos

Procedimientos SAS para el análisis de varianza de correlación y


regresión.

Procedimiento SASTM para el Análisis de Regresión


data peso;
options nonumber nodate ps=66 ls=80;
title 'Analisis de regresion: Peso al destete sobre Peso al Nacimiento';
input pesonac pesodes @@;
cards;
22.40 157.80 40.30 218.10 30.80 175.50 21.00 163.80 20.60 187.50 43.20 283.50 31.00 180.60 24.20 223.50
27.00 220.90 42.60 265.50 28.50 201.70 42.80 268.50 26.20 176.60 32.40 237.00 41.20 288.00 39.60 216.90
38.80 265.80 43.10 219.60 22.80 218.70 37.40 249.60 43.40 288.60
;
p
proc sort;; byy pesonac;
p ;
proc reg;
model pesodes = pesonac / CLI CLM XPX;
output OUT = Pred P = YPesodes R = YRes RSTUDENT = Yresiduo LCL = Bajo UCL = Alto;
Symbol I = None V= Diamond C = Black;
Symbol I = Join V= None C = Blue L=1;
Symbol I = Join V= None C = Green L=1;
Symbol I = Join V= None C = Red L=1;
proc gplot;
Plot pesodes*pesonac = 1
YPesodes*pesonac = 2
Bajo*pesonac =3
Alto*pesonac = 3 / overlay;
plot YRes*pesonac=1 / vref = 0;
run;
quit;
90

Jorge P.Calderón Velásquez 30


Analisis de regresion: Peso al destete sobre Peso al Nacimiento

The REG Procedure


Model: MODEL1

Model Crossproducts X'X X'Y Y'Y

Variable Intercept pesonac pesodes

Intercept 21 699.30 4707.70


pesonac 699.30 24707.59 162186.20
pesodes 4707.70 162186.20 1089898.23

91

Analisis de regresion: Peso al destete sobre Peso al Nacimiento

The REG Procedure


Model: MODEL1
Dependent Variable: pesodes

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 20673 20673 28.32


28 32 <.0001
< 0001
Error 19 13871 730.05674
Corrected Total 20 34544

Root MSE 27.01956 R-Square 0.5985


Dependent Mean 224.17619 Adj R-Sq 0.5773
Coeff Var 12.05282

Parameter Estimates

Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 97.15880 24.58680 3.95 0.0009


pesonac 1 3.81434 0.71680 5.32 <.0001
92

The REG Procedure


Model: MODEL1
Dependent Variable: pesodes

Output Statistics

Dep Var Predicted Std Error


Obs pesodes Value Mean Predict 95% CL Mean

1 187.5000 175.7341 10.8460 153.0332 198.4350


2 163.8000 177.2599 10.6065 155.0603 199.4595
3 157.8000 182.5999 9.7882 162.1130 203.0869
4 218.7000 184.1257 9.5609 164.1145 204.1369
5 223.5000
223 5000 189.4657
189 4657 8.7927
8 7927 171.0623
171 0623 207.8692
207 8692
6 176.6000 197.0944 7.7888 180.7923 213.3965
7 220.9000 200.1459 7.4268 184.6014 215.6903
8 201.7000 205.8674 6.8266 191.5791 220.1556
9 175.5000 214.6404 6.1625 201.7422 227.5385
10 180.6000 215.4032 6.1223 202.5891 228.2173
11 237.0000 220.7433 5.9313 208.3289 233.1577
12 249.6000 239.8150 6.5880 226.0262 253.6038
13 265.8000 245.1550 7.0927 230.3098 260.0003
14 216.9000 248.2065 7.4268 232.6620 263.7510
15 218.1000 250.8765 7.7421 234.6721 267.0810
16 288.0000 254.3094 8.1750 237.1990 271.4199
17 265.5000 259.6495 8.8996 241.0224 278.2766
18 268.5000 260.4124 9.0075 241.5595 279.2653
19 219.6000 261.5567 9.1711 242.3613 280.7521
20 283.5000 261.9381 9.2262 242.6275 281.2487
21 288.6000 262.7010 9.3369 243.1587 282.2433

93

Jorge P.Calderón Velásquez 31


Output Statistics

Obs 95% CL Predict Residual

1 114.7954 236.6728 11.7659


2 116.5061 238.0136 -13.4599
3 122.4509 242.7490 -24.7999
4 124.1370 244.1144 34.5743
5 129.9940 248.9374 34.0343
6 138.2390 255.9498 -20.4944
7 141.4958 258.7959 20.7541
8 147.5377 264.1970 -4.1674
9 156.6355 272.6452 -39.1404
10 157.4170 273.3894 -34.8032
11 162.8441 278.6425 16.2567
12 181.6056 298.0243 9.7850
13 186.6864 303.6236 20.6450
14 189.5565 306.8565 -31.3065
15 192.0481 309.7049 -32.7765
16 195.2251 313.3938 33.6906
17 200.1082 319.1908 5.8505
18 200.8001 320.0247 8.0876
19 201.8352 321.2782 -41.9567
20 202.1795 321.6967 21.5619
21 202.8671 322.5349 25.8990

Sum of Residuals 0
Sum of Squared Residuals 13871
Predicted Residual SS (PRESS) 16874

94

Regresión Lineal e Intervalo de confianza

95

Valores Residuales del Peso al Destete

96

Jorge P.Calderón Velásquez 32


Proceso SASTM para la Regresión del PI Lechón sobre el
TCN
data peso;
options nonumber nodate ps=66 ls=80;
title 'Analisis de regresion: PILechon sobre TCN';
input TCN PILechon @@;
cards;
9 1.46 12 1.59 12 1.51 8 2.11 12 1.51 9 1.40 9 1.66 11 1.33 9 1.67 10 1.77 9 1.28 8 1.40 12 1.15 7 1.39
9 1.36 13 1.17 9 1.33 9 1.60 8 1.48 12 1.41 14 1.06 9 1.51 8 1.28 13 1.21 13 1.21 12 0.93 11 1.14 6 1.87
10 1.34 7 1.83 2 1.90 13 1.66
;
proc sort; by TCN;
proc reg;
model PILechon = TCN / CLI CLM XPX;
output OUT=pred P=YPILechon R=YRes RSTUDENT=Yresiduo LCL=Bajo UCL=Alto;
Symbol I=Join V=None C=Black L=1;
Symbol I =Join V=None C=Blue L=1;
Symbol I=Join V=None C=Green L=1;
Symbol I=Join V=None C=Red L=1;
proc gplot;
Plot PILechon*TCN =1
YPILechon*TCN =2
Bajo*TCN=3
Alto*TCN =3 / overlay;
plot YRes*TCN =1;
run; quit;

97

Análisis de Regresión para Peso Promedio de Lechón

Analisis de regresion: PILechon sobre TCN

The REG Procedure


Model: MODEL1

Model Crossproducts X'X X'Y Y'Y

Variable Intercept TCN PILechon

Intercept 32 315 46.52


TCN 315 3301 445.71
PILechon 46.52 445.71 69.799

98

Analisis de regresion: PILechon sobre TCN

The REG Procedure


Model: MODEL1
Dependent Variable: PILechon

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 0
0.74598
74598 0
0.74598
74598 15.71
15 71 0.0004
0 0004
Error 30 1.42457 0.04749
Corrected Total 31 2.17055

Root MSE 0.21791 R-Square 0.3437


Dependent Mean 1.45375 Adj R-Sq 0.3218
Coeff Var 14.98966

Parameter Estimates

Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 2.05461 0.15641 13.14 <.0001


TCN 1 -0.06104 0.01540 -3.96 0.0004
99

Jorge P.Calderón Velásquez 33


Dep Var Predicted Std Error
Obs PILechon Value Mean Predict 95% CL Mean

1 1.9000 1.9325 0.1268 1.6736 2.1915


2 1.8700 1.6884 0.0706 1.5441 1.8326
3 1.3900 1.6273 0.0583 1.5082 1.7464
4 1.8300 1.6273 0.0583 1.5082 1.7464
5 2.1100 1.5663 0.0479 1.4686 1.6640
6 1.4000 1.5663 0.0479 1.4686 1.6640
7 1.4800 1.5663 0.0479 1.4686 1.6640
8 1.2800 1.5663 0.0479 1.4686 1.6640
9 1.4600 1.5053 0.0407 1.4222 1.5883
10 1.4000 1.5053 0.0407 1.4222 1.5883
11 1.6600 1.5053 0.0407 1.4222 1.5883
12 1.6700 1.5053 0.0407 1.4222 1.5883
13 1.2800 1.5053 0.0407 1.4222 1.5883
14 1.3600 1.5053 0.0407 1.4222 1.5883
15 1.3300 1.5053 0.0407 1.4222 1.5883
16 1.6000 1.5053 0.0407 1.4222 1.5883
17 1.5100 1.5053 0.0407 1.4222 1.5883
18 1.7700 1.4442 0.0386 1.3654 1.5230
19 1.3400 1.4442 0.0386 1.3654 1.5230
20 1.3300 1.3832 0.0424 1.2965 1.4698
21 1.1400 1.3832 0.0424 1.2965 1.4698
22 1.5900 1.3221 0.0509 1.2183 1.4260
23 1.5100 1.3221 0.0509 1.2183 1.4260
24 1.5100 1.3221 0.0509 1.2183 1.4260
25 1.1500 1.3221 0.0509 1.2183 1.4260
26 1.4100 1.3221 0.0509 1.2183 1.4260
27 0.9300 1.3221 0.0509 1.2183 1.4260
28 1.1700 1.2611 0.0620 1.1344 1.3878
29 1.2100 1.2611 0.0620 1.1344 1.3878
30 1.2100 1.2611 0.0620 1.1344 1.3878
31 1.6600 1.2611 0.0620 1.1344 1.3878
32 1.0600 1.2001 0.0747 1.0475 1.3526
100

Obs 95% CL Predict Residual

1 1.4176 2.4474 -0.0325


2 1.2205 2.1562 0.1816
3 1.1666 2.0880 -0.2373
4 1.1666 2.0880 0.2027
5 1.1107 2.0219 0.5437
6 1.1107 2.0219 -0.1663
7 1.1107 2.0219 -0.0863
8 1.1107 2.0219 -0.2863
9 1.0525 1.9580 -0.0453
10 1.0525 1.9580 -0.1053
11 1.0525 1.9580 0.1547
12 1.0525 1.9580 0.1647
13 1.0525 1.9580 -0.2253
14 1.0525 1.9580 -0.1453
15 1.0525 1.9580 -0.1753
16 1.0525 1.9580 0.0947
17 1.0525 1.9580 0.004748
18 0.9922 1.8962 0.3258
19 0.9922 1.8962 -0.1042
20 0.9298 1.8366 -0.0532
21 0.9298 1.8366 -0.2432
22 0.8651 1.7791 0.2679
23 0.8651 1.7791 0.1879
24 0.8651 1.7791 0.1879
25 0.8651 1.7791 -0.1721
26 0.8651 1.7791 0.0879
27 0.8651 1.7791 -0.3921
28 0.7984 1.7238 -0.0911 Sum of Residuals 0
29 0.7984 1.7238 -0.0511 Sum of Squared Residuals 1.42457
30 0.7984 1.7238 -0.0511 Predicted Residual SS (PRESS) 1.59509
31 0.7984 1.7238 0.3989
32 0.7296 1.6705 -0.1401

101

Regresión del Peso Lechón sobre el TC Nacimiento

102

Jorge P.Calderón Velásquez 34


Análisis de Regresión: Valores Ajustados

103

Jorge P.Calderón Velásquez 35

También podría gustarte