IVc Regresion Lineal y Correlacion PDF

Regresión Lineal y Correlación
Ing. Jorge P. Calderón Velásquez

[email protected]
Programa de Mejoramiento Animal
Conceptos generales
• En el estudio del comportamiento de los valores productivos

(características o variables) en la zootecnia, se ha observado
que muchas características comparten genes en su
manifestación (efecto pleitrópico), por tanto podemos indicar
que la variación en una característica está relacionada con la
variación de la otra característica.
• De existir la relación anterior, se desea saber si las variaciones
de una de ellas (variable independiente) provocan variaciones
en la magnitud de la otra característica (variable dependiente),
que es quizás la característica en evaluación o selección.
...
• En el análisis de varianza se ha analizado la variación de una

característica debido a los tratamientos a la que se ha sometido
(respuesta), a la que hemos atribuido que el efecto en la
variación es debido exclusivamente a los tratamientos o
factores determinados en el modelo.
• En algunos casos es necesario considerar, en la misma unidad
experimental, varias medidas con la finalidad de poder evaluar
el efecto principal de los tratamientos.
• En el caso de unidades experimentales que refiere animales,
debemos indicar, por ejemplo, si el peso inicial al experimento
fue homogéneo en todas las unidades experimentales
asignadas a los tratamientos, si se está evaluando pesos.
3
Jorge P.Calderón Velásquez 1

...
• De la misma manera, podemos indicar una serie de caracteres

que pueden de alguna forma influenciar en la variación de la
característica en evaluación.
• Una forma de estudiar la dependencia entre dos características
es por medio de la regresión.
• El análisis del coeficiente de regresión entre dos variables
(variables concomitantes) nos permitirá determinar
(estadísticamente) si la posible influencia en la variación de la
característica en evaluación es debido en mayor grado a la
variación de la primera variable (carácter independiente), lo
que indicaría corregir los valores observados para su análisis.
...
• Cuando analizamos dos variables, una pregunta se hace

importante, como determinamos y que tipo de análisis
deberíamos de hacer.
• Es el propósito explorar la naturaleza de la relación,
relación o es el
propósito de usar una variable para explicar la variación en otra
variable.
• Consecuentemente, necesitamos distinguir entre un análisis de
correlación en el cual solamente la fuerza de la relación será
descrita, o una regresión en donde una variable será usada
para predecir el valor de una segunda variable.
Objetivos
• Construir los diagramas de dispersión para evaluar la relación

entre variables cuantitativas
• Elaborar y dibujar la recta de regresión
• Interpretar los parámetros de la recta: altura o intercepto y
pendiente o coeficiente de regresión.
• Hacer inferencias sobre la pendiente o coeficiente de regresión
• Calcular e interpretar los coeficientes de determinación y de
correlación
• Interpretar los cambios producidos en el modelo de predicción
al incorporar más de una variable predictora.

Tipos de regresión
• La regresión entre dos características puede ser lineal o

curvilínea.
• Se dice que es lineal cuando las variaciones de la característica
dependiente está ligada proporcionalmente con las variaciones
de la característica independiente.
• La regresión es curvilínea cuando no hay una dependencia de
constante proporcionalidad.
...
• Se indica que una variable es independiente cuando es capaz

de influenciar en la variación de la otra característica, en
producción animal frecuentemente es la primera característica
en manifestarse en el orden sucesivo.
• Una variable es dependiente cuando es capaz de ser
influenciada por la otra característica.
Ecuación
• Ostle (1979), indica que el modelo matemático para las

relaciones funcionales está representada por:
   ( X 1 ... X p | 1 ... q )
• donde:
= Variable respuesta (dependiente)
Xi = Variable independiente (i = 1, ... , p)
j = Parámetro de la función (j = 1, ... , q)

Regresión lineal
• Modelo y ecuación:
Yi  Y . X   i     X i   i
Yi     ( X i  X )   i
• donde:
 = Parámetros de la ecuación a ser estimados
 = Valor de la intercepción de Y poblacional, cuando X = 0
 = Pendiente de la línea a través de la media de la población
de Y.
X = Variable independiente.
10
Modelos de regresión lineal
• Modelo Tipo I
– Se considera Modelo Tipo I cuando los valores de la variable
independiente son considerados como fijos (X’s).
– Para este modelo el investigador selecciona los valores de X,
entendiéndose que los valores de la variable dependiente son aleatorias.
– Se puede presentar tres casos de variación en la toma de la muestra.
• Modelo Tipo II
– Se considera Modelo Tipo II cuando los valores de la variable
independiente son considerados como aleatorios (X’s).
11
Regresión de Y sobre X; error de medición en Xi

Y  X    X
 X i ' , Yi  .  X i , Yi  .
X ,  
i Y Xi
X ,  
i Y Xi
X ,  
i' Y  X i'
 unidades Y . X    X i
i
Y . X    X i'
i'
  Y .0
1 X’i Xi X
12

Estimación del Modelo
• El criterio de optimización es frecuentemente por mínimos

cuadrados, ya que la recta que mejor se ajusta a la
distribución de puntos (valores) será aquella que cumpla:
Yi  a  bX i  e i
N N
e  
i 1
2
i
i 1
2
i
Mínimo
 e   Y  Yî    Yi  a  bX i 
N N N
2 2 2
Mínimo
i i
i 1 i 1 i 1
13
Estimación de los parámetros
• La estimación de los parámetros se parte de una muestra

(supuestamente representativa) de valores (Xi,Yi),
calculándose los valores de a, b de modo tal que cumpla la
condición indicada (mínimo):
 n 2
 Yi  a  bX i    0
â  i  i
 n 2
 Yi  a  bX i    0
b  i  i
14
...
• entonces:
n
2 Yi  a  bX i  1  0
i 1
n
2 Yi  a  bX i  X i   0
i 1
• operando
n
 Y
i 1
i  a  bX i   0
 Y X 
n
i i  aX 1  bX 12  0
i 1
15

...
• desarrollando la ecuación:
n n n
 Y   aˆ  bX
i 1
i
i 1 i 1
i 0
n n n
 Y X   aˆX  bX
i 1
i i
i 1
i
i 1
2
i 0
n
si  aˆ  Naˆ
i 1
• las ecuaciones normales son:

n n
Y
i 1
i  Naˆ  b X i
i 1
n n n
 Yi X i  aˆ  X i  b X i2
i 1 i 1 i 1
16
...
• despejando â en ambas ecuaciones normales:

n n n n
Y i  b X i X Y i i  b X i2
aˆ  i 1 i 1
aˆ  i 1
n
i 1
X
N
i
i 1
• igualando ambas ecuaciones:
n n n n
Y i  b X i X Y i i  b X i2
i 1 i 1
 i 1
n
i 1
X
N
i
i 1
 n n

n   Yi  b X i  n n

i 1
Xi 

i 1
N
i 1
   X iYi  b X i2
 i 1 i 1
 
17
Deducción de los parámetros
• deduciendo el Coeficiente de regresión (b):

  n  
2
n n
n  Xi   n  X i  Yi

b  Xi    
 
i 1
2
 X iYi  i 1 i 1
 i 1 N i 1 N
 
 
n n
n  X Y i i
X Y i i  i 1
N
i 1
b i 1
2
 n 
 Xi 
 i 1 
n

i 1
X 
N
i
2
18

Deducción de los parámetros
• estimación de â
n n
Y i X i
aˆ  i 1
b i 1
N N
aˆ  Y  bX
19
Características del Coeficiente de Regresión
1. b es una estimación del parámetro  de la población

respectiva.
2. b mide la pendiente de la línea de regresión, cuanto más alto
es su valor absoluto, mayor es la pendiente.
3 Si b es positivo,
3. positivo la línea de regresión es ascendente de
izquierda a derecha, y si es negativo, la línea es descendente
de izquierda a derecha.
4. b es el promedio de los incrementos de Y debido a los
aumentos unitarios de X, y -b es el promedio de las
disminuciones de Y debido a los aumentos unitarios de X.
5. b está dado en unidades de la característica o variable
dependiente.
20
Características del Coeficiente de Regresión
6. bYX expresa la regresión de Y sobre X.

7. El coeficiente de correlación (r), es la raíz cuadrada del
producto de la regresión de Y sobre X por la regresión de X
sobre Y.
r  bY . X bX .Y
8. Los coeficientes, tantos de la regresión como de la correlación

debe tener el mismo signo.
21

Propiedades de la línea de regresión
1. El punto (X,Y) es un punto de la línea de regresión.

2. La suma de las desviaciones de la línea de regresión es cero.
 Y
i  Yî   0
Una desviación o residual es la diferencia entre el valor
observado y el correspondiente valor estimado de la media de
la población. Además, la suma ponderada por X es igual a
cero.
 X Y i i  Yî   0
3. La suma de los cuadrados de los residuales es un mínimo.
22
Fuentes de Variación en la Línea de Regresión
Fuentes de variación en Y  X , Y  . e  Y  Yˆ
Y
X , Yˆ 
Yˆ  Y  b X  X 
Yˆ  Y  b X  X 
X , Y   X ,Y 
Ŷ
X
23
Fuentes de variación
• El modelo de regresión lineal considera una observación como

la suma de la media ( =  + X) y un componente aleatorio
.
• Desde que hay diferentes valores de X observados, diferentes
medias de la población son también involucrados y que
contribuyen a la varianza total. Entonces, estas dos fuentes de
variación son la media y el componente aleatorio.
• La variación atribuido a la media puede ser considerado
atribuible a X, debido a que X determina la media.
Y  Y  Yˆ  Y   Y  Yˆ   b X  X   eY . X
24

• Atribuible a la media
nY 2 
 Y  2
• atribuible a la regresión
b 2  X  X  
2  X  X Y  Y  2
 X  X 
2
• atribuible al error, Suma de Cuadrados del error o residuo

e 2
Y .X
25
• Ecuaciones derivadas:
Y  Y  b X  X   eY . X
Y  nY 2  b 2   X  X    eY2 . X
2 2
 Y    X  X Y  Y 
2 2
Y 2
  SC residual
 X  X 
2
n
SC b | a  
 X  X Y  Y  2
 X  X 
2
SC b | a   b X  X Y  Y   b 2  X  X    Yˆ  Y
2
 
2
26
Análisis de Varianza de la Regresión
grados
Suma de Cuadrado
Fuente de Variación de F
Cuadrado Medio
libertad
Debido a la regresión 1  X  X Y  Y  /  X  X 
2 2
SCb /glb CMb /
Error n-2  Y  Yˆ 
2
SCe /gle CMerror
Total n-1  Y Y 
2
27

Fuentes de Variación en la línea de regresión
Fuente de
Individual Todo el grupo
Variación
 Yˆ 2
Regresión (Yˆ  Y ) i Y SC Regresión
 Y  Yî 
2
Residual (Y  Yˆ ) i SC Residual
Total (Y  Y )  Y i Y 2 SC Total
28
SC Total  SC Regresión  SC Residual
Coeficiente de Determinación r2:
SC Regresión 1 SC Regresión SC Total

r2   
SCTotal 0 SC Residual  SC Total
Parte de la variabilidad de la Y explicada por la X
29
Varianzas de los parámetros de la regresión
• Varianza del coeficiente de regresión

sY2 . X
sb2 
 X  X 
2
 X  X Y  Y  2
 Y  Y 
2

 Y  Y   X  X 
2 2
sY2 . X  
n2 n2
• Varianza de un estimado, de la media Y para una X dada.
1
sY2ˆ  sY2 . X  
X  X 2 
 X  X  
2

n
30

Intervalo de Confianza e Intervalo de Predicción
para la media poblacional.
• Intervalo de confianza, t de student con n-2 grados de libertad
CI Y . X   Y  b X  X   t 0.025 sY . X
1

X  X  2
n  X  X 2
• Intervalo de confianza de la predicción del valor medio:
CI Y . X   Y  b X  X   2 F0.05 2, n  2 gl sY . X

1

X  X 2
n   X  X 2
31
Intervalo de confianza del coeficiente de regresión
• El intervalo de confianza del coeficiente de regresión depende

de la varianza del coeficiente, y está dado por:
CI    b 
t 0.025 sY . X
 X  X 
2
32
Prueba de Hipótesis
• Prueba para la Hipótesis nula que la media de la población de

Y’s, para una X=X0, es Y.X0, se realiza determinando t, con n-2
grados de libertad.
YˆX 0  Y . X 0
t
1
sY2 . X  
 X 0  X 2 
 n   X  X  
2
• Prueba para la Hipótesis nula que b=b0, se determina t, con

n-2 grados de libertad, alternativamente puede ser F.
b  0
t
sY2 . X
 X  X 
2
33

Valores ajustados
• Los valores determinados por la ecuación de regresión,

regresión o valores regresionados, son estimados por los
parámetros de la población.
• Los valores ajustados tiene removido la contribución de la
regresión esto indica que cada valor de Y,
regresión, Y fue movido
paralelamente a la línea de regresión hasta un valor de X,
entonces la medida es un valor nuevo o ajustado de Y.
Y Ajustado  Y  eY . X  Yi  b X i  X 
34
Valores ajustados de Y a un valor de X igual a X
Yˆ  a  bX
Y
Y1
Y2 Y1  Y2
Y’2
Y2'  Y1'
Y’1
0
X X
35
Modelo aditivo de la regresión lineal
• Para cada valor de X hay una distribución normal de Y’s, de la

que la Y muestreada se obtiene al azar (Ver gráfico).
• Los promedios  de todas las poblaciones se hallan en una
línea recta, que es la línea de regresión paramétrica dada.
Y . X     X i
• Todas las poblaciones involucradas en la regresión son
normalmente distribuidos, con varianza común 2. La suma de
los errores () es igual a cero.
36

Distribución normal de Y para un X dado
2
Y=+X
2

2
x1 x2 xi
37
Valor de Predicción y su varianza
• Uno de los usos de la regresión es el uso en la predicción de

los valores futuros, bajo ciertas condiciones.
• La varianza de un valor predicho Y está dado por la ecuación:
 Y2 . X  Y2 . X
pred Y )   Y2 . X   X  X 
2
V(p
 X  X 
2
n
 1
V ( pred Y )   Y2 . X  1  
 X  X 2 
 n   X  X 2 
 

s 2  pred Y   sY2 . X  1  
1  X  X 2 
 n   X  X 2 
 
38
Intervalo de confianza para valores predecidos
• El intervalo de confianza para un valor futuro o predicho, se

distribuye con una distribución t de student, con n-2 grados de
libertad:
CI ( pred Y )  Y  b X  X   t 0.025 sY . X 1 
1

X  X  2
n   X  X 2
39

Intervalo de confidencia de la línea de regresión
40
Líneas de regresión e Intervalo de Confianza
41
Intervalo de confidencia e intervalo de predicción
42

Ejemplo 1.
• Se desea estudiar la influencia del peso al nacimiento en
terneros de carne, sobre el Peso al destete, para lo cual se
tiene la siguiente información:
Peso Nacimiento Peso Destete Peso Nacimiento Peso Destete
22.40 157.80 42.80 268.50
40 30
40.30 218 10
218.10 26 20
26.20 176 60
176.60
30.80 145.50 32.40 237.00
21.00 163.80 41.20 288.00
20.60 187.50 39.60 216.90
43.20 283.50 38.80 265.80
31.00 180.60 43.10 219.60
24.20 223.50 22.80 218.70
27.00 220.90 37.40 249.60
42.60 265.50 43.40 288.60
28.50 201.70
43
Desarrollo de las fórmulas para determinar el Análisis de

Varianza.
X = Peso al nacimiento
Y = Peso al destete
 X  699.30 X 2
 24,707.59
 Y  4,707.70 Y 2
 1,089,898.23
X  33.30 Y  224.18
 XY  162,186.20
n  21
s X2  71.05 sY2  1,727.20
44
162,186.20 
699.304,707.70
21 5,419.79
b   3.8143
24,707.59 
699.302 1,420.90
21
SC ( X )  24,707.59 
699.302  1,420.90
21
SP ( X , Y )  162,186.20 
699.304,707.70  5,419.79
21
SP ( X , Y ) 5,419.79
b   3.8143
SC ( X ) 1,420.90
45

SC Re gresión   Yˆ  Y  
2  X  X Y  Y  2

 X  X 
2
SC Re gresión  b  X  X Y  Y   b 2   X  X 
2
 699.304,707.70 2
162,186.20  
 
21
SC Re gresión
24,707.59 
699.302
21
29,374,123.64
SC Re gresión   20,672.90
1,420.90
CM Re gresión  20,672.90
46
SC Error   Y  Yˆ    Y  Y  
2 2  X  X Y  Y  2
 X  X 
2

162,186.20 
699.304,707.70 2

 1,089,898.23 
4,707.702    21 
SC Error 
E
 21  24,707.59 
699.30
2
21
29,734,123.6441
SC Error  34,543.9781   13,871.0781
1,420.90
13,871.0781
CM Error   730.05674
21  2
47
Análisis de Varianza - Resumen
Fuente de Grados de Suma de Cuadrado

F
Variación libertad Cuadrados Medio
Regresión 1 20,672.9000 20,672.90000 28.316
Error 19 13,871.0781 730.05674
Total 20 34,453.9781
48

H 0  El Peso al Nacimiento no está relacionada con el Peso al Destete
H0    0
b  0
t
sY2  X
 X  X 
2
3.8143 3.8143 3.8143

t    5.3213 * *
730.05674 0.513798 0.716797
1,420.90
t 2  F  (5.3213) 2  28.3168
t ( 0.05 ,19 gl )  2.093
t ( 0.01,19 gl )  2.861
49
Valores ajustados por la regresión

Y ajustado  Yi  b X i  X 
Peso Peso
Peso Peso
Peso Nac. Destete Peso Nac. Destete
Destete Destete
ajustado ajustado
20.60 187.50 235.94 37.40 249.60 233.96
21.00 163.80 210.72 38.80 265.80 244.82
22.40 157.80 199.38 39.60 216.90 192.87
22.80 218.70 258.75 40.30 218.10 191.40
24.20 223.50 258.21 41.20 288.00 257.87
26.20 176.60 203.68 42.60 265.50 230.03
27.00 220.90 244.83 42.80 268.50 232.26
28.50 201.70 220.01 43.10 219.60 182.22
30.80 175.50 185.04 43.20 283.50 245.74
31.00 180.60 189.37 43.40 288.60 250.08
32.40 237.00 240.43
50
Línea de regresión, Intervalo de confianza y predicción

Línea de regresión, Intervalo de Confianza e Intervalo de Predicción
300
280
260
240
220
Peso al desttete
200
180
160
140
120
100
20.00 25.00 30.00 35.00 40.00 45.00
Peso al Nacim iento
Linea de regresion Valor Predicho CI Superior CI Inferior CB Superior CB Inferior
51

Ejemplo 2.
• Se tiene el Tamaño de Camada al Nacimiento en marranas
primerizas, se desea saber la magnitud de la variación en el
peso promedio del lechón al nacimiento y su efecto en el peso.
TC Nac. Peso Lechón TC Nac. Peso Lechón TC Nac. Peso Lechón
9 1.46 8 1.40 8 1.28
12 1 59
1.59 12 1 15
1.15 13 1 21
1.21
12 1.51 7 1.39 13 1.21
8 2.11 9 1.36 12 0.93
12 1.51 13 1.17 11 1.14
9 1.40 9 133 6 1.87
9 1.66 9 1.60 10 1.34
11 1.33 8 1.48 7 1.83
9 1.67 12 1.41 2 1.90
10 1.77 14 1.06 13 1.66
9 1.28 9 1.51
52
Desarrollo de las fórmulas para determinar el Análisis de

Varianza.
X = Tamaño de Camada al Nacimiento

Y = Peso promedio del lechón al nacimiento
 X  315.00 X 2
 3,301.00
 Y  46.52 Y 2
 69.799
X  9.8438 Y  1.4538
 XY  445.71
n  32
s X2  6.4587 sY2  0.0700
53
445.71 
315.0046.52
32  12.22
b   0.0610
3,301.00 
315.002 200.2188
32
SC ( X )  3,301.00 
315.002  200.2188
32
SP ( X , Y )  445.71 
315.0046.52  12.22
32
SP ( X , Y )  12.22
b   0.0610
SC ( X ) 200.2188
54

SC Re gresión   Yˆ  Y  
2  X  X Y  Y  2

 X  X 
2
SC Re gresión  b  X  X Y  Y   b 2   X  X 
2
 315.0046.52 2
445.71  32 
SC Re gresión 
3,301.00 
315.002
32
149.3590
SC Re gresión   0.7460
200.2188
CM Re gresión  0.7460
55
SC Error   Y  Yˆ    Y  Y  
2 2  X  X Y  Y  2
 X  X 
2

445.71 
315.0046.52 2

 69.799 
46.522    32 
SC Error 
E
 32 
3,301.00 
315.00
2
32
149.3590
SC Error  2.1706   1.4246
200.2188
1.4246
CM Error   0.04749
32  2
56
Análisis de Varianza - Resumen
Fuente de Grados de Suma de Cuadrado

F
Variación libertad Cuadrados Medio
Regresión 1 0.7460 0.74600 15.7095
Error 30 1.4246 0.04749
Total 31 2.1706
57

H 0  El Peso al Nacimiento no está relacionada con el Peso al Destete
H0    0
b  0
t
sY2  X
 X  X 
2
 0.0610  0.0610  0.0610

t    3.96352 * *
0.04749 0.0002371 0.015400
200.2188
t 2  F  ( 3.96352) 2  15.70954
t ( 0.05 , 30 gl )  2.042
t ( 0.01, 30 gl )  2.750
58
Valores ajustados por la regresión

Y ajustado  Yi  b X i  X 
TC Nac. n Peso Lechón sin ajuste Peso Lechón ajustado

2 1 1.90 1.42
6 1 1.87 1.64
7 2 1.61 1.44
8 4 1.57 1.45
9 9 1.47 1.42
10 2 1.56 1.56
11 2 1.24 1.31
12 6 1.35 1.48
13 4 1.31 1.51
14 1 1.06 1.31
59
Línea de regresión, Intervalo de confianza y predicción

Linea de Regresion, Intervalo de Confianza e Intervalo de Prediccion
2.50
2.00
1.50
1.00
0.50
0 2 4 6 8 10 12 14 16
Tam año de Cam ada al Nacim iento
Tamaño de Camada Valor Predicho CI Superior CI Inferior CB Superior CB Inferior
60

Correlación Lineal
Correlación
• El coeficiente de correlación lineal o de Pearson, mide el

grado de intensidad de esta posible relación entre las variables.
Este coeficiente se aplica cuando la relación que puede existir
entre las variables es lineal.
• Otra definición es que explica el grado de asociación que existe
entre las variables en estudio, es decir entre la variable
independiente y la variable dependiente.
• Es la relación de la covarianza que existe entre las dos
variables con respecto a la raíz cuadrada del producto de sus
varianzas.
62
Propiedades del coeficiente de correlación
i. Número sin dimensiones, el rango del coeficiente de

correlación es entre [-1, 1].
ii. Si las variables son independientes =0. La inversa no es
necesariamente cierta,
cierta aunque si las variables son normales
bivariantes sí.
iii. Si las variables estuvieran relacionadas linealmente =1
iv. Por lo menos una de las variables debe seguir una
distribución normal.
63

Clasificación del coeficiente de correlación
• El coeficiente de correlación puede ser clasificada en tres

grupos, en función a su valor o grado de asociación:
Valor Observaciones
Correlación positiva, si se
r >0 incrementa en X se incrementa
también en Y
Correlación negativa, si se
r<0
incrementa en X se reduce en Y
No existe correlación, relación
r=0
independiente.
64
Clasificación del coeficiente de correlación
• En función a su valor absoluto, se puede clasificar en:
Valor Observaciones
r=0 No existe correlación
r = (0, 0.30] Correlación baja.
r = (0.30, 0.60] Correlación media
r = (0.60, 1.00] Correlación alta
65
Correlación lineal o de Pearson
Correlación positiva Correlación negativa Ausencia de correlación
Correlación no lineal
66

Correlación y Coeficiente de Determinación
No hay correlación r = 0 Correlación r = 0.70 Correlación r = 1.0
67
Tipos de correlación
• Correlación lineal o de Pearson: covarianza de las variables

comparadas, estandarizadas por varianzas, o lo que viene a ser
lo mismo, covarianza calculada sobre los datos centrados -
reducidos.
C l ió de
• Correlación d Spearman:
S fi i t de
coeficiente d correlación
l ió no
paramétrico, estrictamente equivalente al coeficiente de
correlación de Pearson calculado sobre los rangos de valores.
• Correlación de Kendall: coeficiente de correlación no
paramétrico, es decir, calculado sobre los rangos de los
valores.
68
• Para poder establecer una discusión del coeficiente de

correlación es necesario observar la distribución de los datos
pareados, para ver si los datos son homogéneos con respecto a
cada una de las variables estudiadas.
• Existe heterogeneidad
g por
p presencia
p de datos atípicos
p
69

• Heterogeneidad por presencia de datos agrupados en dos

grupos a más.
70
Determinación del coeficiente de correlación
• El coeficiente de correlación lineal o de Pearson, se puede

determinar mediante la fórmula de desarrollo:
 X  X Y  Y 
n
i 1
r n 1
 X  X   Y  Y 
n n
2 2
i 1 i 1
n 1 n 1
 X  X Y  Y 
n
r i 1
 X  X   Y  Y 
n n
2 2
i 1 i 1
71
Coeficiente de Determinación
• El coeficiente de determinación (r²) es la proporción de la

varianza total (s²) de la variable dependiente que puede ser
explicado por la regresión lineal de Y sobre X.
• El coeficiente de determinación mide cuanto de la varianza
totall observada
b d en la
l variable
i bl dependiente
d di es atribuible
ib ibl all
efecto de la variable independiente.
• Mide la proporción de la variación total en la variable
dependiente Y que está explicada por o se debe a la variación
en la variable independiente X.
• El coeficiente de determinación es el cuadrado del coeficiente
de correlación, R2 = r2, y toma valores de 0 a 1.
72

Coeficiente de determinación
• Asimismo, podemos definir como la diferencia que existe entre

la varianza total y la varianza no explicada con respecto a la
varianza total.
Varianza total  Varianza no expl

p icada
r2 
Varianza total
 Y  Y    Yi  Yˆ  
n n 2
2
i
r 
2 i 1 i 1
 Y Y 
n
2
i
i 1
73
• Dicho de otra forma, es la relación que existe entre la varianza

explicada por la regresión con respecto a la varianza total.
 Y2  VTotal  VResidual  VExplicada
VExplicada
R2  r 2 
VTotal
 Y2  VResidual V
R2   1  Resi2dual
 Y2 Y
74
• Por definición del coeficiente de correlación, el coeficiente de

determinación será estimado:
2
n 
 X i  X Yi  Y 

r  n
2 i 1 
 X i  X   Yi  Y 
n
2 2
i 1 i 1
75

• Otra forma de determinar el coeficiente de determinación:

2
n 
 X i  X Yi  Y   X i  X 
n
2
 i 1  i 1 SC debido a X 
r 
2

 Yi  Y 
n
2 SC Total (Y )
i 1
2
n 
 X i  X Yi  Y   Yi  Y 
n
2
SC debido a Y 
r 2   i 1  i 1

 X i  X 
n
2 SC Total ( X )
i 1
 n  n 
  X i  X Yi  Y     X i  X Yi  Y  
r 2   i 1 n  i 1 b b
 
  X i  X  Yi  Y 2 
n YX XY

2

 i 1  i 1 
76
Coeficiente de No Determinación
• El coeficiente de no determinación (1-r²) es la proporción de la

varianza no explicada por la regresión.
• El coeficiente de no determinación indica la variación q que es
atribuible a otros factores no atribuibles a la variable
independiente.
1 - r² = s²XY / s²Y
77
Significancia del coeficiente de correlación
• Dado que los coeficientes de correlación son estimados en

muestras, no necesariamente son de distribución simétrica
cuando el parámetro de la población es diferente de cero
(≠0).
• La simetría se presenta sólo cuando 0,
0 y la asimetría se
observa cuando los valores de +1 o -1.
• Es conveniente realizar una transformación para poder estimar
un intervalo de confianza del valor del coeficiente.
1 r
Z '  0.5 ln
1 r
78

Significancia del coeficiente de correlación
• El valor transformado es una aproximación a la distribución

normal con una media apropiada y desviación estándar.
1 
uZ '  0.5 ln
1 
1
 Z' 
n3
• Determinado el intervalo de confianza, se puede estimar el
valor que puede tomar el coeficiente de correlación en la
población.
e2Z'  1
r
e2Z'  1
79
Prueba de hipótesis del coeficiente de correlación
• La prueba de la hipótesis nula, cuando  = 0, se puede probar

mediante la siguiente relación de t.
r
t
1 r2
n2
80
Homogeneidad de los coeficientes de correlación
• Cuando se tiene dos valores de coeficientes de correlación, que

han sido estimados de diferentes muestras, pudiendo ser de la
misma población, por ejemplo en el tiempo, se puede
establecer una equivalencia entre dichos valores, la prueba de
homogeneidad.
1   2
Z 1'  Z 2'
Z* 
m
1
n
i 1 i 3
81

Homogeneidad para coeficientes de correlación
• Cuando se tiene más de dos coeficientes de correlación, para

determinar la homogeneidad, se utiliza la prueba de chi
cuadrado, mediante la transformación de los coeficientes a la
distribución z.
2
 Z i'  Z w' 
 2   
1 n 3 
i  i 
 2   ni  3Z i'  Z w' 

2
82
Homogeneidad para coeficientes de correlación
• Determinación de Z promedio:
 n  3Zi
'
i
Z '
 i
 n  3
w
i
i
83
Prueba de homogeneidad de los coeficientes de

correlación.
• Se ha realizado un estudio en cerdos, información de 16 años,

considerando las tres razas criadas en la Unidad Experimental
de Porcinos de la UNALM, Landrace, Yorkshire y Duroc,
determinando la correlación entre las características de:
1. Tamaño de Camada al Nacimiento
2. Tamaño de Camada al Destete
3. Peso de Camada al Nacimiento
4. Peso de Camada al Destete
• Los valores de los coeficientes de la correlación fenotípicas
entre ellas y por razas están dadas en el siguiente cuadro.
84

Coeficientes de Correlación, Raza Landrace.
Tamaño de Tamaño de Peso de la Peso de la

Camada al Camada al Camada al Camada al
Nacimiento Destete Nacimiento Destete
9.83 ± 0.14 7.82 ± 0.12 11.87 ± 0.16 73.92 ± 1.29

Promedios
442 362 440 357
Tamaño
T ñ d
de
1.00 0.597 0.842 0.326
Camada al
442 362 440 357
Nacimiento
Tamaño de
0.597 1.00 0.558 0.771
Camada al
362 362 362 356
Destete
Peso de la
0.842 0.558 1.00 0.353
Camada al
440 362 440 357
Nacimiento
Peso de la
0.326 0.771 0.353 1.00
Camada al
357 356 357 357
Destete
85
Coeficientes de Correlación, Raza Yorkshire.

9.43 ± 0.14 7.57 ± 0.13 13.38 ± 0.21 74.63 ± 1.45

Promedios
310 258 309 259
Tamaño
T ñ d
de
1.00 0.530 0.822 0.331
Camada al
310 258 309 259
Nacimiento
Tamaño de
0.530 1.00 0.577 0.793
Camada al
258 258 258 258
Destete
Peso de la
0.822 0.577 1.00 0.481
Camada al
309 258 309 259
Nacimiento
Peso de la
0.331 0.793 0.481 1.00
Camada al
259 258 259 259
Destete
86
Coeficientes de Correlación, Raza Duroc.

8.76 ± 0.15 6.62 ± 0.13 11.42 ± 0.20 58.88 ± 1.29

Promedios
316 261 313 260
T
Tamaño
ñ d
de
1.00 0.528 0.838 0.387
Camada al
316 261 313 260
Nacimiento
Tamaño de
0.528 1.00 0.545 0.826
Camada al
261 261 261 259
Destete
Peso de la
0.838 0.545 1.00 0.431
Camada al
313 261 313 260
Nacimiento
Peso de la
0.387 0.826 0.431 1.00
Camada al
260 259 260 260
Destete
87

Homogeneidad de coeficientes de correlación
• Para el Peso de Camada al Nacimiento con el Peso de la

Camada al Destete.
Raza n r n–3 z (n – 3)z zi - zw (n-3)(zi - zw)2
Landrace 357 0.354 354 0.3700 130.9834 -0.0726 1.8638
Yorkshire 259 0.481 256 0.5243 134.2168 0.0817 1.7093
Duroc 260 0.431 257 0.4611 118.5089 0.0186 0.0884
Total 867 383.7091 X2 = 3.6616
Promedio (zw) 0.4426 P= 0.16028
X2(0.05, 2 gl) 5.99146
• r = 0.416
88
Anexos
Procedimientos SAS para el análisis de varianza de correlación y

regresión.
Procedimiento SASTM para el Análisis de Regresión

data peso;
options nonumber nodate ps=66 ls=80;
title 'Analisis de regresion: Peso al destete sobre Peso al Nacimiento';
input pesonac pesodes @@;
cards;
22.40 157.80 40.30 218.10 30.80 175.50 21.00 163.80 20.60 187.50 43.20 283.50 31.00 180.60 24.20 223.50
27.00 220.90 42.60 265.50 28.50 201.70 42.80 268.50 26.20 176.60 32.40 237.00 41.20 288.00 39.60 216.90
38.80 265.80 43.10 219.60 22.80 218.70 37.40 249.60 43.40 288.60
;
p
proc sort;; byy pesonac;
p ;
proc reg;
model pesodes = pesonac / CLI CLM XPX;
output OUT = Pred P = YPesodes R = YRes RSTUDENT = Yresiduo LCL = Bajo UCL = Alto;
Symbol I = None V= Diamond C = Black;
Symbol I = Join V= None C = Blue L=1;
Symbol I = Join V= None C = Green L=1;
Symbol I = Join V= None C = Red L=1;
proc gplot;
Plot pesodes*pesonac = 1
YPesodes*pesonac = 2
Bajo*pesonac =3
Alto*pesonac = 3 / overlay;
plot YRes*pesonac=1 / vref = 0;
run;
quit;
90

Analisis de regresion: Peso al destete sobre Peso al Nacimiento
The REG Procedure

Model: MODEL1
Model Crossproducts X'X X'Y Y'Y
Variable Intercept pesonac pesodes
Intercept 21 699.30 4707.70

pesonac 699.30 24707.59 162186.20
pesodes 4707.70 162186.20 1089898.23
91
Analisis de regresion: Peso al destete sobre Peso al Nacimiento
The REG Procedure

Model: MODEL1
Dependent Variable: pesodes
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 20673 20673 28.32

28 32 <.0001
< 0001
Error 19 13871 730.05674
Corrected Total 20 34544
Root MSE 27.01956 R-Square 0.5985

Dependent Mean 224.17619 Adj R-Sq 0.5773
Coeff Var 12.05282
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 97.15880 24.58680 3.95 0.0009

pesonac 1 3.81434 0.71680 5.32 <.0001
92
The REG Procedure

Model: MODEL1
Dependent Variable: pesodes
Output Statistics
Dep Var Predicted Std Error

Obs pesodes Value Mean Predict 95% CL Mean
1 187.5000 175.7341 10.8460 153.0332 198.4350

2 163.8000 177.2599 10.6065 155.0603 199.4595
3 157.8000 182.5999 9.7882 162.1130 203.0869
4 218.7000 184.1257 9.5609 164.1145 204.1369
5 223.5000
223 5000 189.4657
189 4657 8.7927
8 7927 171.0623
171 0623 207.8692
207 8692
6 176.6000 197.0944 7.7888 180.7923 213.3965
7 220.9000 200.1459 7.4268 184.6014 215.6903
8 201.7000 205.8674 6.8266 191.5791 220.1556
9 175.5000 214.6404 6.1625 201.7422 227.5385
10 180.6000 215.4032 6.1223 202.5891 228.2173
11 237.0000 220.7433 5.9313 208.3289 233.1577
12 249.6000 239.8150 6.5880 226.0262 253.6038
13 265.8000 245.1550 7.0927 230.3098 260.0003
14 216.9000 248.2065 7.4268 232.6620 263.7510
15 218.1000 250.8765 7.7421 234.6721 267.0810
16 288.0000 254.3094 8.1750 237.1990 271.4199
17 265.5000 259.6495 8.8996 241.0224 278.2766
18 268.5000 260.4124 9.0075 241.5595 279.2653
19 219.6000 261.5567 9.1711 242.3613 280.7521
20 283.5000 261.9381 9.2262 242.6275 281.2487
21 288.6000 262.7010 9.3369 243.1587 282.2433
93

Output Statistics
Obs 95% CL Predict Residual
1 114.7954 236.6728 11.7659

2 116.5061 238.0136 -13.4599
3 122.4509 242.7490 -24.7999
4 124.1370 244.1144 34.5743
5 129.9940 248.9374 34.0343
6 138.2390 255.9498 -20.4944
7 141.4958 258.7959 20.7541
8 147.5377 264.1970 -4.1674
9 156.6355 272.6452 -39.1404
10 157.4170 273.3894 -34.8032
11 162.8441 278.6425 16.2567
12 181.6056 298.0243 9.7850
13 186.6864 303.6236 20.6450
14 189.5565 306.8565 -31.3065
15 192.0481 309.7049 -32.7765
16 195.2251 313.3938 33.6906
17 200.1082 319.1908 5.8505
18 200.8001 320.0247 8.0876
19 201.8352 321.2782 -41.9567
20 202.1795 321.6967 21.5619
21 202.8671 322.5349 25.8990
Sum of Residuals 0
Sum of Squared Residuals 13871
Predicted Residual SS (PRESS) 16874
94
Regresión Lineal e Intervalo de confianza
95
Valores Residuales del Peso al Destete
96

Proceso SASTM para la Regresión del PI Lechón sobre el
TCN
data peso;
options nonumber nodate ps=66 ls=80;
title 'Analisis de regresion: PILechon sobre TCN';
input TCN PILechon @@;
cards;
9 1.46 12 1.59 12 1.51 8 2.11 12 1.51 9 1.40 9 1.66 11 1.33 9 1.67 10 1.77 9 1.28 8 1.40 12 1.15 7 1.39
9 1.36 13 1.17 9 1.33 9 1.60 8 1.48 12 1.41 14 1.06 9 1.51 8 1.28 13 1.21 13 1.21 12 0.93 11 1.14 6 1.87
10 1.34 7 1.83 2 1.90 13 1.66
;
proc sort; by TCN;
proc reg;
model PILechon = TCN / CLI CLM XPX;
output OUT=pred P=YPILechon R=YRes RSTUDENT=Yresiduo LCL=Bajo UCL=Alto;
Symbol I=Join V=None C=Black L=1;
Symbol I =Join V=None C=Blue L=1;
Symbol I=Join V=None C=Green L=1;
Symbol I=Join V=None C=Red L=1;
proc gplot;
Plot PILechon*TCN =1
YPILechon*TCN =2
Bajo*TCN=3
Alto*TCN =3 / overlay;
plot YRes*TCN =1;
run; quit;
97
Análisis de Regresión para Peso Promedio de Lechón
Analisis de regresion: PILechon sobre TCN
The REG Procedure

Model: MODEL1
Model Crossproducts X'X X'Y Y'Y
Variable Intercept TCN PILechon
Intercept 32 315 46.52

TCN 315 3301 445.71
PILechon 46.52 445.71 69.799
98
Analisis de regresion: PILechon sobre TCN
The REG Procedure

Model: MODEL1
Dependent Variable: PILechon
Analysis of Variance
Sum of Mean
Source DF Squares Square F Value Pr > F
Model 1 0
0.74598
74598 0
0.74598
74598 15.71
15 71 0.0004
0 0004
Error 30 1.42457 0.04749
Corrected Total 31 2.17055
Root MSE 0.21791 R-Square 0.3437

Dependent Mean 1.45375 Adj R-Sq 0.3218
Coeff Var 14.98966
Parameter Estimates
Parameter Standard
Variable DF Estimate Error t Value Pr > |t|
Intercept 1 2.05461 0.15641 13.14 <.0001

TCN 1 -0.06104 0.01540 -3.96 0.0004
99

Dep Var Predicted Std Error
Obs PILechon Value Mean Predict 95% CL Mean
1 1.9000 1.9325 0.1268 1.6736 2.1915

2 1.8700 1.6884 0.0706 1.5441 1.8326
3 1.3900 1.6273 0.0583 1.5082 1.7464
4 1.8300 1.6273 0.0583 1.5082 1.7464
5 2.1100 1.5663 0.0479 1.4686 1.6640
6 1.4000 1.5663 0.0479 1.4686 1.6640
7 1.4800 1.5663 0.0479 1.4686 1.6640
8 1.2800 1.5663 0.0479 1.4686 1.6640
9 1.4600 1.5053 0.0407 1.4222 1.5883
10 1.4000 1.5053 0.0407 1.4222 1.5883
11 1.6600 1.5053 0.0407 1.4222 1.5883
12 1.6700 1.5053 0.0407 1.4222 1.5883
13 1.2800 1.5053 0.0407 1.4222 1.5883
14 1.3600 1.5053 0.0407 1.4222 1.5883
15 1.3300 1.5053 0.0407 1.4222 1.5883
16 1.6000 1.5053 0.0407 1.4222 1.5883
17 1.5100 1.5053 0.0407 1.4222 1.5883
18 1.7700 1.4442 0.0386 1.3654 1.5230
19 1.3400 1.4442 0.0386 1.3654 1.5230
20 1.3300 1.3832 0.0424 1.2965 1.4698
21 1.1400 1.3832 0.0424 1.2965 1.4698
22 1.5900 1.3221 0.0509 1.2183 1.4260
23 1.5100 1.3221 0.0509 1.2183 1.4260
24 1.5100 1.3221 0.0509 1.2183 1.4260
25 1.1500 1.3221 0.0509 1.2183 1.4260
26 1.4100 1.3221 0.0509 1.2183 1.4260
27 0.9300 1.3221 0.0509 1.2183 1.4260
28 1.1700 1.2611 0.0620 1.1344 1.3878
29 1.2100 1.2611 0.0620 1.1344 1.3878
30 1.2100 1.2611 0.0620 1.1344 1.3878
31 1.6600 1.2611 0.0620 1.1344 1.3878
32 1.0600 1.2001 0.0747 1.0475 1.3526
100
Obs 95% CL Predict Residual
1 1.4176 2.4474 -0.0325

2 1.2205 2.1562 0.1816
3 1.1666 2.0880 -0.2373
4 1.1666 2.0880 0.2027
5 1.1107 2.0219 0.5437
6 1.1107 2.0219 -0.1663
7 1.1107 2.0219 -0.0863
8 1.1107 2.0219 -0.2863
9 1.0525 1.9580 -0.0453
10 1.0525 1.9580 -0.1053
11 1.0525 1.9580 0.1547
12 1.0525 1.9580 0.1647
13 1.0525 1.9580 -0.2253
14 1.0525 1.9580 -0.1453
15 1.0525 1.9580 -0.1753
16 1.0525 1.9580 0.0947
17 1.0525 1.9580 0.004748
18 0.9922 1.8962 0.3258
19 0.9922 1.8962 -0.1042
20 0.9298 1.8366 -0.0532
21 0.9298 1.8366 -0.2432
22 0.8651 1.7791 0.2679
23 0.8651 1.7791 0.1879
24 0.8651 1.7791 0.1879
25 0.8651 1.7791 -0.1721
26 0.8651 1.7791 0.0879
27 0.8651 1.7791 -0.3921
28 0.7984 1.7238 -0.0911 Sum of Residuals 0
29 0.7984 1.7238 -0.0511 Sum of Squared Residuals 1.42457
30 0.7984 1.7238 -0.0511 Predicted Residual SS (PRESS) 1.59509
31 0.7984 1.7238 0.3989
32 0.7296 1.6705 -0.1401
101
Regresión del Peso Lechón sobre el TC Nacimiento
102

Análisis de Regresión: Valores Ajustados
103

IVc Regresion Lineal y Correlacion PDF

Cargado por

Copyright:

Formatos disponibles

IVc Regresion Lineal y Correlacion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IVc Regresion Lineal y Correlacion PDF

Cargado por

Copyright:

Formatos disponibles

Regresión Lineal y Correlación

Ing. Jorge P. Calderón Velásquez

• En el estudio del comportamiento de los valores productivos

• En el análisis de varianza se ha analizado la variación de una

Jorge P.Calderón Velásquez 1

• De la misma manera, podemos indicar una serie de caracteres

• Cuando analizamos dos variables, una pregunta se hace

• Construir los diagramas de dispersión para evaluar la relación

Jorge P.Calderón Velásquez 2

• La regresión entre dos características puede ser lineal o

• Se indica que una variable es independiente cuando es capaz

• Ostle (1979), indica que el modelo matemático para las

Jorge P.Calderón Velásquez 3

Modelos de regresión lineal

Regresión de Y sobre X; error de medición en Xi

Jorge P.Calderón Velásquez 4

• El criterio de optimización es frecuentemente por mínimos

Estimación de los parámetros

• La estimación de los parámetros se parte de una muestra

Jorge P.Calderón Velásquez 5

• las ecuaciones normales son:

• despejando â en ambas ecuaciones normales:

Deducción de los parámetros

• deduciendo el Coeficiente de regresión (b):

Jorge P.Calderón Velásquez 6

Características del Coeficiente de Regresión

1. b es una estimación del parámetro  de la población

Características del Coeficiente de Regresión

6. bYX expresa la regresión de Y sobre X.

8. Los coeficientes, tantos de la regresión como de la correlación

Jorge P.Calderón Velásquez 7

1. El punto (X,Y) es un punto de la línea de regresión.

Fuentes de Variación en la Línea de Regresión

• El modelo de regresión lineal considera una observación como

Jorge P.Calderón Velásquez 8

• atribuible al error, Suma de Cuadrados del error o residuo

Análisis de Varianza de la Regresión

Jorge P.Calderón Velásquez 9

SC Total  SC Regresión  SC Residual

Coeficiente de Determinación r2:

SC Regresión 1 SC Regresión SC Total

Parte de la variabilidad de la Y explicada por la X

Varianzas de los parámetros de la regresión

• Varianza del coeficiente de regresión

Jorge P.Calderón Velásquez 10

• Intervalo de confianza de la predicción del valor medio:

CI Y . X   Y  b X  X   2 F0.05 2, n  2 gl sY . X

Intervalo de confianza del coeficiente de regresión

• El intervalo de confianza del coeficiente de regresión depende

• Prueba para la Hipótesis nula que la media de la población de

• Prueba para la Hipótesis nula que b=b0, se determina t, con

Jorge P.Calderón Velásquez 11

• Los valores determinados por la ecuación de regresión,

Valores ajustados de Y a un valor de X igual a X

Modelo aditivo de la regresión lineal

• Para cada valor de X hay una distribución normal de Y’s, de la

Jorge P.Calderón Velásquez 12

Valor de Predicción y su varianza

• Uno de los usos de la regresión es el uso en la predicción de