Beamer 2

CAR00080
Correlação e Modelos Lineares
Prof. Lucas Helal
08-11-2023
1
Exemplo motivador
Sejam X e Y duas v.a. contínuas, respectivamente a altura e o peso de crianças de até 1 ano.
Xaltura ∼ x = 78, 6 cm, σ = 5 cm
Ypeso ∼ y = 9.800 g, σ = 100 g
NX,Y = 100 crianças
2
Exemplo Motivador
As variáveis A e B possuem alguma relação de dependência?
3
O Quarteto de Anscombe
x1 x2 x3 x4 y1 y2 y3 y4
10 10 10 8 8.04 9.14 7.46 6.58
8 8 8 8 6.95 8.14 6.77 5.76
13 13 13 8 7.58 8.74 12.74 7.71
9 9 9 8 8.81 8.77 7.11 8.84
11 11 11 8 8.33 9.26 7.81 8.47
14 14 14 8 9.96 8.10 8.84 7.04
6 6 6 8 7.24 6.13 6.08 5.25
4 4 4 19 4.26 3.10 5.39 12.50
12 12 12 8 10.84 9.13 8.15 5.56
7 7 7 8 4.82 7.26 6.42 7.91
5 5 5 8 5.68 4.74 5.73 6.89
$Médias de x e y
Set x y
Anscombe Set 1 9 7.500909
4
Desvios médios de x e y
Set x y
Anscombe Set 1 3.316625 2.031568
Anscombe Set 2 3.316625 2.031657
Anscombe Set 3 3.316625 2.030424
Anscombe Set 4 3.316625 2.030578
5
Quarteto de Anscombe
As correlações entre x e y
Set r
Anscombe Set 1 0.8164205
6
Os modelos, assumindo:
Y1 ∼ β0 + β1 x1 + ε
Y2 ∼ β0 + β2 x2 + ε
Y3 ∼ β0 + β3 x3 + ε
Y4 ∼ β0 + β4 x4 + ε
7
Os coeficientes de cada modelo...
A B C D
(Intercept) 3.0000909 3.000909 3.0024545 3.0017273
x 0.5000909 0.500000 0.4997273 0.4999091
8
E uma grata surpresa!

Anscombe Set 1 Anscombe Set 2
Anscombe Set 3 Anscombe Set 4
9
Sempre faça o diagnóstico do seu modelo e dos seus dados!!
Modelo 1
Standardized residuals
Residuals vs Fitted Q−Q Residuals
2
9 9
Residuals
1
0
−1
−2
10 3 10
3
5 6 7 8 9 10 −1.5 −0.5 0.5 1.5
Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage
10 9 3
2 9
1
0.5
0.8
0.5
Cook's distance
10
0.0
−2
3 1
5 6 7 8 9 10 0.00 0.10 0.20 0.30
Fitted values Leverage
10
Modelo 3
2 Residuals vs Fitted Q−Q Residuals
9 9
Residuals
1
0
−1
−2
10 3 10
3
5 6 7 8 9 10 −1.5 −0.5 0.5 1.5
Fitted values Theoretical Quantiles

Scale−Location Residuals vs Leverage
2
9 3 1
10 9 0.5
0.8
0
0.5
Cook's distance
10
0.0
−2
3 1
5 6 7 8 9 10 0.00 0.10 0.20 0.30
Fitted values Leverage
11
Questões
1. Quão forte é a relação linear entre duas variáveis?
Correlação Linear Simples
2. Qual a reta que melhor representa a relação linear entre as duas variáveis?
Regressão Linear Simples
12
Correlação Linear
A correlação linear simples é primariamente baseada na Correlação Linear de Pearson, também
compreendida por Coeficiente de Correlação Produto-Momento.
O Coeficiente de Correlação de Pearson avalia o quanto duas séries numéricas repousam sobre
uma linha reta, indicando assim o grau de sua associação linear.
Coeficiente de Correlação de Person (r):
covxy
r=
sx · sy
onde:
(x − x)(y − y)
P
covxy =
(n − 1)
13
Correlação Linear
• O coeficiente de Person (r) varia entre −1 e +1
• Valores negativos indicam relação inversa: x ↑ e y ↓
• Valores positivos indicam relação direta: x ↑ e y ↑

• Os valores rmax e rmin ocorrem quando todos os pontos estão sobre a reta
• r = +1
• r = -1
14
15
Correlação Linear
Exemplo Prático - Recém Nascido
E1: Em uma amostra de N = 42 nascimentos, foram observadas as v.a.:
• PAS do recém-nascido P ASRN = {70, 73, 73, 68, 76, 71, 71, 72, 73, 70, . . . }
• PAS da mãe P ASM ae = {114, 113, 114, 110, 118, 110, 124, 113, 118, 104, . . . }
Questiona-se:
1. A PAS de um recém-nascido e a PAS da mãe são variáveis linearmente correlacionadas?

2. A PAS da mãe pode ser explicada pela PAS do RN por meio de uma reta?
3. A PAS do RN pode ser explicada pela PAS da mãe por meio de uma reta?
16
Correlação Linear
Suposições do Teste
Homocedasticidade: a variabilidade de uma variável é influenciada pelo valor da outra?
Teste de Hipóteses
Teste de Correlação Linear de Pearson

Hipóteses estatísticas:
H=
H0 : ρ = 0
H1 : ρ ̸= 0
onde ρ é o coeficiente de correlação de Pearson entre a PAS do RN e da mãe.
17
Modelo de Regressão Linear
y β 0 + β1 x 1
X: é variável independente –> P ASM ae
Y : é variável dependente –> P ASRN
β0 : é o coeficiente linear da reta ∴ y = 0
β1 : é o coeficiente angular da reta ∴ o efeito de x em y, dada uma unidade em x, y se altera em k unidades
18
Criando um banco de dados fictício para PAS da mãe e do RN.
PAS_MAE <- rnorm(50, 114, 6)

PAS_RN <- PAS_MAE*0.7 + rnorm(50, 0, 1)
PAS <- data.frame(
PAS_MAE = PAS_MAE,
PAS_RN = PAS_RN
)
Teste de Hipóteses
Assume que o coeficiente angular da relação linear PAS_MAE e PAS_RN é igual a zero.
H=
H0 : β1 = 0
H1 : β1 ̸= 0
19
Ajuste linear amostral
# Modelo de Regressão Linear Simples m1
m1 <- lm(PAS_RN ~ PAS_MAE, data = PAS)

summary(m1)
##
## Call:
## lm(formula = PAS_RN ~ PAS_MAE, data = PAS)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.1420 -0.4700 -0.1773 0.6302 1.7343
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -1.80193 2.37363 -0.759 0.451
## PAS_MAE 0.71602 0.02059 34.768 <2e-16 ***
## ---
## Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
##
## Residual standard error: 0.8803 on 48 degrees of freedom
## Multiple R-squared: 0.9618, Adjusted R-squared: 0.961
## F-statistic: 1209 on 1 and 48 DF, p-value: < 2.2e-16
20
Interpretação da Reta
P ASRN (estimado) = β0 + β1 · P ASM ae , ⇐⇒ P ASmin ≤ P ASM ae ≤ P ASmax
21
Vamos ao R!
22

Beamer 2

Enviado por

Direitos autorais:

Formatos disponíveis

Beamer 2

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Beamer 2

Enviado por

Direitos autorais:

Formatos disponíveis

CAR00080

Correlação e Modelos Lineares

Prof. Lucas Helal

As variáveis A e B possuem alguma relação de dependência?

Os coeficientes de cada modelo...

E uma grata surpresa!

Anscombe Set 3 Anscombe Set 4

Sempre faça o diagnóstico do seu modelo e dos seus dados!!

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

5 6 7 8 9 10 −1.5 −0.5 0.5 1.5

Fitted values Theoretical Quantiles

5 6 7 8 9 10 0.00 0.10 0.20 0.30

Fitted values Leverage

1. Quão forte é a relação linear entre duas variáveis?

Correlação Linear Simples

Regressão Linear Simples

Coeficiente de Correlação de Person (r):

• Valores positivos indicam relação direta: x ↑ e y ↑

Exemplo Prático - Recém Nascido

E1: Em uma amostra de N = 42 nascimentos, foram observadas as v.a.:

1. A PAS de um recém-nascido e a PAS da mãe são variáveis linearmente correlacionadas?

Homocedasticidade: a variabilidade de uma variável é influenciada pelo valor da outra?

Teste de Correlação Linear de Pearson

Criando um banco de dados fictício para PAS da mãe e do RN.

PAS_MAE <- rnorm(50, 114, 6)

Ajuste linear amostral

# Modelo de Regressão Linear Simples m1

m1 <- lm(PAS_RN ~ PAS_MAE, data = PAS)

P ASRN (estimado) = β0 + β1 · P ASM ae , ⇐⇒ P ASmin ≤ P ASM ae ≤ P ASmax

Você também pode gostar