Regressão Linear - Exercícios Resolvidos
Regressão Linear - Exercícios Resolvidos
Regressão Linear - Exercícios Resolvidos
Estatística Descritiva a duas dimensões - Conceitos base: população, amostra, variável de interesse,
diagrama de dispersão, centro de massa da nuvem de pontos, medidas de dispersão, covariância, reta de
regressão linear, coeficiente de Pearson.
Formulário:
Pn
i=1 xi
Média amostral de (x1 , . . . , xn ): x̄ =
n
Pn Pn
(xi − x̄)2 i=1 x2i − n × x̄2
Variância amostral de (x1 , . . . , xn ): s2x = i=1
=
n−1 n−1
Pn Pn
i=1 (xi − x̄)(yi − ȳ) i=1 xi yi − n × x̄ȳ
Covariância amostral: cov(x, y) = =
n−1 n−1
cov(x, y)
Coeficiente de correlação de Pearson: r =
sx sy
Variedade de trigo 1 2 3 4 5 6 7 8 9 10
% caroteno em semente, x 1,18 2,13 1,41 1,42 1,5 1,25 1,65 1,24 1,48 1,35
% caroteno em farinha, y 2,39 3,11 2,15 1,96 2,02 1,76 2,1 2,12 2,28 1,86
Identifique:
(a) a população considerada neste problema.
(b) as variáveis de interesse que são analisadas.
(c) a dimensão da amostra.
(d) o centro de massa do diagrama de dispersão que representa estes dados estatísticos.
(e) Calcule uma medida de dispersão para os dados estatísticos referentes à percentagem de caroteno
em semente de trigo.
(f) Calcule a covariância da amostra. Interprete.
2. Mostre que:
(a) A variância amostral de (x1 , . . . , xn ): verfica a igualdade
Pn Pn
(xi − x̄)2 i=1 x2i − n × x̄2
s2x = i=1
= .
n−1 n−1
(b) A covariância amostral que definimos por
Pn
i=1 (xi − x̄)(yi − ȳ)
cov(x, y) =
n−1
também se pode definir por Pn
i=1 xi yi − n × x̄ȳ
.
n−1
3. Suponha que o rendimento semanal de agregados familiares de uma dada população é descrito pela
variável x e que a despesa semanal em bens e serviços culturais dos mesmos agregados é representada
pela variável y , com valores em euro.
Um estudo envolvendo 10 agregados familiares conduziu aos seguintes valores:
10
X 10
X 10
X 10
X 10
X
xi = 2910 x2i = 985100 yi = 379 yi2 = 15673 xi yi = 116700.
i=1 i=1 i=1 i=1 i=1
Page 2
(j) Obtenha o valor para o coeficiente de regressão. Comente.
r2 = 0.4762 = 0.227.
Cerca de 22.71% da variação total da variável resposta y é explicada pela variável x, através do
modelo de regressão linear simples. POdemos afirmar que a recta estimada não parece ajustar-se
bem ao conjunto de dados.
" 10 #
1 X 2 2 138290
c) s2x = (xi ) − 10 × x̄ = = 15365.5556
9 i=1 9
" 10 #
1 X 2 2 1308.9
s2y = (y ) − 10 × ȳ = = 145.4333
9 i=1 i 9
10
!
1 X 6411
d) cov(x, y) = xi yi − 10x̄ȳ = = 712.3333
9 i=1
9
e) A covariância amostral tem sinal positivo, logo as variáveis de interesse crescem no mesmo sentido
(quando x aumenta de valor, y também aumenta de valor ou quando x diminui de valor, y também
diminui de valor).
cov(x, y) 712.3333 712.3333
f) r= = = = 0.476
sx sy 123.9579 × 12.0596 1494.8827
cov(x,y) 712.3333
g) b1 = s2x = 15365.5556 = 0.046359
Page 3