Regressão Linear - Exercícios Resolvidos

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 3

Universidade Lusófona DEISI Semeste 1 - 2023/2024

Probabilidades e Estatística LEI LCiD LCMA

Ficha 2 de Exercícios - 2 outubro 23

Estatística Descritiva a duas dimensões - Conceitos base: população, amostra, variável de interesse,
diagrama de dispersão, centro de massa da nuvem de pontos, medidas de dispersão, covariância, reta de
regressão linear, coeficiente de Pearson.

Formulário:

Considera-se uma amostra (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ).

Pn
i=1 xi
Média amostral de (x1 , . . . , xn ): x̄ =
n
Pn Pn 
(xi − x̄)2 i=1 x2i − n × x̄2
Variância amostral de (x1 , . . . , xn ): s2x = i=1
=
n−1 n−1
Pn Pn
i=1 (xi − x̄)(yi − ȳ) i=1 xi yi − n × x̄ȳ
Covariância amostral: cov(x, y) = =
n−1 n−1

Equação para a reta de regressão linear (método dos mínimos quadrados): ŷ = b0 + b1 × x


cov(x, y)
onde b1 = e b0 = ȳ − b1 x̄
s2x

cov(x, y)
Coeficiente de correlação de Pearson: r =
sx sy

1. Um estudo científico analisa a relação entre a percentagem de caroteno em semente de trigo, x, e a


percentagem de caroteno na farinha de trigo, y.
Para realizar este estudo, consideram-se 10 variedades distintas de trigo. Os dados recolhidos são os
seguintes:

Variedade de trigo 1 2 3 4 5 6 7 8 9 10
% caroteno em semente, x 1,18 2,13 1,41 1,42 1,5 1,25 1,65 1,24 1,48 1,35
% caroteno em farinha, y 2,39 3,11 2,15 1,96 2,02 1,76 2,1 2,12 2,28 1,86

Identifique:
(a) a população considerada neste problema.
(b) as variáveis de interesse que são analisadas.
(c) a dimensão da amostra.
(d) o centro de massa do diagrama de dispersão que representa estes dados estatísticos.
(e) Calcule uma medida de dispersão para os dados estatísticos referentes à percentagem de caroteno
em semente de trigo.
(f) Calcule a covariância da amostra. Interprete.

2. Mostre que:
(a) A variância amostral de (x1 , . . . , xn ): verfica a igualdade
Pn Pn 
(xi − x̄)2 i=1 x2i − n × x̄2
s2x = i=1
= .
n−1 n−1
(b) A covariância amostral que definimos por
Pn
i=1 (xi − x̄)(yi − ȳ)
cov(x, y) =
n−1
também se pode definir por Pn
i=1 xi yi − n × x̄ȳ
.
n−1

3. Suponha que o rendimento semanal de agregados familiares de uma dada população é descrito pela
variável x e que a despesa semanal em bens e serviços culturais dos mesmos agregados é representada
pela variável y , com valores em euro.
Um estudo envolvendo 10 agregados familiares conduziu aos seguintes valores:

10
X 10
X 10
X 10
X 10
X
xi = 2910 x2i = 985100 yi = 379 yi2 = 15673 xi yi = 116700.
i=1 i=1 i=1 i=1 i=1

(a) Identifique as duas características de interesse no problema.


(b) Calcule as médias amostrais marginais de x e também de y.
(c) Calcule a variância amostral para os dados estatísticos referentes a x e também a y.
(d) Calcule a covariância da amostra bidimensional apresentada no problema.
(e) O pode concluir a partir do sinal da covariância da amostra?
(f) Obtenha o valor para o coeficiente de correlação de Pearson.
(g) Considerando o modelo de regressão linear simples, determine os coeficientes para a reta de regressão
de y sobre x.
cov(x,y) 712.3333
b1 = s2x = 15365.5556 = 0.046359

b0 = ȳ − b1 x̄ = 37.9 − 0.046359 × 291 = 24.409531


(h) Determine o valor estimado para a despesa semanal em bens e serviços culturais de um agregado
naquela região do Porto que tenha rendimento semanal igual a 250euro.
ŷ = b0 + b1 × 250 = 37.9 − 0.046359 × 291 = 24.409531 + 0.046359 × 250 = 35.999281
(i) Admitindo que o valor real para a despesa semanal em bens e serviços culturais de um agregado
naquela região do Porto que tenha rendimento semanal igual a 250euro é igual a 43euro, determine
o resíduo correspondente.
e = y − ŷ = y − b0 + b1 × 250 = 43 − 35.999281 = 7.00

Page 2
(j) Obtenha o valor para o coeficiente de regressão. Comente.

r2 = 0.4762 = 0.227.
Cerca de 22.71% da variação total da variável resposta y é explicada pela variável x, através do
modelo de regressão linear simples. POdemos afirmar que a recta estimada não parece ajustar-se
bem ao conjunto de dados.

Soluções dos Exercícios.


3.
10 10
1 X 1 X
b) x̄ = xi = 291 ȳ = yi = 37.9
10 i=1 10 i=1

" 10 #
1 X 2 2 138290
c) s2x = (xi ) − 10 × x̄ = = 15365.5556
9 i=1 9
" 10 #
1 X 2 2 1308.9
s2y = (y ) − 10 × ȳ = = 145.4333
9 i=1 i 9

10
!
1 X 6411
d) cov(x, y) = xi yi − 10x̄ȳ = = 712.3333
9 i=1
9

e) A covariância amostral tem sinal positivo, logo as variáveis de interesse crescem no mesmo sentido
(quando x aumenta de valor, y também aumenta de valor ou quando x diminui de valor, y também
diminui de valor).
cov(x, y) 712.3333 712.3333
f) r= = = = 0.476
sx sy 123.9579 × 12.0596 1494.8827
cov(x,y) 712.3333
g) b1 = s2x = 15365.5556 = 0.046359

b0 = ȳ − b1 x̄ = 37.9 − 0.046359 × 291 = 24.409531

h) ŷ = b0 + b1 × 250 = 37.9 − 0.046359 × 291 = 24.409531 + 0.046359 × 250 = 35.999281

i) e = y − ŷ = y − b0 + b1 × 250 = 43 − 35.999281 = 7.00

Page 3

Você também pode gostar