Resex RLM
Resex RLM
Resex RLM
1. Proceda como indicado no enunciado para ter disponível a data frame vinho.RLM.
(a) A “matriz de nuvens de pontos” produzida pelo comando plot(vinho.RLM) tem as nuvens
de pontos associadas a cada possível par de entre as p = 13 variáveis do conjunto de dados.
Na linha indicada pela designação V8 encontram-se os gráficos em que essa variável surge
no eixo vertical. A modelação de V8 com base num único preditor parece promissor apenas
com o preditor V7 (o que não deixa de ser natural, visto V7 ser o índice de fenóis totais,
sendo V8 o teor de flavonóides, ou seja, um dos fenóis medidos pela variável V7).
(b) O ajustamento pedido é:
> summary(lm(V8 ~ V2, data=vinho.RLM))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.75876 1.17370 -1.498 0.13580
V2 0.29137 0.09011 3.234 0.00146 **
---
Residual standard error: 0.9732 on 176 degrees of freedom
Multiple R-squared: 0.05608,Adjusted R-squared: 0.05072
F-statistic: 10.46 on 1 and 176 DF, p-value: 0.001459
Trata-se dum péssimo ajustamento, o que não surpreende, tendo em conta a nuvem de
pontos deste par de variáveis, obtida na alínea anterior. O coeficiente de determinação é
quase nulo: R2 = 0.05608 e menos de 6% da variabilidade no teor de flavonóides é explicado
pela regressão sobre o teor alcoólico.
No entanto, a hipótese nula do teste de ajustamento global (H0 : R2 = 0 ou, alternati-
vamente, H0 : β1 = 0) é rejeitada: o seu p-value é apenas p = 0.00146 (valor que tanto
pode ser lido na última linha da listagem produzida pelo comando summary como na linha
do teste-t à hipótese β1 = 0). Ou seja, um coeficiente de determinação tão baixo quanto
R2 = 0.05608 é considerado significativamente diferente de zero (em boa parte, devido à
grande dimensão da amostra). Mas isso não é sinónimo de um bom ajustamento do modelo.
Como sempre, a Soma de Quadrados Total é o numerador da variância amostral dos valores
observados da variável resposta. Ora,
> var(vinho.RLM$V8)
[1] 0.9977187
> dim(vinho.RLM)
[1] 178 13
> 177*var(vinho.RLM$V8)
[1] 176.5962
> 177*var(fitted(lm(V8 ~ V2 , data=vinho.RLM)))
[1] 9.903747
> 177*var(residuals(lm(V8 ~ V2 , data=vinho.RLM)))
[1] 166.6925
Analisando a coluna (ou linha) relativa à variável resposta V8, observa-se que a variável com
a qual esta se encontra mais correlacionada (em módulo) é V7 (r7,8 = 0.86), o que confirma
a inspecção visual feita na alínea 1a. Assim, o coeficiente de determinação numa regressão
de V8 sobre V7 é R2 = 0.86456352 = 0.74747, ou seja, o conhecimento do índice de fenóis
totais permite, através da regressão ajustada, explicar cerca de 75% da variabilidade total
do teor de flavonóides. O valor de SQT = 176.5962 é igual ao obtido na alínea anterior, uma
vez que diz apenas respeito à variabilidade da variável resposta (não dependendo do modelo
de regressão ajustado). Já o valor de SQR vem alterado e é agora: SQR = R2 · SQT =
132.0004, sendo SQRE = SQT − SQR = 176.5962 − 132.0004 = 44.5958.
(d) O modelo pedido no enunciado é:
> lm(V8 ~ V4 + V5 + V11 + V12 + V13 , data=vinho.RLM)
Coefficients:
(Intercept) V4 V5 V11 V12 V13
-2.25196 0.53661 -0.04932 0.09053 0.95720 0.99496
Os cinco preditores referidos permitem obter um coeficiente de determinação quase tão bom,
embora ainda inferior, ao obtido utilizando apenas o preditor V7.
(e) Ajustando a mesma variável resposta V8 sobre a totalidade das restantes variáveis obtêm-se
os seguintes resultados:
> lm(V8 ~ . , data=vinho.RLM)
Call:
lm(formula = V8 ~ ., data = vinho.RLM)
Coefficients:
(Intercept) V2 V3 V4 V5 V6 V7
-1.333e+00 4.835e-03 -4.215e-02 4.931e-01 -2.325e-02 -3.559e-03 7.058e-01
V9 V10 V11 V12 V13 V14
1.7 1.9 2.1 8.0 8.4 8.8 2.0 3.0 4.0 5.0
Altura
1.9
1.7
4.0
Peso
3.5
3.0
8.8
Brix
8.4
8.0
3.1
pH
2.9
2.7
5.0
4.0
Acucar
3.0
2.0
Das nuvens de pontos conclui-se que não há relações lineares particularmente evidentes,
facto que é confirmado pela matriz de correlações, onde a maior correlação é 0.714. Outro
aspecto evidente nos gráficos é o de haver relativamente poucas observações.
(b) A equação de base (usando os nomes das variáveis como constam da data frame) é:
havendo nesta equação seis parâmetros (os cinco coeficientes das variáveis preditoras e ainda
a constante aditiva β0 ).
(c) Recorrendo ao comando lm do R, tem-se:
> brix.lm <- lm(Brix ~ . , data=brix)
> brix.lm
Call:
lm(formula = Brix ~ Diametro + Altura + Peso + pH + Acucar, data = brix)
Coefficients:
(Intercept) Diametro Altura Peso pH Acucar
6.08878 1.27093 -0.70967 -0.20453 0.51557 0.08971
µ = E[Y | x1 , x2 , x3 , x4 , x5 ] = β0 + β1 x1 + β2 x2 + β3 x3 + β4 x4 + β5 x5
e o valor esperado obtido aumentando numa unidade apenas o preditor xj , por exemplo x3 :
µ∗ = E[Y | x1 , x2 , x3 + 1, x4 , x5 ] = β0 + β1 x1 + β2 x2 + β3 (x3 + 1) + β4 x4 + β5 x5 .
Assim, esta regressão linear múltipla explica quase 85% da variabilidade do teor brix, bas-
tante acima de qualquer das regressões lineares simples, para as quais o maior valor de
coeficiente de determinação seria de apenas R2 = 0.7142 = 0.510 (o maior quadrado de
coeficiente de correlação entre Brix e qualquer dos preditores).
(g) Tem-se:
> X <- model.matrix(brix.lm)
> X
(Intercept) Diametro Altura Peso pH Acucar
1 1 2.0 2.1 3.71 2.78 5.12
2 1 2.1 2.0 3.79 2.84 5.40
3 1 2.0 1.7 3.65 2.89 5.38
4 1 2.0 1.8 3.83 2.91 5.23
5 1 1.8 1.8 3.95 2.84 3.44
6 1 2.0 1.9 4.18 3.00 3.42
7 1 2.1 2.2 4.37 3.00 3.48
8 1 1.8 1.9 3.97 2.96 3.34
9 1 1.8 1.8 3.43 2.75 2.02
10 1 1.9 1.9 3.78 2.75 2.14
11 1 1.9 1.9 3.42 2.73 2.06
12 1 2.0 1.9 3.60 2.71 2.02
13 1 1.9 1.7 2.87 2.94 3.86
14 1 2.1 1.9 3.74 3.20 3.89
A matriz do modelo é a matriz de dimensões n × (p+1), cuja primeira coluna é uma coluna
de n uns e cujas p colunas seguintes são as colunas dadas pelas n observações de cada uma
das variáveis preditoras.
O vector ~b dos p + 1 parâmetros ajustados é dado pelo produto matricial do enunciado:
~b = (Xt X)−1 (Xt ~y). Um produto matricial no R é indicado pelo operador “%*%”, enquanto
que uma inversa matricial é calculada pelo comando solve. A transposta duma matriz é
dada pelo comando t. Logo, o vector ~b obtém-se da seguinte forma:
> solve(t(X) %*% X) %*% t(X) %*% brix$Brix
[,1]
(Intercept) 6.08877506
Diametro 1.27092840
Altura -0.70967465
Peso -0.20452522
pH 0.51556821
Acucar 0.08971091
Como se pode confirmar, trata-se dos valores já obtidos através do comando lm.
• Viu-se no Exercício 3b) da Regressão Linear Simples que, para qualquer conjunto de n pares
Pn P
n
de observações se tem: (n−1) cov xy = (xi − x)(yi − y) = (xi − x)yi . Distribuindo yi e
i=1 i=1
o somatório pela diferença, tem-se:
n
X n
X n
X n
X
(n−1) cov xy = xi yi −x yi = xi yi −n x y ⇔ xi yi = (n−1) cov xy +n x y. (1)
i=1 i=1 i=1 i=1
| {z }
=n y
(a) A matriz do modelo X é de dimensão n × (p+1), que no caso duma regressão linear simples
(p = 1), significa n × 2. Tem uma primeira coluna de uns (o vector ~1n ) e uma segunda coluna
com os n valores observados da variável preditora x, coluna essa que designamos pelo vector
No canto superior esquerdo tem-se a expressão de V [β̂0 ]. No canto inferior direito a expressão
de V [β̂1 ]. O elemento comum às duas posições não diagonais é Cov[β̂0 , β̂1 ] = Cov[β̂1 , β̂0 ].
(e) Usando as expressões finais obtidas nas alíneas (c) e (a), obtém-se
t −1 t 1 (n−1)s2x + nx2 −nx ny
(X X) X ~y =
n(n−1)s2x −nx n (n−1)covxy + n x y
✘ 2✘
1 (n−1) s2x n y + ✘ x2✘y − n x (n−1) covxy − ✘
n2✘ x✘
n2✘ y
= ✟
n(n−1) s2x −✟n2✟x y + n(n−1) covxy + ✟n2✟x✟y
" n(n−1)
✘ ✘ ✘ ✘ #
✘✘ s✘ ✘
2 n(n−1)cov
x y xy x
✘ ✘ ✘s2x − ✘
n(n−1) ✘✘ s2x
n(n−1) y − b1 x b0
= ✘ ✘✘ covxy
n(n−1) =
b1
=
b1
.
✘ ✘✘ 2
n(n−1) sx
4. Sabemos que a matriz de projecção ortogonal referida é dada por H = X(Xt X)−1 Xt , onde X é
a matriz do modelo, ou seja, a matriz de dimensões n × (p + 1) que tem na primeira coluna, n
uns, e em cada uma das p restantes colunas, as n observações de cada variável preditora. Ora,
(a) A idempotência é fácil de verificar, tendo em conta que (Xt X)−1 é a matriz inversa de Xt X:
✘✘ ✟ ✘
X✟
H H = X(Xt X)−1 Xt X(Xt X)−1 Xt = X(Xt X)−1✟ t
(X✘t X)
X✘ −1 t
X = X(Xt X)−1 Xt = H .
(b) Como foi visto nas aulas teóricas, qualquer vector do subespaço das colunas da matriz X,
ou seja, do subespaço C(X) ⊂ Rn , se pode escrever como X~a, onde ~a ∈ Rp+1 é o vector dos
p+1 coeficientes na combinação linear das colunas de X. Ora, a projecção ortogonal deste
vector sobre o subespaço C(X) (que já o contém) é dada por
✘✘−1 ✘ ✘
✘a = X~a .
✘
(X✘t X)
HX~a = X(Xt X)−1 Xt (X~a) = X✘ (Xt X)~
✘
directamente da alínea anterior, uma vez que o vector ~1n pertence ao subespaço das colunas
de X, sendo a primeira das colunas dessa matriz (usando a notação da alínea anterior,
tem-se ~1n = X~a com ~a = (1, 0, 0, ..., 0)t ). Mas a expressão final obtida, n1 ~1tn ~y, é a média
y dos valores observados de Y (já que ~1tn ~y devolve a soma dos elementos do vector dessas
observações, ~y). Assim, também na regressão linear múltipla, valores observados de Y e
correspondentes valores ajustados partilham o mesmo valor médio.
(a)
E[α W1 ] α E[W1 ]
E[α W2 ] α E[W2 ]
~ =
E[αW] ..
= ..
~ .
= α E[W]
. .
E[α Wk ] α E[Wk ]
(b)
E[W1 + a1 ] E[W1 ] + a1 E[W1 ] a1
E[W2 + a2 ] E[W2 ] + a2 E[W2 ] a2
~ + ~a] =
E[W ..
= ..
= ..
+ ..
~ + ~a .
= E[W]
. . . .
E[Wk + ak ] E[Wk ] + ak E[Wk ] ak
V [α W1 ] Cov[α W1 , α W2 ] · · · Cov[α W1 , α Wk ]
Cov[α W2 , α W1 ] V [α W2 ] ··· Cov[α W2 , α Wk ]
~
V [αW] = .. .. .. ..
. . . .
Cov[α Wk , α W1 ] Cov[α Wk , α W2 ] · · · V [α Wk ]
α2 V [W1 ] α2 Cov[W1 , W2 ] · · · α2 Cov[W1 , Wk ]
2
α Cov[W2 , W1 ] α2 V [W2 ] ··· α2 Cov[W2 , Wk ]
~
= .. .. .. .. = α2 V [W]
. . . .
α2 Cov[Wk , W1 ] α2 Cov[Wk , W2 ] · · · α2 V [Wk ]
(d)
V [W1 + a1 ] Cov[W1 + a1 , W2 + a2 ] · · · Cov[W1 + a1 , Wk + ak ]
Cov[W2 + a2 , W1 + a1 ] V [W2 + a2 ] · · · Cov[W2 + a2 , Wk + ak ]
~ + ~a] =
V [W .. .. .. ..
. . . .
Cov[Wk + ak , W1 + a1 ] Cov[Wk + ak , W2 + a2 ] · · · V [Wk + ak ]
V [W1 ] Cov[W1 , W2 ] · · · Cov[W1 , Wk ]
Cov[W2 , W1 ] V [W2 ] · · · Cov[W2 , Wk ]
~
= .. .. .. .. = V [W]
. . . .
Cov[Wk , W1 ] Cov[Wk , W2 ] · · · V [Wk ]
(e)
E[W1 + U1 ] E[W1 ] + E[U1 ] E[W1 ] E[U1 ]
E[W2 + U2 ] E[W2 ] + E[U2 ] E[W2 ] E[U2 ]
~ =
~ U]
E[W+ ..
= ..
= ..
+ ..
~
= E[W]+E[ ~ .
U]
. . . .
E[Wk + Uk ] E[Wk ] + E[Uk ] E[Wk ] E[Uk ]
6. Trata-se dum conjunto de dados utilizado para ilustrar vários acetatos das aulas teóricas. Algu-
mas alíneas desta pergunta encontram-se resolvidas nesses acetatos.
A data frame iris tem, na sua quinta e última coluna, o factor com o nome da espécie de lírio
a que cada observação diz respeito. Neste exercício essa informação não é utilizada.
7.5
Sepal.Length
6.0
4.5
4.0
Sepal.Width
3.0
2.0
7
5
Petal.Length
3
1
2.5
1.5
Petal.Width
0.5
A relação linear da variável resposta Petal.Width com o preditor Petal.Length é (como sa-
bemos do estudo deste conjunto de dados nos exercícios de regressão linear simples) bastante
forte. Não parece existir uma relação linear tão forte da largura da pétala com qualquer
das medições relativas às sépalas (embora a relação linear com o comprimento das sépalas
não seja de desprezar). Isso não significa, só por si, que a introdução desses dois novos
preditores não possa melhorar consideravelmente o ajustamento.
(b) Tem-se:
> iris2.lm <- lm(Petal.Width ~ Petal.Length + Sepal.Length + Sepal.Width , data=iris)
> iris2.lm
(...)
Coefficients:
(Intercept) Petal.Length Sepal.Length Sepal.Width
-0.2403 0.5241 -0.2073 0.2228
> summary(iris2.lm)
(...)
Multiple R-squared: 0.9379
(...)
Os valores estimados bj e os erros padrões associados, σ̂βˆj , obtêm-se a partir das primeira e
segunda colunas da tabela do ajustamento produzida pelo R:
> summary(iris2.lm)
(...)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.24031 0.17837 -1.347 0.18
Petal.Length 0.52408 0.02449 21.399 < 2e-16 ***
Sepal.Length -0.20727 0.04751 -4.363 2.41e-05 ***
Sepal.Width 0.22283 0.04894 4.553 1.10e-05 ***
---
Residual standard error: 0.192 on 146 degrees of freedom
4 8 12 16 100 300
12
NLesq
8
4
12 16
NP
8
4
16
12
NLdir
8
4
300
Area
100
4 6 8 12 4 6 8 12 16
Como se pode verificar, existem fortes relações lineares entre qualquer par de variáveis, o
que deixa antever que uma regressão linear múltipla de área foliar sobre vários preditores
venha a ter um coeficiente de determinação elevado. No entanto, nos gráficos que envolvem
a variável área, existe alguma evidência de uma ligeira curvatura nas relações com cada
comprimento de nervura individual.
(b) Tem-se:
> cor(videiras[,-1])
NLesq NP NLdir Area
NLesq 1.0000000 0.8788588 0.8870132 0.8902402
NP 0.8788588 1.0000000 0.8993985 0.8945700
NLdir 0.8870132 0.8993985 1.0000000 0.8993676
Area 0.8902402 0.8945700 0.8993676 1.0000000
Os valores das correlações entre pares de variáveis são todos positivos e bastante elevados,
o que confirma as fortes relações lineares evidenciadas nos gráficos.
(c) Existem n observações {(x1(i) , x2(i) , x3(i) , Yi )}ni=1 nas quatro variáveis: a variável resposta
área foliar (Area, variável aleatória Y ) e as três variáveis preditoras, associadas aos compri-
mentos de três nervuras da folha - a principal (variável NP, X1 ), a lateral esquerda (variável
NLesq, X2 ) e a lateral direita (variável NLdir, X3 ). Para essas n observações admite-se que:
• A relação de fundo entre Y e os três preditores é linear, com variabilidade adicional
dada por uma parcela aditiva ǫi chamada erro aleatório:
Yi = β0 + β1 x1(i) + β2 x2(i) + β3 x3(i) + ǫi , para qualquer i = 1, 2, ..., n;
• os erros aleatórios têm distribuição Normal, de média zero e variância constante:
ǫi ∩ N (0, σ 2 ), ∀ i;
• Os erros aleatórios {ǫi }ni=1 são variáveis aleatórias independentes.
Assim, tem-se para cada folha, os seguintes intervalos a 95% de confiança para µY |X :
• Folha 1 : ] 219.1776 , 226.3747 [;
• Folha 2 : ] 164.9215 , 169.8590 [;
• Folha 3 : ] 308.4607 , 320.0823 [.
Repare-se como a amplitude de cada intervalo é diferente, uma vez que depende de
informação específica para cada folha (dada pelo vector ~a dos valores dos preditores).
iii. Sabemos que os intervalos de predição têm uma forma análoga aos intervalos de confi-
ança para E[Y |X], mas com uma maior amplitude, associada
p à variabilidade adicional
de observações individuais, a que corresponde σ̂indiv = QM RE · [1 + ~at (Xt X)−1~a].
De novo, recorremos ao comando predict, desta vez com o argumento int=“pred”:
> predict(videiras.lm, new=data.frame(NP=c(12.1,10.6,15.1),NLesq=c(11.6,10.1,14.9),
+ NLdir=c(11.9, 9.9, 14.0)), int="pred")
fit lwr upr
1 222.7762 174.0206 271.5318
2 167.3903 118.7050 216.0755
3 314.2715 265.3029 363.2401
(h) Recorremos de novo ao R para construir os gráficos de resíduos. O primeiro dos dois coman-
dos seguintes destina-se a dividir a janela gráfica numa espécie de matriz 2 × 2:
> par(mfrow=c(2,2))
> plot(videiras.lm, which=c(1,2,4,5))
4
475
222 222
475
Residuals
50
2
−2 0
−50
Standardized residuals
Cook’s distance Residuals vs Leverage
0.4
499
Cook’s distance
481
4
222 499 0.5
222
2
0.2
481
−2
Cook’s distance
0.0
O gráfico do canto superior esquerdo é o gráfico dos resíduos usuais (ei ) vs. valores ajustados
(ŷi ). Neste gráfico são visíveis dois problemas: uma tendência para a curvatura (já detectado
nos gráficos da variável resposta contra cada preditor individual), que indica que o modelo
linear pode não ser a melhor forma de relacionar área foliar com os comprimentos das
nervuras; e uma forma em funil que sugere que a hipótese de homogeneidade das variâncias
dos erros aleatórios pode não ser a mais adequada. Este gráfico foi usado no acetato 163
das aulas teóricas. O gráfico no canto superior direito é um qq-plot, de quantis empíricos
vs. quantis teóricos duma Normal reduzida. A ser verdade a hipótese de Normalidade
dos erros aleatórios, seria de esperar uma disposição linear dos pontos neste gráfico. É
visível, sobretudo na parte direita do gráfico, um afastamento relativamente forte de muitas
observações a esta linearidade, sugerindo problemas com a hipótese de Normalidade. O
gráfico do canto inferior esquerdo é um diagrama de barras com as distâncias de Cook de
cada observação. Embora nenhuma observação ultrapasse o limiar de guarda Di > 0.5,
duas observações têm um valor considerável da distância de Cook: a observação 499, com
D499 próximo de 0.4 e a observação 222, com distância de Cook próxima de 0.3. Estas
duas observações merecem especial atenção para procurar identificar as causas de tão forte
influência no ajustamento. Finalmente, o gráfico do canto inferior direito relaciona resíduos
(internamente) estandardizados (eixo vertical) com valor do efeito alavanca (eixo horizontal)
e também com as distâncias de Cook (sendo traçadas automaticamente pelo R linhas de
igual distância de Cook, para alguns valores particularmente elevados, como 0.5 ou 1).
Este gráfico ilustra que as duas observações com maior distância de Cook (499 e 222) têm
valores relativamente elevados, quer dos resíduos estandardizados, quer do efeito alavanca.
Saliente-se que o efeito alavanca médio, neste ajustamento de n = 600 observações a um
4
modelo com p + 1 = 4 parâmetros é h = 600 = 0.006667 e as duas observações referidas
têm os maiores efeitos alavanca das n = 600 observações com valores, respectivamente,
E [Y | X1 = x1 , X2 = x2 + 1, X3 = x3 + 1] = β0 + β1 x1 + β2 (x2 + 1) + β3 (x3 + 1)
− E[Y | X1 = x1 , X2 = x2 , X3 = x3 ] = β0 + β1 x1 + β2 x2 + β3 x3
b2 +b3 −1 0.9703+0.2923−1
pelo que Tcalc = σ̂β̂ +β̂ = 0.1571361 = 1.671163. Como |Tcalc | < t0.025(35) ≈ 2.03,
2 3
não se rejeita H0 ao nível de significância de 0.05, isto é, podemos admitir que o aumento
simultâneo de 1 µm em cada um dos dois segmentos de antena, provoca um aumento
de 10 µm no comprimento médio do élitro.
(f) Pede-se um teste F parcial para comparar o
Não sendo um ajustamento que se possa considerar excelente, apesar de tudo as variáveis
preditivas conseguem explicar quase 75% da variabilidade nos rendimentos. Um teste de
ajustamento global rejeita a hipótese nula (inutilidade do modelo) com um valor de prova
de p = 0.00004349.
(b) O coeficiente de determinação modificado tem valor dado no final da penúltima linha da
listagem produzida pelo R: Rmod2 = 0.6488. Este coeficiente modificado é definido como
2 QM RE SQRE n−1 n−1
Rmod = 1− QM T = 1− SQT · n−(p+1) = 1−(1−R2 )· n−(p+1) . O facto de, neste exercício o valor
2 2
do R usual e do R modificado serem bastante diferentes resulta do facto de se tratar dum
modelo com um valor de R2 (usual) não muito elevado, e que é ajustado com um número de
observações (n = 33) não muito grande, quando comparado com o número de parâmetros do
modelo (p+1 = 10). Efectivamente, e considerando a última das expressões acima para Rmod 2 ,
n−1 32 2
vemos que o factor multiplicativo n−(p+1) = 23 = 1.3913. Assim, a distância do R usual em
relação ao seu máximo (1−R2 = 0.2524) é aumentado em cerca de 40% antes de ser subtraído
de novo ao valor máximo 1, pelo que Rmod 2 = 1 − 0.2524 × 1.3913 = 1 − 0.3512 = 0.6488.
2
Em geral, o Rmod penaliza modelos ajustados com relativamente poucas observações (em
20
3
1941 1941
2
10
Standardized residuals
1
Residuals
0
−1
−10
1934
1951
−2
1947
1951
30 40 50 60 70 −2 −1 0 1 2
1947
1941
0.8
1
2
0.5
Standardized residuals
0.6
1
Cook’s distance
0
0.4
−1
1941
1951
0.2
0.5
−2
1947 1
1951
0.0
Cook’s distance
O gráfico de resíduos usuais vs. valores ajustados ŷi (no canto superior esquerdo) não apre-
senta qualquer padrão digno de registo, dispersando-se os resíduos numa banda horizontal.
Assim, nada sugere que não se verifiquem os pressupostos de linearidade e de homgeneidade
de variâncias, admitidos no modelo RLM. Analogamente, no qq-plot comparando quantis
teóricos duma Normal reduzida e quantis empíricos (canto superior direito), existe linea-
ridade aproximada dos pontos, pelo que a hipótese de Normalidade dos erros aleatórios
também parece admissível. Já no diagrama de barras das distâncias de Cook (canto inferior
esquerdo) há um facto digno de registo: a observação correspondente ao ano 1947 tem um
> summary(milhoJun.lm)
[...]
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.6476 50.4835 0.251 0.8041
x1 1.0381 0.1655 6.272 1.04e-06 ***
x2 0.8606 0.4198 2.050 0.0502 .
x3 -0.5710 0.4558 -1.253 0.2210
x4 -1.4878 1.0708 -1.389 0.1761
x5 0.6427 0.5747 1.118 0.2733
---
Residual standard error: 8.571 on 27 degrees of freedom
Multiple R-squared: 0.6435,Adjusted R-squared: 0.5775
F-statistic: 9.749 on 5 and 27 DF, p-value: 2.084e-05
Tratando-se dum submodelo do modelo original (com todos os preditores), pode também
aqui efectuar-se um teste F parcial para comparar modelo e submodelo. Temos:
Hipóteses: H0 : βj = 0 , ∀ j = 6, 7, 8, 9 vs. H1 : ∃ j = 6, 7, 8, 9 tal que βj 6= 0
[modelos equivalentes] [modelos diferentes]
ou alternativamente,
H0 : R2c = R2s vs. H1 : R2c > R2s
n−(p+1) R2c −R2s
Estatística do Teste: F = p−k · 1−R2c ∩ F(p−k,n−(p+1)) , sob H0
Nível de significância: α = 0.05
Região Crítica: (Unilateral direita) Rejeitar H0 se Fcalc > fα(p−k,n−(p+1))
Conclusões: Temos n = 33, p = 9, k = 5, Rc2 = 0.7476 e Rs2 = 0.6435.
Logo, Fcalc = 234 ×
0.7476−0.6435
1−0.7476 = 2.371533 < f0.05(4,23) = 2.78. Assim, não se rejeita
H0 , ou seja, o modelo e o submodelo não diferem significativamente ao nível 0.05.
Esta conclusão pode ser confirmada utilizando o comando anova do R:
Apenas aceitando trabalhar com uma probabilidade de cometer o erro de Tipo I maior,
por exemplo α = 0.10, é que seria possível rejeitar H0 e considerar os modelos como tendo
ajustamentos significativamente diferentes.
Esta conclusão sugere a possibilidade de ter, já em finais de Junho, previsões de produção
que expliquem quase dois terços da variabilidade observada na produção. No entanto, deve
recordar-se que se trata dum modelo ajustado com relativamente poucas observações.
(f) Vamos aplicar o algoritmo de exclusão sequencial, baseado nos testes t aos coeficientes βj e
usando um nível de significância α = 0.10.
Partindo do ajustamento do modelo com todos os preditores, efectuado na alínea 9a),
conclui-se que há várias variáveis candidatas a sair (os p-values correspondentes aos tes-
tes a βj = 0 são superiores ao limiar acima indicado). De entre estas, é a variável x7 que
tem de longe o maior p-value, pelo que é a primeira variável a excluir.
Após a exclusão do preditor x7 é necessário re-ajustar o modelo:
Assinale-se que o valor do coeficiente de determinação quase não se alterou com a exclusão de
x7 . Continuam a existir várias variáveis com valor de prova superiores ao limiar estabelecido,
e de entre estas é a variável x8 que tem o maior p-value: p = 0.6849. Exclui-se essa variável
e ajusta-se novamente o modelo.
Tendo em conta que fixámos o limiar de exclusão no nível de significância α = 0.10, não
há mais variáveis candidatas à exclusão, pelo que o algoritmo termina aqui. O modelo
final escolhido pelo algoritmo tem quatro preditores (x1, x2, x6 e x9), e um coeficiente de
determinação R2 = 0.7206. Ou seja, com menos de metade dos preditores iniciais, apenas
se perdeu 0.027 no valor de R2 .
O valor relativamente alto (α = 0.10) do nível de significância usado é aconselhável, na
aplicação deste algoritmo, uma vez que variáveis cujo p-value cai abaixo deste limiar podem,
se excluídas, gerar quebras mais pronunciadas no valor de R2 . Tal facto é ilustrado pela
exclusão de x9 (a exclusão seguinte, caso se tivesse optado por um limiar α = 0.05):
Dado o número de exclusões efectuadas, pode desejar-se fazer um teste F parcial, com-
parando o submodelo final produzido pelo algoritmo e o modelo original com todos os
preditores:
Model 1: y ~ x1 + x2 + x6 + x9
Model 2: y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9
Res.Df RSS Df Sum of Sq F Pr(>F)
1 28 1554.6
2 23 1404.7 5 149.9 0.4909 0.7796
O p-value muito elevado (p = 0.7796) indica que não se rejeita a hipótese de modelo e
submodelo serem equivalentes.
Como foi indicado nas aulas teóricas, existe uma função do R, a função step, que automatiza
um algoritmo de exclusão sequencial, mas utilizando o valor do Critério de Informação de
Akaike (AIC) como critério de exclusão dum preditor em cada passo do algoritmo. Esta
função, cujas características são discutidas mais em pormenor na resolução do Exercício 10,
produz neste exemplo o mesmo submodelo final, como se pode constatar na parte final desta
listagem:
Na matriz de valores lógicos, cada linha corresponde a uma cardinalidade (número de va-
riáveis) do subconjunto preditor, e cada coluna corresponde a uma das variáveis preditoras.
As colunas que tenham o valor lógico TRUE, na linha correspondente a k preditores, cor-
respondem a variáveis que pertencem ao melhor subconjunto de k preditores. Repare-se
como o melhor subconjunto de quatro preditores é o subconjunto x1, x2, x6 e x9, escolhido
pelo algoritmo de exclusão sequencial (nas suas duas versões). Aliás, em todos os passos
intermédios do algoritmo, o subconjunto de k preditores escolhido acaba por revelar-se o
subconjunto óptimo, ou seja, o subconjunto de preditores que está associado aos maiores
valores do Coeficiente de Determinação.
(g) O ajustamento pedido nesta alínea produziu os seguintes resultados:
Comparando esta listagem com os resultados do modelo final produzido pelo algoritmo
de exclusão sequencial, nas unidades de medida originais (ver alínea 9f), constata-se que
as quantidades associadas à qualidade do ajustamento global (R2 , valor da estatística F
no teste de ajustamento global) mantêm-se inalteradas. Trata-se duma consequência do
facto de que as transformações de variáveis foram todas transformações lineares (afins).
No entanto, e tal como sucedia na RLS, os valores das estimativas bj são diferentes. O
facto de que a informação relativa aos testes a βj = 0 se manter igual, para os coeficientes
βj que multiplicam as variáveis preditoras (isto é, quando j > 0), sugere que se trata
de alterações que apenas visam adaptar as estimativas às novas unidades de medida, não
alterando globalmente o ajustamento.
10. (a) Os dados para este exercício estão na data frame de nome trigo, que estará disponível na
sessão após executar-se a instrução load descrita no “Aviso” no início dos enunciados dos
exercícios de regressão linear múltipla. Nesse caso, o modelo de regressão linear múltipla
pedido é invocado, no R, através dos comandos:
> trigo.lm <- lm(Y ~ x1 + x2 + x3 + x4, data=trigo)
> summary(trigo.lm)
O ajustamento obtido é o seguinte:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.7897576 0.7904169 2.264 0.0642 .
x1 -0.0020205 0.0010862 -1.860 0.1122
x2 0.0453405 0.0465081 0.975 0.3673
x3 -0.0010773 0.0021529 -0.500 0.6346
x4 0.0003520 0.0004524 0.778 0.4661
---
Residual standard error: 0.124 on 6 degrees of freedom
Multiple R-squared: 0.7949, Adjusted R-squared: 0.6582
F-statistic: 5.815 on 4 and 6 DF, p-value: 0.02919
onde (tendo em conta a listagem anterior) b2 = 0.0453405 e σ̂β̂2 = 0.0465081. Uma vez que
se pede um IC a 95% de confiança, tem-se ainda t α2 (n−(p+1)) = t0.025(6) = 2.446912. Assim,
o IC pedido é: ] − 0.06846 , 0.15914 [. Tal como numa regressão linear simples, este intervalo
de confiança (e os dos outros parâmetros βj ) podem ser obtidos no R, através do comando
confint:
> confint(trigo.lm)
2.5 % 97.5 %
(Intercept) -0.1443229969 3.7238381639
x1 -0.0046784122 0.0006374421
x2 -0.0684608295 0.1591417618
x3 -0.0063453276 0.0041907752
x4 -0.0007551014 0.0014590854
(c) Qualquer variável cujo coeficiente associado, βj , possa ser nulo é uma variável candidata a
sair do modelo sem que essa exclusão afecte de forma significativa o ajustamento do mesmo.
Por exemplo, na alínea anterior viu-se que o intervalo a 95% de confiança para β2 contém
o valor zero, pelo que é admissível que β2 = 0. Desta forma, a variável x2 é candidata a
sair do modelo, para o nível de significância α = 0.05, sem que com isso o ajustamento seja
afectado de forma significativa. Na listagem produzida pelo R, no ajustamento de regressões
lineares, as duas últimas colunas da tabela Coefficients contêm informação relativa a testes
às hipóteses H0 : βj = 0 vs. H1 : βj 6= 0 (para cada j = 1, 2, 3, 4). No nosso caso, é fácil
concluir que, para o nível de significância α = 0.05, não se rejeita a hipótese de qualquer dos
βj ser nulo. Assim, todas as variáveis preditoras são candidatas a sair sem que isso afecte
de forma significativa o ajustamento. No entanto, apenas se pode excluir uma variável
preditora (os testes dizem respeito ao modelo com todas as variáveis preditoras, não sendo
possível prever os efeitos de excluir mais do que uma variável simultaneamente). Nesse caso,
no algoritmo de exclusão sequencial exclui-se a variável cujo p-value (do teste bilateral a
1
Até poderia acontecer que algum destes modelos tivesse R2 superior. Não há, à partida, garantias de que o algoritmo
de exclusão sequencial seleccione o modelo de k preditores com melhor R2 .
Este novo submodelo já não tem variáveis candidatas a sair e é, portanto, o submodelo final,
escolhido pelo algoritmo de exclusão sequencial (ao nível α = 0.10, mas os resultados seriam
neste exemplo idênticos se tivesse sido escolhido um nível de significância α = 0.05). Trata-
se dum modelo com sete variáveis preditoras. Repare-se como foi possível excluir quase
metade dos preditores iniciais, baixando o valor original de R2 (0.8577) para um valor
apenas ligeiramente inferior: R2 = 0.8543. O submodelo final é bem mais parcimonioso,
sem perda substancial de qualidade.
O comando step do R escolhe o mesmo submodelo final com sete variáveis preditoras, como
se pode confirmar executando o comando
> step(lm(V8 ~ . , data=vinho.RLM), direction="backward")
(b) Embora os resultados da alínea anterior deixem antever o resultado do teste pedido nesta
alínea, executaremos o teste F parcial para comparar o modelo completo original (com todas
as variáveis preditoras) e o submodelo final. Nesta resolução, escrevemos os parâmetros do
modelo completo com uma numeração não sequencial, de forma a que cada βj tenha o
mesmo índice que a variável Vj (j = 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14) que esse coeficiente
multiplica:
V 8 = β0 + β2 V 2 + β3 V 3 + β4 V 4 + β5 V 5 + β6 V 6 + β7 V 7 + β9 V 9 + β10 V 10
+ β11 V 11 + β12 V 12 + β13 V 13 + β14 V 14 + ǫ
O submodelo resulta de excluir as variáveis preditoras V2, V3, V6, V11 e V14:
Os dois modelos serão idênticos caso os coeficientes das variáveis excluídas do submodelo
sejam todos nulos: β2 = β3 = β6 = β11 = β14 = 0. Essa é a hipótese nula do teste.
Hipóteses: H0 : βj = 0, ∀ j ∈ {2, 3, 6, 11, 14} vs. H1 : ∃ j ∈ {2, 3, 6, 11, 14} tal que βj 6= 0.
n−(p+1) R2c −R2s
Estatística do teste: F = p−k 1−R2c
∩ F(p−k,n−(p+1)) , sob H0 .
Nível de significância: α = 0.05.
Região Crítica (Unilateral direita): Rejeitar H0 se Fcalc > fα (p−k,n−(p+1)) = f0.05(5,165)
≈ 2.27 (entre 2.21 e 2.29, nas tabelas).
Conclusões: No nosso caso, o valor calculado da estatística é Fcalc = 165 5
0.8577−0.8543
1−0.8577 ≈
0.788. Assim, não se rejeita H0 , que é a hipótese de igualdade entre modelo e sub-
modelo. Esta conclusão está de acordo com as expectativas discutidas na sequência da
alínea anterior.
É possível efectuar este teste F parcial a modelos encaixados, recorrendo ao comando anova
do R, indicando como argumentos os referidos modelos ajustados. No nosso caso:
> vinho.lm.cmp <- lm(V8 ~ . , data=vinho.RLM)
> vinho.lm.sub <- lm(V8 ~ V4 + V5 + V7 + V9 + V10 + V12 + V13 , data=vinho.RLM)
> anova(vinho.lm.sub, vinho.lm.cmp)
Analysis of Variance Table
v = β0 + β1 cl + β2 dl + β3 r + β4 b + ǫ .
(a) Em geral, coeficientes de determinação tomam valores no intervalo [0, 1]. No entanto, a
matriz de correlações entre cada par de variáveis é disponibilizada no enunciado. Assim,
sabemos qual o coeficiente de determinação associado a todas as possíveis regressões lineares
simples que tenham a variável v como variável resposta. O maior desses coeficientes de
determinação corresponde à escolha do preditor b, e seria Rb2 = (0.9555627)2 = 0.9131001.
Uma vez que, acrescentando novos preditores, o coeficiente de determinação R2 apenas pode
crescer, sabemos que para a regressão múltipla indicada o coeficiente de determinação tem
de estar no intervalo ]0.9131, 1]. Trata-se duma informação que faz antever um modelo útil.
(b) A qualidade do ajustamento do modelo é indicada de duas formas complementares: (i)
um teste F de ajustamento global do modelo; e (ii) a análise do valor do coeficiente de
determinação. Pelos resultados disponíveis no enunciado, este último é muito elevado: R2 =
0.9256, sugerindo um bom modelo, que explica 92.56% da variabilidade total da variável
resposta v. Este facto é confirmado pela claríssima rejeição da hipótese nula num teste de
ajustamento global (veja-se a resolução do Exercício 10 para os pormenores dum teste deste
tipo). De facto, o valor de prova associado à hipótese nula H0 : R2 = 0 é inferior à precisão
numérica do computador (< 2.2 × 10−16 ), ou seja, indistinguível de zero, pelo que não há
dúvidas em rejeitar a hipótese nula (hipótese que indicaria um modelo inútil).
(c) É pedido um intervalo a 95% de confiança para o coeficiente β2 que, no modelo, multiplica
a variável “distância ao solo dum cacho” (variável dl), a fim de avaliar a hipótese que esse
coeficiente tenha o valor 0.005. Tem-se:
i h
b2 − t α2 (n−(p+1)) · σ̂β̂2 , b2 + t α2 (n−(p+1)) · σ̂β̂2
59 0.9256 − Rs2
0.000256 = · ⇔ 3.228 × 10−7 = 0.9256 − Rs2 ⇔ Rs2 ≈ 0.9256 .
1 1 − 0.9256
Assim, a quatro casas decimais não há alteração no valor de R2 , resultante da exclusão
de cl. A Soma de Quadrados Residual do submodelo pode ser obtida utilizando a
expressão alternativa da estatística do teste F parcial: F = n−(p+1)
p−k · SQRE s −SQREc
SQREc .
Para poder efectuar o mesmo raciocínio, é necessário
√ determinar o valor de SQRE c .
Uma vez que o enunciado fornece o valor de QM REc = 2.087, temos que QM REc =
SQREc 2
n−(p+1) = 2.087 = 4.3556. Logo, SQREc = 4.3556 ∗ 59 = 256.979. Assim,
59 SQREs − 256.979
0.000256 = × ⇔ 0.001115 = SQREs − 256.979
1 256.979
⇔ SQREs = 256.9801 .
preditor e da variável resposta, se bem que muda a equação da recta ajustada, não muda a
qualidade do ajustamento (uma vez que R2 = rxy 2 , e o coeficiente de correlação é simétrico
nos seus argumentos). Mas numa regressão linear múltipla, permutar a variável resposta
com um dos preditores pode, como este exemplo ilustra, gerar um modelo de qualidade
bastante diferente. O exemplo sugere a razão de ser deste facto: as variáveis Volume e
Diametro estão fortemente correlacionadas entre si. Qualquer modelo de regressão linear
que tenha uma dessas variáveis como variável resposta, e a outra como preditor, terá de
ter R2 ≥ (0.9671194)2 = 0.9353199. Mas a variável Altura, que foi agora colocada como
variável resposta, não está fortemente correlacionada com nenhuma das duas outras. Ao
desempenhar o papel de variável resposta, com as outras duas variáveis como preditores, o
valor do R2 resultante poderá ser elevado, mas como este exemplo ilustra, poderá não o ser.
150
100
peso
50
30 40 50 60 70
diametro
É visível uma relação curvilínea, mas uma relação linear entre diâmetro e peso não seria
totalmente disparatada, como primeira aproximação. A recta de regressão resultante é:
> lm(peso ~ diametro, data=ameixas)
[...]
Coefficients:
(Intercept) diametro
-106.618 3.615
O gráfico da recta y = −106.618 + 3.615 x é dado na alínea seguinte (em conjunto com o
gráfico da parábola pedida nessa alínea).
(b) É pedida uma regressão polinomial entre diâmetro e peso (mais concretamente uma relação
quadrática), que pode ser ajustada como um caso especial de regressão múltipla, apesar de
haver um único preditor (diametro). De facto, e como foi visto nas aulas teóricas, a equação
polinomial de segundo grau Y = β0 + β1 X + β2 X 2 pode ser vista como uma relação linear
de fundo entre a variável resposta Y e dois preditores: X1 = X e X2 = X 2 . Para ajustar
este modelo, procedemos da seguinte forma:
> ameixas2.lm <- lm(peso ~ diametro + I(diametro^2), data=ameixas)
> summary(ameixas2.lm)
(...)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 63.763698 18.286767 3.487 0.00125 **
diametro -3.604849 0.759323 -4.747 2.91e-05 ***
I(diametro^2) 0.072196 0.007551 9.561 1.17e-11 ***
---
Residual standard error: 6.049 on 38 degrees of freedom
Multiple R-squared: 0.9826,Adjusted R-squared: 0.9816
F-statistic: 1071 on 2 and 38 DF, p-value: < 2.2e-16
O ajustamento global deste modelo é muito bom. É possível interpretar o valor R2 = 0.9826
da mesma forma que para qualquer outro modelo de regressão linear múltipla: este modelo
explica cerca de 98, 26% da variabilidade dos pesos das ameixas. O valor correspondente
para o modelo linear ajustado na alínea anterior é R2 = 0.9406.
50
30 40 50 60 70
diametro
(c) Pode ser efectuado um teste de ajustamento global deste modelo de forma análoga ao
de qualquer outra regressão linear múltipla. Dado o valor muito elevado do coeficiente
de determinação R2 , é de prever uma rejeição clara da hipótese nula (que corresponde à
inutilidade do modelo, neste caso, do modelo quadrático).
Hipóteses: H0 : β1 = β2 = 0 vs. H1 : (β1 6= 0) ou (β2 6= 0) .
QM R n−(p+1) R 2
Estatística do teste: F = QM RE = p 1−R2
∩ F(p,n−(p+1)) , sob H0 .
Nível de significância: α = 0.05.
Região Crítica (Unilateral direita): Rej. H0 se Fcalc > fα (p,n−(p+1)) = f0.05(2,38) ≈
3.245.
Conclusões: O valor calculado da estatística é dado na listagem produzida pelo R, mas
pode também ser calculado a partir do valor do coeficiente de determinação: Fcalc =
38 0.9826
2 × 1−0.9826 = 1072.954. Logo, rejeita-se (muito enfaticamente) a hipótese nula. Esta
conclusão também resulta directamente da análise do valor de prova (p-value) associado
à estatística de teste calculada. O modelo parabólico passa claramente este teste de
ajustamento global.
2
Standardized residuals
35 35
1
0 5
Residuals
−1 0
−10
27 27
−20
−3
34
34
50 100 150 −2 −1 0 1 2
34
41
1
1
Cook’s distance
0.20
0
0.10
41
1
−2
0.5
Cook’s distance 1
0.00
34
−4
Todos os gráficos parecem corresponder ao que seria de desejar, com excepção da existência
duma observação (a número 34) que, sob vários aspectos é invulgar: tem um resíduo elevado
(em módulo), sai fora da linearidade no qq-plot (que parece adequado para as restantes
observações) e tem a maior distância de Cook (cerca de 0.25 e bastante maior que qualquer
das restantes). Trata-se evidentemente duma observação anómala (qualquer que seja a
razão), mas tratando-se duma observação isolada não é motivo para questionar o bom
ajustamento geral do modelo.
(e) Para responder a esta questão, será necessário ajustar um polinómio de terceiro grau aos
dados. O ajustamento correspondente é dado por:
> ameixas3.lm <- lm(formula = peso ~ diametro + I(diametro^2) + I(diametro^3), data = ameixas)
> summary(ameixas3.lm)
(...)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.127e+01 8.501e+01 0.838 0.407
diametro -4.089e+00 5.405e+00 -0.757 0.454
I(diametro^2) 8.222e-02 1.110e-01 0.741 0.463
I(diametro^3) -6.682e-05 7.380e-04 -0.091 0.928
No entanto, o acréscimo no valor do valor de R2 não se faz sentir nas quatro casas decimais
mostradas, indicando que o ganho na qualidade de ajustamento com a passagem dum modelo
quadrático para um modelo cúbico é quase inexistente. Mais formalmente, um teste de
hipóteses bilateral a que o coeficiente do termo cúbico seja nulo, H0 : β3 = 0 (em cujo
caso o modelo cúbico e quadrático coincidiam) vs. H1 : β3 6= 0, não permite rejeitar a
hipótese nula (o valor de prova é um elevadíssimo p = 0.928). Logo, os modelos quadrático
e cúbico não diferem significativamente, preferindo-se nesse caso o mais parcimonioso modelo
quadrático (a parábola).
Refira-se ainda que, como para qualquer outra regressão linear múltipla, também aqui se
verifica que não é possível identificar o modelo quadrático a partir do modelo cúbico: a
equação da parábola obtida na alínea 14b não é igual à que se obteria ignorando a última
parcela do ajustamento cúbico agora efectuado.
Repare-se ainda que, na tabela do ajustamento deste modelo cúbico, nenhum dos coeficientes
das variáveis preditoras tem valor significativamente diferente de zero, sendo o menor dos
valores de prova (p-values) nos testes às hipótese H0 : βj = 0 vs. H1 : βj 6= 0, um elevado
p = 0.454. No entanto, esse facto não legitima a conclusão de que se poderiam excluir,
simultaneamente e sem perdas significativas na qualidade do ajustamento, todas as parcelas
do modelo correspondentes a estes coeficientes βj . Aliás, se assim se fizesse, deitar-se-ia
fora qualquer relação entre peso e diâmetro das ameixas, quando sabemos que o modelo
acima referido explica 98.26% da variabilidade dos pesos com base na relação destes com
os diâmetros. Este exemplo ilustra bem que os testes t aos coeficientes βj não devem ser
usados para justificar exclusões simultâneas de mais do que um preditor.
15. Vamos contruir o intervalo de confiança a (1 − α) × 100% para ~atβ ~ , a partir da distribuição
indicada no enunciado. Sendo t α2 o valor que, numa distribuição tn−(p+1) , deixa à direita uma
região de probabilidade α/2, temos a seguinte afirmação probabilística, na qual trabalhamos a
dupla desigualdade até deixar a combinação linear (para a qual se quer o intervalo de confiança)
isolada no meio:
~
a ~ˆ − ~atβ
tβ ~
P −t α2 < < t α2 = 1 − α
σ̂ t ~ˆ
aβ
P −t α2 · σ̂ t ~ˆ < ~atβ ~ˆ − ~atβ ~ < t α · σ̂ ˆ = 1−α
aβ 2 atβ~
t ~ t ˆ
~
P t α2 · σ̂ t ~ˆ > ~a β − ~a β > −t α2 · σ̂ t ~ˆ = 1−α (multiplicando por − 1)
aβ aβ
ˆ
t~ t~ ˆ
t~
~ β
P a − t 2 · σ̂ t ~ˆ < a
α ~ β ~ β
< a + t 2 · σ̂ t ~ˆ
α = 1−α
aβ aβ
~ˆ e o erro padrão σ̂
Assim, calculando o valor ~at ~b = a0 b0 +a1 b1 +...+ap bp do estimador ~atβ , para
~ˆ
atβ
a nossa amostra, temos o intervalo a (1−α)×100% de confiança para ~atβ ~ = a0 β0 +a1 β1 +...+ap βp :
i h
~at ~b − t α [n−(p+1)] · σ̂ t ~ˆ , ~at~b + t α [n−(p+1)] · σ̂ t ~ˆ
2 aβ 2 aβ
No enunciado verifica-se que b0 = −210.3137, com erro padrão associado σ̂β̂0 = 3.8078. Tem-
se ainda t0.025(1271) ≈ 1.96. Logo, o IC pedido é ] −217.777 , −202.8504 [. Este intervalo está
muito longe de incluir o valor natural β0 = 0, pelo que essa eventualidade pode ser excluída.
Não sendo um resultado encorajador, a verdade é que não faz sentido utilizar um modelo
deste tipo para frutos de calibre próximo de zero. Os calibres utilizados no ajustamento do
modelo variaram entre 53 e 79, pelo que deve evitar-se utilizar este modelo para calibres
muito distantes da gama de calibres observados.
(b) Nesta alínea ajustou-se um polinómio de segundo grau, através dum modelo de regressão
múltipla em que X1 = Calibre e X2 = Calibre2 . A equação de base neste modelo é
Peso = β0 + β1 Calibre + β2 Calibre2 .
i. A equação da parábola ajustada é: Peso = 72.33140−3.38747 Calibre+0.06469 Calibre 2 .
Observe como a ordenada na origem e o coeficiente da variável Calibre são radicalmente
diferentes do que eram na regressão linear simples.
ii. O modelo linear e o modelo quadrático são equivalentes caso β2 = 0. Essa hipótese
pode ser testada como qualquer outro teste t a um parâmetro βj individual do modelo:
Hipóteses: H0 : β2 = 0 vs. H1 : β2 6= 0 .
β̂2 −0
Estatística do teste: T = σ̂β̂ ∩ tn−(p+1)
2
Nível de significância: α = 0.05.
Região Crítica (Bilateral): Rejeitar H0 se |Tcalc | > tα/2 (n−3) = t0.025(1270) ≈ 1.962.
Conclusões: O valor calculado da estatística do teste é dado no enunciado, na pe-
0.06469
núltima coluna da tabela Coefficients: Tcalc = 0.01067 = 6.064. Logo, rejeita-se
claramente a hipótese nula β2 = 0, pelo que o modelo polinomial (quadrático) tem
um ajustamento significativamente melhor que o modelo linear. Repare-se como
este resultado está associado a um aumento bastante pequeno do coeficiente de de-
terminação R2 (de 0.8638 para 0.8677). Este facto está, mais uma vez, associado
à grande dimensão da amostra (n = 1273), que permite considerar significativas
diferenças tão pequenas quanto estas.
17. (a) A matriz de projecção ortogonal P = ~1n (~1tn~1n )−1~1tn é de dimensão n × n (confirme!), uma
vez que o vector ~1n é n × 1. Mas o seu cálculo é facilitado pelo facto de que ~1tn~1n é, neste
caso, um escalar. Concretamente, ~1tn~1n = n, pelo que (~1tn~1n )−1 = n1 . Logo P = n1 ~1n~1tn . O
produto ~1n~1tn resulta numa matriz n × n com todos os elementos iguais a 1 (não confundir
com o produto pela ordem inversa, ~1tn~1n : recorde-se que o produto de matrizes não é
comutativo). Assim,
1 1 1 ··· 1
1 1 1 ··· 1
1
1 1 1 ··· 1
P =
n .. .. .. . . ..
. . . . .
1 1 1 ··· 1
(e) A norma do vector ~xc é, por definição, a raíz quadrada da soma dos quadrados dos seus
elementos. Logo, tendo em conta a natureza dos elementos do vector ~xc (ver a alínea
anterior), tem-se:
v
u n
uX p √
k~x k = t
c
(xi − x)2 = (n − 1) s2x = n − 1 sx ,
i=1
~x
Rn
x2
i
Pn
s
√
1
i=
18. (a) Note-se que a matriz P~1n referida neste exercício (e que será representada apenas por P no
que se segue) é a mesma que foi discutida no Exercício 17. Assim, o vector Y ~ − PY ~ éo
~
vector centrado das observações de Y:
Y1 − Y
Y2 − Y
~ − PY
Y ~ = Y 3 − Y
= Y ~c
..
.
Yn − Y
A norma ao quadrado dum qualquer vector ~z = (z1 , z2 , ..., zn )t pode ser escrita de duas
P
n
formas equivalentes: por um lado, k~zk2 = zi2 , e por outro, k~zk2 = ~zt~z. Assim, tem-se
i=1
~ − PYk
~ 2= P
n
kY (Yi − Y )2 = SQT . Tendo em conta as propriedades relativas a matrizes,
i=1
incluindo a simetria e idempotência das matrizes I (de verificação trivial) e P (ver Exercício
17), tem-se também:
~ − PYk
SQT = kY ~ 2 = k(I − P)Yk
~ 2 = [(I − P)Y]
~ t (I − P)Y
~ = Y~ t (I − P)t (I − P)Y
~
~ (I − P )(I − P)Y
= Y t t t ~ = Y~ (I − P)(I − P)Y
t ~
~ t (I2 − IP − PI + P2 )Y
= Y ~ = Y
~ t (I − P − P + P)Y
~
~ t (I − P)Y
= Y ~
~ ~ ~
De forma análoga, e como o vector Ŷ dos valores ajustados é dado por Ŷ = Xβ̂ β =
~ = HY,
X(Xt X)−1 Xt Y ~ temos que o vector HY
~ − PY ~ tem como elementos Ŷi − Y :
Ŷ1 − Y
Ŷ2 − Y
HY ~ =
~ − PY Ŷ3 − Y
..
.
Ŷn − Y
P
n
pelo que o quadrado da sua norma é SQR = (Ŷi − Y )2 .
i=1
~ − PYk
SQR = kHY ~ 2 = k(H − P)Yk~ 2 = Y ~ t (H − P)t (H − P)Y~
~ t (Ht − Pt )(H − P)Y
= Y ~ = Y ~ t (H − P)(H − P)Y
~
~ t (H2 − HP − PH + P2 )Y
= Y ~ = Y
~ t (H − P − P + P)Y
~
~ t (H − P)Y
= Y ~ .
~ ~ = Y− ~
~ Ŷ
Finalmente, o vector Y−H Y é o vector dos resíduos, e a sua norma ao quadrado
Pn
2
é SQRE = (Yi − Ŷi ) . Mas, ao mesmo tempo, tem-se:
i=1
~ − HYk
SQRE = kY ~ 2 = k(I − H)Yk~ 2 = Y ~ t (I − H)t (I − H)Y~
~ t (It − Ht )(I − H)Y
= Y ~ = Y ~ t (I − H)(I − H)Y
~
~ t (I2 − IH − HI + H2 )Y
= Y ~ = Y
~ t (I − H − H + H)Y
~
~ t (I − H)Y
= Y ~ .
~ t à esquerda
(b) Dadas as expressões obtidas na alínea anterior, tem-se (pondo em evidência Y
~ à direita),
eY
~ t (I − H)Y
SQRE + SQR = Y ~ +Y
~ t (H − P)Y
~ = Y
~ t [(I − H) + (H − P)]Y
~
~ t [I − P]Y
= Y ~ = SQT .
(a) A fórmula (disponível no formulário) para o vector dos estimadores de mínimos quadrados
~ Como
do modelo linear contínua válida, pelo que β̂0 = β̂ = (XT X)−1 XT Y.
Y1 1
n
Y2 X
1
~ = 1 1 ···
XT Y 1 . = Yi , e XT X = 1 1 · · · 1 . = n,
.. ..
i=1
Yn 1
P
temos que (XT X)−1 = n1 e β̂0 = n1 ni=1 Yi = Y . Ou seja, o estimador de mínimos quadrados
de β0 é a média amostral da variável Y .
σ2
(b) V [β̂0 ] = V [β̂] = σ 2 (XT X)−1 = n .
Submodelo (S) Y = β0
Hipóteses: H0 : β1 = β2 = · · · = βp = 0 vs. H1 : β1 6= 0 ∨ β2 6= 0 ∨ · · · ∨ βp 6= 0
Estatística do Teste:
(SQREs − SQREc )/(p − k)
F = ∩ F(p−k,n−(p+1)) , sob H0
SQREc /(n − (p − 1))
(a) Existe um único parâmetro no modelo (β1 ) e a fórmula usual para o vector dos estimadores
dos parâmetros no modelo linear (que continua válida, mas com a nova matriz X acima
~ ~ Mas Xt Y ~ é o
β = (Xt X)−1 Xt Y.
referida) vai produzir um único estimador. De facto, β̂
~ com valor P xi Yi . Analogamente, Xt X = P x2 ,
n n
produto interno dos dois vectores X e Y, j
i=1 j=1
Pn
Pn 1
~ x i Yi
pelo que (Xt X)−1 = 2 , ficando então β̂
β = β̂1 = Pi=1
n 2 .
j=1 xj j=1 xj
~ tem
(b) Com os pressupostos usuais no modelo de regressão linear, o vector das observações Y
~
distribuição Multinormal, com vector médio Xβ = β1 X e matriz de variâncias-covariâncias
~ ~ é o
σ 2 In , como no caso usual. Também se mantém válido que β̂ β = β̂1 = (Xt X)−1 Xt Y
t −1 t ~
produto duma matriz constante, (X X) X , e do vector Multinormal Y, logo terá distri-
~ ~ = β1 e
buição Normal (Multinormal, mas com uma única componente), de média E[β̂ β] = β
~ 2
β ] = σ 2 (Xt X)−1 = Pnσ x2 .
variância V [β̂
j=1 j