Regressão Linear

Índice
Introdução ......................................................................................................................... 4
Regressão Linear .............................................................................................................. 5
Breve Abordagem À Regressão Linear Múltipla ............................................................. 5
Propriedades Numéricas Do Estimador De MQO .......................................................... 11
Estimador De MQO E Não-Viés .................................................................................... 13
O Caso Geral: Duas Ou Mais Variáveis Explicativas .................................................... 17
A Variância Do Estimador De MQO ............................................................................. 18
Conclusão ....................................................................................................................... 20
Bibliografia ..................................................................................................................... 21
Introdução
“O termo ‘regressão’ foi proposto pela primeira vez por Sir Francis Galton em 1885 num
estudo onde demonstrou que a altura dos filhos não tende a refletir a altura dos pais, mas
tende sim a regredir para a média da população. Atualmente, o termo “Análise de
Regressão” define um conjunto vasto de técnicas estatísticas usadas para modelar
relações entre variáveis e predizer o valor de uma ou mais variáveis dependentes (ou de
resposta) a partir de um conjunto de variáveis independentes (ou predictoras).” (Maroco,
2003).
A temática deste trabalho será a análise de regressão linear, no entanto, faremos de

seguida uma pequena abordagem ao coeficiente de correlação e consequentemente ao
coeficiente de determinação.
A análise de correlação tem como objetivo a avaliação do grau de associação entre duas
variáveis, e, ou seja, mede a “força” de relacionamento linear entre as variáveis.
Para quantificar a relação entre duas variáveis quantitativas utiliza-se o coeficiente de

correlação linear de Pearson.
4
Regressão Linear
Pode-se utilizar a regressão linear como um instrumento estatístico para, simplesmente,

resumir dados, informações.
Na análise de regressão, a preocupação é sempre com a dependência estatística entre

variáveis. Trabalha-se com variáveis aleatórias, que têm uma distribuição de
probabilidade. Não há nenhum enfoque em relações determinísticas ou funcionais, típicas
em ciências como a química (lei de Boyle, lei de Charles) ou física clássica (as três leis
de movimento de Newton, a lei da gravidade, as leis da termodinâmica, entre outras).
De acordo com Angrist e Pischke (2009), os modelos de regressão podem ser vistos como
um dispositivo computacional para estimação de diferenças entre um grupo de tratados e
um grupo de controle, com ou sem covariadas. Para entender melhor o que seriam esses
dois grupos e o problema por trás da comparação de seus resultados, imagine que um
gestor público esteja interessado em avaliar os efeitos de uma política de financiamento
estudantil sobre a decisão de cursar ensino superior, como por exemplo, do Fundo de
Financiamento Estudantil (Fies), no Brasil. O Fies, a partir de 2012 até 2015, disponibiliza
linhas de financiamento para estudantes, com taxas de juros abaixo do mercado, voltadas
para famílias com rendimento bruto abaixo de 20 salários mínimos. O grupo de
tratamento, nesse caso, seriam membros de famílias com rendimento de até 20 salários
mínimos brutos e o grupo de controle, aqueles membros de famílias com rendimentos
superiores a esse limite.
Breve Abordagem À Regressão Linear Múltipla
a diferença entre a regressão linear múltipla e a regressão linear simples é que na múltipla
são consideradas duas ou mais variáveis explicativas (independentes). As variáveis
independentes são as ditas variáveis explicativas, uma vez que explicam a variação de y.
Na regressão linear múltipla assumimos que existe uma relação linear entre uma variável
(variável dependente) e variáveis independentes (preditoras) x1, x2,….xp.
Nesse sentido, surge a proposta do modelo de regressão linear múltipla. O conceito por
trás desse modelo é o de ceteris paribus. Tal expressão tem suas origens no latim e é
muito utilizada nos modelos econômicos. A ideia é de que “tudo o mais constante”, ou
mantendo-se outros fatores fixos, podemos estimar o efeito de X (variável explicativa)
sobre Y (variável explicada ou dependente).
5
Logo, no modelo de regressão múltipla, por exemplo, com duas variáveis explicativas,
isto é:
Temos β1 e β2 como coeficientes parciais de regressão.
Vamos, novamente, retornar aos exemplos dos Quadros 1 e 2, mas, agora, iremos
adicionar outras variáveis explicativas.
Exemplo 1: relação entre o PIB da agropecuária e a temperatura média no verão. Vamos

acrescentar, como variável explicativa, além da temperatura média no verão, a
precipitação no verão.
O nosso interesse é no efeito na temperatura média no verão sobre o PIB da agropecuária,

mantendo-se constante o nível de precipitação no verão, ou condicional ao nível de
precipitação no verão. O Quadro 3 reporta as estimações para o novo modelo de regressão
linear múltipla.
Quadro 3 – Exemplo 1 revisto
Nesse novo modelo, para termos estimadores não viesados, vamos assumir que o termo
de erro é não correlacionado com a temperatura média no verão e com a precipitação
média no verão.
Exemplo 2: efeito dos anos de estudo sobre o rendimento do trabalho principal. Nesse
caso, vamos agora incluir também a experiência como uma variável explicativa, além dos
anos de estudo.
6
Quadro 4 – Exemplo 2 revisto
Assim, como nas estimações com uma única variável explicativa, é utilizado, nos
modelos de regressão múltipla, o estimador de mínimos quadrados ordinários (MQO).
Logo, considerando o modelo de regressão linear múltipla:
temos como hipótese central:

(47)
A hipótese acima estabelece que o valor esperado do erro é o mesmo para qualquer
combinação possível entre.
Desse modo, não existe correlação entre as variáveis no termo de erro e e .
Exemplo 1: retornando à estimação do efeito da temperatura no verão sobre o PIB da

agropecuária:
A hipótese anterior estabelece que outros fatores que afetam o PIB, e são capturados pelos
erros, não são correlacionados na média com a temperatura no verão e a precipitação no
verão. No caso de variáveis geográficas, parece mais fácil assumir essa hipótese de
exogeneidade das variáveis explicativas.
7
Exemplo 2: voltando à estimação do efeito dos anos de estudos no rendimento do trabalho
principal:
Hipótese-chave:
(51)
Nesse caso, a hipótese acima indica que outros fatores que afetam o salário e estão,
portanto, incluídos nos erros, não são correlacionados na média com anos de estudo e
experiência. Nesse caso, essa pode ser uma hipótese forte, se pensarmos que fatores não
observáveis que afetam o rendimento podem também afetar os anos de estudo.
Comparativamente ao exemplo 1, a hipótese (51) parece ser mais forte. Na verdade, esse
é um problema enfrentado por economistas do trabalho ao tentar estimar o retorno à
educação. Para entender um pouco mais esse problema, pense que a habilidade do
indivíduo é uma característica inata que afeta o seu rendimento no trabalho principal, uma
vez que define a sua produtividade. Essa habilidade é algo não observável pelo
econometrista, portanto, não pode ser incluída no modelo com uma variável explicativa
adicional, logo estará incluída no erro do modelo. Se a habilidade também afetar a decisão
por estudar, teremos a violação da hipótese (51).
Podemos, de formar mais genérica, apresentar o modelo de regressão linear múltipla para
k variáveis explicativas como:
β0 : intercepto
8
β0 : intercepto
: são "inclinações", embora na prática elas não sejam a
inclinação da função.
termo de erro
A Hipótese-Chave É Definida
Como interpretamos a hipótese (53)? Tal hipótese estabelece que nenhum fator no termo
de erro pode ser correlacionado com qualquer variável explicativa.
Já afirmamos, anteriormente, que o estimador utilizado para o modelo de regressão linear

múltipla será obtido também pelo método de mínimos quadrados ordinários (MQO).
Desse forma, para o caso de duas variáveis explicativas, a equação estimada por MQO é
dada por:
O método de MQO escolhe os valores para os parâmetros desconhecidos que minimizam

a soma dos quadrados dos resíduos da regressão. Com N observações de
, e , , e são escolhidos simultaneamente, de modo a fazer com que o valor
da expressão abaixo seja o menor possível:
9
A resolução matemática de (55) mostra que os estimadores de
Na interpretação do modelo de regressão linear múltipla, como em
(62):
(65)
10
Propriedades Numéricas Do Estimador De MQO
A partir do modelo de regressão linear múltipla (66) e dos resíduos estimados (67),
podemos elencar as propriedades numéricas do estimador
A covariância amostral entre cada variável independente e os resíduos de MQO é zero.
A covariância amostral entre cada variável independente e o valor
mesmos resultados, é preciso estabelecer os valores de Y estimados nas duas situações.
No modelo de regressão simples temos:
Já no modelo de regressão múltipla:
Medidas de ajustamento no modelo de regressão linear múltipla
Vamos retomar, agora, a definição do coeficiente de ajustamento do modelo de regressão

linear, considerando agora o modelo de regressão linear múltipla. O conceito aqui é
exatamente o mesmo já apresentando no contexto de regressão linear simples. Apenas
para recordar, temos:
11
A variação total em y é a soma da variação que foi explicada pela regressão com a
variação que não foi explicada:
Daí, temos o coeficiente de ajustamento
Podemos, então, definir o como o quadrado do coeficiente de correlação entre o

valor atual de e o valor predito
(68)
Verificamos que o nunca decresce, e, em geral, cresce quando adicionamos uma

outra variável explicativa na regressão. Isso porque a soma do quadrado dos resíduos
nunca aumenta quando adicionamos uma nova variável explicativa na regressão. Torna-
se, portanto, um pouco mais difícil decidir sobre a inclusão ou não de uma variável
adicional no modelo. Na verdade, desejaríamos saber se essa variável tem um efeito
parcial em Y.
Muitas vezes, é interessante utilizar o conceito do R-quadrado ajustado, que irá considerar
o número de variáveis explicativas no modelo, ou seja:
12
Note que, na equação (69), ponderamos a variação explicada pelo graus de liberdade, ou
seja, há um custo, de certo modelo, associado à inclusão de uma variável explicativa.
Logo, para ,
Estimador De MQO E Não-Viés
Vamos aqui, assim como no caso do modelo de regressão linear simples, apresentar as
hipóteses do estimador de MQO, em modelos de regressão linear múltipla.
A primeira hipótese a ser considerada diz respeito à forma funcional do modelo de

regressão linear múltipla, ou seja:
HIPÓTESE 1 (H1): o modelo é linear nos parâmetros :
De forma complementar, a hipótese 2 estabelece a aleatoriedade da amostra:
HIPÓTESE 2 (H2): temos uma amostra aleatória de Observações
que segue o modelo populacional em (70).
De outro lado, a hipótese 3 refere-se ao comportamento das variáveis explicativas, isto é:
HIPÓTESE 3 (H3): na amostra e, consequentemente, na população, nenhuma variável

explicativa é constante. Além disso, não há uma relação linear exata entre quaisquer duas
variáveis explicativas, o que exclui a possibilidade de colinearidade perfeita entre
variáveis explicativas.
Para entendermos esse hipótese, vamos pensar no modelo do exemplo 1, efeito de

variáveis climáticas sobre o PIB da agropecuária, de,
13
Em cada uma das estações, ou seja, haveria uma colineariedade perfeita entre essas
variáveis, e, portanto, a violação de H3.
Cabe destacar que existem casos em que, embora não haja colinearidade perfeita entre as
variáveis, existe uma correlação muito forte entre as mesmas, gerando um problema de
multicolinearidade, em que se torna difícil olhar para os parâmetros estimados de forma
independente.
Uma solução simples para o caso de colinearidade perfeita ou multicolinearidade é retirar

uma das variáveis.
A hipótese H3 pode ser violada, também, no caso em que o tamanho da amostra é muito
pequeno em relação ao número de parâmetros a serem estimados. Para estimar
Parâmetros, precisamos de pelo menos Observações.
A próxima hipótese estabelece o valor para a média do erro condicionada às variáveis

explicativas, isto é:
HIPÓTESE 4 (H4): o valor esperado do erro, dado qualquer valor das variáveis
independentes, é zero.
Existem duas formas de violar essa hipótese:
Forma funcional errada
Omitir um fator importante que é correlacionado com
A hipótese H4 também é conhecida com hipótese de exogeneidade das variáveis

explicativas ou independentes. Assim, se uma das variáveis explicativas é
correlacionada com , dizemos que a variável explicativa é endógena.
Sob as hipóteses H1 – H4,
14
para qualquer valor dos parâmetros populacionais.
Podemos, desse modo, afirmar que o estimador de MQO é um estimador não viesado se
o processo fosse replicado para n amostras aleatórias possíveis. Em outras palavras, ao
estimarmos um modelo pelo método de MQO, esperamos obter, a partir de uma amostra
aleatória, uma estimativa perto do valor populacional (desconhecido), mas não é possível
ter certeza sobre isso. O que podemos afirmar é que sob as hipóteses H1 – H4, não há
porque acreditar que a estimativa encontrada seja muito pequena ou muito grande em
relação ao verdadeiro parâmetro populacional.
Logo, uma questão relevante seria: o que acontece se incluirmos variáveis irrelevantes no
modelo? É importante esclarecer que a inclusão de variáveis explicativas que não
apresentam efeito parcial na variável depedente Y não causará viés no estimador de MQO
se as hipóteses H1 – H4 forem válidas.
Por outro lado, se, ao invés de considerarmos a inclusão de uma variável irrelevante,
tivermos a omissão de uma variável relevante, será que isso gerará viés? Sim, nesse caso,
teremos viés nos estimadores de MQO.
Considere, novamente, o seguinte modelo populacional:
Que satisfaz hipóteses H1 – H4
Suponha que estamos interessados em , mas omitimos a variável.
De modo que estimamos o seguinte modelo:
15
Vamos, portanto, retornar ao exemplo do Quadro 2. Queremos estimar o efeito dos anos
de estudo sobre o rendimento do trabalho principal, a partir do seguinte modelo
populacional:
Como não observamos habilidade, estimamos o seguinte modelo:
onde habilidade Gerando, dessa forma, um viés de variável omitida.

Mas qual será a direção desse viés?
Sabemos que:
onde , são os estimadores da regressão de
em ,
em
é a inclinação da regressão linear simples de
Nesse caso,
e o viés
Portanto, o estimador será não viesado se:
São e não correlacionados .

,
Não aparece no modelo populacional.
No caso de viés do estimador, teremos as seguintes possibilidades (Quadro 5):
16
Quadro 5 – Direção do viés de variável omitida
Corr Corr
viés positivo viés negativo
viés negativo viés positivo
O Caso Geral: Duas Ou Mais Variáveis Explicativas
Entender a direção do viés de variável omitida no caso com múltiplas variáveis

explicativas é bem mais complicado. Isso porque a correlação de uma única variável
explicativa com o erro gera viés em todos os estimadores de MQO
Vamos, portanto, analisar o caso de três variáveis explicativas. Seja o seguinte modelo
populacional:
Satisfazendo as hipóteses H1 – H3
Porém, para estimar o modelo, omitimos
Sabemos que e
correlacionados. Logo, e
Sabemos que e são não correlacionados, mas e são são viesados.

correlacionados. Logo, e
Determinar a direção do viés é extremamente complicado, a não ser que assumamos que
e são
não correlacionados.
Assim, se e são não correlacionados, é não viesado, ou
seja:
17
Para ilustrar, vamos retornar ao exemplo 2 revisto, conforme apresentado no Quadro 4.
Assim:
Qual seria a direção do viés em devido à omissão da variável
Habilidade no modelo estimado? Se considerarmos que habilidade e anos de estudo são

positivamente correlacionados, a omissão da variável não observada habilidade do
modelo fará com que haja uma sobreestimação do retorno à educação. Dito de outro
modo, é como se o coeficiente dos anos de estudo captasse parte do efeito da habilidade
sobre o salário e não apenas do aumento dos anos de estudo.
A Variância Do Estimador De MQO
Para encontrar as variâncias dos estimadores de MQO, adicionamos a hipótese de

homocedasticidade, já conhecida no modelo de regressão linear simples.
HIPÓTESE 5 (H5): o erro tem a mesma variância dado qualquer valor das variáveis
explicativas.
(71)
De acordo com H5, a variância do erro é a mesma para qulaquer combinação de variáveis
explicativas.
Com as hipóteses H1 – H5, podemos derivar a esperança condicional e a variância

condicional de :
(73) (72)
Podemos, também, obter a variância condiconal do estimador de
onde é o R-quadrado da regressão de
18
Por que buscamos um estimador de variância mínima? Porque quanto maior a variância,
menor a precisão da estimativa, maiores os intervalos de confiança e menos exatos serão
os testes de hipóteses.
A variância do estimador de MQO, conforme estabelecida em (74), possui os seguintes

componentes:
A variância do erro ( ): quanto maior a variância do erro, menor a precisão do

estimador. Uma das formas de reduzir a variância do erro é acrescentar outras variáveis
explicativas ao modelo.
O total da variância em (SST): quanto maior a variância em , menor a variância

do estimador. O aumento da variabilidade de X pode ser alcançado aumentado-se o
tamanho da amostra.
Variância do estimador em modelos especificados de forma incorreta
Vamos discutir o que acontece com a variância se incluirmos uma variável irrelevante ou
excluirmos uma variável relevante. Para tanto, vamos considerar o seguinte modelo que
satisfaz as hipóteses H1 – H5:
Vamos considerar dois estimadores:
Nesse caso, é viesado. Como comparamos as variâncias?
Logo,
a não ser que seja não correlacionado com . O Quadro 6 a seguir resume os efeitos
da omissão de variável sobre a variância dos estimadores.
19
Conclusão
O presente trabalho teve como principal objetivo aprofundar o conhecimento dos modelos
de regressão linear.
Centrámo-nos no entanto no estudo do modelo de regressão linear simples onde

procuramos apresentar de forma detalhada os pressupostos do modelo e o método dos
mínimos quadrados, que nos leva à obtenção de estimadores dos parâmetros do modelo.
Realizamos ainda inferência para os parâmetros, construindo testes e intervalos de

confiança para os mesmos.
Este trabalho não abordou de forma exaustiva o modelo de regressão linear múltipla, pela
extensão do tema.
20
Bibliografia
Afonso, A., Nunes, C.; Probabilidades e Estatística – Aplicações e soluções em

SPSS; Escolar Editora; 2011.
Branco, J.A. e Pires, A.M.; Introdução aos Métodos Estatísticos Robustos;

Edições SPE; 2007.
Cordeiro, N., Magalhães, A.; Introdução à Estatística; Lidel; 2004.
Cunha, G, Martins, M.R, Sousa, R., Oliveira, F.F.; Estatística Aplicada às

Ciências e Tecnologias da Saúde; Lidel; 2007.
Draper, N.R., Smith, H.; Applied Regression Analisys, 3ª edição, John Wiley
and Sons; 1998.
Edwards, A. L.; An Introduction to Linear Regression and Correlation. San

Francisco, CA: W. H. Freeman, 1976.
Esteves, E.& Sousa, C.; Apontamentos de ADPE; UALG; 2007.
Figueira, M.M.C. (1995): “Identificação de outliers: uma aplicação ao conjunto

das maiores empresas com actividade em Portugal” Tese de Mestrado –
Instituto Superior de Economia e Gestão.
21

Regressão Linear

Enviado por

Direitos autorais:

Formatos disponíveis

Regressão Linear

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão Linear

Enviado por

Direitos autorais:

Formatos disponíveis

Índice

Regressão Linear .............................................................................................................. 5

Breve Abordagem À Regressão Linear Múltipla ............................................................. 5

Propriedades Numéricas Do Estimador De MQO .......................................................... 11

Estimador De MQO E Não-Viés .................................................................................... 13

O Caso Geral: Duas Ou Mais Variáveis Explicativas .................................................... 17

A Variância Do Estimador De MQO ............................................................................. 18

A temática deste trabalho será a análise de regressão linear, no entanto, faremos de

Para quantificar a relação entre duas variáveis quantitativas utiliza-se o coeficiente de

Pode-se utilizar a regressão linear como um instrumento estatístico para, simplesmente,

Na análise de regressão, a preocupação é sempre com a dependência estatística entre

Breve Abordagem À Regressão Linear Múltipla

Temos β1 e β2 como coeficientes parciais de regressão.

Exemplo 1: relação entre o PIB da agropecuária e a temperatura média no verão. Vamos

O nosso interesse é no efeito na temperatura média no verão sobre o PIB da agropecuária,

Quadro 3 – Exemplo 1 revisto

temos como hipótese central:

Desse modo, não existe correlação entre as variáveis no termo de erro e e .

Exemplo 1: retornando à estimação do efeito da temperatura no verão sobre o PIB da

: são "inclinações", embora na prática elas não sejam a

Já afirmamos, anteriormente, que o estimador utilizado para o modelo de regressão linear

O método de MQO escolhe os valores para os parâmetros desconhecidos que minimizam

Na interpretação do modelo de regressão linear múltipla, como em

A covariância amostral entre cada variável independente e os resíduos de MQO é zero.

A covariância amostral entre cada variável independente e o valor

mesmos resultados, é preciso estabelecer os valores de Y estimados nas duas situações.

No modelo de regressão simples temos:

Já no modelo de regressão múltipla:

Medidas de ajustamento no modelo de regressão linear múltipla

Vamos retomar, agora, a definição do coeficiente de ajustamento do modelo de regressão

Daí, temos o coeficiente de ajustamento

Podemos, então, definir o como o quadrado do coeficiente de correlação entre o

Verificamos que o nunca decresce, e, em geral, cresce quando adicionamos uma

Estimador De MQO E Não-Viés

A primeira hipótese a ser considerada diz respeito à forma funcional do modelo de

HIPÓTESE 1 (H1): o modelo é linear nos parâmetros :

De forma complementar, a hipótese 2 estabelece a aleatoriedade da amostra:

HIPÓTESE 2 (H2): temos uma amostra aleatória de Observações

que segue o modelo populacional em (70).

De outro lado, a hipótese 3 refere-se ao comportamento das variáveis explicativas, isto é:

HIPÓTESE 3 (H3): na amostra e, consequentemente, na população, nenhuma variável

Para entendermos esse hipótese, vamos pensar no modelo do exemplo 1, efeito de

Uma solução simples para o caso de colinearidade perfeita ou multicolinearidade é retirar

A próxima hipótese estabelece o valor para a média do erro condicionada às variáveis

Existem duas formas de violar essa hipótese:

Forma funcional errada

Omitir um fator importante que é correlacionado com

A hipótese H4 também é conhecida com hipótese de exogeneidade das variáveis

Sob as hipóteses H1 – H4,

Considere, novamente, o seguinte modelo populacional:

Que satisfaz hipóteses H1 – H4

Suponha que estamos interessados em , mas omitimos a variável.

De modo que estimamos o seguinte modelo:

Como não observamos habilidade, estimamos o seguinte modelo:

onde habilidade Gerando, dessa forma, um viés de variável omitida.

onde , são os estimadores da regressão de

Portanto, o estimador será não viesado se:

São e não correlacionados .

No caso de viés do estimador, teremos as seguintes possibilidades (Quadro 5):