Regressão Linear
Regressão Linear
Regressão Linear
Introdução ......................................................................................................................... 4
Conclusão ....................................................................................................................... 20
Bibliografia ..................................................................................................................... 21
Introdução
“O termo ‘regressão’ foi proposto pela primeira vez por Sir Francis Galton em 1885 num
estudo onde demonstrou que a altura dos filhos não tende a refletir a altura dos pais, mas
tende sim a regredir para a média da população. Atualmente, o termo “Análise de
Regressão” define um conjunto vasto de técnicas estatísticas usadas para modelar
relações entre variáveis e predizer o valor de uma ou mais variáveis dependentes (ou de
resposta) a partir de um conjunto de variáveis independentes (ou predictoras).” (Maroco,
2003).
A análise de correlação tem como objetivo a avaliação do grau de associação entre duas
variáveis, e, ou seja, mede a “força” de relacionamento linear entre as variáveis.
4
Regressão Linear
De acordo com Angrist e Pischke (2009), os modelos de regressão podem ser vistos como
um dispositivo computacional para estimação de diferenças entre um grupo de tratados e
um grupo de controle, com ou sem covariadas. Para entender melhor o que seriam esses
dois grupos e o problema por trás da comparação de seus resultados, imagine que um
gestor público esteja interessado em avaliar os efeitos de uma política de financiamento
estudantil sobre a decisão de cursar ensino superior, como por exemplo, do Fundo de
Financiamento Estudantil (Fies), no Brasil. O Fies, a partir de 2012 até 2015, disponibiliza
linhas de financiamento para estudantes, com taxas de juros abaixo do mercado, voltadas
para famílias com rendimento bruto abaixo de 20 salários mínimos. O grupo de
tratamento, nesse caso, seriam membros de famílias com rendimento de até 20 salários
mínimos brutos e o grupo de controle, aqueles membros de famílias com rendimentos
superiores a esse limite.
a diferença entre a regressão linear múltipla e a regressão linear simples é que na múltipla
são consideradas duas ou mais variáveis explicativas (independentes). As variáveis
independentes são as ditas variáveis explicativas, uma vez que explicam a variação de y.
Na regressão linear múltipla assumimos que existe uma relação linear entre uma variável
(variável dependente) e variáveis independentes (preditoras) x1, x2,….xp.
Nesse sentido, surge a proposta do modelo de regressão linear múltipla. O conceito por
trás desse modelo é o de ceteris paribus. Tal expressão tem suas origens no latim e é
muito utilizada nos modelos econômicos. A ideia é de que “tudo o mais constante”, ou
mantendo-se outros fatores fixos, podemos estimar o efeito de X (variável explicativa)
sobre Y (variável explicada ou dependente).
5
Logo, no modelo de regressão múltipla, por exemplo, com duas variáveis explicativas,
isto é:
Vamos, novamente, retornar aos exemplos dos Quadros 1 e 2, mas, agora, iremos
adicionar outras variáveis explicativas.
Nesse novo modelo, para termos estimadores não viesados, vamos assumir que o termo
de erro é não correlacionado com a temperatura média no verão e com a precipitação
média no verão.
Exemplo 2: efeito dos anos de estudo sobre o rendimento do trabalho principal. Nesse
caso, vamos agora incluir também a experiência como uma variável explicativa, além dos
anos de estudo.
6
Quadro 4 – Exemplo 2 revisto
Assim, como nas estimações com uma única variável explicativa, é utilizado, nos
modelos de regressão múltipla, o estimador de mínimos quadrados ordinários (MQO).
Logo, considerando o modelo de regressão linear múltipla:
A hipótese acima estabelece que o valor esperado do erro é o mesmo para qualquer
combinação possível entre.
A hipótese anterior estabelece que outros fatores que afetam o PIB, e são capturados pelos
erros, não são correlacionados na média com a temperatura no verão e a precipitação no
verão. No caso de variáveis geográficas, parece mais fácil assumir essa hipótese de
exogeneidade das variáveis explicativas.
7
Exemplo 2: voltando à estimação do efeito dos anos de estudos no rendimento do trabalho
principal:
Hipótese-chave:
(51)
Nesse caso, a hipótese acima indica que outros fatores que afetam o salário e estão,
portanto, incluídos nos erros, não são correlacionados na média com anos de estudo e
experiência. Nesse caso, essa pode ser uma hipótese forte, se pensarmos que fatores não
observáveis que afetam o rendimento podem também afetar os anos de estudo.
Comparativamente ao exemplo 1, a hipótese (51) parece ser mais forte. Na verdade, esse
é um problema enfrentado por economistas do trabalho ao tentar estimar o retorno à
educação. Para entender um pouco mais esse problema, pense que a habilidade do
indivíduo é uma característica inata que afeta o seu rendimento no trabalho principal, uma
vez que define a sua produtividade. Essa habilidade é algo não observável pelo
econometrista, portanto, não pode ser incluída no modelo com uma variável explicativa
adicional, logo estará incluída no erro do modelo. Se a habilidade também afetar a decisão
por estudar, teremos a violação da hipótese (51).
Podemos, de formar mais genérica, apresentar o modelo de regressão linear múltipla para
k variáveis explicativas como:
β0 : intercepto
8
β0 : intercepto
inclinação da função.
termo de erro
A Hipótese-Chave É Definida
Como interpretamos a hipótese (53)? Tal hipótese estabelece que nenhum fator no termo
de erro pode ser correlacionado com qualquer variável explicativa.
Desse forma, para o caso de duas variáveis explicativas, a equação estimada por MQO é
dada por:
9
A resolução matemática de (55) mostra que os estimadores de
(62):
(65)
10
Propriedades Numéricas Do Estimador De MQO
A partir do modelo de regressão linear múltipla (66) e dos resíduos estimados (67),
podemos elencar as propriedades numéricas do estimador
11
A variação total em y é a soma da variação que foi explicada pela regressão com a
variação que não foi explicada:
(68)
Muitas vezes, é interessante utilizar o conceito do R-quadrado ajustado, que irá considerar
o número de variáveis explicativas no modelo, ou seja:
12
Note que, na equação (69), ponderamos a variação explicada pelo graus de liberdade, ou
seja, há um custo, de certo modelo, associado à inclusão de uma variável explicativa.
Logo, para ,
Vamos aqui, assim como no caso do modelo de regressão linear simples, apresentar as
hipóteses do estimador de MQO, em modelos de regressão linear múltipla.
13
Em cada uma das estações, ou seja, haveria uma colineariedade perfeita entre essas
variáveis, e, portanto, a violação de H3.
Cabe destacar que existem casos em que, embora não haja colinearidade perfeita entre as
variáveis, existe uma correlação muito forte entre as mesmas, gerando um problema de
multicolinearidade, em que se torna difícil olhar para os parâmetros estimados de forma
independente.
A hipótese H3 pode ser violada, também, no caso em que o tamanho da amostra é muito
pequeno em relação ao número de parâmetros a serem estimados. Para estimar
Parâmetros, precisamos de pelo menos Observações.
HIPÓTESE 4 (H4): o valor esperado do erro, dado qualquer valor das variáveis
independentes, é zero.
14
para qualquer valor dos parâmetros populacionais.
Podemos, desse modo, afirmar que o estimador de MQO é um estimador não viesado se
o processo fosse replicado para n amostras aleatórias possíveis. Em outras palavras, ao
estimarmos um modelo pelo método de MQO, esperamos obter, a partir de uma amostra
aleatória, uma estimativa perto do valor populacional (desconhecido), mas não é possível
ter certeza sobre isso. O que podemos afirmar é que sob as hipóteses H1 – H4, não há
porque acreditar que a estimativa encontrada seja muito pequena ou muito grande em
relação ao verdadeiro parâmetro populacional.
Logo, uma questão relevante seria: o que acontece se incluirmos variáveis irrelevantes no
modelo? É importante esclarecer que a inclusão de variáveis explicativas que não
apresentam efeito parcial na variável depedente Y não causará viés no estimador de MQO
se as hipóteses H1 – H4 forem válidas.
Por outro lado, se, ao invés de considerarmos a inclusão de uma variável irrelevante,
tivermos a omissão de uma variável relevante, será que isso gerará viés? Sim, nesse caso,
teremos viés nos estimadores de MQO.
15
Vamos, portanto, retornar ao exemplo do Quadro 2. Queremos estimar o efeito dos anos
de estudo sobre o rendimento do trabalho principal, a partir do seguinte modelo
populacional:
Sabemos que:
em ,
em
é a inclinação da regressão linear simples de
Nesse caso,
e o viés
16
Quadro 5 – Direção do viés de variável omitida
Corr Corr
Vamos, portanto, analisar o caso de três variáveis explicativas. Seja o seguinte modelo
populacional:
Satisfazendo as hipóteses H1 – H3
Sabemos que e
correlacionados. Logo, e
Determinar a direção do viés é extremamente complicado, a não ser que assumamos que
e são
não correlacionados.
Assim, se e são não correlacionados, é não viesado, ou
seja:
17
Para ilustrar, vamos retornar ao exemplo 2 revisto, conforme apresentado no Quadro 4.
Assim:
HIPÓTESE 5 (H5): o erro tem a mesma variância dado qualquer valor das variáveis
explicativas.
(71)
De acordo com H5, a variância do erro é a mesma para qulaquer combinação de variáveis
explicativas.
(73) (72)
18
Por que buscamos um estimador de variância mínima? Porque quanto maior a variância,
menor a precisão da estimativa, maiores os intervalos de confiança e menos exatos serão
os testes de hipóteses.
Vamos discutir o que acontece com a variância se incluirmos uma variável irrelevante ou
excluirmos uma variável relevante. Para tanto, vamos considerar o seguinte modelo que
satisfaz as hipóteses H1 – H5:
Logo,
a não ser que seja não correlacionado com . O Quadro 6 a seguir resume os efeitos
da omissão de variável sobre a variância dos estimadores.
19
Conclusão
O presente trabalho teve como principal objetivo aprofundar o conhecimento dos modelos
de regressão linear.
Este trabalho não abordou de forma exaustiva o modelo de regressão linear múltipla, pela
extensão do tema.
20
Bibliografia
Draper, N.R., Smith, H.; Applied Regression Analisys, 3ª edição, John Wiley
and Sons; 1998.
21