Regressão Linear

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 19

Índice

Introdução ......................................................................................................................... 4

Regressão Linear .............................................................................................................. 5

Breve Abordagem À Regressão Linear Múltipla ............................................................. 5

Propriedades Numéricas Do Estimador De MQO .......................................................... 11

Estimador De MQO E Não-Viés .................................................................................... 13

O Caso Geral: Duas Ou Mais Variáveis Explicativas .................................................... 17

A Variância Do Estimador De MQO ............................................................................. 18

Conclusão ....................................................................................................................... 20

Bibliografia ..................................................................................................................... 21
Introdução

“O termo ‘regressão’ foi proposto pela primeira vez por Sir Francis Galton em 1885 num
estudo onde demonstrou que a altura dos filhos não tende a refletir a altura dos pais, mas
tende sim a regredir para a média da população. Atualmente, o termo “Análise de
Regressão” define um conjunto vasto de técnicas estatísticas usadas para modelar
relações entre variáveis e predizer o valor de uma ou mais variáveis dependentes (ou de
resposta) a partir de um conjunto de variáveis independentes (ou predictoras).” (Maroco,
2003).

A temática deste trabalho será a análise de regressão linear, no entanto, faremos de


seguida uma pequena abordagem ao coeficiente de correlação e consequentemente ao
coeficiente de determinação.

A análise de correlação tem como objetivo a avaliação do grau de associação entre duas
variáveis, e, ou seja, mede a “força” de relacionamento linear entre as variáveis.

Para quantificar a relação entre duas variáveis quantitativas utiliza-se o coeficiente de


correlação linear de Pearson.

4
Regressão Linear

Pode-se utilizar a regressão linear como um instrumento estatístico para, simplesmente,


resumir dados, informações.

Na análise de regressão, a preocupação é sempre com a dependência estatística entre


variáveis. Trabalha-se com variáveis aleatórias, que têm uma distribuição de
probabilidade. Não há nenhum enfoque em relações determinísticas ou funcionais, típicas
em ciências como a química (lei de Boyle, lei de Charles) ou física clássica (as três leis
de movimento de Newton, a lei da gravidade, as leis da termodinâmica, entre outras).

De acordo com Angrist e Pischke (2009), os modelos de regressão podem ser vistos como
um dispositivo computacional para estimação de diferenças entre um grupo de tratados e
um grupo de controle, com ou sem covariadas. Para entender melhor o que seriam esses
dois grupos e o problema por trás da comparação de seus resultados, imagine que um
gestor público esteja interessado em avaliar os efeitos de uma política de financiamento
estudantil sobre a decisão de cursar ensino superior, como por exemplo, do Fundo de
Financiamento Estudantil (Fies), no Brasil. O Fies, a partir de 2012 até 2015, disponibiliza
linhas de financiamento para estudantes, com taxas de juros abaixo do mercado, voltadas
para famílias com rendimento bruto abaixo de 20 salários mínimos. O grupo de
tratamento, nesse caso, seriam membros de famílias com rendimento de até 20 salários
mínimos brutos e o grupo de controle, aqueles membros de famílias com rendimentos
superiores a esse limite.

Breve Abordagem À Regressão Linear Múltipla

a diferença entre a regressão linear múltipla e a regressão linear simples é que na múltipla
são consideradas duas ou mais variáveis explicativas (independentes). As variáveis
independentes são as ditas variáveis explicativas, uma vez que explicam a variação de y.

Na regressão linear múltipla assumimos que existe uma relação linear entre uma variável
(variável dependente) e variáveis independentes (preditoras) x1, x2,….xp.

Nesse sentido, surge a proposta do modelo de regressão linear múltipla. O conceito por
trás desse modelo é o de ceteris paribus. Tal expressão tem suas origens no latim e é
muito utilizada nos modelos econômicos. A ideia é de que “tudo o mais constante”, ou
mantendo-se outros fatores fixos, podemos estimar o efeito de X (variável explicativa)
sobre Y (variável explicada ou dependente).

5
Logo, no modelo de regressão múltipla, por exemplo, com duas variáveis explicativas,
isto é:

Temos β1 e β2 como coeficientes parciais de regressão.

Vamos, novamente, retornar aos exemplos dos Quadros 1 e 2, mas, agora, iremos
adicionar outras variáveis explicativas.

Exemplo 1: relação entre o PIB da agropecuária e a temperatura média no verão. Vamos


acrescentar, como variável explicativa, além da temperatura média no verão, a
precipitação no verão.

O nosso interesse é no efeito na temperatura média no verão sobre o PIB da agropecuária,


mantendo-se constante o nível de precipitação no verão, ou condicional ao nível de
precipitação no verão. O Quadro 3 reporta as estimações para o novo modelo de regressão
linear múltipla.

Quadro 3 – Exemplo 1 revisto

Nesse novo modelo, para termos estimadores não viesados, vamos assumir que o termo
de erro é não correlacionado com a temperatura média no verão e com a precipitação
média no verão.

Exemplo 2: efeito dos anos de estudo sobre o rendimento do trabalho principal. Nesse
caso, vamos agora incluir também a experiência como uma variável explicativa, além dos
anos de estudo.

6
Quadro 4 – Exemplo 2 revisto

Assim, como nas estimações com uma única variável explicativa, é utilizado, nos
modelos de regressão múltipla, o estimador de mínimos quadrados ordinários (MQO).
Logo, considerando o modelo de regressão linear múltipla:

temos como hipótese central:


(47)

A hipótese acima estabelece que o valor esperado do erro é o mesmo para qualquer
combinação possível entre.

Desse modo, não existe correlação entre as variáveis no termo de erro e e .

Exemplo 1: retornando à estimação do efeito da temperatura no verão sobre o PIB da


agropecuária:

A hipótese anterior estabelece que outros fatores que afetam o PIB, e são capturados pelos
erros, não são correlacionados na média com a temperatura no verão e a precipitação no
verão. No caso de variáveis geográficas, parece mais fácil assumir essa hipótese de
exogeneidade das variáveis explicativas.

7
Exemplo 2: voltando à estimação do efeito dos anos de estudos no rendimento do trabalho
principal:

Hipótese-chave:
(51)

Nesse caso, a hipótese acima indica que outros fatores que afetam o salário e estão,
portanto, incluídos nos erros, não são correlacionados na média com anos de estudo e
experiência. Nesse caso, essa pode ser uma hipótese forte, se pensarmos que fatores não
observáveis que afetam o rendimento podem também afetar os anos de estudo.

Comparativamente ao exemplo 1, a hipótese (51) parece ser mais forte. Na verdade, esse
é um problema enfrentado por economistas do trabalho ao tentar estimar o retorno à
educação. Para entender um pouco mais esse problema, pense que a habilidade do
indivíduo é uma característica inata que afeta o seu rendimento no trabalho principal, uma
vez que define a sua produtividade. Essa habilidade é algo não observável pelo
econometrista, portanto, não pode ser incluída no modelo com uma variável explicativa
adicional, logo estará incluída no erro do modelo. Se a habilidade também afetar a decisão
por estudar, teremos a violação da hipótese (51).

Podemos, de formar mais genérica, apresentar o modelo de regressão linear múltipla para
k variáveis explicativas como:

β0 : intercepto

8
β0 : intercepto

: são "inclinações", embora na prática elas não sejam a

inclinação da função.

termo de erro

A Hipótese-Chave É Definida

Como interpretamos a hipótese (53)? Tal hipótese estabelece que nenhum fator no termo
de erro pode ser correlacionado com qualquer variável explicativa.

Já afirmamos, anteriormente, que o estimador utilizado para o modelo de regressão linear


múltipla será obtido também pelo método de mínimos quadrados ordinários (MQO).

Desse forma, para o caso de duas variáveis explicativas, a equação estimada por MQO é
dada por:

O método de MQO escolhe os valores para os parâmetros desconhecidos que minimizam


a soma dos quadrados dos resíduos da regressão. Com N observações de
, e , , e são escolhidos simultaneamente, de modo a fazer com que o valor
da expressão abaixo seja o menor possível:

9
A resolução matemática de (55) mostra que os estimadores de

Na interpretação do modelo de regressão linear múltipla, como em

(62):

(65)

10
Propriedades Numéricas Do Estimador De MQO

A partir do modelo de regressão linear múltipla (66) e dos resíduos estimados (67),
podemos elencar as propriedades numéricas do estimador

A covariância amostral entre cada variável independente e os resíduos de MQO é zero.

A covariância amostral entre cada variável independente e o valor

mesmos resultados, é preciso estabelecer os valores de Y estimados nas duas situações.

No modelo de regressão simples temos:

Já no modelo de regressão múltipla:

Medidas de ajustamento no modelo de regressão linear múltipla

Vamos retomar, agora, a definição do coeficiente de ajustamento do modelo de regressão


linear, considerando agora o modelo de regressão linear múltipla. O conceito aqui é
exatamente o mesmo já apresentando no contexto de regressão linear simples. Apenas
para recordar, temos:

11
A variação total em y é a soma da variação que foi explicada pela regressão com a
variação que não foi explicada:

Daí, temos o coeficiente de ajustamento

Podemos, então, definir o como o quadrado do coeficiente de correlação entre o


valor atual de e o valor predito

(68)

Verificamos que o nunca decresce, e, em geral, cresce quando adicionamos uma


outra variável explicativa na regressão. Isso porque a soma do quadrado dos resíduos
nunca aumenta quando adicionamos uma nova variável explicativa na regressão. Torna-
se, portanto, um pouco mais difícil decidir sobre a inclusão ou não de uma variável
adicional no modelo. Na verdade, desejaríamos saber se essa variável tem um efeito
parcial em Y.

Muitas vezes, é interessante utilizar o conceito do R-quadrado ajustado, que irá considerar
o número de variáveis explicativas no modelo, ou seja:

12
Note que, na equação (69), ponderamos a variação explicada pelo graus de liberdade, ou
seja, há um custo, de certo modelo, associado à inclusão de uma variável explicativa.

Logo, para ,

Estimador De MQO E Não-Viés

Vamos aqui, assim como no caso do modelo de regressão linear simples, apresentar as
hipóteses do estimador de MQO, em modelos de regressão linear múltipla.

A primeira hipótese a ser considerada diz respeito à forma funcional do modelo de


regressão linear múltipla, ou seja:

HIPÓTESE 1 (H1): o modelo é linear nos parâmetros :

De forma complementar, a hipótese 2 estabelece a aleatoriedade da amostra:

HIPÓTESE 2 (H2): temos uma amostra aleatória de Observações

que segue o modelo populacional em (70).

De outro lado, a hipótese 3 refere-se ao comportamento das variáveis explicativas, isto é:

HIPÓTESE 3 (H3): na amostra e, consequentemente, na população, nenhuma variável


explicativa é constante. Além disso, não há uma relação linear exata entre quaisquer duas
variáveis explicativas, o que exclui a possibilidade de colinearidade perfeita entre
variáveis explicativas.

Para entendermos esse hipótese, vamos pensar no modelo do exemplo 1, efeito de


variáveis climáticas sobre o PIB da agropecuária, de,

13
Em cada uma das estações, ou seja, haveria uma colineariedade perfeita entre essas
variáveis, e, portanto, a violação de H3.

Cabe destacar que existem casos em que, embora não haja colinearidade perfeita entre as
variáveis, existe uma correlação muito forte entre as mesmas, gerando um problema de
multicolinearidade, em que se torna difícil olhar para os parâmetros estimados de forma
independente.

Uma solução simples para o caso de colinearidade perfeita ou multicolinearidade é retirar


uma das variáveis.

A hipótese H3 pode ser violada, também, no caso em que o tamanho da amostra é muito
pequeno em relação ao número de parâmetros a serem estimados. Para estimar
Parâmetros, precisamos de pelo menos Observações.

A próxima hipótese estabelece o valor para a média do erro condicionada às variáveis


explicativas, isto é:

HIPÓTESE 4 (H4): o valor esperado do erro, dado qualquer valor das variáveis
independentes, é zero.

Existem duas formas de violar essa hipótese:

Forma funcional errada

Omitir um fator importante que é correlacionado com

A hipótese H4 também é conhecida com hipótese de exogeneidade das variáveis


explicativas ou independentes. Assim, se uma das variáveis explicativas é
correlacionada com , dizemos que a variável explicativa é endógena.

Sob as hipóteses H1 – H4,

14
para qualquer valor dos parâmetros populacionais.

Podemos, desse modo, afirmar que o estimador de MQO é um estimador não viesado se
o processo fosse replicado para n amostras aleatórias possíveis. Em outras palavras, ao
estimarmos um modelo pelo método de MQO, esperamos obter, a partir de uma amostra
aleatória, uma estimativa perto do valor populacional (desconhecido), mas não é possível
ter certeza sobre isso. O que podemos afirmar é que sob as hipóteses H1 – H4, não há
porque acreditar que a estimativa encontrada seja muito pequena ou muito grande em
relação ao verdadeiro parâmetro populacional.

Logo, uma questão relevante seria: o que acontece se incluirmos variáveis irrelevantes no
modelo? É importante esclarecer que a inclusão de variáveis explicativas que não
apresentam efeito parcial na variável depedente Y não causará viés no estimador de MQO
se as hipóteses H1 – H4 forem válidas.

Por outro lado, se, ao invés de considerarmos a inclusão de uma variável irrelevante,
tivermos a omissão de uma variável relevante, será que isso gerará viés? Sim, nesse caso,
teremos viés nos estimadores de MQO.

Considere, novamente, o seguinte modelo populacional:

Que satisfaz hipóteses H1 – H4

Suponha que estamos interessados em , mas omitimos a variável.

De modo que estimamos o seguinte modelo:

15
Vamos, portanto, retornar ao exemplo do Quadro 2. Queremos estimar o efeito dos anos
de estudo sobre o rendimento do trabalho principal, a partir do seguinte modelo
populacional:

Como não observamos habilidade, estimamos o seguinte modelo:

onde habilidade Gerando, dessa forma, um viés de variável omitida.


Mas qual será a direção desse viés?

Sabemos que:

onde , são os estimadores da regressão de

em ,
em
é a inclinação da regressão linear simples de

Nesse caso,

e o viés

Portanto, o estimador será não viesado se:

São e não correlacionados .


,
Não aparece no modelo populacional.

No caso de viés do estimador, teremos as seguintes possibilidades (Quadro 5):

16
Quadro 5 – Direção do viés de variável omitida

Corr Corr

viés positivo viés negativo

viés negativo viés positivo

O Caso Geral: Duas Ou Mais Variáveis Explicativas

Entender a direção do viés de variável omitida no caso com múltiplas variáveis


explicativas é bem mais complicado. Isso porque a correlação de uma única variável
explicativa com o erro gera viés em todos os estimadores de MQO

Vamos, portanto, analisar o caso de três variáveis explicativas. Seja o seguinte modelo
populacional:

Satisfazendo as hipóteses H1 – H3

Porém, para estimar o modelo, omitimos

Sabemos que e
correlacionados. Logo, e

Sabemos que e são não correlacionados, mas e são são viesados.


correlacionados. Logo, e

Determinar a direção do viés é extremamente complicado, a não ser que assumamos que
e são

não correlacionados.
Assim, se e são não correlacionados, é não viesado, ou
seja:

17
Para ilustrar, vamos retornar ao exemplo 2 revisto, conforme apresentado no Quadro 4.
Assim:

Qual seria a direção do viés em devido à omissão da variável

Habilidade no modelo estimado? Se considerarmos que habilidade e anos de estudo são


positivamente correlacionados, a omissão da variável não observada habilidade do
modelo fará com que haja uma sobreestimação do retorno à educação. Dito de outro
modo, é como se o coeficiente dos anos de estudo captasse parte do efeito da habilidade
sobre o salário e não apenas do aumento dos anos de estudo.

A Variância Do Estimador De MQO

Para encontrar as variâncias dos estimadores de MQO, adicionamos a hipótese de


homocedasticidade, já conhecida no modelo de regressão linear simples.

HIPÓTESE 5 (H5): o erro tem a mesma variância dado qualquer valor das variáveis
explicativas.

(71)

De acordo com H5, a variância do erro é a mesma para qulaquer combinação de variáveis
explicativas.

Com as hipóteses H1 – H5, podemos derivar a esperança condicional e a variância


condicional de :

(73) (72)

Podemos, também, obter a variância condiconal do estimador de

onde é o R-quadrado da regressão de

18
Por que buscamos um estimador de variância mínima? Porque quanto maior a variância,
menor a precisão da estimativa, maiores os intervalos de confiança e menos exatos serão
os testes de hipóteses.

A variância do estimador de MQO, conforme estabelecida em (74), possui os seguintes


componentes:

A variância do erro ( ): quanto maior a variância do erro, menor a precisão do


estimador. Uma das formas de reduzir a variância do erro é acrescentar outras variáveis
explicativas ao modelo.

O total da variância em (SST): quanto maior a variância em , menor a variância


do estimador. O aumento da variabilidade de X pode ser alcançado aumentado-se o
tamanho da amostra.

Variância do estimador em modelos especificados de forma incorreta

Vamos discutir o que acontece com a variância se incluirmos uma variável irrelevante ou
excluirmos uma variável relevante. Para tanto, vamos considerar o seguinte modelo que
satisfaz as hipóteses H1 – H5:

Vamos considerar dois estimadores:

Nesse caso, é viesado. Como comparamos as variâncias?

Logo,

a não ser que seja não correlacionado com . O Quadro 6 a seguir resume os efeitos
da omissão de variável sobre a variância dos estimadores.

19
Conclusão

O presente trabalho teve como principal objetivo aprofundar o conhecimento dos modelos
de regressão linear.

Centrámo-nos no entanto no estudo do modelo de regressão linear simples onde


procuramos apresentar de forma detalhada os pressupostos do modelo e o método dos
mínimos quadrados, que nos leva à obtenção de estimadores dos parâmetros do modelo.

Realizamos ainda inferência para os parâmetros, construindo testes e intervalos de


confiança para os mesmos.

Este trabalho não abordou de forma exaustiva o modelo de regressão linear múltipla, pela
extensão do tema.

20
Bibliografia

Afonso, A., Nunes, C.; Probabilidades e Estatística – Aplicações e soluções em


SPSS; Escolar Editora; 2011.

Branco, J.A. e Pires, A.M.; Introdução aos Métodos Estatísticos Robustos;


Edições SPE; 2007.

Cordeiro, N., Magalhães, A.; Introdução à Estatística; Lidel; 2004.

Cunha, G, Martins, M.R, Sousa, R., Oliveira, F.F.; Estatística Aplicada às


Ciências e Tecnologias da Saúde; Lidel; 2007.

Draper, N.R., Smith, H.; Applied Regression Analisys, 3ª edição, John Wiley
and Sons; 1998.

Edwards, A. L.; An Introduction to Linear Regression and Correlation. San


Francisco, CA: W. H. Freeman, 1976.

Esteves, E.& Sousa, C.; Apontamentos de ADPE; UALG; 2007.

Figueira, M.M.C. (1995): “Identificação de outliers: uma aplicação ao conjunto


das maiores empresas com actividade em Portugal” Tese de Mestrado –
Instituto Superior de Economia e Gestão.

21

Você também pode gostar