Resenha - TD X Estatística Espacial
Resenha - TD X Estatística Espacial
Resenha - TD X Estatística Espacial
Autores:
Euires Felippe Rossi
Lucas Alves Penna
Luis Felipe Ulian
Nathan Dias
Thiago Aguiar
Victor Marques Almeida
A análise realizada na base de dados do Tesouro Direto revela insights valiosos sobre
a distribuição geográfica dos investidores e destaca a importância da integridade e qualidade
dos dados. Ao cruzar informações de transações de compra e venda com a base de
investidores, conseguimos refinar os dados para 1,7 milhão de clientes distribuídos em 5.525
municípios, abrangendo uma expressiva parcela de 99,2% do total de municípios no Brasil.
O processo de tratamento de dados duplicados e incorretos demonstra o
comprometimento com a precisão e confiabilidade das informações. A perda de 0,8% dos
municípios é uma medida relativamente pequena, considerando a complexidade e diversidade
do panorama municipal brasileiro. Os 45 municípios que ficaram de fora, embora
representem uma parcela minoritária, podem servir como ponto de atenção para possíveis
melhorias no processo de coleta ou integração de dados.
A imagem abaixo representa que por ser um campo de preenchimento com
responsabilidade do investidor, o nome do município pode ser divergente do real.
Figura 2: Exemplo de valores preenchidos no campo cidade investidor da base do tesouro direto.
Essa iniciativa de cruzamento de dados não apenas contribui para a correção de
informações imprecisas, mas também destaca a capacidade de análise e interpretação dos
dados disponíveis. A representatividade de 99,2% dos municípios oferece uma visão
abrangente e confiável da presença dos investidores do Tesouro Direto em todo o país.
Essa abordagem analítica fornece uma base sólida para futuras tomadas de decisão,
permitindo uma compreensão mais precisa dos padrões de investimento e comportamento dos
investidores em diferentes regiões. A transparência e a confiabilidade desses dados são
cruciais para a construção de estratégias eficazes e o desenvolvimento contínuo do mercado
financeiro, promovendo uma participação mais informada e consciente por parte dos
investidores.
A análise das distintas variáveis para entender seu comportamento espacial e a relação
espacial autoregressiva é fundamental para compreender as complexidades das interações
entre diferentes fatores em estudos geoespaciais.
Em nosso processo de análise, tomamos a decisão estratégica de normalizar algumas
variáveis em relação à população. Essa escolha foi motivada pela necessidade de evitar alta
colinearidade entre as variáveis, garantindo uma análise mais precisa e interpretação eficaz
dos resultados.
Dentre as variáveis que passaram por essa normalização, destacam-se o Produto
Interno Bruto (PIB) e a ocupação, entre outras. Devido à inclusão da população em suas
formulações, optamos por criar variáveis per capita, representando de forma mais equitativa o
impacto dessas métricas em diferentes localidades.
Além disso, estendemos essa abordagem de normalização para nossa variável alvo, a
taxa de investidores. Ao dividir a quantidade de investidores pela população total, criamos
uma métrica que reflete a participação relativa dos habitantes de uma região no programa de
investimentos.
Essa normalização proporciona uma compreensão mais equitativa das variáveis em
estudo, permitindo uma análise mais aprofundada das relações e padrões espaciais sem ser
influenciada pela variação populacional nas diferentes regiões. Essa abordagem contribui
para resultados mais robustos e interpretações mais precisas em nossa análise.
O Índice de Moran é uma ferramenta estatística fundamental para explorar padrões de
autocorrelação espacial em conjuntos de dados geográficos. Desenvolvido por Patrick Alfred
Pierce Moran, esse índice fornece uma medida numérica que ajuda a entender se as
observações em uma determinada área estão mais relacionadas espacialmente do que seria
esperado ao acaso.
Ao contrário de uma análise que trata cada observação de forma independente, o
Índice de Moran considera a proximidade espacial entre as observações. Ele avalia se valores
similares tendem a ocorrer próximos uns dos outros, indicando uma autocorrelação positiva,
ou se valores discrepantes estão mais agrupados, indicando uma autocorrelação negativa.
A interpretação do índice é relativamente simples. Um valor próximo de 1 sugere que
há uma forte autocorrelação positiva, indicando a presença de clusters espaciais. Por outro
lado, um valor próximo de -1 indica uma forte autocorrelação negativa, indicando uma
dispersão uniforme ou a formação de clusters com características distintas. Um índice
próximo de 0 sugere que não há uma autocorrelação espacial significativa.
Essa medida é amplamente utilizada em disciplinas como geografia, ciência ambiental
e economia regional, onde a distribuição espacial dos dados é crucial para a compreensão dos
fenômenos estudados. A análise do Índice de Moran fornece insights valiosos sobre padrões
espaciais, identificando áreas de concentração ou dispersão de determinadas características, o
que é fundamental para o planejamento regional, análises urbanas e diversos campos de
pesquisa que consideram a dimensão geográfica.
Os resultados dos Índices de Moran para a quantidade de investidores, o total da
população e a taxa de investidores por município fornecem insights valiosos sobre os padrões
de autocorrelação espacial presentes nesses dados.
Total da População por Município
I de Moran: 0,142
Figura 5: Classificação por Quebras Naturais (Jenks) da variável total da população por município
Quantidade de Investidores por Município
I de Moran: 0,275
Figura 7: Classificação por Quebras Naturais (Jenks) da variável quantidade de investidores por município
Taxa de Investidores por Município
I de Moran: 0,610
I de Moran: 0,845
Figura 11: Classificação por Quebras Naturais (Jenks) da variável taxa de analfabetismo
IDH
I de Moran: 0,471
Com um Índice de Moran de 0,471, a distribuição espacial do IDH aponta para uma
associação espacial moderada. Municípios próximos exibem padrões semelhantes no IDH,
indicando agrupamentos que podem estar relacionados a fatores socioeconômicos
compartilhados. Esta informação é crucial para entender as variações na qualidade de vida na
região estudada.
I de Moran: 0,488
Figura 15: Classificação por Quebras Naturais (Jenks) da variável taxa de trabalhadores ocupados
Taxa de saneamento básico
I de Moran: 0,488
Com um Índice de Moran de 0,488, a Taxa de Saneamento Básico revela uma forte
correlação espacial. Municípios próximos apresentam padrões similares de acesso ao
saneamento básico. Esses insights são fundamentais para a implementação eficiente de
políticas públicas voltadas para infraestrutura sanitária.
Figura 17: Classificação por Quebras Naturais (Jenks) da variável taxa de saneamento básico
Total de ações compradas no TD
Figura 18: Lisa cluster map da variável total de ações compradas no tesouro direto
I de Moran: 0,113
O Índice de Moran de 0,113 indica uma correlação espacial menos acentuada no total
de ações adquiridas no Tesouro Direto, em comparação com outras variáveis de investimento.
Isso sugere uma tendência mais fraca de municípios próximos possuírem volumes
semelhantes de ações compradas no TD.
Figura 19: Classificação por Quebras Naturais (Jenks) da variável total de ações compradas no tesouro direto
Total de ações vendidas no TD
Figura 20: Lisa cluster map da variável total de ações vendidas no tesouro direto
I de Moran: 0,102
Figura 21: Classificação por Quebras Naturais (Jenks) da variável total de ações vendidas no tesouro direto
Renda média
I de Moran: 0,755
O Índice de Moran de 0,755 para a Renda Média demonstra uma grandiosa correlação
espacial. Municípios próximos compartilham padrões semelhantes de renda média,
apontando para agrupamentos espaciais relevantes que impactam estratégias de
desenvolvimento econômico e alocação de recursos.
Figura 23: Classificação por Quebras Naturais (Jenks) da variável renda média
PIB per Capita
I de Moran: 0,327
Com um Índice de Moran de 0,327, a distribuição espacial do PIB per Capita mostra
uma correlação muito relevante. Municípios próximos tendem a exibir valores semelhantes
de PIB per Capita, sugerindo a presença de agrupamentos associados a dinâmicas econômicas
comuns.
Figura 25: Classificação por Quebras Naturais (Jenks) da variável pib per capita
Salário médio mensal dos trabalhadores
Figura 26: Lisa cluster map da variável salário médio mensal dos trabalhadores
I de Moran: 0,361
Figura 27: Classificação por Quebras Naturais (Jenks) da variável salário médio mensal dos trabalhadores
Quantidade de agências bancárias
I de Moran: 0,066
Figura 29: Classificação por Quebras Naturais (Jenks) da variável quantidade de agências bancárias
MODELAGEM ESTATÍSTICA
Para este trabalho vamos testar três modelos estatísticos que destacam-se nesse
contexto, oferecendo abordagens distintas para a análise espacial:
A regressão linear múltipla é um modelo estatístico clássico que estabelece uma
relação linear entre uma variáveis independentes e uma variável dependente. No contexto
espacial, este modelo é essencial para entender como uma variável específica se comporta em
relação a outra, permitindo a identificação de padrões e a quantificação da intensidade da
relação entre essas variáveis em diferentes locais.
Portanto, ao conduzir uma análise de regressão linear múltipla em um contexto
espacial, é crucial não apenas estimar os parâmetros do modelo, mas também examinar e
diagnosticar a presença de padrões espaciais nos resíduos, garantindo assim uma
interpretação robusta dos resultados.
O Modelo SAR (Spatial Auto-Regressive) é uma ferramenta estatística poderosa que
expande a regressão linear para incorporar a autocorrelação espacial. Esse modelo é
especialmente valioso quando há a suspeita de que observações em locais geograficamente
próximos podem influenciar umas às outras. Ao contrário da regressão linear múltipla, o SAR
leva em consideração explicitamente a proximidade espacial como um fator que influencia a
relação entre o SAR permite capturar padrões espaciais que podem ser cruciais para a
compreensão de fenômenos em que a proximidade geográfica desempenha um papel
significativo. Por exemplo, em estudos urbanos e ambientais, onde características de uma
área podem impactar diretamente as áreas circunvizinhas, o Modelo SAR pode fornecer uma
representação mais precisa das relações espaciais.
A análise de diagnóstico no SAR inclui a exploração de padrões residuais espaciais
para assegurar a validade do modelo. Essa metodologia é vital para garantir que a
autocorrelação espacial seja adequadamente modelada, fornecendo resultados mais robustos e
confiáveis em contextos nos quais a proximidade geográfica desempenha um papel
significativo.
O Modelo SEM (Spatial Error Model) é uma abordagem sofisticada na análise
espacial, diferenciando-se do Modelo SAR ao incorporar a autocorrelação espacial através de
termos de erro espacial. Enquanto o SAR modela a dependência espacial nas variáveis
dependentes, o SEM concentra-se nos erros residuais, capturando assim a variação não
explicada nas variáveis dependentes. Isso faz do SEM uma ferramenta valiosa para situações
em que a autocorrelação espacial é mais apropriada na representação dos resíduos do modelo.
O Modelo SEM é particularmente útil quando a variação espacial não explicada nos
resíduos é relevante para a análise. Ao capturar os padrões espaciais nos erros, o SEM
proporciona uma representação mais realista da complexidade espacial dos dados.
A escolha entre Regressão Linear Múltipla, Modelo SAR e Modelo SEM depende das
características dos dados, das hipóteses sobre a estrutura espacial subjacente e dos objetivos
específicos da análise. Em conjunto, esses modelos oferecem um arsenal poderoso para
explorar as relações espaciais entre variáveis, sendo indispensáveis para pesquisas que
buscam compreender a dinâmica complexa dos fenômenos em estudo, especialmente em
contextos nos quais a influência espacial desempenha um papel significativo.
Para os modelos com componente autoregressiva espacial é necessário definir um
critério de contiguidade espacial. Este critério estabelece uma definição específica de
vizinhança entre áreas geográficas, como distritos, municípios ou unidades administrativas, e
é amplamente empregado para explorar e compreender padrões espaciais.
Neste trabalho vamos usar a Matriz de Vizinhança Queen que reside na consideração
de que duas áreas são consideradas vizinhas se compartilham uma fronteira ou um vértice em
comum. Isso significa que, para um par de áreas, elas são consideradas contíguas se
compartilham uma borda ou um ponto de conexão, seja um vértice. Esse critério de
contiguidade é chamado de "Rainha" porque todas as áreas que compartilham um ponto ou
borda com a área de interesse são consideradas vizinhas, de forma semelhante aos
movimentos possíveis de uma rainha no jogo de xadrez.
Essa matriz é instrumental em muitas análises espaciais, especialmente quando se
trata de estatísticas espaciais globais ou locais, como autocorrelação espacial ou análises de
clusters. Além disso, é fundamental em modelos espaciais que levam em conta a estrutura
espacial das unidades, como os modelos SAR e SEM discutidos anteriormente. A Matriz de
Vizinhança Queen fornece a base para definir as relações espaciais entre as unidades,
permitindo assim a incorporação da influência espacial nas análises e modelos.
Regressão Linear Múltipla
COMPLETAR