CURSO DE PÓS-GRADUAÇÃO LATO SENSO COM ESPECILIZAÇÃO NA
“OTIMIZAÇÃO APLICATIVA DOS INSTRUMENTOS DAS POLÍTICAS URBANA E
AMBIENTAL NOS CONTEXTOS MUNICIPAIS”
APOSTILA
Disciplina: Indicadores Geográficos e Modelagem de Dados
Professor: Vitor Vieira Vasconcelos (Universidade Federal do ABC – UFABC)
Maio de 2023
1
Sumário
Capítulo 1 – Introdução aos indicadores geográficos e modelagem de dados
3
Capítulo 2 – Indicadores sociais
18
Capítulo 3 – Indicadores ambientais
37
Capítulo 4 – Construção de indicadores
58
Capítulo 5 – Modelagem estatístico-espacial de indicadores
73
2
Capítulo 1 – Introdução aos indicadores geográficos e modelagem de dados
O objetivo desta apostila é compreender os principais conceitos e aplicações para seleção,
modelagem e uso de indicadores geográficos. Após sua leitura, espera-se que o estudante consiga
compreender as principais possibilidades de modelagem de dados geográficos disponíveis para
políticas urbanas e ambientais. Para tanto, serão apresentados os principais indicadores
socioeconômicos e ambientais, e serão discutidas as principais possibilidades metodológicas de
integração de dados espaciais para a formação de indicadores.
Neste contexto, o foco deste primeiro capítulo é introduzir o conceito e as principais abordagens
para seleção e modelagem de indicadores geográficos.
1.1 Modelagem
Modelos são representações simplificadas de um objeto, estrutura, ideia ou sistema. Estas
representações sempre atendem a algum propósito específico. Os modelos são menores, menos
detalhados, menos complexos, ou uma combinação dessas simplificações. Exemplos de modelos
incluem não apenas modelagem estatística de indicadores (foco do nosso curso), mas maquetes,
modelos teórico-conceituais, mapas, entre outros.
Muitos dos trabalhos de modelagem estatística de indicadores começam com a etapa de
modelagem conceitual. Nesta etapa, procura-se identificar os elementos do universo de
representação, bem como entender como eles podem se agrupar em subsistemas. A figura abaixo
ilustra um exemplo de modelagem conceitual.
Figura 1 – Exemplo de uma modelagem conceitual sobre o contexto de queimadas em uma
unidade de conservação
3
Em seguida, é comum estabelecer quais são as principais relações entre esses elementos. Por
exemplo, quando um atributo ou características de um elemento muda, o que acontece com as
características ou atributos dos demais elementos? Nesse contexto, pela abordagem da teoria de
sistemas (Bertalanfy, 1968), torna-se relevante pensar em efeitos de retroalimentação (feedback) em
que um elemento A causa uma mudança em um elemento B e, no momento seguinte, o elemento B
causa outra mudança no elemento A, que em seguida afeta novamente o elemento B, e assim por
diante, em uma perspectiva dinâmica. Há dois tipos básicos de retroalimentação: positiva e negativa,
ilustrados na Figura 2.
Figura 2 – Exemplos de retroalimentação positiva e negativa
Na retroalimentação positiva, uma mudança em um atributo do elemento A causa uma mudança
na mudança de outro atributo do elemento B, na mesma direção (relação direta). Na Figura 2.a, por
exemplo, o aumento no aquecimento global causa o derretimento das calotas polares. Quando as
calotas polares derretem, os raios solares passam a ser mais absorvidos pela cobertura do solo, que
eram refletidos para fora do planeta pelo gelo, e isso por sua vez aumentará mais ainda o
4
aquecimento global, criando um ciclo contínuo de aquecimento e derretimento das geleiras. A não
ser que outro processo intervenha, a retroalimentação positiva gera um crescimento ou
decrescimento cada vez mais acentuado, até um colapso geral do sistema analisado.
Na retroalimentação negativa, uma das vias de interação entre os elementos A e B é uma relação
direta (segue a mesma direção), mas a via inversa apresenta uma relação invertida. Por exemplo, a
diminuição em um atributo no elemento A (disponibilidade de um recurso natural) causaria uma
diminuição em outro atributo no elemento B (consumo de um recurso natural), mas no momento
seguinte, o elemento B causaria um aumento no mesmo atributo do elemento A. Esse tipo de
retroalimentação tende, ao longo do tempo, a estabilizar as variações dos atributos entre os
elementos, como mostrado na Figura 2.B.
Os exemplos da Figura 2 são bem simples, e é possível fazer modelagens de interações em
sistemas muito mais complexos. A Figura 3 exemplifica uma rede de interações entre populações de
animais no parque de Yellowstone, nos Estados Unidos, e que foi utilizado para entender o impacto
da reintrodução dos lobos naquele parque (Boyce, 2018). A figura 3 mostra que, de acordo com o
entendimento das relações ecológicas entre as espécies, algumas relações são diretas (+) e outras
inversas (-). Conforme os lobos foram sendo introduzidos e começaram a se reproduzir no parque,
foi possível monitorar se as relações entre as populações na Figura 3 se comportavam de acordo
com as hipóteses do modelo conceitual.
Figura 3 – Hipóteses das relações entre as populações de seres vivos no parque de Yellowstone
(EUA), a partir da reintrodução de lobos. Construído a partir de Robbins (2004).
5
Um método muito utilizado para modelagem conceitual de indicadores, em contextos de políticas
públicas, é o XLRM (Externalities, Policy Levers, Relationships and Metrics) (LEMPERT et al., 2003).
De acordo com esse método, primeiramente é precisa delimitar qual é o contexto de atuação dos
atores envolvidos, para identificar que indicadores são externos (dificilmente podem ser modificados
pelos atores envolvidos) ou internos (dependem da atuação dos atores). Entre os fatores externos
(externalidades), é interessante dividir entre tendências (há um padrão observável no passado, que
pode ser projetado para o futuro), e incertezas (não é possível saber o que ocorrerá no futuro). As
ações (Policy levers) são as escolhas e projetos que podem ser executados pelos atores. E as
métricas são indicadores que podem ser medidos para ver se as ações estão sendo executadas com
eficiência, ou seja, se estão atingindo seus objetivos propostos. Ao fim, é elaborado um diagrama
conceitual de relações entre a externalidades, ações e métricas, como exemplificado na Figura 4, no
contexto de gestão de recursos hídricos de uma bacia hidrográfica.
Figura 4 – Modelagem de relações conceituais da gestão de recursos hídricos em uma bacia
hidrográfica, utilizando a abordagem XLRM (Lempert et al., 2003).
6
1.2. Levantamento e Seleção de Indicadores
Durante um processo de seleção de indicadores, é comum iniciar pela construção de uma Árvore
de Informação, em que os parâmetros (informações sobre propriedades mensuradas de fenômenos,
podendo ser constantes ou variáveis) são agrupadas em fatores, que por sua vez são agrupadas em
categorias (Thomaziello, 1999). A Figura 5 mostra um exemplo aplicado a estudos socioambientais.
Figura 5 – Exemplo de árvore de informação agregando categorias, fatores e parâmetros comuns
em estudos socioambientais. Adaptado de Santos (2004).
Uma definição usualmente empregada é a de que um “dado” (por exemplo, um valor de um
atributo mensurado de um fenômeno), ao se tornar interpretável em um contexto determinado, se
torna uma “informação” (Santos, 2004). Ou seja, a informação vai ter uma utilidade e uma agregação
de conhecimento. Os dados, informações e parâmetros podem ser representados de diversas
maneiras. Por exemplo, eles podem ser qualitativos, representando categorias binárias (como “sim”
ou “não”) ou categorias múltiplas, como “montanha”, “planície” e “colina”, e outras formas de relevo.
Eles também podem ser quantitativos, dividindo-se em ordinais (primeiro, segundo, terceiro) ou
cardinais (numéricos). Os cardinais podem ser binários (0 ou 1), discretos (números inteiros, como
1, 2, 3, etc.) ou contínuos (ou seja, com casas decimais, como 1,35).
Existe uma hierarquia de complexidade no uso de indicadores (WINOGRAD et al., 1995;
FIDALGO, 2003), que pode ser representada na pirâmide da Figura 6. Os dados primários, ao serem
selecionados para interpretação dentro de um contexto, passam a ser informações. Dentro desses
dados, alguns são selecionados como sinalizadores de uma condição geral do sistema, e passamos
a chamá-los de indicadores. Os indicadores podem ser simples, quando são compostos de apenas
7
um parâmetro, ou agregados, quando são uma taxa entre dois parâmetros (por exemplo, habitantes
por área – km2). Já os índices são compostos pela combinação de vários parâmetros, cada um com
um peso diferenciado.
Figura 6 – Hierarquia de dados, indicadores e índices. Adaptado de Santos (2004).
Entre os critérios para seleção de dados a tornarem-se indicadores, está a sua função (para quê
servem?) e a disponibilidade e custo de monitoramento. Em estudos socioambientais, também é
relevante a avaliação sobre a diversificação e capacidade de integração, por exemplo, se os
indicadores estão conseguindo cobrir tanto aspectos sociais quanto ambientais.
Winograd et al. (1995) propuseram que no momento de seleção de indicadores, é importante
avaliar a sua qualidade, por meio de três aspectos principais:
•
Confiabilidade dos dados
•
Relações com os problemas
•
Utilidade para os usuários.
Com base nesses três aspectos acima, A OECD (1994; 1998) propôs uma séria de subcritérios
que podem ser avaliados. Em relação à confiabilidade dos dados, é importante se atentar se a fonte
das informações possui credibilidade; se há clareza e confiabilidade nos procedimentos de coleta,
devidamente documentados; se há precisão e exatidão das informações segundo os padrões
científicos vigentes; e se os dados se encontram atualizados em intervalos irregulares para não criar
incertezas sobre períodos não mesurados (OECD, 1994; 1998). O Quadro 1 apresenta algumas
8
definições conceituais usualmente utilizadas para avaliar a credibilidade de indicadores. Algumas
fontes de incerteza em indicadores são erros de mensuração, bem como a incerteza dos modelos
que constroem índices mais complexos. Para definir o quão confiável é uma informação, a revisão
por outros especialistas e pela comunidade local torna-se um procedimento recomendável. Quando
possível, pode-se realizar a triangulação, ou seja, construir um mesmo indicador por diferentes fontes
de informação, tais como dados oficiais, entrevistas, sensoriamento remoto, trabalho de campo, etc.
Ao construir as bases de dados de um indicador, é importante que essas avaliações de incerteza
estejam descritas nos metadados que acompanham as bases de dados.
Quadro 1: Conceitos usualmente empregados para avaliar a credibilidade de indicarores
• Acurácia: similaridade entre a medida representada e o valor real.
• Precisão: refinamento do valor apresentado (ex: dígitos depois da vírgula).
• Atualidade: grau em que os dados correspondem à realidade atual
• Consistência: grau em que os diversos dados não contradizem um ao outro.
• Propagação de incerteza: dados incertos, se submetidos a análises estatísticas, geram
produtos incertos.
No que tange à dimensão da “relação com os problemas”, a primeira questão é se os indicadores
conseguem retratar os problemas de interesse na área de estudo. Nesse momento, os tipos de
relações entre elementos, identificados na modelagem conceitual, podem evidenciar essas
conectividades entre os indicadores. As relações podem ser determinísticas (a modificação em um
parâmetro sempre causa a mesma reação no outro parâmetro), probabilísticas (há uma chance de
modificação no outro parâmetro), ou podem mesmo ser padrões aleatórios, desde que seja relevante
o seu monitoramento. É importante escolher indicadores que sejam sensíveis a mudanças dentro da
escala de tempo de interesse, que pode ser contínua (linear, ao longo dos anos), ou sazonal/cíclica
(como nas estações do ano), e também que tenham valores de referências (por exemplo, que valore
são considerados altos, médios ou baixos). Para facilitar a comunicação e reduzir custos de
monitoramento, é estratégico escolher indicadores não redundantes (que variam conjuntamente),
mas que consigam sintetizar as informações de outros dados que não estão sendo monitorados.
Sobre a dimensão de “utilidade para os usuários”, o foco central deve ser se o uso dos indicadores
consegue atender aos objetivos de planejamento. Para isso, a sua capacidade de “tradução” é
essencial, ou seja, que os valores atribuídos ao indicador possam distinguir entre condições
aceitáveis ou inaceitáveis, ou condições que demandem determinadas ações. Como os indicadores
geralmente têm natureza preventiva, é interessante que o seu valor já comece a sinalizar os danos
sociais ou ambientais mesmo antes que sérios danos aconteçam, para que as ações possam ser
tomadas a tempo. Questões práticas, como acessibilidade, custo e agilidade na coleta dos dados
9
também devem ser consideradas. Sob o aspecto de comunicação, o indicador deve ser de fácil
entendimento para o público, e ser relevante para atrair sua atenção.
1.3. Resolução e escala de indicadores
A relação entre escala e resolução dos indicadores pode ser exemplificada na Figura 7. A
abrangência de um indicador pode ser definida entre a extensão no espaço e a duração no tempo
para os quais há dados disponíveis. A resolução de um indicador é o intervalo, no tempo e no espaço,
em que são medidas as observações. A granulosidade, por sua vez, é a extensão ou duração para
a qual o indicador e mensurado e/ou disponibilizado, ou seja, a informação se refere a uma média
sobre um período de tempo ou sobre uma área delimitada.
Figura 7 – Relação entre escala e resolução de indicadores. Adaptado de ONU (2005)
Quando nos referimos a dados ambientais, é importante entender que os indicadores muitas
vezes se referem a escalas de tempo e espaço muito diferentes entre si. A Figura 8 ilustra diversos
processos que ocorrem em distintas escalas espaciais e temporais. A escolha da escala e unidade
espacial (granulosidade) dos dados dos indicadores deve levar em conta o tipo de fenômeno a ser
estudado. Por exemplo, se deseja-se estudar a ocupação urbana, é comum usar uma escala
municipal ou de região metropolitana, e uma resolução espacial que permita visualizar as mudanças
durante a duração temporal analisada. Outro aspecto relevante é a disponibilidade de dados, pois
diversos indicadores socioeconômicos são disponíveis apenas nas unidades espaciais de setores
censitários ou de municípios. Quando se quer medir um indicador ainda não existente nas bases de
dados oficiais, a escolha da escala e unidade de análise vai refletir nos custos e tempo de
10
levantamento dos dados. Outro ponto importante é a escala de intervenção da política pública, por
exemplo, um plano diretor vai se refletir na escala de seu município ou região metropolitana, já um
plano de manejo vai estar na escala de sua respectiva unidade de conservação.
Figura 8 – Escalas espaciais e temporais de distintos processos ambientais.
Diversas vezes, ao estudar um determinado processo socioambiental, nos deparamos com a
disponibilidade de informações de fenômenos em escalas diferentes. Todavia, mesmo estando em
escalas diferentes, esses processos podem ser relevantes para os nossos objetivos de análise.
Tuner et al. (2001), como exemplificado na Figura 9, propõem que usemos os dados de escalas mais
amplas para entender as condições e restrições impostas ao nosso objeto na escala de estudo. Além
disso, podemos usar escalas mais detalhadas, mesmo que apenas conceitualmente, para propor
mecanismos explicativos que envolvam componentes ainda não visualizáveis na escala de estudo.
Como um exemplo, os dados de microclima em escala mais ampla podem ser usados para entender
as restrições e condições de crescimento e manutenção de fragmentos de vegetação em uma escala
de estudo de paisagem. Na escala de estudo, é possível realizar levantamentos de dados e mapas
dos fragmentos de vegetação, e entender os seus padrões. Porém, para explicar os seus padrões e
processos, pode ser necessário teorizar em escalas mais detalhadas, que envolvem as relações
entre as espécies de plantas, mesmo que não seja viável coletar em campo informações tão
detalhadas assim, em um primeiro momento.
11
Figura 10 – Exemplo de uma estratégia de estudo interescalar. Adaptado de Turner e Gardner (2015)
Ao realizar estudos interescalares, a teoria de sistemas (BERTALANFFY, 1968) nos fornece
algumas bases conceituais relevantes. Uma delas é a dos padrões fractais, que são propriedades
que se refletem em diferentes escalas espaciais e/ou temporais Figura 11. Um exemplo é o padrão
de segregação socioespacial, em que a população mais pobre é segregada espacialmente da
população mais rica (Figuras 12, 13 e 14). Esse padrão pode ser visto em mapas elaborados em
diversas escalas, desde municipal, nacional ou global. Trotsky (1932) denominou esse padrão de
“desenvolvimento combinado e desigual”, e propôs que seria um padrão interescalar inerente à
sociedade capitalista.
Figura 11 – Exemplo de padrão fractal, repetindo-se em diversas escalas espaciais. Fonte:
https://mathworld.wolfram.com/Fractal.html
12
Figura 12 – Renda per capita na Região Metropolitana do Rio de Janeiro. Fonte:
https://www.modelarametropole.com.br/wp-content/uploads/2017/03/06-economia_-renda.jpg
Figura 13 – Produto Interno Bruto (PIB) per capita no Brasil. Fonte:
https://aredeurbana.com/2020/02/13/mapa-do-produto-interno-bruto-per-capita-dos-municipios-brasileiros-2017/
13
Figura 14 – PIB per capita no mundo. Fonte
https://ourworldindata.org/grapher/gdp-per-capita-worldbank
Outra perspectiva de análise interessante advinda da teoria de sistemas é a de propriedades
emergentes. Segundo essa perspectiva, alguns padrões só apareceriam em determinadas escalas,
pois haveria processos e relações que não existem nos elementos se estes forem analisados de
maneira isolada, mas que passam a atuar quando os elementos estão se relacionando entre si em
escalas mais amplas. Um exemplo pode ser observado na Figura 14, mostrando que a relação entre
número de espécies e área de ilhas em que essas espécies habitam tem uma brusca mudança, ao
comparar ilhas com menos ou com mais de 0,5 km2.
Figura 15 – Exemplo de propriedade emergente em relação ao número de espécies em ilhas.
Adaptado de Turner e Gardner (2015), com dados de Diamond e Mayer (1975) e Williamson
(1981).
14
Em alguns contextos, precisamos temos dados provenientes de resoluções e escalas diferentes,
mas precisamos agregá-los em uma mesma resolução, escala e unidade de análise. Pode-se optar,
neste caso por duas estratégias, exemplificadas na Figura 16. Uma dela é a de agregação
(upscalling), em que pegamos um dado de alta resolução e agregamos em unidades espaciais de
maior extensão. Um cuidado que se deve ter é que, ao agregar dados, os mapas escondem as
heterogeneidades espaciais que seriam visualizáveis em alta resolução, e apresentam uma
superfície “suavizada” que pode ser enganadora. Além disso, é preciso tomar cuidado pois nem todas
as variáveis permitem ser agregadas: dados de fluxo (de pessoas, energias, bens) não podem ser
simplesmente somados caso o local de origem e de destino estejam sendo agregados em uma
unidade só de análise. Outros índices espaciais, como conectividade, segregação e fragmentação,
só fazem sentido em uma escala de análise, precisando ser recalculados em cada novas resolução,
e por isso não também não podem ser agregados. Além disso, dados categóricos (como classes de
relevo) ou qualitativas (como grupos culturais) não permitem uma agregação simples, e requerem
uma reinterpretação em cada escala de análise. Outras informações, como espécies endêmicas (que
só vivem um determinado local), passam a não ter sentido se forem agregadas em unidades
espaciais mais amplas.
Figura 16 – Estratégias de agregação (upscalling) e desagregação (downscalling) de dados. Fonte:
Park et al. (2019)
A outra estratégia, mais complexa, é a de desagregação (downscalling) dos dados, utilizando
modelos espaciais que permitem pegar dados em resoluções mais grosseiras e estimar como eles
se distribuiriam em resoluções mais altas. Uma das maneiras de fazer a desagregação é por
microssimulação, em que utilizamos modelos estatísticos baseados em uma variável auxiliar que
15
esteja presente nas duas resoluções (alta e baixa), e que serve como uma “pista” para inferirmos
como se comportaria a nossa variável de interesse. Por exemplo, se só tivermos os dados de
expectativa de vida em nível municipal, mas sabermos da sua relação com a renda per capita, que
está disponível em resolução de setor censitário, podemos tentar estimar a expectativa de vida por
setor censitário. Todavia, todo modelo estatístico gera algum nível de incerteza, que se agrega às
incertezas já existentes tanto nos valores da variável de interesse quanto na variável auxiliar.
Referências
BERTALANFFY, Ludwig von. 1968. General System theory: Foundations, Development,
Applications, New York: George Braziller
BOYCE, Mark S. "Wolves for Yellowstone: dynamics in time and space." Journal of Mammalogy 99,
no. 5 (2018): 1021-1031
DIAMOND., J. M., and E. MAYR. 1976. Species–area relations for birds of the Solomon
archipelago. Proceedings of the National Academy of Sciences, USA 73:262–266
FIDALGO, E. C. C. (2003). Critérios para a análise de métodos e indicadores ambientais usados na
etapa de diagnóstico de planejamentos ambientais. Tese de Doutorado, UNICAMP: Campinas.
LEMPERT, R. J., S. W. POPPER and S. C. BANKES (2003). Shaping the Next One Hundred
Years: New Methods for Quantitative, Long-term Policy Analysis. Santa Monica, CA, RAND
Corporation
OECD (Organization for Economic Co-Operation and Development). Environmental Indicators.
Paris, 1994.
OECD (Organization for Economic Co-Operation and Development). Towards sustainable
development: environmental indicators. Paris, 1998
ONU - ECOSYSTEM ASSESSMENT (MA). Ecosystem and human well-being: a framework for
assessment. Washington DC: Island Press, 2005.
PARK, N. W., Kim, Y., & Kwak, G. H. (2019). An overview of theoretical and practical issues in
spatial downscaling of coarse resolution satellite-derived products. Korean Journal of Remote
Sensing, 35(4), 589-607.
ROBBINS, J. (2004). Lessons from the wolf. Scientific American, 290(6), 76-81.
SANTOS, R. Planejamento ambiental: teoria e prática. São Paulo: Oficina de Texto, 2004.
THOMAZIELLO, S.A. Planejamento ambiental e conservação de florestas urbanas: Mata Ribeirão
Cachoeira, Campinas, SP. Dissertação de Mestrado – UNICAMP, Campinas, 1999.
TROTSKY, Leon. The History of the Russian Revolution. Ann Arbour: University of Michigan, 1932.
16
TURNER, M.G.; GARGNER, R.H. l. Landscape Ecology in Theory and Practice: Pattern and
Process. 2nd ed. New York: Springer, 2015
WILLIAMSON, M. 1981. Island Populations. Oxford University Press, Oxford, UK
WINOGRAD, M. FERNANDÉZ, N., FRANCO, R. M. Marco conceptual para el desarrollo y uso de
indicadores ambientales y de sustentabilidad para la toma de decisions en Lantinoamerica y el
Caribe: position paper. Proyecto CIAT/UNEP. Cali, 1995.
17
Capítulo 2 – Indicadores sociais
O foco deste segundo capítulo é apresentar as principais técnicas de transformação de
indicadores, para finalidade de comparação e integração em índices, e em seguida discutir suas
aplicações na construção de indicadores sociais.
2.1.
Transformação de indicadores
Podemos dividir as finalidades de transformação de indicadores em contextos de comparação,
redistribuição e integração. Como os indicadores distintos podem apresentar unidades de medida e
faixas de variação muito diferentes entre si, usualmente é preciso transformá-los, para que possam
ser comparados com maior facilidade entre si. Um desafio metodológico comum para monitoramento
e comparação de indicadores é que, caso algum dos indicadores apresente alguns casos com
valores extremos (ou seja, muito acima ou muito abaixo dos valores mais frequentes), torna-se mais
difícil visualizar e comparar toda a faixa de variação desses indicadores. Uma alternativa
frequentemente utilizada é realizar transformações matemáticas que alterem a distribuição da
frequência de cada valor, e assim reduzam o efeito desses valores extremos. Por fim, após estarem
em unidades compatíveis de análises, os indicadores podem ser integrados em índices, por meio de
medidas de centralidade ou do somatório de seus efeitos. Vamos discutir cada uma dessas
possibilidades no decorrer dessa seção.
2.1.1. Transformações para comparação de indicadores
2.1.1.1.
Reescalonamento
Como usualmente os indicadores possuem distintas faixas de variação (limites de valores
mínimos e máximos), uma prática comum é reescalonar cada indicador para que varie dentre de um
limite entre 0 e 1, onde 0 seria o seu valor mínimo e 1 seria o seu valor máximo. Para atingir esse
objetivo, pode-se aplicar a fórmula descrita na equação 1.
𝑋𝑖 − min(𝑋)
max(𝑋) − min(𝑋)
( Equação 1)
Onde, X é o indicador,
Min(X) é o valor mínimo do indicador
Max(X) é o valor máximo do indicador
18
Uma das dificuldades dessa técnica é que, caso algum indicador tenha algum valor extremo, ele
vai ficar mais próximo do 0 ou do 1, e os demais indicadores irão ficar agrupados no extremo oposto,
com pouco variação entre si.
Alguns autores denominam essa transformação como “normalização”, porém consideramos
inadequada essa terminologia, pois como veremos mais a frente nas próximas subseções, o termo
“normalização” é mais corretamente utilizado quando se refere a transformações que alterem a
distribuição de uma variável para que ela se aproxime de uma distribuição normal (valores próximos
à média e pouco efeito de valores extremos).
2.1.1.2.
Padronização
Uma outra possibilidade para comparação de indicadores é a padronização, em que os valores
são subtraídos de sua média (para que a média do novo indicador se torne 0 [zero]). Em seguida, os
valores são divididos pelo desvio padrão dos dados (intensidade de variação dos dados em torno da
média), de forma a que as unidades de medida deixem de ser a da escala original e passem a ser
medidas em “desvios padrões”. Como todos os indicadores passam a ser medidos em “desvios
padrões”, eles passam a ser comparáveis entre si. A fórmula para padronização é apresentada na
equação 2, e a fórmula de desvio padrão é apresentada na equação 3.
𝑋𝑖 − 𝑚é𝑑𝑖𝑎(𝑋)
𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 (𝑋)
∑(𝑥𝑖 − 𝑚é𝑑𝑖𝑎(𝑥))2
𝑑𝑒𝑠𝑣𝑖𝑜𝑝𝑎𝑑𝑟ã𝑜(𝑋) = √
𝑁
(Equação 2)
(Equação 3)
Onde N é o número de casos medidos para a variável
Comparando as alternativas de reescalonamento com a de padronização, a de reescalonamento
é mais simples para explicar ao público geral, além de facilitar a compreensão dos limites mínimos e
máximos (0 e 1) nas análises. Todavia, a padronização é mais coerente em termos estatísticos, pois
as variáveis passam a ser comparadas na mesma unidade de medida (unidades de desvio padrão).
Desse modo, na prática, costuma-se usar mais o reescalonamento quando os índices serão
apresentados diretamente ao público, ao passo que se costuma utilizar mais a padronização quando
os dados serão utilizados, em uma etapa intermediária, como entrada para outros modelos
estatísticos.
Um dos requisitos para que a padronização cumpre bem sua finalidade é que os dados tenham
uma distribuição aproximadamente normal. Ou seja, que a maior parte dos dados medidos esteja
19
próximo da média, e que haja poucos valores extremos, como ilustrados no histograma de
distribuição da Figura 1. Nesse contexto, a padronização também é afetada por valores extremos,
de forma semelhante ao reescalonamento.
Figura 1 – Exemplo de uma distribuição normal. Note que 68,27% dos dados se encontram entre a
média e 1 desvio padrão, para mais ou para menos; 95% dos dados encontram-se a até 2 desvios
padrões da média; e 99,73% dos dados encontram-se a até 3 desvios padrões da média.
2.1.1.3.
Padronização robusta
Para diminuir o efeito de valores extremos para comparação de variáveis, alguns autores sugerem
versões denominadas como “padronização robusta”. Uma das alternativas é utilizar a mediana (valor
que separa os 50% dos dados maiores e os 50% dos dados menores), em vez da média, visto que
a mediana é menos afetada por valores extremos.
Outra alternativa é utilizar o intervalo interquartil, em vez de usar o desvio padrão para dividir os
dados. O intervalo interquartil é a amplitude (diferença entre valores mínimos e máximos)
descartando os 25% de casos de menor valor e os 25% de casos de maior valor. Assim, o intervalo
interquartil também é menos afetado por valores extremos do que o desvio padrão. A equação 4
20
mostra como ficaria uma padronização robusta usando essas duas alternativas (mediana e intervalo
interquartil) juntas.
2.1.1.4.
𝑋𝑖 − 𝑚𝑒𝑑𝑖𝑎𝑛𝑎(𝑋)
𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙(𝑋)
(Equação 4)
Ranqueamento
O ranqueamento, também denominado de reescalonamento não-paramétrico, consiste em
ordenar os casos, do menor para o maior, e então atribuir um número referente à sua posição. Por
exemplo, em um conjunto de 100 observações, o menor valor receberia o número 1, o segundo
menor valor receberia o número 2, e assim por diante, até o maior valor, que receberia o número
100. O ranqueamento não é afetado por valores extremos e independe da normalidade da
distribuição dos dados, e por isso é muito utilizado em um conjunto de técnicas de modelagem
denominado de “estatística não-paramétrica”. Um problema desse tipo de transformação é que, se
você trocar o maior valor por um número maior, por exemplo, 100 vezes maior, a sua posição no
ranking não aumenta, e o seu indicador não mudaria.
2.1.2. Transformações para redistribuição na frequência dos dados
Na seção anterior, vimos que a existência de valores extremos é um desafio para análise de
indicadores, bem como também a ocorrência de distribuições não-normais. É possível utilizar
transformações matemáticas com o objetivo de reduzir o efeito de valores extremos, e também de
aproximar a distribuição dos dados a uma distribuição normal.
Uma transformação muito comum, nesses casos, é a transformação logarítmica. O logarítmico é
uma notação associada à potenciação, tal como podemos ver no exemplo a seguir:
log10 (1000) = 3
Porque
103=1000
A transformação logarítmica faz com que haja uma maior diferenciação entre os dados com
valores menores, mas reduz bastante o valor dos dados maiores (Figura 2). É importante lembrar
que só há logaritmo de dados maiores que 0 (zero).
21
Figura 2 – Transformação logarítmica de base 10. O eixo horizontal são os dados originais, e o eixo
vertical é o valor após a transformação logarítmica. Observe como a inclinação da curva é maior
para os valores menores, e se torna cada vez menos inclinada ao passar para os valores maiores.
Devido a essas propriedades, a transformação logarítmica é bastante utilizada para que conjuntos
de dados com valores extremos possam se aproximar de uma distribuição normal. A Figura 3 ilustra
como um conjunto de dados assimétrico, com muitos valores pequenos e alguns poucos valores
extremos, aproxima-se de uma distribuição normal após a transformação logarítmica. Nota-se, na
Figura 3, como os valores extremos, que estavam na metade direita do primeiro gráfico, são
“arrastados” para a esquerda, aproximando-se dos demais dados.
Figura 3 – A (esquerda): histograma de frequência dos dados originais. B (direita): dados após a
transformação logarítmica.
22
Existem diversas outras transformações matemáticas, que podem ser úteis para lidar com valores
extremos e para aproximar a distribuição de frequência a uma distribuição normal. A escolha sobre
cada muda depende da distribuição original dos dados. Por exemplo, caso a distribuição dos dados
originais seja relativamente menos assimétrica do que a apresentado na Figura 1A, então uma
transformação por raiz quadrada pode ser mais efetiva para aproximar os dados a uma distribuição
normal, como ilustra a Figura 4. Em outros casos, pode-se usar outros índices de raiz, tais como raiz
cúbica, ou mesmo outras transformações, tais como elevar a alguma potência (por exemplo, elevar
ao quadrado) ou inverter os valores (1/x).
Figura 4 – A (esquerda): distribuição de frequência dos dados originais. B (direita): distribuição de
frequência após transformação por raiz quadrada.
2.1.3. Transformações para integração de indicadores em índices
Os índices podem ser definidos como uma combinação de dois ou mais indicadores. Após os
índices se tornarem comparáveis, por exemplo, usando as técnicas descritas nas subseções
anteriores, é possível integrá-los em um índice geral. Essa combinação pode ser feita por duas
estratégias:
•
Reflexiva: é calculada uma média (ou outra tendência central) dos indicadores.
•
Formativa: os indicadores são somados.
23
2.1.3.1.
Índices reflexívos
Existem diversas medidas de tendência central que podem ser utilizadas para gerar índices. A
Tabela 1, abaixo, apresenta as mais usuais.
Tabela 1 – Medidas de tendência central frequentemente utilizadas para construção de índices
reflexivos
As estratégias para definir a ponderação diferenciada (para média aritmética ponderada) serão
discutidos nos próximos capítulos desta apostila.
A média geométrica é menos influenciada por valores extremos do que a média aritmética, e a
média harmônica é ainda menos influenciada por valores extremos. Dentro do contexto de
construção de índices socioeconômicos reflexivos, o uso das médias geométricas e harmônicas tem
sido empregado quando se quer penalizar por um aumento extremo em apenas um dos indicadores.
Dessa forma, premia-se quem tem um desenvolvimento equilibrado em todos os indicadores, mais
do que quem apresenta apenas um indicador muito alto e os demais muito baixos.
2.2.
Aplicações em indicadores socioeconômicos
O uso de índices socioeconômicos, agregando diversos indicadores, é relevante sob o ponto de
vista de que a qualidade de vida humana é complexa e apresenta diversas facetas. Antes da década
de 1970, era comum a análise social com apenas os dados de renda. Todavia, gradualmente
começaram a ser levantadas diversas críticas, pois, por exemplo, um cidadão negro em um bairro
de periferia nos Estados Unidos poderia ganhar muito mais do que um indiano em uma área rural da
Índia, mas o indiano poderia ter uma expectativa de vida muito maior, por ter maior segurança
alimentar e laços sociais de solidariedade em sua comunidade (Veiga, 2015).
24
2.2.1. Índice de Desenvolvimento Humano - IDH
O Índice de Desenvolvimento Humano foi um dos primeiros índices a serem empregados
oficialmente pelas Nações Unidas. Ele parte de três dimensões (renda, saúde e educação), cada
uma delas com o mesmo peso (1/3), e é calculado na forma demonstrada na Figura 5. A dimensão
de conhecimento (educação) é composta por 2 indicadores, que também possuem o mesmo peso
entre si.
Figura 5 – Método de cálculo do Índice de Desenvolvimento Humano. Fonte: UN (2022).
Cada um dos indicadores é reescalado, transformando seu valor entre 0 e 1, de acordo com os
limites dispostos na Tabela 2. Atenta-se que o nível de renda sofre uma transformação logarítmica.
Essa transformação faz com que haja uma maior diferença no indicador nas faixas menores de
renda, e que quanto maior a renda, menor a influência no indicador final. Essa transformação
logarítmica se justifica porque para indivíduos mais pobres, mesmo um pequeno aumento na renda
é extremamente relevante para a segurança alimentar e realização das demais necessidades
básicas (ANAND; SEN, 2000). Um exemplo disso é a relação entre expectativa de vida e renda,
apresentada na Figura 6, e entre a porcentagem de população em pobreza extrema e a mortalidade
infantil, apresentada na Figura 7.
25
Tabela 2 – Limites mínimos e máximos para os indicadores que compõem o IDH. Fonte: UN (2022)
Dimensão
Indicador
Mínimo
Máximo
Saúde
Expectativa de vida ao nascer (anos)
20
85
Anos esperados de estudo
0
18
Média de anos de estudo
0
15
100
75.000
Educação
Nível de vida
Log da Renda Nacional Bruta per capita
(PPC $)
Figura 6 – Efeito da renda sobre a expectativa de vida ao nascer, com destaque para a área com
maiores privações às necessidades básicas. Fonte: https://ourworldindata.org/life-expectancy
26
Figura 7 – Relação entre porcentagem da população em pobreza extrema e a mortalidade infantil
até 5 anos de idade. Fonte: https://ourworldindata.org/grapher/poverty-and-child-mortality
A agregação dos índices de cada dimensão, no IDH, é realizada por média geométrica
(Equação 5). A justificativa para usar a média geométrica, em vez da média aritmética, é de não
privilegiar países que tenham apenas alta renda, mas que não se traduza efetivamente em melhor
saúde e educação. Dessa forma, a média geométrica privilegia aqueles países com um
desenvolvimento equilibrado nas três dimensões (UN, 2022).
3
𝐼𝐷𝐻 = √𝐼𝑠𝑎ú𝑑𝑒 ∗ 𝐼𝑒𝑑𝑢𝑐𝑎çã𝑜 ∗ 𝐼𝑟𝑒𝑛𝑑𝑎
(Equação 5)
Ao fim, dependendo do resultado do IDH, cada país é classificado em níveis, apresentados na
Tabela 3. Essa classificação em níveis é relevante para caracterizar qualitativamente o que é
considerado alto ou baixo, e assim direcionar as políticas humanitárias. Um mapa com essa
classificação dos países é apresentado na Figura 8.
27
Tabela 3 – Níveis de desenvolvimento humano (UN, 2022)
Nível de Desenvolvimento Humano
IDH
Muito alto
0,8 e acima
Alto
0,70 – 0,79
Médio
0,55 – 0,69
Baixo
Menos que 0,55
Figura 8 – Mapa com a classificação dos níveis de desenvolvimento humano, a partir do IDH.
Fonte: UN (2022).
Outra maneira relevante de analisar o IDH é a sua variação ao longo do tempo, apresentada na
Figura 9 (última década). É possível observar que os países mais pobres obtiveram um maior
aumento no IDH, exceto pelos países com conflitos políticos internos e guerra civil.
28
Figura 9 – Taxa de crescimento do IDH de 2010 a 2020. Fonte: UN (2022).
Além do cálculo do IDH nacional, o Programa das Nações Unidas para o Desenvolvimento
(PNUD) apoia o cálculo do IDH em nível municipal em diversos países, inclusive o Brasil. Todavia,
para realizar esse cálculo no Brasil, foi necessário fazer algumas adaptações em função dos dados
disponíveis (Tabela 4).
Tabela 4 – Adaptações no cálculo do IDH para o nível municipal. Fonte: IPEA, FJP e PNUD (2022).
Dimensão
IDH
IDH Municipal
Expectativa de vida
Dados originais
Anos de estudo
Todas as idades
Apenas da população jovem (até 20 anos)
Renda
PIB per capita
Renda per capita (Censo)
Indiretamente, a partir da expectativa estadual e
de regiões metropolitanas
A figura 10 mostra como mudou o IDH municipal no Brasil, de 1991 a 2010. Em 1991, a maior
parte dos municípios do Brasil apresentavam IDH muito baixo, com o estado de São Paulo e o Sul
29
do Brasil apresentando municípios de IDH baixo, e apenas algumas regiões metropolitanas com IDH
médio. Já em 2010, o Brasil apresenta municípios em todos os níveis de desenvolvimento,
demonstrando uma forte desigualdade socioeconômica interna.
Figura 10 – Evolução do IDH municipal no Brasil, de 1991 a 2010. Fonte:
https://www.undp.org/pt/brazil/o-que-%C3%A9-o-idhm
Com base nos dados socioeconômicos existentes a nível de censo e da Pesquisa Nacional de
Amostra por Domicílios (PNAD), também têm se desenvolvido métodos para calcular o IDH
intraurbano. A figura 11 mostra o IDH calculado para a Região Metropolitana do Rio de Janeiro.
30
Figura 11 – IDH intra-urbano na Região Metropolitana do Rio de Janeiro. Fonte:
https://1.bp.blogspot.com/-InyoDdC33OA/VHSNEO_fioI/AAAAAAAASps/6yd6pEjJxCk/s1600/IDHM.jpg
Os indicadores de saúde e educação utilizados no IDH variam muito lentamente ao longo dos
anos. Por isso, têm se discutido sobre versões alternativas do IDH que possam ser utilizadas para
avaliar o impacto de curto prazo de políticas públicas. Uma das propostas, apresentada por PNUD
(2010), é de se utilizar a Taxa de Mortalidade Infantil para a dimensão de saúde, e o Índice de
Desenvolvimento da Educação Básica (IDEB) para a dimensão de educação.
2.2.2. Índice de Desenvolvimento Humano – IDH ajustado à desigualdade
Uma das limitações do IDH é que ele não leva em consideração a desigualdade socioeconômica
interna à unidade de análise (pais, no caso da análise nacional). Por exemplo, um país pode ter uma
renda muito alta, mas essa renda estar concentrada em uma pequena parcela da população. Por
esse motivo, as Nações Unidas calculam também uma versão do IDH ajustado à desigualdade, do
modo apresentado pela Figura 12.
31
Figura 12 – Método de cálculo do IDH ajustado à desigualdade. Fonte: UN (2022).
Para fazer o ajuste à desigualdade de cada dimensão, cada índice de dimensão é multiplicado
por um fator I, que penaliza pela desigualdade. Esse fator é calculado pela Equação 6, entendendo
que quanto maior a desigualdade interna, maior será a diferença entre a média geométrica e a média
aritmética dos dados utilizados e, portanto, maior será a penalização pela desigualdade (ATKINSON,
1970; FOSTER et al., 2005).
𝐼𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 à 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑𝑒 =
𝑀é𝑑𝑖𝑎 𝑔𝑒𝑜𝑚é𝑡𝑟𝑖𝑐𝑎
∗𝐼
𝑀é𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎
(Equação 10)
A Figura 13 mostra o mapa comparando o IDH com o IDH ajustado à desigualdade no mundo.
Observa-se que, ao corrigir pela desigualdade socioeconômica, praticamente todos os países se
rebaixam em ao menos um nível de IDH, exceto na América do Norte, Europa, Australia e Nova
Zelândia.
32
Figura 13 – Comparação entre o IDH e o IDH ajustado à desigualdade, para 2021. Fonte: UN
(2022)
2.2.3. Índice de Desenvolvimento Humano – IDH ajustado a desigualdades de gênero
As nações unidas empregam dois índices relacionados ao IDH com modificações para analisar
a desigualdade de gênero. O primeiro, denominado Índice de Desenvolvimento de Gênero - IDG,
consiste na simples divisão entre o IDH calculado para as mulheres e o IDH calculado para os
homens (Equação 11). O mapa da Figura 14 apresenta a distribuição no mundo, demonstrando
que as maiores desigualdades de gênero ocorreriam na África, Oriente Médio e sul da Ásia.
𝐼𝐷𝐺 =
𝐼𝐷𝐻𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜
𝐼𝐷𝐻𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜
(Equação 11)
33
Figura 14 – Índice de Desenvolvimento de Gênero (IDG) com dados de 2019.
Outro índice, denominado Índice de Desigualdade de Gênero, agrega variáveis relacionadas às
dimensões de saúde (Mortalidade maternal e Maternidade na Adolescência), empoderamento social
(porcentagem de parlamentares de cada gênero e população com educação secundária) e trabalho
(participação de cada gênero na força de trabalho). Os índices de cada uma dessas três dimensões
são agregados para cada gênero, por média geométrica, usando a mesma justificativa utilizada para
o cálculo do IDH (Equações 12 e 13). Nota-se, na Equação 12, que o gênero masculino apresenta
pontuação máxima para a dimensão de saúde, visto não estar sob risco de mortalidade maternal ou
de gravidez na adolescência.
34
(Equação 12)
(Equação 13)
Variáveis
•
•
•
•
•
Mortalidade Maternal (MM)
Maternidade de adolescentes (FE)
Porcentagem de parlamentares de cada gênero (PP)
População com educação secundária (ES)
Participação na força de trabalho (PFT)
Por fim, é realizada uma média harmônica entre os valores obtidos para o gênero masculino e
para o gênero feminino (Equação 14). Dessa maneira, avalia-se, por um lado, o desenvolvimento
socioeconômico geral de ambos os gêneros, mas realiza-se uma grande penalidade a esse índice
caso haja desigualdade entre os gêneros de homens e mulheres. É possível realizar a média
harmônica para cada dimensão, ou então para o índice como um todo. O mapa da Figura 15
apresenta a espacialização desse índice em escala mundial.
𝐼𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑𝑒 𝑑𝑒 𝑔ê𝑛𝑟𝑜 =
2
1
1
𝐺𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 + 𝐺𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜
(Equação 14)
Figura 15 – Mapa do Índice de Desigualdade de Gênero. Fonte:
https://ourworldindata.org/grapher/gender-inequality-index-from-the-human-development-report
35
Referências
Anand, S., and A. Sen. 2000. “The Income Component of the Human Development Index.” Journal
of Human Development and Capabilities (1)1: 83–106.
Atkinson, A. 1970. “On the Measurement of Economic Inequality.” Journal of Economic Theory 2(3):
244–263.
Foster, J., L. Lopez-Calva and M. Szekely. 2005. “Measuring the Distribution of Human
Development: Methodology and an Application in Mexico.” Journal of Human Development and
Capabilities 6(1): 5–25.
IPEA, FJP, PNUD. Aspectos metodológicos para o cálculo do Índice de Desenvolvimento Humano
Municipal. Nota técnica 01/2022. Radar IDHM.
PNUD. Valores e Desenvolvimento Humano 2010 Brasília. 2010.
UN. Human development report. 2021/2022
VEIGA, José Eli. Para entender o desenvolvimento sustentável. Editora 34, 2015
36
Capítulo 3 – Indicadores ambientais
O foco deste terceiro capítulo é apresentar as principais abordagens de construção,
monitoramento e interpretação de indicadores relacionados ao meio ambiente e ao desenvolvimento
sustentável.
3.1.
Pressão – Estado - Resposta
A OECD (Organization for the Co-operation and Development) (1994) em seu programa de
monitoramento de indicadores ambientais dos países membros, propôs, um modelo conceitual de
organização de indicadores denominado Pressão-Estado-Resposta (Figura 1). De acordo com esse
modelo, a sociedade exerce pressão sobre o meio ambiente, seja pela poluição ou pelo uso de
recursos naturais, e essa pressão pode ser monitorada por indicadores específicos. Em
consequência dessas pressões, a qualidade do meio ambiente se altera e, portanto, podem ser
selecionados indicadores para monitorar essas alterações. Por fim, em face do reconhecimento da
degradação do meio ambiente, a sociedade pode decidir atuar sobre as atividades que pressionam
o meio ambiente, de forma a mitigar ou compensar os impactos ambientais.
Figura 1 – Modelo de indicadores de Pressão – Estado – Resposta.
Posteriormente, a OECD (1998) ampliou o modelo de Pressão – Estado – Resposta, na
forma do modelo Força Motriz – Pressão – Estado – Impacto – Resposta (Figura 2). As Forças
Motrizes (drivers of change) se refeririam aos processos e demandas socioeconômicos mais gerais,
que, por sua vez, causariam as Pressões propriamente ditas, que seriam as atividades impactantes
no meio ambiente. As mudanças na qualidade do meio ambiente (Estado) causariam os Impactos
37
na sociedade, como problemas de saúde e demais prejuízos socioeconômicos, e esses impactos
também poderiam ser monitorados por indicadores. Outra alteração conceitual é que as respostas
passam a poder alterar todos os outros demais aspectos, e não só as pressões.
Figura 2 – Modelo conceitual de Força Motriz – Pressão – Estado – Impacto – Resposta. Adaptado
de Lima et al. (2017).
Uma abordagem importante para o monitoramento ambiental é a de Serviços Ecossistêmicos
definida por Constanza et al. (1997) como os benefícios para a população humana que derivam,
direta ou indiretamente, das funções ecossistêmicas. Os serviços ecossistêmicos incluem tanto os
serviços quanto os recursos naturais em si (bens), e abarcariam tanto os ecossistemas nativos
quanto os já modificados pelo ser humano, como os ecossistemas agrícolas e urbanos. Os
indicadores para avaliação dos serviços ecossistêmicos seriam divididos entre as categorias de
provisão (consumo de recursos naturais), regulação (manutenção da qualidade do ambiente),
culturais (incluindo relações com lazer, religião e educação), e de suporte (manutenção dos demais
serviços, de forma indireta) (Figura 3).
38
Figura 3 – Categorias de serviços ecossistêmicos, com exemplos para cada categoria. Adaptado
de UN (2003).
Integrando a abordagem de Força Motriz – Pressão – Estado – Impacto – Resposta com a
abordagem de serviços ecossistêmicos, a organização das Nações Unidas (UM, 2003) propôs um
esquema de avaliação e monitoramento ambiental, apresentado na Figura 4. Nesse esquema, a
Pressão seria denominada de “Fatores diretos de mudança”, ao passo que as forças motrizes seriam
os “Fatores indiretos de mudança”. O estado do meio ambiente seria avaliado pelos serviços
ecossistêmicos, e o impacto seria avaliado por indicadores de bem-estar e qualidade de vida. Esse
monitoramento poderia ser realizado em diversas escalas, como global, regional ou local.
39
Figura 4 – Sistemas de avaliação e monitoramento ambiental proposto por UN (2003).
3.2.
Indicadores de Desenvolvimento Sustentável
Os programas das Nações Unidas de monitoramento de indicadores relacionados a questões
ambientais e ao desenvolvimento sustentável se iniciaram a partir da Agenda 21, proposta na
conferência ECO-92, em 1992, no Rio de Janeiro. A composição de indicadores escolhidos, e suas
vinculações com questões ambientais, sociais, econômicas e de governança mudaram ao longo do
tempo (Figura 5), passando pelos indicadores dos Objetivos do Milênio (2002-2015) e dos Objetivos
de Desenvolvimento Sustentável (2015 em diante). No decorrer das décadas, nota-se que os
indicadores abarcaram cada vez mais aspectos sociais, econômicos e de governança, na medida
que o conceito de sustentabilidade foi ganhando conotação mais abrangente, e deixou te ser apenas
restrito ao movimento ambientalista. A escolha de quais índices seriam utilizados também e jogo de
uma intensa negociação, com interesses de cada setor representado nas conferências e grupos de
trabalho das Nações Unidas.
40
Figura 5 – Composição do conjunto de indicadores para monitoramento do desenvolvimento
sustentável, ao longo das décadas. A proposta de objetivos de desenvolvimento sustentável (ODS)
feita inicialmente em 2007, foi modificada e consolidada em 2015. Fonte: Diaz‐Sarachaga et al.
(2018).
O programa dos Objetivos de Desenvolvimento dos Milênio (2002-2015) apresentou apenas 8
objetivos (Figura 6), e por serem poucos indicadores, apresenta um contexto interessante para refletir
sobre as estratégias de seleção de indicadores. O Brasi atingiu 7 dos objetivos, menos o relacionado
à diminuição da mortalidade materna. Analisando os demais países do mundo, a maior parte dos
indicadores sociais, econômicos e de governança apresentaram avanças, mas os indicadores
ambientais sofreram retrocessos. Por exemplo, houve um aumento da emissão de gases de efeito
estufa (Figura 7), praticamente toda ocorrida nos países em desenvolvimento, ao passo que os
países desenvolvidos mantiveram suas emissões altas, mas estáveis. O Brasil, do contrário, ao
diminuir a taxa de desmatamento da Amazônia, conseguiu diminuir suas emissões.
41
Figura 6 – Objetivos do Milênio
Figura 7 – Emissões de dióxido de carbono em 1990, 2000 e 2012 (mil milhões de toneladas
métricas). Fonte: ONU (2015)
42
Outro objetivo do milênio que apresentou piora em níveis globais foi o de estoques pesqueiros,
com um declínio ao longo de todo o período (Figura 8). A Figura 8 também mostra o volume de
pescado, que se estagnou a partir de 1990, também indicando que as atividades de pesca teriam
chegado no limite da reprodução dos estoques pesqueiros. Na Figura 9, é possível perceber que a
porcentagem de reservas sobre exploradas continua aumentando até os dias atuais, e a situação é
ainda mais crítica no Atlântico Sudoeste, onde fica a costa brasileira.
Figura 8 – Proporção de reservas pesqueiras dentro dos seus limites biológicos seguros, 19742011 (Percentagem) e capturas de peixe, 1970-2013 (milhões de toneladas). Fonte: ONU (2015)
Figura 9 – Porcentagem de estoques pesqueiros sobre explorados. Fonte:
https://ourworldindata.org/grapher/share-of-fish-stocks-overexploited?time=1974..2017&country=OWID_WRL~Southwest+Atlantic+%28FAO%29
43
Um dos únicos indicadores ambientais que atingiu a meta em termos globais foi a redução das
emissões de gases que destroem a camada de ozônio. Esse indicador já vinha em queda desde
1989, quando foi assinado o acordo internacional de Montreal para redução dessas emissões (Figura
10). Porém, é interessante refletir por que é que foi escolhido o indicador na forma de emissões
(indicador de pressão) e não o indicador do tamanho do buraco na camada de ozônio (indicador de
estado) (Figura 11). Após a diminuição da emissão dos gases abarcados pelo Protocolo de Montreal,
o buraco na camada de ozônio parou de aumentar, porém não retornou mais aos valores anteriores.
Há uma discussão atual se esse impacto ambiental seria irreversível na escala de tempo humana,
ou então se há um problema no monitoramento do indicador de emissão de gases, seja por
imprecisão do monitoramento pelos países, ou seja pelas emissões de novos gases não cobertos
pelo protocolo de Montreal, sobre os quais ainda não haja pesquisa sobre seus efeitos na camada
de ozônio.
Figura 10 – Emissões totais e naturais de gases que destroem a camada de ozônio. Fonte: Ritchie
e Roser (2023).
44
Figura 11 – Tamanho do buraco na camada de ozônio na Antártida. A linha tracejada em vermelha
indicada o tamanho do buraco em 2021. Fonte: NASA Earth Observatory (2021)
Outro indicador em que houve melhora de desempenho foi o de áreas protegidas, especialmente
na América Latina (Figura 12). Nesse aspecto, a própria dinâmica do indicador apresenta algo que
sempre cresce, e que dificilmente se reduziria. Além disso, há que se pensar por que é que foi
escolhido o indicador de áreas protegidas (dimensão de resposta) e não o de área total de vegetação
nativa. Conforme mostra a Figura 13, a área de florestas nativas no mundo tem se reduzido
progressivamente, e especialmente no Brasil, a despeito do aumento da área de unidades de
conservação. A escolha do indicador de áreas de florestas nativas da Figura 13, que é um indicador
atualmente utilizado no monitoramento dos Objetivos de Desenvolvimento Sustentável (ODS),
também pode ser questionada, por não levar em consideração os demais ecossistemas nativos nãoflorestais, como o cerrado e os campos nativos. Do ponto de vista metodológico, é mais simples
monitorar o desmatamento de florestas por meio de sensoriamento remoto, ao passo de que é difícil
diferenciar, em uma imagem de satélite, uma área campestre nativa e uma área campestre antrópica.
Visto de outro modo, a opinião pública também em geral dá mais atenção aos ecossistemas florestais
do que aos não-florestais. Enfim, a falta de monitoramento dos ecossistemas não-florestais torna
esses ecossistemas “invisíveis”, ou seja, sua situação escapa aos olhos do público, dificulta-se a sua
fiscalização, e deixam de ser alvo de metas de políticas públicas.
45
Figura 12 – Porcentagem de áreas terrestres protegidas entre 1990, 2000 e 2014. Fonte: ONU (2015)
Figura 13 – Porcentagem de florestas na área terrestre. Exclui silvicultura e áreas verdes urbanas.
Fonte: https://ourworldindata.org/grapher/forest-area-as-share-of-land-area?tab=chart&country=OWID_WRL~BRA
46
Dentre os indicadores sociais, um indicador em que houve algumas melhorais, mas não se
conseguiu atender as metas globais, é de saneamento básico. Conforme mostra a Figura 14, as
metas foram quase atingidas pelos países desenvolvidos e por parte dos países em
desenvolvimento. A principal causa de não se atingir a meta global foi a dificuldade de investimento
em saneamento para os países mais pobres, localizados na África Subsaariana, Oceania e Sul da
Ásia. Nesse aspecto, também cabe a reflexão de porque é que se escolhei o indicador de
saneamento básico (que se restringe à coleta do esgoto) e não ao tratamento do esgoto.
Primeiramente, pode-se pensar que a coleta de esgoto exige um investimento menor que o
tratamento e, portanto, seria um indicador mais facilmente alcançável, especialmente para os países
mais pobres. Um outro aspecto, é que a coleta de esgoto já ocasiona uma queda considerável na
ocorrência de doenças de veiculação hídrica, embora a descarga do esgoto concentrado cause um
impacto ambiental maior nos ecossistemas aquáticos nos corpos hídricos. Desse modo, a escolha
do indicador aponta uma maior preocupação com a saúde dos seres humanos do que em relação à
dos demais seres vivos. As Figuras 15 e 16 mostram os dados atualizados desses indicadores
(esgotamento sanitário e tratamento de efluentes) no mundo e em diferentes países. Observa-se que
o Brasil, embora apresente altos valores no esgotamento sanitário, priorizou menos o tratamento de
esgoto, até se tornar abaixo da média mundial, ao passo que outros países em desenvolvimento,
com o China e Índia, têm investido mais no tratamento de esgoto.
Figura 14 – Proporção da população que utiliza uma estrutura de saneamento básica, 1990 e 2015
(%). Fonte: ONU (2015)
47
Figura 15 – Porcentagem de acesso a esgotamento sanitário básico, 2000 a 2021. Fonte:
https://ourworldindata.org/explorers/water-and-sanitation
Figura 16 – Porcentagem de acesso a esgotamento sanitário seguro (tratamento de esgoto), 2000
a 2021. Fonte: Fonte: https://ourworldindata.org/explorers/water-and-sanitation
48
Em 2015, ao terminar o período dos Objetivos do Milênio, foi acordado o novo sistema de metas
e indicadores, dos Objetivos de Desenvolvimento Sustentável (ODS) (Figura 17), a ser seguido até
2030. Comparando com o programa de Objetivos do Milênio, aumentou o número de objetivos, e
dentro de cada objetivo aumentou ainda muito mais o número de indicadores utilizados, com suas
respectivas metas. Por um lado, isso levantou críticas, de que seria difícil focar em “bandeiras” para
que os países assumissem os compromissos para cumprir as metas. Por outro lado, a justificativa
para ampliação dos indicadores e metas era ampliar a discussão sobre o desenvolvimento
sustentável em diversas áreas de políticas públicas, e assim ter uma visão mais abrangente sobre a
situação da sociedade e do ambiente, bem como do que precisa ser feito para alcançar a
sustentabilidade.
Figura 17 – Objetivos de Desenvolvimento Sustentável (ODS).
Um dos indicadores utilizados para monitoramento da dimensão “Vida na Terra” é o de % de áreas
importantes para a biodiversidade que estão protegidas. Para a construção desse indicador, há um
levantamento global de áreas prioritárias para preservação, e então se computa, para cada país,
qual é a porcentagem dessas áreas que estão protegidas na forma de unidades de conservação.
49
Observa-se, no gráfico da Figura 18, que apesar de haver um avanço geral no mundo, no Brasil esse
indicador melhorou menos, e hoje o Brasil encontra-se dentro da média mundial, ao passo que a
Europa se encontra com alto valor nesse indicador. Aqui caberia a reflexão, sobre porque se não se
escolheu calcular esse indicador baseado nas áreas de importante biodiversidade protegidas em
relação à área total de terra. Afinal, na Europa, a maior parte dos ecossistemas nativos já foi destruída
a muitos séculos, e então é relativamente mais fácil proteger os poucos ecossistemas nativos que
ainda restam, pontuando bem nesse indicador. Já para o Brasi, com uma grande extensão de áreas
relevantes do ponto de vista ambiental, se torna relativamente mais oneroso ampliar as unidades de
conservação sobre todas as áreas protegidas. Conforme se vê no mapa da Figura 19, também há
vários países na África com alto índice de conservação nesse indicador. Em muitos desses países,
apesar de terem sido criadas extensas unidades de conservação, no momento de sua independência
a décadas atrás, a intercorrência de guerras civis e crises econômico-humanitárias dificultou muito a
efetiva conservação de várias dessas áreas de importante biodiversidade.
Figura 18 – Porcentagem de áreas de importante biodiversidade que estão protegidas, 2000 a 2021.
Fonte: https://ourworldindata.org/grapher/protected-terrestrial-biodiversity-sites
50
Figura 19 – Mapa da porcentagem de áreas de importante biodiversidade que estão protegidas,
2021.Fonte: https://ourworldindata.org/grapher/protected-terrestrial-biodiversity-sites
Uma contraparte da proteção de áreas de importante biodiversidade, agora na dimensão do ODS
de vida nas águas, é a da porcentagem de áreas de importante biodiversidade de água doce que
estão protegidas (Figura 20). Nesse indicador, houve uma relativa melhoria no mundo, ao longo das
décadas, mas não no Brasil. De fato, diferentemente de outros países, o Brasil não incluiu como foco
de suas políticas ambientais a criação de áreas de conservação voltadas para ambientes aquáticos,
inclusive com poucas referências a isso nas leis de sistemas nacionais e estaduais de unidade de
conservação. Novamente, cabe a reflexão sobre a extensão das áreas protegidas em diferentes
países, causando o mesmo efeito de facilidade de alcançar esse indicador em países que
apresentam poucas áreas de relevante biodiversidade aquática, como na Europa.
51
Figura 20 – Porcentagem de áreas de importante biodiversidade de água doce que estão protegidas,
2000 a 2021. Fonte: https://ourworldindata.org/grapher/proportion-of-important-sites-for-freshwaterbiodiversity-covered-by-protected-areas
O programa de ODS da ONU mantém um Índice dos Objetivos de Desenvolvimento Sustentável,
que expressa, conceitualmente, em que medida cada país está atingindo ou não os ODS (Figura 21).
Para construção desse índice, utiliza-se o escalonamento de cada indicador entre 0 e 100, em que
100 significa que a meta foi atingida. Devido a grande quantidade de indicadores, alguns com metas
mais objetivas que outros, e com muitos dados faltantes para alguns países, há diversos desafios
metodológicos para o cálculo desse índice. Um aspecto interessante desse índice é que é também
calculado um modificador de “transbordamento” (spillover), que leva em consideração os impactos
socioambientais que um país causa nos demais países do mundo, como em virtude do consumo de
recursos naturais e importação de produtos com potencial poluidor em sua cadeia de produção
(Figura 22). Como mostra o gráfico da Figura 23 existe uma relação entre o PIB per capita e o efeito
de transbordamento, como, por exemplo, na Suíça, em que 30% do seu impacto ambiental ocorreria
dentro do país, e 70% ocorreria em outros países. Conforme o gráfico da Figura 24, o atendimento
global (ponderado pela população) das metas dos ODS, calculado pelo Índice dos Objetivos de
Desenvolvimento Sustentável, cresceu de 61% para 66% de 2010 até 2019, mas depois se estagnou,
52
muito em decorrência dos impactos socioeconômicos da pandemia de coronavírus. A inclinação da
reta desse gráfico (Figura 23) deve ser interpretada com cuidado, pois o eixo vertical apresenta a
variação apenas entre 61 e 67%.
Figura 21 – Mapa do Índice de Objetivos de Desenvolvimento Sustentável. Fonte: Sachs et al. (2022)
Figura 22 – Efeito do transbordamento (spillover) do impacto ambiental, utilizado para modificar o
Índice de Objetivos de Desenvolvimento Sustentável. O valor apresentado seria o percentual do
impacto que ocorre dentro do país, em relação ao impacto ambiental causado fora do país. Fonte:
Sachs et al. (2022)
53
Figura 23 – Transbordamento (spillover) de impactos ambientais vs. PIB per capita ajustado por
paridade do poder de compra. Fonte: Sachs et al. (2018)
Figura 24 – Variação no Índice de Objetivos de Desenvolvimento Sustentável, expresso como %
das metas atendidas, ponderada pela população, de 2010 a 2021. Fonte: Sachs et al. (2022).
Em 2021, o Brasil encontra-se em 53º lugar no ranking dos 163 países em relação ao atingimento
das metas dos objetivos de desenvolvimento sustentável (Sachs et al., 2022). Isso corresponde a
54
um atendimento de 76,8% das metas dos ODS, calculado pelo Índice dos ODS (Sachs et al., 2022),
e comparado a uma média regional de 72,8% de alcance nos países da América Latina. Todavia, a
decomposição desse índice nos diferentes indicadores no Brasil (Figura 25) mostra que alguns deles
ainda apresentam grandes desafios, especialmente em relação à desigualdade socioeconômica. A
ONU também fornece um painel de indicadores (Figura 26), como uma maneira de visualizar os
desafios e tendências de cada indicador para cada país. Nesse caso, evidencia-se como os maiores
desafios em relação aos ODS, no Brasil, além das desigualdades socioeconômicas que estão
aumentando, estão relacionados aos objetivos de “Trabalho Descente e Crescimento Econômico”,
“Vida na Água”, “Vida na Terra” e “Paz, Justiça e Instituições Eficazes”, e os indicadores referentes
aos três primeiros objetivos encontram-se em estagnação, não apresentando tendência de melhoria.
1. Erradicação da pobreza
2. Fome zero e agricultura sustentável
3. Saúde e bem-estar
4. Educação de qualidade
5. Igualdade de gênero
6. Água limpa e saneamento
7. Energia limpa e acessível
8. Trabalho de decente e crescimento econômico
9. Inovação e infraestrutura
10. Redução das desigualdades
11. Cidades e comunidades sustentáveis
12. Consumo e produção responsáveis
13. Ação contra a mudança global do clima
14. Vida na água
15. Vida terrestre
16. Paz, justiça e instituições eficazes
17. Parcerias e meios de implementação
Figura 25 – Decomposição do Índice de ODS, mostrando o porcentual de atingimento das metas
no Brasil, para 2021. Fonte: Sachs et al. (2022).
55
Figura 26 – Painel de indicadores de Objetivos de Desenvolvimento Sustentável, para o Brasil,
referente a 2021. Fonte: https://dashboards.sdgindex.org/profiles/brazil
Referências
Diaz‐Sarachaga, J. M., Jato‐Espino, D., & Castro‐Fresno, D. (2018). Is the Sustainable
Development Goals (SDG) index an adequate framework to measure the progress of the 2030
Agenda? Sustainable Development, 26(6), 663-671.
Lima, V. M., Costa, S. M. F. D., & Ribeiro, H. (2017). Uma contribuição da metodologia Peir para o
estudo de uma pequena cidade na Amazônia: Ponta de Pedras, Pará. Saúde e sociedade, 26,
1071-1086.
NASA Earth Observatory. Substantial Antarctic Ozone Hole in 2021.
https://earthobservatory.nasa.gov/images/149010/substantial-antarctic-ozone-hole-in-2021
OECD (Organization for Economic Co-Operation and Development). Environmental Indicators.
Paris, 1994.
OECD (Organization for Economic Co-Operation and Development). Towards sustainable
development: environmental indicators. Paris, 1998
Ritchie, H.; Roser, M. Ozone Layer. World Bank: our world in data. 2023.
https://ourworldindata.org/ozone-layer
56
Sachs, J., Schmidt-Traub, G., Kroll, C., Lafortune, G., Fuller, G. (2018): SDG Index and Dashboards
Report 2018. New York: Bertelsmann Stiftung and Sustainable Development Solutions Network
(SDSN).
Sachs, Jeffrey, Christian Kroll, Guillame Lafortune, Grayson Fuller, and Finn Woelm. Sustainable
development report 2022. Cambridge University Press, 2022.
ONU. Relatório Sobre os Objetivos de Desenvolvimento do Milénio. 2015.
UN. MEA. Millennium Ecosystem Assessment. Ecosystems and Human Well-being: A Framework
for Assessment (Island Press, 2003).
57
Capítulo 4 – Construção de indicadores
O foco deste quarto capítulo é apresentar possibilidades metodológicas de construção de
indicadores reflexivos e formativos, bem como discutir possibilidades de visualização espacial.
4.1.
Indicadores reflexivos: redução de dimensionalidade
O objetivo das técnicas de redução de dimensionalidade é criar indicadores (usualmente
chamados de “componentes) que sintetizem o comportamento de um conjunto bem maior de
variáveis. Ou seja, cada variável é considerada como uma “dimensão”, e os indicadores procuram
explicar o máximo possível desses padrões dos dados, em um número reduzido de “dimensões”.
Pensando de um ponto de vista prático, caso o pesquisador tenha uma tabela de dados, em que
cada coluna seja uma variável, e cada linha seja uma observação na unidade de análise (município,
habitante, setor censitário, etc.); então, após aplicar uma técnica de redução de dimensionalidade,
seriam criadas algumas colunas a mais nessa tabela, com os novos indicadores construídos a partir
da técnica escolhida.
Existem várias técnicas de redução de dimensionalidade. Nesta apostila, vamos focar na técnica
de Análise de Componentes Principais, por ser a técnica mais frequentemente utilizada, mais
disponível em diversos programas de computador, e ser de mais fácil aprendizagem. Alguns autores
recomendam que a Análise de Componentes Principais é mais adequada em contextos em que os
dados seguem uma distribuição normal (maior parte dos dados próximos à média, com poucos
valores extremos), e caso isso não ocorra, existem outras técnicas, como “Análise de Componentes
Independentes” e “Multidimensional Scalling”. Além disso, ela é mais adequada para dados
numéricos escalares, portanto, caso os dados sejam ordinais (1º, 2º, 3º, etc...) então há outras
técnicas mais adequadas, como “Non-metric (Ordinal) Multidimensional Scalling”. Caso haja valores
extremos, existem versões de Análise Componentes Principais com métodos robustos, que são
menos afetados por esses valores extremos. E sempre há a possibilidade de efetuar alguma
transformação matemática das variáveis (logaritmo, raiz quadrada, etc.) que a aproxime de uma
distribuição normal ou reduza o efeito de valores extremos, como visto no capítulo 2 dessa apostila,
antes de se realizar a técnica de redução de dimensionalidade. Além disso, se há dados categóricos
(classes, etc.), há a possibilidade de utilizar a transformação de Distância de Gower (1971), para
converter essas classes em números, antes de utilizar as técnicas de redução de dimensionalidade.
As opções acima procuram sempre relações lineares entre os dados de entrada, mas caso haja
relações não lineares (curvas, por exemplo), então técnicas como Análise de Componentes
58
Principais Não-Lineares (PRINCALS) e Análise de Componentes Principais de Kernel também
podem ser utilizadas.
A Análise de Componentes Principais procura gerar, sequencialmente (um a um), componentes
(indicadores) que capturem ao máximo as tendências dos dados de entrada, usando relações
lineares entre os dados. Visualmente, caso tenhamos apenas 2 variáveis, podemos visualizar essa
atribuição sequencial dos componentes da Figura 1-A. Note que, na Análise de Componentes
principais, cada novo componente é sempre perpendicular (ângulo de 90º) em relação ao
componente anterior. Além disso, a Análise de Componentes Principais gera um número máximo de
componentes iguais ao número de variáveis de entrada, sendo 2 componentes, no exemplo da Figura
1. Após a identificação dos eixos de tendência de cada componente, o gráfico (espaço dos atributos)
é então rotacionado (Figura 1-B), para que os componentes identificados coincidam com os eixos
horizontal e vertical, e assim sejam atribuídos novos valores a cada ponto identificado no gráfico
rotacionado.
Figuras 1-a e 1-b – A: Identificação dos componentes principais das variáveis A e B, equivalendo aos
eixos de melhor explicação das tendências lineares entre essas variáveis. B: Rotação do gráfico
(espaço de atributos), de forma a calcular os valores dos casos (pontos) de acordo com os
componentes 1 e 2, que passam a ser os eixos horizontal e vertical do gráfico, respectivamente.
Adaptado de: https://youtu.be/_UVHneBUBW0
A identificação de componentes para conjuntos de três variáveis de entrada segue o mesmo
raciocínio, mas em vez de representar em um gráfico, é preciso representar em um cubo (Figuras 2
e 3-A). Note que, por haver 3 dimensões, é possível delimitar uma 3ª componente no espaço
tridimensional. Em seguida, os eixos de cada dupla de componentes é identificado na forma de um
plano no espaço tridimensional, e pode ser então rotacionado tridimensionalmente para a
visualização do gráfico de componentes e cálculo dos seus valores (Figura 3-B). Caso haja mais
59
variáveis, o algoritmo de Análise de Componentes Principais segue o mesmo procedimento dos
exemplos de 2 e 3 variáveis, porém é mais complexo de representar visualmente em gráficos.
Figura 2 – Componentes principais identificados em um gráfico tridimensional de 3 variáveis. Fonte:
https://www.joyofdata.de/blog/illustration-of-principal-component-analysis-pca/
60
Figuras 3-a e 3-b: A: Identificação de componentes principais em um gráfico tridimensional de 3
variáveis. B: Identificação de um plano entre os eixos dos componentes 1 e 2, para posterior rotação
e cálculo dos valores de cada componente. Adaptado de: https://youtu.be/_UVHneBUBW0
Após o cálculo das componentes principais, é possível visualizar, em uma tabela, qual é a sua
relação com cada uma das variáveis que foram usadas para sua construção (Tabela 1). Assim, é
possível saber se a relação é direta (positiva) ou inversa (negativa), e qual é o grau de relação com
cada variável. Nesse momento, a partir da análise conjunta das relações entre componentes e
variáveis de entrada, possível interpretar qual deve ser o significado, conceitualmente, de cada
componente no contexto estudado. Com isso, podem ser atribuídos nomes interpretáveis para cada
componentes, transformando-os em indicadores. Os componentes principais que não fizerem
sentido conceitualmente não devem ser utilizados como indicadores.
61
Tabela 1 – Exemplo de relações entre componentes principais (colunas) e variáveis de entrada
(linhas) relacionadas ao contexto de potencial de novos investimentos em centros comerciais de
Londres. Os valores próximos a 1 apresentam relações diretas mais intensas, e próximos a -1,
relações inversas mais intensas. Valores próximos a 0 (zero) indicam ausência de relação.
Adaptado de Weber e Chapman (2011).
Outra informação importante, obtida da análise de componentes principais, é a porcentagem que
cada componente explica em relação às variáveis originais (Tabela 2). O primeiro componente
sempre possui uma maior porcentagem, que vai de decrescendo, em relação aos demais
componentes. Usualmente também é fornecido um percentual de explicação cumulativa, informando
o quanto dos dados são explicados, caso sejam selecionados todos os indicadores até uma certa
ordem. Em geral, os primeiros componentes, com maior porcentual de explicação, são os que
também fazem mais sentido conceitualmente, enquanto os últimos componentes apresentam menor
relação com as variáveis, e representariam o “ruído” não interpretável dos dados, sendo excluídos
na seleção de indicadores.
62
Tabela 2 – Exemplo de % explicada de componentes principais (já com nomes interpretáveis
atribuídos) sobre as variáveis relacionadas ao contexto do potencial de investimento em centros
comerciais em Londres. Adaptado de Weber e Chapman (2011).
Uma prática não aconselhável e muito criticada (Mondal et al., 2017; Mazziotta; Pareto, 2019),
mas que é encontrada em diversos estudos, é utilizar o percentual de explicação de cada
componente (como o apresentado na Tabela 2) para atribuir pesos usados na construção de índices
integrados que agreguem mais de uma componente principal, seja em estratégias de agregação
reflexivas (como uma média ponderada, por exemplo) ou somativas (soma ponderada de
indicadores, por exemplo). Do ponto de vista matemático, tal prática é pouco útil, pois se pegarmos
todas as componentes principais e calcularmos uma média ponderada a partir de seu percentual de
explicação, o resultado seria equivalente a fazermos uma média simples das variáveis de entrada
(devidamente padronizadas antes do cálculo da média). Além disso, do ponto de vista conceitual,
deve-se procurar qual é o nível de importância de cada indicador (componente principal) dentro do
contexto de estudo. Por exemplo, no estudo de Weber e Chapman (2011), exemplificado nas Tabelas
1 e 2, em seguida os investidores escolheram o peso que dariam a cada indicador (componente
principal) em vista ao seu uso para procurar os centros de comércio mais adequados para cada perfil
de novos investimentos em Londres. A maior parte das vezes, o porcentual explicado equivale às
dimensões em que há maior disponibilidade de variáveis de entrada, e não necessariamente em
relação à importância para o contexto de estudo. Por exemplo, se em uma região há uma grande
disponibilidade de dados socioeconômicos e poucos dados ambientais, então as componentes
principais vão refletir sua porcentagem de explicação para os dados socioeconômicos. Em último
caso, se os pesquisadores concluírem pela inviabilidade de ponderar cada componente principal em
relação ao contexto estudado, é mais sincero atribuir o mesmo peso para cada uma das
componentes principais que faça “sentido” conceitualmente.
63
4.2.
Modelagem multicritério.
A Modelagem Multicritério pode ser definida como um conjunto de técnicas que para construir
índices a partir de um conjunto de indicadores. Embora a forma mais simples é atribuir o mesmo
peso para indicadores, em geral o termo “modelagem multicritério” abrange diversos procedimentos
para ponderar esses indicadores na etapa de construção de índices. Essas ponderações, em cada
contexto, podem corresponder à mensuração ou à estimativa de importância, influência, satisfação
ou custo-benefício (trade-off). Quando os dados estão distribuídos no espaço, a modelagem
multicritério permite que a integração dos indicadores ocorra para cada unidade de análise na área
estudada, como mostrado nas figuras 4 e 5.
Figura 4 – Atribuição de pesos diferentes para cada camada espacial de informação, e soma
ponderada por modelagem multicritério.
Fonte: https://www.gisandbeers.com/como-realizar-un-analisis-multicriterio-sig/
Figura 5 – Exemplo de álgebra raster utilizada em modelagem multicritério, em que a operação de
agregação (neste exemplo, de soma) é aplicada a cada pixel (quadrícula) no mapa. Fonte:
https://www.gisandbeers.com/como-realizar-un-analisis-multicriterio-sig/
64
Uma das maneiras mais simples de realizar a ponderação de indicadores é pedir para um conjunto
de convidados (especialistas, moradores, ou outros atores interessados ou experientes) para votar
em qual dos indicadores seria mais relevante. Assim, é possível criar um indicador com a soma dos
votos em cada indicador. Uma das limitações desse método é que ele informa apenas o indicador
mais preferido de cada participante, e não a ordem de preferência do participante entre todos os
indicadores.
Uma alternativa mais informativa é pedir para cada convidado ranquear os indicadores, em sua
ordem de preferência. A partir disso, é possível construir um indicador a partir da média dos rankings
realizados. No ranqueamento, assim como nas demais técnicas que mostraremos a seguir, além da
média do valor dado por cada participante, também é possível calcular o desvio padrão (Equação 1),
que é “a médias dos desvios em relação à média dos dados” (grau de dispersão), e que pode ser
utilizado como um índice de incerteza/discordância entre os convidados. O ranqueamento é mais
informativo que a votação simples, mas ainda possui uma limitação, de que a “diferença” relativa
entre dois indicadores podem não ser a mesma ao longo da ordenação. Por exemplo, a diferença de
importância entre o 1º e o 2º indicador, para um candidato, não é necessariamente a mesma que
entre o 2º e o 3º.
∑(𝑥𝑖 − 𝑚é𝑑𝑖𝑎(𝑥))2
𝑑𝑒𝑠𝑣𝑖𝑜𝑝𝑎𝑑𝑟ã𝑜(𝑋) = √
𝑁
(Equação 1)
Uma terceira possibilidade é pedir para os participantes atribuírem pesos de acordo com a
importância de cada indicador (por exemplo, de 1 para menos importante a 10 para mais importante),
e depois calcular a média e desvio padrão de cada indicador. Nesses casos, sempre que possível, é
importante usar critérios de referência para os pesos, especialmente os extremos (por exemplo: “1
significa .....”, “10 significa.....”). Especialmente nos casos em que não são colocadas essas
referências, pode acontecer de alguns participantes atribuírem todos os pesos muito altos, enquanto
outros coloquem todos os pesos muito baixos. O mesmo pode acontecer em relação dispersão, em
que alguns participantes podem colocar todos os pesos muito semelhantes, enquanto outros
participantes podem colocar todos os pesos muito diferentes entre si. Uma maneira de tentar diminuir
os problemas referentes à essas diferenças entre os participantes é reescalar os dados de cada
participante entre 0 (mínimo atribuído pelo participante) e 1 (máximo atribuído pelo participante),
como já vimos no Capítulo 2 desta apostila.
65
4.2.1. Modelagem de influência entre indicadores
Uma área relevante para a análise de indicadores, antes de sua integração, é o grau de influência
dos indicadores entre si. Uma das técnicas mais utilizada para isso é a MicMac (Matriz de impactos
cruzados com multiplicação aplicada à classificação). Inicialmente, constrói-se uma matriz cruzada,
em que os indicadores são dispostos na mesma ordem tanto nas linhas quanto nas colunas (Tabela
3). As linhas correspondem aos indicadores influenciadores, e as colunas correspondem aos
indicadores influenciados. Cada célula da matriz indicará o grau de influência do respectivo indicador
influenciador (linha) sobre o indicador influenciado (coluna), com grau de 0 (nenhuma influência) a 3
(muita influência). A célula correspondente ao cruzamento de um indicador consigo próprio recebe
sempre valor 0 (zero). A soma das linhas corresponde ao nível total de influência de cada indicador,
e a soma das colunas corresponde ao nível total de dependência (ser influenciado) de cada indicador.
Esses valores de influência e dependência correspondem às relações de primeira ordem.
Tabela 4 – Matriz cruzada de influência entre indicadores. Adaptado de Godet (2001)
Entendendo que essas relações formam uma rede, é possível construir um diagrama de redes,
mostrando as relações entre os indicadores (Figura 6). Se somarmos não apenas as linhas que
partem ou chegam de cada indicador, mas também as que chegam e partem dos vizinhos, chegamos
em uma relação de 2ª ordem, e calcular novos valores de influência e dependência para cada
indicador. Podemos aumentar a ordem da análise indefinidamente, embora, a partir de uma certa
ordem, esses valores tendem a se estabilizar, e indicar os valores de influência e dependência mais
“abrangentes” e “coerentes”.
66
É importante observar, no exemplo da Figura 6, que o tamanho dos círculos e a espessura das
linhas não expressa a importância (impacto) de cada indicador para tomada de decisão, mas apenas
a suas influências sobre os demais indicadores. No contexto específico da Figura 6, que é a dos
riscos globais levantados pelos participantes do Fórum Econômico Mundial, os impactos e a sua
respectiva probabilidade de acontecimento estão informados na Figura 7. Analisando as duas figuras
de maneira integrada, entende-se que os impactos ambientais e de doenças infecciosas são os de
maior impacto e probabilidade, mas os riscos geopolíticos e sociais são os de maior influência entre
os indicadores. Isso mostra que, para lidar com os problemas ambientais e de saúde globais, é
necessário se atentar para o contexto geopolítico e social que os influencia.
Figura 6 – Diagrama de influência entre os fatores de risco globais levantados durante o Fórum
Econômico Mundial. Adaptado de WEF, 2023.
67
Figura 7 – Impacto e probabilidade de ocorrência dos desastres em escala global, levantado no
Fórum Econômico Mundial. Adaptado de WEF (2021).
Escolhida uma ordem de análise, é possível fazer um gráfico de “influência X dependência” de
cada indicador, e então classificá-los, da forma mostrada na Figura 8. Os indicadores com baixa
dependência e baixa influência são classificados como autônomos. Os indicadores com alta
influência e baixa dependência são classificados como motrizes, e geralmente são as causas dentro
das cadeias de relações. Os indicadores com baixa influência e alta dependência são os
“Resultados”, ou seja, expressão as consequências dos indicadores motrizes. Os indicadores com
alta influência e dependência são classificados como indicadores de “Ligação”, pois ligariam os
indicadores “Motrizes” aos “Resultados”.
68
Figura 8 – Classificação dos indicadores em razão de sua influência e dependência. Adaptado de
Godet (2001).
4.2.2. Processo Analítico Hierárquico
O Processo Analítico Hierárquico, proposto por Saaty (1981), é o processo de ponderação mais
utilizado para modelagem multicriterial. Ele consiste, em sua base, em pedir para cada participante
ponderar os indicadores par a par, de forma a reduzir a complexidade das comparações. Em seguida,
as ponderações par a par de cada participante são re-escaladas entre 0 e 1. Por fim, é calculada
uma média geométrica dos pesos atribuídos pelos participantes (Equação 2). O método também
calcula uma razão de consistência, que indica se as ponderações par a par de cada participante
estão coerentes entre si, ou, caso não estejam, indicam que o participante deve rever os pesos
atribuídos.
Média Geométrica =
(Equação 2)
Durante a ponderação par a par, cada participante deve escolher quantas vezes maior (ou menor)
é a importância de uma variável em comparação com a outra. Em geral, usa-se uma escala
semelhante à apresentada na Tabela 5. Esses valores são inseridos em uma matriz de relações
entre os indicadores, em que o valor de um lado da matriz é o inverso do outro lado (Tabela 6). Por
exemplo, se o indicador A é 4 vezes mais importante do que o indicador B, então o indicador B é
0,25 (ou seja, ¼) menos importante que o indicador A.
69
Tabela 5 – Valores de ponderação par a par no Processo Analítico Hierárquico
Valor
9
9 vezes maior
Extremamente mais importante
8
8 vezes maior
7
7 vezes maior
6
6 vezes maior
5
5 vezes maior
4
4 vezes maior
3
3 vezes maior
Moderadamente mais importante
2
2 vezes maior
Um pouco mais importante
1
igual
Igual importância
0,5
2 vezes menor
Um pouco menos importante
0,33
3 vezes menor
Moderadamente menos importante
0,25
4 vezes menor
0,2
5 vezes menor
0,17
6 vezes menor
0,14
7 vezes menor
0,12
8 vezes menor
0,11
9 vezes menor
Muito fortemente mais importante
Fortemente mais importante
Fortemente menos importante
Muito fortemente menos importante
Extremamente menos importante
70
Tabela 6 – Exemplo de itens ponderados par a par em uma Matriz, com os valores inversos em
cada lado da diagonal. Em seguida, os valores são re-escalados entre 0 e 1, ao dividir pela soma
de cada coluna. Ao fim, é retirada a média geométrica de cada linha.
Uma medida de consistência para cada atributo é calculada pela multiplicação vetorial entre a
linha de cada indicador e a coluna com as médias geométricas de todos os indicadores. Em seguida,
um índice geral de consistência é calculado de acordo com a Equação 3. Em seguida, é gerado um
índice de aleatoriedade, que é igual ao índice de consistência, porém com ponderações geradas ao
acaso. A razão de consistência é calculada pela Equação 4, e se for maior que 0,1, é aconselhável
que o participante revise os seus pesos atribuídos.
(Equação 3)
(Equação 4)
71
Referências
Godet, M. (2001). Creating futures: Scenario Planning as a Strategic Management Tool.
Economica
Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 857871.
MAZZIOTTA, Matteo; PARETO, Adriano. Use and misuse of PCA for measuring well-being. Social
Indicators Research, v. 142, n. 2, p. 451-476, 2019.
MONDAL, Debasish; MOOKHERJEE, Subikash; PATTANAYEK, Sanjoy Kumar. Does the analysis
of principal components effectively help in determining actual weights for dimensions of an index?
An appraisal in Indian context. International Journal of Management and Development Studies, v. 6,
n. 10, p. 28-36, 2017.
SAATY, Thomas Lorie. Decision Making for leaders: The analytical hierarchy process for decisions
in a complex world. Lifetime Learning Publications, 1981.
Weber, P., & Chapman, D. (2011). Location Intelligence: An Innovative Approach to Business
Location Decision‐making. Transactions in GIS, 15(3), 309-328.
World Economic Forum. The Global Risks Report 2021. 16th edition. 2021.
World Economic Forum. The Global Risks Report 2023. 18th edition. 2023.
72
Capítulo 5 – Modelagem estatístico-espacial de indicadores
O foco deste quinto capítulo é apresentar noções conceituais de inferência estatística, e estender
essas noções para a área de estatística espacial. São apresentados casos de estudo trabalhando
com indicadores espacializados para ilustrar esses contextos de inferência.
5.1.
Modelagem de indicadores
Podemos dividir as técnicas de modelagem em modelos determinísticos e estocásticos (Bolker,
2008; TURNER; GARDNER, 2015). Os modelos determinísticos consistem em funções matemáticas
precisas, que explicam os processos detalhadamente. Os modelos estocásticos, por sua vez,
fornecem uma explicação parcial dos processos, por modelos estatísticos. Os modelos estocásticos
explicitam a frequência, a probabilidade e a incerteza dos fenômenos. É possível que um conjunto
estudado de dados possa ser analisado de forma integrada, de forma determinística e estocástica,
conforme ilustrado na figura 1.
Figura 1 – Combinação de modelagem determinística e estocástica a um conjunto de dados.
Adaptado de Bolker (2008)
5.2.
Modelagem de indicadores aplicada a dados espacializados
O processo análise de indicadores de dados distribuído no espaço é uma maneira prática de
utilizar as técnicas de modelagem de indicadores estudadas nos capítulos anteriores desta
apostila. Podemos ilustrar com o estudo de Nascimento et al. (2015), sobre o planejamento de
conservação dos remanescentes de mata atlântica no Pontal do Paranapanema, no estado de São
Paulo. Inicialmente, utilizaram-se técnicas de sensoriamento remoto para mapear como houve o
73
processo histórico de desmatamento e fragmentação da mata atlântica na área de estudo (Figura
2). Em seguida, com base em levantamentos de fauna, construíram-se modelos sobre como a
diminuição da área dos fragmentos de mata atlântica afetou a biodiversidade de animais sensíveis
ao tamanho de cada fragmento (Figura 3).
Figura 2 – Mapeamento da cobertura de mata atlântica de 1956 a 2003 no Pontal do
Paranapanema, estado de São Paulo. Fonte: Nascimento et al. (2015)
74
Figura 3 – Modelagem da riqueza de espécies sensíveis ao tamanho de fragmentos florestais no
Pontal do Paranapanema, estado de São Paulo. Fonte: Nascimento et al. (2015).
Com base nessa compreensão quantitativa dos modelos, foi realizada uma modelagem
multicritérios espacializada de áreas prioritárias para conservação e restauração florestal, em que
foram atribuídos pesos diferenciados para as camadas espaciais de distância a áreas de preservação
permanente, distância aos fragmentos de vegetação nativa, e distância aos limites de propriedades
rurais (Figura 4). Com base na combinação dessas camadas de informação, foi criado um mapa
integrado de prioridades de conservação e restauração florestal (Figura 4). Esse mapa foi discutido
com representantes de grupos sociais interessados, para fazer uma proposta de restauração de
corredores ecológicos que consigam, com o menor custo econômico, fazer o maior aumento na
biodiversidade por meio da conexão dos fragmentos remanescentes de mata atlântica (Figura 5).
75
Figura 4 – Modelagem multicritério, utilizando camadas de informação para elaboração de um
mapa de prioridade de conservação e restauração da Mata Atlântica no Pontal do Paranapanema.
Adaptado de Nascimento et al. (2015)
Figura 5 – Proposta de conservação e restauração de corredores ecológicos no Pontal do
Paranapanema. Fonte: Nascimento et al. (2015).
76
5.2.1. Processo analítico hierárquico aplicado a dados espacializados
O Processo Analítico Hierárquico (Saaty, 1981), utilizado para ponderações de indicadores e
estudado no capítulo 4 desta apostila, pode ser aplicado como base para a modelagem multicritério
espacial. A tabela 1 mostra um exemplo de ponderação de camadas espaciais para analisar quais
áreas seriam mais favoráveis para instalação de empreendimentos de piscicultura (Francisco et al.,
2019). À esquerda da Tabela 1, estão as ponderações cruzadas originais atribuídas pelos
especialistas e profissionais da área. Ao centro está a mesma matriz, reescalada entre 0 e 1. Na
metade direita da tabela 1, encontram-se os pesos atribuídos a cada camada de informação ao final
do processo, e a Razão de Consistência (RC), que ficou baixo de 0,1, indicando boa coerência na
atribuição dos pesos da matriz cruzada.
Tabela 1 – Ponderação da relevância de camadas espaciais por Processo Analítico Hierárquico.
Fonte: Francisco et al. (2019)
Onde:
S = Declividade
A = Altitude
T = Tipo de solos
U = Uso e ocupação do solo
w = Peso final das variáveis
IC = Índice de consistência
RC = Razão de consistência
Esse mesmo procedimento de Processo Analítico Hierárquico também foi aplicado às classes de
cada uma das camadas espaciais, de forma a atribuir valores para cada classe mapeada (Francisco
et al., 2019) para a região Centro-Sul do estado do Paraná. A partir da ponderação das classes de
cada camada espacial, foi possível criar um mapa de aptidão para cada dimensão (Figura 6). Em
seguida, esses mapas de aptidão foram integrados em um mapa final de potencialidade da atividade
77
de piscicultura. Como complemento para uma análise desse potencial, também foram preparados
mapas com a localização de eixos de transporte, para escoamento dos produtos, de nascentes que
necessitariam ser preservadas, e de áreas urbanizadas não aptas para piscicultura, e que foram
incluídos no mapa de aptidão integrada (Figura 6).
Figura 6 – Transformação das informações de cada camada espacial de informações em mapas
parciais de aptidão (esquerda) e integração dos mapas de aptidão em um mapa final de aptidão à
piscicultura, utilizando os pesos obtidos pelo Processo Analítico Hierárquico. Adaptado de
Francisco et al. (2019).
78
5.2.2. Mapas de kernel
Em alguns contextos, possuímos uma grande quantidade de pontos sobre uma camada de
informação espacial, de forma que os pontos começam a se sobrepor visualmente e se torna difícil
analisar os padrões espaciais. Uma técnica de análise espacial utilizada para esses casos é a de
mapas de kernel, também comumente chamados de “mapas de calor”. Nesses mapas, cada ponto
é transformado em um pequeno “monte”, com valor mais alto no centro do ponto, e com queda suave
para o seu entorno (Figura 7). A elevação dos “montes” que se intersectam é somada, pixel a pixel,
em uma camada espacial matricial (Figura 7), gerando um mapa de kernel final (Figura 8). A unidade
de medida do mapa de kernel é de ocorrências por unidade de área, por exemplo, casos/km 2. A
Figura 9 mostra um exemplo sobre como os pontos de queimadas podem ser visualizados na forma
de um mapa de kernel, indicando as áreas com maior intensidade de eventos de queimada.
Figura 7 – Esquema conceitual de mapas de kernel, a partir de um ponto isolado (esquerda) e do
somatório das interseções de kernel (direita). Fonte: Bergamaschi (2010).
79
Figura 8 – Exemplo de somatório das intensidades de kernel dos pontos individuais (esquerda),
gerando um mapa integrado de kernel (direita).
Figura 9 – Transformação de uma base espacial de pontos em um mapa de kernel. Fonte:
Kazmierczak (2015).
O estudo de áreas potenciais de piscicultura apresentado na subseção anterior (Francisco et al.,
2019) foi complementado por um mapa de kernel da distribuição atual de empreendimentos de
80
piscicultura existentes (Figura 10). O tamanho da elevação de kernel de cada ponto foi ponderado
por sua área, e, considerando um potencial de produção de 54 t/ha/ano, o mapa de kernel expressa
o potencial de produção de pescado. Destaca-se ainda nesse mapa, a localização do eixo viário
principal, evidenciando a importância do canal do escoamento para a escolha locacional. O mapa
também apresenta o ponto médio (média das coordenadas de latitude e longitude de todos os
pontos) e a elipse de desvio padrão locacional, a qual equivale a média da distância dos pontos em
relação ao ponto médio. O conjunto de informações nesse mapa apresenta informações relevantes
para a instalação de empreendimentos relacionados à cadeia da piscicultura, tais como fornecimento
de insumos, ou processamento das carnes (Francisco et al., 2020).
Figura 10 – Localização dos polígonos de empreendimentos de piscicultura na região Centro-Sul
do estado do Paraná (esquerda), gerando um mapa de kernel ponderado pela área e pelo potencial
de produção de pescado (direita), incluindo também o ponto médio e a elipse de desvio padrão.
Fonte: Francisco et al. (2020).
81
5.3.
Modelos de Regressão
Os modelos de regressão tentam explicar um determinado indicador (variável explicada, também
denominada como dependente, ou como variável resposta), com base na variação de um ou mais
indicadores (variáveis explicativas, também denominadas de independentes, ou variáveis
preditoras). O modelo de uma regressão simples, com uma variável explicada e outra variável
explicativa, pode ser sintetizado na Equação 1. Nota-se que a Equação 1 também apresenta um
parâmetro de “erro”, visto que raramente um modelo consegue explicar totalmente a variação da
variável resposta.
(Equação 1)
O modelo de regressão simples pode ser visualizado na forma de uma reta em um gráfico em que
a variável resposta encontra-se no eixo vertical e a variável preditora encontra-se no eixo horizontal
(Figura 11). A reta, que é descrita pela equação 1, é aquela que mais se aproxima dos pontos
(observações). A distância entre os pontos e a reta é o erro do modelo, que tenta ser minimizado ao
máximo possível pelo modelo de regressão. O intercepto populacional, mostrado na Figura 11, é o
valor de Y (variável resposta) no ponto em que a reta cruza o valor 0 (zero) no eixo horizontal (variável
preditora). O parâmetro de inclinação populacional (também denominado de coeficiente angular),
como demonstrado na Figura 11, está relacionado à inclinação da reta no respectivo gráfico, e
representa em quantas unidades aumenta a variável resposta, para cada aumento de uma unidade
na variável preditora.
82
Figura 11 – Relação entre a equação de regressão simples e sua representação gráfica
O modelo de regressão simples (Equação 1) pode ser estendido para incorporar o efeito de mais
de uma variável preditora, na forma da Equação 2. Observa-se que a variável Y (resposta) equivale
ao somatório de cada dupla de um coeficiente de inclinação multiplicado pela sua respectiva variável
preditora.
Yi=0+1Xi1 + 2Xi2 +…+ pXip + i
(Equação 2)
Onde
Yi é o valor da variável resposta na i-ésima observação
0, …, p são parâmetros
Xi1 ,…,Xip são os valores das variáveis preditoras na i-ésima observação
i é o termo de erro aleatório
O potencial de explicação de um modelo de regressão é avaliado por meio de um coeficiente de
determinação, usualmente denominado como R 2, que varia entre 0 e 1. O valor 1 significa que o
modelo explicaria completamente o comportamento da variável resposta, sem nenhum erro. O valor
0 (zero), por sua vez, indica que o modelo não encontrou uma relação linear identificável entre as
variáveis explicativas e a variável resposta; ou seja, em termos práticos, as variáveis preditoras não
são úteis para explicar o comportamento da variável resposta. A figura 12 mostra, de forma gráfica,
83
exemplos de coeficientes de determinação (R 2) relacionados à dispersão dos pontos observados em
relação à reta da equação de regressão.
Figura 12 – Exemplos de um modelo de regressão de alto potencial de explicação (esquerda) e de
outro sem nenhum potencial de explicação (direita).
Exemplificando a aplicação de modelos de regressão em indicadores sociais, econômicos e
ambientais, Neve e Sachs (2020a) construíram modelos de regressão para avaliar como diversos
indicadores, alguns deles trabalhados nos capítulos anteriores desta apostila, podem ser utilizados
para explicar o grau de satisfação com a vida dos habitantes em diversos países no mundo. Entre
os indicadores explicativos, estão o Índice de Atendimento aos Objetivos de Desenvolvimento
Sustentável (porcentagem de atendimentos desses objetivos), o Índice de
Competitividade
Econômica, o Índice de Liberdade Econômica (nível de desregulamentação da economia), o Índice
de Desenvolvimento Humano – IDH (integrando renda, educação e expectativa de vida), o Índice
Global de Paz (ausência de conflitos internos e externos, e de violência), o Índice de Performance
Ambiental (nível em que a qualidade do ambiente afeta a expectativa de vida dos habitantes), e o
PIB per Capita (medida de renda).
Os resultados dos diferentes modelos de regressão estão apresentados na Tabela 2. Cada coluna
da Tabela 2 representa um modelo de regressão, mostrando que primeiramente foram realizados
um modelo para analisar a influência de cada índice sobre a satisfação de vida, e em seguida (lado
direito da tabela) foi realizado um modelo incluindo todos os índices ao mesmo tempo, e um último
modelo incluindo apenas a variáveis com maior certeza estatística (menor valor-p) A interseção entre
linhas e colunas, na Tabela 2, mostra os coeficientes dos modelos, indicando quanto de variação em
um índice influencia na mudança da satisfação com a vida. O número de asteriscos em cada
coeficiente relaciona-se ao valor-p, que indica o grau de incerteza de que a variável preditora
84
apresenta influência sobre a variável resposta. Quanto menor o valor-p, maior é a certeza de que há
uma influência identificada no modelo. Por exemplo, um valor-p menor que 0,05 indicaria, em termos
práticos, que há uma certeza de mais de 95% de existir uma influência real da respectiva variável
preditora sobre a variável resposta. Na linha abaixo de cada coluna, está representado o R2 de cada
modelo, subtraído de uma penalidade referente à incerteza devido à complexidade (número de
variáveis) dos modelos, para permitir a comparação entre eles.
Observa-se, na Tabela 2, que quando analisados separadamente, todos os índices globais
apresentam alto grau de certeza (valor-p < 0,01) quanto à sua relação com a satisfação com a vida.
Os índices com maior influência (coeficiente angular), do maior par ao menor, são o Índice de
Desenvolvimento Humano, o Índice de Competitividade Econômica, o Índice dos Objetivos de
Desenvolvimento Sustentável e o Índice de Performance Ambiental. Em relação à capacidade de
explicação de cada modelo, o Índice de Desenvolvimento Humano foi o que apresentou menor erro,
seguido do Índice dos Objetivos de Desenvolvimento Sustentável e do Índice de Performance
Ambiental, e os piores foram o Índice de Liberdade Econômica e o PIB per capita.
Tabela 2 – Resultados dos modelos de regressão dos índices globais em relação à satisfação com
a vida dos habitantes de cada país. Adaptado de Neve e Sachs (2020).
Onde: * valor-p<0,1, ** valor-p<0,05, *** valor-p<0,01. N = número de países com dados em cada
modelo.
Todavia, à direita na Tabela 2, quando todos os índices são colocados em uma regressão múltipla,
então apenas o Índice de Objetivos do Desenvolvimento Sustentável, o Índice de Performance
Ambiental e o PIB per Capita se tornam estatisticamente significativos (valor-p<0,05). Isso mostra
85
que a variação dos demais índices, na verdade, já estariam sendo contemplados pela variação
desses 3 índices acima citados. A última coluna mostra como a combinação desses 3 índices
apresenta um modelo mais objetivo e coerente, em que o Índice dos Objetivos do Desenvolvimento
Sustentável é o que mais contribui para a satisfação de vida, complementado pelo PIB per capita, e,
por último, pelo Índice de Performance Ambiental.
A relação gráfica entre o Índice de Objetivos de Desenvolvimento Sustentável e a Satisfação com
a Vida é apresentada na figura 13. Observa-se que há uma relação curvilínea, e que a curva é mais
inclinada nos países que melhor atingem os Índices de Desenvolvimento Sustentável. Tendo em
vista que a influência da Renda para a satisfação com a vida é maior nos países mais pobres e que
a influência dessa relação desaparece após a renda per capita de aproximadamente 45.000 dólares
por ano (INGLEHART; KLINGEMANN, 2000) (Figura 14), Neve e Sach (2020a, 2020b) propõem que
nos países mais ricos, o atingimento de metas referentes à sustentabilidade ambiental, social e
econômica seria mais relevante para explicar a satisfação de vida do que a renda per capita.
Figura 13 – Relação entre os Índices de Objetivos do Desenvolvimento Sustentável (ODS) e a
Satisfação com a vida de diferentes países. Adaptado de Neve e Sachs (2020b).
86
Figura 14 – Relação entre a renda per capita e a satisfação com a vida. A seta vermelha sintetiza a
tendência geral, e a linha tracejada azul aponta o limite a partir do qual o aumento de renda
deixaria de se traduzir em maior satisfação com a vida. Dados de 2021.
Fonte: https://ourworldindata.org/grapher/gdp-vs-happiness?xScale=linear
.
5.4.
Modelos de Regressão Espacial
Há diversos modelos de regressão que procuram incorporar a localização dos dados para melhor
explicar as variáveis resposta, e inclusive analisar esses resultados espacialmente. Podemos dividir
esses modelos de regressões espaciais em dois grandes grupos: locais e globais (Fotheringham et
al., 2002). As regressões espaciais locais procuram mostrar como a influência das variáveis
preditoras podem se alterar ao longo do espaço. Dessa forma, assume-se que cada região do espaço
estudado pode ter uma dinâmica própria, com processos que dependam mais de algum ou de outro
aspecto social ou ambiental. Um exemplo de regressão espacial local, que analisaremos a seguir, é
o da Regressão Ponderada Geograficamente (Geographically Weighted Regression – GWR).
Já as regressões espaciais globais procuram um padrão de relações entre unidades espaciais
vizinhas, e partem de um pressuposto de que essa relação entre vizinhos ocorre de uma maneira
comum em toda a área estudada. Desse grupo, tomaremos como exemplo a Regressão Spatial Lag,
mais a frente.
87
5.4.1. Regressão ponderada geograficamente
A ideia básica por trás da regressão geograficamente ponderada é que a influenciadas variáveis
preditivas sobre a variável resposta se alteram ao longo das áreas de estudo. Para identificar isso,
em vez de fazer um modelo de regressão com todos os dados da área de estudo, fazem-se vários
modelos, um com foco em cada caso observado, e tomando como base de casos para cada um
desses modelos, apenas os casos de unidades vizinhas. Essa seleção de unidades vizinhas para
cada modelo de regressão pode ser observado na Figura 15. Os pontos mais próximos do ponto
focal recebem uma valorização maior durante a calibração do modelo de regressão, e os pontos
mais distantes, próximos à borda do “cone”, recebem um peso menor, conforme mostrado na Figura
16. A várias opções de largura e forma da função de ponderação podem ser testados de maneira
automática ou manual nos programas de geoprocessamento, de forma a escolher os parâmetros
geram os modelos com maior potencial de explicação. Os resultados do modelo de regressão são
armazenados como um atributo dentro do ponto focal. Os pontos fora do “cone” não são
considerados nesse submodelo, específico. Porém, como é realizado um modelo para cada ponto
focal, ao fim todos os pontos são considerados em algum momento e, assim, todos os pontos
recebem os resultados de um modelo de regressão.
Figura 15 – Esquema mostrando os pontos selecionados para o modelo de regressão de um ponto
focal. Adaptado de: https://www.bristol.ac.uk/media-library/sites/cmpo/migrated/documents/gwr.pdf
88
Figura 16 – Perfil de uma função de ponderação de uma regressão ponderada geograficamente. O
eixo vertical é a importância do ponto na regressão, e o valor dessa importância vai diminuindo
conforme se afasta do ponto central (X). Adptado de Fotheringham et al. (2002).
Como um exemplo dos resultados de uma regressão ponderada geograficamente, temos o caso
da modelagem de risco de queimadas na província de Yunnan, China, realizada por Li et al. (2022),
a partir dos focos de incêndio delimitados por sensoriamento remoto (Figura 17). Após a realização
da regressão, um dos produtos possíveis são os mapas mostrando como os coeficientes variam no
espaço. Na Figura 18, mostram-se duas das variáveis preditivas utilizadas, a umidade e a distância
a rodovias, para ilustrar como uma variável natural, e outra relacionada à ocupação humana.
Observa-se, na Figura 18, que ambas as variáveis explicativas possuem coeficientes negativos em
toda região, ou seja, quanto maior a umidade e quanto mais distante das estradas, menor o risco de
incêndios. As regiões em que os coeficientes de cada variável explicativa são mais distantes de 0
(zero) mostram as regiões onde há maior influência dessas variáveis sobre a variável preditiva. Ou
seja, a oeste de Yunnan, uma variação na umidade pode amplificar ou reduzir o risco de incêndios,
de forma maior do que ao leste da província. Já para a distância das rodovias, a região Sul é onde
há maior influência da distância de rodovias em relação às queimadas.
89
Figura 17 – Focos de incêndio na província de Yunnan, China. Fonte: Li et al. (2022)
Figura 18 – Coeficientes de umidade e distância às estradas, como preditoras do risco de
ocorrências de incêndios florestais na província de Yunnan, China. Adaptado de Li et al. (2022).
Outro produto espacializável de uma regressão ponderada geograficamente é o erro dos modelos
sobre cada ponto focal. A Figura 19 mostra o erro dos modelos para as duas variáveis apresentadas
na Figura 18. Pode-se perceber que justamente onde a variação da umidade apresenta maior
influência no risco de queimadas, é a região onde o modelo apresenta maiores erros, ao passo que
90
na área central da província há uma maior segurança do modelo. Em relação à distância a rodovias,
os padrões espaciais de erro (Figura 19) diferem dos padrões espaciais de influência (Figura 18),
sendo o modelo mais acurado a oeste da província, e menos acurado a leste.
Figura 19 – Erro padrão associado aos coeficientes de umidade e distância às rodovias do modelo
de regressão ponderada geograficamente em relação ao risco de incêndios florestais na província
de Yunnan, China. Adaptado de Li et al. (2022).
Por fim, o resultado da regressão geograficamente ponderado obtido pelos coeficientes dos
dados climáticos e de ocupação podem geraram enfim um mapa de riscos de queimadas (Figura
20).
Figura 20 – Risco de incêndios florestais, a partir dos resultados modelados pela regressão
ponderada geograficamente. Fonte: Li et al. (2022)
91
5.4.2. Regressão global spatial lag
Entre os modelos de regressão global, o modelo Spatial Lag é o mais simples. Ele assume que o
resultado da variável resposta um caso (unidade de análise, que pode ser um município, setor
censitário, ou outra delimitação qualquer), depende não apenas das variáveis explicativas, mas
também do valor da própria variável resposta nas unidades de análise vizinhas (Anselin, 2005). Essa
influência dos vizinhos pode ocorrer por vários motivos, dependendo do contexto a ser modelado.
Por exemplo, pode se referir à influência de um polo econômico sobre desenvolvimento dos
municípios vizinhos, ou sobre a transmissão de doenças entre áreas próximas, ou sobre a circulação
de pessoas entre regiões vizinhas para acesso a serviços.
A equação spatial lag insere um termo específico na equação de regressão (Equação 3), que se
refere a como o valor da variável resposta Y na área i é afetado pelos valores da variável resposta
nas áreas vizinhas a i.
(equação 3)
Onde:
= coeficiente espacial autoregressivo - medida de correlação espacial, ou seja, o quanto os vizinhos
influenciam o valor da variável resposta ( = 0, se autocorrelação, ou seja, a influência é nula)
W = matriz de proximidade espacial, indicando o nível de influência em relação à distância ou vizinhança
WY expressa a dependência espacial em Y
Como exemplo, Costa et al. (2021) modelaram a influência da coleta de resíduos sólidos na
incidência de casos de Dengue, Zica e Chikungunya (doenças transmitidas pelo mosquito Aedes
aegypti) no município de São Luiz do Maranhão, utilizando o modelo de regressão spatial lag. O
objetivo de incluir a influência dos vizinhos é porque o mosquito vetor dessas doenças pode se
reproduzir em um local, e voar para os locais vizinhos, picando os moradores próximos. Além disso,
os moradores também podem se deslocar para setores censitários vizinhos e serem picados,
contraindo a doença. O coeficiente de espacial (equação 3) foi de aproximadamente 0,5, mostrando
que aproximadamente 50% dos casos dessas doenças podem ser atribuídos em virtude dos casos
nos setores censitários vizinhos, com um valor-p < 0,001, ou seja, com um grau de certeza de que
as relações de vizinhança afetam o espalhamento da doença, em mais de 99,9%. O coeficiente foi
negativo, mostrando que a cada aumento de 1% no número de domicílios atendidos por coleta de
resíduos sólidos em um setor, diminui em 0,26 o número casos, com valor-p de 0,03, o que aponta
92
como essa política pública pode ser relevante para a saúde pública. O coeficiente de determinação
(R2) do modelo, como um todo, foi de 0,5, mostrando que o modelo só explica metade da variação
dos casos, e que ainda deve haver outros diversos fatores, não incluídos no modelo, que afetam a
incidência dessas doenças.
Ainda referente ao estudo de Costa et al. (2021), é interessante comparar os mapas de incidência
da doença (Figura 21 - esquerda) com o mapa resultado da análise LISA maps (Indicadores locais
de autocorrelação) dos resíduos (erros) do modelo (Figura 21 - direita). A análise de LISA map
(Anselin, 1996) identifica núcleos de polígonos (no caso setores censitários) que apresentam
associações da seguinte estrutura: valores altos no polígono e também altos nos polígonos vizinhos;
valores altos no polígono, mas baixos nos vizinhos; valores baixos no polígono e também baixos nos
vizinhos; valores baixos nos polígonos, mas altos nos vizinhos. Boa parte das áreas de maior
incidência de casos de doenças (Figura 21 - esquerda) localizam-se em áreas em que não foram
identificados erros extremos do modelo no Lisa Maps (Figura 21 - direita). Todavia, a oeste, há um
setor grande, com classificação Alto-Baixo (alto erro circundado por setores de baixo erro), ao passo
que a norte há um agrupamento de setores com classificação alto-alto (alto erro no setor e alto erro
nos setores vizinhos). Essas áreas apresentam alta porcentagem de coleta de resíduos sólidos, mas
ainda apresentam alta incidência de casos das doenças. Portanto, provavelmente existem outros
focos de reprodução do Aedes aegypti nesses locais, que precisam ser identificados e erradicados
nas ações de vigilância sanitária. Este é um exemplo de que a análise dos erros de um modelo
também pode ser útil para o entendimento do território e direcionamento de políticas públicas.
Figura 21 – Esquerda: Incidência de casos de dengue, zika e Chikungunya nos setores censitários
de São Luis do Maranhão, de 2015 a 2016. Direita: Lisa Maps mostrando os erros extremos e suas
respectivas relações de vizinhança do modelo de regressão spatial lag referente à influência da
coleta de resíduos sólidos sobre a incidência dos casos de doença. Adaptado de Costa et al. (2021).
93
5.5.
Microssimulação
Os modelos de microssimulação utilizam dados coletados em escalas menos agregadas de
análise e simulam como deve ser sua ocorrência em níveis mais detalhados, como exemplificado na
Figura 22. Para tanto, esses modelos recorrem a relações estatísticas com variáveis auxiliares
(explicativas) presente em tanto na unidade de análise original quanto na unidade de análise mais
de escala mais detalhada, do produto final.
Figura 22 – Exemplo de microssimulação para inferência de desagregação de dados
espacialmente. Adaptado de Park et al. (2019)
Um modelo de microssimulação bastante utilizado é o Ajuste Iterativo Proporcional (Iterative
Proportional Fitting – IPF), que permite usar uma amostra de dados socioeconômicos anônimos
individuais com maior riqueza de variáveis e então simular essas variáveis em unidades de análise
menores, que possuam apenas algumas variáveis relacionadas (WILLIAMSON et al., 1998). A
sequência pode ser exemplificada pela Figura 23.
O uso de microssimulação é bastante útil no caso de dados censitários brasileiros. Isso porque,
os dados do censo, levantados por setor censitários, têm uma quantidade limitada de variáveis.
Paralelamente ao levantamento censitário, também há os dados da amostra, em que em cada área
de ponderação (conjunto de setores censitários), são escolhidas algumas pessoas para responder a
um questionário bem mais detalhado. Os microdados da amostra, com uma tabela anonimizada de
dados individuais desse questionário detalhado, é disponibilizada para cada área de ponderação. É
possível, nesse contexto, relacionar as variáveis socioeconômicas extras das amostras com os
dados dos setores censitários, e então fazer a microsimulação para estimar os valores dessas
variáveis extras em cada setor censitário.
94
1º
2º
3º
Figura 23 – Etapas para a microssimulação de Ajuste Iterativo Proporcional. Adaptado de Lomax
(2019).
Um exemplo de aplicado é utilizar as variáveis de renda, propriedade do imóvel e valor do
aluguel, disponíveis nos microdados das áreas de ponderação, para estimar as informações de
propriedade do imóvel e valor de aluguel nos setores censitários, com base nas informações de
renda dos respectivos setores, como proposto por Feitosa et al. (2016). A Figura 24 ilustra o
procedimento de simulação. Esses valores simulados foram então utilizados para estimar, para
cada setor censitário quantas famílias estariam vivendo em domicílios de baixa renda com custo
excessivo de aluguel (Figura 25), que é uma das categorias para avaliação de déficit habitacional,
utilizado nas políticas de planejamento urbano.
95
Figura 23 – Esquema gráfico e de tabelas com a sequência de análise para microssimulação dos
dados de propriedade de domicílio e valor de aluguel, provenientes dos microdados da amostra,
para estimativa nos setores censitários, com o auxílio dos dados de renda. Adaptado de Feitosa et
al. (2016).
Figura 24 – Mapas mostrando a área de ponderação (microdados da amostra) estudada, e o
resultado da microssimulação do número de domicílios de baixa renda com custo excessivo de
moradia. Adaptado de Feitosa et al. (2016).
96
Referências
ANSELIN, L. The Moran scatterplot as an ESDA tool to assess local instability in spatial
association. Em: Fisher M, Scholten HJ, Unwin, D, eds. Spatial analytical perspectives on GIS.
Londres: Taylor & Francis; 1996. Pp. 111-28.
ANSELIN, L. Exploring spatial data with GeoDaTM: A workbook for spatial analysis [Internet].
University of Illinois: USA; 2005 [updated 2005; cited 10 Apr 2019]. Available from:
https://geodacenter.github.io/documentation.html
BERGAMASCHI, R. B. SIG Aplicado a segurança no trânsito - Estudo de Caso no município de
Vitória – ES. Universidade Federal do Espírito Santo – UFES, 2010.
BOLKER, B. Ecological Models and Data in R. Princeton: Princeton University Press, 2008.
FEITOSA, F. F., ROSEMBACK, R. G., JACOVINE, T. C. Small Area Housing Deficit Estimation: A
Spatial Microsimulation Approach. Brazilian Journal of Cartography, (2016), Nº 68/6, Special Issue
GEOINFO 2015: 1157-1169
FOTHERINGHAM, A.S., BRUNSDON, C., CHARLTON, M.E., 2002, Geographically Weighted
Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley.
FRANCISCO, Humberto Rodrigues; FABRÍCIO CORRÊIA, Arlindo; FEIDEN, Aldi. Classification of
areas suitable for fish farming using geotechnology and multi-criteria analysis. ISPRS International
Journal of Geo-Information, v. 8, n. 9, p. 394, 2019.
FRANCISCO, Humberto Rodrigues et al. Análise espacial de eventos pontuais para estimar o
potencial produtivo da tilápia do Nilo (Oreochromis niloticus). Research, Society and Development,
v. 9, n. 9, p. e855998038-e855998038, 2020.
INGLEHART, R., KLINGEMANN, H.-D. (2000). Genes, culture, democracy, and happiness. In E.
Diener & E. M. Suh (Eds.), Culture and subjective well-being (pp. 165-183). Cambridge, MA, US:
The MIT Press.
KAZMIERCZAK, M. 2015. Queimadas em Cana-de-Açúcar: Monitoramento e Prevenção.
MundoGeo. Em: http://mundogeo.com/blog/2015/09/28/queimadas-em-areas-de-cana-de-acucarmonitoramento-e-prevencao-2/
LI, Wenhui et al. Predictive model of spatial scale of forest fire driving factors: a case study of
Yunnan Province, China. Nature: Scientific reports, v. 12, n. 1, p. 19029, 2022.
LOMAX, N. (2019) What is… Iterative Proportional Fitting? British Society for Population Studies
Annual Conference, Cardiff, 9 September 2019
NASCIMENTO, A. T. A.; CULLEN Junior, L.; SOUZA, M. G.; REZENDE, G. C. Um bom pontal para
todos. O mapa dos sonhos a luz do Novo Código Florestal. IPÊ. 2015.
97
NEVE, J. E., SACHS, J. D. (2020a). Sustainable development and human well-being. World
Happiness Report, 112, 127.
NEVE, J. E., SACHS, J. D. (2020b). The SDGs and human well-being: a global analysis of
synergies, trade-offs, and regional differences. Nature: Scientific reports, 10(1), 1-12.
PARK, N. W., KIM, Y., KWAK, G. H. (2019). An overview of theoretical and practical issues in
spatial downscaling of coarse resolution satellite-derived products. Korean Journal of Remote
Sensing, 35(4), 589-607.
SAATY, Thomas Lorie. Decision Making for leaders: The analytical hierarchy process for decisions
in a complex world. Lifetime Learning Publications, 1981.
TURNER, M.G.; GARDNER, R.H.; O'Neill, R. V. l. Landscape Ecology in Theory and Practice:
Pattern and Process. New York: Springer, 2015
WILLIAMSON, P., BIRKIN, M.; Rees, P. H. The estimation of population microdata by using data
from small area statistics and samples of anonymised records. Environment and Planning A, 30
(1998), pp. 785-816.
98