Academia.eduAcademia.edu

Indicadores geograficos modelagem dados

2023

O objetivo desta apostila é compreender os principais conceitos e aplicações para seleção, modelagem e uso de indicadores geográficos. Após sua leitura, espera-se que o estudante consiga compreender as principais possibilidades de modelagem de dados geográficos disponíveis para políticas urbanas e ambientais. Para tanto, serão apresentados os principais indicadores socioeconômicos e ambientais, e serão discutidas as principais possibilidades metodológicas de integração de dados espaciais para a formação de indicadores.

CURSO DE PÓS-GRADUAÇÃO LATO SENSO COM ESPECILIZAÇÃO NA “OTIMIZAÇÃO APLICATIVA DOS INSTRUMENTOS DAS POLÍTICAS URBANA E AMBIENTAL NOS CONTEXTOS MUNICIPAIS” APOSTILA Disciplina: Indicadores Geográficos e Modelagem de Dados Professor: Vitor Vieira Vasconcelos (Universidade Federal do ABC – UFABC) Maio de 2023 1 Sumário Capítulo 1 – Introdução aos indicadores geográficos e modelagem de dados 3 Capítulo 2 – Indicadores sociais 18 Capítulo 3 – Indicadores ambientais 37 Capítulo 4 – Construção de indicadores 58 Capítulo 5 – Modelagem estatístico-espacial de indicadores 73 2 Capítulo 1 – Introdução aos indicadores geográficos e modelagem de dados O objetivo desta apostila é compreender os principais conceitos e aplicações para seleção, modelagem e uso de indicadores geográficos. Após sua leitura, espera-se que o estudante consiga compreender as principais possibilidades de modelagem de dados geográficos disponíveis para políticas urbanas e ambientais. Para tanto, serão apresentados os principais indicadores socioeconômicos e ambientais, e serão discutidas as principais possibilidades metodológicas de integração de dados espaciais para a formação de indicadores. Neste contexto, o foco deste primeiro capítulo é introduzir o conceito e as principais abordagens para seleção e modelagem de indicadores geográficos. 1.1 Modelagem Modelos são representações simplificadas de um objeto, estrutura, ideia ou sistema. Estas representações sempre atendem a algum propósito específico. Os modelos são menores, menos detalhados, menos complexos, ou uma combinação dessas simplificações. Exemplos de modelos incluem não apenas modelagem estatística de indicadores (foco do nosso curso), mas maquetes, modelos teórico-conceituais, mapas, entre outros. Muitos dos trabalhos de modelagem estatística de indicadores começam com a etapa de modelagem conceitual. Nesta etapa, procura-se identificar os elementos do universo de representação, bem como entender como eles podem se agrupar em subsistemas. A figura abaixo ilustra um exemplo de modelagem conceitual. Figura 1 – Exemplo de uma modelagem conceitual sobre o contexto de queimadas em uma unidade de conservação 3 Em seguida, é comum estabelecer quais são as principais relações entre esses elementos. Por exemplo, quando um atributo ou características de um elemento muda, o que acontece com as características ou atributos dos demais elementos? Nesse contexto, pela abordagem da teoria de sistemas (Bertalanfy, 1968), torna-se relevante pensar em efeitos de retroalimentação (feedback) em que um elemento A causa uma mudança em um elemento B e, no momento seguinte, o elemento B causa outra mudança no elemento A, que em seguida afeta novamente o elemento B, e assim por diante, em uma perspectiva dinâmica. Há dois tipos básicos de retroalimentação: positiva e negativa, ilustrados na Figura 2. Figura 2 – Exemplos de retroalimentação positiva e negativa Na retroalimentação positiva, uma mudança em um atributo do elemento A causa uma mudança na mudança de outro atributo do elemento B, na mesma direção (relação direta). Na Figura 2.a, por exemplo, o aumento no aquecimento global causa o derretimento das calotas polares. Quando as calotas polares derretem, os raios solares passam a ser mais absorvidos pela cobertura do solo, que eram refletidos para fora do planeta pelo gelo, e isso por sua vez aumentará mais ainda o 4 aquecimento global, criando um ciclo contínuo de aquecimento e derretimento das geleiras. A não ser que outro processo intervenha, a retroalimentação positiva gera um crescimento ou decrescimento cada vez mais acentuado, até um colapso geral do sistema analisado. Na retroalimentação negativa, uma das vias de interação entre os elementos A e B é uma relação direta (segue a mesma direção), mas a via inversa apresenta uma relação invertida. Por exemplo, a diminuição em um atributo no elemento A (disponibilidade de um recurso natural) causaria uma diminuição em outro atributo no elemento B (consumo de um recurso natural), mas no momento seguinte, o elemento B causaria um aumento no mesmo atributo do elemento A. Esse tipo de retroalimentação tende, ao longo do tempo, a estabilizar as variações dos atributos entre os elementos, como mostrado na Figura 2.B. Os exemplos da Figura 2 são bem simples, e é possível fazer modelagens de interações em sistemas muito mais complexos. A Figura 3 exemplifica uma rede de interações entre populações de animais no parque de Yellowstone, nos Estados Unidos, e que foi utilizado para entender o impacto da reintrodução dos lobos naquele parque (Boyce, 2018). A figura 3 mostra que, de acordo com o entendimento das relações ecológicas entre as espécies, algumas relações são diretas (+) e outras inversas (-). Conforme os lobos foram sendo introduzidos e começaram a se reproduzir no parque, foi possível monitorar se as relações entre as populações na Figura 3 se comportavam de acordo com as hipóteses do modelo conceitual. Figura 3 – Hipóteses das relações entre as populações de seres vivos no parque de Yellowstone (EUA), a partir da reintrodução de lobos. Construído a partir de Robbins (2004). 5 Um método muito utilizado para modelagem conceitual de indicadores, em contextos de políticas públicas, é o XLRM (Externalities, Policy Levers, Relationships and Metrics) (LEMPERT et al., 2003). De acordo com esse método, primeiramente é precisa delimitar qual é o contexto de atuação dos atores envolvidos, para identificar que indicadores são externos (dificilmente podem ser modificados pelos atores envolvidos) ou internos (dependem da atuação dos atores). Entre os fatores externos (externalidades), é interessante dividir entre tendências (há um padrão observável no passado, que pode ser projetado para o futuro), e incertezas (não é possível saber o que ocorrerá no futuro). As ações (Policy levers) são as escolhas e projetos que podem ser executados pelos atores. E as métricas são indicadores que podem ser medidos para ver se as ações estão sendo executadas com eficiência, ou seja, se estão atingindo seus objetivos propostos. Ao fim, é elaborado um diagrama conceitual de relações entre a externalidades, ações e métricas, como exemplificado na Figura 4, no contexto de gestão de recursos hídricos de uma bacia hidrográfica. Figura 4 – Modelagem de relações conceituais da gestão de recursos hídricos em uma bacia hidrográfica, utilizando a abordagem XLRM (Lempert et al., 2003). 6 1.2. Levantamento e Seleção de Indicadores Durante um processo de seleção de indicadores, é comum iniciar pela construção de uma Árvore de Informação, em que os parâmetros (informações sobre propriedades mensuradas de fenômenos, podendo ser constantes ou variáveis) são agrupadas em fatores, que por sua vez são agrupadas em categorias (Thomaziello, 1999). A Figura 5 mostra um exemplo aplicado a estudos socioambientais. Figura 5 – Exemplo de árvore de informação agregando categorias, fatores e parâmetros comuns em estudos socioambientais. Adaptado de Santos (2004). Uma definição usualmente empregada é a de que um “dado” (por exemplo, um valor de um atributo mensurado de um fenômeno), ao se tornar interpretável em um contexto determinado, se torna uma “informação” (Santos, 2004). Ou seja, a informação vai ter uma utilidade e uma agregação de conhecimento. Os dados, informações e parâmetros podem ser representados de diversas maneiras. Por exemplo, eles podem ser qualitativos, representando categorias binárias (como “sim” ou “não”) ou categorias múltiplas, como “montanha”, “planície” e “colina”, e outras formas de relevo. Eles também podem ser quantitativos, dividindo-se em ordinais (primeiro, segundo, terceiro) ou cardinais (numéricos). Os cardinais podem ser binários (0 ou 1), discretos (números inteiros, como 1, 2, 3, etc.) ou contínuos (ou seja, com casas decimais, como 1,35). Existe uma hierarquia de complexidade no uso de indicadores (WINOGRAD et al., 1995; FIDALGO, 2003), que pode ser representada na pirâmide da Figura 6. Os dados primários, ao serem selecionados para interpretação dentro de um contexto, passam a ser informações. Dentro desses dados, alguns são selecionados como sinalizadores de uma condição geral do sistema, e passamos a chamá-los de indicadores. Os indicadores podem ser simples, quando são compostos de apenas 7 um parâmetro, ou agregados, quando são uma taxa entre dois parâmetros (por exemplo, habitantes por área – km2). Já os índices são compostos pela combinação de vários parâmetros, cada um com um peso diferenciado. Figura 6 – Hierarquia de dados, indicadores e índices. Adaptado de Santos (2004). Entre os critérios para seleção de dados a tornarem-se indicadores, está a sua função (para quê servem?) e a disponibilidade e custo de monitoramento. Em estudos socioambientais, também é relevante a avaliação sobre a diversificação e capacidade de integração, por exemplo, se os indicadores estão conseguindo cobrir tanto aspectos sociais quanto ambientais. Winograd et al. (1995) propuseram que no momento de seleção de indicadores, é importante avaliar a sua qualidade, por meio de três aspectos principais: • Confiabilidade dos dados • Relações com os problemas • Utilidade para os usuários. Com base nesses três aspectos acima, A OECD (1994; 1998) propôs uma séria de subcritérios que podem ser avaliados. Em relação à confiabilidade dos dados, é importante se atentar se a fonte das informações possui credibilidade; se há clareza e confiabilidade nos procedimentos de coleta, devidamente documentados; se há precisão e exatidão das informações segundo os padrões científicos vigentes; e se os dados se encontram atualizados em intervalos irregulares para não criar incertezas sobre períodos não mesurados (OECD, 1994; 1998). O Quadro 1 apresenta algumas 8 definições conceituais usualmente utilizadas para avaliar a credibilidade de indicadores. Algumas fontes de incerteza em indicadores são erros de mensuração, bem como a incerteza dos modelos que constroem índices mais complexos. Para definir o quão confiável é uma informação, a revisão por outros especialistas e pela comunidade local torna-se um procedimento recomendável. Quando possível, pode-se realizar a triangulação, ou seja, construir um mesmo indicador por diferentes fontes de informação, tais como dados oficiais, entrevistas, sensoriamento remoto, trabalho de campo, etc. Ao construir as bases de dados de um indicador, é importante que essas avaliações de incerteza estejam descritas nos metadados que acompanham as bases de dados. Quadro 1: Conceitos usualmente empregados para avaliar a credibilidade de indicarores • Acurácia: similaridade entre a medida representada e o valor real. • Precisão: refinamento do valor apresentado (ex: dígitos depois da vírgula). • Atualidade: grau em que os dados correspondem à realidade atual • Consistência: grau em que os diversos dados não contradizem um ao outro. • Propagação de incerteza: dados incertos, se submetidos a análises estatísticas, geram produtos incertos. No que tange à dimensão da “relação com os problemas”, a primeira questão é se os indicadores conseguem retratar os problemas de interesse na área de estudo. Nesse momento, os tipos de relações entre elementos, identificados na modelagem conceitual, podem evidenciar essas conectividades entre os indicadores. As relações podem ser determinísticas (a modificação em um parâmetro sempre causa a mesma reação no outro parâmetro), probabilísticas (há uma chance de modificação no outro parâmetro), ou podem mesmo ser padrões aleatórios, desde que seja relevante o seu monitoramento. É importante escolher indicadores que sejam sensíveis a mudanças dentro da escala de tempo de interesse, que pode ser contínua (linear, ao longo dos anos), ou sazonal/cíclica (como nas estações do ano), e também que tenham valores de referências (por exemplo, que valore são considerados altos, médios ou baixos). Para facilitar a comunicação e reduzir custos de monitoramento, é estratégico escolher indicadores não redundantes (que variam conjuntamente), mas que consigam sintetizar as informações de outros dados que não estão sendo monitorados. Sobre a dimensão de “utilidade para os usuários”, o foco central deve ser se o uso dos indicadores consegue atender aos objetivos de planejamento. Para isso, a sua capacidade de “tradução” é essencial, ou seja, que os valores atribuídos ao indicador possam distinguir entre condições aceitáveis ou inaceitáveis, ou condições que demandem determinadas ações. Como os indicadores geralmente têm natureza preventiva, é interessante que o seu valor já comece a sinalizar os danos sociais ou ambientais mesmo antes que sérios danos aconteçam, para que as ações possam ser tomadas a tempo. Questões práticas, como acessibilidade, custo e agilidade na coleta dos dados 9 também devem ser consideradas. Sob o aspecto de comunicação, o indicador deve ser de fácil entendimento para o público, e ser relevante para atrair sua atenção. 1.3. Resolução e escala de indicadores A relação entre escala e resolução dos indicadores pode ser exemplificada na Figura 7. A abrangência de um indicador pode ser definida entre a extensão no espaço e a duração no tempo para os quais há dados disponíveis. A resolução de um indicador é o intervalo, no tempo e no espaço, em que são medidas as observações. A granulosidade, por sua vez, é a extensão ou duração para a qual o indicador e mensurado e/ou disponibilizado, ou seja, a informação se refere a uma média sobre um período de tempo ou sobre uma área delimitada. Figura 7 – Relação entre escala e resolução de indicadores. Adaptado de ONU (2005) Quando nos referimos a dados ambientais, é importante entender que os indicadores muitas vezes se referem a escalas de tempo e espaço muito diferentes entre si. A Figura 8 ilustra diversos processos que ocorrem em distintas escalas espaciais e temporais. A escolha da escala e unidade espacial (granulosidade) dos dados dos indicadores deve levar em conta o tipo de fenômeno a ser estudado. Por exemplo, se deseja-se estudar a ocupação urbana, é comum usar uma escala municipal ou de região metropolitana, e uma resolução espacial que permita visualizar as mudanças durante a duração temporal analisada. Outro aspecto relevante é a disponibilidade de dados, pois diversos indicadores socioeconômicos são disponíveis apenas nas unidades espaciais de setores censitários ou de municípios. Quando se quer medir um indicador ainda não existente nas bases de dados oficiais, a escolha da escala e unidade de análise vai refletir nos custos e tempo de 10 levantamento dos dados. Outro ponto importante é a escala de intervenção da política pública, por exemplo, um plano diretor vai se refletir na escala de seu município ou região metropolitana, já um plano de manejo vai estar na escala de sua respectiva unidade de conservação. Figura 8 – Escalas espaciais e temporais de distintos processos ambientais. Diversas vezes, ao estudar um determinado processo socioambiental, nos deparamos com a disponibilidade de informações de fenômenos em escalas diferentes. Todavia, mesmo estando em escalas diferentes, esses processos podem ser relevantes para os nossos objetivos de análise. Tuner et al. (2001), como exemplificado na Figura 9, propõem que usemos os dados de escalas mais amplas para entender as condições e restrições impostas ao nosso objeto na escala de estudo. Além disso, podemos usar escalas mais detalhadas, mesmo que apenas conceitualmente, para propor mecanismos explicativos que envolvam componentes ainda não visualizáveis na escala de estudo. Como um exemplo, os dados de microclima em escala mais ampla podem ser usados para entender as restrições e condições de crescimento e manutenção de fragmentos de vegetação em uma escala de estudo de paisagem. Na escala de estudo, é possível realizar levantamentos de dados e mapas dos fragmentos de vegetação, e entender os seus padrões. Porém, para explicar os seus padrões e processos, pode ser necessário teorizar em escalas mais detalhadas, que envolvem as relações entre as espécies de plantas, mesmo que não seja viável coletar em campo informações tão detalhadas assim, em um primeiro momento. 11 Figura 10 – Exemplo de uma estratégia de estudo interescalar. Adaptado de Turner e Gardner (2015) Ao realizar estudos interescalares, a teoria de sistemas (BERTALANFFY, 1968) nos fornece algumas bases conceituais relevantes. Uma delas é a dos padrões fractais, que são propriedades que se refletem em diferentes escalas espaciais e/ou temporais Figura 11. Um exemplo é o padrão de segregação socioespacial, em que a população mais pobre é segregada espacialmente da população mais rica (Figuras 12, 13 e 14). Esse padrão pode ser visto em mapas elaborados em diversas escalas, desde municipal, nacional ou global. Trotsky (1932) denominou esse padrão de “desenvolvimento combinado e desigual”, e propôs que seria um padrão interescalar inerente à sociedade capitalista. Figura 11 – Exemplo de padrão fractal, repetindo-se em diversas escalas espaciais. Fonte: https://mathworld.wolfram.com/Fractal.html 12 Figura 12 – Renda per capita na Região Metropolitana do Rio de Janeiro. Fonte: https://www.modelarametropole.com.br/wp-content/uploads/2017/03/06-economia_-renda.jpg Figura 13 – Produto Interno Bruto (PIB) per capita no Brasil. Fonte: https://aredeurbana.com/2020/02/13/mapa-do-produto-interno-bruto-per-capita-dos-municipios-brasileiros-2017/ 13 Figura 14 – PIB per capita no mundo. Fonte https://ourworldindata.org/grapher/gdp-per-capita-worldbank Outra perspectiva de análise interessante advinda da teoria de sistemas é a de propriedades emergentes. Segundo essa perspectiva, alguns padrões só apareceriam em determinadas escalas, pois haveria processos e relações que não existem nos elementos se estes forem analisados de maneira isolada, mas que passam a atuar quando os elementos estão se relacionando entre si em escalas mais amplas. Um exemplo pode ser observado na Figura 14, mostrando que a relação entre número de espécies e área de ilhas em que essas espécies habitam tem uma brusca mudança, ao comparar ilhas com menos ou com mais de 0,5 km2. Figura 15 – Exemplo de propriedade emergente em relação ao número de espécies em ilhas. Adaptado de Turner e Gardner (2015), com dados de Diamond e Mayer (1975) e Williamson (1981). 14 Em alguns contextos, precisamos temos dados provenientes de resoluções e escalas diferentes, mas precisamos agregá-los em uma mesma resolução, escala e unidade de análise. Pode-se optar, neste caso por duas estratégias, exemplificadas na Figura 16. Uma dela é a de agregação (upscalling), em que pegamos um dado de alta resolução e agregamos em unidades espaciais de maior extensão. Um cuidado que se deve ter é que, ao agregar dados, os mapas escondem as heterogeneidades espaciais que seriam visualizáveis em alta resolução, e apresentam uma superfície “suavizada” que pode ser enganadora. Além disso, é preciso tomar cuidado pois nem todas as variáveis permitem ser agregadas: dados de fluxo (de pessoas, energias, bens) não podem ser simplesmente somados caso o local de origem e de destino estejam sendo agregados em uma unidade só de análise. Outros índices espaciais, como conectividade, segregação e fragmentação, só fazem sentido em uma escala de análise, precisando ser recalculados em cada novas resolução, e por isso não também não podem ser agregados. Além disso, dados categóricos (como classes de relevo) ou qualitativas (como grupos culturais) não permitem uma agregação simples, e requerem uma reinterpretação em cada escala de análise. Outras informações, como espécies endêmicas (que só vivem um determinado local), passam a não ter sentido se forem agregadas em unidades espaciais mais amplas. Figura 16 – Estratégias de agregação (upscalling) e desagregação (downscalling) de dados. Fonte: Park et al. (2019) A outra estratégia, mais complexa, é a de desagregação (downscalling) dos dados, utilizando modelos espaciais que permitem pegar dados em resoluções mais grosseiras e estimar como eles se distribuiriam em resoluções mais altas. Uma das maneiras de fazer a desagregação é por microssimulação, em que utilizamos modelos estatísticos baseados em uma variável auxiliar que 15 esteja presente nas duas resoluções (alta e baixa), e que serve como uma “pista” para inferirmos como se comportaria a nossa variável de interesse. Por exemplo, se só tivermos os dados de expectativa de vida em nível municipal, mas sabermos da sua relação com a renda per capita, que está disponível em resolução de setor censitário, podemos tentar estimar a expectativa de vida por setor censitário. Todavia, todo modelo estatístico gera algum nível de incerteza, que se agrega às incertezas já existentes tanto nos valores da variável de interesse quanto na variável auxiliar. Referências BERTALANFFY, Ludwig von. 1968. General System theory: Foundations, Development, Applications, New York: George Braziller BOYCE, Mark S. "Wolves for Yellowstone: dynamics in time and space." Journal of Mammalogy 99, no. 5 (2018): 1021-1031 DIAMOND., J. M., and E. MAYR. 1976. Species–area relations for birds of the Solomon archipelago. Proceedings of the National Academy of Sciences, USA 73:262–266 FIDALGO, E. C. C. (2003). Critérios para a análise de métodos e indicadores ambientais usados na etapa de diagnóstico de planejamentos ambientais. Tese de Doutorado, UNICAMP: Campinas. LEMPERT, R. J., S. W. POPPER and S. C. BANKES (2003). Shaping the Next One Hundred Years: New Methods for Quantitative, Long-term Policy Analysis. Santa Monica, CA, RAND Corporation OECD (Organization for Economic Co-Operation and Development). Environmental Indicators. Paris, 1994. OECD (Organization for Economic Co-Operation and Development). Towards sustainable development: environmental indicators. Paris, 1998 ONU - ECOSYSTEM ASSESSMENT (MA). Ecosystem and human well-being: a framework for assessment. Washington DC: Island Press, 2005. PARK, N. W., Kim, Y., & Kwak, G. H. (2019). An overview of theoretical and practical issues in spatial downscaling of coarse resolution satellite-derived products. Korean Journal of Remote Sensing, 35(4), 589-607. ROBBINS, J. (2004). Lessons from the wolf. Scientific American, 290(6), 76-81. SANTOS, R. Planejamento ambiental: teoria e prática. São Paulo: Oficina de Texto, 2004. THOMAZIELLO, S.A. Planejamento ambiental e conservação de florestas urbanas: Mata Ribeirão Cachoeira, Campinas, SP. Dissertação de Mestrado – UNICAMP, Campinas, 1999. TROTSKY, Leon. The History of the Russian Revolution. Ann Arbour: University of Michigan, 1932. 16 TURNER, M.G.; GARGNER, R.H. l. Landscape Ecology in Theory and Practice: Pattern and Process. 2nd ed. New York: Springer, 2015 WILLIAMSON, M. 1981. Island Populations. Oxford University Press, Oxford, UK WINOGRAD, M. FERNANDÉZ, N., FRANCO, R. M. Marco conceptual para el desarrollo y uso de indicadores ambientales y de sustentabilidad para la toma de decisions en Lantinoamerica y el Caribe: position paper. Proyecto CIAT/UNEP. Cali, 1995. 17 Capítulo 2 – Indicadores sociais O foco deste segundo capítulo é apresentar as principais técnicas de transformação de indicadores, para finalidade de comparação e integração em índices, e em seguida discutir suas aplicações na construção de indicadores sociais. 2.1. Transformação de indicadores Podemos dividir as finalidades de transformação de indicadores em contextos de comparação, redistribuição e integração. Como os indicadores distintos podem apresentar unidades de medida e faixas de variação muito diferentes entre si, usualmente é preciso transformá-los, para que possam ser comparados com maior facilidade entre si. Um desafio metodológico comum para monitoramento e comparação de indicadores é que, caso algum dos indicadores apresente alguns casos com valores extremos (ou seja, muito acima ou muito abaixo dos valores mais frequentes), torna-se mais difícil visualizar e comparar toda a faixa de variação desses indicadores. Uma alternativa frequentemente utilizada é realizar transformações matemáticas que alterem a distribuição da frequência de cada valor, e assim reduzam o efeito desses valores extremos. Por fim, após estarem em unidades compatíveis de análises, os indicadores podem ser integrados em índices, por meio de medidas de centralidade ou do somatório de seus efeitos. Vamos discutir cada uma dessas possibilidades no decorrer dessa seção. 2.1.1. Transformações para comparação de indicadores 2.1.1.1. Reescalonamento Como usualmente os indicadores possuem distintas faixas de variação (limites de valores mínimos e máximos), uma prática comum é reescalonar cada indicador para que varie dentre de um limite entre 0 e 1, onde 0 seria o seu valor mínimo e 1 seria o seu valor máximo. Para atingir esse objetivo, pode-se aplicar a fórmula descrita na equação 1. 𝑋𝑖 − min⁡(𝑋) max(𝑋) − min⁡(𝑋) ( Equação 1) Onde, X é o indicador, Min(X) é o valor mínimo do indicador Max(X) é o valor máximo do indicador 18 Uma das dificuldades dessa técnica é que, caso algum indicador tenha algum valor extremo, ele vai ficar mais próximo do 0 ou do 1, e os demais indicadores irão ficar agrupados no extremo oposto, com pouco variação entre si. Alguns autores denominam essa transformação como “normalização”, porém consideramos inadequada essa terminologia, pois como veremos mais a frente nas próximas subseções, o termo “normalização” é mais corretamente utilizado quando se refere a transformações que alterem a distribuição de uma variável para que ela se aproxime de uma distribuição normal (valores próximos à média e pouco efeito de valores extremos). 2.1.1.2. Padronização Uma outra possibilidade para comparação de indicadores é a padronização, em que os valores são subtraídos de sua média (para que a média do novo indicador se torne 0 [zero]). Em seguida, os valores são divididos pelo desvio padrão dos dados (intensidade de variação dos dados em torno da média), de forma a que as unidades de medida deixem de ser a da escala original e passem a ser medidas em “desvios padrões”. Como todos os indicadores passam a ser medidos em “desvios padrões”, eles passam a ser comparáveis entre si. A fórmula para padronização é apresentada na equação 2, e a fórmula de desvio padrão é apresentada na equação 3. 𝑋𝑖 − 𝑚é𝑑𝑖𝑎(𝑋) 𝑑𝑒𝑠𝑣𝑖𝑜 𝑝𝑎𝑑𝑟ã𝑜 (𝑋) ∑(𝑥𝑖 − 𝑚é𝑑𝑖𝑎(𝑥))2 𝑑𝑒𝑠𝑣𝑖𝑜⁡𝑝𝑎𝑑𝑟ã𝑜⁡(𝑋) = ⁡ √ 𝑁 (Equação 2) (Equação 3) Onde N é o número de casos medidos para a variável Comparando as alternativas de reescalonamento com a de padronização, a de reescalonamento é mais simples para explicar ao público geral, além de facilitar a compreensão dos limites mínimos e máximos (0 e 1) nas análises. Todavia, a padronização é mais coerente em termos estatísticos, pois as variáveis passam a ser comparadas na mesma unidade de medida (unidades de desvio padrão). Desse modo, na prática, costuma-se usar mais o reescalonamento quando os índices serão apresentados diretamente ao público, ao passo que se costuma utilizar mais a padronização quando os dados serão utilizados, em uma etapa intermediária, como entrada para outros modelos estatísticos. Um dos requisitos para que a padronização cumpre bem sua finalidade é que os dados tenham uma distribuição aproximadamente normal. Ou seja, que a maior parte dos dados medidos esteja 19 próximo da média, e que haja poucos valores extremos, como ilustrados no histograma de distribuição da Figura 1. Nesse contexto, a padronização também é afetada por valores extremos, de forma semelhante ao reescalonamento. Figura 1 – Exemplo de uma distribuição normal. Note que 68,27% dos dados se encontram entre a média e 1 desvio padrão, para mais ou para menos; 95% dos dados encontram-se a até 2 desvios padrões da média; e 99,73% dos dados encontram-se a até 3 desvios padrões da média. 2.1.1.3. Padronização robusta Para diminuir o efeito de valores extremos para comparação de variáveis, alguns autores sugerem versões denominadas como “padronização robusta”. Uma das alternativas é utilizar a mediana (valor que separa os 50% dos dados maiores e os 50% dos dados menores), em vez da média, visto que a mediana é menos afetada por valores extremos. Outra alternativa é utilizar o intervalo interquartil, em vez de usar o desvio padrão para dividir os dados. O intervalo interquartil é a amplitude (diferença entre valores mínimos e máximos) descartando os 25% de casos de menor valor e os 25% de casos de maior valor. Assim, o intervalo interquartil também é menos afetado por valores extremos do que o desvio padrão. A equação 4 20 mostra como ficaria uma padronização robusta usando essas duas alternativas (mediana e intervalo interquartil) juntas. 2.1.1.4. 𝑋𝑖 − 𝑚𝑒𝑑𝑖𝑎𝑛𝑎(𝑋) 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙(𝑋) (Equação 4) Ranqueamento O ranqueamento, também denominado de reescalonamento não-paramétrico, consiste em ordenar os casos, do menor para o maior, e então atribuir um número referente à sua posição. Por exemplo, em um conjunto de 100 observações, o menor valor receberia o número 1, o segundo menor valor receberia o número 2, e assim por diante, até o maior valor, que receberia o número 100. O ranqueamento não é afetado por valores extremos e independe da normalidade da distribuição dos dados, e por isso é muito utilizado em um conjunto de técnicas de modelagem denominado de “estatística não-paramétrica”. Um problema desse tipo de transformação é que, se você trocar o maior valor por um número maior, por exemplo, 100 vezes maior, a sua posição no ranking não aumenta, e o seu indicador não mudaria. 2.1.2. Transformações para redistribuição na frequência dos dados Na seção anterior, vimos que a existência de valores extremos é um desafio para análise de indicadores, bem como também a ocorrência de distribuições não-normais. É possível utilizar transformações matemáticas com o objetivo de reduzir o efeito de valores extremos, e também de aproximar a distribuição dos dados a uma distribuição normal. Uma transformação muito comum, nesses casos, é a transformação logarítmica. O logarítmico é uma notação associada à potenciação, tal como podemos ver no exemplo a seguir: log10 (1000) = 3 Porque 103=1000 A transformação logarítmica faz com que haja uma maior diferenciação entre os dados com valores menores, mas reduz bastante o valor dos dados maiores (Figura 2). É importante lembrar que só há logaritmo de dados maiores que 0 (zero). 21 Figura 2 – Transformação logarítmica de base 10. O eixo horizontal são os dados originais, e o eixo vertical é o valor após a transformação logarítmica. Observe como a inclinação da curva é maior para os valores menores, e se torna cada vez menos inclinada ao passar para os valores maiores. Devido a essas propriedades, a transformação logarítmica é bastante utilizada para que conjuntos de dados com valores extremos possam se aproximar de uma distribuição normal. A Figura 3 ilustra como um conjunto de dados assimétrico, com muitos valores pequenos e alguns poucos valores extremos, aproxima-se de uma distribuição normal após a transformação logarítmica. Nota-se, na Figura 3, como os valores extremos, que estavam na metade direita do primeiro gráfico, são “arrastados” para a esquerda, aproximando-se dos demais dados. Figura 3 – A (esquerda): histograma de frequência dos dados originais. B (direita): dados após a transformação logarítmica. 22 Existem diversas outras transformações matemáticas, que podem ser úteis para lidar com valores extremos e para aproximar a distribuição de frequência a uma distribuição normal. A escolha sobre cada muda depende da distribuição original dos dados. Por exemplo, caso a distribuição dos dados originais seja relativamente menos assimétrica do que a apresentado na Figura 1A, então uma transformação por raiz quadrada pode ser mais efetiva para aproximar os dados a uma distribuição normal, como ilustra a Figura 4. Em outros casos, pode-se usar outros índices de raiz, tais como raiz cúbica, ou mesmo outras transformações, tais como elevar a alguma potência (por exemplo, elevar ao quadrado) ou inverter os valores (1/x). Figura 4 – A (esquerda): distribuição de frequência dos dados originais. B (direita): distribuição de frequência após transformação por raiz quadrada. 2.1.3. Transformações para integração de indicadores em índices Os índices podem ser definidos como uma combinação de dois ou mais indicadores. Após os índices se tornarem comparáveis, por exemplo, usando as técnicas descritas nas subseções anteriores, é possível integrá-los em um índice geral. Essa combinação pode ser feita por duas estratégias: • Reflexiva: é calculada uma média (ou outra tendência central) dos indicadores. • Formativa: os indicadores são somados. 23 2.1.3.1. Índices reflexívos Existem diversas medidas de tendência central que podem ser utilizadas para gerar índices. A Tabela 1, abaixo, apresenta as mais usuais. Tabela 1 – Medidas de tendência central frequentemente utilizadas para construção de índices reflexivos As estratégias para definir a ponderação diferenciada (para média aritmética ponderada) serão discutidos nos próximos capítulos desta apostila. A média geométrica é menos influenciada por valores extremos do que a média aritmética, e a média harmônica é ainda menos influenciada por valores extremos. Dentro do contexto de construção de índices socioeconômicos reflexivos, o uso das médias geométricas e harmônicas tem sido empregado quando se quer penalizar por um aumento extremo em apenas um dos indicadores. Dessa forma, premia-se quem tem um desenvolvimento equilibrado em todos os indicadores, mais do que quem apresenta apenas um indicador muito alto e os demais muito baixos. 2.2. Aplicações em indicadores socioeconômicos O uso de índices socioeconômicos, agregando diversos indicadores, é relevante sob o ponto de vista de que a qualidade de vida humana é complexa e apresenta diversas facetas. Antes da década de 1970, era comum a análise social com apenas os dados de renda. Todavia, gradualmente começaram a ser levantadas diversas críticas, pois, por exemplo, um cidadão negro em um bairro de periferia nos Estados Unidos poderia ganhar muito mais do que um indiano em uma área rural da Índia, mas o indiano poderia ter uma expectativa de vida muito maior, por ter maior segurança alimentar e laços sociais de solidariedade em sua comunidade (Veiga, 2015). 24 2.2.1. Índice de Desenvolvimento Humano - IDH O Índice de Desenvolvimento Humano foi um dos primeiros índices a serem empregados oficialmente pelas Nações Unidas. Ele parte de três dimensões (renda, saúde e educação), cada uma delas com o mesmo peso (1/3), e é calculado na forma demonstrada na Figura 5. A dimensão de conhecimento (educação) é composta por 2 indicadores, que também possuem o mesmo peso entre si. Figura 5 – Método de cálculo do Índice de Desenvolvimento Humano. Fonte: UN (2022). Cada um dos indicadores é reescalado, transformando seu valor entre 0 e 1, de acordo com os limites dispostos na Tabela 2. Atenta-se que o nível de renda sofre uma transformação logarítmica. Essa transformação faz com que haja uma maior diferença no indicador nas faixas menores de renda, e que quanto maior a renda, menor a influência no indicador final. Essa transformação logarítmica se justifica porque para indivíduos mais pobres, mesmo um pequeno aumento na renda é extremamente relevante para a segurança alimentar e realização das demais necessidades básicas (ANAND; SEN, 2000). Um exemplo disso é a relação entre expectativa de vida e renda, apresentada na Figura 6, e entre a porcentagem de população em pobreza extrema e a mortalidade infantil, apresentada na Figura 7. 25 Tabela 2 – Limites mínimos e máximos para os indicadores que compõem o IDH. Fonte: UN (2022) Dimensão Indicador Mínimo Máximo Saúde Expectativa de vida ao nascer (anos) 20 85 Anos esperados de estudo 0 18 Média de anos de estudo 0 15 100 75.000 Educação Nível de vida Log da Renda Nacional Bruta per capita (PPC $) Figura 6 – Efeito da renda sobre a expectativa de vida ao nascer, com destaque para a área com maiores privações às necessidades básicas. Fonte: https://ourworldindata.org/life-expectancy 26 Figura 7 – Relação entre porcentagem da população em pobreza extrema e a mortalidade infantil até 5 anos de idade. Fonte: https://ourworldindata.org/grapher/poverty-and-child-mortality A agregação dos índices de cada dimensão, no IDH, é realizada por média geométrica (Equação 5). A justificativa para usar a média geométrica, em vez da média aritmética, é de não privilegiar países que tenham apenas alta renda, mas que não se traduza efetivamente em melhor saúde e educação. Dessa forma, a média geométrica privilegia aqueles países com um desenvolvimento equilibrado nas três dimensões (UN, 2022). 3 𝐼𝐷𝐻 = √𝐼𝑠𝑎ú𝑑𝑒 ∗ 𝐼𝑒𝑑𝑢𝑐𝑎çã𝑜 ∗ 𝐼𝑟𝑒𝑛𝑑𝑎 (Equação 5) Ao fim, dependendo do resultado do IDH, cada país é classificado em níveis, apresentados na Tabela 3. Essa classificação em níveis é relevante para caracterizar qualitativamente o que é considerado alto ou baixo, e assim direcionar as políticas humanitárias. Um mapa com essa classificação dos países é apresentado na Figura 8. 27 Tabela 3 – Níveis de desenvolvimento humano (UN, 2022) Nível de Desenvolvimento Humano IDH Muito alto 0,8 e acima Alto 0,70 – 0,79 Médio 0,55 – 0,69 Baixo Menos que 0,55 Figura 8 – Mapa com a classificação dos níveis de desenvolvimento humano, a partir do IDH. Fonte: UN (2022). Outra maneira relevante de analisar o IDH é a sua variação ao longo do tempo, apresentada na Figura 9 (última década). É possível observar que os países mais pobres obtiveram um maior aumento no IDH, exceto pelos países com conflitos políticos internos e guerra civil. 28 Figura 9 – Taxa de crescimento do IDH de 2010 a 2020. Fonte: UN (2022). Além do cálculo do IDH nacional, o Programa das Nações Unidas para o Desenvolvimento (PNUD) apoia o cálculo do IDH em nível municipal em diversos países, inclusive o Brasil. Todavia, para realizar esse cálculo no Brasil, foi necessário fazer algumas adaptações em função dos dados disponíveis (Tabela 4). Tabela 4 – Adaptações no cálculo do IDH para o nível municipal. Fonte: IPEA, FJP e PNUD (2022). Dimensão IDH IDH Municipal Expectativa de vida Dados originais Anos de estudo Todas as idades Apenas da população jovem (até 20 anos) Renda PIB per capita Renda per capita (Censo) Indiretamente, a partir da expectativa estadual e de regiões metropolitanas A figura 10 mostra como mudou o IDH municipal no Brasil, de 1991 a 2010. Em 1991, a maior parte dos municípios do Brasil apresentavam IDH muito baixo, com o estado de São Paulo e o Sul 29 do Brasil apresentando municípios de IDH baixo, e apenas algumas regiões metropolitanas com IDH médio. Já em 2010, o Brasil apresenta municípios em todos os níveis de desenvolvimento, demonstrando uma forte desigualdade socioeconômica interna. Figura 10 – Evolução do IDH municipal no Brasil, de 1991 a 2010. Fonte: https://www.undp.org/pt/brazil/o-que-%C3%A9-o-idhm Com base nos dados socioeconômicos existentes a nível de censo e da Pesquisa Nacional de Amostra por Domicílios (PNAD), também têm se desenvolvido métodos para calcular o IDH intraurbano. A figura 11 mostra o IDH calculado para a Região Metropolitana do Rio de Janeiro. 30 Figura 11 – IDH intra-urbano na Região Metropolitana do Rio de Janeiro. Fonte: https://1.bp.blogspot.com/-InyoDdC33OA/VHSNEO_fioI/AAAAAAAASps/6yd6pEjJxCk/s1600/IDHM.jpg Os indicadores de saúde e educação utilizados no IDH variam muito lentamente ao longo dos anos. Por isso, têm se discutido sobre versões alternativas do IDH que possam ser utilizadas para avaliar o impacto de curto prazo de políticas públicas. Uma das propostas, apresentada por PNUD (2010), é de se utilizar a Taxa de Mortalidade Infantil para a dimensão de saúde, e o Índice de Desenvolvimento da Educação Básica (IDEB) para a dimensão de educação. 2.2.2. Índice de Desenvolvimento Humano – IDH ajustado à desigualdade Uma das limitações do IDH é que ele não leva em consideração a desigualdade socioeconômica interna à unidade de análise (pais, no caso da análise nacional). Por exemplo, um país pode ter uma renda muito alta, mas essa renda estar concentrada em uma pequena parcela da população. Por esse motivo, as Nações Unidas calculam também uma versão do IDH ajustado à desigualdade, do modo apresentado pela Figura 12. 31 Figura 12 – Método de cálculo do IDH ajustado à desigualdade. Fonte: UN (2022). Para fazer o ajuste à desigualdade de cada dimensão, cada índice de dimensão é multiplicado por um fator I, que penaliza pela desigualdade. Esse fator é calculado pela Equação 6, entendendo que quanto maior a desigualdade interna, maior será a diferença entre a média geométrica e a média aritmética dos dados utilizados e, portanto, maior será a penalização pela desigualdade (ATKINSON, 1970; FOSTER et al., 2005). 𝐼𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 à 𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑𝑒 = 𝑀é𝑑𝑖𝑎 𝑔𝑒𝑜𝑚é𝑡𝑟𝑖𝑐𝑎 ∗𝐼 𝑀é𝑑𝑖𝑎 𝑎𝑟𝑖𝑡𝑚é𝑡𝑖𝑐𝑎 (Equação 10) A Figura 13 mostra o mapa comparando o IDH com o IDH ajustado à desigualdade no mundo. Observa-se que, ao corrigir pela desigualdade socioeconômica, praticamente todos os países se rebaixam em ao menos um nível de IDH, exceto na América do Norte, Europa, Australia e Nova Zelândia. 32 Figura 13 – Comparação entre o IDH e o IDH ajustado à desigualdade, para 2021. Fonte: UN (2022) 2.2.3. Índice de Desenvolvimento Humano – IDH ajustado a desigualdades de gênero As nações unidas empregam dois índices relacionados ao IDH com modificações para analisar a desigualdade de gênero. O primeiro, denominado Índice de Desenvolvimento de Gênero - IDG, consiste na simples divisão entre o IDH calculado para as mulheres e o IDH calculado para os homens (Equação 11). O mapa da Figura 14 apresenta a distribuição no mundo, demonstrando que as maiores desigualdades de gênero ocorreriam na África, Oriente Médio e sul da Ásia. 𝐼𝐷𝐺 = 𝐼𝐷𝐻𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 𝐼𝐷𝐻𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜 (Equação 11) 33 Figura 14 – Índice de Desenvolvimento de Gênero (IDG) com dados de 2019. Outro índice, denominado Índice de Desigualdade de Gênero, agrega variáveis relacionadas às dimensões de saúde (Mortalidade maternal e Maternidade na Adolescência), empoderamento social (porcentagem de parlamentares de cada gênero e população com educação secundária) e trabalho (participação de cada gênero na força de trabalho). Os índices de cada uma dessas três dimensões são agregados para cada gênero, por média geométrica, usando a mesma justificativa utilizada para o cálculo do IDH (Equações 12 e 13). Nota-se, na Equação 12, que o gênero masculino apresenta pontuação máxima para a dimensão de saúde, visto não estar sob risco de mortalidade maternal ou de gravidez na adolescência. 34 (Equação 12) (Equação 13) Variáveis • • • • • Mortalidade Maternal (MM) Maternidade de adolescentes (FE) Porcentagem de parlamentares de cada gênero (PP) População com educação secundária (ES) Participação na força de trabalho (PFT) Por fim, é realizada uma média harmônica entre os valores obtidos para o gênero masculino e para o gênero feminino (Equação 14). Dessa maneira, avalia-se, por um lado, o desenvolvimento socioeconômico geral de ambos os gêneros, mas realiza-se uma grande penalidade a esse índice caso haja desigualdade entre os gêneros de homens e mulheres. É possível realizar a média harmônica para cada dimensão, ou então para o índice como um todo. O mapa da Figura 15 apresenta a espacialização desse índice em escala mundial. 𝐼𝑑𝑒𝑠𝑖𝑔𝑢𝑎𝑙𝑑𝑎𝑑𝑒 𝑑𝑒 𝑔ê𝑛𝑟𝑜 = 2 1 1 𝐺𝑓𝑒𝑚𝑖𝑛𝑖𝑛𝑜 + 𝐺𝑚𝑎𝑠𝑐𝑢𝑙𝑖𝑛𝑜 (Equação 14) Figura 15 – Mapa do Índice de Desigualdade de Gênero. Fonte: https://ourworldindata.org/grapher/gender-inequality-index-from-the-human-development-report 35 Referências Anand, S., and A. Sen. 2000. “The Income Component of the Human Development Index.” Journal of Human Development and Capabilities (1)1: 83–106. Atkinson, A. 1970. “On the Measurement of Economic Inequality.” Journal of Economic Theory 2(3): 244–263. Foster, J., L. Lopez-Calva and M. Szekely. 2005. “Measuring the Distribution of Human Development: Methodology and an Application in Mexico.” Journal of Human Development and Capabilities 6(1): 5–25. IPEA, FJP, PNUD. Aspectos metodológicos para o cálculo do Índice de Desenvolvimento Humano Municipal. Nota técnica 01/2022. Radar IDHM. PNUD. Valores e Desenvolvimento Humano 2010 Brasília. 2010. UN. Human development report. 2021/2022 VEIGA, José Eli. Para entender o desenvolvimento sustentável. Editora 34, 2015 36 Capítulo 3 – Indicadores ambientais O foco deste terceiro capítulo é apresentar as principais abordagens de construção, monitoramento e interpretação de indicadores relacionados ao meio ambiente e ao desenvolvimento sustentável. 3.1. Pressão – Estado - Resposta A OECD (Organization for the Co-operation and Development) (1994) em seu programa de monitoramento de indicadores ambientais dos países membros, propôs, um modelo conceitual de organização de indicadores denominado Pressão-Estado-Resposta (Figura 1). De acordo com esse modelo, a sociedade exerce pressão sobre o meio ambiente, seja pela poluição ou pelo uso de recursos naturais, e essa pressão pode ser monitorada por indicadores específicos. Em consequência dessas pressões, a qualidade do meio ambiente se altera e, portanto, podem ser selecionados indicadores para monitorar essas alterações. Por fim, em face do reconhecimento da degradação do meio ambiente, a sociedade pode decidir atuar sobre as atividades que pressionam o meio ambiente, de forma a mitigar ou compensar os impactos ambientais. Figura 1 – Modelo de indicadores de Pressão – Estado – Resposta. Posteriormente, a OECD (1998) ampliou o modelo de Pressão – Estado – Resposta, na forma do modelo Força Motriz – Pressão – Estado – Impacto – Resposta (Figura 2). As Forças Motrizes (drivers of change) se refeririam aos processos e demandas socioeconômicos mais gerais, que, por sua vez, causariam as Pressões propriamente ditas, que seriam as atividades impactantes no meio ambiente. As mudanças na qualidade do meio ambiente (Estado) causariam os Impactos 37 na sociedade, como problemas de saúde e demais prejuízos socioeconômicos, e esses impactos também poderiam ser monitorados por indicadores. Outra alteração conceitual é que as respostas passam a poder alterar todos os outros demais aspectos, e não só as pressões. Figura 2 – Modelo conceitual de Força Motriz – Pressão – Estado – Impacto – Resposta. Adaptado de Lima et al. (2017). Uma abordagem importante para o monitoramento ambiental é a de Serviços Ecossistêmicos definida por Constanza et al. (1997) como os benefícios para a população humana que derivam, direta ou indiretamente, das funções ecossistêmicas. Os serviços ecossistêmicos incluem tanto os serviços quanto os recursos naturais em si (bens), e abarcariam tanto os ecossistemas nativos quanto os já modificados pelo ser humano, como os ecossistemas agrícolas e urbanos. Os indicadores para avaliação dos serviços ecossistêmicos seriam divididos entre as categorias de provisão (consumo de recursos naturais), regulação (manutenção da qualidade do ambiente), culturais (incluindo relações com lazer, religião e educação), e de suporte (manutenção dos demais serviços, de forma indireta) (Figura 3). 38 Figura 3 – Categorias de serviços ecossistêmicos, com exemplos para cada categoria. Adaptado de UN (2003). Integrando a abordagem de Força Motriz – Pressão – Estado – Impacto – Resposta com a abordagem de serviços ecossistêmicos, a organização das Nações Unidas (UM, 2003) propôs um esquema de avaliação e monitoramento ambiental, apresentado na Figura 4. Nesse esquema, a Pressão seria denominada de “Fatores diretos de mudança”, ao passo que as forças motrizes seriam os “Fatores indiretos de mudança”. O estado do meio ambiente seria avaliado pelos serviços ecossistêmicos, e o impacto seria avaliado por indicadores de bem-estar e qualidade de vida. Esse monitoramento poderia ser realizado em diversas escalas, como global, regional ou local. 39 Figura 4 – Sistemas de avaliação e monitoramento ambiental proposto por UN (2003). 3.2. Indicadores de Desenvolvimento Sustentável Os programas das Nações Unidas de monitoramento de indicadores relacionados a questões ambientais e ao desenvolvimento sustentável se iniciaram a partir da Agenda 21, proposta na conferência ECO-92, em 1992, no Rio de Janeiro. A composição de indicadores escolhidos, e suas vinculações com questões ambientais, sociais, econômicas e de governança mudaram ao longo do tempo (Figura 5), passando pelos indicadores dos Objetivos do Milênio (2002-2015) e dos Objetivos de Desenvolvimento Sustentável (2015 em diante). No decorrer das décadas, nota-se que os indicadores abarcaram cada vez mais aspectos sociais, econômicos e de governança, na medida que o conceito de sustentabilidade foi ganhando conotação mais abrangente, e deixou te ser apenas restrito ao movimento ambientalista. A escolha de quais índices seriam utilizados também e jogo de uma intensa negociação, com interesses de cada setor representado nas conferências e grupos de trabalho das Nações Unidas. 40 Figura 5 – Composição do conjunto de indicadores para monitoramento do desenvolvimento sustentável, ao longo das décadas. A proposta de objetivos de desenvolvimento sustentável (ODS) feita inicialmente em 2007, foi modificada e consolidada em 2015. Fonte: Diaz‐Sarachaga et al. (2018). O programa dos Objetivos de Desenvolvimento dos Milênio (2002-2015) apresentou apenas 8 objetivos (Figura 6), e por serem poucos indicadores, apresenta um contexto interessante para refletir sobre as estratégias de seleção de indicadores. O Brasi atingiu 7 dos objetivos, menos o relacionado à diminuição da mortalidade materna. Analisando os demais países do mundo, a maior parte dos indicadores sociais, econômicos e de governança apresentaram avanças, mas os indicadores ambientais sofreram retrocessos. Por exemplo, houve um aumento da emissão de gases de efeito estufa (Figura 7), praticamente toda ocorrida nos países em desenvolvimento, ao passo que os países desenvolvidos mantiveram suas emissões altas, mas estáveis. O Brasil, do contrário, ao diminuir a taxa de desmatamento da Amazônia, conseguiu diminuir suas emissões. 41 Figura 6 – Objetivos do Milênio Figura 7 – Emissões de dióxido de carbono em 1990, 2000 e 2012 (mil milhões de toneladas métricas). Fonte: ONU (2015) 42 Outro objetivo do milênio que apresentou piora em níveis globais foi o de estoques pesqueiros, com um declínio ao longo de todo o período (Figura 8). A Figura 8 também mostra o volume de pescado, que se estagnou a partir de 1990, também indicando que as atividades de pesca teriam chegado no limite da reprodução dos estoques pesqueiros. Na Figura 9, é possível perceber que a porcentagem de reservas sobre exploradas continua aumentando até os dias atuais, e a situação é ainda mais crítica no Atlântico Sudoeste, onde fica a costa brasileira. Figura 8 – Proporção de reservas pesqueiras dentro dos seus limites biológicos seguros, 19742011 (Percentagem) e capturas de peixe, 1970-2013 (milhões de toneladas). Fonte: ONU (2015) Figura 9 – Porcentagem de estoques pesqueiros sobre explorados. Fonte: https://ourworldindata.org/grapher/share-of-fish-stocks-overexploited?time=1974..2017&country=OWID_WRL~Southwest+Atlantic+%28FAO%29 43 Um dos únicos indicadores ambientais que atingiu a meta em termos globais foi a redução das emissões de gases que destroem a camada de ozônio. Esse indicador já vinha em queda desde 1989, quando foi assinado o acordo internacional de Montreal para redução dessas emissões (Figura 10). Porém, é interessante refletir por que é que foi escolhido o indicador na forma de emissões (indicador de pressão) e não o indicador do tamanho do buraco na camada de ozônio (indicador de estado) (Figura 11). Após a diminuição da emissão dos gases abarcados pelo Protocolo de Montreal, o buraco na camada de ozônio parou de aumentar, porém não retornou mais aos valores anteriores. Há uma discussão atual se esse impacto ambiental seria irreversível na escala de tempo humana, ou então se há um problema no monitoramento do indicador de emissão de gases, seja por imprecisão do monitoramento pelos países, ou seja pelas emissões de novos gases não cobertos pelo protocolo de Montreal, sobre os quais ainda não haja pesquisa sobre seus efeitos na camada de ozônio. Figura 10 – Emissões totais e naturais de gases que destroem a camada de ozônio. Fonte: Ritchie e Roser (2023). 44 Figura 11 – Tamanho do buraco na camada de ozônio na Antártida. A linha tracejada em vermelha indicada o tamanho do buraco em 2021. Fonte: NASA Earth Observatory (2021) Outro indicador em que houve melhora de desempenho foi o de áreas protegidas, especialmente na América Latina (Figura 12). Nesse aspecto, a própria dinâmica do indicador apresenta algo que sempre cresce, e que dificilmente se reduziria. Além disso, há que se pensar por que é que foi escolhido o indicador de áreas protegidas (dimensão de resposta) e não o de área total de vegetação nativa. Conforme mostra a Figura 13, a área de florestas nativas no mundo tem se reduzido progressivamente, e especialmente no Brasil, a despeito do aumento da área de unidades de conservação. A escolha do indicador de áreas de florestas nativas da Figura 13, que é um indicador atualmente utilizado no monitoramento dos Objetivos de Desenvolvimento Sustentável (ODS), também pode ser questionada, por não levar em consideração os demais ecossistemas nativos nãoflorestais, como o cerrado e os campos nativos. Do ponto de vista metodológico, é mais simples monitorar o desmatamento de florestas por meio de sensoriamento remoto, ao passo de que é difícil diferenciar, em uma imagem de satélite, uma área campestre nativa e uma área campestre antrópica. Visto de outro modo, a opinião pública também em geral dá mais atenção aos ecossistemas florestais do que aos não-florestais. Enfim, a falta de monitoramento dos ecossistemas não-florestais torna esses ecossistemas “invisíveis”, ou seja, sua situação escapa aos olhos do público, dificulta-se a sua fiscalização, e deixam de ser alvo de metas de políticas públicas. 45 Figura 12 – Porcentagem de áreas terrestres protegidas entre 1990, 2000 e 2014. Fonte: ONU (2015) Figura 13 – Porcentagem de florestas na área terrestre. Exclui silvicultura e áreas verdes urbanas. Fonte: https://ourworldindata.org/grapher/forest-area-as-share-of-land-area?tab=chart&country=OWID_WRL~BRA 46 Dentre os indicadores sociais, um indicador em que houve algumas melhorais, mas não se conseguiu atender as metas globais, é de saneamento básico. Conforme mostra a Figura 14, as metas foram quase atingidas pelos países desenvolvidos e por parte dos países em desenvolvimento. A principal causa de não se atingir a meta global foi a dificuldade de investimento em saneamento para os países mais pobres, localizados na África Subsaariana, Oceania e Sul da Ásia. Nesse aspecto, também cabe a reflexão de porque é que se escolhei o indicador de saneamento básico (que se restringe à coleta do esgoto) e não ao tratamento do esgoto. Primeiramente, pode-se pensar que a coleta de esgoto exige um investimento menor que o tratamento e, portanto, seria um indicador mais facilmente alcançável, especialmente para os países mais pobres. Um outro aspecto, é que a coleta de esgoto já ocasiona uma queda considerável na ocorrência de doenças de veiculação hídrica, embora a descarga do esgoto concentrado cause um impacto ambiental maior nos ecossistemas aquáticos nos corpos hídricos. Desse modo, a escolha do indicador aponta uma maior preocupação com a saúde dos seres humanos do que em relação à dos demais seres vivos. As Figuras 15 e 16 mostram os dados atualizados desses indicadores (esgotamento sanitário e tratamento de efluentes) no mundo e em diferentes países. Observa-se que o Brasil, embora apresente altos valores no esgotamento sanitário, priorizou menos o tratamento de esgoto, até se tornar abaixo da média mundial, ao passo que outros países em desenvolvimento, com o China e Índia, têm investido mais no tratamento de esgoto. Figura 14 – Proporção da população que utiliza uma estrutura de saneamento básica, 1990 e 2015 (%). Fonte: ONU (2015) 47 Figura 15 – Porcentagem de acesso a esgotamento sanitário básico, 2000 a 2021. Fonte: https://ourworldindata.org/explorers/water-and-sanitation Figura 16 – Porcentagem de acesso a esgotamento sanitário seguro (tratamento de esgoto), 2000 a 2021. Fonte: Fonte: https://ourworldindata.org/explorers/water-and-sanitation 48 Em 2015, ao terminar o período dos Objetivos do Milênio, foi acordado o novo sistema de metas e indicadores, dos Objetivos de Desenvolvimento Sustentável (ODS) (Figura 17), a ser seguido até 2030. Comparando com o programa de Objetivos do Milênio, aumentou o número de objetivos, e dentro de cada objetivo aumentou ainda muito mais o número de indicadores utilizados, com suas respectivas metas. Por um lado, isso levantou críticas, de que seria difícil focar em “bandeiras” para que os países assumissem os compromissos para cumprir as metas. Por outro lado, a justificativa para ampliação dos indicadores e metas era ampliar a discussão sobre o desenvolvimento sustentável em diversas áreas de políticas públicas, e assim ter uma visão mais abrangente sobre a situação da sociedade e do ambiente, bem como do que precisa ser feito para alcançar a sustentabilidade. Figura 17 – Objetivos de Desenvolvimento Sustentável (ODS). Um dos indicadores utilizados para monitoramento da dimensão “Vida na Terra” é o de % de áreas importantes para a biodiversidade que estão protegidas. Para a construção desse indicador, há um levantamento global de áreas prioritárias para preservação, e então se computa, para cada país, qual é a porcentagem dessas áreas que estão protegidas na forma de unidades de conservação. 49 Observa-se, no gráfico da Figura 18, que apesar de haver um avanço geral no mundo, no Brasil esse indicador melhorou menos, e hoje o Brasil encontra-se dentro da média mundial, ao passo que a Europa se encontra com alto valor nesse indicador. Aqui caberia a reflexão, sobre porque se não se escolheu calcular esse indicador baseado nas áreas de importante biodiversidade protegidas em relação à área total de terra. Afinal, na Europa, a maior parte dos ecossistemas nativos já foi destruída a muitos séculos, e então é relativamente mais fácil proteger os poucos ecossistemas nativos que ainda restam, pontuando bem nesse indicador. Já para o Brasi, com uma grande extensão de áreas relevantes do ponto de vista ambiental, se torna relativamente mais oneroso ampliar as unidades de conservação sobre todas as áreas protegidas. Conforme se vê no mapa da Figura 19, também há vários países na África com alto índice de conservação nesse indicador. Em muitos desses países, apesar de terem sido criadas extensas unidades de conservação, no momento de sua independência a décadas atrás, a intercorrência de guerras civis e crises econômico-humanitárias dificultou muito a efetiva conservação de várias dessas áreas de importante biodiversidade. Figura 18 – Porcentagem de áreas de importante biodiversidade que estão protegidas, 2000 a 2021. Fonte: https://ourworldindata.org/grapher/protected-terrestrial-biodiversity-sites 50 Figura 19 – Mapa da porcentagem de áreas de importante biodiversidade que estão protegidas, 2021.Fonte: https://ourworldindata.org/grapher/protected-terrestrial-biodiversity-sites Uma contraparte da proteção de áreas de importante biodiversidade, agora na dimensão do ODS de vida nas águas, é a da porcentagem de áreas de importante biodiversidade de água doce que estão protegidas (Figura 20). Nesse indicador, houve uma relativa melhoria no mundo, ao longo das décadas, mas não no Brasil. De fato, diferentemente de outros países, o Brasil não incluiu como foco de suas políticas ambientais a criação de áreas de conservação voltadas para ambientes aquáticos, inclusive com poucas referências a isso nas leis de sistemas nacionais e estaduais de unidade de conservação. Novamente, cabe a reflexão sobre a extensão das áreas protegidas em diferentes países, causando o mesmo efeito de facilidade de alcançar esse indicador em países que apresentam poucas áreas de relevante biodiversidade aquática, como na Europa. 51 Figura 20 – Porcentagem de áreas de importante biodiversidade de água doce que estão protegidas, 2000 a 2021. Fonte: https://ourworldindata.org/grapher/proportion-of-important-sites-for-freshwaterbiodiversity-covered-by-protected-areas O programa de ODS da ONU mantém um Índice dos Objetivos de Desenvolvimento Sustentável, que expressa, conceitualmente, em que medida cada país está atingindo ou não os ODS (Figura 21). Para construção desse índice, utiliza-se o escalonamento de cada indicador entre 0 e 100, em que 100 significa que a meta foi atingida. Devido a grande quantidade de indicadores, alguns com metas mais objetivas que outros, e com muitos dados faltantes para alguns países, há diversos desafios metodológicos para o cálculo desse índice. Um aspecto interessante desse índice é que é também calculado um modificador de “transbordamento” (spillover), que leva em consideração os impactos socioambientais que um país causa nos demais países do mundo, como em virtude do consumo de recursos naturais e importação de produtos com potencial poluidor em sua cadeia de produção (Figura 22). Como mostra o gráfico da Figura 23 existe uma relação entre o PIB per capita e o efeito de transbordamento, como, por exemplo, na Suíça, em que 30% do seu impacto ambiental ocorreria dentro do país, e 70% ocorreria em outros países. Conforme o gráfico da Figura 24, o atendimento global (ponderado pela população) das metas dos ODS, calculado pelo Índice dos Objetivos de Desenvolvimento Sustentável, cresceu de 61% para 66% de 2010 até 2019, mas depois se estagnou, 52 muito em decorrência dos impactos socioeconômicos da pandemia de coronavírus. A inclinação da reta desse gráfico (Figura 23) deve ser interpretada com cuidado, pois o eixo vertical apresenta a variação apenas entre 61 e 67%. Figura 21 – Mapa do Índice de Objetivos de Desenvolvimento Sustentável. Fonte: Sachs et al. (2022) Figura 22 – Efeito do transbordamento (spillover) do impacto ambiental, utilizado para modificar o Índice de Objetivos de Desenvolvimento Sustentável. O valor apresentado seria o percentual do impacto que ocorre dentro do país, em relação ao impacto ambiental causado fora do país. Fonte: Sachs et al. (2022) 53 Figura 23 – Transbordamento (spillover) de impactos ambientais vs. PIB per capita ajustado por paridade do poder de compra. Fonte: Sachs et al. (2018) Figura 24 – Variação no Índice de Objetivos de Desenvolvimento Sustentável, expresso como % das metas atendidas, ponderada pela população, de 2010 a 2021. Fonte: Sachs et al. (2022). Em 2021, o Brasil encontra-se em 53º lugar no ranking dos 163 países em relação ao atingimento das metas dos objetivos de desenvolvimento sustentável (Sachs et al., 2022). Isso corresponde a 54 um atendimento de 76,8% das metas dos ODS, calculado pelo Índice dos ODS (Sachs et al., 2022), e comparado a uma média regional de 72,8% de alcance nos países da América Latina. Todavia, a decomposição desse índice nos diferentes indicadores no Brasil (Figura 25) mostra que alguns deles ainda apresentam grandes desafios, especialmente em relação à desigualdade socioeconômica. A ONU também fornece um painel de indicadores (Figura 26), como uma maneira de visualizar os desafios e tendências de cada indicador para cada país. Nesse caso, evidencia-se como os maiores desafios em relação aos ODS, no Brasil, além das desigualdades socioeconômicas que estão aumentando, estão relacionados aos objetivos de “Trabalho Descente e Crescimento Econômico”, “Vida na Água”, “Vida na Terra” e “Paz, Justiça e Instituições Eficazes”, e os indicadores referentes aos três primeiros objetivos encontram-se em estagnação, não apresentando tendência de melhoria. 1. Erradicação da pobreza 2. Fome zero e agricultura sustentável 3. Saúde e bem-estar 4. Educação de qualidade 5. Igualdade de gênero 6. Água limpa e saneamento 7. Energia limpa e acessível 8. Trabalho de decente e crescimento econômico 9. Inovação e infraestrutura 10. Redução das desigualdades 11. Cidades e comunidades sustentáveis 12. Consumo e produção responsáveis 13. Ação contra a mudança global do clima 14. Vida na água 15. Vida terrestre 16. Paz, justiça e instituições eficazes 17. Parcerias e meios de implementação Figura 25 – Decomposição do Índice de ODS, mostrando o porcentual de atingimento das metas no Brasil, para 2021. Fonte: Sachs et al. (2022). 55 Figura 26 – Painel de indicadores de Objetivos de Desenvolvimento Sustentável, para o Brasil, referente a 2021. Fonte: https://dashboards.sdgindex.org/profiles/brazil Referências Diaz‐Sarachaga, J. M., Jato‐Espino, D., & Castro‐Fresno, D. (2018). Is the Sustainable Development Goals (SDG) index an adequate framework to measure the progress of the 2030 Agenda? Sustainable Development, 26(6), 663-671. Lima, V. M., Costa, S. M. F. D., & Ribeiro, H. (2017). Uma contribuição da metodologia Peir para o estudo de uma pequena cidade na Amazônia: Ponta de Pedras, Pará. Saúde e sociedade, 26, 1071-1086. NASA Earth Observatory. Substantial Antarctic Ozone Hole in 2021. https://earthobservatory.nasa.gov/images/149010/substantial-antarctic-ozone-hole-in-2021 OECD (Organization for Economic Co-Operation and Development). Environmental Indicators. Paris, 1994. OECD (Organization for Economic Co-Operation and Development). Towards sustainable development: environmental indicators. Paris, 1998 Ritchie, H.; Roser, M. Ozone Layer. World Bank: our world in data. 2023. https://ourworldindata.org/ozone-layer 56 Sachs, J., Schmidt-Traub, G., Kroll, C., Lafortune, G., Fuller, G. (2018): SDG Index and Dashboards Report 2018. New York: Bertelsmann Stiftung and Sustainable Development Solutions Network (SDSN). Sachs, Jeffrey, Christian Kroll, Guillame Lafortune, Grayson Fuller, and Finn Woelm. Sustainable development report 2022. Cambridge University Press, 2022. ONU. Relatório Sobre os Objetivos de Desenvolvimento do Milénio. 2015. UN. MEA. Millennium Ecosystem Assessment. Ecosystems and Human Well-being: A Framework for Assessment (Island Press, 2003). 57 Capítulo 4 – Construção de indicadores O foco deste quarto capítulo é apresentar possibilidades metodológicas de construção de indicadores reflexivos e formativos, bem como discutir possibilidades de visualização espacial. 4.1. Indicadores reflexivos: redução de dimensionalidade O objetivo das técnicas de redução de dimensionalidade é criar indicadores (usualmente chamados de “componentes) que sintetizem o comportamento de um conjunto bem maior de variáveis. Ou seja, cada variável é considerada como uma “dimensão”, e os indicadores procuram explicar o máximo possível desses padrões dos dados, em um número reduzido de “dimensões”. Pensando de um ponto de vista prático, caso o pesquisador tenha uma tabela de dados, em que cada coluna seja uma variável, e cada linha seja uma observação na unidade de análise (município, habitante, setor censitário, etc.); então, após aplicar uma técnica de redução de dimensionalidade, seriam criadas algumas colunas a mais nessa tabela, com os novos indicadores construídos a partir da técnica escolhida. Existem várias técnicas de redução de dimensionalidade. Nesta apostila, vamos focar na técnica de Análise de Componentes Principais, por ser a técnica mais frequentemente utilizada, mais disponível em diversos programas de computador, e ser de mais fácil aprendizagem. Alguns autores recomendam que a Análise de Componentes Principais é mais adequada em contextos em que os dados seguem uma distribuição normal (maior parte dos dados próximos à média, com poucos valores extremos), e caso isso não ocorra, existem outras técnicas, como “Análise de Componentes Independentes” e “Multidimensional Scalling”. Além disso, ela é mais adequada para dados numéricos escalares, portanto, caso os dados sejam ordinais (1º, 2º, 3º, etc...) então há outras técnicas mais adequadas, como “Non-metric (Ordinal) Multidimensional Scalling”. Caso haja valores extremos, existem versões de Análise Componentes Principais com métodos robustos, que são menos afetados por esses valores extremos. E sempre há a possibilidade de efetuar alguma transformação matemática das variáveis (logaritmo, raiz quadrada, etc.) que a aproxime de uma distribuição normal ou reduza o efeito de valores extremos, como visto no capítulo 2 dessa apostila, antes de se realizar a técnica de redução de dimensionalidade. Além disso, se há dados categóricos (classes, etc.), há a possibilidade de utilizar a transformação de Distância de Gower (1971), para converter essas classes em números, antes de utilizar as técnicas de redução de dimensionalidade. As opções acima procuram sempre relações lineares entre os dados de entrada, mas caso haja relações não lineares (curvas, por exemplo), então técnicas como Análise de Componentes 58 Principais Não-Lineares (PRINCALS) e Análise de Componentes Principais de Kernel também podem ser utilizadas. A Análise de Componentes Principais procura gerar, sequencialmente (um a um), componentes (indicadores) que capturem ao máximo as tendências dos dados de entrada, usando relações lineares entre os dados. Visualmente, caso tenhamos apenas 2 variáveis, podemos visualizar essa atribuição sequencial dos componentes da Figura 1-A. Note que, na Análise de Componentes principais, cada novo componente é sempre perpendicular (ângulo de 90º) em relação ao componente anterior. Além disso, a Análise de Componentes Principais gera um número máximo de componentes iguais ao número de variáveis de entrada, sendo 2 componentes, no exemplo da Figura 1. Após a identificação dos eixos de tendência de cada componente, o gráfico (espaço dos atributos) é então rotacionado (Figura 1-B), para que os componentes identificados coincidam com os eixos horizontal e vertical, e assim sejam atribuídos novos valores a cada ponto identificado no gráfico rotacionado. Figuras 1-a e 1-b – A: Identificação dos componentes principais das variáveis A e B, equivalendo aos eixos de melhor explicação das tendências lineares entre essas variáveis. B: Rotação do gráfico (espaço de atributos), de forma a calcular os valores dos casos (pontos) de acordo com os componentes 1 e 2, que passam a ser os eixos horizontal e vertical do gráfico, respectivamente. Adaptado de: https://youtu.be/_UVHneBUBW0 A identificação de componentes para conjuntos de três variáveis de entrada segue o mesmo raciocínio, mas em vez de representar em um gráfico, é preciso representar em um cubo (Figuras 2 e 3-A). Note que, por haver 3 dimensões, é possível delimitar uma 3ª componente no espaço tridimensional. Em seguida, os eixos de cada dupla de componentes é identificado na forma de um plano no espaço tridimensional, e pode ser então rotacionado tridimensionalmente para a visualização do gráfico de componentes e cálculo dos seus valores (Figura 3-B). Caso haja mais 59 variáveis, o algoritmo de Análise de Componentes Principais segue o mesmo procedimento dos exemplos de 2 e 3 variáveis, porém é mais complexo de representar visualmente em gráficos. Figura 2 – Componentes principais identificados em um gráfico tridimensional de 3 variáveis. Fonte: https://www.joyofdata.de/blog/illustration-of-principal-component-analysis-pca/ 60 Figuras 3-a e 3-b: A: Identificação de componentes principais em um gráfico tridimensional de 3 variáveis. B: Identificação de um plano entre os eixos dos componentes 1 e 2, para posterior rotação e cálculo dos valores de cada componente. Adaptado de: https://youtu.be/_UVHneBUBW0 Após o cálculo das componentes principais, é possível visualizar, em uma tabela, qual é a sua relação com cada uma das variáveis que foram usadas para sua construção (Tabela 1). Assim, é possível saber se a relação é direta (positiva) ou inversa (negativa), e qual é o grau de relação com cada variável. Nesse momento, a partir da análise conjunta das relações entre componentes e variáveis de entrada, possível interpretar qual deve ser o significado, conceitualmente, de cada componente no contexto estudado. Com isso, podem ser atribuídos nomes interpretáveis para cada componentes, transformando-os em indicadores. Os componentes principais que não fizerem sentido conceitualmente não devem ser utilizados como indicadores. 61 Tabela 1 – Exemplo de relações entre componentes principais (colunas) e variáveis de entrada (linhas) relacionadas ao contexto de potencial de novos investimentos em centros comerciais de Londres. Os valores próximos a 1 apresentam relações diretas mais intensas, e próximos a -1, relações inversas mais intensas. Valores próximos a 0 (zero) indicam ausência de relação. Adaptado de Weber e Chapman (2011). Outra informação importante, obtida da análise de componentes principais, é a porcentagem que cada componente explica em relação às variáveis originais (Tabela 2). O primeiro componente sempre possui uma maior porcentagem, que vai de decrescendo, em relação aos demais componentes. Usualmente também é fornecido um percentual de explicação cumulativa, informando o quanto dos dados são explicados, caso sejam selecionados todos os indicadores até uma certa ordem. Em geral, os primeiros componentes, com maior porcentual de explicação, são os que também fazem mais sentido conceitualmente, enquanto os últimos componentes apresentam menor relação com as variáveis, e representariam o “ruído” não interpretável dos dados, sendo excluídos na seleção de indicadores. 62 Tabela 2 – Exemplo de % explicada de componentes principais (já com nomes interpretáveis atribuídos) sobre as variáveis relacionadas ao contexto do potencial de investimento em centros comerciais em Londres. Adaptado de Weber e Chapman (2011). Uma prática não aconselhável e muito criticada (Mondal et al., 2017; Mazziotta; Pareto, 2019), mas que é encontrada em diversos estudos, é utilizar o percentual de explicação de cada componente (como o apresentado na Tabela 2) para atribuir pesos usados na construção de índices integrados que agreguem mais de uma componente principal, seja em estratégias de agregação reflexivas (como uma média ponderada, por exemplo) ou somativas (soma ponderada de indicadores, por exemplo). Do ponto de vista matemático, tal prática é pouco útil, pois se pegarmos todas as componentes principais e calcularmos uma média ponderada a partir de seu percentual de explicação, o resultado seria equivalente a fazermos uma média simples das variáveis de entrada (devidamente padronizadas antes do cálculo da média). Além disso, do ponto de vista conceitual, deve-se procurar qual é o nível de importância de cada indicador (componente principal) dentro do contexto de estudo. Por exemplo, no estudo de Weber e Chapman (2011), exemplificado nas Tabelas 1 e 2, em seguida os investidores escolheram o peso que dariam a cada indicador (componente principal) em vista ao seu uso para procurar os centros de comércio mais adequados para cada perfil de novos investimentos em Londres. A maior parte das vezes, o porcentual explicado equivale às dimensões em que há maior disponibilidade de variáveis de entrada, e não necessariamente em relação à importância para o contexto de estudo. Por exemplo, se em uma região há uma grande disponibilidade de dados socioeconômicos e poucos dados ambientais, então as componentes principais vão refletir sua porcentagem de explicação para os dados socioeconômicos. Em último caso, se os pesquisadores concluírem pela inviabilidade de ponderar cada componente principal em relação ao contexto estudado, é mais sincero atribuir o mesmo peso para cada uma das componentes principais que faça “sentido” conceitualmente. 63 4.2. Modelagem multicritério. A Modelagem Multicritério pode ser definida como um conjunto de técnicas que para construir índices a partir de um conjunto de indicadores. Embora a forma mais simples é atribuir o mesmo peso para indicadores, em geral o termo “modelagem multicritério” abrange diversos procedimentos para ponderar esses indicadores na etapa de construção de índices. Essas ponderações, em cada contexto, podem corresponder à mensuração ou à estimativa de importância, influência, satisfação ou custo-benefício (trade-off). Quando os dados estão distribuídos no espaço, a modelagem multicritério permite que a integração dos indicadores ocorra para cada unidade de análise na área estudada, como mostrado nas figuras 4 e 5. Figura 4 – Atribuição de pesos diferentes para cada camada espacial de informação, e soma ponderada por modelagem multicritério. Fonte: https://www.gisandbeers.com/como-realizar-un-analisis-multicriterio-sig/ Figura 5 – Exemplo de álgebra raster utilizada em modelagem multicritério, em que a operação de agregação (neste exemplo, de soma) é aplicada a cada pixel (quadrícula) no mapa. Fonte: https://www.gisandbeers.com/como-realizar-un-analisis-multicriterio-sig/ 64 Uma das maneiras mais simples de realizar a ponderação de indicadores é pedir para um conjunto de convidados (especialistas, moradores, ou outros atores interessados ou experientes) para votar em qual dos indicadores seria mais relevante. Assim, é possível criar um indicador com a soma dos votos em cada indicador. Uma das limitações desse método é que ele informa apenas o indicador mais preferido de cada participante, e não a ordem de preferência do participante entre todos os indicadores. Uma alternativa mais informativa é pedir para cada convidado ranquear os indicadores, em sua ordem de preferência. A partir disso, é possível construir um indicador a partir da média dos rankings realizados. No ranqueamento, assim como nas demais técnicas que mostraremos a seguir, além da média do valor dado por cada participante, também é possível calcular o desvio padrão (Equação 1), que é “a médias dos desvios em relação à média dos dados” (grau de dispersão), e que pode ser utilizado como um índice de incerteza/discordância entre os convidados. O ranqueamento é mais informativo que a votação simples, mas ainda possui uma limitação, de que a “diferença” relativa entre dois indicadores podem não ser a mesma ao longo da ordenação. Por exemplo, a diferença de importância entre o 1º e o 2º indicador, para um candidato, não é necessariamente a mesma que entre o 2º e o 3º. ∑(𝑥𝑖 − 𝑚é𝑑𝑖𝑎(𝑥))2 𝑑𝑒𝑠𝑣𝑖𝑜⁡𝑝𝑎𝑑𝑟ã𝑜⁡(𝑋) = ⁡ √ 𝑁 (Equação 1) Uma terceira possibilidade é pedir para os participantes atribuírem pesos de acordo com a importância de cada indicador (por exemplo, de 1 para menos importante a 10 para mais importante), e depois calcular a média e desvio padrão de cada indicador. Nesses casos, sempre que possível, é importante usar critérios de referência para os pesos, especialmente os extremos (por exemplo: “1 significa .....”, “10 significa.....”). Especialmente nos casos em que não são colocadas essas referências, pode acontecer de alguns participantes atribuírem todos os pesos muito altos, enquanto outros coloquem todos os pesos muito baixos. O mesmo pode acontecer em relação dispersão, em que alguns participantes podem colocar todos os pesos muito semelhantes, enquanto outros participantes podem colocar todos os pesos muito diferentes entre si. Uma maneira de tentar diminuir os problemas referentes à essas diferenças entre os participantes é reescalar os dados de cada participante entre 0 (mínimo atribuído pelo participante) e 1 (máximo atribuído pelo participante), como já vimos no Capítulo 2 desta apostila. 65 4.2.1. Modelagem de influência entre indicadores Uma área relevante para a análise de indicadores, antes de sua integração, é o grau de influência dos indicadores entre si. Uma das técnicas mais utilizada para isso é a MicMac (Matriz de impactos cruzados com multiplicação aplicada à classificação). Inicialmente, constrói-se uma matriz cruzada, em que os indicadores são dispostos na mesma ordem tanto nas linhas quanto nas colunas (Tabela 3). As linhas correspondem aos indicadores influenciadores, e as colunas correspondem aos indicadores influenciados. Cada célula da matriz indicará o grau de influência do respectivo indicador influenciador (linha) sobre o indicador influenciado (coluna), com grau de 0 (nenhuma influência) a 3 (muita influência). A célula correspondente ao cruzamento de um indicador consigo próprio recebe sempre valor 0 (zero). A soma das linhas corresponde ao nível total de influência de cada indicador, e a soma das colunas corresponde ao nível total de dependência (ser influenciado) de cada indicador. Esses valores de influência e dependência correspondem às relações de primeira ordem. Tabela 4 – Matriz cruzada de influência entre indicadores. Adaptado de Godet (2001) Entendendo que essas relações formam uma rede, é possível construir um diagrama de redes, mostrando as relações entre os indicadores (Figura 6). Se somarmos não apenas as linhas que partem ou chegam de cada indicador, mas também as que chegam e partem dos vizinhos, chegamos em uma relação de 2ª ordem, e calcular novos valores de influência e dependência para cada indicador. Podemos aumentar a ordem da análise indefinidamente, embora, a partir de uma certa ordem, esses valores tendem a se estabilizar, e indicar os valores de influência e dependência mais “abrangentes” e “coerentes”. 66 É importante observar, no exemplo da Figura 6, que o tamanho dos círculos e a espessura das linhas não expressa a importância (impacto) de cada indicador para tomada de decisão, mas apenas a suas influências sobre os demais indicadores. No contexto específico da Figura 6, que é a dos riscos globais levantados pelos participantes do Fórum Econômico Mundial, os impactos e a sua respectiva probabilidade de acontecimento estão informados na Figura 7. Analisando as duas figuras de maneira integrada, entende-se que os impactos ambientais e de doenças infecciosas são os de maior impacto e probabilidade, mas os riscos geopolíticos e sociais são os de maior influência entre os indicadores. Isso mostra que, para lidar com os problemas ambientais e de saúde globais, é necessário se atentar para o contexto geopolítico e social que os influencia. Figura 6 – Diagrama de influência entre os fatores de risco globais levantados durante o Fórum Econômico Mundial. Adaptado de WEF, 2023. 67 Figura 7 – Impacto e probabilidade de ocorrência dos desastres em escala global, levantado no Fórum Econômico Mundial. Adaptado de WEF (2021). Escolhida uma ordem de análise, é possível fazer um gráfico de “influência X dependência” de cada indicador, e então classificá-los, da forma mostrada na Figura 8. Os indicadores com baixa dependência e baixa influência são classificados como autônomos. Os indicadores com alta influência e baixa dependência são classificados como motrizes, e geralmente são as causas dentro das cadeias de relações. Os indicadores com baixa influência e alta dependência são os “Resultados”, ou seja, expressão as consequências dos indicadores motrizes. Os indicadores com alta influência e dependência são classificados como indicadores de “Ligação”, pois ligariam os indicadores “Motrizes” aos “Resultados”. 68 Figura 8 – Classificação dos indicadores em razão de sua influência e dependência. Adaptado de Godet (2001). 4.2.2. Processo Analítico Hierárquico O Processo Analítico Hierárquico, proposto por Saaty (1981), é o processo de ponderação mais utilizado para modelagem multicriterial. Ele consiste, em sua base, em pedir para cada participante ponderar os indicadores par a par, de forma a reduzir a complexidade das comparações. Em seguida, as ponderações par a par de cada participante são re-escaladas entre 0 e 1. Por fim, é calculada uma média geométrica dos pesos atribuídos pelos participantes (Equação 2). O método também calcula uma razão de consistência, que indica se as ponderações par a par de cada participante estão coerentes entre si, ou, caso não estejam, indicam que o participante deve rever os pesos atribuídos. Média Geométrica = (Equação 2) Durante a ponderação par a par, cada participante deve escolher quantas vezes maior (ou menor) é a importância de uma variável em comparação com a outra. Em geral, usa-se uma escala semelhante à apresentada na Tabela 5. Esses valores são inseridos em uma matriz de relações entre os indicadores, em que o valor de um lado da matriz é o inverso do outro lado (Tabela 6). Por exemplo, se o indicador A é 4 vezes mais importante do que o indicador B, então o indicador B é 0,25 (ou seja, ¼) menos importante que o indicador A. 69 Tabela 5 – Valores de ponderação par a par no Processo Analítico Hierárquico Valor 9 9 vezes maior Extremamente mais importante 8 8 vezes maior 7 7 vezes maior 6 6 vezes maior 5 5 vezes maior 4 4 vezes maior 3 3 vezes maior Moderadamente mais importante 2 2 vezes maior Um pouco mais importante 1 igual Igual importância 0,5 2 vezes menor Um pouco menos importante 0,33 3 vezes menor Moderadamente menos importante 0,25 4 vezes menor 0,2 5 vezes menor 0,17 6 vezes menor 0,14 7 vezes menor 0,12 8 vezes menor 0,11 9 vezes menor Muito fortemente mais importante Fortemente mais importante Fortemente menos importante Muito fortemente menos importante Extremamente menos importante 70 Tabela 6 – Exemplo de itens ponderados par a par em uma Matriz, com os valores inversos em cada lado da diagonal. Em seguida, os valores são re-escalados entre 0 e 1, ao dividir pela soma de cada coluna. Ao fim, é retirada a média geométrica de cada linha. Uma medida de consistência para cada atributo é calculada pela multiplicação vetorial entre a linha de cada indicador e a coluna com as médias geométricas de todos os indicadores. Em seguida, um índice geral de consistência é calculado de acordo com a Equação 3. Em seguida, é gerado um índice de aleatoriedade, que é igual ao índice de consistência, porém com ponderações geradas ao acaso. A razão de consistência é calculada pela Equação 4, e se for maior que 0,1, é aconselhável que o participante revise os seus pesos atribuídos. (Equação 3) (Equação 4) 71 Referências Godet, M. (2001). Creating futures: Scenario Planning as a Strategic Management Tool. Economica Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Biometrics, 857871. MAZZIOTTA, Matteo; PARETO, Adriano. Use and misuse of PCA for measuring well-being. Social Indicators Research, v. 142, n. 2, p. 451-476, 2019. MONDAL, Debasish; MOOKHERJEE, Subikash; PATTANAYEK, Sanjoy Kumar. Does the analysis of principal components effectively help in determining actual weights for dimensions of an index? An appraisal in Indian context. International Journal of Management and Development Studies, v. 6, n. 10, p. 28-36, 2017. SAATY, Thomas Lorie. Decision Making for leaders: The analytical hierarchy process for decisions in a complex world. Lifetime Learning Publications, 1981. Weber, P., & Chapman, D. (2011). Location Intelligence: An Innovative Approach to Business Location Decision‐making. Transactions in GIS, 15(3), 309-328. World Economic Forum. The Global Risks Report 2021. 16th edition. 2021. World Economic Forum. The Global Risks Report 2023. 18th edition. 2023. 72 Capítulo 5 – Modelagem estatístico-espacial de indicadores O foco deste quinto capítulo é apresentar noções conceituais de inferência estatística, e estender essas noções para a área de estatística espacial. São apresentados casos de estudo trabalhando com indicadores espacializados para ilustrar esses contextos de inferência. 5.1. Modelagem de indicadores Podemos dividir as técnicas de modelagem em modelos determinísticos e estocásticos (Bolker, 2008; TURNER; GARDNER, 2015). Os modelos determinísticos consistem em funções matemáticas precisas, que explicam os processos detalhadamente. Os modelos estocásticos, por sua vez, fornecem uma explicação parcial dos processos, por modelos estatísticos. Os modelos estocásticos explicitam a frequência, a probabilidade e a incerteza dos fenômenos. É possível que um conjunto estudado de dados possa ser analisado de forma integrada, de forma determinística e estocástica, conforme ilustrado na figura 1. Figura 1 – Combinação de modelagem determinística e estocástica a um conjunto de dados. Adaptado de Bolker (2008) 5.2. Modelagem de indicadores aplicada a dados espacializados O processo análise de indicadores de dados distribuído no espaço é uma maneira prática de utilizar as técnicas de modelagem de indicadores estudadas nos capítulos anteriores desta apostila. Podemos ilustrar com o estudo de Nascimento et al. (2015), sobre o planejamento de conservação dos remanescentes de mata atlântica no Pontal do Paranapanema, no estado de São Paulo. Inicialmente, utilizaram-se técnicas de sensoriamento remoto para mapear como houve o 73 processo histórico de desmatamento e fragmentação da mata atlântica na área de estudo (Figura 2). Em seguida, com base em levantamentos de fauna, construíram-se modelos sobre como a diminuição da área dos fragmentos de mata atlântica afetou a biodiversidade de animais sensíveis ao tamanho de cada fragmento (Figura 3). Figura 2 – Mapeamento da cobertura de mata atlântica de 1956 a 2003 no Pontal do Paranapanema, estado de São Paulo. Fonte: Nascimento et al. (2015) 74 Figura 3 – Modelagem da riqueza de espécies sensíveis ao tamanho de fragmentos florestais no Pontal do Paranapanema, estado de São Paulo. Fonte: Nascimento et al. (2015). Com base nessa compreensão quantitativa dos modelos, foi realizada uma modelagem multicritérios espacializada de áreas prioritárias para conservação e restauração florestal, em que foram atribuídos pesos diferenciados para as camadas espaciais de distância a áreas de preservação permanente, distância aos fragmentos de vegetação nativa, e distância aos limites de propriedades rurais (Figura 4). Com base na combinação dessas camadas de informação, foi criado um mapa integrado de prioridades de conservação e restauração florestal (Figura 4). Esse mapa foi discutido com representantes de grupos sociais interessados, para fazer uma proposta de restauração de corredores ecológicos que consigam, com o menor custo econômico, fazer o maior aumento na biodiversidade por meio da conexão dos fragmentos remanescentes de mata atlântica (Figura 5). 75 Figura 4 – Modelagem multicritério, utilizando camadas de informação para elaboração de um mapa de prioridade de conservação e restauração da Mata Atlântica no Pontal do Paranapanema. Adaptado de Nascimento et al. (2015) Figura 5 – Proposta de conservação e restauração de corredores ecológicos no Pontal do Paranapanema. Fonte: Nascimento et al. (2015). 76 5.2.1. Processo analítico hierárquico aplicado a dados espacializados O Processo Analítico Hierárquico (Saaty, 1981), utilizado para ponderações de indicadores e estudado no capítulo 4 desta apostila, pode ser aplicado como base para a modelagem multicritério espacial. A tabela 1 mostra um exemplo de ponderação de camadas espaciais para analisar quais áreas seriam mais favoráveis para instalação de empreendimentos de piscicultura (Francisco et al., 2019). À esquerda da Tabela 1, estão as ponderações cruzadas originais atribuídas pelos especialistas e profissionais da área. Ao centro está a mesma matriz, reescalada entre 0 e 1. Na metade direita da tabela 1, encontram-se os pesos atribuídos a cada camada de informação ao final do processo, e a Razão de Consistência (RC), que ficou baixo de 0,1, indicando boa coerência na atribuição dos pesos da matriz cruzada. Tabela 1 – Ponderação da relevância de camadas espaciais por Processo Analítico Hierárquico. Fonte: Francisco et al. (2019) Onde: S = Declividade A = Altitude T = Tipo de solos U = Uso e ocupação do solo w = Peso final das variáveis IC = Índice de consistência RC = Razão de consistência Esse mesmo procedimento de Processo Analítico Hierárquico também foi aplicado às classes de cada uma das camadas espaciais, de forma a atribuir valores para cada classe mapeada (Francisco et al., 2019) para a região Centro-Sul do estado do Paraná. A partir da ponderação das classes de cada camada espacial, foi possível criar um mapa de aptidão para cada dimensão (Figura 6). Em seguida, esses mapas de aptidão foram integrados em um mapa final de potencialidade da atividade 77 de piscicultura. Como complemento para uma análise desse potencial, também foram preparados mapas com a localização de eixos de transporte, para escoamento dos produtos, de nascentes que necessitariam ser preservadas, e de áreas urbanizadas não aptas para piscicultura, e que foram incluídos no mapa de aptidão integrada (Figura 6). Figura 6 – Transformação das informações de cada camada espacial de informações em mapas parciais de aptidão (esquerda) e integração dos mapas de aptidão em um mapa final de aptidão à piscicultura, utilizando os pesos obtidos pelo Processo Analítico Hierárquico. Adaptado de Francisco et al. (2019). 78 5.2.2. Mapas de kernel Em alguns contextos, possuímos uma grande quantidade de pontos sobre uma camada de informação espacial, de forma que os pontos começam a se sobrepor visualmente e se torna difícil analisar os padrões espaciais. Uma técnica de análise espacial utilizada para esses casos é a de mapas de kernel, também comumente chamados de “mapas de calor”. Nesses mapas, cada ponto é transformado em um pequeno “monte”, com valor mais alto no centro do ponto, e com queda suave para o seu entorno (Figura 7). A elevação dos “montes” que se intersectam é somada, pixel a pixel, em uma camada espacial matricial (Figura 7), gerando um mapa de kernel final (Figura 8). A unidade de medida do mapa de kernel é de ocorrências por unidade de área, por exemplo, casos/km 2. A Figura 9 mostra um exemplo sobre como os pontos de queimadas podem ser visualizados na forma de um mapa de kernel, indicando as áreas com maior intensidade de eventos de queimada. Figura 7 – Esquema conceitual de mapas de kernel, a partir de um ponto isolado (esquerda) e do somatório das interseções de kernel (direita). Fonte: Bergamaschi (2010). 79 Figura 8 – Exemplo de somatório das intensidades de kernel dos pontos individuais (esquerda), gerando um mapa integrado de kernel (direita). Figura 9 – Transformação de uma base espacial de pontos em um mapa de kernel. Fonte: Kazmierczak (2015). O estudo de áreas potenciais de piscicultura apresentado na subseção anterior (Francisco et al., 2019) foi complementado por um mapa de kernel da distribuição atual de empreendimentos de 80 piscicultura existentes (Figura 10). O tamanho da elevação de kernel de cada ponto foi ponderado por sua área, e, considerando um potencial de produção de 54 t/ha/ano, o mapa de kernel expressa o potencial de produção de pescado. Destaca-se ainda nesse mapa, a localização do eixo viário principal, evidenciando a importância do canal do escoamento para a escolha locacional. O mapa também apresenta o ponto médio (média das coordenadas de latitude e longitude de todos os pontos) e a elipse de desvio padrão locacional, a qual equivale a média da distância dos pontos em relação ao ponto médio. O conjunto de informações nesse mapa apresenta informações relevantes para a instalação de empreendimentos relacionados à cadeia da piscicultura, tais como fornecimento de insumos, ou processamento das carnes (Francisco et al., 2020). Figura 10 – Localização dos polígonos de empreendimentos de piscicultura na região Centro-Sul do estado do Paraná (esquerda), gerando um mapa de kernel ponderado pela área e pelo potencial de produção de pescado (direita), incluindo também o ponto médio e a elipse de desvio padrão. Fonte: Francisco et al. (2020). 81 5.3. Modelos de Regressão Os modelos de regressão tentam explicar um determinado indicador (variável explicada, também denominada como dependente, ou como variável resposta), com base na variação de um ou mais indicadores (variáveis explicativas, também denominadas de independentes, ou variáveis preditoras). O modelo de uma regressão simples, com uma variável explicada e outra variável explicativa, pode ser sintetizado na Equação 1. Nota-se que a Equação 1 também apresenta um parâmetro de “erro”, visto que raramente um modelo consegue explicar totalmente a variação da variável resposta. (Equação 1) O modelo de regressão simples pode ser visualizado na forma de uma reta em um gráfico em que a variável resposta encontra-se no eixo vertical e a variável preditora encontra-se no eixo horizontal (Figura 11). A reta, que é descrita pela equação 1, é aquela que mais se aproxima dos pontos (observações). A distância entre os pontos e a reta é o erro do modelo, que tenta ser minimizado ao máximo possível pelo modelo de regressão. O intercepto populacional, mostrado na Figura 11, é o valor de Y (variável resposta) no ponto em que a reta cruza o valor 0 (zero) no eixo horizontal (variável preditora). O parâmetro de inclinação populacional (também denominado de coeficiente angular), como demonstrado na Figura 11, está relacionado à inclinação da reta no respectivo gráfico, e representa em quantas unidades aumenta a variável resposta, para cada aumento de uma unidade na variável preditora. 82 Figura 11 – Relação entre a equação de regressão simples e sua representação gráfica O modelo de regressão simples (Equação 1) pode ser estendido para incorporar o efeito de mais de uma variável preditora, na forma da Equação 2. Observa-se que a variável Y (resposta) equivale ao somatório de cada dupla de um coeficiente de inclinação multiplicado pela sua respectiva variável preditora. Yi=0+1Xi1 + 2Xi2 +…+ pXip + i (Equação 2) Onde Yi é o valor da variável resposta na i-ésima observação 0, …, p são parâmetros Xi1 ,…,Xip são os valores das variáveis preditoras na i-ésima observação i é o termo de erro aleatório O potencial de explicação de um modelo de regressão é avaliado por meio de um coeficiente de determinação, usualmente denominado como R 2, que varia entre 0 e 1. O valor 1 significa que o modelo explicaria completamente o comportamento da variável resposta, sem nenhum erro. O valor 0 (zero), por sua vez, indica que o modelo não encontrou uma relação linear identificável entre as variáveis explicativas e a variável resposta; ou seja, em termos práticos, as variáveis preditoras não são úteis para explicar o comportamento da variável resposta. A figura 12 mostra, de forma gráfica, 83 exemplos de coeficientes de determinação (R 2) relacionados à dispersão dos pontos observados em relação à reta da equação de regressão. Figura 12 – Exemplos de um modelo de regressão de alto potencial de explicação (esquerda) e de outro sem nenhum potencial de explicação (direita). Exemplificando a aplicação de modelos de regressão em indicadores sociais, econômicos e ambientais, Neve e Sachs (2020a) construíram modelos de regressão para avaliar como diversos indicadores, alguns deles trabalhados nos capítulos anteriores desta apostila, podem ser utilizados para explicar o grau de satisfação com a vida dos habitantes em diversos países no mundo. Entre os indicadores explicativos, estão o Índice de Atendimento aos Objetivos de Desenvolvimento Sustentável (porcentagem de atendimentos desses objetivos), o Índice de Competitividade Econômica, o Índice de Liberdade Econômica (nível de desregulamentação da economia), o Índice de Desenvolvimento Humano – IDH (integrando renda, educação e expectativa de vida), o Índice Global de Paz (ausência de conflitos internos e externos, e de violência), o Índice de Performance Ambiental (nível em que a qualidade do ambiente afeta a expectativa de vida dos habitantes), e o PIB per Capita (medida de renda). Os resultados dos diferentes modelos de regressão estão apresentados na Tabela 2. Cada coluna da Tabela 2 representa um modelo de regressão, mostrando que primeiramente foram realizados um modelo para analisar a influência de cada índice sobre a satisfação de vida, e em seguida (lado direito da tabela) foi realizado um modelo incluindo todos os índices ao mesmo tempo, e um último modelo incluindo apenas a variáveis com maior certeza estatística (menor valor-p) A interseção entre linhas e colunas, na Tabela 2, mostra os coeficientes dos modelos, indicando quanto de variação em um índice influencia na mudança da satisfação com a vida. O número de asteriscos em cada coeficiente relaciona-se ao valor-p, que indica o grau de incerteza de que a variável preditora 84 apresenta influência sobre a variável resposta. Quanto menor o valor-p, maior é a certeza de que há uma influência identificada no modelo. Por exemplo, um valor-p menor que 0,05 indicaria, em termos práticos, que há uma certeza de mais de 95% de existir uma influência real da respectiva variável preditora sobre a variável resposta. Na linha abaixo de cada coluna, está representado o R2 de cada modelo, subtraído de uma penalidade referente à incerteza devido à complexidade (número de variáveis) dos modelos, para permitir a comparação entre eles. Observa-se, na Tabela 2, que quando analisados separadamente, todos os índices globais apresentam alto grau de certeza (valor-p < 0,01) quanto à sua relação com a satisfação com a vida. Os índices com maior influência (coeficiente angular), do maior par ao menor, são o Índice de Desenvolvimento Humano, o Índice de Competitividade Econômica, o Índice dos Objetivos de Desenvolvimento Sustentável e o Índice de Performance Ambiental. Em relação à capacidade de explicação de cada modelo, o Índice de Desenvolvimento Humano foi o que apresentou menor erro, seguido do Índice dos Objetivos de Desenvolvimento Sustentável e do Índice de Performance Ambiental, e os piores foram o Índice de Liberdade Econômica e o PIB per capita. Tabela 2 – Resultados dos modelos de regressão dos índices globais em relação à satisfação com a vida dos habitantes de cada país. Adaptado de Neve e Sachs (2020). Onde: * valor-p<0,1, ** valor-p<0,05, *** valor-p<0,01. N = número de países com dados em cada modelo. Todavia, à direita na Tabela 2, quando todos os índices são colocados em uma regressão múltipla, então apenas o Índice de Objetivos do Desenvolvimento Sustentável, o Índice de Performance Ambiental e o PIB per Capita se tornam estatisticamente significativos (valor-p<0,05). Isso mostra 85 que a variação dos demais índices, na verdade, já estariam sendo contemplados pela variação desses 3 índices acima citados. A última coluna mostra como a combinação desses 3 índices apresenta um modelo mais objetivo e coerente, em que o Índice dos Objetivos do Desenvolvimento Sustentável é o que mais contribui para a satisfação de vida, complementado pelo PIB per capita, e, por último, pelo Índice de Performance Ambiental. A relação gráfica entre o Índice de Objetivos de Desenvolvimento Sustentável e a Satisfação com a Vida é apresentada na figura 13. Observa-se que há uma relação curvilínea, e que a curva é mais inclinada nos países que melhor atingem os Índices de Desenvolvimento Sustentável. Tendo em vista que a influência da Renda para a satisfação com a vida é maior nos países mais pobres e que a influência dessa relação desaparece após a renda per capita de aproximadamente 45.000 dólares por ano (INGLEHART; KLINGEMANN, 2000) (Figura 14), Neve e Sach (2020a, 2020b) propõem que nos países mais ricos, o atingimento de metas referentes à sustentabilidade ambiental, social e econômica seria mais relevante para explicar a satisfação de vida do que a renda per capita. Figura 13 – Relação entre os Índices de Objetivos do Desenvolvimento Sustentável (ODS) e a Satisfação com a vida de diferentes países. Adaptado de Neve e Sachs (2020b). 86 Figura 14 – Relação entre a renda per capita e a satisfação com a vida. A seta vermelha sintetiza a tendência geral, e a linha tracejada azul aponta o limite a partir do qual o aumento de renda deixaria de se traduzir em maior satisfação com a vida. Dados de 2021. Fonte: https://ourworldindata.org/grapher/gdp-vs-happiness?xScale=linear . 5.4. Modelos de Regressão Espacial Há diversos modelos de regressão que procuram incorporar a localização dos dados para melhor explicar as variáveis resposta, e inclusive analisar esses resultados espacialmente. Podemos dividir esses modelos de regressões espaciais em dois grandes grupos: locais e globais (Fotheringham et al., 2002). As regressões espaciais locais procuram mostrar como a influência das variáveis preditoras podem se alterar ao longo do espaço. Dessa forma, assume-se que cada região do espaço estudado pode ter uma dinâmica própria, com processos que dependam mais de algum ou de outro aspecto social ou ambiental. Um exemplo de regressão espacial local, que analisaremos a seguir, é o da Regressão Ponderada Geograficamente (Geographically Weighted Regression – GWR). Já as regressões espaciais globais procuram um padrão de relações entre unidades espaciais vizinhas, e partem de um pressuposto de que essa relação entre vizinhos ocorre de uma maneira comum em toda a área estudada. Desse grupo, tomaremos como exemplo a Regressão Spatial Lag, mais a frente. 87 5.4.1. Regressão ponderada geograficamente A ideia básica por trás da regressão geograficamente ponderada é que a influenciadas variáveis preditivas sobre a variável resposta se alteram ao longo das áreas de estudo. Para identificar isso, em vez de fazer um modelo de regressão com todos os dados da área de estudo, fazem-se vários modelos, um com foco em cada caso observado, e tomando como base de casos para cada um desses modelos, apenas os casos de unidades vizinhas. Essa seleção de unidades vizinhas para cada modelo de regressão pode ser observado na Figura 15. Os pontos mais próximos do ponto focal recebem uma valorização maior durante a calibração do modelo de regressão, e os pontos mais distantes, próximos à borda do “cone”, recebem um peso menor, conforme mostrado na Figura 16. A várias opções de largura e forma da função de ponderação podem ser testados de maneira automática ou manual nos programas de geoprocessamento, de forma a escolher os parâmetros geram os modelos com maior potencial de explicação. Os resultados do modelo de regressão são armazenados como um atributo dentro do ponto focal. Os pontos fora do “cone” não são considerados nesse submodelo, específico. Porém, como é realizado um modelo para cada ponto focal, ao fim todos os pontos são considerados em algum momento e, assim, todos os pontos recebem os resultados de um modelo de regressão. Figura 15 – Esquema mostrando os pontos selecionados para o modelo de regressão de um ponto focal. Adaptado de: https://www.bristol.ac.uk/media-library/sites/cmpo/migrated/documents/gwr.pdf 88 Figura 16 – Perfil de uma função de ponderação de uma regressão ponderada geograficamente. O eixo vertical é a importância do ponto na regressão, e o valor dessa importância vai diminuindo conforme se afasta do ponto central (X). Adptado de Fotheringham et al. (2002). Como um exemplo dos resultados de uma regressão ponderada geograficamente, temos o caso da modelagem de risco de queimadas na província de Yunnan, China, realizada por Li et al. (2022), a partir dos focos de incêndio delimitados por sensoriamento remoto (Figura 17). Após a realização da regressão, um dos produtos possíveis são os mapas mostrando como os coeficientes variam no espaço. Na Figura 18, mostram-se duas das variáveis preditivas utilizadas, a umidade e a distância a rodovias, para ilustrar como uma variável natural, e outra relacionada à ocupação humana. Observa-se, na Figura 18, que ambas as variáveis explicativas possuem coeficientes negativos em toda região, ou seja, quanto maior a umidade e quanto mais distante das estradas, menor o risco de incêndios. As regiões em que os coeficientes de cada variável explicativa são mais distantes de 0 (zero) mostram as regiões onde há maior influência dessas variáveis sobre a variável preditiva. Ou seja, a oeste de Yunnan, uma variação na umidade pode amplificar ou reduzir o risco de incêndios, de forma maior do que ao leste da província. Já para a distância das rodovias, a região Sul é onde há maior influência da distância de rodovias em relação às queimadas. 89 Figura 17 – Focos de incêndio na província de Yunnan, China. Fonte: Li et al. (2022) Figura 18 – Coeficientes de umidade e distância às estradas, como preditoras do risco de ocorrências de incêndios florestais na província de Yunnan, China. Adaptado de Li et al. (2022). Outro produto espacializável de uma regressão ponderada geograficamente é o erro dos modelos sobre cada ponto focal. A Figura 19 mostra o erro dos modelos para as duas variáveis apresentadas na Figura 18. Pode-se perceber que justamente onde a variação da umidade apresenta maior influência no risco de queimadas, é a região onde o modelo apresenta maiores erros, ao passo que 90 na área central da província há uma maior segurança do modelo. Em relação à distância a rodovias, os padrões espaciais de erro (Figura 19) diferem dos padrões espaciais de influência (Figura 18), sendo o modelo mais acurado a oeste da província, e menos acurado a leste. Figura 19 – Erro padrão associado aos coeficientes de umidade e distância às rodovias do modelo de regressão ponderada geograficamente em relação ao risco de incêndios florestais na província de Yunnan, China. Adaptado de Li et al. (2022). Por fim, o resultado da regressão geograficamente ponderado obtido pelos coeficientes dos dados climáticos e de ocupação podem geraram enfim um mapa de riscos de queimadas (Figura 20). Figura 20 – Risco de incêndios florestais, a partir dos resultados modelados pela regressão ponderada geograficamente. Fonte: Li et al. (2022) 91 5.4.2. Regressão global spatial lag Entre os modelos de regressão global, o modelo Spatial Lag é o mais simples. Ele assume que o resultado da variável resposta um caso (unidade de análise, que pode ser um município, setor censitário, ou outra delimitação qualquer), depende não apenas das variáveis explicativas, mas também do valor da própria variável resposta nas unidades de análise vizinhas (Anselin, 2005). Essa influência dos vizinhos pode ocorrer por vários motivos, dependendo do contexto a ser modelado. Por exemplo, pode se referir à influência de um polo econômico sobre desenvolvimento dos municípios vizinhos, ou sobre a transmissão de doenças entre áreas próximas, ou sobre a circulação de pessoas entre regiões vizinhas para acesso a serviços. A equação spatial lag insere um termo específico na equação de regressão (Equação 3), que se refere a como o valor da variável resposta Y na área i é afetado pelos valores da variável resposta nas áreas vizinhas a i. (equação 3) Onde:  = coeficiente espacial autoregressivo - medida de correlação espacial, ou seja, o quanto os vizinhos influenciam o valor da variável resposta ( = 0, se autocorrelação, ou seja, a influência é nula) W = matriz de proximidade espacial, indicando o nível de influência em relação à distância ou vizinhança WY expressa a dependência espacial em Y Como exemplo, Costa et al. (2021) modelaram a influência da coleta de resíduos sólidos na incidência de casos de Dengue, Zica e Chikungunya (doenças transmitidas pelo mosquito Aedes aegypti) no município de São Luiz do Maranhão, utilizando o modelo de regressão spatial lag. O objetivo de incluir a influência dos vizinhos é porque o mosquito vetor dessas doenças pode se reproduzir em um local, e voar para os locais vizinhos, picando os moradores próximos. Além disso, os moradores também podem se deslocar para setores censitários vizinhos e serem picados, contraindo a doença. O coeficiente de espacial (equação 3) foi de aproximadamente 0,5, mostrando que aproximadamente 50% dos casos dessas doenças podem ser atribuídos em virtude dos casos nos setores censitários vizinhos, com um valor-p < 0,001, ou seja, com um grau de certeza de que as relações de vizinhança afetam o espalhamento da doença, em mais de 99,9%. O coeficiente foi negativo, mostrando que a cada aumento de 1% no número de domicílios atendidos por coleta de resíduos sólidos em um setor, diminui em 0,26 o número casos, com valor-p de 0,03, o que aponta 92 como essa política pública pode ser relevante para a saúde pública. O coeficiente de determinação (R2) do modelo, como um todo, foi de 0,5, mostrando que o modelo só explica metade da variação dos casos, e que ainda deve haver outros diversos fatores, não incluídos no modelo, que afetam a incidência dessas doenças. Ainda referente ao estudo de Costa et al. (2021), é interessante comparar os mapas de incidência da doença (Figura 21 - esquerda) com o mapa resultado da análise LISA maps (Indicadores locais de autocorrelação) dos resíduos (erros) do modelo (Figura 21 - direita). A análise de LISA map (Anselin, 1996) identifica núcleos de polígonos (no caso setores censitários) que apresentam associações da seguinte estrutura: valores altos no polígono e também altos nos polígonos vizinhos; valores altos no polígono, mas baixos nos vizinhos; valores baixos no polígono e também baixos nos vizinhos; valores baixos nos polígonos, mas altos nos vizinhos. Boa parte das áreas de maior incidência de casos de doenças (Figura 21 - esquerda) localizam-se em áreas em que não foram identificados erros extremos do modelo no Lisa Maps (Figura 21 - direita). Todavia, a oeste, há um setor grande, com classificação Alto-Baixo (alto erro circundado por setores de baixo erro), ao passo que a norte há um agrupamento de setores com classificação alto-alto (alto erro no setor e alto erro nos setores vizinhos). Essas áreas apresentam alta porcentagem de coleta de resíduos sólidos, mas ainda apresentam alta incidência de casos das doenças. Portanto, provavelmente existem outros focos de reprodução do Aedes aegypti nesses locais, que precisam ser identificados e erradicados nas ações de vigilância sanitária. Este é um exemplo de que a análise dos erros de um modelo também pode ser útil para o entendimento do território e direcionamento de políticas públicas. Figura 21 – Esquerda: Incidência de casos de dengue, zika e Chikungunya nos setores censitários de São Luis do Maranhão, de 2015 a 2016. Direita: Lisa Maps mostrando os erros extremos e suas respectivas relações de vizinhança do modelo de regressão spatial lag referente à influência da coleta de resíduos sólidos sobre a incidência dos casos de doença. Adaptado de Costa et al. (2021). 93 5.5. Microssimulação Os modelos de microssimulação utilizam dados coletados em escalas menos agregadas de análise e simulam como deve ser sua ocorrência em níveis mais detalhados, como exemplificado na Figura 22. Para tanto, esses modelos recorrem a relações estatísticas com variáveis auxiliares (explicativas) presente em tanto na unidade de análise original quanto na unidade de análise mais de escala mais detalhada, do produto final. Figura 22 – Exemplo de microssimulação para inferência de desagregação de dados espacialmente. Adaptado de Park et al. (2019) Um modelo de microssimulação bastante utilizado é o Ajuste Iterativo Proporcional (Iterative Proportional Fitting – IPF), que permite usar uma amostra de dados socioeconômicos anônimos individuais com maior riqueza de variáveis e então simular essas variáveis em unidades de análise menores, que possuam apenas algumas variáveis relacionadas (WILLIAMSON et al., 1998). A sequência pode ser exemplificada pela Figura 23. O uso de microssimulação é bastante útil no caso de dados censitários brasileiros. Isso porque, os dados do censo, levantados por setor censitários, têm uma quantidade limitada de variáveis. Paralelamente ao levantamento censitário, também há os dados da amostra, em que em cada área de ponderação (conjunto de setores censitários), são escolhidas algumas pessoas para responder a um questionário bem mais detalhado. Os microdados da amostra, com uma tabela anonimizada de dados individuais desse questionário detalhado, é disponibilizada para cada área de ponderação. É possível, nesse contexto, relacionar as variáveis socioeconômicas extras das amostras com os dados dos setores censitários, e então fazer a microsimulação para estimar os valores dessas variáveis extras em cada setor censitário. 94 1º 2º 3º Figura 23 – Etapas para a microssimulação de Ajuste Iterativo Proporcional. Adaptado de Lomax (2019). Um exemplo de aplicado é utilizar as variáveis de renda, propriedade do imóvel e valor do aluguel, disponíveis nos microdados das áreas de ponderação, para estimar as informações de propriedade do imóvel e valor de aluguel nos setores censitários, com base nas informações de renda dos respectivos setores, como proposto por Feitosa et al. (2016). A Figura 24 ilustra o procedimento de simulação. Esses valores simulados foram então utilizados para estimar, para cada setor censitário quantas famílias estariam vivendo em domicílios de baixa renda com custo excessivo de aluguel (Figura 25), que é uma das categorias para avaliação de déficit habitacional, utilizado nas políticas de planejamento urbano. 95 Figura 23 – Esquema gráfico e de tabelas com a sequência de análise para microssimulação dos dados de propriedade de domicílio e valor de aluguel, provenientes dos microdados da amostra, para estimativa nos setores censitários, com o auxílio dos dados de renda. Adaptado de Feitosa et al. (2016). Figura 24 – Mapas mostrando a área de ponderação (microdados da amostra) estudada, e o resultado da microssimulação do número de domicílios de baixa renda com custo excessivo de moradia. Adaptado de Feitosa et al. (2016). 96 Referências ANSELIN, L. The Moran scatterplot as an ESDA tool to assess local instability in spatial association. Em: Fisher M, Scholten HJ, Unwin, D, eds. Spatial analytical perspectives on GIS. Londres: Taylor & Francis; 1996. Pp. 111-28. ANSELIN, L. Exploring spatial data with GeoDaTM: A workbook for spatial analysis [Internet]. University of Illinois: USA; 2005 [updated 2005; cited 10 Apr 2019]. Available from: https://geodacenter.github.io/documentation.html BERGAMASCHI, R. B. SIG Aplicado a segurança no trânsito - Estudo de Caso no município de Vitória – ES. Universidade Federal do Espírito Santo – UFES, 2010. BOLKER, B. Ecological Models and Data in R. Princeton: Princeton University Press, 2008. FEITOSA, F. F., ROSEMBACK, R. G., JACOVINE, T. C. Small Area Housing Deficit Estimation: A Spatial Microsimulation Approach. Brazilian Journal of Cartography, (2016), Nº 68/6, Special Issue GEOINFO 2015: 1157-1169 FOTHERINGHAM, A.S., BRUNSDON, C., CHARLTON, M.E., 2002, Geographically Weighted Regression: The Analysis of Spatially Varying Relationships, Chichester: Wiley. FRANCISCO, Humberto Rodrigues; FABRÍCIO CORRÊIA, Arlindo; FEIDEN, Aldi. Classification of areas suitable for fish farming using geotechnology and multi-criteria analysis. ISPRS International Journal of Geo-Information, v. 8, n. 9, p. 394, 2019. FRANCISCO, Humberto Rodrigues et al. Análise espacial de eventos pontuais para estimar o potencial produtivo da tilápia do Nilo (Oreochromis niloticus). Research, Society and Development, v. 9, n. 9, p. e855998038-e855998038, 2020. INGLEHART, R., KLINGEMANN, H.-D. (2000). Genes, culture, democracy, and happiness. In E. Diener & E. M. Suh (Eds.), Culture and subjective well-being (pp. 165-183). Cambridge, MA, US: The MIT Press. KAZMIERCZAK, M. 2015. Queimadas em Cana-de-Açúcar: Monitoramento e Prevenção. MundoGeo. Em: http://mundogeo.com/blog/2015/09/28/queimadas-em-areas-de-cana-de-acucarmonitoramento-e-prevencao-2/ LI, Wenhui et al. Predictive model of spatial scale of forest fire driving factors: a case study of Yunnan Province, China. Nature: Scientific reports, v. 12, n. 1, p. 19029, 2022. LOMAX, N. (2019) What is… Iterative Proportional Fitting? British Society for Population Studies Annual Conference, Cardiff, 9 September 2019 NASCIMENTO, A. T. A.; CULLEN Junior, L.; SOUZA, M. G.; REZENDE, G. C. Um bom pontal para todos. O mapa dos sonhos a luz do Novo Código Florestal. IPÊ. 2015. 97 NEVE, J. E., SACHS, J. D. (2020a). Sustainable development and human well-being. World Happiness Report, 112, 127. NEVE, J. E., SACHS, J. D. (2020b). The SDGs and human well-being: a global analysis of synergies, trade-offs, and regional differences. Nature: Scientific reports, 10(1), 1-12. PARK, N. W., KIM, Y., KWAK, G. H. (2019). An overview of theoretical and practical issues in spatial downscaling of coarse resolution satellite-derived products. Korean Journal of Remote Sensing, 35(4), 589-607. SAATY, Thomas Lorie. Decision Making for leaders: The analytical hierarchy process for decisions in a complex world. Lifetime Learning Publications, 1981. TURNER, M.G.; GARDNER, R.H.; O'Neill, R. V. l. Landscape Ecology in Theory and Practice: Pattern and Process. New York: Springer, 2015 WILLIAMSON, P., BIRKIN, M.; Rees, P. H. The estimation of population microdata by using data from small area statistics and samples of anonymised records. Environment and Planning A, 30 (1998), pp. 785-816. 98