Academia.eduAcademia.edu

Mapeamento da COVID-19 por meio da densidade de Kernel

Metodologias e Aprendizado

A densidade de Kernel consiste em quantificar as relações dos pontos dentro de um raio (R) de influência, com base em determinada função estatística, analisando os padrões traçados por determinado conjunto de dados pontuais, estimando a sua densidade na área de estudo (BERGAMASCHI, 2010). De acordo com Kawamoto (2012, p. 16-17), a técnica de Kernel “[...] consiste num estimador probabilístico de intensidade do processo pontual não-paramétrico através de função Kernel". Dentro dessa perspectiva metodológica, o objetivo deste trabalho é apresentar um mapa de densidade de Kernel da incidência de COVID-19 para área urbana de Santa Maria, RS, utilizando os dados do dia 05 de junho de 2020 (n = 282). Os procedimentos metodológicos se dividiram em cinco etapas: (1) definição do raio (R); (2) função k escolhida; (3) procedimentos realizados no QGIS para a geração da densidade de Kernel; (4) determinação do número de classes e intervalo; e (5) finalização do mapa. Os dados levaram a obs...

Metodologias e Aprendizado Volume 3, 2020 MAPEAMENTO DA COVID-19 POR MEIO DA DENSIDADE DE KERNEL Maurício Rizzatti1 a, Natália Lampert Batista1, Pedro Leonardo Cezar Spode1, Douglas Bouvier Erthal1, Rivaldo Mauro de Faria1, Anderson Augusto Volpato Scotti1, Romario Trentin1, Carina Petsch1, Iago Turba Costa1, João Henrique Quoos1. 1 – Universidade Federal de Santa Maria a – Correspondente: [email protected] 1. Introdução A densidade de Kernel consiste em quantificar as relações dos pontos dentro de um raio (R) de influência, com base em determinada função estatística, analisando os padrões traçados por determinado conjunto de dados pontuais, estimando a sua densidade na área de estudo (BERGAMASCHI, 2010). De acordo com Kawamoto (2012, p. 16-17), a técnica de Kernel “[...] consiste num estimador probabilístico de intensidade do processo pontual não-paramétrico através de função Kernel. As entradas para aplicação são as ocorrências da variável (na área, através de um sistema de coordenadas)”. Câmara e Carvalho (2004, p. 5), acrescentam que “esta função realiza uma contagem de todos os pontos dentro de uma região de influência, ponderando-os pela distância de cada um à localização de interesse”. Segundo Kawamoto (2012), a densidade de Kernel [...] suaviza a superfícies, calculando a densidade para cada região da área de estudo, utilizando interpolação. Isto permite a construção de uma superfície contínua de ocorrências das variáveis, inferindo para toda a área de estudo a variação espacial da variável, mesmo nas regiões onde o processo não tenha gerado nenhuma ocorrência real, permitindo verificar, em escala global, possíveis tendência de dados. (KAWAMOTO, 2012, p. 17). A Figura 1 demonstra a constituição da estimação da densidade de Kernel, através da intersecção (∩) de R de dados pontuais, materializados por meio de um sistema de coordenadas (x, y). Entre P1 ∩ P2, P2 ∩ P3, P3 ∩ P4 e P4 ∩ P1 apresentam uma densidade 2, pois ocorre a sobreposição de 2 R, diferentemente do P1 ∩ (P3 ∩ P4), que apresenta densidade 3 por possuir 3 R de influência e, assim, sucessivamente. No exemplo apresentado, a maior densidade corresponde a 4, visto que é a intersecção (P1 ∩ P2) ∩ (P3 ∩ P4). Destaca-se que a figura representa uma ilustração didática da densidade de Kernel, variando de acordo com a função Kernel utilizada para suavização dos dados. A estimativa de Kernel pretende proporcionar uma suavização das probabilidades univariada ou multivariada a partir de uma amostra pontual ou histograma suavizado (BRASIL, 2007). Para a aplicação da densidade de Kernel, adotam-se dois parâmetros definidores ou básicos. São eles: o raio de influência (R) e a função de estimação (k). Segundo Câmara e Carvalho (2004, p. 5), “o raio de influência define a área centrada no ponto de estimação u, que indica quantos eventos contribuem para a estimativa da função intensidade λ”. Assim, a amplitude do raio pode influenciar na suavização dos dados, gerando superfícies descontínuas ou muito amaciadas (CÂMARA e CARVALHO, 2004), por isso, é necessário definir com precisão o raio mais adequado para conjunto de dados pontuais. Nesse sentido, como aponta Kawamoto (2012), a escolha do raio R é fundamental para determinar a densidade final e a correta interpretação do fenômeno. 44 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 Figura 1: Princípio da estimação da densidade de Kernel. Fonte: BERGAMASCHI, 2010, p. 43 (adaptado). Já a função de estimação (k) trata das propriedades para a suavização do fenômeno. Segundo o Ministério da Saúde (BRASIL, 2007) e Kawamoto (2012), podem ser expressos a partir da fórmula descrita a seguir (Equação 1). Se P representa uma localização qualquer em R e P1, P2,..., Pn são as localizações dos n eventos observados, então um estimador para λ, em P é dado por: (1) Onde k(.) é uma função kernel bivariada e simétrica chamada de função de estimação ou alisamento e o parâmetro R > 0 é conhecido como largura da banda (ou raio de influência) e determina o grau de suavização; essencialmente ele é o raio de um disco centrado em P, em que os Pi irão contribuir significantemente para (P) (KAWAMOTO, 2012). A função de estimação k pode ser determinada de acordo com o objetivo do trabalho e com o banco de dados disponíveis, podendo ser quártica, triangular, uniforme, Epanechnikov e Gaussiana, conforme ilustrado no Quadro 1. 45 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 Quadro 1: Descrições das Funções Kernel (k). Função Kernel (k) Quártica Descrição Pondera com maior peso os pontos mais próximos do que pontos distantes, mas o decrescimento é gradual. Triangular Dá maior peso aos pontos próximos do que os pontos distantes dentro do círculo, mas o decréscimo é mais rápido. Uniforme Pondera todos os pontos dentro do círculo igualmente. Epanechnikov Gaussiana ou Normal É o ideal no sentido de variância mínima. Pondera os pontos dentro do círculo de forma que os pontos mais próximos têm maior peso comparados com os mais afastados. Fonte: KAWAMOTO, 2012, p. 19 (adaptado). A escolha da função Kernel (k) a ser utilizada é fundamental para objetivo que se pretende, pois são equações que levam a resultados diferentes. Da mesma forma, a escolha do raio de influência é crucial, pois pode produzir significantes alterações da estimativa final. Cabe destacar que se trata de uma técnica de interpolação exploratória que gera uma superfície de densidade para a identificação visual de “áreas quentes”, ou seja, de concentração de eventos ou que indica de alguma forma a aglomeração em uma distribuição espacial (BRASIL, 2007). Por essa razão, a função Kernel pode atuar como uma ferramenta adequada no mapeamento dos casos do novo Coronavírus nas cidades, na escala intraurbana, como também nas escalas municipal e estadual, indicando áreas de concentração de casos e contribuindo, portanto, para os órgãos gestores de saúde. Dessa maneira, tal ferramenta pode atuar como um apoio importante para os órgãos de saúde. Nesse sentido, como aplicação prática da ferramenta, o objetivo deste trabalho é apresentar um mapa de densidade de Kernel da incidência de COVID-19 para área urbana de Santa Maria, utilizando os dados do dia 05 de junho de 2020 (n = 282) e sua metodologia de elaboração. 2. Metodologia Para a descrição dessa metodologia, adotamos como roteiro de apresentação das rotinas realizadas: 1) definição do raio (R); 2) função k escolhida; 3) procedimentos realizados no QGIS para a geração da densidade de Kernel; 4) determinação do número de classes e seu intervalo para o raster; e 5) finalização do mapa. O Banco de Dados Brutos foi adquirido da Vigilância Epidemiológica de Santa Maria, por meio do projeto “Enfrentamento da epidemia da COVID-19 no estado do Rio Grande do Sul”, sendo aprovado pela Comissão Nacional de Ética em Pesquisa (CONEP), sob o CAAE n° 30710520.6.0000.5346. Os endereços dos casos confirmados de COVID-19 foram geocodificados pelo complemento MMQGIS, segundo a metodologia apresentada por Rizzatti et al (2020). Conforme apresentado anteriormente, a determinação do raio (R) é o ponto mais crucial da densidade de Kernel. Analisando a largura da banda apresentada por Kawamoto (2012), para a distribuição de casos positivos de dengue e acidentes de trânsito em Rio Claro, percebemos que os R utilizados pela autora não manifestam adequadamente a suavização para o banco de dados de COVID-19 em Santa Maria. A autora utiliza 100, 150, 250, 375, 500 e 625 metros de raio. Porém, ao testar no banco de dados utilizados para o presente mapa, observou-se áreas descontínuas que comprometem a interpretação do fenômeno. De forma semelhante, a metodologia para estimação do tamanho do R proposta por Cressie (1993), também não se mostrou representativa. Por isso, optou-se 46 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 por estimar o valor do R a partir da subtração e adição da média da distância média () de cada um dos pontos com a média do desvio padrão ( , a fim de tentar aproximar um valor adequado aos pontos, conforme a Equação 2. Destaca-se que o procedimento para obtenção das médias mencionadas e como se aplica a subtração ou adição será explicado na sequência. R= ± (2) Onde:  média da distância média;  média do desvio padrão. A camada vetorial pontual referente aos pacientes (P) foi importada ao software QGIS 3.12.3. O shapefile em questão, obrigatoriamente, deve estar projetado em um sistema de coordenadas planas como Universal Transversa de Mercator (Fuso 22 1) – datum horizontal SIRGAS 2000 (EPSG: 31982). Para determinar a distância média, desvio padrão, distância mínima e máxima de cada um dos pontos, utilizou-se o algoritmo “Matriz de Distância” do QGIS 3.12.3 (Figura 2). Figura 2: Configuração da Matriz de Distância para obtenção da distância média, desvio padrão, distância mínima e máxima de cada um dos pontos. Organização: Maurício Rizzatti e Natália Lampert Batista (2020). O arquivo pontual gerado possui as seguintes colunas: código de notificação (campo identificador único), distância média, desvio padrão, distância mínima e distância máxima de cada caso confirmado. Para a terminação da média da média e média do desvio padrão, o shapefile foi exportado para o formato .xlsx. No software Microsoft Office Excel, calculou-se a média da distância média e a média do desvio padrão dos casos confirmados, de acordo com a exemplificação da Tabela 1. Tabela 1: Exemplificação do arquivo gerado pela Matriz de Distância no formato xlsx em que foi calculada a média da distância média e média do desvio padrão dos pontos. 1 Para o município de Santa Maria. 47 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 IDENTIFICADOR MÉDIA DESVIO PADRÃO MINÍMA MÁXIMO P1 4.961,60 2.180,26 314,75 19.460,88 P2 7.137,86 2.991,33 34,67 23.974,04 P3 6.597,99 2.895,84 3,72 25.265,79 P4 9.111,16 3.460,53 551,74 25.281,16 P5 2.954,51 2.742,15 80,29 22.746,28 P6 3.036,19 2.712,29 233,12 23.321,50 P7 7.484,79 3.133,63 231,80 24.454,45 P8 3.187,73 2.794,84 55,19 24.142,65 P9 6.600,83 2.896,72 3,72 25.266,61 P10 3.430,56 2.869,25 3,50 23.528,42 P11 3.275,17 2.622,36 193,08 23.309,25 P12 2.977,51 2.718,01 81,75 22.607,33 ... ... ... ... ... Pn n σn Minn Máxn - MÉDIA DA MÉDIA MÉDIA DO DESVIO - - Expressão =MÉDIA(B2:B15) =MÉDIA(C2:C15) Organização: Maurício Rizzatti e Natália Lampert Batista (2020). - Para os 282 casos confirmados de COVID-19 em Santa Maria, a média da distância média foi de 4.466,49 metros e a média do desvio padrão de 2.784,89 metros. Assim, testando o valor R como a média da distância média acrescida da média do desvio padrão (4.466,49 + 2.784,89 = 7.251,38) e, também, a subtração de ambas variáveis (4.466,49 - 2.784,89 = 1.681,60). Observamos que o menor valor não gerou descontinuidade e nem amaciamento exagerado. Do contrário, o maior valor suavizou excessivamente as classes, conduzindo a possíveis interpretações errôneas da manifestação da COVID-19 na cidade, conforme exemplificado na Figura 3. A partir do exposto, utilizou-se nesse trabalho o R obtido através da subtração da média da distância média pela média do desvio padrão ( - σ). 48 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 Figura 3: Comparação da densidade de Kernel com raio de 1.681,60 metros (A) e 7.251,38 metros (B): método contínuo de intervalo de classes Organização: Maurício Rizzatti e Natália Lampert Batista (2020). Com o raio (R) definido, o próximo passo é determinar a função Kernel (k). Optou-se pela função quártica que se caracteriza por ponderar com maior peso os pontos mais próximos do que pontos distantes, mas o decrescimento é gradual. Segundo Kawamoto (2012) A partir de comparações da função kernel quártica e função kernel normal [...], utilizando os mesmos raios de influência, e utilizando raios menores para a normal [...] percebe-se que as funções quártica fornecem mais informações in loco do que a normal, para raios maiores. Apesar das funções normal e quártica fazerem ponderações aos pontos mais próximos dentro do raio de influência, a função quártica tem seu decrescimento gradual, o que faz com que as suas percepções visuais fiquem mais evidentes para raios maiores (KAWAMOTO, 2012, p. 31). 49 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 Destaca-se que o raio (R) adotado neste trabalho em relação aos R adotados pela autora, se caracteriza como maior. Assim, para realizar a densidade de Kernel no QGIS 3.12.3, utilizou-se o algoritmo “Mapa de Calor (Estimativa de Densidade de Kernel)” exemplificado na Figura 4, acessado pela caixa de ferramentas do menu processar. Figura 4: Configuração do Mapa de Calor (Estimativa de Densidade de Kernel) para o mapeamento da COVID-19 na área urbana de Santa Maria. Organização: Maurício Rizzatti e Natália Lampert Batista (2020). Com o raster da densidade de Kernel gerado, estabeleceu-se o número de classes como 8, pois para Loch (2006), o ideal é uma variação entre 4 e 8 classes para que os fenômenos sejam distinguíveis sem comprometer a acuidade visual. A polarização dos dados em algumas áreas de Santa Maria e a diversificação dos valores em outras áreas faz com que o número máximo de classes potencialize um detalhamento da informação sem comprometer a compreensão do conteúdo apresentado. Tratando-se de uma representação matricial no QGIS 3.12.3, é possível classificá-la em contínua, intervalo igual e quantil. Porém, esses métodos de representação mascararam a informação, pois suavizam (contínua e intervalo igual) ou concentram (quantil) as densidades. Conforme os métodos de intervalo de classes apresentados por Matsumoto, Catão e Guimaraes (2017) e considerando a variabilidade dos resultados para esses dados (282 casos) e para essa realidade territorial (cidade de Santa Maria), entende-se como ideal para o mapeamento da COVID-19, sendo quebras naturais (Jenks), pois “representa o escalonamento natural da série de dados, agrupando-os quanto a semelhança” (MATSUMOTO; CATÃO; GUIMARÃES, 2017, p. 219). Entretanto, o QGIS, até a versão 3.12, não dispõe a classificação de raster através do método Jenks. Assim, realizamos 50 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 uma classificação arbitrária, adaptando o intervalo de classes com método Jenks do ArcGIS 10.5 2, conforme a Figura 5. Figura 5: Captura de tela da densidade de Kernel por quebras naturais no ArcMap. Organização: Maurício Rizzatti e Natália Lampert Batista (2020). Além da representação matricial da densidade de Kernel, utilizou-se os shapefiles de bairros, distritos e sistema viário do Instituto de Planejamento de Santa Maria (IPLAN, 2020). Todas as camadas foram sobrepostas e o mapa foi finalizado no novo compositor de impressão do QGIS. 3. Considerações sobre o mapa A metodologia apresentada tem como produto o mapa da Figura 6 que representa a densidade de Kernel para os casos confirmados de COVID-19 na área urbana de Santa Maria, utilizando dados de 05 de junho de 2020 (n = 282). Pode-se observar uma maior densidade de casos na área central da cidade, especificamente nas proximidades dos bairros Centro, Bonfim, Nossa Senhora de Fátima e Nonoai, com uma maior circulação de pessoas, serviços e residentes. Porém, nota-se a dispersão do novo Coronavírus para áreas mais periféricas, como já ressaltado em Rizzatti et al (2020). Figura 6: Mapa de densidade de Kernel para os casos confirmados de COVID-19 na área urbana de Santa Maria, 05/06/2020 (n = 282). 2 Destaca-se que a densidade de Kernel foi gerada no software QGIS, conforme descrito na metodologia. Foi utilizado o ArcGIS somente para gerar o intervalo de classes por quebras naturais – Jenks. Porém, a classificação e finalização foram no QGIS. 51 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 Elaboração: Maurício Rizzatti e Natália Lampert Batista (2020). É possível destacar que o bairro Camobi apresenta comportamento semelhante ao bairro Centro, em menor densidade, formando um cluster secundário, assim como a zona Oeste da cidade de Santa Maria, onde é possível identificar a formação de um terceiro cluster. Isso demonstra onde está mais acentuada a incidência da COVID-19. Destaca-se, ainda, como já evidenciado anteriormente, a densidade de Kernel trata-se de uma interpolação entre os dados inseridos no QGIS, portanto bairros como o Agro-Industrial, Campestre do Menino Deus, Renascença e Uglione, que não possuem casos confirmados de COVID-19 até a data da análise, apresentam densidades pela largura da banda adotada (raio). Para os testes realizados com a metodologia proposta, utilizaram-se dados de Santa Maria com diferentes datas, verificou-se que o número de pontos é inversamente proporcional ao tamanho do raio (R) adotado, ou seja, quanto menos casos confirmados, maior o raio adotado para ter representatividade dos clusters. Dessa maneira, portanto, a ferramenta de Kernel se mostra instrumento eficaz para o mapeamento de casos de COVID-19, pois apresenta a concentração dos fenômenos no espaço. No entanto, deve-se definir corretamente o raio de interpolação dos dados para que haja representatividade dos dados e que seja coerente com a realidade geográfica que se está trabalhando. Agradecimentos O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior – Brasil (CAPES) – Código de Financiamento 001, Programa Nacional de PósDoutorado (PNPD – CAPES) – e ao Observatório de Dados da COVID-19 da UFSM. Referências BERGAMASCHI, R. B. SIG aplicado a segurança no trânsito – estudo de caso no município de Vitória – ES. 74 f. (Monografia de Graduação). Universidade Federal do Espírito Santo: Vitória, 2010. 52 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009 Metodologias e Aprendizado Volume 3, 2020 BRASIL. Ministério da Saúde. Secretaria de Vigilância em Saúde. Fundação Oswaldo Cruz. Introdução à Estatística Espacial para a Saúde Pública. Brasília: Ministério da Saúde, 2007. CÂMARA, G.; CARVALHO, M. S. Análise de eventos pontuais. In: DRUCK, S.; CARVALHO, M.S.; CÂMARA, G.; MONTEIRO, A.V.M. Análise Espacial de Dados Geográficos. Brasília, EMBRAPA, 2004. CRESSIE, N. A. C. Statistics for spatial data. New York: John Wiley & Sons, 1993. INSTITUTO DE PLANEJAMENTO DE SANTA MARIA. Prefeitura Municipal de Santa Maria. Base de dados Geoespaciais do município de Santa Maria, 2020. KAWAMOTO, M. T. Análise de técnicas de distribuição espacial com padrões pontuais e aplicação a dados de acidentes de trânsito e a dados de dengue de Rio Claro–SP. 69 f. Dissertação (mestrado) – Universidade Estadual Paulista, Instituto de Biociências de Botucatu: Botucatu, SP, 2012. LOCH, R. E. N. Cartografia: representação, comunicação e visualização de dados espaciais. Florianópolis: UFSC, 2006. MATSUMOTO, S. S.; CATÃO, P. C.; GUIMARÃES, R B. Mentiras com mapas na Geografia da Saúde: métodos de classificação e o caso da base de dados de LVA do SINAN e do CVE. Hygeia Revista Brasileira de Geografia Médica e da Saúde, v. 13, n. 26, p. 211 - 225, 7 dez. 2017. RIZZATTI, M.; BATISTA, N. L.; SPODE, P. L. C.; ERTHAL, D. B.; FARIA, R. M.; SCCOTI, A. A. V.; PETSCH, C.; COSTA, I. T.; TRENTIN, R. Metodologia de geolocalização para mapeamento intraurbano de COVID-19 em Santa Maria, RS. Metodologias e Aprendizado , v. 3, p. 8 - 13, 24 maio 2020. 53 https://doi/10.21166/metapre.v3i0.1312 ISSN 2674 - 9009