Modelo
Modelo
Modelo
JUIZ DE FORA
JANEIRO, 2023
Data science como auxı́lio em tomada de
decisões utilizando dados do sistema SIM do
DATASUS
Henrique Aurelio de Carvalho Silva
JUIZ DE FORA
JANEIRO, 2023
Data science como auxı́lio em tomada de decisões
utilizando dados do sistema SIM do DATASUS
Aprovada por:
JUIZ DE FORA
13 DE JANEIRO, 2023
Resumo
A informação sempre esteve andando lado a lado da humanidade, mas, com o avanço
da tecnologia nos últimos anos, uma área conhecida como data science acabou ganhando
destaque decorrente da importância de lidar com o volume massivo e crescente de dados
que a sociedade tem produzido. Essa área tem como foco estudar e utilizar a abundância
de dados que decorreu principalmente da criação e popularização da internet, novas tec-
nologias como, smartwatch, aparelhos de exames, entre outros. A área de data science é
composta por várias abordagens: big data, big data analytics, machine learning, rede neu-
ral, entre outras. Dessa forma, esse trabalho tem como objetivo demonstrar o potencial
de utilizar ferramentas adequadas para fazer análises sobre big data, também conhecido
como big data analytics, com o intuito de analisar a evolução dos casos de mortalidade
em Minas Gerais de 1996 a 2020. Para tal, foi utilizado um dataset (conjunto de da-
dos) de mortalidade pelo CID - 10 (Classificação Estatı́stica Internacional de Doenças e
Problemas Relacionados com a Saúde). Esse dataset entre outros são públicos e dispo-
nibilizados pelo governo brasileiro através do DATASUS que possibilita projetos assim
como esse. O processo KDD (Knowledge discovery in databases) foi adotado no desenvol-
vimento deste trabalho, a fim de analisar padrões sobre grandes volumes de dados para
extrair conhecimento do mesmo, já que por sua natureza esse grande volume de dados não
nos permite uma clareza e um entendimento do mesmo fazendo necessário um trabalho
para facilitar visualização e compreensão. Como ferramentas foram utilizadas python e
Microsoft Power Bi para fazer o tratamento dos dados disponibilizados e construção de
gráficos e dashboards para possibilitar o levantamento de análises sobre padrões observados
através dos mesmos. Os resultados obtidos através desse trabalho de conclusão de curso
foi a demonstração de possı́veis análises que são obtidas ao lidar com grandes volumes
de dados de forma adequadas, especificamente ao sistema SIM (Sistema de Informações
Sobre Mortalidade) do DATASUS que fornece informações sobre mortalidade desde 1996.
Possibilitando trabalhos futuros com diferentes escopos abordados.
Palavras-chave: data, analytics, datasus, dashboards, dataset.
2
Abstract
The information has always been alongside of humanity, but lately with the advancement
of technology in the last years, a field known as data science have been gaining focus
because of the importance of handling with the crescent of massive volumn of data that
society had produced. This field has as an objective the study and usage of the abudant
amount of data which took place mainly of the creation and popularization of the internet,
of new technologies such as smartwatches, EHRs and others. Data science is composed
by many approaches as: big data, big data analytics, machine learning, neural network
and others. That way, this work has as objective to show the potetial of using suitable
tools to make analysis of big data , also known as big data analytics, with the purpose of
analysing the evolution of mortality cases in Minas Gerais from 1996 to 2020. For such,
it was used a dataset of mortality by CID - 10 ( International Statistical Classification
of Diseases and Related Health Problems). This dataset alongside others are public and
disponibilized by brazilian government by the DATASUS that enables project as such.
The KDD ( Knowledge discovery in databases) process was used in the development of
this work, to analyze patterns of big volumes of data to extract knowledge from it, given
that the pure data doesn’t allow a comprehension and understanding, making necessary
a process to facilitate and enable visualization and comprehension. Python and Microsoft
Power Bi were used as tools to do the data processing of the provided data and making of
graphics and dashboards to enable the uplift of analyzes over the observed patterns from
the data. The results that were achivied were the demonstration of possibles analyzes that
are obtained dealing with big volume of datas in proper way, specially the SIM system of
DATASUS that provides informations about mortality since 1996. Making possible future
studies with different approaches.
Keywords: data, analytics, datasus, dashboards, dataset.
Agradecimentos
Agradeço meus pais, Almir e Aparecida, familiares e amigos por sempre terem confiado
em minha capacidade, pelo encorajamento e apoio durante todo o perı́odo de graduação.
Aos professores do departamento de Ciência da Computação, pelo conhecimento, ensi-
namentos, especialmente ao Victor Ströele por ter tido paciência, guiado de forma tão
compreensivamente sem o qual este trabalho não seria possı́vel.
Para Universidade Federal de Juiz de Fora (UFJF) meu profundo agradecimento pela
oportunidade de cursar um ensino público de tão boa qualidade e ter proporcionado co-
nexões que levarei por toda vida.
Conteúdo
Lista de Abreviações 6
1 Introdução 7
1.1 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Organização do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Fundamentação Teórica 12
2.1 Big data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.1 Big data analytics . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Ferramentas de BI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3 KDD - Knowledge discovery in database . . . . . . . . . . . . . . . . . . . 15
3 Trabalhos Relacionados 18
3.1 Big data in healthcare: management, analysis and future prospects . . . . 18
3.2 The role of data science in healthcare advancements . . . . . . . . . . . . . 19
3.3 Big data analytics: a survey . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4 A Case Analysis of 311 Data from City of Miami . . . . . . . . . . . . . . 20
3.5 Using Data Mining to Detect Health Care Fraud and Abuse . . . . . . . . 21
Bibliografia 34
Lista de Abreviações
1 Introdução
Com a evolução constante da tecnologia, cada vez mais criam-se dispositivos inteligentes
(smartwatch, smartTV, equipamento de imagens usado em exames, etc.) que produzem
e podem armazenar dados. Simultaneamente a essa evolução ocorreu a popularização
da internet, assim tendo um acréscimo significativo na quantidade de dados disponı́veis.
Diante desse cenário com novos desafios ao lidar com esses grandes volumes de dados, as
ferramentas comuns se tornaram ineficazes, já que se tratando de big data é necessário
realizar diversos filtros, utilizar ferramentas adequadas para tratar esse grande volume de
dados Tsai et al. (2015).
Além desses filtros e utilização de ferramentas, nesse trabalho houve também
a utilização do processo conhecido como Knowledge Discovery from Database (KDD).
Apesar de ser um conceito antigo, como mostrado por Fayyad, Piatetsky-Shapiro e Smyth
(1996), sua eficácia foi destacada recentemente para descobrir conhecimentos uteis em
grandes volumes de dados onde não se há conhecimento prévio sobre padrões. Como
destacado em Fayyad, Piatetsky-Shapiro e Smyth (1996) o poder do KDD está em retirar
padrões e conhecimento através de grande bancos de dados onde, normalmente, não seria
possı́vel uma análise como, por exemplo, um conjunto de dados com milhões de linhas de
informações e valores de tabelas sem serem traduzidas através de seus enumeradores. Os
benefı́cios que podem ser obtidos através da utilização correta desses dados para obterem
análises mais fáceis de serem construı́das e compreendidas são diversos.
Um exemplo de aplicabilidade de data science para apoio a tomada de decisão
pode ser visto em Dangar (2020), onde se busca prever a quantidade de dinheiro que
um cliente pode gastar na black friday de acordo com o setor para a elaborações de
promoções tendo esses setores como alvo. Este é um exemplo clássico onde é analisada
uma grande quantidade de dados de venda de uma empresa em um determinado setor e,
com essa análise, planejar suas promoções com maior eficácia e acurácia, obtendo melhor
marketing, lucro ou melhor posição no mercado.
Inúmeras empresas e entidades tem buscado como utilizar o potencial desse
1.1 Justificativa 8
cenário, onde há essa abundância de dados. Este é o caso do Departamento de Informática
do Sistema Único de Saúde (DATASUS) que tem como objetivo disponibilizar informações
de saúde do Brasil para elaboração de programas de ações de saúde como apontado por
Brasileiro” (2022).
1.1 Justificativa
Diante desse novo cenário de informações, cria-se cada vez mais necessidade de conheci-
mento na área de data science com objetivo de fazer uso desse potencial, obter análises
mais visuais e fáceis de serem compreendidas auxiliando as empresas ou organizações em
tomada de decisões como mostrado em Dangar (2020), Subrahmanya et al. (2022),Dash
et al. (2019). Destacando os estudos realizados por Dash et al. (2019) e Subrahmanya et
al. (2022) que demonstram o que pode ser obtido através da utilização de data science na
área de saúde como o proposto por este trabalho de conclusão de curso.
O potencial de uso de data science na área de saúde é de vasta aplicabilidade, seja
diminuindo gastos em fraude em sistemas de saúde como visto em Joudaki et al. (2015),
melhorando tratamento de pacientes e prevenção de doenças como visto em Dash et al.
(2019) e Subrahmanya et al. (2022).
No contexto Big Data, a análise se torna um processo não trivial de ser realizado,
envolvendo um esforço cognitivo e, consequentemente, ocupando muito tempo por parte
dos tomadores de decisão. Há uma necessidade de informação consolidada e de fácil
interpretação para dar suporte às pessoas que precisam tomar decisões com base nos
dados.
Portanto, é necessário que haja uma maneira eficiente de se extrair, armazenar,
processar e interpretar estes dados. O processo KDD surge como um processo de coleta,
organização e análise de dados que oferecem suporte a gestão de negócios e descoberta
de conhecimento. Dentre as técnicas para apoio à tomada de decisão, destacam-se o
uso de componentes visuais, como Dashboards, gráficos e tabelas; bem como técnicas
para extração de conhecimento e informações dos dados, como aprendizado de máquinas
Fayyad, Piatetsky-Shapiro e Smyth (1996).
1.2 Problema 9
1.2 Problema
No cenário levantado por este trabalho de conclusão de curso, onde há vários datasets
públicos e gratuitos, é necessário um procedimento para poder extrair conhecimento útil
desses conjuntos de dados. Além disso, como resultado desse processo de análise, é ne-
cessária a criação de mecanismos que auxiliem na análise e interpretação dos dados através
de técnicas de visualização de dados, como, por exemplo, o uso de componentes visuais
de fácil interpretação por parte do usuário, consolidação de grande volume de dados,
e redução da quantidade de informação exibida, para uma maior abstração destas in-
formações, auxiliando na percepção do usuário (JONKER et al., 2013).
Essa necessidade é vista em diversos domı́nios de aplicação, como empresarial,
educacional, turismo, saúde, etc. No contexto da saúde, o Conecte SUS é um programa
do Ministério da Saúde que faz parte da Estratégia de Saúde Digital para o Brasil (ESD).
Esse programa visa a informatização nos diversos pontos da Rede de Atenção à Saúde e
a troca de informação entre os estabelecimentos de saúde e os cidadãos1 .
Os dados de saúde pública no Brasil estão sendo centralizados no DATASUS2 , que
disponibiliza informações que podem servir para subsidiar análises objetivas da situação
sanitária, tomadas de decisão baseadas em evidências e elaboração de programas de ações
de saúde. Dados de morbidade, incapacidade, acesso a serviços, qualidade da atenção,
condições de vida e fatores ambientais passaram a ser métricas utilizadas na construção
de Indicadores de Saúde, que se traduzem em informação relevante para a quantificação
e a avaliação das informações em saúde.
O DATASUS possui um grande volume de dados de saúde que precisa ser inter-
pretado e analisado para alcançar os os objetivos do Ministério da Saúde. Para tal, há
a necessidade de definição de um processo para permitir a análise sistemática dos dados,
trazendo subsı́dios que possibilitem a tomada de decisão por parte dos gestores de saúde.
Dessa forma, o problema seria analisar a forma de que os dados estão armazenados e
apresentado no sistema de SIM (Sistema de Informações Sobre Mortalidade). Enquanto a
questão de pesquisa abordada por este trabalho de conclusão de curso é:“Como consolidar
1
https://conectesus.saude.gov.br/home
2
https://datasus.saude.gov.br/
1.3 Objetivos 10
os dados disponibilizados no DATASUS e prover uma análise visual e intuitiva, capaz de
agregar valor para a tomada de decisão dos stakeholders com interesse na análise de dados
da saúde?”.
1.3 Objetivos
2. Utilização das ferramentas atuais para lidar com grande volume de dados;
4. Desenvolvimento de um dashboard que permita a análise dos dados sob óticas dife-
rentes, considerando os diversos papéis desempenhados pelos stakeholders na análise
dos dados.
1.4 Metodologia
Para alcançar esses objetivos, a metodologia desse trabalho foi realizada em quatro eta-
pas principais: (i) revisão da literatura para fundamentação teórica e identificação de
trabalhos relacionados; (ii) definição do processo para análise dos dados, considerando os
conceitos de data analytics e o processo KDD na base de dados de SIM do DATASUS;
(iii) desenvolvimento desse processo, com o intuito de apoiar a tomada de decisões base-
adas nas análises realizadas pelo comportamento da mortalidade desde 1996 pelo CID -
1.5 Organização do trabalho 11
10 (Classificação Estatı́stica Internacional de Doenças e Problemas Relacionados com a
Saúde) no Brasil; e (iv) avaliação do processo através da criação de dashboards com dados
relevantes e fáceis de serem compreendidos, da mortalidade em Minas Gerais de 1996 a
2020 para levantamento de análises e apoiar tomada de decisões na área de saúde.
Para o desenvolvimento das análises propostas por este trabalho foi utilizado
python,Microsft Power BI, e PySUS Coelho et al. (2021) e informações sobre mortalidade
pela CID - 10 providenciadas pelo DATASUS.
2 Fundamentação Teórica
3. Variedade, que é como esse dado está sendo recebido, seja por planilhas excel,
banco de dados, textos ou áudios.
Recentemente como apontado por ”Oracle” (2021a), Tsai et al. (2015), Subrah-
manya et al. (2022), Dash et al. (2019) foram adicionados novas vertentes para essa
trindade, os novos mais aceitos são a veracidade , que consiste na inconsistência e proble-
mas que esses dados possam apresentar, enquanto o outro é o valor, os dados por si não
possuem valor sendo essa vertente o valor que pode ser extraı́do desses dados de alguma
forma.
Porém, como também é mostrado por ”Oracle” (2021a), esses dados não são sim-
ples de serem utilizados, sendo necessários diversos processos de limpeza, transformação
e filtragem para selecionar os dados relevantes para a atividade desejada, sendo esta uma
das etapas principais e mais desafiadoras no processo de extração de conhecimento em
grandes bases de dados.
Como apontado por Tsai et al. (2015) apenas a presença do grande volume de dados não
implica que é possı́vel obter informações a partir deste. A transformação desse volume de
2.2 Ferramentas de BI 13
dados de sua forma bruta para uma visualização de fácil entendimento, seja através de
gráficos ou painéis, é chamado big data analytics.
A área de data analytics não necessariamente precisa andar em conjunto com big
data, porém, como apontado por Russom (2011), o benefı́cio de utilizar em conjunto é
tornar o resultado das análises mais preciso. Sendo assim, a área de big data analytics
tem papel de coletar esses dados, integrar, criar a solução e acompanhar o resultado da
solução. Existem 4 tipos principais de análise de dados como apontado por ”Oracle”
(2021b) que são as análises preditivas, prescritivas, diagnósticas, e, por final, a análise
descritiva de dados.
As análises preditivas, são análises que utilizam-se de dados já conhecidos para
realizar previsões de resultados futuros, porém, é importante destacar que não representam
uma verdade absoluta ”Oracle” (2021b).
Assim como as análises preditivas, as prescritivas também buscam prever resul-
tados futuros, mas também identificam possı́veis ações a serem tomadas com o objetivo
de alcançar o melhor resultado ”Oracle” (2021b).
As análises diagnósticas é um processo onde há a verificação de dados para com-
preender a causa,o evento e o por que do ocorrido. Por exemplo uma filial que possui um
rendimento pior em um determinado mês, mas ao decorrer de uma investigação poderia
descobrir que isso se deu ao fato de ter tido mais feriados do que o normal nesse mês em
especı́fico ”Oracle” (2021b).
As análises descritivas de dados são a essência dos relatórios através de dashboards
e ferramentas de BI, que basicamente consistem nas perguntas de quando, quanto, o que
e onde ”Oracle” (2021b).
2.2 Ferramentas de BI
Diante desses novos enormes datasets foram criadas ferramentas que são capazes de tratá-
los, extrair informação e possibilitar análises que anteriormente não eram possı́veis. Entre
elas estão3 :
3
https://rockcontent.com/br/blog/ferramentas-de-business-intelligence/
2.2 Ferramentas de BI 14
• Pentaho: Suı́te de ferramentas utilizadas para auxiliar no processo de tomada
de decisão, com a criação de dashboards e relatórios para análise de dados. A
ferramenta mais utilizada é a Pentaho Data Integration, que é amplamente utilizada
4
no processo ETL.
• Microsoft Power BI: parte da suı́te de serviços da Microsoft, essa é uma das
ferramentas mais populares para análise de dados. A ferramenta possui o conceito de
self-service BI, permitindo que os usuários criem seus próprios relatórios, dashboards
5
e gráficos.
• Tableau: é uma ferramenta simples de ser operada pelos usuários. Seu foco é
simplificar o processo de captura dos dados para a sua posterior visualização e
7
análise.
• Google Data Studio: é uma ferramenta da Google Suı́te, sendo uma opção para
empresas de BI. Essa ferramenta funciona como uma plataforma completa para a
análise de dados e criação de relatórios. Dentre suas funcionalidades de destaque
estão a criação de relatórios e gráficos, e sua capacidade de atualização dos dados
9
em tempo real.
4
https://marketplace.hitachivantara.com/pentaho/
5
https://powerbi.microsoft.com/en-au/
6
https://www.metabase.com/
7
https://www.tableau.com/
8
https://www.qlik.com/us/products/qlikview
9
https://datastudio.withgoogle.com/
2.3 KDD - Knowledge discovery in database 15
• Sisense: é uma ferramenta desenvolvida para ser de fácil usabilidade, sendo con-
siderada uma ótima alternativa para equipes com pouco experiência em análise de
10
dados.
• Oracle BI: é uma ferramenta desenvolvida pela Oracle, sendo uma das mais robus-
tas opções do mercado para análise de dados. Com esta ferramenta, a equipe pode
criar dashboards dinâmicos e completos, carregar um volume de dados maior do que
o que outras ferramentas permitem, programar alertas em relação a comportamento
11
de dados, etc.
Como pode ser visto em Fayyad, Piatetsky-Shapiro e Smyth (1996), o KDD é um processo
normalmente composto por 7 etapas. Na primeira etapa é feita a escolha de quais datasets
devem ser utilizados para a extração dos dados.
Na segunda etapa é feita a seleção dos dados nos datasets selecionados, definindo
o conjunto de instâncias e atributos que se pressupõe serem necessários e importantes
10
https://www.sisense.com/
11
https://www.oracle.com/business-analytics/business-intelligence/technologies/bi.html
2.3 KDD - Knowledge discovery in database 16
para análise.
Na terceira etapa é feita a limpeza dos dados para retirada de dados que possuem
alguma inconsistência ou erro. No final desta etapa os dados são consistentes para os
estudos que seguem.
Na quarta etapa é feita a transformação dos dados, onde os dados brutos são
transformados para uma estrutura que a próxima etapa, conhecida como mineração de
dados, pode ser aplicada para a descoberta de padrões e relações que anteriormente não
eram conhecidos.
Na sexta etapa é feita a análise e avaliação dos padrões descobertos, sendo possı́vel
retornar em quaisquer das etapas anteriores para ajustes necessários.
A sétima e última etapa é responsável pela apresentação do conhecimento para
o usuário final, permitindo o uso do mesmo para tomada de decisões e levantamento de
big data analytics. A Figura 2.1 apresenta o processo KDD e cada uma de suas etapas.
2.3 KDD - Knowledge discovery in database 17
Figura 2.1: Processo KDD baseado na figura de Fayyad, Piatetsky-Shapiro e Smyth (1996)
18
3 Trabalhos Relacionados
Neste capı́tulo, são apresentados trabalhos relacionados ao proposto neste TCC, que tem
como objetivo a utilização do conhecimento da área de data science em diversos setores,
não somente na saúde. Foi possı́vel observar um certo padrão entre os trabalhos iden-
tificados, por se tratar de um processo padrão e bem conhecido ao tratar de big data,
como descrito a seguir. Para descoberta dos trabalhos relacionados as seguintes strings
de busca foram utilizadas:
• KDD in health.
• data analytics.
Em Dash et al. (2019) é mostrado o uso de big data na assistência médica tratando
essa área como um grande repositório composto por profissionais da saúde, instalações
médicas e uma instituição financeira que provê suporte aos anteriores. Nesse cenário de
evolução da tecnologia, foi levantado por Dash et al. (2019) que cada vez mais as pessoas
estão buscando formas de monitoramento pessoal e obtenção de medidas de saúde. Tais
medidas são fornecidas por alguns aparelhos inteligentes, possibilitando os pacientes terem
suas medidas avaliadas por médicos, independentemente da sua localização geográfica,
demonstrando as vantagens ao utilizar IoT com os dispositivos inteligentes (smartwatches,
smartphones, etc...) na área de saúde. Essa pesquisa também mostra o que pode ser
obtido através da utilização de big data na área de assistência médica, que pode resultar
3.2 The role of data science in healthcare advancements 19
em diminuição de custos e melhora nos resultados gerais de saúde. Diferentemente desse
trabalho de conclusão de curso não é utilizado KDD e não é levantado análises descritivas,
abordando os benefı́cios da data science na área de saúde e os meios que poderia ser
utilizado IoT na área de assistência médica.
ments
No artigo Subrahmanya et al. (2022) assim como em Dash et al. (2019), também fala do
grande volume de dados clı́nicos gerados pelos aparelhos de assistência médica. Ao utilizar
este volume para análises e compreensão de padrões destes dados auxiliam em tomadas de
decisões que podem ajudar no quadro geral do paciente seja em prevenção, expectativa
de vida ou identificação de doenças em estágios iniciais. Destaca-se também o uso de
data analytics para detecção de surtos de doença como apontado por Iku” (2021) onde
data science teve um papel de suma importância para determinar onde poderia ocorrer
locais de alta porcentagem de contaminação e padrões. Um exemplo da aplicabilidade
foi a Johnson & Jonhson fez a montagem de um dashboard global para vigilância com
objetivo de obtenção de dados de paı́ses para candidatos a vacina de COVID-19. No
artigo Subrahmanya et al. (2022) demonstra as possı́veis fontes que podem fornecer Big
Data,entre eles, smartphones, agências do governo, dados de aparelhos eletrônicos que
são utilizados na área de saúde que fornecem dados entre outros. Também demonstra as
possı́veis áreas que data science possa ser utilizada na área de saúde, entre elas; saúde
mental, administração de planos de saúde, detecção de fraude, vigilância de doenças,
saúde pública e farmacovigilância. Porém diferentemente deste trabalho de conclusão de
curso não é abordado um dataset em especı́fico impossibilitando a criação de dashboard
para levantamento de análises e com isso também não há utilização do processo KDD.
3.3 Big data analytics: a survey 20
3.3 Big data analytics: a survey
No trabalho Tsai et al. (2015) é destacado a importância do big data não somente no
marketing e empresas como mostrado em Dangar (2020), mas também em prevenções
de doenças, cidades inteligentes. Assim como neste trabalho também é apresentado o
processo de KDD, porém nele é resumido em 3 etapas ( entrada, análises e a saı́da),
é apresentado nele a ideia de utilizar machine learning para a mineração de dados e
destaca seu potencial de não somente em resolver os problemas de mineração de dados mas
também como aprimorar o processo de KDD. Nele também é apresentado os problemas
enfrentados com essa nova era de informação, o custo de comunicação entre sistemas,
gargalos em questão computacional, não tendo o poder necessário para rodar as análises,
segurança dos dados e entre outros.
No trabalho Hagen et al. (2019) é analisado dados que foram disponibilizados ao público
recentemente, de ligações referentes ao número 311 que são serviços não emergenciais que
algumas cidades possuem para ajudar em informações, reportar problemas ou realizar
reclamações. Abordando data analytics como descritiva ou preditiva, podendo extrair
descrições dos dados ao utilizar padrões uteis ou para realizar uma predição do que pode
vir a ocorrer utilizando como métrica os dados anteriores. Depois de realizar o processo
de filtragem dos dados e análises dos mesmos, logo apresentado um ranqueamento das
razões que foram efetuadas as ligações, também foi concluı́do que apenas uma minoria
das ligações explica do pedido total. Foi apresentado uma possı́vel associação entre os
padrões de ligações e a classe econômica social. Assim como neste trabalho de conclusão de
curso, no Hagen et al. (2019) abordou um dataset público, onde foi realizado uma série de
tratamentos que possibilitaram o levantamento de várias análises e padrões, que possuem
como objetivo apoiar os stakeholders em tomadas de decisões. Também foi abordado a
utilização do processo de KDD e construção de gráficos para possibilitar o levantamento
de análises, porém no setor de atendimento de serviço.
3.5 Using Data Mining to Detect Health Care Fraud and Abuse 21
3.5 Using Data Mining to Detect Health Care Fraud
and Abuse
Assim como nos trabalhos anteriores e neste apresentado em Joudaki et al. (2015), o
processo KDD também é abordado porém dessa vez com o objetivo na detecção de fraude
e abuso nos planos de saúde. Neste trabalho foi abordado os métodos de mineração de
dados, onde é efetuado um processo para realizar o tratamento para detecção de erros e
inconsistência nas reivindicações. A mineração de dados foi classificada em supervisionada
e não supervisionada, onde a primeira tenta descobrir relações entre as entradas e uma
variável de dependente ,enquanto a outra é usada quando não ha informações sobre a
variável dependente de acordo com Joudaki et al. (2015). Utilizando exemplos de padrões
de fraudes e não fraudes, é possı́vel construir modelos que permitem fazer novas análises
sobre novos grupos de dados. É destacado que os casos de fraudes e abusos do sistema
de saúde podem acabar causando custos e pagamentos elevados de forma desnecessária,
precisando averiguar-se para de alguma forma melhorar a trativa para evitar que ocorra
essa situação.
22
Nessa pesquisa é abordada a evolução da mortalidade dos anos de 1996 a 2020 em Minas
Gerais. Com a visualização dos dados de forma descritiva, após o tratamento dos mes-
mos, é esperado obter um instrumento cujo objetivo é auxiliar a tomada de decisões dos
stakeholders. A Figura 4.1 apresenta o processo de análise de dados implementado neste
trabalho.
Os dados são compostos por variáveis que podem ser de diversos tipos como
apontado por (”REIS; I.A.”, 2002). Porém, neste trabalho, são abordados apenas os
tipos que possuem relevância para a atual pesquisa, como pode ser visto na listagem
de itens a seguir. Caso desejado a visualização das informações disponı́veis sobre os
ı́ndices de mortalidade basta consultar o dicionário de dados do SIM disponibilizado pelo
SIM do DATASUS ⟨https://diaad.s3.sa-east-1.amazonaws.com/sim/Mortalidade Geral+
-+Estrutura.pdf⟩.
– 1 : Acidente
– 2 : Suicı́dio
– 3 : Homicı́dio
4.1 Desenvolvimento do processo 24
– 0;5;6;7;8;9 : NA.
– 1 : Hospital
– 3 : Domicı́lio
– 4 : Via pública
– 5 : Outros
– 9 : NA.
Em sı́ntese, os dados desta pesquisa são compostos por variáveis quantitativas dis-
cretas, que são mesuradas por escala quantitativa e não possuem continuidade, e variáveis
qualitativas nominais, que representam uma categoria e não possuem ordenação. Os da-
dos são fornecidos pelo programa DATASUS do governo brasileiro que disponibiliza dados
da saúde brasileira de forma gratuita.
Ao lidar com um dataset é necessário maior cuidado devido a possibilidade de
obter as informações em diversos formatos. De acordo com (GOMES”, 2019), os formatos
mais comumente encontrados são: dados estruturados, que podem ser disponibilizados no
formato de banco de dados relacionais; planilhas excel, csv e outros, ou seja, uma fonte
que tem uma organização detalhada e constante; dados semi-estruturados, que usam
marcadores para separar os elementos como arquivo XML, HTML, JSON; e, por fim,
os dados não estruturados, que não possuem uma identificação de organização de forma
explı́cita como textos, áudios e imagens.
4.2 Análise dos Dados de Saúde 26
A primeira etapa neste trabalho, foi a escolha dos dados a serem trabalhados e
foram escolhidos os dados SIM de mortalidade entre os anos de 1996 e 2020, disponibili-
zados pelo DATASUS (BRASILEIRO”, 2022). A etapa seguinte foi a seleção dos dados
vitais para serem trabalhados que permitiram as análises. Nesse caso foram escolhidos os
itens que foram vistos logo acima na listagem 4.1, e realizado o download desses dados
através da biblioteca (COELHO et al., 2021). Logo em seguida foi realizado a tradução
de seus valores para facilitar o entendimento.
Em seguida foi realizada a exportação dos dados para CSV para serem traba-
lhados na ferramenta Microsoft Power Bi. Onde foi descoberto que o banco de dados
construı́do a partir do CSV possui aproximadamente 3 milhões de linhas, tornando-o im-
praticável para fazer rápidas análises sem o devido tratamento e construção para facilitar
a visualização do mesmo. Nesse novo ambiente foi realizada a exclusão dos valores que
possuem erros ou que foram incorretamente preenchidos através da ferramenta de trans-
formação de dados do Microsoft Power BI. Além desses valores, também foram retirados
valores que não possuem muita relevância como visto na descrição de valores. Logo após
foi efetuada a transformação de alguns valores que em sua totalidade não foram traduzi-
dos no código em Python como os tipos de mortalidade (acidente, suicı́dio, homicı́dio e
outros) e construı́do uma coluna chamada faixa etária para possibilitar análises, já que
deixando somente com a idade acabaria poluindo e não permitiria uma análise levando
esse atributo em consideração. Com os dados corretamente disponibilizados, foi efetuada
a construção de gráficos e filtros para permitir as análises, com o objetivo de apoiar as
tomadas de decisões para os stakeholders.
Nessa seção iremos abordar as análises observadas que são consideradas relevantes aos
stakeholders, possibilitadas pelo dashboard construı́do sobre os dados de mortalidade de
CID - 10 em Minas Gerais. A seguir, é apresentada a tabela 4.1 com traduções relevantes
para as análises levantadas pelos stakeholders. Essa tabela se baseia na Lista de Tabulação
para Morbidade Saude” (2022) criada pelo DATASUS .
4.2 Análise dos Dados de Saúde 27
4.2.1 Stakeholder 1
Imaginando um cenário onde o interessado deseja visualizar de uma forma mais genera-
lista pras informações do dashboard 4.3. Podemos analisar a quantidade mortes em sua
totalidade em Minas Gerais dos anos de 1996 a 2020, o total foi 2.909.202. Onde cada
ano é possı́vel visualizar que houve um aumento crescente além disso onde sua maioria
foi do capı́tulo IX (Doenças do aparelho circulatório).
Além disso, também é possı́vel analisar que sem realização de uma filtragem por
sexo, por capı́tulo da Cid 10 ou ano, vemos que a faixa etária de mortalidade se encontra
de forma balanceada em sua totalidade tendo sua máxima em 76-80. Vemos também que
os capı́tulos da Cid 10 que possuem maior mortalidade são (I, II, IV, VI, IX, X, XI, XIV,
XVIII e XX).
Considerando essas análises iniciais, é possı́vel levantar algumas perguntas base-
adas na visualização dos dashboards propostas pelo autor desse trabalho, que podem ser
respondidas através de filtros aplicados ao dashboard. Entretanto, há perguntas que não
são possı́veis de serem respondidas com os dados coletados, sendo necessário que fosse
feita a integração com outras fontes para encontrar suas respostas.
Foi possı́vel ao observar as Figuras 4.4 e 4.5 que não há mudanças significativas
entre os capı́tulos da CID-10 que possuem maior quantidade de mortos, somente ao
filtrar por sexo masculino há a substituição do capı́tulo XIV por XVI.
2. Tem algum influenciador desconhecido que permite que o Capı́tulo IX possua maior
mortalidade?
Não é possı́vel afirmar nada sobre isso devido à falta de dados que justifiquem a
maior mortalidade vinculada ao Capı́tulo IX.
3. O ano de 2019 para 2020, teve um crescimento significativo de mortes, será que é
somente devido a pandemia de COVID-19? Podemos ver também que a quantidade
de mortos em 2000 foi menor que 1999, o que poderia ter causado essa queda?
Essas duas perguntas também não são possı́veis de serem respondidas com os dados
do DATASUS.
4.2.2 Stakeholder 2
Nesse cenário é desejado pelo stakeholder levantar análises sobre a mortalidade referente
ao sexo feminino.
Visualizando o novo dashboard 4.4 apresentado é observável que houve flutuações
em questões de proporções em vários aspectos porém , a causa da mortalidade não natural
ainda manteve o mesmo ranqueamento. Porém se compararmos a figura 4.4 com a 4.5
é possı́vel observar o grande espaço que a causa de acidente acaba ganhando do que se
filtrado por sexo masculino ou não filtrando por sexo, mostrando sua elevada taxa caso
filtrado pelo sexo feminino. Qual seria a causa dessa elevada taxa de acidentes envolvendo
o sexo feminino nesse cenário ? Infelizmente com as informações disponibilizadas não é
possı́vel responder essa pergunta.
Analisando o dashboard da Figura 4.4 vemos que a faixa etária dos falecidos tem
seu pico em 80-84 ao invés de 76-80 como anteriormente abordando quando os dois sexos
foram analisados em conjunto.
4.2 Análise dos Dados de Saúde 29
Se efetuar uma comparação do gráfico de circunstância de morte (não natural)
da Figura 4.4 com o 4.3 é possı́vel observar que o suicı́dio acaba ganhando um maior
espaço do que anteriormente, sem o filtro com o sexo feminino, o que instiga a seguinte
pergunta qual será a causa dessa maior taxa de suicı́dio ? Infelizmente com as informações
disponibilizadas pelo DATASUS não é possı́vel determinar a causa.
Por que será que essa diferença ocorreu? Se compararmos 4.4 e 4.5 vemos
que a quantidade acumulada de mortes femininas é de 1.260.899, enquanto as mortes
acumuladas do sexo masculino são 1.646.332. Ao analisar o gráfico de mortes anuais
filtrados pelo sexo feminino, é possı́vel visualizar que alguns anos possuem uma quantidade
menor que seu ano anterior, o que pode ter influenciado para ocorrer esse decréscimo ao
invés do acréscimo como esperado.
Muitos fatores podem ser responsáveis por essa diferença no quantitativo de mor-
tes entre os sexos, tais como: Será que as mulheres cuidam melhor de si mesmas? Será que
as mulheres estão indo mais aos médicos? Entretanto, essas perguntas não são possı́veis
de serem respondidas apenas com os dados do DATASUS.
4.2.3 Stakeholder 3
Nesse cenário é desejado pelo stakeholder levantar análises sobre a mortalidade referente
ao sexo masculino.
Ao observar os dashboards das figuras 4.4 e 4.5 é notável que a maior quantidade
de mortes não naturais é provocada por acidentes se mantém. Porém é notório o espaço
ganho pelo homicı́dio, mostrando uma enorme diferença se comparado ao da figura 4.4 .
Ao analisar com cuidado a faixa etária dos falecidos caso seja filtrado pelo sexo
masculino, a quantidade de mortos entre 12 até 16 anos que anteriormente era de 5.000,
como observado na figura 4.4, sofreu um acréscimo e teve seu valor alterado para apro-
ximadamente 10.000 possuindo quase o dobro de quantidade de mortos do que o sexo
feminino.
Analisando novamente o gráfico de faixa etária dos falecidos, considerando tanto
o masculino abordado nos dashboards da Figura 4.5 quanto o feminino da Figura 4.4,
a faixa etária de 0 até 4 anos possui um ı́ndice muito elevado se comparado as próximas
4.2 Análise dos Dados de Saúde 30
faixas etárias, que são as de 4 até 8 e 8 até 12. Para concluir a causa desse acontecimento,
é necessário que seja feito um estudo mais aprofundado do que pode estar influenciando
a ocorrência desse cenário.
Visualizando o gráfico de quantidade de mortes por CID 10 das figuras 4.4 e
4.5 vemos a diferença enorme da porcentagem ocupada pelo capı́tulo XX, onde anterior-
mente por sexo feminino representava 4.95% enquanto para o sexo masculino representa
15.53%. Para analisarmos é necessário entender o que esse capı́tulo representa, nele estão
inclusos as causas externas de morbidade e de mortalidade ( acidentes de transporte, que-
das, afogamento , envenenamento, lesões autoprovocadas e agressões) . Tendo isso em
consideração é possı́vel levantar a seguinte pergunta: Qual seria o influenciador dessa di-
ferença entre esses casos? Porém como descrito anteriormente nesse trabalho de conclusão
de curso, por se tratar em análises descritivas e com as informações disponibilizadas pelo
DATASUS não é possı́vel afirmar a causa dessa situação.
muitas portas. Caso o interessado deseje realizar um estudo comparativo e análises le-
vando em conta o Brasil inteiro, é possı́vel fazer estudos onde há menor casos de acidentes,
suicı́dio e homicı́dio tentando investigar a causa para tal acontecimento e permitir realizar
procedimentos adequados para diminuição em outros estados.
Também seria possı́vel verificar se o padrão entre as mortes pela CID- 10 se
mantém, e se houver mudanças muito bruscas poderia verificar qual o motivo influenciador
para essa mudança, por exemplo: hábitos alimentares entre as pessoas de cidades maiores
e de certa região, hábitos fı́sicos, entre outros que poderiam estar influenciando nessa
listagem de top 10 capı́tulos que possuem maior quantidade de mortes.
32
Bibliografia
DANGAR, M. Black friday: How much is the customer going to spend. In: . [S.l.: s.n.],
2020.
DASH, S. et al. Big data in healthcare: management, analysis and future prospects.
Journal of Big Data, v. 6, n. 1, p. 54, Jun 2019. ISSN 2196-1115. Disponı́vel em: ⟨https:
//doi.org/10.1186/s40537-019-0217-0⟩.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. The kdd process for extracting
useful knowledge from volumes of data. Commun. ACM, Association for Computing Ma-
chinery, New York, NY, USA, v. 39, n. 11, p. 27–34, nov 1996. ISSN 0001-0782. Disponı́vel
em: ⟨https://doi.org/10.1145/240455.240464⟩.
HAGEN, L. et al. Processes, potential benefits, and limitations of big data analytics: A
case analysis of 311 data from city of miami. In: Proceedings of the 20th Annual Interna-
tional Conference on Digital Government Research. New York, NY, USA: Association for
Computing Machinery, 2019. (dg.o 2019), p. 1–10. ISBN 9781450372046. Disponı́vel em:
⟨https://doi.org/10.1145/3325112.3325212⟩.
JONKER, D. et al. Aperture: An open web 2.0 visualization framework. In: 2013 46th
Hawaii International Conference on System Sciences. IEEE, 2013. Disponı́vel em: ⟨https:
//doi.org/10.1109/hicss.2013.96⟩.
JOUDAKI, H. et al. Using data mining to detect health care fraud and abuse: A review
of literature. Global journal of health science, v. 7, p. 37879, 01 2015.
RUSSOM, P. Big data analytics. In: RUSSOM, P. (Ed.). Big Data Analytics. [S.l.]: TDWI,
2011.
BIBLIOGRAFIA 35
SAUDE”, M. da. ”Morbidade Hospitalar do SUS CID-10 Lista de Tabulação para Mor-
bidade”. 2022. Disponı́vel em: ⟨”http://tabnet.datasus.gov.br/cgi/sih/mxcid10lm.htm”⟩.
TSAI, C.-W. et al. Big data analytics: a survey. Journal of Big Data, v. 2, n. 1, p. 21,
Oct 2015. ISSN 2196-1115. Disponı́vel em: ⟨https://doi.org/10.1186/s40537-015-0030-3⟩.