Relatório de Negócios de Mineração de Dados Hansraj Yadav

Fazer download em docx, pdf ou txt
Fazer download em docx, pdf ou txt
Você está na página 1de 37

RELATÓRIO DE

NEGÓCIOS DE
MINERAÇÃO DE
DADOS

1|Página
HANSRAJ YADAV
LOTE PGPDSBA JAN'2020

CONTEÚDO

1. Objetivo............................................................................................................... 3
2. Problema 1: Agrupamento .........
a) Suposições............................................................................................. 4
b) Importação de Pacotes ............ 4
c) Solução 1.1 ............
d) Solução 1.2 .........
e) Solução 1.3 ............
f) Solução 1.4 ............
g) Solução 1.5 .........
3. Problema 2: CART, RF, ANN ...............
a) Suposições............................................................................................. 18
b) Importação de Pacotes ............ 18
c) Solução 2.1 ............
d) Solução 2.2 .........
e) Solução 2.3 ............
f) Solução 2.4 ............
g) Solução 2.5 .........

2|Página
OBJETIVO DO PROJETO

Problema 1: Clustering
Um banco líder quer desenvolver uma segmentação de clientes para oferecer ofertas
promocionais aos seus clientes. Eles coletaram uma amostra que resume as atividades dos
usuários durante os últimos meses. Você recebe a tarefa de identificar os segmentos com
base no uso do cartão de crédito.
1.1. Realizar Análise Exploratória de Dados no conjunto de dados e descrevê-lo
brevemente.
1.2. Para justificar se o dimensionamento é necessário para o agrupamento nesse caso.
1.3. Para executar clustering hierárquico para dados dimensionados e identificar o
número de clusters ótimos usando Dendrogram e descrevê-los brevemente.
1.4. Para executar o clustering K-Means em dados dimensionados e determinar clusters
ótimos. Aplique a curva de cotovelo e o escore de silhueta.
1.5. Descrever perfis de cluster para os clusters definidos e recomendar diferentes
estratégias promocionais para diferentes clusters.

Problema 2: CART-RF-ANN
Uma empresa de seguros que fornece seguro turístico está enfrentando maior frequência
de sinistros. A gestão decide coletar dados dos últimos anos. Você recebe a tarefa de criar
um modelo que preveja o status da declaração e forneça recomendações ao
gerenciamento. Use CART, RF E ANN e compare o desempenho dos modelos em conjuntos
de trem e teste.
2.1. Para ler o conjunto de dados e realizar as estatísticas descritivas e fazer a verificação
da condição de valor nulo e escrever uma inferência sobre ele.
2.2. Para dividir os dados em teste e treinamento, construa o modelo de classificação
CART, Floresta Aleatória e Rede Neural Artificial.
2.3. Verificar o desempenho das Previsões em conjuntos de Trem e Teste utilizando
Precisão, Matriz de Confusão, Plot curva ROC e obter ROC_AUC pontuação para cada
modelo.

3|Página
2.4. Comparar todos os modelos e fazer uma inferência sobre qual modelo é
melhor/otimizado.
2.5. Para fornecer insights e recomendações de negócios.

PROBLEMA 1: CLUSTERING

SUPOSIÇÕES
O conjunto de dados que nos é fornecido é armazenado como
"bank_marketing_part1_Data.csv", que contém dados de 210 clientes e 7 variáveis, a saber:

gastos Valor gasto pelo cliente por mês (em 1000s)

advance_payments Valor pago pelo cliente antecipadamente em dinheiro (em


100s)

probability_of_full_payment Probabilidade de pagamento integral pelo cliente ao banco

current_balance Valor do saldo deixado na conta para fazer compras (em 1000s)

credit_limit Limite do valor no cartão de crédito (10000s)

min_payment_amt mínimo pago pelo cliente ao efetuar pagamentos de compras


feitas mensalmente (em 100s)

max_spent_in_single_shopping Valor máximo gasto em uma compra (em 1000s)

IMPORTANDO PACOTES
Para importar o conjunto de dados e realizar a Análise Exploratória de Dados no conjunto de
dados fornecido, importamos os seguintes pacotes:

4|Página
SOLUÇÕES
1.1 Realizar Análise Exploratória de Dados no conjunto de dados e descrevê-
lo brevemente.
Importando o conjunto de dados

O conjunto de dados em questão é importado no notebook jupyter usando pd.read_csv função () e


armazenará o conjunto de dados em "bank_df". As 5 linhas superiores do conjunto de dados são
exibidas usando a função pd.head ().

Dimensão do conjunto de dados

Estrutura do conjunto de dados

A estrutura do conjunto de dados pode ser calculada usando a função .info ().

5|Página
Resumo do conjunto de dados
O resumo do conjunto de dados pode ser calculado usando a função .describe ().

Verificando valores ausentes

Os valores ausentes ou "NA" precisam ser verificados e descartados do conjunto de dados para
facilitar a avaliação e valores nulos podem dar erros ou disparidades nos resultados. Os valores
ausentes podem ser calculados usando a função .isnull().sum().

6|Página
Conforme calculado a partir do comando acima, o conjunto de dados não tem nenhum valor nulo ou
NA.

Análise Univariada

Os histogramas são plotados para todas as variáveis numéricas usando a função sns.displot () do
pacote seaborn.

7|Página
Boxplots de variáveis para verificar Outliers

8|Página
Inferência: Depois de plotar os Boxplots para todas as variáveis, podemos concluir que alguns
outliers estão presentes na variável, a saber, min_payment_amt o que significa que há apenas
alguns clientes cujo valor mínimo de pagamento cai no lado mais alto em média. Como apenas uma
das sete variáveis tem um valor atípico muito pequeno, portanto, não há necessidade de tratar os
outliers. Este pequeno valor não criará qualquer diferença na nossa análise.

Podemos concluir pelos gráficos acima que a maioria dos clientes em nossos dados tem uma maior
capacidade de gastos, alto saldo corrente em suas contas e esses clientes gastaram um valor maior
durante um único evento de compras. A maioria dos clientes tem maior probabilidade de fazer o
pagamento integral ao banco.

Análise Multivariada

Mapa de Calor (Análise de Relacionamento)

Agora vamos plotar um Mapa de Calor ou Matriz de Correlação para avaliar a relação entre
diferentes variáveis em nosso conjunto de dados. Este gráfico pode nos ajudar a verificar quaisquer
correlações entre diferentes variáveis.

9|Página
Inferência: De acordo com o Mapa de Calor, podemos concluir que as seguintes variáveis estão
altamente correlacionadas:

 Gastos e advance_payments, gastos e current_balance, gastos e credit_limit


 Advance_payment e current_balance, advance_payment e limite de crédito
 Saldo atual e máximo gasto em compras individuais

Com isso podemos concluir que os clientes que estão gastando muito alto possuem um saldo
corrente maior e alto limite de crédito. Os pagamentos antecipados e o gasto máximo feito em
compras individuais são feitos pela maioria dos clientes que têm saldo corrente alto em suas contas
bancárias.

A probabilidade de pagamentos integrais é maior para aqueles clientes que têm um limite de crédito
maior.

O valor mínimo de pagamento não está correlacionado a nenhuma das variáveis, portanto, não é
afetado por quaisquer alterações no saldo atual ou limite de crédito dos clientes.

Gráfico de pares para todas as variáveis

10 | P á g i n a
Com a ajuda do gráfico de pares acima, podemos entender as tendências univariadas e bivariadas
para todas as variáveis no conjunto de dados.

11 | P á g i n a
1.2 Justificar se o dimensionamento é necessário para o agrupamento neste
caso
Dimensionamento de recursos ou padronização é uma técnica para algoritmos de Machine Learning
que ajuda no pré-processamento dos dados. Ele é aplicado a variáveis independentes, o que ajuda a
normalizar os dados em um intervalo específico. Se o dimensionamento de recursos não for feito,
um algoritmo de aprendizado de máquina tende a pesar valores maiores, mais altos e considerar
valores menores como os valores mais baixos, independentemente da unidade dos valores.

Para os dados que nos são fornecidos, o escalonamento é necessário, pois todas as variáveis são
expressas em diferentes unidades, como gastos em 1000, pagamentos antecipados em 100 e limite
de crédito em 10000, enquanto a probabilidade é expressa como valores fracionários ou decimais.
Uma vez que os outros valores expressos em unidades superiores superarão as probabilidades e
podem dar resultados variados, portanto, é importante dimensionar os dados usando o Standard
Scaler e, portanto, normalizar os valores onde as médias serão 0 e o desvio padrão 1.

O dimensionamento de dados é feito usando a importação de um pacote chamado StandardScaler


do sklearn.preprocessing. Para agrupamento adicional do conjunto de dados, usaremos os dados
dimensionados, "scaled_bank_df".

12 | P á g i n a
1.3 Para executar clustering hierárquico para dados dimensionados e
identificar o número de clusters ótimos usando Dendrogram e descrevê-los
brevemente.

A Análise de Cluster ou Clustering é uma técnica de Aprendizagem Não Supervisionada amplamente


aceita em Machine Learning, o Clustering pode ser dividido em duas categorias, a saber,
Agrupamento Hierárquico e K-means.

O agrupamento hierárquico, também conhecido como análise de cluster hierárquico, é um algoritmo


que agrupa objetos semelhantes em grupos chamados clusters. O ponto de extremidade é um
conjunto de clusters, onde cada cluster é distinto um do outro cluster, e os objetos dentro de cada
cluster são amplamente semelhantes entre si. Existem dois tipos de agrupamento hierárquico, o
Divisivo e o Aglomerativo.

Para o conjunto de dados em questão, usaremos o método de agrupamento hierárquico


aglomerativo para criar clusters ótimos e categorizar o conjunto de dados com base nesses clusters.

Para criar um Dendrogram usando nossos dados dimensionados, primeiro importamos o pacote
dendrogram, linkage de scipy.cluster.hierarchy. Usando esta função, criamos um dendrograma que
mostra dois clusters muito claramente. Agora, vamos verificar a composição desses dois

13 | P á g i n a
aglomerados usando 'maxclust' e 'distance'. Como pode ser visto de cima, agora tomaremos 2
clusters para nossa análise mais aprofundada.

Este gráfico acima mostra os últimos 10 links no dendrograma.

14 | P á g i n a
Os dois métodos acima mostram os clusters designados que são atribuídos a cada um dos clientes.
Segregamos os dois clusters usando dois métodos do pacote fcluster.

1.4 Realizar clusters K-Means em dados dimensionados e determinar clusters


ótimos. Aplique a curva de cotovelo e o escore de silhueta.
O clustering K-means é um dos algoritmos de aprendizado de máquina não supervisionados. O
algoritmo K-means identifica o número k de centroides e, em seguida, aloca cada ponto de dados
para o cluster mais próximo, mantendo os centroides o menor possível.

Para o conjunto de dados, usaremos o agrupamento K-means em dados dimensionados e


identificaremos os clusters formados e os usaremos ainda mais para criar ferramentas para atingir
cada grupo separadamente.

Em primeiro lugar, dimensionamos o conjunto de dados usando o pacote StandardScaler do


sklearn.preprocessing e usando o scaled_bank_df agora traçaremos duas curvas para determinar o
número ideal de clusters(k) a serem usados para nosso clustering. Os dois métodos são: o método
da soma dos quadrados (wss) e o método dos escores médios das silhuetas.

15 | P á g i n a
De acordo com o gráfico acima, ou seja, dentro do método da soma dos quadrados (wss), podemos
concluir que o número ótimo de agrupamentos a serem tomados para o agrupamento k-means é 3,
uma vez que, de acordo com o método do cotovelo, pode ser facilmente visto na curva que após 3 a
curva fica plana

De acordo com o gráfico de Escores médios de silhuetas, pode-se observar que o maior escore
médio é correspondente a k=3. Assim, de acordo com ambos os métodos, ou seja, dentro da soma
de quadrados e do método da silhueta, podemos concluir que o número ótimo de k ou
agrupamentos que precisa ser tomado para agrupamento k-means é 3.

16 | P á g i n a
As pontuações de silhuetas e larguras de silhuetas são calculadas usando silhouette_samples e
silhouette_score pacote de sklearn.metrics. A pontuação média das silhuetas está chegando a ser de
0,400 e a pontuação mínima das silhuetas é de 0,002. O escore de silhueta varia de -1 a +1 e quanto
maior o escore de silhueta, melhor o agrupamento.

1.5. Descrever perfis de cluster para os clusters definidos e recomendar


diferentes estratégias promocionais para diferentes clusters.

Agora, o passo final é identificar os clusters que criamos usando clustering hierárquico e cluster K-
means para nossa análise de segmento de mercado e elaborar estratégias promocionais para os
diferentes clusters. A partir da análise acima, identificamos 2 clusters de agrupamento hierárquico e
3 clusters ótimos de agrupamento k-means. Vamos agora analisar e determinar a melhor abordagem
de agrupamento que pode ser útil para o problema de segmentação de mercado em mãos. Primeiro,
plotaremos e mapearemos os clusters a partir de ambos os métodos.

AGRUPAMENTO

17 | P á g i n a
AGRUPAMENTO K-

Agora, na tabela abaixo, tabulamos as médias para todas as variáveis dos cinco clusters criados a
partir do agrupamento acima usando métodos hierárquicos e K-means. De acordo com os valores,
podemos segmentar os clusters em dois para clusters Hierárquicos e três segmentos para clusters K-
means.

Segmentos

Cluster Hierárquico 1: Este segmento possui maior gasto por mês, saldo corrente elevado e limite de
crédito. Esta é a classe Próspera ou Alta com renda majoritariamente mais alta. Esse segmento pode
ser segmentado por meio de diversas ofertas, como cartões com recompensas e pontos de
fidelidade para cada gasto.

Cluster Hierárquico 2: Esse segmento tem menor gasto por mês com saldo corrente baixo e limite
de crédito menor. Essa é a classe média de baixa renda. Esse segmento pode ser alvo de cartões que
possuem juros mais baixos para incentivar mais gastos.

K-means Cluster 0: Este segmento tem o menor gasto por mês, menor saldo corrente e limite de
crédito. Esta é a classe financeiramente estressada com renda muito baixa em média. Esse
segmento pode ser segmentado com cartões com ofertas como cobrança zero de anuidade e com
benefícios como cupons gratuitos ou ingressos e isenções em diversos lugares.

K-means Cluster 1: Este segmento tem maiores gastos por mês, saldo corrente elevado e limite de
crédito. Esta é a classe Próspera ou Alta com renda majoritariamente mais alta. Esse segmento pode
ser segmentado por meio de diversas ofertas, como cartões com recompensas e pontos de
fidelidade para cada gasto.

K-means Cluster 2: Este segmento tem menor gasto por mês com saldo corrente baixo e limite de
crédito menor. Essa é a classe média de baixa renda. Esse segmento pode ser alvo de cartões que
possuem juros mais baixos para incentivar mais gastos.

18 | P á g i n a
VARIÁVEIS Gastos Adiantam Probabilid Saldo Limite Pagamen Max
entos ade de atual de to gasto em
pagament crédito mínimo compras
o total Amt individua
is

Hierárquico 18.62 16.26 0.88 6.19 3.71 3.66 6.06


(Cluster 1)

Hierárquico 13.23 13.83 0.87 5.39 3.07 3.71 5.13


(Cluster 2)

K-means 11.86 13.25 0.85 5.23 2.85 4.74 5.1


(Cluster 0)

K-means 18.5 16.2 0.88 6.18 3.7 3.63 6.04


(Cluster 1)

K-means 14.43 14.33 0.88 5.51 3.26 2.7 5.12


(Cluster 2)

PROBLEMA 2: CART-RF-ANN
SUPOSIÇÕES
O conjunto de dados que nos é fornecido é armazenado como "insurance_part2_data.csv"
que contém dados de 3000 clientes e 10 variáveis, a saber:

Idade Idade do segurado

Agency_Code Código da empresa de turismo

Tipo Tipo de empresas de seguros turísticos

Alegou Destino: Status da declaração

Comissão A comissão recebida pela empresa de seguros turísticos

Canal Canal de distribuição das agências de seguros turísticos

Duração Duração do passeio

Venda Valor das vendas de apólices de seguro turístico

Nome do produto Nome dos produtos de seguro turístico

Destino Destino do passeio

19 | P á g i n a
IMPORTANDO PACOTES
Para importar o conjunto de dados e realizar a Análise Exploratória de Dados no conjunto de
dados fornecido, importamos os seguintes pacotes:

SOLUÇÕES
2.1 Para ler o conjunto de dados e executar as estatísticas descritivas e fazer
a verificação de condição de valor nulo e escrever uma inferência sobre ele.

Importando o conjunto de dados

O conjunto de dados em questão é importado no notebook jupyter usando pd.read_csv função () e


armazenará o conjunto de dados em "claim_df". As 5 linhas superiores do conjunto de dados são
exibidas usando a função pd.head ().

Dimensão do conjunto de dados

20 | P á g i n a
Estrutura do conjunto de dados

A estrutura do conjunto de dados pode ser calculada usando a função pd.info().

Resumo do conjunto de dados

O resumo do conjunto de dados pode ser calculado usando a função pd.describe ().

Verificando valores ausentes

Os valores ausentes ou "NA" precisam ser verificados e descartados do conjunto de dados para
facilitar a avaliação e valores nulos podem dar erros ou disparidades nos resultados. Os valores
ausentes podem ser calculados usando a função .isnull().sum().

21 | P á g i n a
Conforme calculado a partir do comando acima, o conjunto de dados não tem nenhum valor nulo ou
NA.

Descartando as colunas não importantes

Neste conjunto de dados, "Agency_Code" é a coluna que não pode ser usada para nossa análise.
Portanto, vamos descartar esta coluna usando a função .drop().

Análise Univariada

Os histogramas são plotados para todas as variáveis numéricas usando a função sns.displot () do
pacote seaborn.

22 | P á g i n a
Os gráficos de barras são plotados para todas as variáveis categóricas usando a função
sns.countplot() do pacote seaborn.

23 | P á g i n a
Boxplots de variáveis para verificar Outliers

Descartando os outliers do conjunto de dados

24 | P á g i n a
Inferência: Depois de plotar os Boxplots para todas as variáveis numéricas, podemos concluir que
um número muito alto de outliers está presente nas variáveis a saber, Idade, Commissão, Duração e
Vendas , o que significa que precisamos tratar esses valores atípicos para prosseguir com nossa
construção e análise do modelo, pois esses valores podem criar erros e podem se desviar dos
resultados reais.

Podemos concluir pelos gráficos acima que a maioria dos clientes que fazem uma reclamação em
nossos dados pertencem à faixa etária de 25-40 anos, com o tipo de empresa de Agência de Turismo
sendo Agência de Viagens, Canal sendo Online, Nome do Produto sendo Plano Personalizado e
Destino sendo Ásia.

Análise Multivariada

Mapa de Calor (Análise de Relacionamento)

Agora vamos plotar um Mapa de Calor ou Matriz de Correlação para avaliar a relação entre
diferentes variáveis em nosso conjunto de dados. Este gráfico pode nos ajudar a verificar quaisquer
correlações entre diferentes variáveis.

Conforme interpretado a partir do mapa de calor acima, não há correlação ou é extremamente baixa
entre as variáveis fornecidas no conjunto de dados.

25 | P á g i n a
2.2. Para dividir os dados em teste e treinamento, construa o modelo de
classificação CART, Floresta Aleatória e Rede Neural Artificial.

Convertendo o tipo de dados 'object' em 'int'


Para nossa análise e construção de árvore de decisão e floresta aleatória, temos que converter
as variáveis que têm tipo de dados 'objeto' e convertê-las em inteiro.

Dividindo o conjunto de dados em dados de trem e teste (70:30)


Para construir os modelos, agora teremos que dividir o conjunto de dados em Dados de
Treinamento e Teste com a proporção de 70:30. Esses dois conjuntos de dados são armazenados
em X_train e X_test com suas dimensões correspondentes da seguinte maneira

26 | P á g i n a
Modelo CART
Árvores de Classificação e Regressão (CART) são um tipo de árvores de decisão usadas na
mineração de dados. É um tipo de Técnica de Aprendizagem Supervisionada onde o resultado
previsto é uma discreta ou classe (classificação) do conjunto de dados ou o resultado é de
natureza contínua ou numérica (regressão).

Usando o Train Dataset(X_train), criaremos um modelo CART e, em seguida, testaremos ainda


mais o modelo no Test Dataset(X_test)

Para a criação do Modelo CART foram importados dois pacotes, a saber, "DecisionTreeClassifier"
e "tree" do sklearn.

Com a ajuda de DecisonTreeClassifier vamos criar um modelo de árvore de decisão ou seja,


dt_model e usando os critérios "gini" vamos ajustar os dados de trem neste modelo. Depois
disso, usando o pacote de árvore, criaremos um arquivo de ponto, ou seja, claim_tree.dot para
ajudar a visualizar a árvore.

Abaixo estão os valores de importância da variável ou a importância do recurso para construir a


árvore.

27 | P á g i n a
Usando o pacote GridSearchCV da sklearn.model_selection identificaremos os melhores
parâmetros para construir uma árvore de decisão regularizada. Assim, fazendo algumas
iterações com os valores, obtivemos os melhores parâmetros para construir a árvore de decisão,
que são os seguintes:

Esses melhores parâmetros de grade passam a ser usados para construir a árvore de decisão
regularizada ou podada.

A árvore de decisão regularizada foi formulada usando os melhores parâmetros de grade


calculados acima e com os critérios "gini" que é ajustada no conjunto de dados do trem. A

28 | P á g i n a
árvore regularizada é armazenada como um arquivo de ponto, ou seja,
claim_tree_regularised.dot e pode ser visualizada usando webgraphviz no navegador.

Floresta aleatória
Random Forest é outra Técnica de Aprendizado Supervisionado usada em Machine Learning que
consiste em muitas árvores de decisão que ajudam nas previsões usando árvores individuais e
seleciona a melhor saída delas.

Usando o Train Dataset(X_train), estaremos criando um modelo de Floresta Aleatória e, em seguida,


testando ainda mais o modelo no Test Dataset(X_test)

Para criar a Floresta Aleatória, o pacote "RandomForestClassifier" é importado de sklearn.metrics.

Usando o pacote GridSearchCV da sklearn.model_selection vamos identificar os melhores


parâmetros para construir uma Floresta Aleatória, ou seja, rfcl. Assim, fazendo algumas iterações
com os valores, obtivemos os melhores parâmetros para construir o Modelo de RF, que são os
seguintes:

29 | P á g i n a
Usando esses melhores parâmetros avaliados usando GridSeachCV é criado um Modelo de Floresta
Aleatória que é posteriormente usado para avaliação de desempenho do modelo.

Rede Neural Artificial (RNA)


A Rede Neural Artificial (RNA) é um modelo computacional que consiste em vários elementos de
processamento que recebem entradas e entregam saídas com base em suas funções de ativação
predefinidas.

Usando o conjunto de dados de trem(X_train) e o conjunto de dados de teste(X_test) estaremos


criando uma Rede Neural usando MLPClassifier de sklearn.metrics.

Em primeiro lugar, teremos que dimensionar os dois conjuntos de dados usando o pacote Standard
Scaler.

Usando o pacote GridSearchCV da sklearn.model_selection identificaremos os melhores parâmetros


para construir um Modelo de Rede Neural Artificial a saber, mlp. Assim, fazendo algumas iterações
com os valores, obtivemos os melhores parâmetros para construir o Modelo ANN, que são os
seguintes:

30 | P á g i n a
Usando esses melhores parâmetros avaliados usando GridSeachCV é criado um Modelo de Rede
Neural Artificial que é posteriormente usado para avaliação de desempenho do modelo.

2.3. Verificar o desempenho das Previsões em Conjuntos de Trem e Teste


utilizando Precisão, Matriz de Confusão, Plot curva ROC e obter ROC_AUC
pontuação para cada modelo.
Para verificar o Desempenho dos Modelos dos três modelos criados acima são utilizados
determinados avaliadores de modelos, ou seja, Relatório de Classificação, Matriz de Confusão,
Escore ROC_AUC e Gráfico ROC. Eles são calculados primeiro para dados de trem e depois para
dados de teste.

Modelo CART
Relatório de Classificação

31 | P á g i n a
Matriz de confusão

Escore ROC_AUC e Curva ROC

32 | P á g i n a
Pontuação do modelo

Modelo de floresta aleatória


Relatório de Classificação

Matriz de confusão

33 | P á g i n a
Escore AUC_ROC e Curva ROC

Modelo de Redes Neurais Artificiais


Relatório de Classificação

34 | P á g i n a
Matriz de confusão

Escore AUC_ROC e Curva ROC

35 | P á g i n a
2.4. Comparar todos os modelos e fazer uma inferência sobre qual modelo é
melhor/otimizado.

A comparação de todos os avaliadores de desempenho para os três modelos é apresentada na


tabela a seguir. Estamos usando Precisão, Escore F1 e Escore AUC para nossa avaliação.

Modelo Precisão Pontuação F1 Escore AUC

Modelo CART

Dados do trem 0.67 0.82 0.84

Dados de teste 0.61 0.77 0.76

Floresta aleatória

Dados do trem 0.71 0.82 0.84

Dados de teste 0.65 0.77 0.80

Redes Neurais

Dados do trem 0.68 0.82 0.84

Dados de teste 0.60 0.76 0.79

Insights:
A partir da tabela acima, comparando os avaliadores de desempenho do modelo para os três
modelos, fica bastante claro que o Modelo de Floresta Aleatória está tendo um bom desempenho
em comparação com os outros dois, pois tem alta precisão para dados de treinamento e teste e
embora o Escore AUC seja o mesmo para todos os três modelos para dados de treinamento, mas
para dados de teste é o mais alto para o Modelo de Floresta Aleatória. Escolher o Modelo de
Floresta Aleatória é a melhor opção neste caso, pois exibirá muito menos variância em comparação
com uma única árvore de decisão ou uma Rede Neural de várias camadas.

36 | P á g i n a
2.5. Para fornecer insights e recomendações de negócios.

Para o problema de negócios de uma empresa de seguros que fornece seguro de turismo,
tentamos fazer alguns modelos de dados para previsões de probabilidades. Os modelos que
são tentados são a saber, CART ou Árvores de Classificação e Regressão, Floresta Aleatória e
Rede Neural Artificial (MLP). Os três modelos são então avaliados em conjuntos de dados de
treinamento e teste e suas pontuações de desempenho do modelo são calculadas.
A Precisão, Precisão e Pontuação F1 são calculadas usando o Relatório de Classificação. A
matriz de confusão, os escores AUC_ROC e o gráfico ROC são computados para cada modelo
separadamente e comparados. Todos os três modelos tiveram um bom desempenho, mas
para aumentar nossa precisão na determinação das reivindicações feitas pelos clientes,
podemos escolher o Modelo de Floresta Aleatória. Em vez de criar uma única árvore de
decisão, ela pode criar várias árvores de decisão e, portanto, pode fornecer o melhor status
de declaração a partir dos dados.
Como visto a partir das medidas de desempenho do modelo acima, para todos os modelos,
ou seja, CART, Random Forest e ANN tiveram um desempenho excepcionalmente bom.
Assim, podemos escolher qualquer um dos modelos, mas escolher o Modelo de Floresta
Aleatória é uma ótima opção, pois mesmo que eles exibam a mesma precisão, mas escolher
o modelo de Floresta Aleatória em vez de Carrinho é muito melhor, pois eles têm muito
menos variância do que uma única árvore de decisão.

37 | P á g i n a

Você também pode gostar