Anotações

Introdução à Regressão Linear:
 Explique que a regressão linear é uma técnica usada para prever o valor de uma
variável dependente com base em uma ou mais variáveis independentes.
 A regressão linear encontra a linha (ou plano) que minimiza a soma dos quadrados das
diferenças entre os valores observados e os valores previstos.]
trainControl é usado para definir os parâmetros da validação cruzada, incluindo o número de

folds e o método de busca de hiperparâmetros.
O modelo de regressão linear é ajustado usando a função “train” do pacote ”caret”, que
incorpora a validação cruzada conforme definido em train_control.
Critério de Divisão: Para minimizar o erro, a árvore de regressão utiliza critérios como a soma
dos quadrados dos resíduos (RSS) para dividir os dados nos nó
Critério de Divisão (Split Criterion):
 Para cada variável XiX_iXi e cada ponto de divisão ttt possível, calcule a soma dos
quadrados dos resíduos (RSS) para a divisão.
 A melhor divisão é aquela que minimiza o RSS.
randomForest: A função randomForest do pacote randomForest
Metrics - Cálculo de métricas de avaliação de modelos
 Função: mse
lubridate - Manipulação de datas
 Função: as.Date
stats - Ajuste do modelo de regressão linear
 Função: lm (parte da biblioteca base do R)
nnet do pacote nnet

Arvore de Descisão
Função Principal: rpart
 minsplit: 20
 Número mínimo de observações que devem estar presentes em um nó para que ele
seja considerado para divisão.
 minbucket: Tamanho mínimo do bucket (folha) que é calculado como minsplit / 3.
 Se minsplit for 20, minbucket será aproximadamente 7.
 cp (Complexity Parameter): 0.01
 Parâmetro de complexidade que determina a quantidade mínima de melhoria no

critério de divisão (RSS) para que uma divisão seja realizada.
 maxdepth: 30
 Profundidade máxima da árvore.
Para árvores de decisão usadas para regressão, a métrica de divisão utilizada não é a entropia
(que é típica para problemas de classificação), mas sim a soma dos quadrados dos resíduos
(RSS, do inglês Residual Sum of Squares) ou a redução na variância.
Critério de Divisão para Árvores de Regressão
Em árvores de regressão, o critério para escolher a melhor divisão em cada nó é baseado na

minimização do erro de predição. A métrica comum usada para isso é a soma dos quadrados
dos resíduos (RSS).
Residual Sum of Squares (RSS)
A métrica RSS é usada para medir a quantidade de variabilidade nos dados que é explicada
pelo modelo. Em cada nó, a árvore de regressão procura a divisão que minimiza a soma dos
quadrados dos resíduos para os dados resultantes em cada novo nó.
Onde:
 yiy_iyi é o valor observado da variável dependente.
 y^\hat{y}y^ é o valor previsto da variável dependente (neste caso, a média dos valores
observados no nó).
 NNN é o número de observações no nó.

Floresta Aleatória
Parâmetros de Controle para Florestas Aleatórias
Você pode ajustar vários parâmetros para controlar o comportamento das Florestas Aleatórias:
1. ntree:
o Descrição: Número de árvores a serem construídas.
o Uso: Aumentar ntree pode melhorar a precisão, mas também aumenta o

tempo de treinamento.
2. mtry:
o Descrição: Número de variáveis a serem consideradas para divisão em cada nó.
o Uso: Para regressão, o padrão é p\sqrt{p}p onde ppp é o número total de

variáveis. Você pode ajustar isso para aumentar ou diminuir a aleatoriedade.
3. nodesize:
o Descrição: Número mínimo de observações em um nó terminal.
o Uso: Aumentar nodesize pode resultar em árvores mais "curtas" e reduzir o

overfitting.
4. maxnodes:
o Descrição: Número máximo de nós na árvore.
o Uso: Controla a complexidade da árvore.

Anotações

Enviado por

Direitos autorais:

Formatos disponíveis

Anotações

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Anotações

Enviado por

Direitos autorais:

Formatos disponíveis

Introdução à Regressão Linear:

trainControl é usado para definir os parâmetros da validação cruzada, incluindo o número de

Critério de Divisão (Split Criterion):

 A melhor divisão é aquela que minimiza o RSS.

randomForest: A função randomForest do pacote randomForest

Metrics - Cálculo de métricas de avaliação de modelos

lubridate - Manipulação de datas

stats - Ajuste do modelo de regressão linear

 Função: lm (parte da biblioteca base do R)

nnet do pacote nnet

Função Principal: rpart

 minbucket: Tamanho mínimo do bucket (folha) que é calculado como minsplit / 3.

 Se minsplit for 20, minbucket será aproximadamente 7.

 cp (Complexity Parameter): 0.01

 Parâmetro de complexidade que determina a quantidade mínima de melhoria no

 Profundidade máxima da árvore.

Critério de Divisão para Árvores de Regressão

Em árvores de regressão, o critério para escolher a melhor divisão em cada nó é baseado na

Residual Sum of Squares (RSS)

 yiy_iyi é o valor observado da variável dependente.

 NNN é o número de observações no nó.

Parâmetros de Controle para Florestas Aleatórias

o Descrição: Número de árvores a serem construídas.

o Uso: Aumentar ntree pode melhorar a precisão, mas também aumenta o

o Descrição: Número de variáveis a serem consideradas para divisão em cada nó.

o Uso: Para regressão, o padrão é p\sqrt{p}p onde ppp é o número total de

o Descrição: Número mínimo de observações em um nó terminal.

o Uso: Aumentar nodesize pode resultar em árvores mais "curtas" e reduzir o

o Descrição: Número máximo de nós na árvore.

o Uso: Controla a complexidade da árvore.

Você também pode gostar