Anotações

Fazer download em docx, pdf ou txt
Fazer download em docx, pdf ou txt
Você está na página 1de 3

Introdução à Regressão Linear:

 Explique que a regressão linear é uma técnica usada para prever o valor de uma
variável dependente com base em uma ou mais variáveis independentes.

 A regressão linear encontra a linha (ou plano) que minimiza a soma dos quadrados das
diferenças entre os valores observados e os valores previstos.]

trainControl é usado para definir os parâmetros da validação cruzada, incluindo o número de


folds e o método de busca de hiperparâmetros.

O modelo de regressão linear é ajustado usando a função “train” do pacote ”caret”, que
incorpora a validação cruzada conforme definido em train_control.

Critério de Divisão: Para minimizar o erro, a árvore de regressão utiliza critérios como a soma
dos quadrados dos resíduos (RSS) para dividir os dados nos nó

Critério de Divisão (Split Criterion):

 Para cada variável XiX_iXi e cada ponto de divisão ttt possível, calcule a soma dos
quadrados dos resíduos (RSS) para a divisão.

 A melhor divisão é aquela que minimiza o RSS.

randomForest: A função randomForest do pacote randomForest

Metrics - Cálculo de métricas de avaliação de modelos

 Função: mse

lubridate - Manipulação de datas

 Função: as.Date

stats - Ajuste do modelo de regressão linear

 Função: lm (parte da biblioteca base do R)

nnet do pacote nnet


Arvore de Descisão

Função Principal: rpart

 minsplit: 20

 Número mínimo de observações que devem estar presentes em um nó para que ele
seja considerado para divisão.

 minbucket: Tamanho mínimo do bucket (folha) que é calculado como minsplit / 3.

 Se minsplit for 20, minbucket será aproximadamente 7.

 cp (Complexity Parameter): 0.01

 Parâmetro de complexidade que determina a quantidade mínima de melhoria no


critério de divisão (RSS) para que uma divisão seja realizada.

 maxdepth: 30

 Profundidade máxima da árvore.

Para árvores de decisão usadas para regressão, a métrica de divisão utilizada não é a entropia
(que é típica para problemas de classificação), mas sim a soma dos quadrados dos resíduos
(RSS, do inglês Residual Sum of Squares) ou a redução na variância.

Critério de Divisão para Árvores de Regressão

Em árvores de regressão, o critério para escolher a melhor divisão em cada nó é baseado na


minimização do erro de predição. A métrica comum usada para isso é a soma dos quadrados
dos resíduos (RSS).

Residual Sum of Squares (RSS)

A métrica RSS é usada para medir a quantidade de variabilidade nos dados que é explicada
pelo modelo. Em cada nó, a árvore de regressão procura a divisão que minimiza a soma dos
quadrados dos resíduos para os dados resultantes em cada novo nó.

Onde:

 yiy_iyi é o valor observado da variável dependente.

 y^\hat{y}y^ é o valor previsto da variável dependente (neste caso, a média dos valores
observados no nó).

 NNN é o número de observações no nó.


Floresta Aleatória

Parâmetros de Controle para Florestas Aleatórias

Você pode ajustar vários parâmetros para controlar o comportamento das Florestas Aleatórias:

1. ntree:

o Descrição: Número de árvores a serem construídas.

o Uso: Aumentar ntree pode melhorar a precisão, mas também aumenta o


tempo de treinamento.

2. mtry:

o Descrição: Número de variáveis a serem consideradas para divisão em cada nó.

o Uso: Para regressão, o padrão é p\sqrt{p}p onde ppp é o número total de


variáveis. Você pode ajustar isso para aumentar ou diminuir a aleatoriedade.

3. nodesize:

o Descrição: Número mínimo de observações em um nó terminal.

o Uso: Aumentar nodesize pode resultar em árvores mais "curtas" e reduzir o


overfitting.

4. maxnodes:

o Descrição: Número máximo de nós na árvore.

o Uso: Controla a complexidade da árvore.

Você também pode gostar