Anotações
Anotações
Anotações
Explique que a regressão linear é uma técnica usada para prever o valor de uma
variável dependente com base em uma ou mais variáveis independentes.
A regressão linear encontra a linha (ou plano) que minimiza a soma dos quadrados das
diferenças entre os valores observados e os valores previstos.]
O modelo de regressão linear é ajustado usando a função “train” do pacote ”caret”, que
incorpora a validação cruzada conforme definido em train_control.
Critério de Divisão: Para minimizar o erro, a árvore de regressão utiliza critérios como a soma
dos quadrados dos resíduos (RSS) para dividir os dados nos nó
Para cada variável XiX_iXi e cada ponto de divisão ttt possível, calcule a soma dos
quadrados dos resíduos (RSS) para a divisão.
Função: mse
Função: as.Date
minsplit: 20
Número mínimo de observações que devem estar presentes em um nó para que ele
seja considerado para divisão.
maxdepth: 30
Para árvores de decisão usadas para regressão, a métrica de divisão utilizada não é a entropia
(que é típica para problemas de classificação), mas sim a soma dos quadrados dos resíduos
(RSS, do inglês Residual Sum of Squares) ou a redução na variância.
A métrica RSS é usada para medir a quantidade de variabilidade nos dados que é explicada
pelo modelo. Em cada nó, a árvore de regressão procura a divisão que minimiza a soma dos
quadrados dos resíduos para os dados resultantes em cada novo nó.
Onde:
y^\hat{y}y^ é o valor previsto da variável dependente (neste caso, a média dos valores
observados no nó).
Você pode ajustar vários parâmetros para controlar o comportamento das Florestas Aleatórias:
1. ntree:
2. mtry:
3. nodesize:
4. maxnodes: