Qué Es Un Árbol de Decisión

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 6

Qué es un árbol de decisión

Un árbol de decisión es un modelo predictivo que divide


el espacio de los predictores agrupando observaciones
con valores similares para la variable respuesta o
dependiente.

Para dividir el espacio muestral en sub-regiones es preciso aplicar una serie de


reglas o decisiones, para que cada sub-región contenga la mayor proporción
posible de individuos de una de las poblaciones.

Si una sub-región contiene datos de diferentes clases, se subdivide en


regiones más pequeñas hasta fragmentar el espacio en sub-regiones menores
que integran datos de la misma clase.

El tipo de problema a resolver dependerá de la variable a predecir:

 Variable dependiente: estaríamos ante un problema de regresión.


 Variable categórica: nos enfrentaríamos a un problema de clasificación.

Cuál es el origen de los árboles de decisión

Los creadores de la metodología del árbol de clasificación con aplicación al


aprendizaje automático, también llamada metodología CART, fueron Leo
Breiman, Jerome Friedman, Richard Olshen y Charles Stone. Su aplicación en
el ámbito de la Estadística se inició en 1984.

Qué tipo de algoritmo es un árbol de decisión

Los algoritmos de aprendizaje automático se clasifican en dos tipos:

 Supervisados.
 No supervisados.

Un árbol de decisión es un algoritmo supervisado de aprendizaje


automático porque para que aprenda el modelo necesitamos una variable
dependiente en el
conjunto de entrenamiento.
Estructura básica de un árbol de decisión

Los árboles de decisión están formados por nodos y su lectura se realiza de


arriba hacia abajo.

Dentro de un árbol de decisión distinguimos diferentes tipos de nodos:

 Primer nodo o nodo raíz: en él se produce la primera división en función


de la variable más importante.
 Nodos internos o intermedios: tras la primera división encontramos
estos nodos, que vuelven a dividir el conjunto de datos en función de
las variables.
 Nodos terminales u hojas: se ubican en la parte inferior del esquema y
su función es indicar la clasificación definitiva.

Otro concepto que debes tener claro es la profundidad de un árbol, que


viene determinada por el número máximo de nodos de una rama.

La continuación te mostramos un ejemplo gráfico:


Ventajas y desventajas de los árboles de decisión

Al hacer uso de esta herramienta surgen ventajas e inconvenientes.

Ventajas

 Son fáciles de construir, interpretar y visualizar.


 Selecciona las variables más importantes y en su creación no siempre
se hace uso de todos los predictores.
 Si faltan datos no podremos recorrer el árbol hasta un nodo terminal,
pero sí podemos hacer predicciones promediando las hojas del sub-
árbol que alcancemos.
 No es preciso que se cumplan una serie de supuestos como en la
regresión lineal (linealidad, normalidad de los residuos, homogeneidad
de la varianza, etc.).
 Sirven tanto para variables dependientes cualitativas como
cuantitativas, como para variables predictoras o independientes
numéricas y categóricas. Además, no necesita variables dummys,
aunque a veces mejoran el modelo.
 Permiten relaciones no lineales entre las variables explicativas y la
variable dependiente.
 Nos podemos servir de ellos para categorizar variables numéricas.

Desventajas

 Tienden al sobreajuste u overfitting de los datos, por lo que el modelo al


predecir nuevos casos no estima con el mismo índice de acierto.
 Se ven influenciadas por los outliers, creando árboles con ramas muy
profundas que no predicen bien para nuevos casos. Se deben eliminar
dichos outliers.
 No suelen ser muy eficientes con modelos de regresión.
 Crear árboles demasiado complejos puede conllevar que no se adapten
bien a los nuevos datos. La complejidad resta capacidad de
interpretación.
 Se pueden crear árboles sesgados si una de las clases es más numerosa
que otra.
 Se pierde información cuando se utilizan para categorizar una variable
numérica continua.

Cómo se crea un árbol de decisión

La creación de un árbol de decisión de un problema de clasificación se lleva a


cabo aplicando el algoritmo de Hunt que se basa en la división en sub-
conjuntos que buscan una separación óptima. Dado un conjunto de registros
de entrenamiento de un nodo, si pertenecen a la misma clase se considera un
nodo terminal, pero si pertenecen a varias clases, se dividen los datos en sub-
conjuntos más pequeños en función de una variable y se repite el proceso.

Para seleccionar qué variable elegir para obtener la mejor división se puede
considerar el Error de Clasificación, el índice Gini (rpart) o la Entropía
(C50).

El índice de Gini mide el grado de pureza de un nodo. Nos mide la


probabilidad de no sacar dos registros de la misma clase del nodo. A mayor
índice de Gini menor pureza, por lo que seleccionaremos la variable con
menor Gini ponderado. Suele seleccionar divisiones desbalanceadas, donde
normalmente aísla en un nodo una clase mayoritaria y el resto de clases los
clasifica en otros nodos.

Se define el índice de Gini como:

Donde Pi es la probabilidad de que un ejemplo sea de la clase i.

La entropía es una medida que se aplica para cuantificar el desorden de un


sistema. Si un nodo es puro su entropía es 0 y solo tiene observaciones de una
clase, pero si la entropía es igual a 1, existe la misma frecuencia para cada una
de las clases de observaciones.

La entropía tiende a crear nodos balanceados en el número de observaciones.


Relacionado con la entropía se define la Ganancia de Información que busca la
división con mayor ganancia de información, es decir, con menor entropía
ponderada de la variable.

Se define la entropía como:

Donde Pi es la probabilidad de que un ejemplo sea de la clase i.

En el caso de los árboles de decisión de un problema de regresión se utiliza el


RSS (Residual Sum of Squares) que es una medida de la discrepancia entre los
datos reales y los predichos por el modelo. Un RSS bajo indica un buen ajuste
del modelo a los datos, es decir, se busca minimizar el RSS.

Se define el RSS como:

Donde yi es el valor real de la variable a predecir y ˆyi es el valor predicho.

También podría gustarte