Qué Es Un Árbol de Decisión

Qué es un árbol de decisión
Un árbol de decisión es un modelo predictivo que divide

el espacio de los predictores agrupando observaciones
con valores similares para la variable respuesta o
dependiente.
Para dividir el espacio muestral en sub-regiones es preciso aplicar una serie de

reglas o decisiones, para que cada sub-región contenga la mayor proporción
posible de individuos de una de las poblaciones.
Si una sub-región contiene datos de diferentes clases, se subdivide en

regiones más pequeñas hasta fragmentar el espacio en sub-regiones menores
que integran datos de la misma clase.
El tipo de problema a resolver dependerá de la variable a predecir:
 Variable dependiente: estaríamos ante un problema de regresión.

 Variable categórica: nos enfrentaríamos a un problema de clasificación.
Cuál es el origen de los árboles de decisión
Los creadores de la metodología del árbol de clasificación con aplicación al

aprendizaje automático, también llamada metodología CART, fueron Leo
Breiman, Jerome Friedman, Richard Olshen y Charles Stone. Su aplicación en
el ámbito de la Estadística se inició en 1984.
Qué tipo de algoritmo es un árbol de decisión
Los algoritmos de aprendizaje automático se clasifican en dos tipos:
 Supervisados.
 No supervisados.
Un árbol de decisión es un algoritmo supervisado de aprendizaje

automático porque para que aprenda el modelo necesitamos una variable
dependiente en el
conjunto de entrenamiento.
Estructura básica de un árbol de decisión
Los árboles de decisión están formados por nodos y su lectura se realiza de

arriba hacia abajo.
Dentro de un árbol de decisión distinguimos diferentes tipos de nodos:
 Primer nodo o nodo raíz: en él se produce la primera división en función

de la variable más importante.
 Nodos internos o intermedios: tras la primera división encontramos
estos nodos, que vuelven a dividir el conjunto de datos en función de
las variables.
 Nodos terminales u hojas: se ubican en la parte inferior del esquema y
su función es indicar la clasificación definitiva.
Otro concepto que debes tener claro es la profundidad de un árbol, que

viene determinada por el número máximo de nodos de una rama.
La continuación te mostramos un ejemplo gráfico:

Ventajas y desventajas de los árboles de decisión
Al hacer uso de esta herramienta surgen ventajas e inconvenientes.
Ventajas
 Son fáciles de construir, interpretar y visualizar.

 Selecciona las variables más importantes y en su creación no siempre
se hace uso de todos los predictores.
 Si faltan datos no podremos recorrer el árbol hasta un nodo terminal,
pero sí podemos hacer predicciones promediando las hojas del sub-
árbol que alcancemos.
 No es preciso que se cumplan una serie de supuestos como en la
regresión lineal (linealidad, normalidad de los residuos, homogeneidad
de la varianza, etc.).
 Sirven tanto para variables dependientes cualitativas como
cuantitativas, como para variables predictoras o independientes
numéricas y categóricas. Además, no necesita variables dummys,
aunque a veces mejoran el modelo.
 Permiten relaciones no lineales entre las variables explicativas y la
variable dependiente.
 Nos podemos servir de ellos para categorizar variables numéricas.
Desventajas
 Tienden al sobreajuste u overfitting de los datos, por lo que el modelo al

predecir nuevos casos no estima con el mismo índice de acierto.
 Se ven influenciadas por los outliers, creando árboles con ramas muy
profundas que no predicen bien para nuevos casos. Se deben eliminar
dichos outliers.
 No suelen ser muy eficientes con modelos de regresión.
 Crear árboles demasiado complejos puede conllevar que no se adapten
bien a los nuevos datos. La complejidad resta capacidad de
interpretación.
 Se pueden crear árboles sesgados si una de las clases es más numerosa
que otra.
 Se pierde información cuando se utilizan para categorizar una variable
numérica continua.
Cómo se crea un árbol de decisión
La creación de un árbol de decisión de un problema de clasificación se lleva a

cabo aplicando el algoritmo de Hunt que se basa en la división en sub-
conjuntos que buscan una separación óptima. Dado un conjunto de registros
de entrenamiento de un nodo, si pertenecen a la misma clase se considera un
nodo terminal, pero si pertenecen a varias clases, se dividen los datos en sub-
conjuntos más pequeños en función de una variable y se repite el proceso.
Para seleccionar qué variable elegir para obtener la mejor división se puede
considerar el Error de Clasificación, el índice Gini (rpart) o la Entropía
(C50).
El índice de Gini mide el grado de pureza de un nodo. Nos mide la

probabilidad de no sacar dos registros de la misma clase del nodo. A mayor
índice de Gini menor pureza, por lo que seleccionaremos la variable con
menor Gini ponderado. Suele seleccionar divisiones desbalanceadas, donde
normalmente aísla en un nodo una clase mayoritaria y el resto de clases los
clasifica en otros nodos.
Se define el índice de Gini como:
Donde Pi es la probabilidad de que un ejemplo sea de la clase i.
La entropía es una medida que se aplica para cuantificar el desorden de un

sistema. Si un nodo es puro su entropía es 0 y solo tiene observaciones de una
clase, pero si la entropía es igual a 1, existe la misma frecuencia para cada una
de las clases de observaciones.
La entropía tiende a crear nodos balanceados en el número de observaciones.

Relacionado con la entropía se define la Ganancia de Información que busca la
división con mayor ganancia de información, es decir, con menor entropía
ponderada de la variable.
Se define la entropía como:
Donde Pi es la probabilidad de que un ejemplo sea de la clase i.
En el caso de los árboles de decisión de un problema de regresión se utiliza el

RSS (Residual Sum of Squares) que es una medida de la discrepancia entre los
datos reales y los predichos por el modelo. Un RSS bajo indica un buen ajuste
del modelo a los datos, es decir, se busca minimizar el RSS.
Se define el RSS como:
Donde yi es el valor real de la variable a predecir y ˆyi es el valor predicho.

Qué Es Un Árbol de Decisión

Cargado por

Copyright:

Formatos disponibles

Qué Es Un Árbol de Decisión

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Qué Es Un Árbol de Decisión

Cargado por

Copyright:

Formatos disponibles

Qué es un árbol de decisión

Un árbol de decisión es un modelo predictivo que divide

Para dividir el espacio muestral en sub-regiones es preciso aplicar una serie de

Si una sub-región contiene datos de diferentes clases, se subdivide en

El tipo de problema a resolver dependerá de la variable a predecir:

 Variable dependiente: estaríamos ante un problema de regresión.

Cuál es el origen de los árboles de decisión

Los creadores de la metodología del árbol de clasificación con aplicación al

Qué tipo de algoritmo es un árbol de decisión

Los algoritmos de aprendizaje automático se clasifican en dos tipos:

Un árbol de decisión es un algoritmo supervisado de aprendizaje

Los árboles de decisión están formados por nodos y su lectura se realiza de

Dentro de un árbol de decisión distinguimos diferentes tipos de nodos:

 Primer nodo o nodo raíz: en él se produce la primera división en función

Otro concepto que debes tener claro es la profundidad de un árbol, que

La continuación te mostramos un ejemplo gráfico:

Al hacer uso de esta herramienta surgen ventajas e inconvenientes.

 Son fáciles de construir, interpretar y visualizar.

 Tienden al sobreajuste u overfitting de los datos, por lo que el modelo al

Cómo se crea un árbol de decisión

La creación de un árbol de decisión de un problema de clasificación se lleva a

El índice de Gini mide el grado de pureza de un nodo. Nos mide la

Se define el índice de Gini como:

Donde Pi es la probabilidad de que un ejemplo sea de la clase i.

La entropía es una medida que se aplica para cuantificar el desorden de un

La entropía tiende a crear nodos balanceados en el número de observaciones.

Se define la entropía como:

Donde Pi es la probabilidad de que un ejemplo sea de la clase i.

En el caso de los árboles de decisión de un problema de regresión se utiliza el

Se define el RSS como:

Donde yi es el valor real de la variable a predecir y ˆyi es el valor predicho.

También podría gustarte