Nolasco Carlos 2da Actividad
Nolasco Carlos 2da Actividad
Nolasco Carlos 2da Actividad
No. 3200089
Fecha: 01/02/2022
Proceso KDD
No trivial. De nada sirve extraer conocimiento conocido por todos o que carezca de
importancia.
Útil. El conocimiento extraído debe servir para algo, de lo contrario no tiene ningún
sentido de invertir esfuerzos para extraerlo.
Dicho conocimiento se aplica para resolver el problema inicial en la empresa y, por ello,
se miden los resultados de aplicar dicho conocimiento. En caso de que los resultados
no sean satisfactorios, el proceso de KDD se replantea y se vuelve aplicar realizando
los cambios necesarios en las diferentes fases anteriormente expuestas.
Esta fase tiene como objetivo la mejora en la calidad del almacén de datos y trata de
mostrar el conjunto de datos de la manera más apropiada para la siguiente fase: la
minería de datos.
Otro tipo de datos que pueden llegar a presentar algún tipo de problema son los
valores faltantes o missing values (ver Figura «Datos faltantes y anómalos»). Estos
son datos que por algún motivo no existen, bien porque se han perdido o bien porque
nunca se han llegado a recopilar. También se reconocen como datos faltantes los
valores que han sido introducidos para informar de que tal valor no existe.
CRISP-DM, que son las siglas de Cross-Industry Standard Process for Data Mining, es
un método probado para orientar sus trabajos de minería de datos.
El ciclo vital del modelo contiene seis fases con flechas que indican las dependencias
más importantes y frecuentes entre fases. La secuencia de las fases no es estricta. De
hecho, la mayoría de los proyectos avanzan y retroceden entre fases si es necesario.
En tal situación, las fases de modelado, evaluación y despliegue pueden ser menos
relevantes que las fases de preparación y comprensión de datos. Sin embargo, es muy
importante considerar algunas cuestiones que surgen durante fases posteriores para la
planificación a largo plazo y objetivos futuros de minería de datos.
La fase de preparación de datos cubre todas las actividades necesarias para construir
el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado)
a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas,
registros y atributos, así como la transformación y la limpieza de datos para las
herramientas que modelan.
Fase IV. Modeling. Modelado
En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes
al problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos.
Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos.
Algunas técnicas tienen requerimientos específicos sobre la forma de los datos. Por lo
tanto, casi siempre en cualquier proyecto se acaba volviendo a la fase de preparación
de datos.
En esta etapa en el proyecto, se han construido uno o varios modelos que parecen
alcanzar calidad suficiente desde la una perspectiva de análisis de datos.
Antes de proceder al despliegue final del modelo, es importante evaluarlo a fondo y
revisar los pasos ejecutados para crearlo, comparar el modelo obtenido con los
objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante
de negocio que no haya sido considerada suficientemente. Al final de esta fase, se
debería obtener una decisión sobre la aplicación de los resultados del proceso de
análisis de datos.