Nolasco Carlos 2da Actividad

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 8

“INVESTIGACION SOBRE CRISP-DM “

Alumno: Carlos Fabricio Nolasco Rivas

Asignatura: Inteligencia de Negocios

Máster: Jorge Varela

No. 3200089

Fecha: 01/02/2022
Proceso KDD

El proceso KDD se utiliza para referirse al proceso de extracción automatizada de


conocimiento a partir de grandes volúmenes de datos. Este proceso será el mecanismo
de referencia utilizado en este texto para la obtención de conocimiento que ayude a
mejorar la inteligencia empresarial.

Característica extraídos del conocimiento por el proceso KDD:

No trivial. De nada sirve extraer conocimiento conocido por todos o que carezca de
importancia.

Previamente desconocido. Nada nuevo se aporta si el conocimiento extraído ya había


descubierto anteriormente.

Implícito. Se encuentra oculto en los datos.

Útil. El conocimiento extraído debe servir para algo, de lo contrario no tiene ningún
sentido de invertir esfuerzos para extraerlo.

El proceso se compone de diferentes fases, tales se mencionan:

Recopilación de datos. En esta fase, los datos, procedentes diferentes fuentes, se


integran en un mismo y único repositorio de datos, denominado almacén de datos, mas
conocido como data warehouse. El resultado final de esta fase es, precisamente, ese
data warehouse.

Sección, limpieza y transformación de datos. Sobre los datos recopilados en el


almacén de datos no es posible realizar aun data mining, debido a que dichos datos no
pueden estar limpios, pueden contener atributos irrelevantes, etc. Precisamente, en la
segunda fase del proceso de KDD se realiza una selección de los datos integrados en
el data warehouse. Dichos datos, además, se limpian y transforman de cara a fases
posteriores. El resultado de esta fase es la denominada “vista minable”, que es un
subconjunto limpio y transformado de los datos sobre el que ya se pueden aplicar las
técnicas de data mining en la siguiente fase.
Data mining. Una vez que se cuenta con una vista minable, el siguiente paso consiste
en aplicar técnicas concretas de minería de datos para obtener modelos. El resultado
de la fase de minería de datos es precisamente, esos modelos.

Interpretación y evaluación de modelos. Los modelos obtenidos en la fase de data


mining han de ser evaluados. Una vez comprobada la calidad de los mismos, estos son
interpretados y, a partir de ellos, se obtiene el conocimiento. El resultado de esta ultima
fase es, precisamente, dicho conocimiento.

Una de las importantes características del proceso de KDD es su naturaleza iterativa.


Esto significa que es posible tener que aplicar varias veces el proceso KDD hasta
obtener el conocimiento deseado.

Dicho conocimiento se aplica para resolver el problema inicial en la empresa y, por ello,
se miden los resultados de aplicar dicho conocimiento. En caso de que los resultados
no sean satisfactorios, el proceso de KDD se replantea y se vuelve aplicar realizando
los cambios necesarios en las diferentes fases anteriormente expuestas.

A continuación, se adjunta imagen de fases en el proceso KDD:


Fase de selección, limpieza y transformación

Esta fase tiene como objetivo la mejora en la calidad del almacén de datos y trata de
mostrar el conjunto de datos de la manera más apropiada para la siguiente fase: la
minería de datos.

Extraer la información, tal y como se ha explicado en la fase anterior, de diversas


fuentes da lugar a diversos tipos de imperfecciones que será necesario resolver. A un
mayor número de imperfecciones en el almacén este verá disminuida su calidad. La
tarea de eliminar estas imperfecciones se denomina limpieza.

En la categoría de valores outliers también se identifican los valores denominados


erróneos. Son valores que, ya sea por su contenido, tipo de dato, estructura o cualquier
otra causa, no concuerdan con el resto del contexto y, presumiblemente, están
equivocados. Por esa razón se denomina también outliers, ya que se no se sitúan en el
comportamiento general de los datos. Los valores erróneos especialmente, así como
los valores outliers generalmente, pueden tratarse de diversas maneras:

 Ignorar el valor. Tiene la contrapartida de que necesita un algoritmo de


minería que soporte la ausencia de valores, pero a veces es necesario ya
que tal valor representa la realidad. Es una realidad poco común, pero al
fin y al cabo es una realidad y es conveniente mantenerlo.
 Eliminar la columna. Solución recomendable si existe otra columna con
más fiabilidad. También es posible sustituirla por otra columna que marque
la entrada como errónea o anómala.
 Eliminar la fila. Elimina fácilmente los datos faltantes, pero ignora las
causas de por qué no existe información sobre un dato.
 Reemplazar el valor. Esto es predecir el valor que no existe a través de
otros datos. Para ello se puede hallar la media, la moda o cualquier
variable estadística. Una solución más sencilla es modificarlo por nulo.
 Discretizar: Extrapolar valores continuos en valores discretos. Por ejemplo,
clasificar cualquier altura superior a 2 metros para una persona como “Muy
alto”, de esta manera cualquier altura superior, por muy alejada que esté
situada de los valores comunes, se entenderá como muy alta.

Otro tipo de datos que pueden llegar a presentar algún tipo de problema son los
valores faltantes o missing values (ver Figura «Datos faltantes y anómalos»). Estos
son datos que por algún motivo no existen, bien porque se han perdido o bien porque
nunca se han llegado a recopilar. También se reconocen como datos faltantes los
valores que han sido introducidos para informar de que tal valor no existe.

Un ejemplo de valor faltante sería un sistema que obligara a introducir dos números


de teléfono, uno fijo y otro móvil, para cada cliente, al llegar un cliente nuevo que no
dispone de teléfono fijo, a este se le asigna un valor de “-1”. Otra posibilidad es que se
haya registrado un cliente nuevo y, por tanto, este no disponga de gasto medio ya que
no se puede calcular. 
Proceso CRISP-DM

CRISP-DM, que son las siglas de Cross-Industry Standard Process for Data Mining, es
un método probado para orientar sus trabajos de minería de datos.

 Como metodología, incluye descripciones de las fases normales de un


proyecto, las tareas necesarias en cada fase y una explicación de las relaciones
entre las tareas.
 Como modelo de proceso, CRISP-DM ofrece un resumen del ciclo vital de
minería de datos.

El ciclo vital del modelo contiene seis fases con flechas que indican las dependencias
más importantes y frecuentes entre fases. La secuencia de las fases no es estricta. De
hecho, la mayoría de los proyectos avanzan y retroceden entre fases si es necesario.

El modelo de CRISP-DM es flexible y se pueden personalizar fácilmente. Por ejemplo,


si su organización intenta detectar actividades de blanqueo de dinero, es probable que
necesite realizar una criba de grandes cantidades de datos sin un objetivo de modelado
específico. En lugar de realizar el modelado, su trabajo se centrará en explorar y
visualizar datos para descubrir patrones sospechosos en datos financieros. CRISP-DM
permite crear un modelo de minería de datos que se adapte a sus necesidades
concretas.

En tal situación, las fases de modelado, evaluación y despliegue pueden ser menos
relevantes que las fases de preparación y comprensión de datos. Sin embargo, es muy
importante considerar algunas cuestiones que surgen durante fases posteriores para la
planificación a largo plazo y objetivos futuros de minería de datos.

Fase I. Business Understanding. Definición de necesidades del cliente (comprensión


del negocio)

Esta fase inicial se enfoca en la comprensión de los objetivos de proyecto. Después se


convierte este conocimiento de los datos en la definición de un problema de minería de
datos y en un plan preliminar diseñado para alcanzar los objetivos.

Fase II. Data Understanding. Estudio y comprensión de los datos

La fase de entendimiento de datos comienza con la colección de datos inicial y


continúa con las actividades que permiten familiarizarse con los datos, identificar los
problemas de calidad, descubrir conocimiento preliminar sobre los datos, y/o descubrir
subconjuntos interesantes para formar hipótesis en cuanto a la información oculta.

Fase III. Data Preparation. Análisis de los datos y selección de características

La fase de preparación de datos cubre todas las actividades necesarias para construir
el conjunto final de datos (los datos que se utilizarán en las herramientas de modelado)
a partir de los datos en bruto iniciales. Las tareas incluyen la selección de tablas,
registros y atributos, así como la transformación y la limpieza de datos para las
herramientas que modelan.
Fase IV. Modeling. Modelado

En esta fase, se seleccionan y aplican las técnicas de modelado que sean pertinentes
al problema (cuantas más mejor), y se calibran sus parámetros a valores óptimos.
Típicamente hay varias técnicas para el mismo tipo de problema de minería de datos.
Algunas técnicas tienen requerimientos específicos sobre la forma de los datos. Por lo
tanto, casi siempre en cualquier proyecto se acaba volviendo a la fase de preparación
de datos.

Fase V. Evaluation. Evaluación (obtención de resultados)

En esta etapa en el proyecto, se han construido uno o varios modelos que parecen
alcanzar calidad suficiente desde la una perspectiva de análisis de datos.
Antes de proceder al despliegue final del modelo, es importante evaluarlo a fondo y
revisar los pasos ejecutados para crearlo, comparar el modelo obtenido con los
objetivos de negocio. Un objetivo clave es determinar si hay alguna cuestión importante
de negocio que no haya sido considerada suficientemente. Al final de esta fase, se
debería obtener una decisión sobre la aplicación de los resultados del proceso de
análisis de datos.

Fase VI. Deployment. Despliegue (puesta en producción)

Generalmente, la creación del modelo no es el final del proyecto. Incluso si el objetivo


del modelo es de aumentar el conocimiento de los datos, el conocimiento obtenido
tendrá que organizarse y presentarse para que el cliente pueda usarlo. Dependiendo
de los requisitos, la fase de desarrollo puede ser tan simple como la generación de un
informe o tan compleja como la realización periódica y quizás automatizada de un
proceso de análisis de datos en la organización.

También podría gustarte