10 Preguntas Data Mining Unidad 1
10 Preguntas Data Mining Unidad 1
10 Preguntas Data Mining Unidad 1
(b) ¿Es una simple transformación o aplicación de tecnología desarrollada a partir de bases de datos,
estadísticas, aprendizaje automático y reconocimiento de patrones?
(c) Hemos presentado una visión de que la minería de datos es el resultado de la evolución de la
tecnología de bases de datos. ¿Crees que la minería de datos también es el resultado de la evolución
de la investigación del aprendizaje automático? ¿Puede presentar tales puntos de vista basados en
el progreso histórico de esta disciplina? Abordar lo mismo para los campos de estadísticas y
reconocimiento de patrones.
Después de la creación de las bases de datos se condujo al desarrollo de mecanismos efectivos para
la gestión, almacenamiento y recuperación de datos, después hubo una necesidad de analizar
grandes cantidades de datos, para obtener información útil de estos datos.
(d) Describa los pasos involucrados en la minería de datos cuando se ve como un proceso de
descubrimiento de conocimiento.
I. Limpieza de datos, un proceso que elimina o transforma el ruido y los datos inconsistentes.
II. Integración de datos, donde se pueden combinar múltiples fuentes de datos.
III. Selección de datos, donde los datos relevantes para la tarea de análisis se recuperan de la base
de datos.
IV. Transformación de datos, donde los datos se transforman o consolidan en formas apropiadas
para la minería.
V. Minería de datos, un proceso esencial donde se aplican métodos inteligentes y eficientes para
extraer patrones.
VI. Evaluación de patrones, un proceso que identifica los patrones verdaderamente interesantes
que representan el conocimiento basado en algunas medidas de interés.
VII. Presentación del conocimiento, donde se utilizan técnicas de visualización y representación del
conocimiento para presentar el conocimiento extraído al usuario.
2. ¿En qué se diferencia un almacén de datos de una base de datos? ¿En qué se parecen?
Caracterización, resumen de las características generales de una clase de datos, por ejemplo, en base
a los datos recolectados en el ITSM, una caracterización serían las características obtenidas de los
alumnos de Ingeniería ambiental, por ejemplo, sus promedios.
Discriminación, es una comparación de las características generales de los objetos de datos de la
clase objetivo con las características generales de los objetos de una o un conjunto de clases
contrastantes. Por ejemplo, la comparación de las características de los estudiantes de ingeniera
ambiental con los estudiantes de ingeniería industrial de los alumnos del ITSM.
Asociación, es el descubrimiento de reglas de asociación que muestran condiciones de valor de
atributo que ocurren frecuentemente juntas en un conjunto de datos dado.
Clasificación, esta busca predecir algunos valores de datos faltantes o no disponibles, y a menudo
numéricos, se usa para predecir la etiqueta de clase de los objetos de datos.
Agrupamiento, analiza objetos de datos sin consultar una etiqueta de clase conocida. Los objetos se
agrupan o agrupan según el principio de maximizar la similitud intraclase y minimizar la similitud
entre clases.
Análisis de evolución de datos, describe y modela las regularidades o tendencias de los objetos cuyo
comportamiento cambia con el tiempo.
4. Presente un ejemplo donde la minería de datos es crucial para el éxito de una empresa. ¿Qué
funcionalidades de minería de datos necesita esta empresa (por ejemplo, piense en los tipos de
patrones que podrían extraerse)? ¿Se pueden generar tales patrones alternativamente mediante el
procesamiento de consultas de datos o un análisis estadístico simple?
El ejemplo mas usado, es el de las cadenas departamentales, ya que aquí se manejan grandes
cantidades de datos de los compradores y se pueden encontrar patrones de acuerdo con los
productos que consumen. Esta información puede ser utilizada para publicidad o servicio al cliente.
6. Con base en sus observaciones, describa otro posible tipo de conocimiento que necesita ser
descubierto por los métodos de minería de datos pero que no se ha enumerado en este capítulo.
¿Requiere una metodología de minería que sea bastante diferente de las descritas en este capítulo?
7. Los valores atípicos a menudo se descartan como ruido. Sin embargo, la basura de una persona
podría ser el tesoro de otra. Por ejemplo, las excepciones en las transacciones con tarjeta de crédito
pueden ayudarnos a detectar el uso fraudulento de las tarjetas de crédito. Utilizando la detección de
fraudulencia como ejemplo, proponga dos métodos que se puedan usar para detectar valores
atípicos y discutir cuál es más confiable.
8. Describa tres desafíos para la minería de datos con respecto a la metodología de minería de datos y
los problemas de interacción del usuario.
Primero, los datos de muestra a menudo son escasos en el sentido multidimensional. Cuando un
usuario profundiza en los datos, es fácil llegar a un punto con muy pocas o ninguna muestra, incluso
cuando el tamaño total de la muestra es grande. En segundo lugar, con datos de muestra, se utilizan
métodos estadísticos para proporcionar una medida de fiabilidad para indicar la calidad de la
respuesta de la consulta en lo que respecta a la población.
9. ¿Cuáles son los principales desafíos de extraer una gran cantidad de datos (por ejemplo, miles de
millones de tuplas) en comparación con la extracción de una pequeña cantidad de datos (por
ejemplo, un conjunto de datos de unos pocos cientos de tuplas)?
A medida que continúan surgiendo nuevos tipos de datos, nuevas aplicaciones y nuevas demandas
de análisis, no hay duda de que veremos más y más nuevas tareas de minería de datos en el futuro.
Hay muchos problemas desafiantes en la investigación de minería de datos. Las áreas incluyen
metodología de minería, interacción del usuario, eficiencia y escalabilidad, y manejo de diversos
tipos de datos. La investigación de minería de datos ha impactado fuertemente a la sociedad y
continuará haciéndolo en el futuro.