APUNTE Semana1

Unidad 1
Minería y Ciencias de datos

ESCUELA DE NEGOCIOS
Directora Escuela: Lorena Patricia Baus
ELABORACIÓN
Experta disciplinar: Giannina Costa
Diseñadora instruccional: Luisa García
Editora instruccional: Hayvic Adams Morillo
VALIDACIÓN
Experto disciplinar: José Fuentes Morales
Jefa de Diseño Instruccional: Alejandra San Juan Reyes
EQUIPO DE DESARROLLO
Welearn
AÑO
2022
Tabla de contenidos
Aprendizaje esperado.................................................................................................. 7
Introducción ................................................................................................................. 8
1. Concepto de Minería de Datos ................................................................................ 9
. 1.1. Definiciones de Minería de Datos ................................................................. 10
. 1.2. Casos de uso de la Minería de Datos ........................................................... 12
. 1.3. ¿Qué no es minería de datos? ...................................................................... 13
2. Tipo de Datos en Minería de Datos ....................................................................... 15
. 2.1. Datos estructurados ...................................................................................... 15
. 2.2. Datos no estructurados ................................................................................. 15
. 2.3. Datos semiestructurados............................................................................... 16
3. Relación Minerías de Datos, Big Data e Inteligencia de negocios (BI) .................. 17
. 3.1. ¿En qué se diferencia la minería de datos y el Big Data? ............................. 17
. 3.2. ¿En qué se diferencia la minería de datos y la Inteligencia de negocios? .... 19
4. Etapas de la minería de datos ............................................................................... 21
. 4.1. Comprensión del negocio.............................................................................. 22
. 4.1.1. Definir objetivo ........................................................................................ 22
. 4.1.2. Definir quiénes estarán involucrados en el proyecto ............................... 23

4.1.3. Involucrar al usuario final de la herramienta desarrollada ......................... 24
. 4.2. Entender-Comprender los Datos ................................................................... 25
. 4.2.1. Identificación ........................................................................................... 25
. 4.2.2. Fuentes de información........................................................................... 25
. 4.2.3. Análisis de disponibilidad ........................................................................ 26
. 4.2.4. Relación de las fuentes ........................................................................... 26
. 4.2.5. Representación funcional de los datos ................................................... 26
. 4.3. Preparación y tratamiento de los datos ......................................................... 27
. 4.3.1. Adquisición y registro .............................................................................. 27
. 4.3.2. Metadatos ............................................................................................... 27
. 4.3.3. Proceso de formateo y construcción de variables ................................... 27
. 4.3.4. Integración de datos ............................................................................... 28
. 4.3.4.1. Relación entre los datos....................................................................... 28
. 4.3.4.2. Análisis de integridad ........................................................................... 28
. 4.3.4.3. Definir tipo de unión ............................................................................. 28
. 4.3.4.4. Calidad del dato y limpieza .................................................................. 29
. 4.3.4.5. Construcción de variables derivadas ................................................... 29
. 4.3.4.6. Análisis exploratorio de datos .............................................................. 29
. 4.4. Modelamiento ................................................................................................ 30
5
. 4.4.1. Integración de datos ............................................................................... 30
. 4.4.2. Diseño de técnicas de modelamiento ..................................................... 31
. 4.4.3. Diseño de técnicas de evaluación ........................................................... 31
. 4.4.4. Entrenamiento ......................................................................................... 31
.4.5. Evaluación...................................................................................................... 31
. 4.5.1. Presentación de resultados..................................................................... 31
.4.6. Despliegue y paso a producción .................................................................... 32
5. Repercusiones de la minería de Datos.................................................................. 33
6. Desafíos de la minería de Datos ........................................................................... 33
7. Tendencias de la minería de Datos ....................................................................... 34
Cierre......................................................................................................................... 35
Referencias bibliográficas ......................................................................................... 36
6
Aprendizaje esperado
Caracterizan la minería de datos de acuerdo con su impacto en la organización.
Fuente: Muycomputer (2021).
7
Introducción
Hoy día se generan más de 2,5 billones de bytes de data producto de la revolución
digital que ha permitido que la captura de datos sea fácil, y el costo de almacenamiento
sea casi nulo. Los datos provienen de diversos orígenes de datos entre los que se
encuentran las redes sociales, compras en línea, datos financieros, datos científicos,
lectura de sensores, entre otros, para llevar a cabo el análisis de esta enorme cantidad
de datos las herramientas tradicionales de gestión de datos y las herramientas
estadísticas no son adecuadas para responder a la demanda de estos grandes
volúmenes de datos.
Esa gran cantidad de datos es una gran fuente de información y de conocimiento, el

conocimiento es poder, el poder es la habilidad de tener control o influencia en ciertos
eventos, desde hace siglos, las personas han intentado extraer conocimiento a partir
de los datos con el objetivo de obtener ventajas competitivas o un objetivo útil, fin que
también es compartido por la minería de datos.
El lograr convertir grandes volúmenes de datos en experiencia, conocimiento y

sabiduría, mediante la búsqueda de patrones resulta relevante para las organizaciones
dado que le permite la toma de decisiones eficiente y de calidad, logrando ventajas
sobre sus competidores.
La Minería de Datos es un conjunto de técnicas agrupadas que estudia métodos y

algoritmos que permitan la extracción automática de información, que permita
encontrar las relaciones escondidas en la gran cantidad de datos, adicionalmente se
pretende que la información obtenida posea capacidad el reconocimiento de patrones,
clasificación o predicción, facilitando de esta manera el análisis de los datos de forma
eficiente.
8
1. Concepto de Minería de Datos
La gran velocidad a la cual ha venido evolucionando la tecnología, ha permitido a las
empresas de hoy disponer de múltiples herramientas de software y hardware que les
ha permitido almacenar grandes volúmenes de datos para su posterior análisis. Estos
avances tecnológicos, sumado a la aparición de mercados cada vez más competitivos
y vertiginosos, lleva a las empresas a estar constantemente en búsqueda de mejorar
sus procesos de toma de decisiones. El gran volumen de datos les ha permitido a las
organizaciones no solo obtener información para su gestión, sino que se ha convenido
en una gran fuente de conocimiento que les permite analizar los datos desde muchas
perspectivas, logrando identificar su comportamiento y relaciones. Este conocimiento
les da la oportunidad de obtener ventajas competitivas sobre el resto, pero descubrir
conocimiento para un gran volumen de datos resulta ser un gran desafío.
La Minería de Datos estudia métodos y algoritmos que permiten la extracción

automática de información que permita encontrar relaciones, patrones y
tendencias escondidas en la gran cantidad de datos, de forma adicional busca
que la información obtenida posea capacidad de predicción y/o clasificación.
Estas técnicas tienen como objetivo descubrir el conocimiento que se encuentra
en los datos almacenados.
Su nombre se debe a la analogía entre una montaña y la gran cantidad de datos

almacenados en las organizaciones. Dentro de la montaña, se encuentran ocultos
entre piedras y tierra, diamantes que poseen un gran valor. Estos diamantes son
encontrados mediante distintas actividades de minería.
9
La misma situación ocurre en las organizaciones, dado que mediante diversos
algoritmos es posible encontrar relaciones, patrones y tendencias las que contribuyen
al mejoramiento y crecimiento de las empresas, dado la toma de decisiones eficientes
y oportunas.
Las personas que se dedican al análisis y extracción de

valor de los datos mediante algoritmos son llamados
mineros o exploradores de datos, estos perfiles intentan
descubrir patrones en medio de enormes cantidades de
datos, que permita aportar información valiosa a las
empresas para así, ayudarlas en la toma de decisiones
futuras.
. 1.1. Definiciones de Minería de Datos
Dentro de la literatura existen múltiples definiciones de minería de datos, dentro de las

más destacadas encontramos:
1. Conjunto de técnicas; que automatizan la detección de patrones relevantes.
2. Proceso que permite transformar información en conocimiento útil para el

negocio, a través del descubrimiento y cuantificación de relaciones en una gran
base de datos.
3. La técnica definida como el proceso de extracción de información y patrones

de comportamiento que permanecen ocultos entre grandes cantidades de
información.
10
4. Proceso que, a través del descubrimiento y cuantificación de relaciones
predictivas de los datos, permite transformar la información disponible en
conocimiento útil para la organización.
5. Integración de múltiples tecnologías, como la estadística, el soporte a la toma

de decisiones, el aprendizaje automático, la gestión y almacenamiento de
bases de datos y procesamiento en paralelo.
6. Proceso de descubrimiento significativo de nuevas correlaciones, patrones y

tendencias de grandes cantidades de datos almacenados en repositorios,
utilizando tecnologías de reconocimiento de patrones, así como también
técnicas estadísticas y matemáticas.
7. Exploración y análisis, a través de medios automáticos y semiautomáticos, de

grandes cantidades de datos con el fin de descubrir patrones y reglas
significativos.
8. Corresponde al uso de herramientas estadísticas avanzadas para investigar en

las bases de datos existentes en una compañía y descubrir patrones y
relaciones que pueden ser explotadas en el contexto de los negocios.
9. Combinación de métodos que ayudan a la reducción de costos y riesgos, así

como también al incremento de las rentas por la extracción de la información
estratégica desde los datos disponibles.
11
. 1.2. Casos de uso de la Minería de Datos
Las técnicas de minería de datos se están utilizando desde hace varios años para la
obtención de patrones en los datos y para la extracción de información que ha
contribuido a las estrategias empresariales, dentro de las que se destacan:
La banca: Es utilizada por bancos para comprender mejor los riesgos del
mercado, adicionalmente es utilizado para determinar predicciones de pagos
crediticios o fraude de transacciones, permite obtener los patrones de compra y los
datos financieros de sus clientes. La minería de datos también permite a los bancos
conocer mejor las preferencias o hábitos online de sus clientes lo que le permite
optimizar sus campañas de marketing.
Marketing: la minería de datos es utilizada para mejorar la segmentación del

mercado, analizando relaciones como edad, sexo, gustos del cliente, es
posible predecir su comportamiento sobre determinadas campañas de fidelización.
Permite además predecir qué usuarios son más propensos a darse de baja de un
servicio o qué se debe incluir en un correo para lograr un mayor índice de respuesta.
Investigación de delitos: la minería de datos permite predecir donde y a qué

hora es más probable que se produzca un delito.
Educación: permite predecir el rendimiento de los alumnos e identifica cuáles

de ellos son más probables que reprueben la asignatura.
Comercio electrónico: utilizan la minería de datos para ofrecer ventas

cruzadas y ventas adicionales, dado que conocen las preferencias y gustos de
sus clientes.
12
Comercio Minorista: utilizan los patrones de compra para identificar
asociaciones de productos y decidir cómo ubicarlos en los pasillos y estantes.
Adicionalmente puede detectar qué ofertas son más valoradas por los clientes.
Proveedores de servicios: utilizan la minería de datos para predecir las

razones por las que un cliente abandona la empresa.
Medicina: permite predecir el diagnóstico de una enfermedad, predecir la

probabilidad de adquirir ciertas enfermedades en determinados segmentos de
la población o prever la duración de los ingresos hospitalarios.
Fabricación: se pueden predecir el desgaste de los activos de producción.

Pueden anticipar el mantenimiento, lo que les ayuda a reducirlo para minimizar
el tiempo de inactividad.
Televisión y radio: la minería de datos permite hacer recomendaciones

personalizadas a los oyentes de radio y a los espectadores de televisión, así
como conocer sus intereses y actividades en tiempo real y comprender mejor su
comportamiento.
. 1.3. ¿Qué no es minería de datos?
Minería de datos no es estadística, comúnmente ambos términos se confunden, ya

que ambos tienen el mismo objetivo, que es construir "modelos" robustos y
comprensibles que rindan cuenta de las relaciones establecidas entre la descripción
de una situación y un resultado relacionado con dicha descripción.
13
La diferencia entre ambos conceptos consiste en que las técnicas de minería de datos
construyen el modelo de manera automática mientras que las técnicas estadísticas
"clásicas" necesitan ser manejadas y orientadas por un estadístico profesional.
Minería de datos no es Procesamiento Analítico en Línea (OLAP), Las herramientas

OLAP permiten navegar rápidamente por los datos, pero no se genera información en
el proceso a diferencia de la minería de datos.
14
2. Tipo de Datos en Minería de Datos
Hoy en día, la transformación digital ha generado muchos tipos de datos que
tradicionalmente no eran reconocidos como datos, entre ellos se encuentran los
videos, textos, imágenes, los cuales puede ser utilizados para realizar algún proyecto
de minería de datos. Los datos pueden ser clasificarlos en:
. 2.1. Datos estructurados
Los datos estructurados son datos que cuentan con un formato definido. Estos se
suelen encontrar en la mayoría de las bases de datos. Es común observarlos
estructurados en formato tabla, filas y columnas similar a hojas de Excel o bases de
datos relacionales, que pueden ser procesados de forma fácil por muchas
herramientas tradicionales. Los datos estructurados son independientes y menos
flexibles, las empresas usualmente cuentan con sus Data Warehouse, para realizar la
inteligencia de negocios.
. 2.2. Datos no estructurados
Estos son datos que no se encuentran procesados, los cuales son difíciles de procesar
debido a su formato y organización. Estos datos pueden incluir textos, sensores de
IoT, redes sociales, chats, imágenes, videos, cámaras de seguridad, grabaciones en
call centers, etc. Hoy la generación de data no estructurada corresponde al 80% del
total de los datos. Para su uso debemos otorgarles una estructura para obtener
información valiosa a partir de ellos. Esta información no tiene un formato específico
y, por lo tanto, es mucho más costosa de procesar y de incluir en proyectos analíticos
tradicionales.
15
. 2.3. Datos semiestructurados
Los datos semiestructurados son un tipo de datos que poseen algunas características
consistentes y definidas, pareciera que no tuvieran estructura, pero tienen metadatos
y es posible acceder a ciertas características de ellos, un ejemplo son los archivos
JSON.
16
3. Relación Minerías de Datos, Big Data e
Inteligencia de negocios (BI)
El avance tecnológico ha dado origen a una transformación digital en las
organizaciones, las que han implementado nuevos modelos de negocios utilizando
técnicas y procesos actuales que facilitan la toma de decisiones basada en el análisis
de los datos.
Los términos minería de datos, big data e inteligencia de negocios son algunos de los
términos que han aparecido con la revolución de los datos, muchas veces estos
términos pueden producir cierta confusión.
. 3.1. ¿En qué se diferencia la minería de datos y el Big

Data?
El termino minería de datos como ya lo hemos descrito, es un conjunto de técnicas

que se realizan para explorar los datos y encontrar patrones en los datos ayudando a
optimizar la toma de decisiones, para alcanzar este objetivo, existen variados modelos
matemáticos y estadísticos encapsulados en algoritmos.
17
En cambio, el termino big data, corresponde a un conjunto de tecnologías y
herramientas que permiten el trabajar con grandes volúmenes de datos.
Big data se caracteriza por las 5Vs:
Volumen, Velocidad, Variedad, Veracidad y Valor.
Big data se focaliza en la captura y procesamiento de grandes volúmenes de datos los

cuales pueden provenir de diversos orígenes de datos, pudiendo ser estos datos
estructurados, semiestructurados o no estructurados.
La principal diferencia entre ambos conceptos radica en que el enfoque principal

de Big Data es la gestión de grandes volúmenes de datos para disponibilizarlos
a la organización, en cambio la minería de datos se enfoca en el análisis de los
datos.
Esto significa que si se desea extraer valor del big data se requiere utilizar minería de
datos utilizando para ello cualquiera de sus técnicas de minería como clasificación,
clustering, que permita descubrir patrones y obtener valor escondido en estos grandes
volúmenes de datos.
Como resumen, big data puede ser visto como un archivo, en

cambio la minería de datos es la herramienta o técnica que permite
aprovechar el archivo.
18
. 3.2. ¿En qué se diferencia la minería de datos y la
Inteligencia de negocios?
La inteligencia de negocios y la minería de datos tienen como objetivo aprovechar de

mejor manera la información para la toma de decisiones oportunas. La inteligencia de
negocios se orienta al pasado, mediante informes se analiza la historia de la empresa
y de esta manera comprender su desarrollo. Las herramientas de inteligencia de
negocios permiten acceder a los conjuntos de datos preparados, clasificados y
almacenados, gracias a ello se puede examinar la información y encontrar patrones
analíticos.
Es importante mencionar que la inteligencia de negocios únicamente es capaz de

analizar datos estructurados, los que son almacenados en un servidor, que permite la
toma de decisiones oportunas.
La minería de datos se enfoca en el futuro, crea la visión de un futuro basado en

modelos predictivos que permiten la toma de nuevos caminos y horizontes.
19
Figura 1. Diferencia de la minería de datos y la Inteligencia de negocios.
Fuente: Elaboración propia.
20
4. Etapas de la minería de datos
Tomaremos como referencia el modelo CRISP (Cross Industry Standard Process)
para definir las etapas del proceso de un proyecto de minería de datos. Este modelo
permite la descripción de las fases de un proyecto de minería de datos, las cuales
consisten en seis fases: comprensión del negocio, comprensión de los datos,
preparación de datos, modelado, evaluación y despliegue.
A continuación, profundizaremos respecto de las etapas del flujo de trabajo que

plantea la metodología CRISP.
Figura 2. Metodología CRISP (s/f).

21
. 4.1. Comprensión del negocio
Esta etapa busca identificar, analizar y comprender el problema del negocio a resolver.
Se debe buscar una solución que entregue y agregue valor al proceso de negocio
relacionado. Para este fin, se plantean algunas preguntas que pueden ayudar a
identificar el problema u oportunidad, algunas de estas preguntas son:
¿Cuál es el dolor, la complejidad o el problema que enfrenta el

negocio? o ¿Por qué se tiene que resolver?
Una vez que se entiende el negocio y se ha logrado identificar el proyecto y la

oportunidad, es necesario definirlo como un problema de minería de datos. Para lograr
realizar esto se deben seguir las siguientes tareas:
. 4.1.1. Definir objetivo
¿Queremos saber cosas del pasado, presente o futuro? Es decir, preguntarnos:
• ¿Qué ocurrió?, ¿por qué?
• ¿Qué ocurre?, ¿por qué?
• ¿Qué ocurrirá?, ¿por qué?
Dependiendo de este objetivo, el problema analítico y las técnicas a utilizar pueden

ser muy distintas, a continuación, se muestran los disantos tipos de análisis que puede
tener un proyecto de minería de datos:
22
Figura 3: Tipos de análisis en un proyecto de minería.
. 4.1.2. Definir quiénes estarán involucrados en el proyecto
Es importante conocer quiénes son los que estarán involucrados en el proyecto, con el
fin de maximizar la probabilidad de éxito del proyecto. Es importante integrar aquellas
personas que conocen el negocio y los datos de interés.
En muchas ocasiones un proyecto puede ser robusto desde el punto de vista analítico,
pero al comenzar su implementación se evidencia que técnicamente es inviable. Es
relevante considerar no solo las áreas del negocio, sino que también es relevante
convocar a las áreas técnica y analítica, para asegurar un proyecto exitoso.
23
4.1.3. Involucrar al usuario final de la herramienta desarrollada
Esta es una etapa crítica, pues es necesario identificar cómo funciona la herramienta
y su operación diaria, así como saber de qué forma se puede adaptar la solución de
modo que sea poco invasiva y que se pueda incluir la herramienta en su flujo.
Finalmente, en el área de negocio, y pensando en el resultado final del proyecto, es

importante incluir a las personas que utilizarán la herramienta.
Por ejemplo, si es que desarrollamos una herramienta muy sofisticada pero que en la
práctica es muy lenta, poco amigable o costosa de utilizar, probablemente se preferirá
descartar.
24
4.2. Entender-Comprender los Datos
Ya identificado el problema de negocio, se debe entender muy bien cuáles serán los
datos que nos permitirán resolver el problema. Para este efecto se deben realizar los
siguientes pasos:
4.2.1. Identificación
Identificar los datos de interés para resolver la problemática definida. Por ejemplo,
si se desea entender riesgo de fraude, será necesario contar con el historial de
fraudes, características de las personas, historias transaccionales, comportamiento
de usuarios, etc. Para el caso de predicción de demanda de frutas y verduras,
variables como el clima, estacionales, etc., que podrían ser útiles para resolver el
problema.
4.2.2. Fuentes de información
¿Desde dónde podemos obtener la información? Fuentes internas de la empresa,

fuentes externas pagadas, fuentes externas desde sitios web o redes sociales, open
data, etc.
Por ejemplo, para el caso de variables climáticas, en Chile existe información abierta a
nivel de estación meteorológica que es posible descargar e incluir en nuestros
modelos.
25
4.2.3. Análisis de disponibilidad
Analizar el proceso de captura y de almacenamiento de datos. Se requiere levantar

la información o postergar el proyecto para más adelante si fuera necesario, esto
puede ocurrir cuando los datos necesarios para llevar a cabo el proyecto no están
disponibles. No solo se debe restringir a los datos que tenemos disponibles, se debe
pensar en qué información me sería útil y de qué forma podría ser capturada para
el proyecto.
A medida que se adquieran más datos de prueba se irá mejorando el desempeño

del modelo predictivo realizado.
4.2.4. Relación de las fuentes
Encontrar llaves o claves en las diferentes fuentes para poder hacer cruces. Es
importante hacer uso de fuentes de datos que puedan ser relacionadas con otras.
Por ejemplo, ¿Tenemos llaves o claves de nuestros usuarios que nos permite
fusionar sus características con su historia y comportamiento transaccional?
4.2.5. Representación funcional de los datos
Finalmente, una vez que tenemos todos los datos identificados se deben representar
sus relaciones con el fin de tener un “mapa” claro que permita hacer conocer desde
donde se obtiene la información. Este mapa nos permitirá definir nuestro diseño
arquitectónico de datos que nos permitirá mantener el control sobre nuestros datos y
hacer seguimiento en el tiempo.
26
4.3. Preparación y tratamiento de los datos
Esta etapa consiste en capturar, almacenar y preparar los datos para poder hacer los
análisis. Los pasos para seguir son los siguientes:
4.3.1. Adquisición y registro
Corresponde al levantamiento de la información, en etapa se capturan los datos y se

almacenan, en servidores o en nube.
4.3.2. Metadatos
Se refiere a la creación de una especie de diccionario de datos, donde se etiquetan

los datos para poder tener trazabilidad (fecha de carga, origen, registros, tamaño,
autor, etc.).
4.3.3. Proceso de formateo y construcción de variables
Especificar el tipo de dato que utilizará cada dato (integer, string, float, char fechas,
etc.). Puede ser requerido construir algunas variables, por ejemplo, morosidad de una
persona, variable binaria que tome el valor 1 si es “morosa” o “si no lo es”.
27
4.3.4. Integración de datos
Una vez que levantamos los datos, se debe construir una base de datos consolidada
con toda la data disponible, para ello se debe tener en consideración lo siguiente:
4.3.4.1. Relación entre los datos
Entender relaciones entre variables y claves/llaves únicas (ejemplo: Rut de personas

o código de productos).
4.3.4.2. Análisis de integridad
Si establece relaciones, se deben identificar las claves primarias, foráneas y realizar

un análisis de posible duplicidad de los datos.
4.3.4.3. Definir tipo de unión
Se debe definir cuál será el tipo de unión que se realizará entre las tablas. Dentro de
las opciones están:
• Left join (Unión por la izquierda): Retornan todos los datos de la tabla
de la mano izquierda, solo si los datos coinciden con la tabla de la mano
derecha.
• Right join (Unión por la derecha): Retornan todos los datos de la tabla de
la mano derecha, solo si los datos coinciden con la tabla de la mano
izquierda.
28
• Full Outer join (Unión completa): Se incluyen todas las filas de ambas
tablas. Si hay filas no coincidentes, muestra valores NULL para ellas.
• Inner join (Unión basada en la intersección): Solo retornaran los datos

que coincidan en ambas tablas
4.3.4.4. Calidad del dato y limpieza
Los datos deben pasar por el proceso de limpieza antes de realizar los análisis.
Muchas veces los datos vienen con inconsistencias, ruido, valores duplicados, valores
faltantes (en estos casos es necesario definir estrategias de imputación de datos
faltantes), muestras desbalanceadas, valores atípicos, para subsanar algunos de
estos inconvenientes se utilizan tareas de normalización de datos.
El objetivo de la limpieza de datos es eliminar posibles sesgos en los datos que nos
puedan llevar a conclusiones equivocadas.
Como ejemplo, puede que existan fechas en que observamos que no se

vendieron unidades de ningún producto, en este tipo de casos se debe consultar al
cliente el por qué, ya que puede ser que ese día la tienda estuviera cerrada y por eso no
hubo ventas. Por cual, es un error considerar ese dato como un “0”. Es muy importante
lograr que los datos con los que trabajemos sean lo más representativo posible de la
realidad.
4.3.4.5. Construcción de variables derivadas
Construir variables a partir de los distintos datos de las tablas.
4.3.4.6. Análisis exploratorio de datos
Es el proceso de investigación inicial que hacemos sobre un determinado problema

con el objetivo de descubrir patrones, generar insights valiosos, testear hipótesis,
29
verificar supuestos. Para esto utilizamos herramientas estadísticas y
visualizaciones, histogramas, estadísticas descriptivas, etc. Comprender datos nulos,
datos atípicos.
En esta parte podemos validar los conocimientos que nos traspasa el área de negocio
(por ejemplo, a fin de mes se observa un comportamiento de ventas distinto) para
evaluar cómo incorporar esos conocimientos en un modelo.
4.4. Modelamiento
En esta etapa se definen las técnicas analíticas y estadísticas que utilizaremos para el
modelamiento, para lo cual se requiere seguir los siguientes pasos:
4.4.1. Integración de datos
Existen 4 técnicas que se detallan a continuación:
Figura 4: Técnicas de integración de datos.

30
4.4.2. Diseño de técnicas de modelamiento
Identificar la función de costos a minimizar, definir la variable dependiente e

independiente y el tipo de algoritmo para minimizar.
4.4.3. Diseño de técnicas de evaluación
Existen variadas métricas de evaluación, entre las que se destacan: AUCROC, KS,
MSE. El criterio de evaluación debe ser claro y único, debe hacer sentido con el modelo
y con el problema que estamos resolviendo. Se debe incorporar al área de negocio.
4.4.4. Entrenamiento
Se debe aplicar una metodología de separación de muestras datos de entrenamiento

y datos de prueba, ya que se requiere que el modelo aprenda, no que memorice, esto
con el fin de evitar el sobre entrenamiento del modelo o Overfitting.
4.5. Evaluación
Se debe evaluar el modelo con data no vista por el modelo para poder apreciar su real
capacidad predictiva. Si es que los resultados no son los esperados, se debe volver al
inicio, volver a revisar la variable dependiente, independiente, preguntas correctas, etc.
Se debe comprender que la construcción del modelo no es el objetivo, el objetivo es
resolver el problema.
4.5.1. Presentación de resultados
Una vez realizada la evaluación, se debe transmitir el conocimiento, mostrando lo más

importante y de interés. Para ello se debe hacer uso de informes, reportes,
visualizaciones, infografías o cuadro de mandos que deben entregar la solución de un
problema de negocio.
31
4.6. Despliegue y paso a producción
En esta etapa se deben tomar algunas definiciones sobre la tecnología a utilizar para
implementar el proyecto, la cual considere la arquitectura a utilizar, los componentes
tecnológicos requeridos, las estrategias de implantación. Una vez realizado estas
definiciones se debe desplegar el modelo en la plataforma tecnológica seleccionada.
32
5. Repercusiones de la minería de Datos
Dentro de las principales repercusiones de la minería de datos se encuentra que nos
hemos acostumbrados a recibir información y publicidad personalizada, las redes
sociales solo nos muestran aquellas cosas que para nosotros son de interés y nos
ayuda a generar lazos con usuarios que son similares a nosotros, lo que hace
tengamos una visión sesgada de nuestro entorno.
6. Desafíos de la minería de Datos

Hoy en día la minería de datos es considerada una disciplina confiable mediante la
cual se logran enfrentar los nuevos desafíos que se dan en el mundo:
• Desafíos de privacidad y seguridad, las tomas de decisiones se

realizan mediante el uso de recopilación de datos, los que requieren
estándares de seguridad considerable. Se recopila información privada
sobre personas e información confidencial para los perfiles de los clientes
y la comprensión del patrón de comportamiento del usuario. El acceso
ilegal a la información y la naturaleza confidencial de la información se
están convirtiendo en un tema importante.
• Interfaz de usuario, el conocimiento descubierto se encuentra mediante

herramientas de minería de datos. Sólo es útil si resulta interesante y
sobre todo comprensible para el usuario, esto se logra mediante unas
buenas visualizaciones.
• La minería requiere de grandes bases de datos y recopilación de datos

las que en muchas ocasiones resulta difíciles de administrar.
33
• La minería de datos requiere expertos en el dominio los cuales
actualmente resultan difíciles de encontrar.
• Los procesos organizacionales deben ser modificados para lograr utilizar

los resultados de la minería de datos, esta reestructuración en los
procesos requiere esfuerzo e implica costos.
7. Tendencias de la minería de Datos

Dentro de las tendencias producto de la minería de datos se encuentra la estrategia
total, la cual consiste en integrar la experiencia de empleados, experiencia del cliente,
experiencia del usuario y la multiexperiencia en varios puntos de contacto para
acelerar el crecimiento. Este enfoque multidisciplinario contribuye a incrementar la
confianza, la satisfacción, la fidelidad y la defensa de los clientes y empleados a través
de una gestión integral de las experiencias de todos los involucrados.
La utilización de sistemas autónomos los cuales son capaces de aprender de su

entorno y modificar dinámicamente sus propios algoritmos en tiempo real para
optimizar su comportamiento, es otra de las tendencias que depara la minería de datos.
Finalmente, el proceso de toma de decisiones se verá optimizado con el uso de la

inteligencia de decisiones la cual optimiza la toma de decisiones incorporando
inteligencia y automatizado proceso.
34
Cierre
En la última década, los avances en el poder de almacenamiento de los datos y la
velocidad de procesamiento han permitido que la minería de datos nos ayude a
descubrir una gran cantidad de patrones que se encuentran ocultos en los datos, los
cuales pueden ser de distintos tipos (estructurados, no estructurados, semi-
estructurados) y provenir de diversos orígenes. Es bien sabido que existen muchos
casos de uso que utilizan la minería de datos para descubrir patrones y obtener
ventajas competitivas con respecto a sus competidores.
Hoy en día más empresas quieren realizar proyectos de minería de datos para obtener
ventajas competitivas, pero es relevante que se conozcan las etapas y los objetivos de
estas etapas en un proyecto de minería de datos. Si bien la minería de datos nos
entrega una infinidad de beneficios, es importante que también se puedan ver las los
desafíos y las repercusiones que la minería de datos presenta para la sociedad.
35
Referencias bibliográficas
• Aggarwal, C. (2015). Data Mining: The Textbook. Springer Publishing.
• EMC Education Services. (2015). Data Science and Big Data Analytics:
Discovering, Analyzing, Visualizing and Presenting Data (1.a ed.). Wiley.
• Minguillón, J., Casas, J. & Minguillón, J. (2017). Minería de datos:

modelos y algoritmos Capítulo 1. Editorial UOC. Disponible en:
https://bit.ly/3gauwYW
• Ramírez, F., Orallo, H., & Quintana, R. (2004). Introducción a la minería

de datos 1/e. Alhambra.
36

APUNTE Semana1

Cargado por

Copyright:

Formatos disponibles

APUNTE Semana1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

APUNTE Semana1

Cargado por

Copyright:

Formatos disponibles

Unidad 1

Minería y Ciencias de datos

Directora Escuela: Lorena Patricia Baus

Experta disciplinar: Giannina Costa

Diseñadora instruccional: Luisa García

Editora instruccional: Hayvic Adams Morillo

Experto disciplinar: José Fuentes Morales

Jefa de Diseño Instruccional: Alejandra San Juan Reyes

1. Concepto de Minería de Datos ................................................................................ 9

. 1.1. Definiciones de Minería de Datos ................................................................. 10

. 1.2. Casos de uso de la Minería de Datos ........................................................... 12

. 1.3. ¿Qué no es minería de datos? ...................................................................... 13

2. Tipo de Datos en Minería de Datos ....................................................................... 15

. 2.1. Datos estructurados ...................................................................................... 15

. 2.2. Datos no estructurados ................................................................................. 15

. 2.3. Datos semiestructurados............................................................................... 16

3. Relación Minerías de Datos, Big Data e Inteligencia de negocios (BI) .................. 17

. 3.1. ¿En qué se diferencia la minería de datos y el Big Data? ............................. 17

. 3.2. ¿En qué se diferencia la minería de datos y la Inteligencia de negocios? .... 19

4. Etapas de la minería de datos ............................................................................... 21

. 4.1. Comprensión del negocio.............................................................................. 22

. 4.1.1. Definir objetivo ........................................................................................ 22

. 4.1.2. Definir quiénes estarán involucrados en el proyecto ............................... 23

. 4.2. Entender-Comprender los Datos ................................................................... 25

. 4.2.1. Identificación ........................................................................................... 25

. 4.2.2. Fuentes de información........................................................................... 25

. 4.2.3. Análisis de disponibilidad ........................................................................ 26

. 4.2.4. Relación de las fuentes ........................................................................... 26

. 4.2.5. Representación funcional de los datos ................................................... 26

. 4.3. Preparación y tratamiento de los datos ......................................................... 27

. 4.3.1. Adquisición y registro .............................................................................. 27

. 4.3.2. Metadatos ............................................................................................... 27

. 4.3.3. Proceso de formateo y construcción de variables ................................... 27

. 4.3.4. Integración de datos ............................................................................... 28

. 4.3.4.1. Relación entre los datos....................................................................... 28

. 4.3.4.2. Análisis de integridad ........................................................................... 28

. 4.3.4.3. Definir tipo de unión ............................................................................. 28

. 4.3.4.4. Calidad del dato y limpieza .................................................................. 29

. 4.3.4.5. Construcción de variables derivadas ................................................... 29

. 4.3.4.6. Análisis exploratorio de datos .............................................................. 29

. 4.4. Modelamiento ................................................................................................ 30

. 4.4.2. Diseño de técnicas de modelamiento ..................................................... 31

. 4.4.3. Diseño de técnicas de evaluación ........................................................... 31

. 4.4.4. Entrenamiento ......................................................................................... 31

. 4.5.1. Presentación de resultados..................................................................... 31

.4.6. Despliegue y paso a producción .................................................................... 32

5. Repercusiones de la minería de Datos.................................................................. 33

6. Desafíos de la minería de Datos ........................................................................... 33

7. Tendencias de la minería de Datos ....................................................................... 34

Referencias bibliográficas ......................................................................................... 36

Fuente: Muycomputer (2021).

Esa gran cantidad de datos es una gran fuente de información y de conocimiento, el

El lograr convertir grandes volúmenes de datos en experiencia, conocimiento y

La Minería de Datos es un conjunto de técnicas agrupadas que estudia métodos y

La Minería de Datos estudia métodos y algoritmos que permiten la extracción

Su nombre se debe a la analogía entre una montaña y la gran cantidad de datos

Las personas que se dedican al análisis y extracción de

. 1.1. Definiciones de Minería de Datos

Dentro de la literatura existen múltiples definiciones de minería de datos, dentro de las