APUNTE Semana1
APUNTE Semana1
APUNTE Semana1
ELABORACIÓN
VALIDACIÓN
EQUIPO DE DESARROLLO
Welearn
AÑO
2022
Tabla de contenidos
Aprendizaje esperado.................................................................................................. 7
Introducción ................................................................................................................. 8
5
. 4.4.1. Integración de datos ............................................................................... 30
.4.5. Evaluación...................................................................................................... 31
Cierre......................................................................................................................... 35
6
Aprendizaje esperado
Caracterizan la minería de datos de acuerdo con su impacto en la organización.
7
Introducción
Hoy día se generan más de 2,5 billones de bytes de data producto de la revolución
digital que ha permitido que la captura de datos sea fácil, y el costo de almacenamiento
sea casi nulo. Los datos provienen de diversos orígenes de datos entre los que se
encuentran las redes sociales, compras en línea, datos financieros, datos científicos,
lectura de sensores, entre otros, para llevar a cabo el análisis de esta enorme cantidad
de datos las herramientas tradicionales de gestión de datos y las herramientas
estadísticas no son adecuadas para responder a la demanda de estos grandes
volúmenes de datos.
8
1. Concepto de Minería de Datos
La gran velocidad a la cual ha venido evolucionando la tecnología, ha permitido a las
empresas de hoy disponer de múltiples herramientas de software y hardware que les
ha permitido almacenar grandes volúmenes de datos para su posterior análisis. Estos
avances tecnológicos, sumado a la aparición de mercados cada vez más competitivos
y vertiginosos, lleva a las empresas a estar constantemente en búsqueda de mejorar
sus procesos de toma de decisiones. El gran volumen de datos les ha permitido a las
organizaciones no solo obtener información para su gestión, sino que se ha convenido
en una gran fuente de conocimiento que les permite analizar los datos desde muchas
perspectivas, logrando identificar su comportamiento y relaciones. Este conocimiento
les da la oportunidad de obtener ventajas competitivas sobre el resto, pero descubrir
conocimiento para un gran volumen de datos resulta ser un gran desafío.
9
La misma situación ocurre en las organizaciones, dado que mediante diversos
algoritmos es posible encontrar relaciones, patrones y tendencias las que contribuyen
al mejoramiento y crecimiento de las empresas, dado la toma de decisiones eficientes
y oportunas.
10
4. Proceso que, a través del descubrimiento y cuantificación de relaciones
predictivas de los datos, permite transformar la información disponible en
conocimiento útil para la organización.
11
. 1.2. Casos de uso de la Minería de Datos
Las técnicas de minería de datos se están utilizando desde hace varios años para la
obtención de patrones en los datos y para la extracción de información que ha
contribuido a las estrategias empresariales, dentro de las que se destacan:
La banca: Es utilizada por bancos para comprender mejor los riesgos del
mercado, adicionalmente es utilizado para determinar predicciones de pagos
crediticios o fraude de transacciones, permite obtener los patrones de compra y los
datos financieros de sus clientes. La minería de datos también permite a los bancos
conocer mejor las preferencias o hábitos online de sus clientes lo que le permite
optimizar sus campañas de marketing.
12
Comercio Minorista: utilizan los patrones de compra para identificar
asociaciones de productos y decidir cómo ubicarlos en los pasillos y estantes.
Adicionalmente puede detectar qué ofertas son más valoradas por los clientes.
13
La diferencia entre ambos conceptos consiste en que las técnicas de minería de datos
construyen el modelo de manera automática mientras que las técnicas estadísticas
"clásicas" necesitan ser manejadas y orientadas por un estadístico profesional.
14
2. Tipo de Datos en Minería de Datos
Hoy en día, la transformación digital ha generado muchos tipos de datos que
tradicionalmente no eran reconocidos como datos, entre ellos se encuentran los
videos, textos, imágenes, los cuales puede ser utilizados para realizar algún proyecto
de minería de datos. Los datos pueden ser clasificarlos en:
Los datos estructurados son datos que cuentan con un formato definido. Estos se
suelen encontrar en la mayoría de las bases de datos. Es común observarlos
estructurados en formato tabla, filas y columnas similar a hojas de Excel o bases de
datos relacionales, que pueden ser procesados de forma fácil por muchas
herramientas tradicionales. Los datos estructurados son independientes y menos
flexibles, las empresas usualmente cuentan con sus Data Warehouse, para realizar la
inteligencia de negocios.
Estos son datos que no se encuentran procesados, los cuales son difíciles de procesar
debido a su formato y organización. Estos datos pueden incluir textos, sensores de
IoT, redes sociales, chats, imágenes, videos, cámaras de seguridad, grabaciones en
call centers, etc. Hoy la generación de data no estructurada corresponde al 80% del
total de los datos. Para su uso debemos otorgarles una estructura para obtener
información valiosa a partir de ellos. Esta información no tiene un formato específico
y, por lo tanto, es mucho más costosa de procesar y de incluir en proyectos analíticos
tradicionales.
15
. 2.3. Datos semiestructurados
Los datos semiestructurados son un tipo de datos que poseen algunas características
consistentes y definidas, pareciera que no tuvieran estructura, pero tienen metadatos
y es posible acceder a ciertas características de ellos, un ejemplo son los archivos
JSON.
16
3. Relación Minerías de Datos, Big Data e
Inteligencia de negocios (BI)
El avance tecnológico ha dado origen a una transformación digital en las
organizaciones, las que han implementado nuevos modelos de negocios utilizando
técnicas y procesos actuales que facilitan la toma de decisiones basada en el análisis
de los datos.
Los términos minería de datos, big data e inteligencia de negocios son algunos de los
términos que han aparecido con la revolución de los datos, muchas veces estos
términos pueden producir cierta confusión.
17
En cambio, el termino big data, corresponde a un conjunto de tecnologías y
herramientas que permiten el trabajar con grandes volúmenes de datos.
Esto significa que si se desea extraer valor del big data se requiere utilizar minería de
datos utilizando para ello cualquiera de sus técnicas de minería como clasificación,
clustering, que permita descubrir patrones y obtener valor escondido en estos grandes
volúmenes de datos.
18
. 3.2. ¿En qué se diferencia la minería de datos y la
Inteligencia de negocios?
19
Figura 1. Diferencia de la minería de datos y la Inteligencia de negocios.
20
4. Etapas de la minería de datos
Tomaremos como referencia el modelo CRISP (Cross Industry Standard Process)
para definir las etapas del proceso de un proyecto de minería de datos. Este modelo
permite la descripción de las fases de un proyecto de minería de datos, las cuales
consisten en seis fases: comprensión del negocio, comprensión de los datos,
preparación de datos, modelado, evaluación y despliegue.
21
. 4.1. Comprensión del negocio
Esta etapa busca identificar, analizar y comprender el problema del negocio a resolver.
Se debe buscar una solución que entregue y agregue valor al proceso de negocio
relacionado. Para este fin, se plantean algunas preguntas que pueden ayudar a
identificar el problema u oportunidad, algunas de estas preguntas son:
22
Figura 3: Tipos de análisis en un proyecto de minería.
Fuente: Elaboración propia.
Es importante conocer quiénes son los que estarán involucrados en el proyecto, con el
fin de maximizar la probabilidad de éxito del proyecto. Es importante integrar aquellas
personas que conocen el negocio y los datos de interés.
En muchas ocasiones un proyecto puede ser robusto desde el punto de vista analítico,
pero al comenzar su implementación se evidencia que técnicamente es inviable. Es
relevante considerar no solo las áreas del negocio, sino que también es relevante
convocar a las áreas técnica y analítica, para asegurar un proyecto exitoso.
23
4.1.3. Involucrar al usuario final de la herramienta desarrollada
Esta es una etapa crítica, pues es necesario identificar cómo funciona la herramienta
y su operación diaria, así como saber de qué forma se puede adaptar la solución de
modo que sea poco invasiva y que se pueda incluir la herramienta en su flujo.
Por ejemplo, si es que desarrollamos una herramienta muy sofisticada pero que en la
práctica es muy lenta, poco amigable o costosa de utilizar, probablemente se preferirá
descartar.
24
4.2. Entender-Comprender los Datos
Ya identificado el problema de negocio, se debe entender muy bien cuáles serán los
datos que nos permitirán resolver el problema. Para este efecto se deben realizar los
siguientes pasos:
4.2.1. Identificación
Identificar los datos de interés para resolver la problemática definida. Por ejemplo,
si se desea entender riesgo de fraude, será necesario contar con el historial de
fraudes, características de las personas, historias transaccionales, comportamiento
de usuarios, etc. Para el caso de predicción de demanda de frutas y verduras,
variables como el clima, estacionales, etc., que podrían ser útiles para resolver el
problema.
Por ejemplo, para el caso de variables climáticas, en Chile existe información abierta a
nivel de estación meteorológica que es posible descargar e incluir en nuestros
modelos.
25
4.2.3. Análisis de disponibilidad
Encontrar llaves o claves en las diferentes fuentes para poder hacer cruces. Es
importante hacer uso de fuentes de datos que puedan ser relacionadas con otras.
Por ejemplo, ¿Tenemos llaves o claves de nuestros usuarios que nos permite
fusionar sus características con su historia y comportamiento transaccional?
Finalmente, una vez que tenemos todos los datos identificados se deben representar
sus relaciones con el fin de tener un “mapa” claro que permita hacer conocer desde
donde se obtiene la información. Este mapa nos permitirá definir nuestro diseño
arquitectónico de datos que nos permitirá mantener el control sobre nuestros datos y
hacer seguimiento en el tiempo.
26
4.3. Preparación y tratamiento de los datos
Esta etapa consiste en capturar, almacenar y preparar los datos para poder hacer los
análisis. Los pasos para seguir son los siguientes:
4.3.2. Metadatos
Especificar el tipo de dato que utilizará cada dato (integer, string, float, char fechas,
etc.). Puede ser requerido construir algunas variables, por ejemplo, morosidad de una
persona, variable binaria que tome el valor 1 si es “morosa” o “si no lo es”.
27
4.3.4. Integración de datos
Una vez que levantamos los datos, se debe construir una base de datos consolidada
con toda la data disponible, para ello se debe tener en consideración lo siguiente:
Se debe definir cuál será el tipo de unión que se realizará entre las tablas. Dentro de
las opciones están:
• Left join (Unión por la izquierda): Retornan todos los datos de la tabla
de la mano izquierda, solo si los datos coinciden con la tabla de la mano
derecha.
• Right join (Unión por la derecha): Retornan todos los datos de la tabla de
la mano derecha, solo si los datos coinciden con la tabla de la mano
izquierda.
28
• Full Outer join (Unión completa): Se incluyen todas las filas de ambas
tablas. Si hay filas no coincidentes, muestra valores NULL para ellas.
Los datos deben pasar por el proceso de limpieza antes de realizar los análisis.
Muchas veces los datos vienen con inconsistencias, ruido, valores duplicados, valores
faltantes (en estos casos es necesario definir estrategias de imputación de datos
faltantes), muestras desbalanceadas, valores atípicos, para subsanar algunos de
estos inconvenientes se utilizan tareas de normalización de datos.
El objetivo de la limpieza de datos es eliminar posibles sesgos en los datos que nos
puedan llevar a conclusiones equivocadas.
29
verificar supuestos. Para esto utilizamos herramientas estadísticas y
visualizaciones, histogramas, estadísticas descriptivas, etc. Comprender datos nulos,
datos atípicos.
En esta parte podemos validar los conocimientos que nos traspasa el área de negocio
(por ejemplo, a fin de mes se observa un comportamiento de ventas distinto) para
evaluar cómo incorporar esos conocimientos en un modelo.
4.4. Modelamiento
En esta etapa se definen las técnicas analíticas y estadísticas que utilizaremos para el
modelamiento, para lo cual se requiere seguir los siguientes pasos:
30
4.4.2. Diseño de técnicas de modelamiento
Existen variadas métricas de evaluación, entre las que se destacan: AUCROC, KS,
MSE. El criterio de evaluación debe ser claro y único, debe hacer sentido con el modelo
y con el problema que estamos resolviendo. Se debe incorporar al área de negocio.
4.4.4. Entrenamiento
4.5. Evaluación
Se debe evaluar el modelo con data no vista por el modelo para poder apreciar su real
capacidad predictiva. Si es que los resultados no son los esperados, se debe volver al
inicio, volver a revisar la variable dependiente, independiente, preguntas correctas, etc.
Se debe comprender que la construcción del modelo no es el objetivo, el objetivo es
resolver el problema.
31
4.6. Despliegue y paso a producción
En esta etapa se deben tomar algunas definiciones sobre la tecnología a utilizar para
implementar el proyecto, la cual considere la arquitectura a utilizar, los componentes
tecnológicos requeridos, las estrategias de implantación. Una vez realizado estas
definiciones se debe desplegar el modelo en la plataforma tecnológica seleccionada.
32
5. Repercusiones de la minería de Datos
Dentro de las principales repercusiones de la minería de datos se encuentra que nos
hemos acostumbrados a recibir información y publicidad personalizada, las redes
sociales solo nos muestran aquellas cosas que para nosotros son de interés y nos
ayuda a generar lazos con usuarios que son similares a nosotros, lo que hace
tengamos una visión sesgada de nuestro entorno.
33
• La minería de datos requiere expertos en el dominio los cuales
actualmente resultan difíciles de encontrar.
34
Cierre
En la última década, los avances en el poder de almacenamiento de los datos y la
velocidad de procesamiento han permitido que la minería de datos nos ayude a
descubrir una gran cantidad de patrones que se encuentran ocultos en los datos, los
cuales pueden ser de distintos tipos (estructurados, no estructurados, semi-
estructurados) y provenir de diversos orígenes. Es bien sabido que existen muchos
casos de uso que utilizan la minería de datos para descubrir patrones y obtener
ventajas competitivas con respecto a sus competidores.
Hoy en día más empresas quieren realizar proyectos de minería de datos para obtener
ventajas competitivas, pero es relevante que se conozcan las etapas y los objetivos de
estas etapas en un proyecto de minería de datos. Si bien la minería de datos nos
entrega una infinidad de beneficios, es importante que también se puedan ver las los
desafíos y las repercusiones que la minería de datos presenta para la sociedad.
35
Referencias bibliográficas
• Aggarwal, C. (2015). Data Mining: The Textbook. Springer Publishing.
• EMC Education Services. (2015). Data Science and Big Data Analytics:
Discovering, Analyzing, Visualizing and Presenting Data (1.a ed.). Wiley.
36