Apuntes BI

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 63

ARTÍCULO

Minería de Datos: Conceptos y Tendencias

José C. Riquelme(1), Roberto Ruiz(2), Karina Gilbert(3)


(1)Departamento de Lenguajes y Sistemas Informáticos
Universidad de Sevilla
[email protected]
(2) Área de Lenguajes y Sistemas Informáticos

Universidad Pablo de Olavide, Sevilla


[email protected]
(3) Departamento de Estadística e Investigación Operativa

Universidad Politécnica de Cataluña, Barcelona


[email protected]

Resumen

Hoy en día, la minería de datos (MD) está consiguiendo cada vez más captar la atención de las empresas. Todavía es
infrecuente oír frases como “deberíamos segmentar a nuestros clientes utilizando herramientas de MD”, “la MD
incrementará la satisfacción del cliente”, o “la competencia está utilizando MD para ganar cuota de mercado”. Sin
embargo, todo apunta a que más temprano que tarde la minería de datos será usada por la sociedad, al menos con el
mismo peso que actualmente tiene la Estadística. Así que ¿qué es la minería de datos y qué beneficios aporta?
¿Cómo puede influir esta tecnología en la resolución de los problemas diarios de las empresas y la sociedad en
general? ¿Qué tecnologías están detrás de la minería de datos? ¿Cuál es el ciclo de vida de un proyecto típico de
minería de datos? En este artículo, se intantarán aclarar estas cuestiones mediante una introducción a la minería de
datos: definición, ejemplificar problemas que se pueden resolver con minería de datos, las tareas de la minería de
datos, técnicas usadas y finalmente retos y tendencias en minería de datos.

Palabras clave: Minería de Datos.

1. Introducción
Hoy en día, los datos no están restringidos a tuplas
La revolución digital ha hecho posible que la representadas únicamente con números o caracteres.
información digitalizada sea fácil de capturar, El avance de la tecnología para la gestión de bases
procesar, almacenar, distribuir, y transmitir [10]. de datos hace posible integrar diferentes tipos de
Con el importante progreso en informática y en las datos, tales como imagen, video, texto, y otros datos
tecnologías relacionadas y la expansión de su uso en numéricos, en una base de datos sencilla, facilitando
diferentes aspectos de la vida, se continúa el procesamiento multimedia. Como resultado, la
recogiendo y almacenando en bases de datos gran mezcla tradicional ad hoc de técnicas estadísticas y
cantidad de info rmación. herramientas de gestión de datos no son adecuadas
por más tiempo para analizar esta vasta colección de
Descubrir conocimiento de este enorme volumen de datos desiguales.
datos es un reto en sí mismo. La minería de datos
(MD) es un intento de buscarle sentido a la La tecnología de Internet actual y su creciente
explosión de información que actualmente puede ser demanda necesita el desarrollo de tecnologías de
almacenada [10]. minería de datos más avanzadas para interpretar la

Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. No.29 (2006), pp. 11-18.
ISSN: 1137-3601. © AEPIA (http://www.aepia.org).
12 Inteligencia Artificial Vol. 10 No 29 (2006)

información y el conocimiento de los datos lo que claramente apunta a la importancia de incluir


distribuidos por todo el mundo. En este siglo la en la metodología el preproceso de los datos, o la
demanda continuará creciendo, y el acceso a formalización del conocimiento descubierto.
grandes volúmenes de datos multimedia traerá la
mayor transformación para el global de la sociedad. En realidad, los términos MD y KDD son a menudo
Por tanto, el desarrollo de la tecnología de minería confundidos como sinónimos. En general se acepta
de datos avanzada continuará siendo una importante que la MD es un paso particular en el proceso
área de estudio, y en consecuencia se espera gastar consistiendo en la aplicación de algoritmos
muchos recursos en esta área de desarrollo en los específicos para extraer patrones (modelos) de los
próximos años. Existen diversos dominios donde se datos. Otros pasos en el proceso KDD, son la
almacenan grandes volúmenes de información en preparación de los datos, la selección y limpieza de
bases de datos centralizadas y distribuidas, como los mismos, la incorporación de conocimiento
por ejemplo librerías digitales, archivos de previo, y la propia interpretación de los resultados
imágenes, bioinformática, cuidados médicos, de minería. Estos pasos aplicados de una manera
finanzas e inversión, fabricación y producción, iterativa e interactiva aseguran que un conocimiento
negocios y marketing, redes de telecomunicación, útil se extraiga de los datos.
etc.
Las tareas propias de la fase de minería de datos
Es conocida la frase “los datos en bruto raramente pueden ser descriptivas, (i.e. descubrir patrones
son beneficiosos directamente”. Su verdadero valor interesantes o relaciones describiendo los datos), o
se basa en: (a) la habilidad para extraer información predictivas (i.e. clasificar nuevos datos basándose en
útil la toma de decisiones o la exploración, y (b) la los anteriormente disponibles). En otras palabras, es
comprensión del fenómeno gobernante en la fuente un campo interdisciplinar con el objetivo general de
de datos. En muchos dominios, el análisis de datos predecir las salidas y revelar relaciones en los datos
fue tradicionalmente un proceso manual. Uno o más [10]. Para ello se utilizan herramientas automáticas
analistas familiarizados con los datos, con la ayuda que (a) emplean algoritmos sofisticados para
de técnicas estadísticas, proporcionaban resúmenes descubrir principalmente patrones ocultos,
y generaban informes. En efecto, el analista hacía de asociaciones, anomalías, y/o estructuras de la gran
procesador de preguntas sofisticado. Sin embargo, cantidad de datos almacenados en los data
tal enfoque cambió como consecuencia del warehouses u otros repositorios de información, y
crecimiento del volumen de datos. Cada vez es más (b) filtran la información necesaria de las grandes
común encontrarse con bases de los datos con un bases de datos.
número de ejemplos del orden de 109 o superior y
103 dimensiones. Cuando la escala de manipulación El concepto de KDD se ha desarrollado, y continúa
de datos, exploración e inferencia va más allá de la desarrollándose, desde la intersección de la
capacidad humana, se necesita la ayuda de las investigación de áreas tales como bases de datos,
tecnologías informáticas para automatizar el aprendizaje automático, reconocimiento de patrones,
proceso. estadística, teoría de la información, inteligencia
artificial, razonamiento con incertidumbre,
Todo apunta a la necesidad de metodologías de visualización de datos y computación de altas
análisis inteligente de datos, las cuales puedan prestaciones. Los sistemas KDD incorporan teorías,
descubrir conocimiento útil de los datos. El término algoritmos, y métodos de todos estos campos. Una
KDD (inciales de Knowledge Discovery in buena perspectiva general del KDD se puede
Databases), acuñado en 1989 se refiere a todo el encontrar en la referencias [8] y [10].
proceso de extracción de conocimiento a partir de
una base de datos y marca un cambio de paradigma Otro concepto relacionado con el KDD es el de Data
en el que lo importante es el conocimiento útil que warehousing [4,8,10,12], que se refiere a las
seamos capaces de descubrir a partir de los datos. tendencias actuales en la recolección y limpieza de
En el primer estado del arte sobre el área, [Fayy96] datos transaccionales para dejarlos disponible para
se dice: el análisis y la toma de decisiones. La MD debe
“La mayoría de los trabajos previos en KDD, se trabajar mano a mano con los almacenes de datos,
centraban en [...] la etapa de Minería de Datos. Sin sobre todo en los casos de volumnes de datos muy
embargo, los otros pasos son de considerable grandes o de inter-relaciones entre los datos
importancia para el éxito de las aplicaciones de complejas, es decir, que no puedan ser expresadas
KDD en la práctica.”
en una tabla plana. El KDD se centra en el proceso
Inteligencia Artificial Vol. 10 No 29 (2006) 13

global de descubrir conocimiento de grandes proceso global consiste en transformar información


volúmenes de datos, incluyendo el almacenaje y de bajo nivel en conocimiento de alto nivel. El
acceso a tales datos, escalado de algoritmos a bases proceso KDD es interactivo e iterativo conteniendo
de datos masivas, interpretación y visualización de los siguientes pasos:
resultados, y el modelado y soporte de la interacción
1. Comprender el dominio de aplicación: este
general hombre máquina. Un almacenaje eficiente
paso incluye el conocimiento relevante
de los datos, y por lo tanto su estructura, es muy
previo y las metas de la aplicación.
importante para su representación acceso. Los
conocimientos de las tecnologías de comprensión 2. Extraer la base de datos objetivo: recogida de
modernas deberían ser utilizados para explorar los datos, evaluar la calidad de los datos y
como estos mecanismos de almacenaje pueden ser utilizar análisis exploratorio de los datos para
mejorados. familiarizarse con ellos.
Como hemos señalado el concepto de MD también
3. Preparar los datos: incluye limpieza,
se solapa con los conceptos de aprendizaje
transformación, integración y reducción de
automático y de estadística. En general, la
datos. Se intenta mejorar la calidad de los
estadística es la primera ciencia que historicamente
datos a la vez que disminuir el tiempo
extrae información de los datos básicamente
mediante metodologías procedentes de las requerido por el algoritmo de aprendizaje
matemáticas. Cuando se empezó a usar los aplicado posteriormente.
ordenadores como apoyo para esta tarea surgió el 4. Minería de datos: como se ha señalado
concepto de Machine Learning, traducido como anteriormente, este es la fase fundamental del
Aprendizaje Automático. Posteriormente con el proceso. Está constituido por una o más de
incremento del tamaño y con la estructuración de los las siguientes funciones, clasificación,
datos es cuando se empieza a hablar de MD. regresión, clustering, resumen, recuperación
De esta manera la MD hace hincapié en: de imágenes, extracción de reglas, etc.
• la escalabilidad del número de atributos y de 5. Interpretación: explicar los patrones
instancias descubiertos, así como la posibilidad de
visualizarlos.
• algoritmos y arquitecturas (proporcionando
la estadística y el aprendizaje automático los 6. Utilizar el conocimiento descubierto: hacer
fundamentos de los métodos y las uso del modelo creado.
formulaciones), y
El paso fundamental del proceso es el señalado con
• la automatización para manejar grandes el número 4. A continuación se comentan
volúmenes de datos heterogéneos. brevemente las tareas más comunes de la minería de
datos, con un ejemplo de uso.
En el resto del artículo consideraremos la minería de
datos desde diversas perspectivas. En la próxima • Clasificación: clasifica un dato dentro de una
sección se proporcionan las bases del de las clases categóricas predefinidas.
descubrimiento de conocimiento y la minería de Responde a preguntas tales como, ¿Cuál es el
datos. En la sección 3 se enumeran algunas de las riesgo de conceder un crédito a este cliente?
aplicaciones más frecuentes en los negocios. En la ¿Dado este nuevo paciente qué estado de la
sección 4 se describe brevemente las técnicas más enfermedad indican sus análisis?
utilizadas. Las tendencias en la minería de datos se
• Regresión: el propósito de este modelo es
muestran en la sección 5. Y para finalizar se
hacer corresponder un dato con un valor real
extraerán las principales conclusiones.
de una variable. Responde a cuestiones como
¿Cuál es la previsión de ventas para el mes
2. Extracción de conocimiento en bases que viene? ¿De qué depende?
de datos y minería de datos
• Clustering: se refiere a la agrupación de
El descubrimiento de conocimiento en bases de registros, observaciones, o casos en clases de
datos (KDD) se define como el proceso de objetos similares. Un cluster es una colección
identificar patrones significativos en los datos que de registros que son similares entre sí, y
sean válidos, novedosos, potencialmente útiles y distintos a los registros de otro cluster.
comprensibles para un usuario [4,8,10,12]. El ¿Cuántos tipos de clientes vienen a mi
14 Inteligencia Artificial Vol. 10 No 29 (2006)

negocio? ¿Qué perfiles de necesidades se dan 3. Aplicaciones de la minería de datos


en un cierto grupo de pacientes?
• Generación de reglas: aquí se extraen o Algunas de las tareas importantes de la minería de
generan reglas de los datos. Estas reglas datos incluyen la identificación de aplicaciones para
hacen referencia al descubrimiento de las técnicas existentes, y desarrollar nuevas técnicas
relaciones de asociación y dependencias para dominios tradicionales o de nueva aplicación,
funcionales entre los diferentes atributos. como el comercio electrónico y la bioinformática..
¿Cuánto debe valer este indicador en sangre Existen numerosas áreas donde la minería de datos
para que un paciente se considere grave? ¿Si se puede aplicar, prácticamente en todas las
un cliente de un hipermercado compra actividades humanas que generen datos:
pañales también compra cerveza?
• Resumen o sumarización: estos modelos • Comercio y banca: segementación de
proporcionan una descripción compacta de clientes, previsión de ventas, análisis de
un subconjunto de datos. ¿Cuáles son las riesgo.
principales características de mis clientes? • Medicina y Farmacia: diagnostico de
• Análisis de secuencias: se modelan patrones enfermedades y la efectividad de los
secuenciales, como análisis de series tratamientos.
temporales, secuencias de genes, etc. El • Seguridad y detección de fraude:
objetivo es modelar los estados del proceso, o reconocimiento facial, identificaciones
extraer e informar de la desviación y biométricas, accesos a redes no permitidos,
tendencias en el tiempo. ¿El consumo de etc.
energía eléctrica de este mes es similar al del
año pasado? Dados los niveles de • Recuperación de información no numeríca:
contaminación atmosférica de la última minería de texto, minería web, búsqueda e
semana cuál es la previsión para las próximas identificación de imagen, video, voz y texto
24 horas. de bases de datos multimedia.
• Astronomía: identificación de nuevas
Como resumen podríamos señalar que el rápido estrellas y galaxias.
crecimiento del interés en la minería de datos es
debido (i) al avance de la tecnología de Internet y a • Geología, minería, agricultura y pesca:
la gran participación en aplicaciones multimedia en identificación de áreas de uso para distintos
este dominio, (ii) a la facilidad en la captura de cultivos o de pesca o de explotación minera
datos y el abaratamiento de su almacenaje, (iii) a en bases de datos de imágenes de satelites
compartir y distribuir los datos en la red, junto con
• Ciencias Ambientales: identificación de
el aumento de nuevas bases de datos en los
modelos de funcionamiento de ecosistemas
repositorios, (iv) al desarrollo de algoritmos de
naturales y/o artificiales (p.e. plantas
aprendizaje automático robustos y eficientes para
depuradoras de aguas residuales) para
procesar estos datos, (v) al avance de las
mejorar su observación, gestión y/o control.
arquitecturas de las computadoras y la caída del
coste del poder computacional, permitiendo utilizar • Ciencias Sociales: Estudio de los flujos de la
métodos computacionalmente intensivos para el opinión pública. Planificación de ciudades:
análisis de datos, (vi) la falta de adaptación de los identificar barrios con conflicto en función de
métodos de análisis y consulta convencionales a valores sociodemográficos.
nuevas formas de interacción y finalmente (vii) a la
potencia que este tipo de análisis vienen mostrando En la actualidad se puede afirmar que la MD ha
como herramientas de soporte a la toma de demostrado la validez de una primera generación de
decisiones frente a realidades complejas (viii) fuerte algoritmos mediante diferentes aplicaciones al
presión de los productos comerciales disponibles. mundo real. Sin embargo estas técnicas todavía
están limitadas por bases de datos simples, donde
los datos se describen mediante atributos numéricos
o simbólicos, no conteniendo atributos de tipo texto
o imágenes, y los datos se preparan con una tarea
Inteligencia Artificial Vol. 10 No 29 (2006) 15

concreta en mente. Sobrepasar este límite será un coeficientes y si usamos los k-vecinos más cercanos
reto a conseguir. necesitamos fijar una métrica y k, etc.
Esta fase de aprendizaje ajusta el modelo buscando
Señalemos por último que existen cientos de unos valores que intenten maximizar la “bondad”
productos de minería de datos y de compañías de del mismo. Esta cuestión nos vuelve a plantear dos
consultoría. KDNuggets (kdnuggets.com) tiene una problemas: uno ¿Cómo se define la bondad de un
lista de estas compañías y sus productos en el modelo para unos datos? Y dos, ¿Cómo realizar esa
campo de la minería de datos. Pueden resaltarse por búsqueda?
su mayor expansión las siguientes: SAS con SAS Respecto a la primera, normalemente todo modelo
Script y SAS Enterprise Miner; SPSS y el paquete debe venir acompañado por una función de
de minería Clementine; IBM con Intelligent Miner; adaptación que sea capaz de medir el ajuste (en
Microsoft incluye características de minería de datos inglés se emplea el concepto de fitness function).
en las bases de datos relacionales; otras compañías Esto es fácil en numerosos casos, por ejemplo en
son Oracle, Angoss y Kxen. En la línea del software problemas de clasificación o regresión, sin embargo
libre Weka [13] es un producto con mayor puede plantear serios retos en otros como el
orientación a las técnicas provenientes de la IA, clustering.
pero de fuerte impacto. Además relacionado con este concepto se encuentra
un fenómeno conocido como sobreajuste, es decir,
4. Técnicas usadas por la minería de que se “aprendan” los datos de entrenamiento pero
datos no se generalice bien para cuando vengan nuevos
casos. Exisen numerosos estudios en la literatura
La Minería de Datos se podría abstraer como la sobre distintas formas de separar convenientemente
construcción de un modelo que ajustado a unos datos de entrenamiento de datos de prueba [1,2,5].
datos proporciona un conocimiento. En cuanto a la búsqueda de los valores que
Por tanto podemos distinguir dos pasos en una tarea maximizan la bondad, se dispone de un importante
de MD, por un lado la elección del modelo y por número de posibilidades: desde la clásicas
otro el ajuste final de éste a los datos. procedentes del análisis matemático cuando la
La elección del modelo viene determinada función de bondad se conoce completamente hasta
básicamente por dos condicionantes: el tipo de los las heurísticas que proporciona la investigación
datos y el objetivo que se quiera obtener. Así por operativa, pasando por técnicas como los
ejemplo no sería apropiado aplicar regresión a unos Algoritmos Evolutivos (sin duda una de las más
datos constituidos por texto o modelos basados en presentes en la literatura), búsquedas tabú,
distancia a datos simbólicos. búsquedas dispersas, etc.
En cuanto a la relación modelo-objetivo, la literatura Debido a que esta búsqueda u optimización está
presenta un catalogo de distintos modelos para los presente en todos los procesos de MD, a menudo se
diferentes objetivos. Así, si se tiene un problema de confunden, pudiendo presentarse por ejemplo los
clasificación se utilizarán máquinas de vectores algoritmos evolutivos como un modelo de MD,
soporte o árboles de decisión, si es un problema de cuando realmente es una técnica que se puede usar
regresión se pueden usar árboles de regresión o para ajustarlo.
redes neuronales, si se desea hacer clustering se Por último, otro factor a tener en cuenta junto con
puede optar por modelos jerárquicos o los anteriores es el tratamiento que deseamos dar a
interrelacionados, etc. la incertidumbre que el propio modelo genera. Por
También es importante en esta elección el nivel de ejemplo, supongamos un modelo basado en reglas
comprensibilidad que se quiera obtener del modelo que define una así:
final, ya que hay modelos fáciles de “explicar” al Si x ∈ [1.4, 3.4] entonces y ∈ [-2.1, 6.5]
usuario como por ejemplo las reglas de asociación y
otros que entrañan claras dificultades como las redes ¿Qué podríamos afirmar si x vale 3.5 ó 1.3? ¿y si
neuronales o los vectores soporte. vale 3.6 ó 1.2? Este razonamiento lleva a usar
El segundo paso consiste en realizar una “fase de lógicas distintas de la clásica como son la lógica
aprendizaje” con los datos disponibles para ajustar borrosa o difusa (fuzzy) o los menos conocidos
el modelo anterior a nuestro problema particular. rough sets. Relacionado con esto aparece un último
Así si tenemos una red neuronal habrá que definir su concepto: softcomputing, para referirse al conjunto
arquitectura y ajustar los valores de los pesos de sus de técnicas computacionales (lógica borrosa,
conexiones. Si vamos a obtener una recta de razonamiento probabilístico, algoritmos evolutivos,
regresión hay que hallar los valores de los …) que posibilitan las herramientas de aprendizaje.
16 Inteligencia Artificial Vol. 10 No 29 (2006)

Softcomputing se refiere a la característica de también se localiza la minería de data streams de


imprecisión o incertidumbre que acompaña por su muy alta velocidad con posibles cambios de
propia naturaleza al concepto de MD [15]. estructura, dimensión o modelo de generación
Todos los conceptos presentados en esta sección dinámico durante la fase de entrenamiento. Esto
(modelo, tipo de datos, lógica, función de bondad y obliga a terner un modelo de conocimiento en todo
técnica de búsqueda) convenientemente hibridizados momento.
han dado lugar a infinidad de metodologías en MD.
Simulación, integración en la toma de decisiones
Así es fácil encontrar referencias a “redes
y minería de datos: los modelos extraídos para un
neuronales borrosas para datos numéricos
ámbito de interés de una organización. Básicamente
entrenadas mediante algoritmos evolutivos”,
se trata de utilizar las salidas de unos modelos como
“clustering mediante rough sets aplicando una
entradas de otros y maximizar el beneficio del
búsqueda dispersa”, “definición de una métrica para
conjunto de modelos. Además, pueden añadirse al
búsqueda tabú de reglas que clasifiquen texto”, etc.
modelo global restricciones de valores máximos o
mínimos (saturación), etc. Las técnicas tradicionales
5. Retos y tendencias de la minería de de combinación de modelos [6,8] no pueden
datos aplicarse directamente. Las técnicas de simulación
en minería de datos (véase el capítulo 18 de [8]),
Existen algunos retos que superar antes de que la más relacionadas con el problema de una
minería de datos se convierta en una tecnología de maximización global no han recibido la atención
masas [9,14]. Señalamos en este epígrafe algunos de suficiente desde el área de la minería de datos. La
los retos actualmente planteados. obtención de modelos que globalmente se
Aspectos metodológicos: Sería muy útil la comporten bien y que se mantengan dentro de unas
existencia de una API Standard, de forma que los restricciones, requiere no sólo de matrices de costes
desarrolladores puedan integrar sin dificultad los y de técnicas como el análisis ROC [7], sino de
resultados de los diversos algoritmos de minería. otros tipos de métricas y técnicas para el aprendizaje
Esto podría facilitar también la tarea de automatizar y la evaluación. La predicción local más idónea para
y simplificar todo el proceso, integrando aspectos un problema puede implicar la elección de una
como muestreo, limpieza de datos, minería, menos idónea para otro, mientras puede existir una
visualización, etc.. En este mismo sentido sería decisión global mejor. Si bien este tipo de
deseable que los productos de minería de datos decisiones globales han sido estudiadas por la teoría
estuvieran orientados al programador para fomentar de la decisión [3] y por el área de planificación en
su uso y ampliación. Sería asimismo necesario inteligencia artificial [11], esta interrelación entre
unificar la teoría sobre la materia: así se puede modelos predictores, su aprendizaje y problemas de
observar que los estados del arte no son optimización y planificación no ha sido estudiada a
generalizables, no existe un estándar para la fondo.
validación de resultados y, en general, la Minería para datos con una estructura compleja:
investigación se realiza demasiado aislada. en numerosas ocasiones los datos procedentes de
Asimismo se necesitaría mejorar la formación en aplicaciones del mundo real no tienen una
esta área entre los titulados universitarios, que sería representación directa en forma de una única tabla,
la mejor manera de expandir su uso, y finalmente, sino que deben ser representadas mediante
sigue siendo un asunto pendiente la integración del estructuras jerárquicas (árboles), interrelacionadas
conocimiento del dominio en el algoritmo, y (grafos), conjuntos, etc. Por lo tanto, el reto que se
viceversa, es decir, mejorar la interpretabilidad y lanza a la comunidad científica que investiga en
facilidad de uso del modelo hallado. aprendizaje automático y minería de datos, es el de
Escalabilidad: la escalabilidad de la minería de adaptar o proponer nuevas técnicas que permitan
datos hacia grandes volúmenes de datos es y será trabajar directamente con este tipo de
siempre una de las tendencias futuras, ya que el representaciones. En este campo también entraría la
volumen de información que se ha de tratar crece de minería de datos distribuida, donde los datos no se
manera exponencial, con lo que los avances en esta encuentran en una única localización sino como es
área quedan siempre superados por las necesidades cada vez más habitual en una red de computadores.
crecientes. Datos con miles de atributos es ya algo Un caso particular sería la minería de datos
habitual, pero es probable que las técnicas no estén multimedia, para datos que integran voz, imágenes,
preparadas aún para centenares de miles o incluso texto, video, y que, debido a la complejidad de los
millones de características. Dentro de esta línea datos, el volumen y el gran abanico de aplicaciones
Inteligencia Artificial Vol. 10 No 29 (2006) 17

posibles constituye un reto en la actualidad. Referencias


Otros temas que se están abordando y donde se debe
profundizar son: la comprensibilidad de los patrones [1] E. Alpaydin. Combined 5x2 cv f test for
extraídos; potenciar las aplicaciones en campos comparing supervised classification learning
nuevos como privacidad, anti-terrorismo, crisis algorithms. Neural Computation, 11: 1885-1892,
energética, medioambiente, bioinformática; asegurar 1999.
la privacidad e integridad de los datos que son [2] C. Ambroise and G. McLachlan. Selection bias
sometidos a minería; datos no balanceados entre las in gene extraction on the basis of microarray
distintas clases; datos sensitivos al coste, no sólo en gene-expression data. Proc. Natl. Acad. Sci.
el error al asignar una clase sino en la obtención de USA 99, pages 6562-6566, 2002.
los atributos; datos en secuencia y series temporales
cada vez más utilizadas; etc. [3] Y. Ben-Haim. Information-Gap Decision
Theory. Academic Press, 2001.
Podemos concluir señalando que la minería de datos [4] M.J.A. Berry and G.S. Linoff. Data mining
se considera todavía un nicho y un mercado techniques for marketing, sales, and Customer
emergente. Una de las razones es que la mayoría de Relationship Management. Wiley Publishing,
los paquetes de minería de datos están dirigidos a 2004.
expertos, y esta cuestión no facilita su uso por los
usuarios. Se piensa que en los próximos años habrá [5] T. Dietterich. Approximate statistical test for
más desarrolladores de aplicaciones comerciales de comparing supervised classification learning
gestión que sean capaces de integrar en éstas algorithms. Neural Computation, 10 (7): 1895-
módulos de minería de datos. Con ello se conseguirá 1924, 1998.
extender y generalizar su uso a usuarios de los más [6] V. Estruch, C. Ferri, J. Hernández-Orallo and M.
diversos campos de la actividad humana. J. Ramírez-Quintana. Bagging Decision Multi-
trees. Multiple Classifier Systems, pages 41-51,
6. Conclusiones 2004.

La minería de datos es un área de estudio científico [7] P. Flach, H. Blockeel, C. Ferri, J. Hernández-
con grandes expectativas para la comunidad Orallo and J. Struyf. Decision Support for Data
investigadora, principalmente por las expectativas Mining: Introduction to ROC analysis and its
de transferencia a la sociedad que plantea. Desde applications. Book chapter in Data Mining and
hace más de 50 años se han publicado infinidad de Decision Support, Kluwer, 2003.
artículos en conferencias y revistas destacadas sobre [8] J. Hernández-Orallo, M. J. Ramírez-Quintana
la materia. Sin embargo, queda por delante un and C. Ferri. Introducción a la Minería de Datos.
campo fértil y prometedor con muchos retos en Prentice Hall / Addison-Wesley, 2004.
investigación. Este artículo ha proporcionado una
introducción al descubrimiento de conocimiento y la [9] H. Kargupta, A. Joshi, K. Sivakumar and
minería de datos. Se han descrito las principales Y.Yesha. Data mining: next generation
posibilidades que la minería de datos proporciona, challenges and future directions. MIT/AAAI
así como una relación de las principales Press, 2004.
metodologías usadas. Además se han resaltado [10] S. Mitra and T. Acharya. Data mining:
diferentes dominios de aplicación y los principales multimedia, soft computing and bioinformatics.
retos y tendencias en investigación. John Wiley & Sons, 2003.
[11] S. J. Russell and P. Norvig. Artificial
Agradecimientos
Intelligence: A Modern Approach. Prentice Hall,
Los autores agradecen a los profesores Francisco Herrera
2002.
de la U. de Granada y José Hernández-Orallo de la U.P. [12] Z. Tang and J. MacLennan. Data Mining with
de Valencia las sugerencias aportadas para la redacción de SQL Server 2005. Wiley Publishing, 2005.
este artículo. 'Inteligencia Artificial' es una publicación
periódica distribuida por la Asociación Española para la [13] Witten, IH and Frank, E: "Data Mining:
Inteligencia Artificial (AEPIA). Practical Machine Learning Tools and
Techniques", 2nd Edition. Morgan Kaufmann,
2005
18 Inteligencia Artificial Vol. 10 No 29 (2006)

[14] Q. Yang and X. Wu. Challenging Problems in


Data Mining Research ICDM 2005
http://www.cs.ust.hk/~qyang.
[15] L.A. Zadeh. What is Soft Computing?. Soft
Computing, 1(1), 1, 1997.
View metadata, citation and similar papers at core.ac.uk brought to you by CORE
REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017 / Escuela Especializada
provided en
by Repositorio Digital Ingenería
de la ITCA-FEPADE
Ciencia y Cultura de El Salvador REDICCES

TENDENCIAS EN BUSINESS INTELLIGENCE DEL BIG DATA


AL SOCIAL INTELLIGENCE
Claudia Ivette Rodríguez
Ingeniera en Ciencias de la Computación. Docente investigadora. Escuela de Ingeniería en Computación.
ITCA-FEPADE Sede Central. E-mail: [email protected]

Resumen Abstract

E l presente artículo da a conocer cómo las empresas


están dándose cuenta de la necesidad de cambio
en el manejo de los datos; habla de los diferentes
T he present article shows how companies are realizing
the need for change in data management; Explains
about the different levels of business versus business in-
niveles de las empresas frente a la inteligencia de nego- telligence and how to adopt it. It also addresses the
cios y cómo adoptarla. También se aborda la temática topic of trends in business intelligence, self-service, visual
de las tendencias en la inteligencia de negocios, auto- analysis, mobile independence, cloud impact, the fact
servicio, análisis visual, la independencia de los móviles, that data analysis can be realized by someone who is
el impacto de la nube, el hecho de que el análisis de not analyst specialist and the Internet of the Things.
datos puede ser realizado por no analistas y el Internet
de las Cosas.

Palabras clave Keywords


Inteligencia de negocios, tecnologías de información, Business intelligence, information technology, e-commerce,
comercio electrónico, ciencias de la computación, computer science, computing application.
aplicación informática.

Introducción
La tendencia es una inclinación o propensión hacia de- jetivos más firmes; persigue una idea con el fin de con-
terminados fines. El término también permite nombrar a la cretizarla por lo que durará más y marcará el camino de
fuerza por la cual un cuerpo se inclina hacia alguna cosa otros. Así es como las empresas Google y Amazon están
y a la idea que se orienta en determinada dirección. colocadas en posiciones de ventaja por sobre sus com-
petidores; con sus ideas de innovación le sacan partido
Las tendencias organizan el comportamiento de la a la tendencia que tienen los datos a convertirse en in-
moda y del consumo [1]. formación y ésta en conocimiento [4].

Diferencia entre tendencia y moda en los negocios


Empresas listas para Business
Frecuentemente podemos apreciar cómo nacen
Intelligence (BI)
nuevas empresas producto de alguna necesidad o tri-
Las empresas deben pasar por un proceso en muchos
vialidad pasajera. Dichas empresas progresan a grandes
casos “doloroso” al tener que dejar sus formas tradicio-
pasos y al llegar al clímax de sus ganancias comienza la
nales de toma de decisiones, almacenaje y manipula-
cuesta abajo; muchas desaparecen en los primeros 3
ción de información con el fin de implementar BI. Según
años de existencia; de acuerdo con la CEPAL [2] “en los
Conesa y Curto, el ciclo de madurez (*Business Intelli-
países subdesarrollados entre un 50% y un 75% dejan de
gence Maturity Model) [5] comprende 7 fases donde
existir durante los primeros tres años”. [3]
se clasifican las empresas según su nivel de avance en
materia de manejo de datos.
La moda nos lleva a un momento con gran intensidad
de corta duración, en cambio una tendencia tiene ob-

Recibido: 27/03/2017 - Aceptado: 11/06/2017

57
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Escuela Especializada en Ingenería ITCA-FEPADE / REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017

aprovechar al máximo la información empresarial, está


íntimamente relacionada con un mejor desempeño de
la compañía, pero también está claro que muchas or-
ganizaciones todavía tienen problemas con el manejo
de su información [6].

Tendencias en BI
Las tendencias en BI nos llevan a una serie de elemen-
tos a considerar; todos están en vigor en mayor o menor
grado.

Las empresas están dando un giro hacia ellas, la crecien-


te necesidad de competir en dar un novedoso servicio
que supere a la competencia donde anteponerse a
las necesidades de clientes se ha vuelto una prioridad y
para eso hacen uso de los datos que al ser procesados se
convierten en información y si esta aporta una diferencia
o ventaja sobre el mercado se convertirá en conocimien-
to. Esto se conoce como el ciclo del conocimiento.

Figura 1. Las 7 fases del ciclo de madurez de la


información según Conesa y Curto

El nivel de madurez de la información será básico para


dar el paso exitoso y llevar el negocio a esta forma de Figura 2. Ciclo del conocimiento
trabajo; es de notar que esto no es un trabajo solo de
la Tecnología de la Información (TI), es de muchos más;
los usuarios y los directivos deben estar compenetrados a. La administración y el análisis de autoservicio forjan
y comprometidos con el proyecto, de tal manera que una gran amistad
la implantación de BI deberá ser un eje transversal que
atraviese toda la empresa y su organización. La optimización del área de TIC debe contar con ser-
vicios gestionados y proyectos de infraestructuras TIC,
Basar las decisiones y estrategias en conocimiento pro- aplicaciones y soluciones de calidad de servicio.
veniente de la información recolectada y tratada por
medio de una herramienta “Extract, Transform and La organización debe maximizar su rentabilidad y efi-
Load” ETL (Extraer, Transformar y Cargar) con el fin de ciencia en los procesos productivos, lo que también
proveer una ventaja competitiva, dar un producto par- requiere actualizaciones específicas en ámbitos trans-
ticular a cada cliente que responda a sus necesidades, versales, donde BI debe ser conocido y adoptado por
el anteponerse a una situación de inversión y lanzar una toda la organización:
nueva línea de productos, etc. Todas las anteriores son
beneficios para la empresa. Arquitectura y Governance.
Desarrollo.
En marzo del 2007, la empresa SAS realizó un estudio Operación y Mantenimiento.
para evaluar las tendencias actuales en el uso de infor-
mación de negocios, en particular sobre la inteligencia Con esto se lograrían avances en puntos importantes:
de negocios y los centros de competencia y el efecto
que se ejerce en el desempeño de las compañías. De Reducir la dedicación del departamento de TI.
acuerdo con este estudio, la administración eficaz y Dar a los usuarios de negocio flexibilidad.
el uso de la información pueden ser un componente Centralizar la información de negocio.
clave para el éxito de una organización. Las conclusio- Reducir los costes de formación.
nes indican que la implementación de prácticas para

58
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017 / Escuela Especializada en Ingenería ITCA-FEPADE

c. Los datos se democratizan

A lo largo de los últimos años, cada vez más organiza-


ciones han visto la necesidad y la utilidad de usar solu-
ciones Business Intelligence para la toma de decisiones.

Tradicionalmente, estás herramientas eran utilizadas de


forma exclusiva por grandes organizaciones y multina-
cionales de los sectores de gran consumo, banca y te-
lecomunicaciones.

Conforme han ido avanzando los años se ha ido abrien-


do el uso a empresas de todos los sectores productivos
y comerciales, así como a las administraciones públi-
cas que han visto en su uso, una manera de optimizar y
Figura 3. Simplificar la Administración mejorar el servicio a sus ciudadanos.
Autoservicio
De forma paralela, dentro de las propias organizacio-
b. El análisis visual se vuelve un idioma común. nes que ya usaban Business Intelligence se ha ido exten-
diendo su uso a un mayor número de personas.
Dicen que “una imagen vale más que mil palabras”,
esto se aplica perfectamente a las representaciones
por medio de gráficos de los datos.

Las empresas tienen una gran cantidad de datos que


no son relevantes; esto podría ser una grave equivoca-
ción, “el valor escondido de los datos” es tan o más im-
portante para los negocios, esto puede ser la ventaja
competitiva que una empresa necesita para figurar
por sobre las demás o podría ser una fuente para una
nueva estrategia de negocio.

Figura 5. Reportes visuales de HD3D


de Siemens PLM software

De ser tecnologías y soluciones reservadas a analistas


y personal de dirección se ha ido extendiendo su uso
a todas aquellas personas que manejan información y
toman decisiones en las compañías que, en la práctica,
son un porcentaje muy alto de las mismas.

Por ejemplo, la empresa Siemens hace que la informa-


ción de su producción llegue a todas las áreas de la
empresa.

La generación de reportes visuales de los análisis de


productos en NX (Unigraphics), ayuda a hacer evalua-
Figura 4. Representación de gráficas
ciones certeras, interpretar datos de manera rápida y
de datos
precisa, y sintetizar los datos para una mejor toma de
decisiones.

59
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Escuela Especializada en Ingenería ITCA-FEPADE / REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017

La generación de reportes visuales de HD3D permite dad de datos con más rapidez. Aumentará más la con-
apreciar los datos de Product Lifecicle Management fianza en este medio [9].
(PLM) con navegación interactiva y desglosar los deta-
lles según sea necesario. Al visualizar un modelo de pro- 64.1%
ducto 3D, puedes responder en forma fácil a preguntas
acerca del estado del proyecto, cambios de diseño,
responsabilidades del equipo, inconvenientes, proble-
mas, costos, proveedores y otros atributos [7].
17.4% 14.3%
4.2%
d. La integración de datos se pone interesante
Relational Cloud Tableau Other
Hoy en día, muchas empresas desean hacer análisis Data Engine
ágiles. Quieren proporcionar los datos adecuados a
Figura 6. Nube como un porcentaje de todas las
las personas apropiadas con rapidez. Es un gran reto fuentes de datos, con exclusión de archivos planos
porque los datos se encuentran en diversos lugares.
g. El análisis móvil se independiza
Trabajar con distintas fuentes de datos puede ser engo-
rroso, imposible o ambas cosas. El análisis móvil creció y se independizó. Ya no es una
simple interfaz para productos de inteligencia de ne-
En 2016 se sumaron muchísimos participantes al espacio gocios heredados. En 2015, aparecieron productos que
de integración de datos. Con el incremento de he- ofrecen una experiencia fluida y priorizan la tecnolo-
rramientas sofisticadas y la incorporación de nuevas gía móvil. Trabajar con datos fuera de la oficina pasó
fuentes de datos, las empresas ya no pretenden reco- de ser una tarea pesada a ser una parte dinámica del
pilar todos sus bytes en un mismo lugar. Los usuarios se proceso de análisis [10].
conectaron a cada conjunto de datos, sin importar su
ubicación, y los combinaron o unieron con herramientas
y métodos más ágiles [8].

e. El análisis avanzado ya no es solo para analistas

Dentro de las organizaciones, quienes se dedican al


análisis se están volviendo más sofisticados. Llegaron a
un punto en el que esperan más que un simple gráfico
basado en sus datos. Desean una experiencia de análi-
sis más amplia y significativa.

Las organizaciones implementarán plataformas que Figura 7. Un móvil, complemento de las tareas diarias
permitan a los usuarios realizar cálculos estadísticos,
hacer una serie de preguntas y mantener el ritmo de
sus análisis. h. La gente comienza a profundizar en los datos del
Internet de las Cosas.
f. El despliegue del análisis y los datos en la nube.
Existen las condiciones necesarias para que el Inter-
En 2015 las personas comenzaron a aceptar la nube. Se net de las Cosas (IoT) amplíe aún más su relevancia. Al
dieron cuenta de que poner cosas en ella es sencillo parecer, cualquier objeto cotidiano estará dotado de
y ofrece mucha escalabilidad. También descubrieron un “sensor” que enviará información. Considere todos
que el análisis en la nube aporta agilidad. En 2016, aún los datos que generan los dispositivos móviles en un día.
más personas migraron a la nube gracias, en parte, a las Eso es solo la punta del iceberg. A medida que se incre-
herramientas que les permitieron consumir datos web. menta el volumen de datos en la IoT, también aumentan
Los usuarios pioneros obtuvieron conocimientos a partir las posibilidades de obtener información. Las empresas
de sus datos. El resto se dio cuenta de que debería buscarán herramientas que permitan a los usuarios ex-
seguir ese camino. Cada vez más empresas usarán el plorar los datos y, después, compartir sus descubrimien-
almacenaje en la nube para analizar una mayor canti- tos de manera segura, administrada e interactiva [11].

60
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017 / Escuela Especializada en Ingenería ITCA-FEPADE

j. Social Intelligence: Social Media, Marketing y Business


Intelligence.

Gracias a la recopilación de los datos que están disper-


sos por diferentes fuentes de datos comentadas ante-
riormente, una empresa puede obtener beneficios a
corto y medio plazo:

Optimización del marketing. Es posible saber a qué


sector enfocar una campaña de marketing y saber
por qué tenemos que focalizar esta estrategia en
ese sector.

Capturar ideas y clientes insatisfechos. Se identifica


lo que el cliente piensa o desea de nuestros produc-
Figura 8. El Internet de las Cosas (IoT) tos.

i. Aparecen nuevas tecnologías para acortar las brechas Ver las “lagunas” en nuestros productos y servicios
de la organización a través de los usuarios.
Hay numerosas tecnologías nuevas en el entorno de
la inteligencia de negocios. A medida que estas se in- Identificar y controlar las principales tendencias,
troduzcan en el mercado, aparecerán brechas que comprender cuándo surgen críticas para proteger
deberán acortarse con el tiempo. Y habrá nuevas em- la experiencia del cliente o marca. Mediante los co-
presas que se encargarán de eso. mentarios en las Redes Sociales se pueden obtener
las ideas y problemas que han tenido los clientes y
así poder mejorar el producto actuando de forma
inmediata. Además, se podrá identificar mediante
estas tendencias a cuáles se pueden adaptar los
productos y así acortar el periodo de adaptación
a las mismas.

Análisis de los sentimientos producidos. “¿Qué


opinan de nosotros?” o “¿qué opinan de nuestro
nuevo producto?” son solo dos ejemplos que difí-
cilmente se pueden responder sin analizar toda la
información en las redes sociales. Por ejemplo, si
sale una campaña en un país se tendrá miles y miles
Figura 9. Un mundo conectado, un mundo
de opiniones que habrá que procesar de alguna
informado forma. Gracias a los algoritmos de Minería de Textos
se puede extraer el sentimiento de estas opiniones
Los aceleradores de Hadoop, la integración de datos para saber qué están opinando y filtrar por criterios
NoSQL, la integración de datos de la IoT y las redes so- personales para extraer todo el conocimiento.
ciales mejoradas brindan oportunidades para la fun-
dación de nuevas empresas. En 2016 surgieron nuevos
Termino citando una frase que viene perfecta al caso:
actores que se encargaron de acortar las brechas y
se consolidaron en el mercado. Además, las organiza-
«In God we trust.
ciones continuaron dejando atrás las soluciones únicas
All the rest bring data»
para adoptar una gama abierta y flexible que incluya
Barry Beracha, ex CEO Sara Lee
estas nuevas tecnologías [12].

61
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Escuela Especializada en Ingenería ITCA-FEPADE / REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017

Referencias

[1] “Social Media: de moda a tendencia en los nego- [8] D. Linthicum, “5 Things That Will Drive Data Inte-
cios”, 2014. [En línea]. Universidad La Salle, Ciudad de gration Over the Next 10 Years”. The Informatica
México”. Disponible en: http://www.lasalle.mx/blog/ Blog - Perspectives for the Data Ready Enterprise,
social-media-de-moda-a-tendencia-en-los-negocios/. 2015. [Online]. Available: https://blogs.informatica.
[Accedido: 20 -ene-2017] com/2015/07/22/5-things-that-will-drive-data-integra-
tion-over-the-next-10-years//#fbid=ZtqNC6R1s6L.
[2] Comisión Económica para América Latina y El Caribe [Accessed: 22-Feb-2017]
(CEPAL). “CEPALSTAT : Bases de datos y publicaciones
estadísticas”, 2015. [En línea]. Disponible en: http://esta- [9] E. Campos, “Tracking the Rapid Rise in Cloud Data”,
disticas.cepal.org/cepalstat/WEB_CEPALSTAT/Portada. 2015. [Online]. Available: https://www.datanami.
asp. [Accedido: 22-ene-2017] com/2015/05/01/tracking-the-rapid-rise-in-cloud-data/.
[Accessed: 23 -Feb-2017]
[3] L. S., Soriano, “Por qué fracasan las Pymes”, 2005. [En
línea]. Disponible en: https://www.gestiopolis.com/por- [10] A. Bridgwater, “Tableau Puts Data Visualization On
que-fracasan-las-pymes/. [Accedido: 22 -ene-2017] The iPad”, 2015. Forbes. [Online] Available: http://www.
forbes.com/sites/adrianbridgwater/2015/10/22/ta-
[4] R. Galán, “15 tendencias que deberías aplicar a tu bleau-puts-data-visualization-on-the-ipad/. [Accessed:
estrategia de negocio”, 2015. [En línea]. Emprende- 25 -Mar- 2017]
dores. Disponible en: http://www.emprendedores.es/
ideas-de-negocio/tendencias-negocios-2016. [11] J. Eiloart ,“The Internet of ‘Thingalytics”, IoT Now -
[Accedido: feb -24-2017] How to run an IoT enabled business [Online]. Disponible
en: https://www.iot-now.com/2015/08/17/35904-the-in-
[5] J. Canesa Caralt y J. Curto Díaz, “Introducción al ternet-of-thingalytics/. [Accessed: 27 -Mar- 2017]
business intelligence. 2010”. [En línea]. Disponible en:
https://blogvirtualtec.files.wordpress.com/2015/02/intro- [12] S. Mulligan, “BI’s Inflection Point: The New Fast
duccion_al_business_intelligence.pdf. Data Exploration Mandate”, 2015. [Online]. Availa-
[Accedido: 10 -feb-2017] ble: https://www.datanami.com/2015/09/30/bis-inflec-
tion-point-the-new-fast-data-exploration-mandate/.
[6] L. Calzada y J.L. Abreu, “El impacto de las herramien- [Accessed: 22 -Mar-2017]
tas de inteligencia de negocios en la toma de decisio-
nes de los ejecutivos”. Daena: International Journal of
Good Conscience, vol.4 no. 2, pp.16-52, sep. 2009.

[7] Siemens. “Generación de Reportes Visuales: Siemens


PLM Software”, 2011. [En línea]. Disponible en: https://
www.plm.automation.siemens.com/es_sa/products/nx/
for-design/visual-analytics/reporting.shtml. [Accedido:
27 -feb-2017]

62
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Estadística descriptiva
Estadística descriptiva. Generalidades
La estadística descriptiva es una rama de la estadística que nos ayuda a entender mejor los
datos, a partir de su descripción y análisis. Como parte del proceso de Data Science, la
estadística descriptiva es uno de los pilares del Análisis Exploratorio de Datos o EDA.

Tipos de variables

En general hablaremos sobre una gran división en los tipos de variables, que es la que será
más práctica para Data Science: variables cuantitativas y cualitativas.

Variables cuantitativas

Las variables cuantitativas son variables para las que tiene sentido realizar la suma, la resta
o el promedio, de acuerdo al caso. En general son numéricas y pertenecientes al conjunto
de los números reales o a alguno de sus subconjuntos Por ejemplo, las alturas de las
personas pueden estar medidas en centímetros, y las edades podrían estar medidas en
números enteros, lo cual en realidad no sucede de esa forma (nuestra edad aumenta día a
día, segundo a segundo) pero sí puede servir a fines prácticos. Tener una edad de 20,4
años puede ser muy importante para un estudio médico, pero muy impráctico para edades
de consumidores de un producto.

De acuerdo a la noción que dimos anteriormente, un chequeo rápido para verificar si la


variable es numérica es hacerse esta pregunta: “Si sumo, resto o promedio los valores,
¿tiene sentido el resultado?”. Si tiene sentido para alguno de estos casos, estamos ante
una variable numérica. Es importante tener en cuenta que esto siempre depende del
problema que estamos enfrentando. Por ejemplo, es válido decir que en promedio una
familia tiene 2,5 hijos. A los fines estadísticos es muy útil saberlo. Pero por ejemplo, decir
que en promedio los autos de marca Ford tienen 4,5 puertas no es útil para nada. Para
estos ejemplos, “cantidad de hijos por familia” es una variable numérica, mientras que
“cantidad de puertas de los autos”, si bien es un número (3 puertas, 5 puertas, etc.) no es
variable cuantitativa en su naturaleza.
Series de tiempo
Las variables de tipo fecha constituyen un mundo aparte, tanto para la visión estadística
como para el enfoque de tipos de datos de programación. Tienen algunas cualidades
distintivas como la secuencialidad, la relación entre datos con valores sucesivos y las
características particulares del devenir temporal, tales como años bisiestos, estaciones del
año, periodicidad en escalas que no encajan de forma perfecta (como las semanas en el
mes), etc. Si bien estas cuestiones pueden pensarse con simple sentido común, a la hora
de realizar análisis y obtener conclusiones, especialmente con grandes volúmenes de
datos, este tipo de datos puede traer inconvenientes si lo tratamos de forma manual.

En términos estadísticos, una serie de tiempo puede ser considerada como una variable
cuantitativa, ya que si bien el promedio no es una operación que tenga mucho sentido, sí se
pueden establecer diferencias entre fechas, que dan como resultado duraciones. Por
ejemplo, es práctica común en el desarrollo de sistemas que la edad de una persona se
calcule como la diferencia entre la fecha de nacimiento (cargada en la base de datos) y la
fecha de hoy (calculada con una función del lenguaje de programación).

Variables categóricas o cualitativas

Las variables categóricas o cualitativas, por su parte, como su nombre lo indica, sirven
efectivamente para categorizar elementos. Esto significa que podríamos armar
subconjuntos o subgrupos de elementos de acuerdo a dicha variable. Encontramos aquí por
ejemplo algunos datos comunes que se utilizan en data science para caracterizar a las
personas, tales como el sexo/género, la ocupación/profesión y el lugar de procedencia. En
general las variables categóricas son datos de texto libre, por lo que en principio son fáciles
de identificar. Como regla rápida, no está mal recurrir a la pregunta anterior: “Si sumo,
resto o promedio los valores, ¿tiene sentido el resultado?”. Cuando la respuesta es
“no” para todos los casos, entonces la variable es categórica.

Casos particulares

En general los lenguajes de programación ofrecen herramientas para detectar los tipos de
variables automáticamente, pero no está de más verificar siempre a conciencia los tipos
de variables, en especial para detectar los casos que se muestran a continuación
Variables que son categóricas pero que están escritas como número
Como mencionamos anteriormente, es importante tener en cuenta la naturaleza de los
datos para verificar si tiene sentido que la variable que representan sea numérica o
categórica. En el ejemplo de las puertas de los autos, tenemos una variable que puede
estar escrita con números (para el ejemplo dado: variable “Cantidad de puertas”, con
valores posibles 3, 4 y 5), pero cuya naturaleza no es numérica. Las variables categóricas,
si son números como en este caso, no tienen sentido al sumarse, restarse o promediarse,
pero sí tienen sentido si se cuentan. Por ejemplo, podría ser de mucho interés saber
cuántos autos tienen 3 puertas frente a cuántos tienen 4 ó 5.

Variables lógicas
Este tipo de dato tiene como valores posibles verdadero (True) y falso (False). Esta variable
puede además representarse como 1 para verdadero y 0 para falso. No obstante, a los
efectos del análisis estadístico, sigue siendo una variable categórica.

Variables de alta cardinalidad y metadatos


En data science, no es raro que aparezcan variables que en cuanto a su tipo pueden ser
numéricas, o bien de texto, pero que no tienen sentido ni para sumarse, restarse o
promediarse ni para contarse. Ejemplos típicos de esta situación son los números de
documento o cualquier tipo de identificación personal o fiscal, los números de serie de
producto, o bien los identificadores o códigos de cliente. En general estos valores, más que
categorizar o cuantificar una porción de todo el conocimiento que tenemos acerca de un
elemento, los identifican de alguna manera. Los identificadores ayudan a localizar a un
elemento, lo cual es indispensable para su almacenamiento y manipulación en bases de
datos, pero no tienen utilidad práctica a fines estadísticos. Toda variable que cumpla con
esta función es un metadato, es decir, un dato que describe o brinda información acerca del
dato en cuestión. En este sentido, el metadato no es cuantitativo ni categórico y lo más
conveniente es separar este tipo de variable del análisis estadístico.

Una forma rápida de identificar estos metadatos es a partir de su cardinalidad. En el campo


de las Bases de Datos, la cardinalidad es una medida de cuántos datos distintos existen
para una variable. En el caso presentado de las puertas de los autos, la cardinalidad sería
3: autos de 3 puertas, de 4 puertas y de 5 puertas, esto es, tres valores distintos. En el caso
de los valores lógicos o booleanos la cardinalidad es de 2, y en el caso de los géneros
puede ser variable. Por ejemplo, un usuario de Facebook puede elegir en un rango de más
de 60 géneros (en términos de orientación sexual) distintos dentro de la aplicación. Los
lenguajes de programación calculan la cardinalidad de la variable en relación a la
cantidad de elementos, y esta regla puede ser muy útil si no sabemos el significado
concreto de la variable con la que estamos trabajando. Si la cardinalidad de una variable
es cercana a la cantidad de elementos, entonces es posible que la variable sea un
metadato, por ejemplo seguramente habrá tantos números de documento como personas.
Por otra parte, 60 géneros parece un número grande para una cantidad de categorías
cuando se lo analiza de forma aislada, pero en comparación con los 2700 millones de
usuarios de Facebook, son realmente muy pocos. En sí, el género es una característica que
puede inferirse a partir del simple sentido común, pero en los casos en los que el significado
de la variable no sea tan claro, la regla de la cardinalidad sirve muy bien de guía.

Conceptos básicos
Toda vez que tomamos un conjunto de datos, asumimos que representan una parcialidad de
la realidad. Por ejemplo, al hacer una encuesta telefónica solamente tenemos los datos de
los encuestados, no de todas las personas. Al hacer un relevamiento de indicadores
demográficos (altura, peso, edad), solamente consideramos los datos de las personas
relevadas. Aún si queremos ver los datos de nuestra empresa, y tenemos acceso a la base
de datos completa, si hacemos data science queremos saber qué es lo que puede pasar
con los datos que todavía no tenemos: por ejemplo, qué clientes pueden comprar más, o
cuáles son más propensos a cometer fraude.

En este sentido, siempre hay datos a los que no tenemos acceso, porque no podemos
relevarlos o porque todavía no sucedieron. No obstante, son precisamente estos datos los
que serán objeto de nuestras predicciones y estimaciones de la mano de la estadística y del
data science. Es por esto que es necesario distinguir entre estos conjuntos de datos.

En términos estadísticos, a cada elemento individual que pueda describirse con un conjunto
de variables representadas con datos lo llamaremos unidad de observación o
simplemente observación. El universo de observaciones que consta de todas las unidades
de observación posibles, incluidas aquellas a las que no tenemos acceso, o que todavía no
ocurrieron, se denomina población. Finalmente, el conjunto de observaciones que contiene
las unidades de observación a las que tenemos acceso se denomina muestra. A partir de la
muestra aplicaremos herramientas estadísticas para obtener conclusiones acerca de la
población.
Medidas de resumen
A menudo se presentan situaciones donde obtenemos muestras en forma de conjuntos de
datos, y luego de acomodarlos para poder introducirlos adecuadamente en nuestro código,
nos toca echar un vistazo a las variables, para poder interpretar las características del
conjunto de datos y así obtener conclusiones preliminares sobre la población a partir de la
muestra. En el proceso de data science, estas conclusiones pueden servir para la toma de
decisiones en cuanto a qué algoritmos aplicar, o qué consideraciones tomar con respecto a
los datos.

Dos ejemplos habituales de este análisis previo pueden verse en los datos de carácter
económico. En marketing es conocida la “regla de Pareto”, que dice que el 80% de la
ganancia está dada por el 20% de los clientes. Si bien esto no siempre es exactamente así,
es muy común que suceda, y en este sentido los análisis de clientes muchas veces exigen
realizar un recorte (dejar clientes fuera del análisis) para considerar solamente los más
importantes, y este recorte se realiza en base a métodos de estadística descriptiva. Por otro
lado, siempre que se habla de salarios o distribuciones de la riqueza, es conocido que en
general grandes sumas de dinero se concentran en pocas personas. De esta forma, calcular
un simple promedio para entender cuál es el salario más representativo para la población es
una mala elección, ya que sería el equivalente a medir el promedio de las alturas de una
salita de niños de jardín,... ¡junto con algunos jugadores de básquet! Las diferencias en
dinero son en general muy grandes (como las diferencias de altura en el caso anterior), y es
necesario analizarlas con herramientas más adecuadas que el promedio. Veremos estas
cuestiones a continuación.
Para ordenar las medidas siguientes, vamos a hacer una distinción entre variables
cualitativas y cuantitativas. Tengamos siempre presente en este sentido que la correcta
caracterización de la variable es fundamental para saber qué medida aplicar, y de esta
forma entender mejor a los datos.

Variables cuantitativas

Media o promedio
El promedio o media aritmética se define como la suma de todos los valores dividida entre
la cantidad de datos. En formula:

El número n representa la cantidad de valores. El número i representa un índice que va


desde 1 hasta n. El promedio se representa con . La media es la medida más conocida, y
pretende mostrar la posición más central de todos los datos, describiendo su ubicación. Por
ejemplo, es útil saber que el promedio de las alturas de los niños de la salita de jardín es de
100 centímetros, y que por su parte el promedio de las alturas de los jugadores de
basquetbol es de 195 centímetros. Los dos grupos están bien definidos, ya que sus
promedios son muy diferentes. Con esto, podemos decir que en general las posiciones de
los datos para los dos grupos son distintas entre sí.

Mediana y cuartiles
Muchas veces el promedio no es una medida suficiente para poder describir los datos.
Puede haber valores muy alejados del “centro” de los datos, o pueden estar todos los datos
muy dispersos, o bien el “centro” puede estar “corrido” hacia algún lado, como pasa muy
comúnmente con los sueldos: muchos trabajadores cobran salarios mínimos o cerca del
mínimo, y muy pocas personas cobran valores exorbitantes. En estos casos, el promedio no
es un número claro para describir al conjunto de datos.

Una medida para poder resolver esta situación es la mediana. La mediana se calcula de la
siguiente manera:

1. Ordenar los datos de menor a mayor. Si hay valores repetidos, simplemente


ponerlos la cantidad de veces que aparezcan. Quedará la cantidad de datos
originales, pero esta vez ordenados.
2. Con los datos ordenados, contemos ahora la cantidad de datos.
a. Si la cantidad de datos es impar, busquemos el valor que está exactamente
en la mitad de los datos. Esa es la mediana.
b. Si la cantidad de datos es par, habrá dos valores en el centro de los datos.
Calculemos el promedio de estos dos valores. Esta será la mediana

Pensemos por un segundo en lo que significa contar con la mediana de un conjunto de


datos. Si tuvimos que ubicarnos en la mitad de los datos ordenados para llegar a la
mediana, entonces podemos decir con total seguridad que la mitad de los datos son
menores o iguales a la mediana, y que la otra mitad de los datos son mayores o iguales a la
mediana. De esta forma, decimos que el 50% de los datos tiene valores menores a la
mediana, y análogamente el 50% restante de los datos tiene valores mayores a la mediana.

Con esta idea en mente, podemos extender el concepto de mediana a los valores que
llegan al 25% y al 75% de los datos. A estos valores les llamaremos primero y tercer
cuartiles, porque representan una cuarta parte y tres cuartas partes de los datos,
respectivamente. En este sentido, la mediana es equivalente a las dos cuartas partes de los
datos, con lo cual también la llamaremos segundo cuartil. La mediana es más comprensible
cuando hablamos de salarios, porque podemos decir a partir de su uso que un porcentaje
determinado de la población gana más (o menos) que determinado valor. Si este valor es
igual, por ejemplo, a la canasta básica de consumo, entonces el porcentaje de la población
que gane menos de este valor será considerada “por debajo de la línea de pobreza”, como
un ejemplo de cómo se mide este indicador económico. Los valores porcentuales derivados
de la mediana que se ubican entre 0 y 100 se denominan en forma genérica percentiles. En
este sentido podemos decir, por ejemplo, que el primer cuartil corresponde al percentil 25, y
la mediana corresponde al percentil 50.
Moda
La moda es el valor que aparece más frecuentemente en un conjunto de datos. Se obtiene
a partir de un simple conteo de los datos, calculando cuál valor aparece más veces. Es
importante tener en cuenta que esta medida puede servir tanto para variables cuantitativas
como cuantitativas. En el caso en el que se calcule la moda para variables cuantitativas, es
más práctico trabajar con valores enteros, ya que en este caso habrá más valores que
posiblemente se repiten, y en ese caso tiene más sentido saber cuál es el más frecuente.

Varianza
Las medidas anteriores sirven para “ubicar” los datos. Conociendo los valores de media,
mediana y moda, podemos obtener un buen resumen acerca de la posición de los datos.
Por otra parte, una vez que se conoce la ubicación de una variable, es también conveniente
saber cómo es su forma. Consideraremos en este sentido a dos tipos de formas: datos
homogéneos y heterogéneos. Si los datos son más homogéneos, significa que están
agrupados en general más cerca de la media. En cambio, si los datos son heterogéneos,
significa que en general están lejos de la media. Mostramos un par de ejemplos en las dos
figuras siguientes.
Una medida estadística que funciona muy bien a este efecto es la varianza. Consiste en
medir las distancias de todos los datos hasta la media, elevar cada distancia al cuadrado,
realizar la suma y dividir por la cantidad de datos menos dos unidades. En fórmula:

El número n representa la cantidad de valores. El número i representa un índice que va


desde 1 hasta n. La varianza se representa con s2. No vamos a tener que utilizar esta
fórmula “a mano” para poder entender cómo funciona la varianza, pero sí es bueno pensar
este número de la siguiente manera: es una especie de promedio de las distancias de los
datos con respecto a la media de la muestra. Es decir, cuanto más alejados estén los datos
de la media, las distancias serán mayores y por lo tanto la varianza será más grande. Por
otra parte, si los datos están muy cerca de la media, sus distancias serán menores y el valor
de la varianza será más pequeño.

Desvío estándar
La varianza tiene un problema: dado que su fórmula involucra una operación de elevar al
cuadrado, su resultado estará expresado en unidades al cuadrado. Por ejemplo si estamos
midiendo alturas en centímetros, la varianza estará dada en centímetros al cuadrado, lo cual
no tiene mucho sentido si queremos interpretar el valor con respecto a los datos. Para esto,
simplemente se aplica la raíz cuadrada sobre la varianza y se obtiene un valor en las
unidades de la variable. A este nuevo valor se le denomina desvío estándar y se simboliza
con la letra s. En fórmula:

Para el caso anterior de la medición de alturas en centímetros, el desvío estándar estará


también expresado en centímetros, y dará una idea de cuánto están alejados los datos, en
promedio, de la media de la muestra.

Variables cualitativas
En el caso de las variables cualitativas, tal como mencionamos anteriormente, los cálculos
que tienen sentido son aquellos relacionados al conteo de las observaciones y su
categorización. De acuerdo a lo visto, entonces, nos interesan entre otras las medidas que
se enuncian a continuación.

- El conteo del total de datos (valor de n).


- El conteo de los datos por categoría, esto es, para cada valor posible de la variable,
la cantidad de observaciones.
- El valor más frecuente, es decir el que tiene más observaciones. Esto es el cálculo
de la moda, tal como vimos anteriormente.

Distribuciones de variables

Introducción
Entrando un poco más a fondo en el lenguaje estadístico, veremos que si las variables
cuantitativas tienen una posición y una forma, entonces cada una de ellas puede
compararse y/o diferenciarse de otras variables con distintas posiciones y/o formas.
Decimos entonces que cada variable tiene una distribución diferente.

Una forma de pensar la distribución como concepto es la siguiente. Pongamos sobre una
recta todos los valores posibles de la variable, a la que llamaremos con la letra x. Ahora
grafiquemos un punto por cada valor que ocurre en nuestros datos, apilándolos cuando hay
más de un valor que se repite. De esta forma, la altura de cada pila de puntos representa la
cantidad de observaciones para cada valor.

Tal como mencionamos cuando hablábamos de la moda, no es práctico medir la frecuencia


de aparición de los datos cuando los valores no son enteros. No obstante esto, es posible
construir pequeños intervalos que separen los números en rangos consecutivos. De esta
forma podemos considerar cada intervalo como un “valor” con entidad propia, y de esta
forma podemos tener una idea más fiel acerca de la forma de los datos. De esta manera
graficamos la distribución de los datos en un gráfico denominado histograma. Los
histogramas son muy convenientes para visualizar rápidamente la posición y dispersión de
los datos.

De acuerdo a las formas de las distribuciones podemos realizar suposiciones que nos
ayudan a entender mejor los datos. Una característica a tener en cuenta al analizar
distribuciones es si son simétricas o asimétricas. El histograma de la primera figura a
continuación muestra una distribución simétrica mientras que la distribución de la segunda
figura muestra una distribución asimétrica a la izquierda, como podría suceder con los
salarios de una población: muchas personas con bajos salarios y pocas personas con
salarios altos.
Existen muchas distribuciones con nombre propio, que tienen aplicaciones particulares en
las múltiples áreas de la estadística aplicada y el Data Science. Dos distribuciones muy
importantes son la distribución uniforme y la distribución normal. Veremos estas
distribuciones a continuación.

La distribución uniforme
El planteo de las distribuciones parte de una idea de una forma “perfecta” teórica, a la cual
se ajustan los datos en mayor o menor grado. Si todos los valores posibles aparecen
aproximadamente la misma cantidad de veces, hablaremos de una distribución uniforme. Es
útil tener en cuenta que si generamos números al azar, sería conveniente que siguieran esta
distribución, porque ello nos garantizaría que cada número tenga la misma probabilidad de
aparición. Las funciones de generación de números aleatorios (random) que tienen las
calculadoras y las planillas de cálculo siguen esta distribución. En la figura podemos
observar un histograma de datos con la forma de una distribución uniforme.
La distribución normal

Muchos procesos y variables del mundo real siguen una distribución con una forma
particular denominada distribución normal. Esta distribución está formada por puntos que se
agrupan de manera simétrica en torno a un valor promedio, y cuya varianza se aleja no más
de una determinada distancia del promedio. A continuación se muestra un histograma con
datos agrupados de acuerdo a una distribución normal.

Estos valores y características están profundamente estudiados y desarrollados en el


campo de la estadística. La importancia de la distribución normal radica en su aparición en
múltiples campos del mundo real. Si logramos verificar que la distribución de los datos es
aproximadamente normal, entonces podemos echar mano de sus propiedades y ahorrar
muchas suposiciones acerca del comportamiento de los datos.
Como idea general sobre la distribución normal tengamos en cuenta las siguientes
propiedades muy útiles que se cumplen cuando los datos presentan dicha distribución.

- Los datos normales son simétricos con respecto al promedio


- La media, mediana y moda tienen aproximadamente el mismo valor.
- Se cumple generalmente la llamada “regla empírica” a partir de la cual:
- El 68 % de los datos está alejado a una distancia de aproximadamente 1
desvío estándar del promedio
- El 95 % de los datos está alejado a una distancia de aproximadamente 2
desvíos estándar del promedio
- El 99,7 % de los datos está alejado a una distancia de aproximadamente 3
desvíos estándar del promedio.
Con esto, cualquier dato que esté más allá de 3 veces el valor del desvío
estándar alejado del promedio puede considerarse un valor extremo o
atípico. Veremos los valores extremos más adelante.
BI – Inteligencia de Negocios

Índice
ÍNDICE ................................................................................................................................................................... 1
RESUMEN.............................................................................................................................................................. 2
INTRODUCCIÓN ................................................................................................................................................. 4
DATOS OPERACIONALES Y DATOS INFORMATIVOS ............................................................................. 5
DATA WAREHOUSE ........................................................................................................................................... 6
SISTEMAS DE SOPORTE DE DECISIONES ................................................................................................... 7
INTELIGENCIA DE NEGOCIOS ....................................................................................................................... 7
PROBLEMAS QUE DAN ORIGEN A UN DATA WAREHOUSE .................................................................. 8
BENEFICIOS ASOCIADOS AL DATA WAREHOUSE .................................................................................. 9
ARQUITECTURA DATA WAREHOUSE ....................................................................................................... 11
Extracción (Extraction) ...................................................................................... 12
Transformación (Transformation) ......................................................................... 12
Carga (Loading) ............................................................................................... 13
Data Mart ....................................................................................................... 13
MODELADO DE DATOS .................................................................................................................................. 16
EL MODELO RELACIONAL .............................................................................................. 16
EL MODELO DIMENSIONAL ............................................................................................. 17
Ventajas del modelo dimensional .......................................................................... 21
OLAP (ON LINE ANALYTICAL PROCESSING) .......................................................................................... 23
DRILL DOWN Y ROLL UP .............................................................................................. 24
SLICE Y DICE ......................................................................................................... 24
DATA MINING (MINERÍA DE DATOS) ......................................................................................................... 27
CICLO DE VIDA ................................................................................................................................................. 28
PLANIFICACIÓN DEL PROYECTO ....................................................................................... 28
DEFINICIÓN DE REQUERIMIENTOS DE NEGOCIO ........................................................................ 31
PISTA DE TECNOLOGÍA ................................................................................................ 33
Diseño de la Arquitectura Técnica ......................................................................... 33
Selección e Instalación del Producto ...................................................................... 33
PISTA DE DATOS ...................................................................................................... 34
Modelado Dimensional ....................................................................................... 34
Diseño Físico ................................................................................................... 37
Diseño ETL ...................................................................................................... 37
PISTA DE APLICACIÓN ANALÍTICA ..................................................................................... 37
Especificación de Aplicación Analítica .................................................................... 37
Desarrollo de Aplicación Analítica ........................................................................ 37
IMPLEMENTACIÓN ..................................................................................................... 37
MANTENIMIENTO Y CRECIMIENTO ..................................................................................... 37
HERRAMIENTA OLAP - O3 ............................................................................................................................ 39

1
BI – Inteligencia de Negocios
Resumen

En la actualidad, el dinámico mundo de los negocios plantea la necesidad de disponer de


un acceso rápido y sencillo a información para la toma de decisiones. Dicha información debe
estar estructurada y elaborada de acuerdo a parámetros de calidad, a fin de posibilitar una
adaptación ágil y precisa a las fluctuaciones del ambiente externo.
Las empresas disponen, para la gestión de sus procesos de negocio, de sistemas
transaccionales corporativos que manejan enormes cantidades de datos, organizados de forma
tal que puedan ser utilizados por las aplicaciones operacionales existentes. Los niveles
gerenciales necesitan a menudo tomar decisiones de alto nivel, cruciales para el
funcionamiento de la empresa. Frecuentemente se basan en su experiencia, utilizando un
enfoque subjetivo del proceso decisorio. Este enfoque no es apto para las condiciones del
mundo actual en el que los sistemas de gestión de calidad vigentes han demostrado la
importancia de la toma de decisiones basada en cifras, datos y hechos.
El Data Warehouse permite que los gerentes tomen decisiones siguiendo un enfoque
racional, basados en información confiable y oportuna. Consiste básicamente en la
transformación de los datos operacionales en información útil para decidir. El uso del Data
Warehouse permite también encontrar relaciones ocultas entre los datos y predecir el
comportamiento futuro bajo condiciones dadas.
La filosofía de trabajo del Data Warehouse es diferente a la de los sistemas
transaccionales. Se modelan los datos a partir de dimensiones, en lugar del tradicional
modelado relacional, y las herramientas de acceso a los datos se basan en una tecnología de
procesamiento analítico, distinta al procesamiento transaccional de los sistemas operacionales.
Los datos operacionales que sirven de entrada al Data Warehouse generalmente están
dispersos en distintos sistemas de la organización, desarrollados en diferentes entornos de
desarrollo, por diferentes personas y en diferentes momentos. Es tarea fundamental del Data
Warehouse recolectarlos, unificarlos y depurarlos según las necesidades del negocio,
eliminando inconsistencias y conservando sólo la información útil para los objetivos
empresariales. Esto se lleva a cabo mediante procesos que se ejecutan periódicamente y
conducen a mantener la información actualizada.
Los datos dentro de un ambiente Data Warehouse pueden organizarse en un Data
Warehouse corporativo, o dividirse por área o sector departamental, almacenándose en Data
Marts, que son similares a una versión reducida de un Data Warehouse. Otra de las
características particulares de un Data Warehouse es la importancia que presentan los
metadatos, o datos acerca de los datos, considerados en todas las etapas de su desarrollo.

2
BI – Inteligencia de Negocios
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la
posibilidad de ver la información a diferentes niveles de agregación (detallados o resumidos) y
filtrar las consultas por distintas variables (“rebanar” y “picar” la información).
Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para
encontrar relaciones entre los datos a fin de comprender las causas de variabilidad presentes y
realizar pronósticos con el apoyo de modelos estadísticos.
En la sociedad actual, la información constituye un activo esencial de cualquier
organización, proporcionando beneficios significativos, tangibles y cuantificables. Como
consecuencia, la integración de un Data Warehouse a la empresa representa una ventaja
competitiva en el mundo de los negocios.

3
BI – Inteligencia de Negocios
Introducción

Los continuos cambios en los mercados crearán, y de hecho ya están creando, nuevas
oportunidades de negocio, así como una competencia implacable. A medida que esta pugna se
intensifica, las empresas se enfrentan con la necesidad de reducir los costos, añadir valor a sus
productos y servicios y asegurar la diferenciación como señal de identidad. En un mercado en
el que el cliente puede escoger entre distintas empresas, la inteligencia de negocios se
convierte en una función estratégica para la retención e incremento del segmento de mercado
de la empresa.
Todos estos cambios exigen de las empresas una infraestructura receptiva y flexible, en
una palabra: ágil. Ágil en su enfoque del mercado, en la manera en que responde a sus
clientes y en la puesta en marcha de los nuevos servicios o el desarrollo de los nuevos
productos. El desafío no es ser el más grande, sino el más ágil en adaptarse al cambio.
Hacer accesible la información de ayuda a la toma de decisiones, de manera instantánea a
los responsables de la gestión de la empresa, constituye en definitiva el objetivo intrínseco del
Data Warehouse. Cuando se construye adecuadamente el Data Warehouse, en unión con un
conjunto adecuado de aplicaciones de ayuda a la toma de decisiones, proporciona de manera
natural un mejor conocimiento de la rentabilidad y la orientación adecuada al esfuerzo de los
objetivos empresariales.
El material básico necesario (los datos operacionales) para el desarrollo de un Data
Warehouse corporativo es abundante. La información sobre los clientes y los productos, por
ejemplo, son a la vez recursos disponibles, profusos e infrautilizados. Por ende, los datos
operacionales por sí solos no generan información significativa y conocimiento, a menos que
los objetivos empresariales de la compañía y la tecnología de la información estén alineados.
Para que la tecnología se convierta en un elemento que facilite la creación de nuevas
estrategias, debe primero integrarse en las funciones de negocio de la empresa. El futuro éxito
o fracaso de las compañías dependerá en gran medida del conocimiento de la propia empresa,
el cual a su vez se basará en la construcción exitosa de herramientas como el Data
Warehouse.
Dada la gran importancia del Data Warehouse para el crecimiento de la empresa, se hace
necesario conocer los conceptos relacionados a su filosofía de trabajo, a su proceso y la forma
de utilizarlo. En este trabajo expondremos las características principales, su estructura y su
funcionamiento, así como los resultados que puede esperar el usuario final al interactuar con
las aplicaciones que utilizan esa herramienta. Para ello, junto con el desarrollo teórico hemos
tomado un caso práctico de aplicación que permitirá ver la implementación de la tecnología de
Data Warehouse. Este caso se describe a continuación.

4
BI – Inteligencia de Negocios
Datos operacionales y datos informativos

El proceso automatizado de un negocio utiliza datos operacionales, los que constituyen el


conjunto de registros de las transacciones del negocio. Estos datos son creados durante la
ejecución de estos procesos y son almacenados en un archivo o en una base de datos.
Frecuentemente contienen valores incorrectos, son muy detallados y son de mínimo uso en los
negocios debido a su gran volumen, ubicación y formatos. En conclusión, es difícil para los
usuarios del negocio tener acceso a los datos operacionales debido a las limitaciones de
performance y tecnología.
Lo que el usuario del negocio necesita como entrada a sus actividades de análisis son
datos informativos. Estos son una combinación de datos operacionales que han sido
modificados, depurados, transformados, consolidados y organizados desde diversas fuentes
externas al proceso del negocio. Este tipo de información generalmente es específico para un
conjunto de usuarios del negocio que lo hacen significante y útil para su análisis.
Ambos tipos de datos y ambos tipos de uso son muy importantes, pero es difícil cumplir con
ambos propósitos en el mismo sistema.
Los datos operacionales son específicos para cada aplicación y usualmente son
almacenados de manera separada por otras aplicaciones. Estos datos son útiles en la medida
en que se aprovechen para satisfacer el proceso de las aplicaciones predefinidas. Mayormente
se requieren sólo datos actuales y estos deben ser mantenidos al día haciendo actualizaciones
frecuentes en la base de datos. En cambio, para los datos informativos, el usuario necesita
datos que crucen por varias aplicaciones, que estén reorganizados por temas de negocio, que
contengan valores históricos, que se encuentren disponible para análisis durante períodos
largos y que sea accesible de manera fácil y flexible.
Los datos operacionales son manejados, precisamente, por los sistemas operacionales o
transaccionales (On Line Transactional Processing, OLTP), los cuales se concentran en la
administración y la medición de indicadores empresariales (capital e inversión), indicadores
financieros (márgenes de utilidades, rotación de inventarios), indicadores de ventas
(identificación de clientes persistentes), etc.
Por su parte, los datos informativos son los que conforman un Data Warehouse, el cual
tiene como fin comprender, medir y administrar parámetros empresariales estratégicos, como el
crecimiento del ingreso y rentabilidad, la participación del mercado y los segmentos del cliente.
En el siguiente cuadro se muestran las diferencias entre los datos operacionales y los datos
informativos.

5
BI – Inteligencia de Negocios
Datos Operacionales Datos Informativos
 Orientados a una aplicación  Orientados a un tema
 Integración limitada  Integrados
 Constantemente actualizados  No volátiles
 Sólo valores actuales  Valores a lo largo del tiempo
 Soportan operaciones diarias  Soportan decisiones de administración

Data Warehouse

Un Data Warehouse es un conjunto de datos integrados orientados a una materia, que


varían con el tiempo y que no son transitorios, los cuales soportan el proceso de toma de
decisiones de una organización.
A continuación describiremos las características distintivas de un Data Warehouse, las
cuales nos ayudarán a comprender mejor su concepto.
 Integra y asocia información de muchas fuentes de información. Debido a que las
organizaciones han administrado históricamente sus operaciones utilizando numerosas
aplicaciones de software y múltiples bases de datos (datos operacionales), se requiere
de Data Warehouse para recopilar y organizar en un solo lugar (datos informativos) la
información que estas aplicaciones han acumulado al paso de los años.
 Está orientado a una materia. Muchos sistemas operativos organizan sus datos desde
la perspectiva de la aplicación, de modo que el acceso de la aplicación a los datos
tenga la mayor eficiencia posible. Con frecuencia, la información que está organizada
para que una aplicación del negocio la recupere y actualice con facilidad no está
organizada necesariamente de modo que un analista con herramientas gráficas
inteligentes de consulta pueda formular las preguntas empresariales correctas. Esto se
debe al enfoque del diseño de la base de datos. El Data Warehouse resuelve este
problema organizando y orientando los datos a una materia desde la perspectiva del
usuario final.
 Administra grandes cantidades de información. La mayoría de los Data Warehouse
contienen información histórica que se retira con frecuencia de los sistemas
operacionales porque ya no es necesaria para las aplicaciones operativas y de
producción. Por el volumen de información que un Data Warehouse debe manejar,
también debe ofrecer opciones para la adición y la condensación que clasifiquen esta
inmensa cantidad de datos, es decir, un Data Warehouse maneja información a
diferentes niveles de detalle. Por lo tanto, el volumen de los datos que debe almacenar
es generalmente mayor al de los datos de las bases de datos operacionales.

6
BI – Inteligencia de Negocios
 Gestiona múltiples versiones de un esquema de base de datos. Debido a que el Data
Warehouse tiene que guardar la información histórica y administrarla, y como esta
información histórica ha sido manejada en distintos momentos por diferentes versiones
de esquemas de bases de datos, en ocasiones el Data Warehouse tiene que controlar
información originada en organizaciones de bases de datos diferentes.
 Condensa y agrega información. Con frecuencia, es muy alto el nivel de detalle de la
información almacenada por bases de datos operacionales para cualquier toma de
decisiones sensata. Un Data Warehouse condensa y agrega información para
presentarla en forma comprensible a los usuarios finales.

Sistemas de Soporte de Decisiones

En el proceso de tomar decisiones hay dos partes en general: tener los datos y obtener
respuestas de los datos.
Un Sistema de Soporte de Decisiones (SSD) puede ser definido de una manera general
como un sistema de computación diseñado para apoyar al proceso de toma de decisiones (de
planeamiento, de administración y operacionales) en un negocio.
Este tipo de Sistema contiene todos los servicios o procesos para elegir, manipular y
analizar datos informativos y presentar los resultados. Debería brindar acceso transparente a
los datos en varias partes del Data Warehouse y proveer de interfaces comunes a un grupo de
usuarios de la organización. Fundamentalmente, un Sistema de Soporte de Decisiones
constituye la ventana del usuario a los datos informativos almacenados en el Data Warehouse.

Inteligencia de Negocios

La Inteligencia de Negocios (Business Intelligence, BI) es una disciplina que combina


consultas, servicios, aplicaciones y tecnologías para obtener, administrar, analizar y
transformar datos en información útil para desarrollar el entendimiento necesario para tomar
decisiones adecuadas.
Esta definición se basa en el concepto de Inteligencia, que consiste en la aplicación de la
información, habilidades, experiencias y razonamiento para resolver un problema de negocios.
Las actividades primarias consisten en obtener, preparar y analizar datos. El resultado de
combinar Data Warehouse con Sistemas de Soporte de Decisiones es la Inteligencia de
Negocios.
Los datos por sí solos deben ser de alta calidad, por lo que se necesita un proceso para
alcanzar ese nivel. La información almacenada en el Data Warehouse tiene que estar

7
BI – Inteligencia de Negocios
disponible para los usuarios, de aquí la necesidad de un Sistema de Soporte de Decisiones
para el acceso a esa información.
Los datos y la información que están en un Data Warehouse deben ser administrados con
cuidado, ya que son el material básico para obtener el conocimiento. Los Sistemas de Soporte
de Decisiones proveen la facilidad para que los usuarios de los procesos puedan obtener y
procesar ese material básico para adquirir el conocimiento que necesitan para desarrollar las
estrategias de negocio adecuadas.
El Data Warehouse contiene hechos históricos y datos derivados que son analizados con
un Sistema de Soporte de Decisiones para entender lo que sucedió en el pasado y lo que
ocasionó las condiciones actuales. Estos datos son también analizados de diferentes formas
para desarrollar una visión de lo que podría ocurrir en el futuro si se toman ciertas decisiones.
Después de la extracción y análisis de datos, los resultados combinados pueden ser
presentados utilizando herramientas de Soporte de Decisiones, de una manera que facilite el
entendimiento de la información, lo cual puede llevar a decisiones mejor respaldadas.
La meta es utilizar el Sistema de Inteligencia de Negocios para entender el pasado en
orden de optimizar las condiciones del negocio en el futuro.
Por todo lo expresado, podemos definir a la Inteligencia de Negocios como el proceso de
convertir datos en conocimiento y conocimiento en acción para el beneficio del negocio.

Problemas que dan origen a un Data Warehouse

Los Data Warehouse surgen por los siguientes problemas:


 Falta de integración de la información. Muchos de los datos de que disponen las
empresas se encuentra en diversos almacenes de datos porque han evolucionado
como sistemas independientes, en diferentes lenguajes, desarrollados por diferentes
personas y en diferentes momentos. Estos almacenes de datos son incapaces de
ofrecer a la empresa una visión consolidada ya que no poseen vinculación entre ellos.
 Sobrecarga de información. En las últimas décadas, los sistemas operacionales han
producido una gran cantidad de datos, los que son difíciles de analizar para tomar
decisiones de negocio. A pesar de las grandes sumas invertidas en tecnología de la
información, los distintos departamentos dentro de las empresas todavía carecen de
herramientas para explorar esos datos de una manera ágil y eficaz.
 Exceso de información genérica y despersonalizada. Por lo general, los informes
producidos por un sistema operacional contienen una gran cantidad de datos. Sin
embargo, ofrecen muy poca información que ayude a la toma de decisiones. Estos
informes no tienen la capacidad de adaptarse a las necesidades actuales de los

8
BI – Inteligencia de Negocios
usuarios, y carecen de información personalizada y/o relevante para los distintos
perfiles que existen en un negocio.
 Falta de retroalimentación oportuna para la mejora de los negocios. En las
organizaciones, los ejecutivos trabajan haciéndose preguntas e imaginando posibles
situaciones futuras. Los resultados obtenidos de esa labor generarán a su vez más
preguntas y el planteo de nuevas situaciones repitiendo el ciclo hasta conseguir los
fundamentos para tomar una decisión. Con el uso de los sistemas operacionales, este
proceso se hace dificultoso, sino imposible, al no tener posibilidad de generar informes
adaptados a las necesidades del momento.

Beneficios Asociados al Data Warehouse

Un Data Warehouse puede dar lugar a una serie de importantes beneficios para la
organización. En cualquier caso, su utilización permitirá que la información de gestión sea:
accesible, correcta, uniforme y actualizada.
Estas características asociadas a la información contenida en un Data Warehouse, junto
con otra serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto de
ventajas, que podemos resumir del siguiente modo:
 Menor costo en la toma de decisiones. Se suprime el desperdicio de tiempo que se
podía producir al intentar ejecutar consultas de datos largas y complejas con bases de
datos que estaban diseñadas específicamente para transacciones más cortas y
sencillas.
 Posibilidad de encontrar relaciones ocultas. Facilita la aplicación de técnicas
estadísticas de análisis y modelización para encontrar relaciones ocultas entre los
datos, obteniendo un valor añadido para el negocio.
 Aprendizaje del pasado. Proporciona la capacidad de aprender de los datos del pasado
y de predecir situaciones futuras en diversos escenarios.
 Mayor flexibilidad ante el entorno. El Data Warehouse convierte los datos operacionales
en información relacionada y estructurada, que genera el conocimiento necesario para
la toma de decisiones. Esto permite establecer una base única del modelo de
información de la organización, que puede dar lugar a una visión global de la
información en base a los conceptos de negocio que tratan los usuarios. Además,
aporta una mejor calidad y flexibilidad en el análisis del mercado, y del entorno en
general.

9
BI – Inteligencia de Negocios
Esta visión global puede conllevar también la obtención de otras ventajas competitivas, al
permitir el desempeño de tareas que en los sistemas tradicionales sufrirían un costo adicional,
por ejemplo:
 Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante mejora en
la calidad de gestión, lo que también repercute en la relación con el cliente. De hecho, el
que un Data Warehouse implique una mayor flexibilidad ante el entorno tiene una
consecuencia directa en una mayor capacidad para responder a las necesidades de los
clientes.
 Rediseño de procesos. Ofrecer a los usuarios una capacidad de análisis de la
información de su negocio que tiende a ser ilimitada y permite con frecuencia obtener
una visión más profunda y clara de los procesos de negocio propiamente dichos, lo que
a su vez permite obtener ideas renovadoras para el rediseño de los mismos.

10
BI – Inteligencia de Negocios
Arquitectura Data Warehouse

Poder transformar los datos en conocimiento es un proceso complejo. Un Data Warehouse


es mucho más que simplemente copiar datos de un lugar a otro, de los sistemas operacionales
a una base de datos informativa independiente. Un Data Warehouse es, en primer lugar, una
arquitectura que debe servir como infraestructura para proporcionar una solución completa a
los problemas anteriormente mencionados. La arquitectura de un Data Warehouse se
representa en la Figura 4.

Fuentes de datos

Este componente es el que normalmente está presente originariamente en las


organizaciones, y a partir del cual se realiza la captura de datos que se contemplará en el Data
Warehouse. Estas fuentes de datos pueden ser sistemas operacionales corporativos
(representan el entorno del que se obtienen la mayor parte de los datos significativos de la
operativa diaria de la compañía), sistemas operacionales departamentales y fuentes externas
como copias de respaldo, planillas de cálculo, archivos planos, reportes de la empresa,
resultados de investigaciones de mercado, etc.

Figura 4 – Componentes de la arquitectura Data Warehouse.

11
BI – Inteligencia de Negocios
Extracción, transformación y carga (ETL)

Para poblar el Data Warehouse se deben mover bloques de datos, muchas veces desde
diferentes sistemas operativos, estructuras de archivos y bases de datos, mediante procesos
programados que se ejecutan frecuentemente fuera del horario de trabajo para no insumir
tiempo de procesamiento del hardware de la empresa, entorpeciendo la operatoria de la
misma.
Los subsistemas para poblar el Data Warehouse se pueden construir utilizando
herramientas y productos disponibles en el mercado, programas y procesos codificados desde
cero, o combinaciones de estos elementos.
Al construir los sistemas para poblar el Data Warehouse, se debe considerar la posibilidad
de que estos permitan regular el crecimiento evolutivo del Data Warehouse, brindando
escalabilidad y soporte para grandes cantidades de datos y consultas complejas. Se pueden
encontrar dificultades adicionales dependiendo de las fuentes de datos que se tengan
disponibles, que implican el uso de diferentes herramientas y tecnologías para acceder a cada
uno de ellos.

Extracción (Extraction)

El propósito principal de la fase de extracción es capturar y copiar los datos requeridos de


uno o más sistemas operacionales o fuentes de datos. Los datos que se extraen son colocados
en un archivo intermedio con un formato definido, que luego será utilizado por la siguiente fase
del proceso.
Los registros que sean rechazados en el proceso deben ser registrados en un archivo o log
de rechazos para que puedan ser analizados posteriormente y así tener la posibilidad de
cargarlos en el Data Warehouse correctamente. Además, esto permite descubrir los errores
que han ocurrido en los procesos de creación de los datos operacionales. Ejemplos de estos
errores son violaciones de integridad, claves duplicadas, formatos de datos incorrectos y datos
inválidos como campos vacíos, fechas futuras e importes negativos cuando estos no
correspondan. En nuestro Caso: números telefónicos inválidos, estándares no respetados,
llamadas duplicadas y campos nulos.
Hay que tener en cuenta que después de la fase inicial de carga del Data Warehouse sólo
es necesario cargar los datos nuevos y que han sido modificados.

Transformación (Transformation)

Las funciones básicas a ser realizadas en esta fase consisten en leer los archivos
intermedios generados por la fase de extracción, realizar las transformaciones necesarias,
construir los registros en el formato del Data Warehouse y crear un archivo de salida

12
BI – Inteligencia de Negocios
conteniendo todos los registros nuevos a ser cargados en el Data Warehouse. La mayor parte
del trabajo en esta fase involucra el efectuar las transformaciones necesarias. Estas
transformaciones incluyen:
 Combinar campos múltiples de nombres y apellidos en un solo campo.
 Fusionar campos o datos homónimos.
 Separar un campo de fecha en campos de año, mes y día.
 Cambiar la representación de los datos, como TRUE (verdadero) a 1, y FALSE (falso) a
0, o códigos postales numéricos a alfanuméricos, respetando los estándares de la
empresa.
 Cambiar un dato que tiene múltiples representaciones a una sola representación, como
por ejemplo definir un formato común para números telefónicos, o establecer un término
común para los nombres de los campos o los valores de los datos que sean sinónimos.

Carga (Loading)

El objetivo de esta fase consiste en tomar los registros formateados por la fase de
transformación y cargarlos en el Data Warehouse, que es el contenedor para todos los datos
informativos (actuales e históricos) requeridos por las operaciones del Data Warehouse.
Generalmente los datos son insertados en el Data Warehouse, rara vez son actualizados o
eliminados.

Ambiente Data Warehouse

Es el bloque donde se almacenan los datos informativos, utilizado principalmente para usos
estratégicos. No obstante, existen herramientas que no hacen uso de este bloque, realizando
las consultas multidimensionales directamente sobre la base operacional. En este caso se
puede pensar en el Data Warehouse simplemente como una vista lógica o virtual de datos.

Data Mart
Un Data Mart es una implementación de un Data Warehouse con un determinado alcance
de información y un soporte limitado para procesos analíticos, que sirve a un sólo
departamento de una organización o para el análisis de problemas de un tema particular.
El Data Mart es un subconjunto de información corporativa con formato adicional a la
medida de un usuario específico del negocio. Un Data Mart será siempre menor en complejidad
y alcance de los datos. Un Data Warehouse tiene más usuarios y más temas que un Data Mart,
brindando una vista más amplia entre múltiples áreas.
Existen dos grandes filosofías con respecto a la relación entre los conceptos de Data
Warehouse y Data Mart.

13
BI – Inteligencia de Negocios
Bill Inmon, quien es considerado el padre del Data Warehouse, propuso la idea de que los
Data Marts se sirven del Data Warehouse para extraer información. La misma está almacenada
en tercera forma normal, en un modelo relacional.
Por su parte, Ralph Kimball, el principal propulsor del enfoque dimensional para el diseño
del Data Warehouse, sostiene que el Data Warehouse es el resultado de la unión de los Data
Marts de la empresa.

Herramientas de acceso y uso

Sin las herramientas adecuadas de acceso y análisis el Data Warehouse se puede convertir
en una mezcla de datos sin ninguna utilidad. Es necesario poseer técnicas que capturen los
datos importantes de manera rápida y puedan ser analizados desde diferentes puntos de vista.
También deben transformar los datos capturados en información útil para el negocio.
Actualmente a este tipo de herramientas se las conocen como Herramientas de Inteligencia de
Negocio (Business Intelligence Tools, BIT) y están situadas conceptualmente sobre el Data
Warehouse. Cada usuario final debe seleccionar la herramienta que mejor se ajusta a sus
necesidades y a su Data Warehouse. Entre ellas podemos citar las Consultas SQL (Structured
Query Language), las Herramientas MDA (Multidimensional Analysis), OLAP (On-Line
Analytical Processing) y las herramientas Data Mining.
Este bloque también incluye el hardware y software involucrados en mostrar la información
en pantalla y emitir reportes de impresión, hojas de cálculo, gráficos y diagramas para el
análisis y presentación.

Metadatos

Los metadatos son datos acerca de los datos. En una base de datos los metadatos son la
representación de los diversos objetos que definen una base de datos, por ejemplo, ubicación y
descripción de base de datos, tablas, nombres y resúmenes. También podemos mencionar las
descripciones lógicas y físicas de tablas, columnas y atributos.
Uno de los problemas con el que pueden encontrarse los usuarios de un Data Warehouse
es saber lo que hay en él y cómo pueden acceder a lo que quieren. A fin de proveer el acceso
a los datos universales, es absolutamente necesario mantener los metadatos. Un componente
llamado repositorio les ayuda a conseguirlo. Los metadatos son sólo una de las utilidades del
repositorio, pero éste tiene muchas funcionalidades: catalogar y describir la información
disponible, especificar el propósito de la misma, indicar las relaciones entre los distintos datos,
establecer quién es el propietario de la información, relacionar las estructuras técnicas de datos

14
BI – Inteligencia de Negocios
con la información de negocio, establecer las relaciones con los datos operacionales y las
reglas de transformación, y limitar la validez de la información.

Metadato para Entidad


Nombre Cliente
Nombre alterno Cuenta
Definición Un cliente es una persona o empresa que ha
comprado a la corporación bienes o servicios por lo
menos en una ocasión
Fecha creación 15 de enero de 2000
Fecha última actualización 01/03/2005
Claves Identificación del cliente
Ciclo de actualizac. Extraído cada mes
Patrones de acceso Fecha de último acceso 20/03/2010

Metadato para Atributo


Nombre Nombre de cliente
Nombre alterno Nombre de cuenta
Definición Es el nombre oficial que usa la persona o empresa
cliente
Fecha creación 15 de enero de 2000
Fecha última actualización 01/03/2010
Clave N
Fuente de dato Sistema de ingreso de pedidos. El atributo proviene
de la tabla clientes y se denomina nom_cuenta

Inf. de transf./ conversión 30 caracteres


Algoritmo de resumen Ninguno
/derivación
Valor predeterminado Ninguno
Fuentes operacionales No
múltiples

15

También podría gustarte