Apuntes BI
Apuntes BI
Apuntes BI
Resumen
Hoy en día, la minería de datos (MD) está consiguiendo cada vez más captar la atención de las empresas. Todavía es
infrecuente oír frases como “deberíamos segmentar a nuestros clientes utilizando herramientas de MD”, “la MD
incrementará la satisfacción del cliente”, o “la competencia está utilizando MD para ganar cuota de mercado”. Sin
embargo, todo apunta a que más temprano que tarde la minería de datos será usada por la sociedad, al menos con el
mismo peso que actualmente tiene la Estadística. Así que ¿qué es la minería de datos y qué beneficios aporta?
¿Cómo puede influir esta tecnología en la resolución de los problemas diarios de las empresas y la sociedad en
general? ¿Qué tecnologías están detrás de la minería de datos? ¿Cuál es el ciclo de vida de un proyecto típico de
minería de datos? En este artículo, se intantarán aclarar estas cuestiones mediante una introducción a la minería de
datos: definición, ejemplificar problemas que se pueden resolver con minería de datos, las tareas de la minería de
datos, técnicas usadas y finalmente retos y tendencias en minería de datos.
1. Introducción
Hoy en día, los datos no están restringidos a tuplas
La revolución digital ha hecho posible que la representadas únicamente con números o caracteres.
información digitalizada sea fácil de capturar, El avance de la tecnología para la gestión de bases
procesar, almacenar, distribuir, y transmitir [10]. de datos hace posible integrar diferentes tipos de
Con el importante progreso en informática y en las datos, tales como imagen, video, texto, y otros datos
tecnologías relacionadas y la expansión de su uso en numéricos, en una base de datos sencilla, facilitando
diferentes aspectos de la vida, se continúa el procesamiento multimedia. Como resultado, la
recogiendo y almacenando en bases de datos gran mezcla tradicional ad hoc de técnicas estadísticas y
cantidad de info rmación. herramientas de gestión de datos no son adecuadas
por más tiempo para analizar esta vasta colección de
Descubrir conocimiento de este enorme volumen de datos desiguales.
datos es un reto en sí mismo. La minería de datos
(MD) es un intento de buscarle sentido a la La tecnología de Internet actual y su creciente
explosión de información que actualmente puede ser demanda necesita el desarrollo de tecnologías de
almacenada [10]. minería de datos más avanzadas para interpretar la
Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. No.29 (2006), pp. 11-18.
ISSN: 1137-3601. © AEPIA (http://www.aepia.org).
12 Inteligencia Artificial Vol. 10 No 29 (2006)
concreta en mente. Sobrepasar este límite será un coeficientes y si usamos los k-vecinos más cercanos
reto a conseguir. necesitamos fijar una métrica y k, etc.
Esta fase de aprendizaje ajusta el modelo buscando
Señalemos por último que existen cientos de unos valores que intenten maximizar la “bondad”
productos de minería de datos y de compañías de del mismo. Esta cuestión nos vuelve a plantear dos
consultoría. KDNuggets (kdnuggets.com) tiene una problemas: uno ¿Cómo se define la bondad de un
lista de estas compañías y sus productos en el modelo para unos datos? Y dos, ¿Cómo realizar esa
campo de la minería de datos. Pueden resaltarse por búsqueda?
su mayor expansión las siguientes: SAS con SAS Respecto a la primera, normalemente todo modelo
Script y SAS Enterprise Miner; SPSS y el paquete debe venir acompañado por una función de
de minería Clementine; IBM con Intelligent Miner; adaptación que sea capaz de medir el ajuste (en
Microsoft incluye características de minería de datos inglés se emplea el concepto de fitness function).
en las bases de datos relacionales; otras compañías Esto es fácil en numerosos casos, por ejemplo en
son Oracle, Angoss y Kxen. En la línea del software problemas de clasificación o regresión, sin embargo
libre Weka [13] es un producto con mayor puede plantear serios retos en otros como el
orientación a las técnicas provenientes de la IA, clustering.
pero de fuerte impacto. Además relacionado con este concepto se encuentra
un fenómeno conocido como sobreajuste, es decir,
4. Técnicas usadas por la minería de que se “aprendan” los datos de entrenamiento pero
datos no se generalice bien para cuando vengan nuevos
casos. Exisen numerosos estudios en la literatura
La Minería de Datos se podría abstraer como la sobre distintas formas de separar convenientemente
construcción de un modelo que ajustado a unos datos de entrenamiento de datos de prueba [1,2,5].
datos proporciona un conocimiento. En cuanto a la búsqueda de los valores que
Por tanto podemos distinguir dos pasos en una tarea maximizan la bondad, se dispone de un importante
de MD, por un lado la elección del modelo y por número de posibilidades: desde la clásicas
otro el ajuste final de éste a los datos. procedentes del análisis matemático cuando la
La elección del modelo viene determinada función de bondad se conoce completamente hasta
básicamente por dos condicionantes: el tipo de los las heurísticas que proporciona la investigación
datos y el objetivo que se quiera obtener. Así por operativa, pasando por técnicas como los
ejemplo no sería apropiado aplicar regresión a unos Algoritmos Evolutivos (sin duda una de las más
datos constituidos por texto o modelos basados en presentes en la literatura), búsquedas tabú,
distancia a datos simbólicos. búsquedas dispersas, etc.
En cuanto a la relación modelo-objetivo, la literatura Debido a que esta búsqueda u optimización está
presenta un catalogo de distintos modelos para los presente en todos los procesos de MD, a menudo se
diferentes objetivos. Así, si se tiene un problema de confunden, pudiendo presentarse por ejemplo los
clasificación se utilizarán máquinas de vectores algoritmos evolutivos como un modelo de MD,
soporte o árboles de decisión, si es un problema de cuando realmente es una técnica que se puede usar
regresión se pueden usar árboles de regresión o para ajustarlo.
redes neuronales, si se desea hacer clustering se Por último, otro factor a tener en cuenta junto con
puede optar por modelos jerárquicos o los anteriores es el tratamiento que deseamos dar a
interrelacionados, etc. la incertidumbre que el propio modelo genera. Por
También es importante en esta elección el nivel de ejemplo, supongamos un modelo basado en reglas
comprensibilidad que se quiera obtener del modelo que define una así:
final, ya que hay modelos fáciles de “explicar” al Si x ∈ [1.4, 3.4] entonces y ∈ [-2.1, 6.5]
usuario como por ejemplo las reglas de asociación y
otros que entrañan claras dificultades como las redes ¿Qué podríamos afirmar si x vale 3.5 ó 1.3? ¿y si
neuronales o los vectores soporte. vale 3.6 ó 1.2? Este razonamiento lleva a usar
El segundo paso consiste en realizar una “fase de lógicas distintas de la clásica como son la lógica
aprendizaje” con los datos disponibles para ajustar borrosa o difusa (fuzzy) o los menos conocidos
el modelo anterior a nuestro problema particular. rough sets. Relacionado con esto aparece un último
Así si tenemos una red neuronal habrá que definir su concepto: softcomputing, para referirse al conjunto
arquitectura y ajustar los valores de los pesos de sus de técnicas computacionales (lógica borrosa,
conexiones. Si vamos a obtener una recta de razonamiento probabilístico, algoritmos evolutivos,
regresión hay que hallar los valores de los …) que posibilitan las herramientas de aprendizaje.
16 Inteligencia Artificial Vol. 10 No 29 (2006)
La minería de datos es un área de estudio científico [7] P. Flach, H. Blockeel, C. Ferri, J. Hernández-
con grandes expectativas para la comunidad Orallo and J. Struyf. Decision Support for Data
investigadora, principalmente por las expectativas Mining: Introduction to ROC analysis and its
de transferencia a la sociedad que plantea. Desde applications. Book chapter in Data Mining and
hace más de 50 años se han publicado infinidad de Decision Support, Kluwer, 2003.
artículos en conferencias y revistas destacadas sobre [8] J. Hernández-Orallo, M. J. Ramírez-Quintana
la materia. Sin embargo, queda por delante un and C. Ferri. Introducción a la Minería de Datos.
campo fértil y prometedor con muchos retos en Prentice Hall / Addison-Wesley, 2004.
investigación. Este artículo ha proporcionado una
introducción al descubrimiento de conocimiento y la [9] H. Kargupta, A. Joshi, K. Sivakumar and
minería de datos. Se han descrito las principales Y.Yesha. Data mining: next generation
posibilidades que la minería de datos proporciona, challenges and future directions. MIT/AAAI
así como una relación de las principales Press, 2004.
metodologías usadas. Además se han resaltado [10] S. Mitra and T. Acharya. Data mining:
diferentes dominios de aplicación y los principales multimedia, soft computing and bioinformatics.
retos y tendencias en investigación. John Wiley & Sons, 2003.
[11] S. J. Russell and P. Norvig. Artificial
Agradecimientos
Intelligence: A Modern Approach. Prentice Hall,
Los autores agradecen a los profesores Francisco Herrera
2002.
de la U. de Granada y José Hernández-Orallo de la U.P. [12] Z. Tang and J. MacLennan. Data Mining with
de Valencia las sugerencias aportadas para la redacción de SQL Server 2005. Wiley Publishing, 2005.
este artículo. 'Inteligencia Artificial' es una publicación
periódica distribuida por la Asociación Española para la [13] Witten, IH and Frank, E: "Data Mining:
Inteligencia Artificial (AEPIA). Practical Machine Learning Tools and
Techniques", 2nd Edition. Morgan Kaufmann,
2005
18 Inteligencia Artificial Vol. 10 No 29 (2006)
Resumen Abstract
Introducción
La tendencia es una inclinación o propensión hacia de- jetivos más firmes; persigue una idea con el fin de con-
terminados fines. El término también permite nombrar a la cretizarla por lo que durará más y marcará el camino de
fuerza por la cual un cuerpo se inclina hacia alguna cosa otros. Así es como las empresas Google y Amazon están
y a la idea que se orienta en determinada dirección. colocadas en posiciones de ventaja por sobre sus com-
petidores; con sus ideas de innovación le sacan partido
Las tendencias organizan el comportamiento de la a la tendencia que tienen los datos a convertirse en in-
moda y del consumo [1]. formación y ésta en conocimiento [4].
57
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Escuela Especializada en Ingenería ITCA-FEPADE / REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017
Tendencias en BI
Las tendencias en BI nos llevan a una serie de elemen-
tos a considerar; todos están en vigor en mayor o menor
grado.
58
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017 / Escuela Especializada en Ingenería ITCA-FEPADE
59
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Escuela Especializada en Ingenería ITCA-FEPADE / REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017
La generación de reportes visuales de HD3D permite dad de datos con más rapidez. Aumentará más la con-
apreciar los datos de Product Lifecicle Management fianza en este medio [9].
(PLM) con navegación interactiva y desglosar los deta-
lles según sea necesario. Al visualizar un modelo de pro- 64.1%
ducto 3D, puedes responder en forma fácil a preguntas
acerca del estado del proyecto, cambios de diseño,
responsabilidades del equipo, inconvenientes, proble-
mas, costos, proveedores y otros atributos [7].
17.4% 14.3%
4.2%
d. La integración de datos se pone interesante
Relational Cloud Tableau Other
Hoy en día, muchas empresas desean hacer análisis Data Engine
ágiles. Quieren proporcionar los datos adecuados a
Figura 6. Nube como un porcentaje de todas las
las personas apropiadas con rapidez. Es un gran reto fuentes de datos, con exclusión de archivos planos
porque los datos se encuentran en diversos lugares.
g. El análisis móvil se independiza
Trabajar con distintas fuentes de datos puede ser engo-
rroso, imposible o ambas cosas. El análisis móvil creció y se independizó. Ya no es una
simple interfaz para productos de inteligencia de ne-
En 2016 se sumaron muchísimos participantes al espacio gocios heredados. En 2015, aparecieron productos que
de integración de datos. Con el incremento de he- ofrecen una experiencia fluida y priorizan la tecnolo-
rramientas sofisticadas y la incorporación de nuevas gía móvil. Trabajar con datos fuera de la oficina pasó
fuentes de datos, las empresas ya no pretenden reco- de ser una tarea pesada a ser una parte dinámica del
pilar todos sus bytes en un mismo lugar. Los usuarios se proceso de análisis [10].
conectaron a cada conjunto de datos, sin importar su
ubicación, y los combinaron o unieron con herramientas
y métodos más ágiles [8].
Las organizaciones implementarán plataformas que Figura 7. Un móvil, complemento de las tareas diarias
permitan a los usuarios realizar cálculos estadísticos,
hacer una serie de preguntas y mantener el ritmo de
sus análisis. h. La gente comienza a profundizar en los datos del
Internet de las Cosas.
f. El despliegue del análisis y los datos en la nube.
Existen las condiciones necesarias para que el Inter-
En 2015 las personas comenzaron a aceptar la nube. Se net de las Cosas (IoT) amplíe aún más su relevancia. Al
dieron cuenta de que poner cosas en ella es sencillo parecer, cualquier objeto cotidiano estará dotado de
y ofrece mucha escalabilidad. También descubrieron un “sensor” que enviará información. Considere todos
que el análisis en la nube aporta agilidad. En 2016, aún los datos que generan los dispositivos móviles en un día.
más personas migraron a la nube gracias, en parte, a las Eso es solo la punta del iceberg. A medida que se incre-
herramientas que les permitieron consumir datos web. menta el volumen de datos en la IoT, también aumentan
Los usuarios pioneros obtuvieron conocimientos a partir las posibilidades de obtener información. Las empresas
de sus datos. El resto se dio cuenta de que debería buscarán herramientas que permitan a los usuarios ex-
seguir ese camino. Cada vez más empresas usarán el plorar los datos y, después, compartir sus descubrimien-
almacenaje en la nube para analizar una mayor canti- tos de manera segura, administrada e interactiva [11].
60
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017 / Escuela Especializada en Ingenería ITCA-FEPADE
i. Aparecen nuevas tecnologías para acortar las brechas Ver las “lagunas” en nuestros productos y servicios
de la organización a través de los usuarios.
Hay numerosas tecnologías nuevas en el entorno de
la inteligencia de negocios. A medida que estas se in- Identificar y controlar las principales tendencias,
troduzcan en el mercado, aparecerán brechas que comprender cuándo surgen críticas para proteger
deberán acortarse con el tiempo. Y habrá nuevas em- la experiencia del cliente o marca. Mediante los co-
presas que se encargarán de eso. mentarios en las Redes Sociales se pueden obtener
las ideas y problemas que han tenido los clientes y
así poder mejorar el producto actuando de forma
inmediata. Además, se podrá identificar mediante
estas tendencias a cuáles se pueden adaptar los
productos y así acortar el periodo de adaptación
a las mismas.
61
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Escuela Especializada en Ingenería ITCA-FEPADE / REVISTA TECNOLÓGICA N° 10. ENERO - DICIEMBRE 2017
Referencias
[1] “Social Media: de moda a tendencia en los nego- [8] D. Linthicum, “5 Things That Will Drive Data Inte-
cios”, 2014. [En línea]. Universidad La Salle, Ciudad de gration Over the Next 10 Years”. The Informatica
México”. Disponible en: http://www.lasalle.mx/blog/ Blog - Perspectives for the Data Ready Enterprise,
social-media-de-moda-a-tendencia-en-los-negocios/. 2015. [Online]. Available: https://blogs.informatica.
[Accedido: 20 -ene-2017] com/2015/07/22/5-things-that-will-drive-data-integra-
tion-over-the-next-10-years//#fbid=ZtqNC6R1s6L.
[2] Comisión Económica para América Latina y El Caribe [Accessed: 22-Feb-2017]
(CEPAL). “CEPALSTAT : Bases de datos y publicaciones
estadísticas”, 2015. [En línea]. Disponible en: http://esta- [9] E. Campos, “Tracking the Rapid Rise in Cloud Data”,
disticas.cepal.org/cepalstat/WEB_CEPALSTAT/Portada. 2015. [Online]. Available: https://www.datanami.
asp. [Accedido: 22-ene-2017] com/2015/05/01/tracking-the-rapid-rise-in-cloud-data/.
[Accessed: 23 -Feb-2017]
[3] L. S., Soriano, “Por qué fracasan las Pymes”, 2005. [En
línea]. Disponible en: https://www.gestiopolis.com/por- [10] A. Bridgwater, “Tableau Puts Data Visualization On
que-fracasan-las-pymes/. [Accedido: 22 -ene-2017] The iPad”, 2015. Forbes. [Online] Available: http://www.
forbes.com/sites/adrianbridgwater/2015/10/22/ta-
[4] R. Galán, “15 tendencias que deberías aplicar a tu bleau-puts-data-visualization-on-the-ipad/. [Accessed:
estrategia de negocio”, 2015. [En línea]. Emprende- 25 -Mar- 2017]
dores. Disponible en: http://www.emprendedores.es/
ideas-de-negocio/tendencias-negocios-2016. [11] J. Eiloart ,“The Internet of ‘Thingalytics”, IoT Now -
[Accedido: feb -24-2017] How to run an IoT enabled business [Online]. Disponible
en: https://www.iot-now.com/2015/08/17/35904-the-in-
[5] J. Canesa Caralt y J. Curto Díaz, “Introducción al ternet-of-thingalytics/. [Accessed: 27 -Mar- 2017]
business intelligence. 2010”. [En línea]. Disponible en:
https://blogvirtualtec.files.wordpress.com/2015/02/intro- [12] S. Mulligan, “BI’s Inflection Point: The New Fast
duccion_al_business_intelligence.pdf. Data Exploration Mandate”, 2015. [Online]. Availa-
[Accedido: 10 -feb-2017] ble: https://www.datanami.com/2015/09/30/bis-inflec-
tion-point-the-new-fast-data-exploration-mandate/.
[6] L. Calzada y J.L. Abreu, “El impacto de las herramien- [Accessed: 22 -Mar-2017]
tas de inteligencia de negocios en la toma de decisio-
nes de los ejecutivos”. Daena: International Journal of
Good Conscience, vol.4 no. 2, pp.16-52, sep. 2009.
62
Derechos Reservados - Escuela Especializada en Ingeniería ITCA-FEPADE.
Estadística descriptiva
Estadística descriptiva. Generalidades
La estadística descriptiva es una rama de la estadística que nos ayuda a entender mejor los
datos, a partir de su descripción y análisis. Como parte del proceso de Data Science, la
estadística descriptiva es uno de los pilares del Análisis Exploratorio de Datos o EDA.
Tipos de variables
En general hablaremos sobre una gran división en los tipos de variables, que es la que será
más práctica para Data Science: variables cuantitativas y cualitativas.
Variables cuantitativas
Las variables cuantitativas son variables para las que tiene sentido realizar la suma, la resta
o el promedio, de acuerdo al caso. En general son numéricas y pertenecientes al conjunto
de los números reales o a alguno de sus subconjuntos Por ejemplo, las alturas de las
personas pueden estar medidas en centímetros, y las edades podrían estar medidas en
números enteros, lo cual en realidad no sucede de esa forma (nuestra edad aumenta día a
día, segundo a segundo) pero sí puede servir a fines prácticos. Tener una edad de 20,4
años puede ser muy importante para un estudio médico, pero muy impráctico para edades
de consumidores de un producto.
En términos estadísticos, una serie de tiempo puede ser considerada como una variable
cuantitativa, ya que si bien el promedio no es una operación que tenga mucho sentido, sí se
pueden establecer diferencias entre fechas, que dan como resultado duraciones. Por
ejemplo, es práctica común en el desarrollo de sistemas que la edad de una persona se
calcule como la diferencia entre la fecha de nacimiento (cargada en la base de datos) y la
fecha de hoy (calculada con una función del lenguaje de programación).
Las variables categóricas o cualitativas, por su parte, como su nombre lo indica, sirven
efectivamente para categorizar elementos. Esto significa que podríamos armar
subconjuntos o subgrupos de elementos de acuerdo a dicha variable. Encontramos aquí por
ejemplo algunos datos comunes que se utilizan en data science para caracterizar a las
personas, tales como el sexo/género, la ocupación/profesión y el lugar de procedencia. En
general las variables categóricas son datos de texto libre, por lo que en principio son fáciles
de identificar. Como regla rápida, no está mal recurrir a la pregunta anterior: “Si sumo,
resto o promedio los valores, ¿tiene sentido el resultado?”. Cuando la respuesta es
“no” para todos los casos, entonces la variable es categórica.
Casos particulares
En general los lenguajes de programación ofrecen herramientas para detectar los tipos de
variables automáticamente, pero no está de más verificar siempre a conciencia los tipos
de variables, en especial para detectar los casos que se muestran a continuación
Variables que son categóricas pero que están escritas como número
Como mencionamos anteriormente, es importante tener en cuenta la naturaleza de los
datos para verificar si tiene sentido que la variable que representan sea numérica o
categórica. En el ejemplo de las puertas de los autos, tenemos una variable que puede
estar escrita con números (para el ejemplo dado: variable “Cantidad de puertas”, con
valores posibles 3, 4 y 5), pero cuya naturaleza no es numérica. Las variables categóricas,
si son números como en este caso, no tienen sentido al sumarse, restarse o promediarse,
pero sí tienen sentido si se cuentan. Por ejemplo, podría ser de mucho interés saber
cuántos autos tienen 3 puertas frente a cuántos tienen 4 ó 5.
Variables lógicas
Este tipo de dato tiene como valores posibles verdadero (True) y falso (False). Esta variable
puede además representarse como 1 para verdadero y 0 para falso. No obstante, a los
efectos del análisis estadístico, sigue siendo una variable categórica.
Conceptos básicos
Toda vez que tomamos un conjunto de datos, asumimos que representan una parcialidad de
la realidad. Por ejemplo, al hacer una encuesta telefónica solamente tenemos los datos de
los encuestados, no de todas las personas. Al hacer un relevamiento de indicadores
demográficos (altura, peso, edad), solamente consideramos los datos de las personas
relevadas. Aún si queremos ver los datos de nuestra empresa, y tenemos acceso a la base
de datos completa, si hacemos data science queremos saber qué es lo que puede pasar
con los datos que todavía no tenemos: por ejemplo, qué clientes pueden comprar más, o
cuáles son más propensos a cometer fraude.
En este sentido, siempre hay datos a los que no tenemos acceso, porque no podemos
relevarlos o porque todavía no sucedieron. No obstante, son precisamente estos datos los
que serán objeto de nuestras predicciones y estimaciones de la mano de la estadística y del
data science. Es por esto que es necesario distinguir entre estos conjuntos de datos.
En términos estadísticos, a cada elemento individual que pueda describirse con un conjunto
de variables representadas con datos lo llamaremos unidad de observación o
simplemente observación. El universo de observaciones que consta de todas las unidades
de observación posibles, incluidas aquellas a las que no tenemos acceso, o que todavía no
ocurrieron, se denomina población. Finalmente, el conjunto de observaciones que contiene
las unidades de observación a las que tenemos acceso se denomina muestra. A partir de la
muestra aplicaremos herramientas estadísticas para obtener conclusiones acerca de la
población.
Medidas de resumen
A menudo se presentan situaciones donde obtenemos muestras en forma de conjuntos de
datos, y luego de acomodarlos para poder introducirlos adecuadamente en nuestro código,
nos toca echar un vistazo a las variables, para poder interpretar las características del
conjunto de datos y así obtener conclusiones preliminares sobre la población a partir de la
muestra. En el proceso de data science, estas conclusiones pueden servir para la toma de
decisiones en cuanto a qué algoritmos aplicar, o qué consideraciones tomar con respecto a
los datos.
Dos ejemplos habituales de este análisis previo pueden verse en los datos de carácter
económico. En marketing es conocida la “regla de Pareto”, que dice que el 80% de la
ganancia está dada por el 20% de los clientes. Si bien esto no siempre es exactamente así,
es muy común que suceda, y en este sentido los análisis de clientes muchas veces exigen
realizar un recorte (dejar clientes fuera del análisis) para considerar solamente los más
importantes, y este recorte se realiza en base a métodos de estadística descriptiva. Por otro
lado, siempre que se habla de salarios o distribuciones de la riqueza, es conocido que en
general grandes sumas de dinero se concentran en pocas personas. De esta forma, calcular
un simple promedio para entender cuál es el salario más representativo para la población es
una mala elección, ya que sería el equivalente a medir el promedio de las alturas de una
salita de niños de jardín,... ¡junto con algunos jugadores de básquet! Las diferencias en
dinero son en general muy grandes (como las diferencias de altura en el caso anterior), y es
necesario analizarlas con herramientas más adecuadas que el promedio. Veremos estas
cuestiones a continuación.
Para ordenar las medidas siguientes, vamos a hacer una distinción entre variables
cualitativas y cuantitativas. Tengamos siempre presente en este sentido que la correcta
caracterización de la variable es fundamental para saber qué medida aplicar, y de esta
forma entender mejor a los datos.
Variables cuantitativas
Media o promedio
El promedio o media aritmética se define como la suma de todos los valores dividida entre
la cantidad de datos. En formula:
Mediana y cuartiles
Muchas veces el promedio no es una medida suficiente para poder describir los datos.
Puede haber valores muy alejados del “centro” de los datos, o pueden estar todos los datos
muy dispersos, o bien el “centro” puede estar “corrido” hacia algún lado, como pasa muy
comúnmente con los sueldos: muchos trabajadores cobran salarios mínimos o cerca del
mínimo, y muy pocas personas cobran valores exorbitantes. En estos casos, el promedio no
es un número claro para describir al conjunto de datos.
Una medida para poder resolver esta situación es la mediana. La mediana se calcula de la
siguiente manera:
Con esta idea en mente, podemos extender el concepto de mediana a los valores que
llegan al 25% y al 75% de los datos. A estos valores les llamaremos primero y tercer
cuartiles, porque representan una cuarta parte y tres cuartas partes de los datos,
respectivamente. En este sentido, la mediana es equivalente a las dos cuartas partes de los
datos, con lo cual también la llamaremos segundo cuartil. La mediana es más comprensible
cuando hablamos de salarios, porque podemos decir a partir de su uso que un porcentaje
determinado de la población gana más (o menos) que determinado valor. Si este valor es
igual, por ejemplo, a la canasta básica de consumo, entonces el porcentaje de la población
que gane menos de este valor será considerada “por debajo de la línea de pobreza”, como
un ejemplo de cómo se mide este indicador económico. Los valores porcentuales derivados
de la mediana que se ubican entre 0 y 100 se denominan en forma genérica percentiles. En
este sentido podemos decir, por ejemplo, que el primer cuartil corresponde al percentil 25, y
la mediana corresponde al percentil 50.
Moda
La moda es el valor que aparece más frecuentemente en un conjunto de datos. Se obtiene
a partir de un simple conteo de los datos, calculando cuál valor aparece más veces. Es
importante tener en cuenta que esta medida puede servir tanto para variables cuantitativas
como cuantitativas. En el caso en el que se calcule la moda para variables cuantitativas, es
más práctico trabajar con valores enteros, ya que en este caso habrá más valores que
posiblemente se repiten, y en ese caso tiene más sentido saber cuál es el más frecuente.
Varianza
Las medidas anteriores sirven para “ubicar” los datos. Conociendo los valores de media,
mediana y moda, podemos obtener un buen resumen acerca de la posición de los datos.
Por otra parte, una vez que se conoce la ubicación de una variable, es también conveniente
saber cómo es su forma. Consideraremos en este sentido a dos tipos de formas: datos
homogéneos y heterogéneos. Si los datos son más homogéneos, significa que están
agrupados en general más cerca de la media. En cambio, si los datos son heterogéneos,
significa que en general están lejos de la media. Mostramos un par de ejemplos en las dos
figuras siguientes.
Una medida estadística que funciona muy bien a este efecto es la varianza. Consiste en
medir las distancias de todos los datos hasta la media, elevar cada distancia al cuadrado,
realizar la suma y dividir por la cantidad de datos menos dos unidades. En fórmula:
Desvío estándar
La varianza tiene un problema: dado que su fórmula involucra una operación de elevar al
cuadrado, su resultado estará expresado en unidades al cuadrado. Por ejemplo si estamos
midiendo alturas en centímetros, la varianza estará dada en centímetros al cuadrado, lo cual
no tiene mucho sentido si queremos interpretar el valor con respecto a los datos. Para esto,
simplemente se aplica la raíz cuadrada sobre la varianza y se obtiene un valor en las
unidades de la variable. A este nuevo valor se le denomina desvío estándar y se simboliza
con la letra s. En fórmula:
Variables cualitativas
En el caso de las variables cualitativas, tal como mencionamos anteriormente, los cálculos
que tienen sentido son aquellos relacionados al conteo de las observaciones y su
categorización. De acuerdo a lo visto, entonces, nos interesan entre otras las medidas que
se enuncian a continuación.
Distribuciones de variables
Introducción
Entrando un poco más a fondo en el lenguaje estadístico, veremos que si las variables
cuantitativas tienen una posición y una forma, entonces cada una de ellas puede
compararse y/o diferenciarse de otras variables con distintas posiciones y/o formas.
Decimos entonces que cada variable tiene una distribución diferente.
Una forma de pensar la distribución como concepto es la siguiente. Pongamos sobre una
recta todos los valores posibles de la variable, a la que llamaremos con la letra x. Ahora
grafiquemos un punto por cada valor que ocurre en nuestros datos, apilándolos cuando hay
más de un valor que se repite. De esta forma, la altura de cada pila de puntos representa la
cantidad de observaciones para cada valor.
De acuerdo a las formas de las distribuciones podemos realizar suposiciones que nos
ayudan a entender mejor los datos. Una característica a tener en cuenta al analizar
distribuciones es si son simétricas o asimétricas. El histograma de la primera figura a
continuación muestra una distribución simétrica mientras que la distribución de la segunda
figura muestra una distribución asimétrica a la izquierda, como podría suceder con los
salarios de una población: muchas personas con bajos salarios y pocas personas con
salarios altos.
Existen muchas distribuciones con nombre propio, que tienen aplicaciones particulares en
las múltiples áreas de la estadística aplicada y el Data Science. Dos distribuciones muy
importantes son la distribución uniforme y la distribución normal. Veremos estas
distribuciones a continuación.
La distribución uniforme
El planteo de las distribuciones parte de una idea de una forma “perfecta” teórica, a la cual
se ajustan los datos en mayor o menor grado. Si todos los valores posibles aparecen
aproximadamente la misma cantidad de veces, hablaremos de una distribución uniforme. Es
útil tener en cuenta que si generamos números al azar, sería conveniente que siguieran esta
distribución, porque ello nos garantizaría que cada número tenga la misma probabilidad de
aparición. Las funciones de generación de números aleatorios (random) que tienen las
calculadoras y las planillas de cálculo siguen esta distribución. En la figura podemos
observar un histograma de datos con la forma de una distribución uniforme.
La distribución normal
Muchos procesos y variables del mundo real siguen una distribución con una forma
particular denominada distribución normal. Esta distribución está formada por puntos que se
agrupan de manera simétrica en torno a un valor promedio, y cuya varianza se aleja no más
de una determinada distancia del promedio. A continuación se muestra un histograma con
datos agrupados de acuerdo a una distribución normal.
Índice
ÍNDICE ................................................................................................................................................................... 1
RESUMEN.............................................................................................................................................................. 2
INTRODUCCIÓN ................................................................................................................................................. 4
DATOS OPERACIONALES Y DATOS INFORMATIVOS ............................................................................. 5
DATA WAREHOUSE ........................................................................................................................................... 6
SISTEMAS DE SOPORTE DE DECISIONES ................................................................................................... 7
INTELIGENCIA DE NEGOCIOS ....................................................................................................................... 7
PROBLEMAS QUE DAN ORIGEN A UN DATA WAREHOUSE .................................................................. 8
BENEFICIOS ASOCIADOS AL DATA WAREHOUSE .................................................................................. 9
ARQUITECTURA DATA WAREHOUSE ....................................................................................................... 11
Extracción (Extraction) ...................................................................................... 12
Transformación (Transformation) ......................................................................... 12
Carga (Loading) ............................................................................................... 13
Data Mart ....................................................................................................... 13
MODELADO DE DATOS .................................................................................................................................. 16
EL MODELO RELACIONAL .............................................................................................. 16
EL MODELO DIMENSIONAL ............................................................................................. 17
Ventajas del modelo dimensional .......................................................................... 21
OLAP (ON LINE ANALYTICAL PROCESSING) .......................................................................................... 23
DRILL DOWN Y ROLL UP .............................................................................................. 24
SLICE Y DICE ......................................................................................................... 24
DATA MINING (MINERÍA DE DATOS) ......................................................................................................... 27
CICLO DE VIDA ................................................................................................................................................. 28
PLANIFICACIÓN DEL PROYECTO ....................................................................................... 28
DEFINICIÓN DE REQUERIMIENTOS DE NEGOCIO ........................................................................ 31
PISTA DE TECNOLOGÍA ................................................................................................ 33
Diseño de la Arquitectura Técnica ......................................................................... 33
Selección e Instalación del Producto ...................................................................... 33
PISTA DE DATOS ...................................................................................................... 34
Modelado Dimensional ....................................................................................... 34
Diseño Físico ................................................................................................... 37
Diseño ETL ...................................................................................................... 37
PISTA DE APLICACIÓN ANALÍTICA ..................................................................................... 37
Especificación de Aplicación Analítica .................................................................... 37
Desarrollo de Aplicación Analítica ........................................................................ 37
IMPLEMENTACIÓN ..................................................................................................... 37
MANTENIMIENTO Y CRECIMIENTO ..................................................................................... 37
HERRAMIENTA OLAP - O3 ............................................................................................................................ 39
1
BI – Inteligencia de Negocios
Resumen
2
BI – Inteligencia de Negocios
Las aplicaciones de usuario final que acceden al Data Warehouse brindan a los gerentes la
posibilidad de ver la información a diferentes niveles de agregación (detallados o resumidos) y
filtrar las consultas por distintas variables (“rebanar” y “picar” la información).
Finalmente, el Data Warehouse permite aplicar herramientas como el Data Mining, para
encontrar relaciones entre los datos a fin de comprender las causas de variabilidad presentes y
realizar pronósticos con el apoyo de modelos estadísticos.
En la sociedad actual, la información constituye un activo esencial de cualquier
organización, proporcionando beneficios significativos, tangibles y cuantificables. Como
consecuencia, la integración de un Data Warehouse a la empresa representa una ventaja
competitiva en el mundo de los negocios.
3
BI – Inteligencia de Negocios
Introducción
Los continuos cambios en los mercados crearán, y de hecho ya están creando, nuevas
oportunidades de negocio, así como una competencia implacable. A medida que esta pugna se
intensifica, las empresas se enfrentan con la necesidad de reducir los costos, añadir valor a sus
productos y servicios y asegurar la diferenciación como señal de identidad. En un mercado en
el que el cliente puede escoger entre distintas empresas, la inteligencia de negocios se
convierte en una función estratégica para la retención e incremento del segmento de mercado
de la empresa.
Todos estos cambios exigen de las empresas una infraestructura receptiva y flexible, en
una palabra: ágil. Ágil en su enfoque del mercado, en la manera en que responde a sus
clientes y en la puesta en marcha de los nuevos servicios o el desarrollo de los nuevos
productos. El desafío no es ser el más grande, sino el más ágil en adaptarse al cambio.
Hacer accesible la información de ayuda a la toma de decisiones, de manera instantánea a
los responsables de la gestión de la empresa, constituye en definitiva el objetivo intrínseco del
Data Warehouse. Cuando se construye adecuadamente el Data Warehouse, en unión con un
conjunto adecuado de aplicaciones de ayuda a la toma de decisiones, proporciona de manera
natural un mejor conocimiento de la rentabilidad y la orientación adecuada al esfuerzo de los
objetivos empresariales.
El material básico necesario (los datos operacionales) para el desarrollo de un Data
Warehouse corporativo es abundante. La información sobre los clientes y los productos, por
ejemplo, son a la vez recursos disponibles, profusos e infrautilizados. Por ende, los datos
operacionales por sí solos no generan información significativa y conocimiento, a menos que
los objetivos empresariales de la compañía y la tecnología de la información estén alineados.
Para que la tecnología se convierta en un elemento que facilite la creación de nuevas
estrategias, debe primero integrarse en las funciones de negocio de la empresa. El futuro éxito
o fracaso de las compañías dependerá en gran medida del conocimiento de la propia empresa,
el cual a su vez se basará en la construcción exitosa de herramientas como el Data
Warehouse.
Dada la gran importancia del Data Warehouse para el crecimiento de la empresa, se hace
necesario conocer los conceptos relacionados a su filosofía de trabajo, a su proceso y la forma
de utilizarlo. En este trabajo expondremos las características principales, su estructura y su
funcionamiento, así como los resultados que puede esperar el usuario final al interactuar con
las aplicaciones que utilizan esa herramienta. Para ello, junto con el desarrollo teórico hemos
tomado un caso práctico de aplicación que permitirá ver la implementación de la tecnología de
Data Warehouse. Este caso se describe a continuación.
4
BI – Inteligencia de Negocios
Datos operacionales y datos informativos
5
BI – Inteligencia de Negocios
Datos Operacionales Datos Informativos
Orientados a una aplicación Orientados a un tema
Integración limitada Integrados
Constantemente actualizados No volátiles
Sólo valores actuales Valores a lo largo del tiempo
Soportan operaciones diarias Soportan decisiones de administración
Data Warehouse
6
BI – Inteligencia de Negocios
Gestiona múltiples versiones de un esquema de base de datos. Debido a que el Data
Warehouse tiene que guardar la información histórica y administrarla, y como esta
información histórica ha sido manejada en distintos momentos por diferentes versiones
de esquemas de bases de datos, en ocasiones el Data Warehouse tiene que controlar
información originada en organizaciones de bases de datos diferentes.
Condensa y agrega información. Con frecuencia, es muy alto el nivel de detalle de la
información almacenada por bases de datos operacionales para cualquier toma de
decisiones sensata. Un Data Warehouse condensa y agrega información para
presentarla en forma comprensible a los usuarios finales.
En el proceso de tomar decisiones hay dos partes en general: tener los datos y obtener
respuestas de los datos.
Un Sistema de Soporte de Decisiones (SSD) puede ser definido de una manera general
como un sistema de computación diseñado para apoyar al proceso de toma de decisiones (de
planeamiento, de administración y operacionales) en un negocio.
Este tipo de Sistema contiene todos los servicios o procesos para elegir, manipular y
analizar datos informativos y presentar los resultados. Debería brindar acceso transparente a
los datos en varias partes del Data Warehouse y proveer de interfaces comunes a un grupo de
usuarios de la organización. Fundamentalmente, un Sistema de Soporte de Decisiones
constituye la ventana del usuario a los datos informativos almacenados en el Data Warehouse.
Inteligencia de Negocios
7
BI – Inteligencia de Negocios
disponible para los usuarios, de aquí la necesidad de un Sistema de Soporte de Decisiones
para el acceso a esa información.
Los datos y la información que están en un Data Warehouse deben ser administrados con
cuidado, ya que son el material básico para obtener el conocimiento. Los Sistemas de Soporte
de Decisiones proveen la facilidad para que los usuarios de los procesos puedan obtener y
procesar ese material básico para adquirir el conocimiento que necesitan para desarrollar las
estrategias de negocio adecuadas.
El Data Warehouse contiene hechos históricos y datos derivados que son analizados con
un Sistema de Soporte de Decisiones para entender lo que sucedió en el pasado y lo que
ocasionó las condiciones actuales. Estos datos son también analizados de diferentes formas
para desarrollar una visión de lo que podría ocurrir en el futuro si se toman ciertas decisiones.
Después de la extracción y análisis de datos, los resultados combinados pueden ser
presentados utilizando herramientas de Soporte de Decisiones, de una manera que facilite el
entendimiento de la información, lo cual puede llevar a decisiones mejor respaldadas.
La meta es utilizar el Sistema de Inteligencia de Negocios para entender el pasado en
orden de optimizar las condiciones del negocio en el futuro.
Por todo lo expresado, podemos definir a la Inteligencia de Negocios como el proceso de
convertir datos en conocimiento y conocimiento en acción para el beneficio del negocio.
8
BI – Inteligencia de Negocios
usuarios, y carecen de información personalizada y/o relevante para los distintos
perfiles que existen en un negocio.
Falta de retroalimentación oportuna para la mejora de los negocios. En las
organizaciones, los ejecutivos trabajan haciéndose preguntas e imaginando posibles
situaciones futuras. Los resultados obtenidos de esa labor generarán a su vez más
preguntas y el planteo de nuevas situaciones repitiendo el ciclo hasta conseguir los
fundamentos para tomar una decisión. Con el uso de los sistemas operacionales, este
proceso se hace dificultoso, sino imposible, al no tener posibilidad de generar informes
adaptados a las necesidades del momento.
Un Data Warehouse puede dar lugar a una serie de importantes beneficios para la
organización. En cualquier caso, su utilización permitirá que la información de gestión sea:
accesible, correcta, uniforme y actualizada.
Estas características asociadas a la información contenida en un Data Warehouse, junto
con otra serie de aspectos inherentes al mismo dan lugar a la obtención de un conjunto de
ventajas, que podemos resumir del siguiente modo:
Menor costo en la toma de decisiones. Se suprime el desperdicio de tiempo que se
podía producir al intentar ejecutar consultas de datos largas y complejas con bases de
datos que estaban diseñadas específicamente para transacciones más cortas y
sencillas.
Posibilidad de encontrar relaciones ocultas. Facilita la aplicación de técnicas
estadísticas de análisis y modelización para encontrar relaciones ocultas entre los
datos, obteniendo un valor añadido para el negocio.
Aprendizaje del pasado. Proporciona la capacidad de aprender de los datos del pasado
y de predecir situaciones futuras en diversos escenarios.
Mayor flexibilidad ante el entorno. El Data Warehouse convierte los datos operacionales
en información relacionada y estructurada, que genera el conocimiento necesario para
la toma de decisiones. Esto permite establecer una base única del modelo de
información de la organización, que puede dar lugar a una visión global de la
información en base a los conceptos de negocio que tratan los usuarios. Además,
aporta una mejor calidad y flexibilidad en el análisis del mercado, y del entorno en
general.
9
BI – Inteligencia de Negocios
Esta visión global puede conllevar también la obtención de otras ventajas competitivas, al
permitir el desempeño de tareas que en los sistemas tradicionales sufrirían un costo adicional,
por ejemplo:
Mejor servicio al cliente. Lo dicho en el punto anterior implica una importante mejora en
la calidad de gestión, lo que también repercute en la relación con el cliente. De hecho, el
que un Data Warehouse implique una mayor flexibilidad ante el entorno tiene una
consecuencia directa en una mayor capacidad para responder a las necesidades de los
clientes.
Rediseño de procesos. Ofrecer a los usuarios una capacidad de análisis de la
información de su negocio que tiende a ser ilimitada y permite con frecuencia obtener
una visión más profunda y clara de los procesos de negocio propiamente dichos, lo que
a su vez permite obtener ideas renovadoras para el rediseño de los mismos.
10
BI – Inteligencia de Negocios
Arquitectura Data Warehouse
Fuentes de datos
11
BI – Inteligencia de Negocios
Extracción, transformación y carga (ETL)
Para poblar el Data Warehouse se deben mover bloques de datos, muchas veces desde
diferentes sistemas operativos, estructuras de archivos y bases de datos, mediante procesos
programados que se ejecutan frecuentemente fuera del horario de trabajo para no insumir
tiempo de procesamiento del hardware de la empresa, entorpeciendo la operatoria de la
misma.
Los subsistemas para poblar el Data Warehouse se pueden construir utilizando
herramientas y productos disponibles en el mercado, programas y procesos codificados desde
cero, o combinaciones de estos elementos.
Al construir los sistemas para poblar el Data Warehouse, se debe considerar la posibilidad
de que estos permitan regular el crecimiento evolutivo del Data Warehouse, brindando
escalabilidad y soporte para grandes cantidades de datos y consultas complejas. Se pueden
encontrar dificultades adicionales dependiendo de las fuentes de datos que se tengan
disponibles, que implican el uso de diferentes herramientas y tecnologías para acceder a cada
uno de ellos.
Extracción (Extraction)
Transformación (Transformation)
Las funciones básicas a ser realizadas en esta fase consisten en leer los archivos
intermedios generados por la fase de extracción, realizar las transformaciones necesarias,
construir los registros en el formato del Data Warehouse y crear un archivo de salida
12
BI – Inteligencia de Negocios
conteniendo todos los registros nuevos a ser cargados en el Data Warehouse. La mayor parte
del trabajo en esta fase involucra el efectuar las transformaciones necesarias. Estas
transformaciones incluyen:
Combinar campos múltiples de nombres y apellidos en un solo campo.
Fusionar campos o datos homónimos.
Separar un campo de fecha en campos de año, mes y día.
Cambiar la representación de los datos, como TRUE (verdadero) a 1, y FALSE (falso) a
0, o códigos postales numéricos a alfanuméricos, respetando los estándares de la
empresa.
Cambiar un dato que tiene múltiples representaciones a una sola representación, como
por ejemplo definir un formato común para números telefónicos, o establecer un término
común para los nombres de los campos o los valores de los datos que sean sinónimos.
Carga (Loading)
El objetivo de esta fase consiste en tomar los registros formateados por la fase de
transformación y cargarlos en el Data Warehouse, que es el contenedor para todos los datos
informativos (actuales e históricos) requeridos por las operaciones del Data Warehouse.
Generalmente los datos son insertados en el Data Warehouse, rara vez son actualizados o
eliminados.
Es el bloque donde se almacenan los datos informativos, utilizado principalmente para usos
estratégicos. No obstante, existen herramientas que no hacen uso de este bloque, realizando
las consultas multidimensionales directamente sobre la base operacional. En este caso se
puede pensar en el Data Warehouse simplemente como una vista lógica o virtual de datos.
Data Mart
Un Data Mart es una implementación de un Data Warehouse con un determinado alcance
de información y un soporte limitado para procesos analíticos, que sirve a un sólo
departamento de una organización o para el análisis de problemas de un tema particular.
El Data Mart es un subconjunto de información corporativa con formato adicional a la
medida de un usuario específico del negocio. Un Data Mart será siempre menor en complejidad
y alcance de los datos. Un Data Warehouse tiene más usuarios y más temas que un Data Mart,
brindando una vista más amplia entre múltiples áreas.
Existen dos grandes filosofías con respecto a la relación entre los conceptos de Data
Warehouse y Data Mart.
13
BI – Inteligencia de Negocios
Bill Inmon, quien es considerado el padre del Data Warehouse, propuso la idea de que los
Data Marts se sirven del Data Warehouse para extraer información. La misma está almacenada
en tercera forma normal, en un modelo relacional.
Por su parte, Ralph Kimball, el principal propulsor del enfoque dimensional para el diseño
del Data Warehouse, sostiene que el Data Warehouse es el resultado de la unión de los Data
Marts de la empresa.
Sin las herramientas adecuadas de acceso y análisis el Data Warehouse se puede convertir
en una mezcla de datos sin ninguna utilidad. Es necesario poseer técnicas que capturen los
datos importantes de manera rápida y puedan ser analizados desde diferentes puntos de vista.
También deben transformar los datos capturados en información útil para el negocio.
Actualmente a este tipo de herramientas se las conocen como Herramientas de Inteligencia de
Negocio (Business Intelligence Tools, BIT) y están situadas conceptualmente sobre el Data
Warehouse. Cada usuario final debe seleccionar la herramienta que mejor se ajusta a sus
necesidades y a su Data Warehouse. Entre ellas podemos citar las Consultas SQL (Structured
Query Language), las Herramientas MDA (Multidimensional Analysis), OLAP (On-Line
Analytical Processing) y las herramientas Data Mining.
Este bloque también incluye el hardware y software involucrados en mostrar la información
en pantalla y emitir reportes de impresión, hojas de cálculo, gráficos y diagramas para el
análisis y presentación.
Metadatos
Los metadatos son datos acerca de los datos. En una base de datos los metadatos son la
representación de los diversos objetos que definen una base de datos, por ejemplo, ubicación y
descripción de base de datos, tablas, nombres y resúmenes. También podemos mencionar las
descripciones lógicas y físicas de tablas, columnas y atributos.
Uno de los problemas con el que pueden encontrarse los usuarios de un Data Warehouse
es saber lo que hay en él y cómo pueden acceder a lo que quieren. A fin de proveer el acceso
a los datos universales, es absolutamente necesario mantener los metadatos. Un componente
llamado repositorio les ayuda a conseguirlo. Los metadatos son sólo una de las utilidades del
repositorio, pero éste tiene muchas funcionalidades: catalogar y describir la información
disponible, especificar el propósito de la misma, indicar las relaciones entre los distintos datos,
establecer quién es el propietario de la información, relacionar las estructuras técnicas de datos
14
BI – Inteligencia de Negocios
con la información de negocio, establecer las relaciones con los datos operacionales y las
reglas de transformación, y limitar la validez de la información.
15