Data Ware House

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

UNIVERSIDAD LAICA ELOY ALFARO DE MANABÍ

FACULTAD DE CIENCIAS INFORMÁTICA


INFORME DE PRACTICA

TEMA:
Creación De Un Almacén De Datos Mediante Procesos Etl Y Cubo Olap Para
Análisis Estadísticos De Toma De Toma De Decisiones De La BD Neptuno
INTEGRANTES:
Eduardo Lino Reyes
Jonathan Bermeo Holguin
Carlos Ramirez Ruiz
Junior Loor Bailon

ASIGNATURA:
Inteligencia de Negocios

CURSO:
9no Nivel “A”

DOCENTE:
Ing. Patricia Quiroz Palma

FECHA DE ENTREGA:
13/01/2021

Manta 2020 II

0
Contenido
1. Resumen ....................................................................................................................... 2
2. Palabras claves.............................................................................................................. 2
3. Introducción .................................................................................................................. 2
4. Antecedentes o estado de arte ....................................................................................... 3
Business Intelligence .................................................................................................... 3
Procesos ETL................................................................................................................ 4
Procesos ETL: fase de Transformación ........................................................................ 4
Proceso de Carga: la culminación de los procesos ETL ............................................... 5
¿Qué es un Data Warehouse? ....................................................................................... 5
Estructuración de un DW ............................................................................................. 6
Cubo Olap ..................................................................................................................... 8
Resultados..................................................................................................................... 9
5. Desarrollo o propuesta (Fuentes de Información, Proceso ETL, DataWarehouse,
OLAP) .............................................................................................................................. 9
6. Resultados (Informes BI)............................................................................................ 10
7. Conclusiones/Recomendaciones y Trabajos Futuros ................................................. 22
8. Bibliografía ................................................................................................................. 22

1
1. Resumen

Con respecto al proyecto desarrollado se ha tomado los datos e información de una Base

de Datos que representan la información de los productos de una Distribuidora de

Productos alimenticios que, mediante los procesos de extracción, transformación y carga

se pretende realizar un Data Mart en donde con procesos multidimensionales se logre las

creación de informes que faciliten la toma de decisiones para la Distribuidora, “El Super

Económico”.

Mediante la utilización de Data Mart las consultas realizadas por medio de VisualStudio

obtenemos una optimización en cuanto a tiempo de respuesta, en donde se especificó y

se escogió un departamento de datos y así de esta manera agilizar las consultas lo que se

traduce a una toma decisiones de una manera más rápida.

2. Palabras claves

Base de Datos, DataWarehouse, Etl, Olap, Transacción, Procesos, Estadística,

Multidimensional, Business Intelligence, Empresa, Datos, Información

3. Introducción

Los sistemas de apoyo a la toma de decisiones tienen una larga tradición en el mundo de

los negocios. Ya desde la década de 1960, las empresas utilizan todo tipo de métodos

analíticos que permiten obtener datos útiles con el objetivo de respaldar a la dirección

ejecutiva en la planificación estratégica de los procesos de negocio con informes,

modelos y pronósticos basados en datos.

Estos sistemas de información analíticos con funcionalidades de evaluación pueden

clasificarse como sistemas de información gerencial (Management Information

Systems, MIS), sistemas de soporte a decisiones o DSS (Decision Support Systems) o

sistemas de información ejecutiva (Executive Information Systems, EIS), los cuales

2
apenas se diferencian entre sí y desde los 1990 se engloban bajo el denominador común

de Business Intelligence (BI) o inteligencia de negocios tanto en la práctica empresarial

como en la comercialización de sus productos. (Guizado, 2015)

Es por esto que las empresas en la actualidad optan por herramientas que ayudan de

manera estratégica al desarrollo comercial de sus negocios, adaptando estas nuevas

tecnologías al negocio, para aquello como futuros Ing. En sistemas se ha desarrollado el

siguiente ejercicio en donde empleamos el uso de BD para su posterior proceso de Etl de

esta manera mediante un DataWarehouse y la creación de los cubos Olap y procesos

multidimensionales obtener informes con los cuales se pueden llegar a tomar las mejores

decisiones para la empresa o negocio.

4. Antecedentes o estado de arte

Business Intelligence

Según (wikipedia), define a Business Intelligence como: “El término “Inteligencia de

Negocios”, conocido habitualmente como BI, es muy utilizado hoy en día. La inteligencia

de negocios está formada por un conjunto de estrategias y tecnologías que ayuda a

convertir datos en información de calidad y dicha información en conocimiento que

permita a la alta gerencia una toma de decisiones más acertadas y ayuda a mejorar la

competitividad en el mercado, dando soluciones a problemas de una manera eficaz y

concisa”.

Beneficios de implantación de un BI Con frecuencia, la transformación y el análisis de la

información y los datos que las compañías generan se convierten en un verdadero

problema y, por lo tanto, la toma de decisiones se vuelve muy lenta. Las tecnologías de

BI intentan revertir esa situación, y ayudando a comprender mejor y más rápidamente los

datos. De este modo, quienes toman las decisiones pueden hacerlo de una manera más

rápida y efectiva para, posteriormente, mejorar sus acciones a futuro.


3
Procesos ETL

Fase de Extracción en los procesos ETL

Para llevar a cabo de manera correcta el proceso de extracción, primera fase de los

procesos ETL, hay que seguir los siguientes pasos:

• Extraer los datos desde los sistemas de origen.

• Analizar los datos extraídos obteniendo un chequeo.

• Interpretar este chequeo para verificar que los datos extraídos cumplen la pauta o

estructura que se esperaba. Si no fuese así, los datos deberían ser rechazados.

• Convertir los datos a un formato preparado para iniciar el proceso de

transformación

Además, uno de las prevenciones más importantes que se deben tener en cuenta durante

el proceso de extracción sería el exigir siempre que esta tarea cause un impacto mínimo

en el sistema de origen. Este requisito se basa en la práctica ya que, si los datos a extraer

son muchos, el sistema de origen se podría ralentizar e incluso colapsar, provocando que

no pudiera volver a ser utilizado con normalidad para su uso cotidiano. (PowerData, 2017)

Procesos ETL: fase de Transformación

La fase de transformación de los procesos de ETL aplica una serie de reglas de negocio

o funciones sobre los datos extraídos para convertirlos en datos que serán cargados. Estas

directrices pueden ser declarativas, pueden basarse en excepciones o restricciones, pero,

para potenciar su pragmatismo y eficacia, hay que asegurarse de que sean:

• Declarativas.

• Independientes.

• Claras.

• Inteligibles.

4
• Con una finalidad útil para el negocio.

Proceso de Carga: la culminación de los procesos ETL

En esta fase, los datos procedentes de la fase anterior (fase de transformación) son

cargados en el sistema de destino. Dependiendo de los requerimientos de la organización,

este proceso puede abarcar una amplia variedad de acciones diferentes.

Acumulación simple: esta manera de cargar los datos consiste en realizar un resumen de

todas las transacciones comprendidas en el período de tiempo seleccionado y transportar

el resultado como una única transacción hacia el data warehouse, almacenando un valor

calculado que consistirá típicamente en un sumatorio o un promedio de la magnitud

considerada. Es la forma más sencilla y común de llevar a cabo el proceso de carga.

(PowerData, 2017)

Rolling: este proceso sería el más recomendable en los casos en que se busque mantener

varios niveles de granularidad. Para ello se almacena información resumida a distintos

niveles, correspondientes a distintas agrupaciones de la unidad de tiempo o diferentes

niveles jerárquicos en alguna o varias de las dimensiones de la magnitud almacenada (por

ejemplo, totales diarios, totales semanales, totales mensuales, etc.) (PowerData, 2017)

¿Qué es un Data Warehouse?

Es una base de datos corporativa que centraliza, integra y depura la información que

recoge de todas las áreas o departamentos de una empresa, el Data Warehouse permite el

análisis de los datos desde una infinidad de perspectivas y con una gran velocidad de

respuesta, además, es una parte fundamental para la organización, comprensión, análisis

y uso de la información para tomar decisiones estratégicas sobre establecer normativas,

objetivos y plantear riesgos. (Parra, 2019)

Los datos operativos (transaccionales) se convierten en datos preparados y útiles:

5
Datos operativos: se trata de información transaccional que generan los sistemas de

administración y cuentas en la práctica comercial cotidiana. Entre las fuentes típicas de

datos transaccionales se cuentan sistemas de administración de datos como los programas

de contabilidad, los sistemas de gestión de mercancías, los sistemas de planificación de

recursos de empresa (ERP) o los sistemas de ayuda y pedido. (IONOS, 2020)

Datos útiles: son los datos que resultan cuando los datos operativos de uso cotidiano se

agrupan, guardan, depuran y preparan para el análisis en un lugar central separado.

Un DWH les ofrece a los analistas un amplio campo de visión sobre datos de origen muy

heterogéneos y permite agregar indicadores operativos en el contexto del procesamiento

analítico en línea (Online Analytical Processings, OLAP). Como depósito central de

todos los datos empresariales relevantes, a los que suele accederse exclusivamente con

permiso de lectura, el almacén de datos contribuye a la gestión del conocimiento interno

del negocio. Como base sobre la cual trabajan los diversos métodos de minería de datos,

el contenido de un DWH sostiene todas las reflexiones y tomas de decisiones en relación

con la gestión del rendimiento y la planificación estratégica del negocio. (IONOS, 2020)

Estructuración de un DW

Al proceso de gestión y examen de un almacén de datos se le denomina data

warehousing y este comprende las siguientes fases:

• Obtención e integración de los datos

• Conservación de los datos

• Evaluación y análisis de los datos

Estas tres fases se reflejan en una arquitectura ideal básica, un modelo de referencia de

los sistemas de almacén de datos que, si bien puede constatar diferencias en función del

producto y el fabricante, en principio se orienta por una estructura modular a tres niveles:

6
• Recolección

• Almacenamiento y conservación

• Entrega (para su consulta)

A estos tres niveles se añade un componente central de control, el gestor del almacén de

datos (Data Warehouse Manager), que asigna a cada nivel funciones especiales de

administración. (IONOS, 2020)

Ilustración 1 Los tres niveles de la arquitectura de referencia de un almacén de datos: recolección, almacenamiento
y entrega de los datos

7
Cubo Olap

En el análisis multidimensional, los datos se representan mediante dimensiones como

destino, autobús, operador y tiempo. En general, las dimensiones se relacionan en

jerarquías, por ejemplo, ciudad, estado, región, país y continente. El tiempo también es

una dimensión estándar con sus propias jerarquías tales como: día, semana, mes, trimestre

y año. (Morales, 2016)

Para tener una idea más simple de la función de los cubos OLAP dentro de una base de

datos multidimensional, cabe destacar que cada una de las dimensiones o escalas del cubo

corresponde básicamente a una jerarquía de datos. (Morales, 2016)

Pueden utilizarse otras dimensiones del cubo para recabar información referente a

situaciones geográficas, clasificación de los productos por categorías, gastos realizados

por la empresa, y demás. (Morales, 2016)

Esta confluencia de la información permite llevar a cabo un análisis completo de diversas

situaciones, para obtener las soluciones correctas a los problemas de negocios. (Morales,

2016)

Mediante la incorporación de estos vectores o cubos, se han ampliado las posibilidades

de las bases de datos relacionales, permitiendo el procesamiento de importantes

volúmenes de información, de lo contrario sería imposible realizar dicha actividad. Cada

una de las dimensiones que posee la base de datos incorpora un campo determinado para

cierto tipo específico, que luego podrá ser comparado con la información contenida en el

resto de dimensiones, para hacer posible la evaluación y posteriores informes de las

actividades relevantes para una compañía. (Morales, 2016)

8
Ilustración 2 Representación gráfica del funcionamiento el sistema OLAP, en cuanto a las consultas.

Resultados

Con la creación e implementación del cubo, se pueden crear muchas combinaciones entre

cada dimensión y medida, ya que la base de datos contiene gran cantidad de registros y

eso hace que las posibles combinaciones sean muchas; tanto con Analysis Services y

Excel se pueden analizar y tener las mismos resultados que se obtiene en una herramienta

como en otra, si es que se ha creado el mismo diseño del cubo para utilizarlo en ambas

herramientas; en Analysis Services se hace las consultas en el mismo programa en el

navegador que proporciona y en cambio en Excel se inserta una tabla dinámica para poder

crear las consultas. (Guzman, 2020)

5. Desarrollo o propuesta (Fuentes de Información, Proceso ETL, DataWarehouse,

OLAP)

Usaremos el proceso ETL la cual es una parte de la integración de datos, pero es un

elemento importante cuya función completa el resultado de todo el desarrollo de la

cohesión de aplicaciones y sistemas.

9
Las herramientas ETL juegan un papel principal en la creación de los data warehouse. Es

además uno de los cuatro principales componentes por los que está formada una solución

completa de Business Intelligence; ETL, data Warehouse, reporting y herramientas

analíticas.

existen distintas metodologías de negocios las cuales se unifican dimensiones, máximo

nivel de detalle, rendimiento tablas de hechos etc, y es primordial tener en cuenta las

dimensiones entorno a datamart y tener en cuenta las métricas que son indicadores valores

etc. son valores numéricos generados en una o varias separaciones o transacciones del

negocio ya sea por mes o por semana y la cual se verifica en la tabla de hechos ósea los

indicadores del negocio.

6. Resultados (Informes BI)

Realizaremos el proceso de Restauración de base de datos

10
Nos saldrá un mensaje que se ha restaurado la base de datos

11
Diagrama de base de datos EL Económico

12
Se procederá a la creación del datamart como parte del DataWarehouse.
podemos decir que para la sección de pedidos en vez de realizar DataWarehouse se utilizó

datamart para que las consultas realizadas sean mucho más rápidas, para no coger toda

base de datos se procedió escoger un departamento de datos para proceder a agilizar la

consulta y la toma de decisión.

Diagrama Datamart

13
Procedemos a relacionar las tablas dimensiones con la tabla de hechos.

ETL para PEdidos poblar el datamart

14
ETL CLiente

ETL Transporte

ETL Empleado

15
ETL Producto

ETL Tiempo

16
ETL HechoPEdido

Vista diagrama modelo estrella para Cubo Olap, y las dimensiones realizadas.

Una vez creado el cubo cambia de color la tabla de hechos

17
Se crea un cálculo comisión para las ventas monto antes de procesar el cubo

Una vez procesado se puede relacionar campos

18
Procedemos a realizar la conexión para los reportes

Conjunto de datos necesarios para el reporte cantidad por clientes por meses del año.

Vista del reporte producto más pedido por año.

19
Conjunto de datos para este reporte

Vista de reporte categoría con mayor pedido

20
Conjunto de datos utilizados para el reporte cantidad monto por clientes por
meses del año

Vista del reporte cantidad monto por clientes por meses del año

Conjunto de datos utilizados para el reporte de pedidos de productos por clientes.

21
Vista reporte de pedidos de productos por clientes

7. Conclusiones/Recomendaciones y Trabajos Futuros

Sea cual sea la manera elegida de desarrollar, hay que tener en cuenta que esta fase

interactúa de dos formas con la base de datos de destino y, por eso, al realizar esta

operación se aplicarán todas las restricciones que se hayan definido en ésta. Si están bien

definidas, la calidad de los datos en el proceso estará garantizada.

8. Bibliografía

Guzman, Z. K. (7 de enero de 2020). Construcción de Cubo OLAP en Microsoft


Analysis Services y. Obtenido de
file:///C:/Users/Carlos%20Wilson/Downloads/Dialnet-
ConstruccionDeCuboOLAPEnMicrosoftAnalysisServicesY-7272005.pdf
IONOS. (12 de mayo de 20). IONOS. Obtenido de IONOS:
https://www.ionos.es/digitalguide/online-marketing/analisis-web/los-data-
warehouses-en-la-business-intelligence/
Morales, A. (16 de agosto de 2016). Evaluando software.com. Obtenido de Evaluando
software.com: https://www.evaluandosoftware.com/cubos-olap-informacion-la-
toma-decisiones/
Parra, A. M. (26 de diciembre de 2019). rockcontent. Obtenido de rockcontent:
https://rockcontent.com/es/blog/data-warehouse/
PowerData. (6 de junio de 2017). PowerData. Obtenido de PowerData:
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/qu-son-los-procesos-etl

22

También podría gustarte