Datawarehouse PPT 01
Datawarehouse PPT 01
Datawarehouse PPT 01
28/09/15
Definiciones de Data
Warehouse
Objetivos
En resumen
La Inteligencia de negocio
Paypal
3M
Coca-Cola Company
Verizon
IBM Cognos
http://www-01.ibm.com/software/data/cognos/
Teradata
http://www.teradata.com
Oracle Hyperion
http://www.oracle.com/hyperion/index.html
MicroStrategy
http://www.strategy.com
SAS
http://www.sas.com
9
Caractersticas de un Data
Warehouse
Orientado a un tema
10
Predomina la consulta
Anlisis y decisin estratgica.
Proceso masivo.
Dinamismo.
Niveles de detalle/agregacin.
Dato histrico.
Respuesta masiva
Estructura Multidimensional
Usuarios de perfiles altos.
Explotacin de informacin
interna y externa relacionada con
el negocio.
11
Metodologas de Diseo de
Data Warehouse
12
Metodologa de Kimball
(Bottom-up)
13
14
Arquitectura de un Data
Warehouse
15
Page 15
Flujo de Datos de un DW
Production
systems
CRM
Querying &
Reporting
tools
OLAP
cubes
DataWarehouse
Billing
Activation
systems
Other sources
ETL
Datamarts
Other
DBs
Files
Acquisition
Storage /
Archiving
16
Restitution
Business
Users
Arquitectura de un Data
Warehouse
17
Page 17
Elementos de la Arq. De un DW
Elementos de la Arq. De un DW
19
Elementos de la Arq. De un DW
Implementacin incremental
21
Quin es el auditorio?
Cul es el alcance?
Qu tipo de data warehouse
debera construirse?
1ra.: Establecer un ambiente "data warehouse virtual.
2da.: Construir una copia de los datos operacionales desde un sistema
operacional nico y posibilitar al data warehouse de una serie de
herramientas de acceso a la informacin.
3ra.: Finalmente, la estrategia data warehousing ptima es seleccionar el
nmero de usuarios basados en el valor de la empresa y hacer un anlisis de
sus puntos, preguntas y necesidades de acceso a datos. 22
23
PROYECTO DE ELABORACION DE
UN DATA WAREHOUSE
4 ESTRATEGIAS PARA LA GESTION DE UN DATA WAREHOUSE
PROYECTO DE ELABORACION DE
UN DATA WAREHOUSE
Fase 2: Desarrollo
1. PORQUE CONSTRUIR BLOQUES DE DATA WAREHOUSE?
Se
26
Redundancia de datos
27
29
PROYECTO DE ELABORACION DE
UN DATA WAREHOUSE
FASE 3: IMPLEMENTACION
31
Definir el mejor diseo fsico para el modelo de datos. El diseo fsico debe estar
orientado a generar buen rendimiento en el procesamiento de consultas, a diferencia del
modelo lgico que est orientado al usuario y a la facilidad de consulta.
Definir los procesos de extraccin, filtro, transformacin de informacin y carga de datos
que se deben implementar para poblar ese modelo de datos.
Definir los procesos de administracin de la informacin que permanece en el data
warehouse
Definir las formas de consultas a la informacin del data warehouse que se le
proporcionar al usuario. Para sto, debe considerarse la necesidad de resolver un
problema y la potencia de consulta.
Completar el modelo de consulta base, relativo al rea seleccionada.
Implementar los procesos estratgicos del rea de trabajo, es decir, implementar
herramientas especializadas de scoring, herramientas especializadas para induccin de
conocimiento (Data Mining), etc.
Completar las reas de inters, en forma similar a lo descrito anteriormente.
32
PROYECTO DE ELABORACION DE
UN DATA WAREHOUSE
FASE 4: EVALUACION
1 EVALUACION DE RENDIMIENTO DE LA INVERSION
33
401%
322%
533%
ROI mediano
160%
2.3 Aos
2.2 Millones
34
Beneficios Tcticos
Impresin y emisin de reporte
reducido
Demanda reducida para consultas de
clientes
-
DATA WAREHOUSE VS BD
OPERACIONAL
Uso de
Data Warehouse
Consultas predefinidas y
actualizables
Consultas complejas,
frecuentemente
no anticipadas.
Requerimientos de respuesta
inmediata
Requerimientos de respuesta no
crticos
38
Page 38
Modelo de Estrella
39
Extraccin
Multiples Fuentes
Orientadas a trabajo Batch : cagas de estos sistemas son ms fuertes cuando los sistemas de
produccin tienen poca carga
Transformacin
Carga
Otros
Controla los flujos de ejecucin: maneja las dependencias entre tareas, control de
ejecucin, gestin de errores, registros histricos.
40
Ejemplos de transformacin
Ejemplo: Para un campo de texto la data puede contener muchas variantes de la misma palabra
(friend, a friend, freind, etc). La lgica difusa puede ayudar a reunir las variantes.
Ejemplo : la informacin sobre los consumidores cambia constantemente, pero queremos una historia de
estos
Un cambio en el valor VAT duplicamos la entrada del consumidor agregando los datos adicionales (para propsitos
financieros)
Clave sustituta
41
Control de la Ejecucin
42
43
Middleware
44
Middleware (2)
45
Toma de decisiones
DATAMART
47
Data Mart
Puede
Data
Warehouse
Data Mart
Propiedad
Data Warehouse
Data Mart
Alcance
Empresarial
Departamental
Tema
Fuente de datos
Mltiples
Muchas
Un solo tema
Pocos
<
Tamao (tpico)
100 GB to > 1 TB
100 GB
Tiempo de implementacin
Meses a aos
Meses
49
50
CARACTERISTICAS
Soporte anlisis multidimensional y
procesamiento analtico en lnea(OLAP)
Los datos son clasificados en diferentes
dimensiones y pueden ser vistas unas con otras en
diferentes combinaciones para obtener diferentes
anlisis de los datos que contienen.
Los Usuarios pueden formular consultas complejas,
arreglar datos en un reporte, cambiar de datos
resumidos a datos detallados.
51
MOLAP (multidimensional
OLAP)
Muchas dimensiones
Se comportan razonablemente en
volumenes de datos mas reducidos
(menos de 5Gb)