Bodegas de Datos Mineria de Datos
Bodegas de Datos Mineria de Datos
Bodegas de Datos Mineria de Datos
Construccin de grandes almacenes de datos integrados, organizados y estructurados de tal forma que le permiten al usuario facilitar el proceso en una toma de dediciones. Ralph Kimball, lo define como una copia de transacciones de datos especficamente estructurada para su consulta y anlisis.
Algunas organizaciones han comenzado a construir repositorios ms pequeos, ms fciles y rpidos de implementar, conocidos como Data Marts, que son organizados alrededor de aplicaciones especficas, como por ejemplo, almacenando los datos relevantes del rea de contabilidad, de produccin o de ventas en un almacn de datos por separado.
Informacin accesible. Informacin consistente. Informacin adaptable y elstica. Fundamental para la toma de decisiones. Seguridad en la informacin
No voltil. Variable en el tiempo. Orientado a temas. Integrado Datos consistentes. Favorece el anlisis y divulgacin de datos especialmente OLAP (Procesamiento analtico en lnea).
Las bodegas de datos hacen ms fcil el acceso a una gran variedad de datos para su uso. Facilitan el funcionamiento de las aplicaciones, de los sistemas de apoyo en la toma decisiones tales como:
informes de tendencia, por ejemplo: obtener los tems con la mayora de las ventas en un rea en particular dentro de los
Las bodegas de datos pueden trabajar en conjunto y, por lo tanto, aumentar el valor operacional de las aplicaciones empresariales, en especial la gestin de relaciones con clientes. Muy tiles para el almacenamiento de anlisis y consultas de histricos. Permite hacer planes de forma ms efectiva. Transforma los datos en informacin y la informacin en conocimiento.
ltimos dos aos informes de excepcin, informes que muestran los resultados reales frente a los objetivos planteados a prioridad.
Los costos de mantenimiento son elevados. Las bodegas de datos se pueden quedar obsoletos relativamente pronto. Requiere continuo mantenimiento, transformacin e integracin de datos. Requieren sistemas, aplicaciones y almacenamiento especfico. En un proceso de implantacin puede encontrarse dificultades ante los diferentes objetivos que pretende una organizacin. No es muy til para la toma de decisiones en tiempo real debido al largo tiempo de procesamiento que puede requerir.
Una Bodega de Datos debe entregar la informacin correcta a la gente indicada en el momento adecuado en el formato correcto Da respuesta a las necesidades de usuarios conocedores, utilizando Sistemas de Soporte en la decisin (DSS), Sistemas de informacin ejecutiva (EIS) o herramientas para hacer consultas y reportes Los usuarios finales pueden hacer consultas sobre sus Bodegas de Datos sin tocar o afectar la operacin del sistema
Fuentes de informacin Variables que se van a cargar en la bodega de datos. Proceso de cargue inicial y actualizacin de la informacin. Visualizacin de la informacin. Seguridad tanto en la autorizacin para la publicacin en Internet como en los permisos de consulta de la informacin.
Paralelamente al desarrollo de los sistemas Data Warehouse y Datamarts, ha surgido un nuevo componente que provee herramientas avanzadas de anlisis de informacin, y facilita el acceso a la misma a travs de dimensiones, de tal manera que un mismo dato puede ser analizado bajo distintos puntos de vista. El anlisis de datos a travs de diversas dimensiones (cubo) permite detectar comportamientos y reglas del negocio que no son fcilmente identificables con los sistemas transaccionales.
Dimensiones Las dimensiones de un cubo son atributos relativos a las variables, son las perspectivas de anlisis de las variables (forman parte de la tabla de dimensiones). Son catlogos de informacin complementaria necesaria para la presentacin de los datos a los usuarios, como por ejemplo: descripciones, nombres, zonas, rangos de tiempo, etc. Es decir, la informacin general complementaria a cada uno de los registros de la tabla de hechos. Variables Tambin llamadas indicadores de gestin, son los datos que estn siendo analizados. Forman parte de la tabla de hechos. Ms formalmente, las variables representan algn aspecto cuantificable o medible de los objetos o eventos a analizar. Normalmente, las variables son representadas por valores detallados y numricos para cada instancia del objeto o evento medido. En forma contraria, las dimensiones son atributos relativos a la variables, y son utilizadas para indexar, ordenar, agrupar o abreviar los valores de las mismas. Las dimensiones poseen una granularidad menor, tomando como valores un conjunto de elementos menor que el de las variables; ejemplos de dimensiones podran ser: productos, localidades (o zonas), el tiempo (medido en das, horas, semanas, etc.)
producto (diferentes tipos o denominaciones de productos) localidades (o provincia, o regiones, o zonas geogrficas) tiempo (medido de diferentes maneras, por horas, por das, por meses, por aos, ...) tipo de cliente (casado/soltero, joven/adulto/anciano, ...)
Segn lo anterior, podramos construir un cubo de informacin sobre el indice de ventas (variable a estudiar) en funcin del producto vendido, la provincia, el mes del ao y si el cliente est casado o soltero (dimensiones). Tendramos un cubo de 4 dimensiones.
La minera de datos es una tecnologa de soporte para usuario final, cuyo objetivo es extraer conocimiento til y utilizable a partir de la informacin contenida en las bases de datos de las empresas. Los objetivos de un sistema de minera de datos nos permitiran analizar factores de influencia en determinados procesos, predecir o estimar variables o comportamientos futuros, sementar o agrupar tems similares, adems de obtener secuencias de eventos que provocan comportamientos especficos.
Los sistemas de minera de datos se desarrollan bajo lenguajes de ultima generacin basados en la inteligencia artificial y utilizando mtodos matemticos, tales como:
Redes neuronales Introduccin de reglas Arboles de decisin Conjunto de reglas por clase
Soporta tambin sofisticadas operaciones de anlisis tales como los sistemas Scoring y aplicaciones de deteccin de fraude.
El KDD (Knowledge Discovery in Databases) es un proceso que comprende tanto a la minera de datos como el proceso de creacin de conocimiento, buscando procesar las grandes cantidades de datos crudos, identificando los patrones entre los datos obtenidos y generando el conocimiento que satisfaga las necesidades del cliente.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin de la informacin y ese modelo representen un valor agregado, entonces nos referimos al conocimiento.
Data Mining toma el proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin porque est soportado por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
Explorar los datos se encuentran en las profundidades de las bases de datos. Consolidar los datos en un almacn de datos. Tiene una arquitectura cliente-servidor usando procesamiento paralelo. Facilita el uso de varias herramientas y tcnicas para la extraccin de los datos. La minera de datos produce cinco tipos de informacin:
Asociaciones Secuencias Clasificaciones Agrupamientos Pronsticos
Descubrimiento automatizado de modelos previamente desconocidos. Prediccin automatizada de tendencias y comportamientos. Aportes a la toma de decisiones con bases y fundamentos reales basados en los dato.
Fabricante Oracle
SO
Oracle
Windows 32 Bits USD 23.000,00 USD 4.600,00 Windows 32 Bits USD 23.000,00 USD 4.600,00
Oracle
Buy Now / [Channels offered] Microsoft Store Volume Licensing Retail, VL, OEM, ISVR, SPLA
Server Plus CAL Pricing Retail* $13,969 with 25 CALs Example** $8,487 $162 per additional CAL Retail* $1,849 with 5 CALs Example** $885 server, $162 per additional CAL Retail* $739 with 5 CALs Example** $730 per server $146 per additional CAL
Standard Edition
$$5,737 Workgroup Edition Microsoft Store Volume Licensing Retail, VL, OEM, ISVR, SPLA Retail* $3,899 Example**
$3,700 Developer Edition Microsoft Store Volume Licensing Retail, VL, OEM, MSDN Web Edition Volume Licensing SPLA, VL $15 per proc per month (SPLA) Example** $3,500 Retail* $50
Not applicable
Not applicable
Informacin segura y confiable Se usa como una alternativa para la toma de decisiones en una organizacin Permite tener de una manera organizada los datos con el fin de poder extraer informes especficos en determinados ciclos de tiempo Brinda una estructura robusta en el almacenamiento de datos