Unidad 2-2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 33

Aplicaciones Empresariales

en entornos Big Data


Ing. Karina Gaona, Mgs.
Magister en Sistemas de Información Gerencial
Docente Tutor
Unidad 2. Almacenamiento y variedad de los datos
• Tipos de Bases de Datos
• Bases NoSQL y Cloud
• Arquitecturas de Almacenamiento
• Data warehouse y Data Lake
• Data LakeHouse
• Plataformas de Almacenamiento
• Variedad de la Información
• Limpieza de datos
• Bases de datos más usadas en analítica
Max Weber
Compromisos del estudiante.
El estudiante deberá comprometerse a entregar las actividades y tareas a tiempo y

Queda expresamente prohibida la reproducción total o parcial de este contenido


correctamente desarrolladas.
Es obligación del estudiante estar pendiente de notificaciones y actividades que se realicen
mediante plataforma.
El estudiante deberá realizar preguntas de cualquier tipo de dudas que surjan en el
desarrollo de la asignatura, al docente tutor.
El estudiante tendrá una participación activa y constructiva en los foros académicos
planteados.
El estudiante deberá revisar con responsabilidad los temas anticipadamente según la
programación.

Como estudiar
Compromisos del docente
Me comprometo a responder todas las inquietudes planteadas por cada uno de ustedes a lo

Queda expresamente prohibida la reproducción total o parcial de este contenido


largo del curso, desde los diferentes canales de comunicación del campus virtual.
Me comprometo a calificar los talleres en un plazo de máximo 2 días a partir de la fecha
límite de entrega.
Me comprometo a notificar anticipadamente las pautas de alguna actividad en especifico.
Enviaré recordatorios del tema que se abordará en la nueva semana de clases.
Utilizaré herramientas digitales durante las clases para complementar el proceso de
enseñanza y aprendizaje.
Instrucciones de estudio de la materia
Leer con atención cada concepto y tema planteado.

Queda expresamente prohibida la reproducción total o parcial de este contenido


Completar las auto-evaluaciones de forma responsable.
Los estudiantes deberán dar respuesta a los foros, debidamente fundamentada y de su
propio intelecto.
Revisar detenidamente los videos de las clases grabadas.
Participar constructivamente en los foros, mensajería, sesiones prácticas, entre otras.
Tipos de Base de datos

Centralizadas Distribuidas NoSQL Cloud Relational Network Objetos Jerárquicas


Bases de Datos
Relacionales. Relational Database management system(RDBMS)
Sistema de Gestión de base de datos , basado en un modelo relacional de
datos, y es una manera completamente estructurada de almacenamiento de
datos.
NoSQL . Not only SQL
Es una base no relacional, columnar, diseñada para manejar grandes
cantidades de datos en muchos servidores. No tiene un esquema fijo.
Diferencias No Sql y Rdbms
No SQL RDBMS
NoSQL is used to deal with unstructured RDBMS is used to deal with structured
data. data.
NoSQL has no fixed schema. RDBMS has a fixed schema
In NoSQL, relationships are described In RDBMS, there are concepts of primary
using collections and foreign keys, joins etc.
In NoSQL, a table is a list of "nested key- In RDBMS, a table is an array of arrays.
value pairs". (Row x Column Key X (Row X Column)
Column value)
In NoSQL, a column is a unit of storage In RDBMS, the column represents the
attributes of a relation.
NoSQL
• Las bases de datos NoSQL se han
desarrollado en los últimos años
como respuesta a las limitaciones
de las bases de datos relacionales y
para ofrecer rendimiento,
escalabilidad y flexibilidad;
esenciales para las aplicaciones
modernas.
Bases de Datos NoSQL
Grafos

Clave-Valor Columnas
Bases de
Datos

Documentos Objetos
Almacenamiento en la nube
Objetos
Amazon Simple Storage Service
(Amazon S3)

Almacenamiento e informática
Amazon FSx de borde
for Windows
File Server Amazon Elastic
File System

Amazon FSx
for Lustre

Archivos VOLUMEN Bloque


Amazon Elastic Block Store
Amazon Elastic File System

https://aws.amazon.com/es/products/storage/
Tipos de Arquitecturas de Almacenamiento
Un data lake es un repositorio de almacenamiento que contienen una gran cantidad de datos en
Data Lake bruto y que se mantienen allí hasta que sea necesario.

El Data Warehouse proporciona unos resultados más limpios, estructurados y


Data Warehouse
fiables.

LakeHouse Es una arquitectura que combina características de Data Lakes y Data


Warehouses.

Federado Ofrece una solución para integrar lógicamente datos de múltiples fuentes sin
consolidarlos físicamente.

Memoria- Es utilizado en aplicaciones que requieren un acceso ultrarrápido a los datos,


Cache como aplicaciones en tiempo real y análisis de alta velocidad.
Data warehouse
Está diseñada para capturar la esencia del negocio de otros sistemas
empresariales (por ejemplo, sistemas de gestión de relaciones con el cliente
(CRM), inventario y transacciones de ventas) y que permite a los analistas y
usuarios comerciales obtener información y tomar decisiones comerciales
importantes a partir de esos datos.
Data Lake
Lago de datos es una ubicación centralizada donde se almacenan todos los
datos, independientemente de su fuente o formato. Por lo general, se
construye utilizando Hadoop u otra arquitectura escalable (como la nube)
que le permite almacenar volúmenes significativos de datos de manera
rentable. Los datos pueden ser estructurados o no-estructurados.
Data warehouse Data Lake
Schema-on-write Schema-on-read
Scales to moderate to large volumes at moderate cost Scales to huge volumes at low cost
Accessed through standardized SQL and BI tools Accessed through SQL-like systems, programs created
by developers and also supports big data analytics
tools
Supports batch processing as well as thousands of Supports batch and stream processing, plus an
concurrent users performing interactive analytics improved capability over data warehouses to support
big data inquiries from users
Data Cleansed Data Raw and refined
Efficiently uses CPU/IO but high storage and processing Efficiently uses storage and processing capabilities at
costs very low cost
Only structured data Structured and no-structured data
Aplicaciones de un Data Warehouse
- Identificación de clientes VIP- Análisis de saldos en clientes
- Análisis de productos
- Segmentación de mercados
- Análisis de rentabilidad post-venta
- Identificación de productos y ventas exitosas
- Identificación de línea base de productos
Aplicaciones de un Data Lake
• Conocer mejor al cliente
• Sistemas de Recomendación con alta probabibilidad de compra
• Next product to buy. Anticiparse al siguiente producto que requerirá el
cliente
• Gestión de cobranzas. Detectar un cliente propenso a no pagar.
DataLake reemplazará a
Data warehouse?
Data LakeHouse
Plataforma de datos moderna creada a partir de una combinación de un lago
de datos y un almacén de datos. Más específicamente, un Data Lakehouse
toma el almacenamiento flexible de datos no estructurados de un lago de
datos y las funciones y herramientas de gestión de almacenes de datos y, a
continuación, los implementa estratégicamente juntos como un sistema más
grande.

Tomado de Oracle
Plataformas de almacenamiento distribuido

Data Lake Hadoop Distributed File System se encarga de almacenar datos de manera
HDFS Lake
Data distribuida en nodos de un clúster.
Pattern

Ceph es un sistema de almacenamiento, que proporciona múltiples copias de


CEPH datos con fines de rendimiento y confiabilidad.

El sistema de archivos de Databricks (DBFS) es un sistema de archivos


DBFS distribuido montado en un área de trabajo de Azure Databricks y disponible
en los clústeres de Azure Databricks
Como funciona HDFS NameNode: es el nodo maestro que
procesa información de metadatos para
bloques de datos dentro del HDFS.

DataNode:este es el nodo que actúa


como nodo esclavo se encarga de
almacenar los datos.
Hadoop
Variedad de la Información
Estructurados
se almacenan en bases de datos relacionales
donde su longitud, denominación y formato
han sido predefinidos. Ejemplos: ERP, CRM.

No - estructurados
Variedad
Si algo caracteriza al Big Data
son las distintas tipologías y
V Los no estructurados, apuntan a
no tener estructura alguna
Fuentes predefinida y lo encontramos en
estructuras de los datos
procediendo de fuentes muy imágenes, vídeos, archivos logs,
diversas. audios…

Semi - estructurados
Los semiestructurados señalan a
documentos con lenguaje HTML,
Importancia de la Variedad
Videos

CRM de la
programa de gestión de las listas de empresa
correo electrónico
• Igualar formatos
• Descartar campos
• Corregir errores ortográficos
Datos • Dar formato a fechas
• Eliminar columnas duplicadas
• Borrar registros no útiles

informes de
programa de redes sociales.
transacciones facturación
Hojas de Cálculo bases de datos
SQL
bancarias. empresarial.
Métodos de limpieza
Transformación
de Datos

Análisis

Eliminación de
duplicados:
Database Método Estadístico:
Características limpieza
• Descartar los campos con contenido aleatorio
• Descartar los campos dependientes
• Igualar formatos
• Descartar campos
• Corregir errores ortográficos
• Dar formato a fechas
• Eliminar columnas duplicadas
• Borrar registros no útiles
Pasos para lograr un modelo predictivo
Métodos de limpieza o curación
• Análisis
• Eliminación de duplicados
• Transformación de datos
• Métodos estadísticos
Bases de datos para analítica sobre gran volumen de datos
• MongoDB – Base de datos orientada a documentos. Es una base de datos
NoSQL, eso quiere decir que no necesitamos código SQL para realizar
operaciones . Trabaja con documentos y colecciones

• Neo4j- Base de datos orientada a grafos. Detección del fraude. Esta base de
datos puede descubrir patrones que con otro tipo de BD sería difícil de
detectar.
Bases de datos para analítica sobre gran volumen de datos
• Elasticsearch. Elasticsearch es un servidor de búsqueda basado en Lucene.
Provee un motor de búsqueda de texto completo, distribuido y con
capacidad de multitenencia

• Cassandra. Apache Cassandra NoSQL distribuida y basada en un modelo de


almacenamiento de «clave-valor», de código abierto que está escrita en
Java. Permite grandes volúmenes de datos en forma distribuida. Por
ejemplo, lo usa Twitter para su plataforma
Integración de Aplicaciones Empresariales con entornos Big Data

Api’s y Conectores
Middleware y ETL
Cliente Aplicaciones
empresariales Streaming de Datos
Big Data
Tecnologías Compatibles
SOA
Plataformas Integradas
Lecturas Complementarias
• Big Data: A Revolution that Will Transform how We Live, Work, and Think de Viktor Mayer-Schönberger,
Kenneth Cukier
• Big Data: el reto de gestionar datos estructurados y no estructurados
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/big-data-el-reto-de-gestionar-datosestructurados-y-no-
estructurados

• Bases de datos orientadas a grafos y su enfoque en el mundo real


https://www.academia.edu/5731075/Bases_de_datos_orientadas_a_grafos_y_su_enfoque_en_el_mundo_real
Gracias

También podría gustarte