Unidad 2-2
Unidad 2-2
Unidad 2-2
Como estudiar
Compromisos del docente
Me comprometo a responder todas las inquietudes planteadas por cada uno de ustedes a lo
Clave-Valor Columnas
Bases de
Datos
Documentos Objetos
Almacenamiento en la nube
Objetos
Amazon Simple Storage Service
(Amazon S3)
Almacenamiento e informática
Amazon FSx de borde
for Windows
File Server Amazon Elastic
File System
Amazon FSx
for Lustre
https://aws.amazon.com/es/products/storage/
Tipos de Arquitecturas de Almacenamiento
Un data lake es un repositorio de almacenamiento que contienen una gran cantidad de datos en
Data Lake bruto y que se mantienen allí hasta que sea necesario.
Federado Ofrece una solución para integrar lógicamente datos de múltiples fuentes sin
consolidarlos físicamente.
Tomado de Oracle
Plataformas de almacenamiento distribuido
Data Lake Hadoop Distributed File System se encarga de almacenar datos de manera
HDFS Lake
Data distribuida en nodos de un clúster.
Pattern
No - estructurados
Variedad
Si algo caracteriza al Big Data
son las distintas tipologías y
V Los no estructurados, apuntan a
no tener estructura alguna
Fuentes predefinida y lo encontramos en
estructuras de los datos
procediendo de fuentes muy imágenes, vídeos, archivos logs,
diversas. audios…
Semi - estructurados
Los semiestructurados señalan a
documentos con lenguaje HTML,
Importancia de la Variedad
Videos
CRM de la
programa de gestión de las listas de empresa
correo electrónico
• Igualar formatos
• Descartar campos
• Corregir errores ortográficos
Datos • Dar formato a fechas
• Eliminar columnas duplicadas
• Borrar registros no útiles
informes de
programa de redes sociales.
transacciones facturación
Hojas de Cálculo bases de datos
SQL
bancarias. empresarial.
Métodos de limpieza
Transformación
de Datos
Análisis
Eliminación de
duplicados:
Database Método Estadístico:
Características limpieza
• Descartar los campos con contenido aleatorio
• Descartar los campos dependientes
• Igualar formatos
• Descartar campos
• Corregir errores ortográficos
• Dar formato a fechas
• Eliminar columnas duplicadas
• Borrar registros no útiles
Pasos para lograr un modelo predictivo
Métodos de limpieza o curación
• Análisis
• Eliminación de duplicados
• Transformación de datos
• Métodos estadísticos
Bases de datos para analítica sobre gran volumen de datos
• MongoDB – Base de datos orientada a documentos. Es una base de datos
NoSQL, eso quiere decir que no necesitamos código SQL para realizar
operaciones . Trabaja con documentos y colecciones
• Neo4j- Base de datos orientada a grafos. Detección del fraude. Esta base de
datos puede descubrir patrones que con otro tipo de BD sería difícil de
detectar.
Bases de datos para analítica sobre gran volumen de datos
• Elasticsearch. Elasticsearch es un servidor de búsqueda basado en Lucene.
Provee un motor de búsqueda de texto completo, distribuido y con
capacidad de multitenencia
Api’s y Conectores
Middleware y ETL
Cliente Aplicaciones
empresariales Streaming de Datos
Big Data
Tecnologías Compatibles
SOA
Plataformas Integradas
Lecturas Complementarias
• Big Data: A Revolution that Will Transform how We Live, Work, and Think de Viktor Mayer-Schönberger,
Kenneth Cukier
• Big Data: el reto de gestionar datos estructurados y no estructurados
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/big-data-el-reto-de-gestionar-datosestructurados-y-no-
estructurados