Capitulo 7 Arquitectura Big Data
Capitulo 7 Arquitectura Big Data
Capitulo 7 Arquitectura Big Data
Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz
24/07/2022 1
7. Arquitectura Big Data
7.1 Recolección de datos
7.1.1 Batch o por lotes
7.1.2 Streaming o por transmisión de tiempo real
7.2 Almacenamiento
7.3 Procesamiento y análisis
7.4 Visualización
24/07/2022 2
24/07/2022 3
La arquitectura de Big Data consiste en
tratar y analizar grandes volúmenes de
datos que no pueden ser gestionados de
manera convencional, al superar las
capacidades de otras herramientas de
software utilizadas convencionalmente
para el almacenamiento, gestión y
procesamiento de datos.
24/07/2022 4
Es posible almacenar, adquirir, procesar y analizar Big
data de muchas formas.
Hoy en día Hadoop sigue siendo el instrumento utilizado con mucha más
frecuencia para procesar Big Data.
Con el tiempo surgieron nuevas soluciones, cada una con características distintas:
24/07/2022 8
• Apache Pig: una plataforma que permite analizar los Big Data
usando un lenguaje de alto nivel junto a una infraestructura
capaz de interpretar este lenguaje, explotando, si es posible, la
oportunidad de paralelizar el cálculo.
24/07/2022 10
Gracias a la virtualización, un
mecanismo que permite usar un solo
servidor para alojar diferentes
servidores virtuales, configurables y
manejables de forma muy flexible, el
Cloud puede ofrecer a los usuarios los
recursos que necesitan, en tiempo
real
24/07/2022 11
DINAMICA NO. 8
Investigar la definición de los siguientes conceptos de Big Data:
▪ MapReduce
▪ Hadoop
▪ Apache Hive
▪ Apache pig
▪ Apache hadoop
▪ Apache Spark
▪ Apache Storn
▪ 3 empresas que ofrezcan el hosting de grandes
volúmenes de datos (por ejemplo peer1, etc.)
Entregable: A través de la plataforma BB, en mensajes, como un adjunto con una
portada con todos sus datos y la definición de cada uno de los conceptos anteriores.
Simulemos que nuestro Director General (CEO), nos pide que busquemos al mejor
proveedor para hospedar toda nuestra información, cual sugeriríamos y porque?
24/07/2022 12
7. Arquitectura Big Data
7.1.1. Batch o por lotes
Estas tecnologías se centraban en un enfoque de Batch
Processing. Es decir, el objetivo era acumular todos los
datos que se pudieran, procesarlos y producir resultados
que se “empaquetaban” por lotes.
24/07/2022 15
Hasta la fecha la gran mayoría de las organizaciones han
empleado este paradigma “Batch”.
24/07/2022 16
UNIVERSIDAD TECNOLÓGICA DE MÉXICO
24/07/2022 19
Técnicas de procesamiento y análisis de datos en
tiempo real
24/07/2022 20
Técnicas de procesamiento y análisis de datos en tiempo real…….
24/07/2022 21
En cualquier caso, las técnicas de procesamiento y análisis de
datos en tiempo real merecen una seria consideración, antes de su
implementación ya que:
24/07/2022 22
24/07/2022 23
7. Arquitectura Big Data
7.2 Almacenamiento
En la era del Big data, las empresas necesitan una plataforma de almacenamiento
robusta y de confianza.
Para todos estos tipos de almacenamiento debemos proponer sin duda un sistema
con un rendimiento fiable, escalable y con un rendimiento ultra elevado para poder
facilitar finalmente su análisis.
24/07/2022 24
Gracias a la enorme cantidad de datos
almacenados, las empresas pueden servir mejor a
sus clientes y aumentar su productividad.
24/07/2022 25
atribuimos por tanto un valor estratégico a los datos, y las
empresas tendrán que buscar la mejor manera de estructurar
toda esta información.
24/07/2022 26
Fácil acceso a los datos:
Las empresas quieren guardar y compartir los datos con un
gasto mínimo de tiempo de configuración y gestión.
24/07/2022 27
• Fácil acceso a los datos………:
24/07/2022 28
Alta escalabilidad:
24/07/2022 29
5 MB DE ALMACENAMIENTO IBM
24/07/2022 30
Alta escalabilidad……..:
Con todo ello, las empresas necesitan por tanto una alta escalabilidad
que les permita la posibilidad de invertir en una solución y pagar en
función de su crecimiento, con el fin de maximizar dicha inversión.
24/07/2022 31
• Alta disponibilidad:
Por esta razón, las empresas necesitaran funcionalidades que les aporten
fiabilidad, como la redundancia de hardware, flexibilidad en los planes de
protección de datos y las soluciones de servidores de conmutación por error.
24/07/2022 32
7. Arquitectura Big Data
7.3 Procesamiento y Análisis
El procesamiento y análisis de datos es una de las áreas mas importante
en Big Data. Los sistemas de gestión de Big Data se definen por (IBM):
Volumen, variedad veracidad y velocidad.
24/07/2022 33
¿El procesamiento y análisis de datos en Big Data?
o Volumen
o La cantidad cada vez mayor de datos y de todo tipo
hace que se produzcan petabytes de información
siendo necesario espacio para su almacenamiento
o Variedad
o Los datos que se usan en Big data no son
homegéneos y podemos encontrar tanto datos
estructurados como sin estructurar o
semiestructurados.
o Veracidad
o Es importante mantener la veracidad y fiabilidad de
los datos para su procesamiento y futuras
decisiones.
o Velocidad
o La disponibilidad y los sistemas de tratamiento de
datos deben de tender a NRT (Near Real Time)
24/07/2022 34
24/07/2022 35
7. Arquitectura Big Data
7.4 Visualización
Visualización
de datos en los
tiempos del Big
Data: ¿cómo
ver lo
relevante?
Una nueva visión que no es más que una correcta visualización de la data, que asegure una
interacción real con los datos, la estimación de los mismos y el análisis a través de formatos
digeribles para su correcta interpretación… formatos gráficos, intuitivos y adaptables.
24/07/2022 36
De igual manera que el cerebro usa la visualización para interpretar y analizar
el mundo que lo rodea, existen soluciones especializados que nos facilitan
la interpretación y análisis de datos mejorando la visualización de los mismos
y proveyéndonos insumos estratégicos para: crear informes significativos
que impacten distintas audiencias; optimizar procesos e incentivar la innovación
dentro de las organizaciones; predecir e identificar oportunidades o tendencias útiles
para futuras acciones.
Pensemos en las empresas en crecimiento que suelen vivir contra reloj. Son más las
que no logran surgir en el corto plazo, que las que se crean. La desinformación, la
desconexión y la pertinencia en el negocio pueden ser posibles causas. Imaginemos
lo que se podría solucionar si ven información relevante:
24/07/2022 37
La visualización de datos permitirá prever las tendencias del mercado
y desarrollar negocios basados en datos.
Por otra parte presentar una visualización resulta ser una solución amigable que
puede ser entendida y compartida con los distintos integrantes de una empresa a
diferentes niveles o departamentos, es decir, no necesitan ser expertos técnicos
en Big Data para poder comprender las visualizaciones, por el contrario resulta
bastante sencillo para todos el poder interactuar con los datos facilitando de esta
forma la interpretación y el análisis.
Beneficios
24/07/2022 41
Nuestra atención se centra en los colores y patrones. Podemos distinguir
rápidamente el rojo del azul y un cuadrado de un círculo. Desde el arte y los
anuncios hasta los programas de televisión y las películas, nuestra cultura es
extremadamente visual.
Los big data ya están aquí. Es momento de descubrir qué tienen que
decirnos.
24/07/2022 42
A medida que la “era de los big data” avanza a máxima velocidad,
las visualizaciones se convierten en una herramienta clave para
comprender los miles de millones de filas de datos que se generan
cada día.
24/07/2022 43
Una visualización de datos efectiva implica un delicado equilibrio entre forma y
función. El gráfico más simple puede ser aburrido y no llamar la atención o
transmitir un mensaje poderoso.
Los gráficos simples son tan solo la punta del iceberg. Hay una gran variedad
de métodos de visualización para presentar los datos de forma eficaz e
interesante.
24/07/2022 47
https://datavizcatalogue.com/ES/buscar/comparaciones.html
Ejemplos de Visualizaciones
Ejemplos de visualizaciones de datos en acción
https://cdnl.tblsft.com/sites/default/files/pages/data_visualization.gif
http://flowingdata.com/2015/12/15/a-day-in-the-life-of-americans
http://graphics.wsj.com/infectious-diseases-and-vaccines/
http://flowingdata.com/2016/12/08/marital-status-by-age
https://cdns.tblsft.com/sites/default/files/pages/data_visualization_map.gif
https://cdns.tblsft.com/sites/default/files/pages/data_visualization_examp
le.gif
24/07/2022 49
UNIVERSIDAD TECNOLÓGICA DE MÉXICO
Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz
24/07/2022 50
24/07/2022 52
24/07/2022 53
24/07/2022 54
24/07/2022 55
24/07/2022 56
24/07/2022 57
24/07/2022 58
24/07/2022 59
UNIVERSIDAD TECNOLÓGICA DE MÉXICO
Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz
24/07/2022 60
UNIVERSIDAD TECNOLÓGICA DE MÉXICO
Materia:
Arquitectura de la Información
Profesor: Mtro. Luis Alberto Guzmán Gtz
24/07/2022 61
Los mismo indicadores (por lo menos 10) de la
practica dos (BD ENTREGABLE PROYECTO
FINAL 04082022), pero ahora haciendo uso de
una herramienta de BI
Power BI es un servicio de análisis de negocios de Microsoft. Su objetivo es
proporcionar visualizaciones interactivas y capacidades de inteligencia
empresarial con una interfaz lo suficientemente simple para que los usuarios
finales creen sus propios informes y paneles.
Consideraciones: