Introduccion A La Arquitectura Big Data
Introduccion A La Arquitectura Big Data
Introduccion A La Arquitectura Big Data
• 1 Examen final a realizar de viernes a lunes de la última semana y que vale el 25%
de la nota
En las arquitecturas informacionales se suelen añadir los siguientes principios algo más específicos:
• Separación entre los repositorios de datos Operacional e Informacional [agilidad de las decisiones]
• Encapsulación y Acceso a los Datos – [Control de los datos]
• Datos Gobernados – [Control de los datos]
• Objetivo Tiempo Real – [tiempos de respuesta]
Entornos en el IT de una organización
Entorno operacional
Objetivo: Validar y registrar las
operaciones de negocio.
Entorno informacional
Objetivo: Extraer insights (valor) de los
datos disponibles.
FUENTES ANALÍTICA
DE DATOS Y VALOR
REPOSITORIOS ANALITICOS
INTEGRACION ACCESO A
Y OPERACIONALES
DE DATOS DATOS
GOBIERNO
SEGURIDAD
Arquitectura de Referencia de un Entorno Informacional
TÍTULO (JOSEFIN SANS 18)
ROLES Ingeniero de Datos Data Steward Analista de Negocio Chief Data Officer Científico de Datos Desarrollador
PROCESAMIENTO EN
FUENTES Analítica en Data Caching ANALÍTICA
TIEMPO REAL CEP
DE DATOS Tiempo Real Data Enrichment Y VALOR
(STREAMING)
DATOS OPERACIONALES
INTEGRACION REPOSITORIOS ANALITICOS Y ACCESO A
DE DATOS OPERACIONALES DATOS Búsqueda y Discovery
Tiempo de
respuesta
volumen
Las 5 V’s de Big Data
Valor Veracidad
Arquitectura de un Entorno Informacional y Big Data
Fuentes de Datos
Exploración,
Analítica,
desarrollo,
visualización
preparación
estructurado DataWarehouse
SandBox
Landing Zone
Deep Analytics
no Data-Lake
estructurado Content Mgr
Acceso a los Datos
Distintas formas y niveles de Acceso a los Datos:
API: Las Aplicaciones acceden a los Autoservicio: Ciertas aplicaciones facilitan Virtualización: Los datos se Federación: Varias fuentes de
datos mediante APIs que dependen el acceso, visualización y ciertas presentan con una estructura datos o datasets se presentan y
de la naturaleza de éstos y del operaciones analíticas a los usuarios con distinta a la original. acceden como si fueran una
lenguaje en que está desarrolladas una interfaz intuitiva. Ejemplo: Hive presenta como una única fuente.
estas aplicaciones base de datos relacional, datasets Se usa especialmente en BBDD
en forma de ficheros planos
REST, HTTP,
JDBC, SQL, Aplicación de
ODBC, FILE, Autoservicio
QUEUE
API
Analítica y Valor
En este bloque o subsistema se integran todos aquellos componentes que elaboran el Big
Data y obtienen el valor para la organización.
La IA ayudará a encontrar más y mejor valor en los datos para tomar mejores decisiones en la
gestión del negocio.
Streaming o Procesado en tiempo real
El procesado en tiempo real de Big Data puede ser necesario en determinadas ocasiones,
especialmente en las que se requiere una acción inmediata en cuanto ocurran:
Típicamente los datos asociados a este tipo de proceso son los que provienen de fuentes
como IoT o redes sociales y se trata de detectar anomalías, alcance de umbrales
(absolutos o agregados) o también secuencias de patrones de datos, con el fin de tomar
decisiones rápidas e impedir, por ejemplo, que estos eventos conduzcan a situaciones que
puedan ser irreversibles:
• La encriptación, una de las técnicas que protege de los robos de datos. Éstos se
almacenan encriptados. Las claves de encriptación y desencriptación las debe tener (y
custodiar) el propietario de los datos y usarlas en los accesos.
ABC ₹₼
• Enmascaramiento, o forma óptima para facilitar datos de producción a desarrolladores.
Los técnicos de desarrollo no acceden a datos reales sino a datos que han sido
previamente enmascarados o anonimizados, perdiendo la información esencial para
identificar al individuo o transacción. El masking puede ser estático o dinámico.
Masking dinámico
Consumidores
Producción (Desarrollo, Analítica, Testing)
Copia enmascarada
Seguridad
• Cualquier sistema informacional debe incorporar también mecanismos para monitorizar y/o bloquear los
comportamientos y accesos no permitidos o sospechosos.
Monitor de
Actividad
Hay otros aspectos de seguridad que afectan a los datos, pero están dentro de una interpretación más amplia de la
Seguridad que ya no forma parte del alcance.
Gobierno
El Gobierno de un sistema informacional de Big Data debe garantizar la fiabilidad y la consistencia de los
resultados, el alineamiento con los requerimientos de Negocio y el cumplimiento de la regulación
Riesgo
Riesgo
Más y mejor conocimiento -> Buenas decisiones Riesgo
Conocimiento
Poco y mal conocimiento -> Malas decisiones Conocimiento
Conocimiento
Buen
Conocimiento
Datos
Calidad y
Remediación
Referencias
Maestros
Sistema
de
Gobierno Diccionarios
Glosarios
Alineamiento Catálogos
Organización
Auditabilidad
Cumplimiento
regulación
Protección
Compliance
Gobierno
Referencias / Maestros
Proveerse de datos maestros El ciclo de vida
para uso de toda la Los procesos para gestionar la
organización y evitar información de negocio desde
incoherencias el momento de su creación
hasta su borrado. DataOps
Gobierno
Comunicación
El lenguaje técnico y el de
negocio son distintos, debe
haber diccionarios para
asegurar la comunicación.
Organización
Es fundamental una jerarquia en la
que se repartan responsabildades
específicas de Gobierno.
La organización es parte de la
arquitectura de datos.
Gobierno
Protección
Las regulaciones obligan a una
protección de la información
privada
Gestión
La regulación requiere cumplir ciertos
protocolos de obtención del
consentimiento, de organización o de
auditabilidad
Roles
Un entorno informacional de Big Data es accedido por personas con diferente rol y con diferentes objetivos. Es
aconsejable cosiderar cada uno de estos roles en la arquitectura ya que, en cierta medida son “componentes”
que interaccionan de distinta forma con el sistema informacional.
Los más importantes son:
Nivel Ingeniero de
Operacional Datos
Gestion de la
Plataforma Chief Data
Decisión
Oficer
Analista de
Negocio
Uso de la
Plataforma
Data Scientist
Roles
Responsabilidad máxima.
Decisiones estratégicas y tácticas
Ownership de la plataforma
Chief Data
Oficer
GOBIERNO
Resultados para
Datos calientes
reacción inmediata
(según se generan)
Sistema Informacional
Capturar -> (Almacenar )-> Procesar
Datos fríos
Resultados elaborados
para toma de decisiones
Enfoque Lambda
Resultados para
Datos calientes
reacción inmediata
(según se generan)
Datos fríos
Resultados elaborados
para toma de decisiones
Enfoque Kappa
Resultados para
Datos calientes
reacción inmediata
(según se generan)
Datos fríos
Resultados elaborados
para toma de decisiones