Introduccion A La Arquitectura Big Data

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 32

Criterios de Evaluación

La información detallada está en la Guía de la asignatura:

• Clases: Cada martes de 19:00 a 20:00 (CET) [pausa vacacional]

• 4 Actividades que se han de completar en la semana posterior a cada sesión y que


puntúan el 15%

• 3 Debates de jueves a lunes las tres primeras semanas. Puntúan el 5%

• 1 Examen final a realizar de viernes a lunes de la última semana y que vale el 25%
de la nota

• Lecturas recomendadas, complementarias/ampliaciones de los conceptos que se


han explicado en clase.

• Recuperación en las fechas que establezca la coordinación académica.


Planificación
Arquitectura
Por arquitectura de sistemas de información entendemos la disciplina que establece y detalla los
componentes de un sistema de información, sus relaciones (físicas y lógicas) entre ellos y las interacciones
con elementos externos, así como las metodologías que gobiernan la utilización y el ciclo de vida de estos
componentes o de los artefactos relacionados.

“La arquitectura es el arte y


la técnica de proyectar,
diseñar, construir y modificar
el hábitat humano,
incluyendo edificios de todo
tipo, estructuras
arquitectónicas y urbanas y
espacios arquitectónicos y
urbanos.”
Objetivos y Principios de una Arquitectura
Las arquitecturas describen una solución para un problema y están diseñadas con una base de principios y unos
requerimientos (funcionales/de-negocio y no-funcionales/técnicos).
Los principios son típicamente genéricos y dan sentido a las decisiones.

Los principios más habituales son:

• Alinear la estrategia IT con los objetivos de negocio [el IT soportará al negocio]


• Flexibilidad, Extensibilidad, Estándares – [buscar mínimos tiempos de respuesta a cambios]
• Simplicidad – [disminuir los costes de gestión]
• Fiabilidad, Seguridad – [primar la continuidad del negocio]
• Rendimiento, Gestionabilidad [tiempos de respuesta, costes de gestión]

En las arquitecturas informacionales se suelen añadir los siguientes principios algo más específicos:

• Separación entre los repositorios de datos Operacional e Informacional [agilidad de las decisiones]
• Encapsulación y Acceso a los Datos – [Control de los datos]
• Datos Gobernados – [Control de los datos]
• Objetivo Tiempo Real – [tiempos de respuesta]
Entornos en el IT de una organización

Entorno operacional
Objetivo: Validar y registrar las
operaciones de negocio.

Entorno informacional
Objetivo: Extraer insights (valor) de los
datos disponibles.

Entorno de soporte técnico


Objetivo: Mantener la disponibilidad
de los sistemas.

Los sistemas IT de una organización


Arquitectura de Referencia de un Entorno informacional
SCOPE DE LA ARQUITECTURA
ROLES

PROCESAMIENTO EN TIEMPO REAL


(STREAMING)

FUENTES ANALÍTICA
DE DATOS Y VALOR
REPOSITORIOS ANALITICOS
INTEGRACION ACCESO A
Y OPERACIONALES
DE DATOS DATOS

GOBIERNO

SEGURIDAD
Arquitectura de Referencia de un Entorno Informacional
TÍTULO (JOSEFIN SANS 18)
ROLES Ingeniero de Datos Data Steward Analista de Negocio Chief Data Officer Científico de Datos Desarrollador

PROCESAMIENTO EN
FUENTES Analítica en Data Caching ANALÍTICA
TIEMPO REAL CEP
DE DATOS Tiempo Real Data Enrichment Y VALOR
(STREAMING)
DATOS OPERACIONALES
INTEGRACION REPOSITORIOS ANALITICOS Y ACCESO A
DE DATOS OPERACIONALES DATOS Búsqueda y Discovery

Datos de Transac- Datos de


Aplicación cionales Terceros Data Science (ML/DL)
Extracción
Data
BigData AutoServicio
OTROS TIPOS DE DATOS WareHouses y
Runtimes Visualización
Transformación DataMarts

Video Federación Analítica Predictiva


Imagen Texto Ingestión Batch

Repositorio de Repositorios de Analítica Tradicional BI


Ingestión Online
IoT Social Internet Documentos Deep Analytics APIs

Replicación Toma de Decisiones


ORIGEN
Clasificación o Sand Boxes Landing Zone Virtualización Analítica de Contenidos
Cloud Local Externo Interpretación

Inventario Datos Maestros y


GOBIERNO Glosario Calidad Trazabilidad Ciclo de Vida Modelos
Catálogo Referenciales

SEGURIDAD Monitorización actividad


Encriptación Enmascaramiento Cumplimiento
del dato
¿Qué se considera Big Data?
• El Volúmen o la Velocidad de generación de los datos son tan elevados que
los métodos de procesado tradicionales se vuelven ineficientes.

• La ineficiencia se manifiesta generalmente en tiempos de respuesta


exponencialmente crecientes que hacen que el procesado de estos
volúmenes de información sea inviable

Tiempo de
respuesta

volumen
Las 5 V’s de Big Data

Velocidad Variedad Volumen

Valor Veracidad
Arquitectura de un Entorno Informacional y Big Data
Fuentes de Datos

En función de la variabilidad de los datos


• Fuentes generadoras de datos (IoT).
• Repositorios dinámicos (transaccional)
• Repositorios estáticos (wikipedia)

En función de la naturaleza de los datos


• Datos estructurados
• Datos no estructurados
• Datos semi-estructurados

En función de la propiedad de la fuente


• Externas
• Internas
Integración de Datos
Los objetivos de los componentes de integración de datos son variados pero pueden
resumirse en tres capacidades:

• Capacidad de acceder a la fuente de datos, cualquiera que sea su naturaleza,


ubicación o interface. Típicamente el integrador de datos dispone de múltiples
variantes para acceder al 95% de las interfaces de mercado y alguna forma de
E
customización para acceder a fuentes con interfaces propietarias

• Capacidad de transformar los datos mediante cambio de formato, mapeo,


combinación de fuentes, enriquecimiento o incluso etapas de validación o control de
T
la calidad.

• Capacidad de depositar los datos en el repositorio destino en las condiciones


adecuadas para facilitar su consumo eficiente desde las etapas posteriores (analítica). L
Repositorios Analíticos y Operacionales

En este componente de la arquitectura se ubican los repositorios de los datos


con los que se va a proceder a desarrollar la analítica.
No existe un repositorio único para todos los datos. Hay repositorios específicos
en función de dos parámetros:

Exploración,
Analítica,
desarrollo,
visualización
preparación

estructurado DataWarehouse
SandBox
Landing Zone
Deep Analytics
no Data-Lake
estructurado Content Mgr
Acceso a los Datos
Distintas formas y niveles de Acceso a los Datos:

API: Las Aplicaciones acceden a los Autoservicio: Ciertas aplicaciones facilitan Virtualización: Los datos se Federación: Varias fuentes de
datos mediante APIs que dependen el acceso, visualización y ciertas presentan con una estructura datos o datasets se presentan y
de la naturaleza de éstos y del operaciones analíticas a los usuarios con distinta a la original. acceden como si fueran una
lenguaje en que está desarrolladas una interfaz intuitiva. Ejemplo: Hive presenta como una única fuente.
estas aplicaciones base de datos relacional, datasets Se usa especialmente en BBDD
en forma de ficheros planos

REST, HTTP,
JDBC, SQL, Aplicación de
ODBC, FILE, Autoservicio
QUEUE
API
Analítica y Valor

En este bloque o subsistema se integran todos aquellos componentes que elaboran el Big
Data y obtienen el valor para la organización.

Búsqueda y Analítica Analítica Analítica Optimización


Descubrimiento Tradicional Predictiva Cognitiva
Analítica y Valor

En la actualidad, la IA ha emergido con fuerza y es extraordinariamente eficiente para la analítica.


Permite entre otras cosas.

• Comprender textos mediante Natural Language Processing


• Comprender imágenes o secuencias de imágenes mediante Visual Recognition
• Obtener propiedades no evidentes de conjuntos de datos (Insights)
• Reconocer un número limitado de patrones en muestras grandes de datos.
• Predecir comportamientos
• Generar discurso o imagenes.

La IA ayudará a encontrar más y mejor valor en los datos para tomar mejores decisiones en la
gestión del negocio.
Streaming o Procesado en tiempo real
El procesado en tiempo real de Big Data puede ser necesario en determinadas ocasiones,
especialmente en las que se requiere una acción inmediata en cuanto ocurran:

Típicamente los datos asociados a este tipo de proceso son los que provienen de fuentes
como IoT o redes sociales y se trata de detectar anomalías, alcance de umbrales
(absolutos o agregados) o también secuencias de patrones de datos, con el fin de tomar
decisiones rápidas e impedir, por ejemplo, que estos eventos conduzcan a situaciones que
puedan ser irreversibles:

• una máquina rota


• un fraude
• una cantidad de material desperdiciado
• un problema de reputación de marca
• …
Seguridad
La Seguridad en Big Data se refiere al proceso de proteger los datos de accesos no
autorizados a lo largo de todo su ciclo de vida.

• La encriptación, una de las técnicas que protege de los robos de datos. Éstos se
almacenan encriptados. Las claves de encriptación y desencriptación las debe tener (y
custodiar) el propietario de los datos y usarlas en los accesos.

ABC ₹₼
• Enmascaramiento, o forma óptima para facilitar datos de producción a desarrolladores.
Los técnicos de desarrollo no acceden a datos reales sino a datos que han sido
previamente enmascarados o anonimizados, perdiendo la información esencial para
identificar al individuo o transacción. El masking puede ser estático o dinámico.

Masking dinámico
Consumidores
Producción (Desarrollo, Analítica, Testing)
Copia enmascarada
Seguridad

• Cualquier sistema informacional debe incorporar también mecanismos para monitorizar y/o bloquear los
comportamientos y accesos no permitidos o sospechosos.

Monitor de
Actividad

Hay otros aspectos de seguridad que afectan a los datos, pero están dentro de una interpretación más amplia de la
Seguridad que ya no forma parte del alcance.
Gobierno
El Gobierno de un sistema informacional de Big Data debe garantizar la fiabilidad y la consistencia de los
resultados, el alineamiento con los requerimientos de Negocio y el cumplimiento de la regulación

Riesgo
Riesgo
Más y mejor conocimiento -> Buenas decisiones Riesgo
Conocimiento
Poco y mal conocimiento -> Malas decisiones Conocimiento
Conocimiento

Buen
Conocimiento
Datos

Gobierno del Dato


Gobierno
El Gobierno de un sistema informacional de Big Data debe garantizar la fiabilidad y la consistencia de
los resultados, el alineamiento con los requerimientos de Negocio y el cumplimiento de la regulación
Modelización

Calidad y
Remediación

Fiabilidad Gestión del


Ciclo de Vida

Referencias
Maestros

Sistema
de
Gobierno Diccionarios
Glosarios
Alineamiento Catálogos

Organización

Auditabilidad
Cumplimiento
regulación
Protección

Compliance
Gobierno

El Gobierno destinado a garantizar la fiabilidad de los datos consiste en:


Garantizar la calidad
Analizar los modelos El nivel de confianza de los resultados
Comprender el contenido y es muy dependiente de la exactitud
estructura de los datos. de los datos y de la capacidad de
Identificar inconsistencias, explicar el origen de todas las
redundancias o anomalías. contribuciones a éstos.

Referencias / Maestros
Proveerse de datos maestros El ciclo de vida
para uso de toda la Los procesos para gestionar la
organización y evitar información de negocio desde
incoherencias el momento de su creación
hasta su borrado. DataOps
Gobierno

El Gobierno destinado a garantizar el alineamiento con el negocio consiste en:

Comunicación
El lenguaje técnico y el de
negocio son distintos, debe
haber diccionarios para
asegurar la comunicación.

Organización
Es fundamental una jerarquia en la
que se repartan responsabildades
específicas de Gobierno.
La organización es parte de la
arquitectura de datos.
Gobierno

El Gobierno destinado al cumplimiento de la regulación consiste en:

Protección
Las regulaciones obligan a una
protección de la información
privada

Gestión
La regulación requiere cumplir ciertos
protocolos de obtención del
consentimiento, de organización o de
auditabilidad
Roles
Un entorno informacional de Big Data es accedido por personas con diferente rol y con diferentes objetivos. Es
aconsejable cosiderar cada uno de estos roles en la arquitectura ya que, en cierta medida son “componentes”
que interaccionan de distinta forma con el sistema informacional.
Los más importantes son:

Nivel Ingeniero de
Operacional Datos
Gestion de la
Plataforma Chief Data
Decisión
Oficer

Roles Nivel funcional Data Stewards

Analista de
Negocio

Uso de la
Plataforma
Data Scientist
Roles
Responsabilidad máxima.
Decisiones estratégicas y tácticas
Ownership de la plataforma
Chief Data
Oficer

Disponibilidad Ingeniero de Data Gobierno


Datos Stewards

Convertir el Analista de Data Hallar el


valor en negocio Negocio Scientist Valor
El mercado actual
PROCESAMIENTO Analítica en Data Caching
EN TIEMPO REAL CEP ANALÍTICA
Tiempo Real Data Enrichment Y VALOR
(STREAMING)

INTEGRACIO REPOSITORIOS ACCESO A


N ANALITICOS Y DATOS Búsqueda y Discovery
DE DATOS OPERACIONALES

Data Science (ML/DL)


Extracción
Data
BigData AutoServicio
WareHouses y
Runtimes Visualización
Transformación DataMarts

Federación Analítica Predictiva


Ingestión Batch

Repositorio de Repositorios de Analítica Tradicional BI


Ingestión Online
Documentos Deep Analytics APIs

Replicación Toma de Decisiones

Clasificación o Sand Boxes Landing Zone Virtualización Analítica de Contenidos


Interpretación

GOBIERNO

SEGURIDAD Monitorización actividad


Encriptación Enmascaramiento Cumplimiento
del dato
Enfoque Lambda y Kappa

Resultados para
Datos calientes
reacción inmediata
(según se generan)

Sistema Informacional
Capturar -> (Almacenar )-> Procesar
Datos fríos
Resultados elaborados
para toma de decisiones
Enfoque Lambda

Resultados para
Datos calientes
reacción inmediata
(según se generan)

Datos fríos
Resultados elaborados
para toma de decisiones
Enfoque Kappa

Resultados para
Datos calientes
reacción inmediata
(según se generan)

Datos fríos
Resultados elaborados
para toma de decisiones

También podría gustarte