dossier-master-big-data-engineering-ucm
dossier-master-big-data-engineering-ucm
dossier-master-big-data-engineering-ucm
2ª
EDICIÓN
La importancia del
Data Engineering
NECESIDAD DEL MERCADO
Las empresas y organismos están adoptando
rápidamente la transformación digital para
aprovechar el valor de los datos masivos en la
toma de decisiones. El Big Data se ha convertido en EL ROL DEL DATA ENGINEER
un recurso valioso para la gestión empresarial, y Las metodologías de la Ciencia de Datos para
lo que comenzó como una ventaja competitiva se extraer valor de los datos, basadas en Machine
ha vuelto esencial para mantenerse relevante. El Learning e Inteligencia Artificial, requieren que,
dato es considerado como el petróleo del siglo XXI, primero, se hayan definido infraestructuras y
y aquellos que puedan aprovechar su potencial arquitecturas que les permitan acceder a estos
estarán en una posición privilegiada para innovar datos. Los Ingenieros de Datos son los encargados
y liderar en sus respectivos mercados. de crear flujos de datos con los que proveer a
los Científicos de Datos que los analizarán, y
definir procesos y estándares para desplegar en
producción dichos modelos predictivos y explotar
ECOSISTEMA BIG DATA sus resultados, cerrando el ciclo de aporte de valor
El impacto de la información a gran escala va más en la empresa. Para ello utilizan herramientas
allá del ámbito matemático o estadístico, ya que especializadas en datos masivos y tecnologías
tiene aplicaciones prácticas en diversos campos cloud.
empresariales, gubernamentales, científicos y
sociales. El Big Data se ha convertido en un recurso
fundamental para afrontar situaciones complejas OPTIMIZACIÓN EN LA EXPERIENCIA
en tiempo real, permitiendo tomar decisiones DEL CLIENTE
informadas y generar conocimiento valioso en
áreas como la medicina, la seguridad, el marketing, La labor de los Data Engineers permite a las
entre otros. El Big Data es una herramienta organizaciones optimizar la experiencia del
imprescindible en el mundo actual que ayuda a cliente de manera más precisa. A través de la
resolver problemas y aprovechar oportunidades estructuración y procesamiento eficiente de
en diversos entornos y sectores. grandes volúmenes de datos, los ingenieros de datos
pueden identificar patrones de comportamiento y
preferencias, lo que facilita la creación de modelos
y sistemas que mejoren productos y servicios. Esto
INNOVACIÓN IMPULSADA POR LA ayuda a alinear mejor la oferta con las expectativas
INGENIERÍA DE DATOS del consumidor, aumentando tanto la satisfacción
Los Data Engineers no solo contribuyen a la como la lealtad.
eficiencia operativa, sino que también juegan
un papel clave en impulsar la innovación. Su
capacidad para gestionar y organizar grandes
volúmenes de datos permite descubrir patrones
ocultos y nuevas oportunidades de negocio,
lo que se traduce en productos y servicios más
competitivos y alineados con las demandas del
mercado actual.
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Esto incluye el uso de herramientas cloud (orquestar flujos y bases de datos diversas) y también la
implementación de procesos específicos de ingestas y tratamientos, puesto que los datos en crudo
habitualmente distan aún de ser útiles para perfiles analíticos.
Asimismo, los ingenieros de datos, en conjunción con los equipos de analítica, determinan las
prácticas de ingeniería que deben seguirse para desplegar y llevar a producción los modelos analíticos,
y se encargan de su mantenimiento y monitorización operativa - esto es, que permanezcan vivos
y funcionales - al mismo tiempo que los científicos de datos monitorizan las métricas que se van
obteniendo.
Duración
1 año académico
Modalidades
Presencial, Semipresencial y Online
Creditos ECTS
60
Modalidad
Presencial
Viernes tarde y sábados
mañana en la universidad
Modalidad
Semipresencial
INFORMACIÓN
3 Semanas en presencial
en la universidad y en la
plataforma online
Modalidad
Online
100% desde nuestra
plataforma online
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
U N I V E R S I D A D
COMPLUTENSE
M A D R I D
ntic master
U N I V E R S I D A D
COMPLUTENSE ntic master
MÓDULO
M A D R I D
Python para
Desarrolladores
Índice de contenidos:
• Compiladores, intérpretes, lenguajes • Programación Orientada a Objetos.
interpretados y compilados.
• Versionado de código con Git.
• Flujo de control, estructuras de datos básicas
• Desarrollo de un paquete de Python.
(listas, diccionarios).
• Tests unitarios y paquetes específicos.
• Manejo de DataFrames de Pandas.
• Control de excepciones:
• Expresiones regulares.
U N I V E R S I D A D
COMPLUTENSE ntic master
MÓDULO
M A D R I D
Programación
en Scala
Índice de contenidos:
• Introducción a Scala. Relación con Java y la JVM.
MÓDULO
M A D R I D
Arquitecturas
de datos
MÓDULO
M A D R I D
Diseño de Bases de
Datos Relacionales
Durante los procesos de desarrollo de flujos de datos también • Diseño de bases de datos relacionales:
es necesario consultar frecuentemente bases de datos
• Modelo Entidad-Relación.
utilizando el lenguaje de consulta SQL, el más extendido en
la actualidad. • Modelo relacional.
MÓDULO
M A D R I D
Bases de
Datos NoSQL
Las bases de datos NoSQL se están convirtiendo en una • Bases de datos de grafos: Neo4J
opción cada vez más popular para las organizaciones debido
• Nodos, relaciones y atributos.
a su capacidad para manejar grandes cantidades de datos
y su flexibilidad para adaptarse a los cambios de datos, lo • Visualización de grafos.
que las hace ideales para big data y aplicaciones en tiempo
real. Al adquirir estas habilidades, como ingeniero de datos
contarás con conocimientos para afrontar los desafios del
futuro en la gestión de datos no estructurados. En una era en
la que los datos son el nuevo petróleo, aprender sobre bases
de datos NoSQL puede ser una pieza clave para abrir nuevas
oportunidades en una amplia gama de industrias, desde la
tecnología hasta la salud, las finanzas y más allá.
U N I V E R S I D A D
COMPLUTENSE ntic master
MÓDULO
M A D R I D
Apache Kafka y
procesamiento
en tiempo real
Apache Kafka es una plataforma de paso de mensajes en Índice de contenidos
near real time, empleada para comunicar instantáneamente
distintas aplicaciones conectadas a él, al estilo de un gran • Arquitectura y Conceptos Básicos:
bus de datos común por el que circula la información de • KRAFT (bye bye Zookeeper).
una empresa para ser procesada y utilizada por distintos • Kafka Admin API.
departamentos de maneras muy diferentes. Es capaz de
procesar billones de mensajes al día en near real time. • El LOG distribuido y sus conceptos básicos.
Podríamos definir su arquitectura como un sistema de logs
• Producer/Consumer API:
distribuido. Kafka sólo tiene una tarea: escribir mensajes en
forma de log cumpliendo siempre sus dos grandes razones de • Conceptos básicos Producer.
ser: rapidez y fiabilidad en la entrega y proceso de mensajes • Conceptos básicos Kafka Consumer.
MÓDULO
M A D R I D
Apache
Spark
Este módulo introduce las tecnologías Big Data y su Los estudiantes también aprenderán acerca de clasificación
motivación en el contexto actual de la era digital y las no supervisada y análisis de clusters, y cómo construir
necesidades de las empresas. Proporciona a los estudiantes scorecards
una comprensión profunda de cómo funcionan estos
Índice de contenidos
sistemas de procesamiento de datos distribuidos y cómo
aprovecharlos para procesar grandes cantidades de datos • Introducción a las tecnologías Big Data.
de manera eficiente y efectiva.
• HDFS.
Tras describir brevemente el manejo de la tecnología de
• Apache Spark:
almacenamiento HDFS (Hadoop Distributed File System), el
curso se centrará en Apache Spark, sin duda la tecnología más • Arquitectura de Spark.
demandada para procesamiento de grandes volúmenes de
datos, que constituye el día a día de los equipos de ingenieros • Módulos de Spark: Spark SQL, Spark MLlib, Structured
de datos de todo el mundo. Describiremos su filosofía basada Streaming.
en un grafo de ejecución (DAG) y sus implicaciones.
• Grafos con el paquete GraphFrames.
A continuación, el alumno profundizará en el estudio de
cada uno de los módulos, en especial Spark SQL, MLlib y
Structured Streaming. Se desplegará un cluster de Spark
en la plataforma de Databricks sobre Azure, actualmente
una de las combinaciones más extendidas en la empresa
privada, y sobre él se mostrará la aplicación de cada uno
de los conceptos.
U N I V E R S I D A D
COMPLUTENSE ntic master
MÓDULO
M A D R I D
Ingestas y
Lagos de datos
MÓDULO
M A D R I D
Pipelines de
datos en cloud
Los estudiantes aprenderán los fundamentos y las mejores • Procesamiento de eventos en tiempo real con Azure Event
prácticas para construir pipelines de datos eficientes y Hubs.
escalables, que permitan la ingesta, transformación, • Almacenamiento escalable y seguro con Storage Account
almacenamiento y análisis de grandes volúmenes de datos. Gen2.
El curso cubre conceptos esenciales como el almacenamiento • Análisis de datos masivos con Azure Databricks y Azure
y procesamiento de datos en la nube, la arquitectura de Synapse Analytics.
pipelines de datos y las herramientas disponibles en el • Bases de datos relacionales y no relacionales: Azure SQL
proveedor Microsoft Azure para su implementación. También Database y Azure Cosmos DB.
se hará hincapié en la seguridad y monitorización de los
• Seguridad, monitorización y optimización de pipelines
pipelines, así como en la optimización del rendimiento y la
de datos.
escalabilidad de las soluciones implementadas.
• Servicios transversales que complementan la formación
El alumno se familiarizará con los servicios de Azure para en la nube de Azure.
cada etapa del ciclo de vida de los datos: ingesta, orquestación
y coordinación de flujos de datos desde diversas fuentes
mediante Azure Data Factory. Además, podrán gestionar
la ingesta de datos en tiempo real y procesar eventos a
gran escala utilizando Azure Event Hubs. Se profundiza en
Storage Account Gen2 para administrar y proteger grandes
volúmenes de datos. Explorarán el análisis de datos a gran
escala, creando flujos de trabajo colaborativos y analizando
datos masivos con Azure Databricks.
MÓDULO
M A D R I D
Arquitecturas basadas
en contenedores
MÓDULO
M A D R I D
Machine Learning
y Deep Learning
MÓDULO
M A D R I D
Productivizar
un modelo
TFM
Trabajo Fin de Máster
Asimilados todos los conceptos previos, llega el momento de poner a prueba todos
los conocimientos adquiridos en el máster.
El alumno planteará una estrategia global de inteligencia de datos para una empresa,
basándose en diferentes técnicas y softwares de apoyo de entre los existentes en el
mercado.
El trabajo de fin de máster es una parte crucial del programa, ya que permite a los
estudiantes aplicar todos los conocimientos adquiridos en el curso en un proyecto
práctico y relevante en el mundo real.
El trabajo de fin de máster proporciona una oportunidad para que los estudiantes
demuestren su capacidad para analizar, procesar y utilizar datos de manera efectiva
para resolver problemas complejos y tomar decisiones informadas. También les
permite desarrollar habilidades de presentación y comunicación al presentar sus
hallazgos y resultados a una audiencia de expertos.
Además, el trabajo de fin de máster puede ser una oportunidad para que los estudiantes
trabajen en colaboración con empresas u organizaciones, lo que les permite obtener
experiencia práctica en un entorno profesional y crear conexiones valiosas para su
carrera.
EQUIPO
DOCENTE
Clases y tutorías con grandes
profesionales del sector del Big
Data y Data Engineering.
U N I V E R S I D A D
COMPLUTENSE
M A D R I D
ntic master
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
EQUIPO DOCENTE
Directivos
Coordinadores
David Cristóbal
del Ser Martínez Martínez
Coordinador Máster Coordinador Máster
EQUIPO DOCENTE
Docentes
Con más de 30 años como docente, José Javier es Ingeniero Informático y Pablo es Doctor en Ciencias de
Cristóbal es matemático especializado trabaja como Responsable de Sistemas la Computación e IA, Ingeniero
en Ciencias de la Computación, CED. Además es profesor asociado UCM. Informático y Lic. en Estadística por
Doctor en Informática. Además, es Ha trabajado en proyectos de sistemas la Univ. de Granada. Desarrollador
Decano de la Facultad de Estudios en El Corte Inglés y Comel, entre otros. certificado en Spark por Databricks,
Estadísticos y Vicedecano de Postgrado trabaja desde hace 8 años como Data
e Investigación. Scientist / ML Engineer especializado
en la creación y puesta en producción
de modelos basados en Spark.
David es Doctor en Geografía e Historia. Marlon es responsable de Data Science Alberto es Ingeniero en Informática
Experto en gestión y desarrollo de la en Sopra Steria, liderando varias experto en arquitectura de datos, y
innovación y emprendimiento. Ha iniciativas de proyectos en el área de la soluciones tanto cloud como on-premise.
sido director de Compluemprende- analítica avanzada en sectores diversos. Certificado como Solutions Architect
Universidad Complutense de Madrid. Además, es arquitecto de soluciones Expert y Data Engineer Associate en
especializado en bases de datos. cloud de Microsoft Azure. Actualmente
diseña e implementa arquitecturas de
datos cloud para diversos sectores.
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
EQUIPO DOCENTE
Docentes
Jorge es ingeniero de software con Elena del Carmen es docente en la Óscar es Ingeniero y Arquitecto
más de 15 años de experiencia. Ha Universidad Complutense de Madrid. Software con casi 20 años de
desarrollado arquitecturas de datos experiencia, especializado en el diseño
en múltiples industrias como redes de soluciones basadas en tecnologías
sociales, viajes, sector público y descentralizadas, de procesamiento
seguros, como arquitecto de soluciones masivo.
y liderando equipos de Ingenieros de
datos.
Eduardo es ingeniero informático Armando es Licenciado en Economía Experto en Tecnologías Big Data,
y doctor en métodos estadísticos por CUNEF. Experto en finanzas, BI y Analítica. Gran experiencia en
matemáticos para el tratamiento auditorías y financiación, especialmente consultoras como Minsait, Sopra Steria,
computacional de la información. Data en ecosistemas emprendedores a través Everis o NTT, para externos como
Scientist & ML Engineer en Santalucia de la inversión, creación de empresas y ISBAN y BBVA. Actualmente, DevOps
seguros. Experto Data Sciencist desarrollo de proyectos. en equipo de producto Frameworks en
habiendo desarrollado su carrera Strato.
profesional en StratioBD, Visavet, Everis,
etc.
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
EQUIPO DOCENTE
Docentes
A lber to es i ngen iero de Pedro Pablo es ingeniero de sistemas. Licenciada en C.C. Matemáticas en la
telecomu n ic ac iones, L ic . en Experto en Big Data, Data Science, Data especialidad de C.C. de la Computación
Matemáticas. Experto en NLP y en la Engineer. Tiene una gran experiencia por la Universidad Complutense de
aplicación de técnicas de deep learning profesional de más de 23 años en Madrid desde el año 1995 y doctora en
e inteligencia artificial. Ha trabajado Microsoft como principal architect y Informática. Hasta su incorporación
como Data Scientist en varias empresas actualmente en Google. al mundo académico ha desarrollado
y creado empresas del ámbito AI. su carrera profesional en el área de la
informática en diferentes compañías.
EQUIPO DOCENTE
Docentes
Pablo A. Flores es licenciado en Luis Fernando es doctor por la UCM. Olga es licenciada y doctora en
Estadística y doctor en Análisis y Ciencia Docente en la UCM y forma parte de mátemáticas por la UCM. Docente en
de Datos. Actualmente es profesor en la grupos de investigación: Design and la UCM y forma parte de grupos de
Universidad Complutense de Madrid y Testing of Reliable Systems. Experto investigación. Experta en Data Science.
desempeña el cargo de Delegado del en Computer Science.
Decano para Erasmus y Movilidad.
Tú
U N I V E R S I D A D
COMPLUTENSE
M A D R I D
ntic master
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Salidas Profesionales
El Big Data y el Data Engineering ofrece una amplia variedad de salidas profesionales debido
a su creciente relevancia en la estrategia empresarial moderna. Estas son solo algunas
de las muchas oportunidades profesionales que podrás explorar dentro de este ámbito:
U N I V E R S I D A D
COMPLUTENSE
M A D R I D
ntic master
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Proceso de admisión
1. Preinscribirse cumplimentando el formulario Tanto la preinscripción como la pre matrícula quedan abiertas
ubicado en la pestaña “Preinscripción” de la web hasta comenzar el curso académico o completar plazas,
www.masterdataengineeringucm.com estableciéndose lista de espera si procede. Los alumnos
2. Enviar la documentación requerida a fin de deberán ingresar 600 euros en concepto de pago inicial para
evaluar la candidatura. el Máster Presencial y 500 euros en concepto de pago inicial
para el Máster Semipresencial y el Máster Online, los cuales
3. Entrevista con el solicitante.
les serán descontados del importe total de la matrícula. En
4. Confirmación de selección. ningún caso se tendrá derecho a devolución de dicha cantidad,
5. Realización de un pago inicial. a excepción de que no se llegara a celebrar el curso.
Documentación
requerida
Alumnos con titulación Alumnos con titulación
de España de Unión Europea
U N I V E R S I D A D
COMPLUTENSE
M A D R I D
ntic master
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Máster Presencial
Metodología
Presencial
El curso se impartirá en aulas de la Universidad Complutense de Madrid, en la Facultad de
Estudios Estadísticos los viernes y sábados con masterclasses impartidas por diferentes
expertos. La formación se realizará de forma tutorizada por los profesores. También se
utilizará una plataforma de formación virtual para la comunicación entre los alumnos y
profesores, creando una comunidad virtual de trabajo. Los distintos profesores de cada
módulo, guiarán a los alumnos proponiendo actividades adicionales dependiendo del
temario que se esté cubriendo en cada momento.
Características
plataforma On-line
La plataforma actuará como vía de comunicación entre La plataforma cuenta con:
el alumno y el entorno global de formación.
• Mensajería individualizada para cada alumno.
El estudiante tendrá información actualizada sobre los • Vídeos de las clases y de casos prácticos.
conceptos que se estén estudiando en cada momento,
como enlaces a contenidos adicionales incluyendo • Tutorías online con el profesorado.
noticias, artículos, etc. • Documentación, noticas y contenidos.
Los alumnos deberán realizar y aprobar todas las • Foro de los módulos del máster.
prácticas de los distintos módulos, y realizar el trabajo • Comunicación con los profesores vía
fin de máster para poder aprobar el máster. mensajería.
• Chat entre alumnos.
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Máster Semipresencial
Metodología
Semipresencial
La formación se realizará de forma tutorizada por los profesores. Se utilizará una plataforma
de formación virtual para la comunicación entre los alumnos y profesores, creando una
comunidad virtual de trabajo. Los distintos profesores de cada módulo, guiarán a los alumnos
proponiendo actividades adicionales dependiendo del temario que se esté cubriendo
en cada momento. La modalidad semipresencial contempla la realización de 3 semanas
presenciales con masterclasses impartidas por diferentes expertos para preparar los TFM
y hacer networking.
Características
plataforma On-line
La plataforma actuará como vía de comunicación entre La plataforma cuenta con:
el alumno y el entorno global de formación.
• Mensajería individualizada para cada alumno.
El estudiante tendrá información actualizada sobre los • Vídeos de las clases y de casos prácticos.
conceptos que se estén estudiando en cada momento,
como enlaces a contenidos adicionales incluyendo • Tutorías online con el profesorado.
noticias, artículos, etc. • Documentación, noticas y contenidos.
Los alumnos deberán realizar y aprobar todas las • Foro de los módulos del máster.
prácticas de los distintos módulos, y realizar el trabajo • Comunicación con los profesores vía
fin de máster para poder aprobar el máster. mensajería.
• Chat entre alumnos.
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Máster Online
Metodología
100% Online
La formación se realizará de forma tutorizada por los profesores. Se utilizará una plataforma
de formación virtual para la comunicación entre los alumnos y profesores, creando una
comunidad virtual de trabajo. Los distintos profesores de cada módulo, guiarán a los alumnos
proponiendo actividades adicionales dependiendo del temario que se esté cubriendo en
cada momento.
Características
plataforma On-line
La plataforma actuará como vía de comunicación entre La plataforma cuenta con:
el alumno y el entorno global de formación.
• Mensajería individualizada para cada alumno.
El estudiante tendrá información actualizada sobre los • Vídeos de las clases y de casos prácticos.
conceptos que se estén estudiando en cada momento,
como enlaces a contenidos adicionales incluyendo • Tutorías online con el profesorado.
noticias, artículos, etc. • Documentación, noticas y contenidos.
Los alumnos deberán realizar y aprobar todas las • Foro de los módulos del máster.
prácticas de los distintos módulos, y realizar el trabajo • Comunicación con los profesores vía
fin de máster para poder aprobar el máster. mensajería.
• Chat entre alumnos.
U N I V E R S I D A D
COMPLUTENSE ntic master
M A D R I D
Contacto
Teléfono de información
+34 687 30 04 04
Teléfono de admisiones
+34 667 89 05 83
Correo electrónico
Sitio Web
www.masterdataengineeringucm.com
*La dirección del máster se reserva el derecho de modificar, suprimir y actualizar los profesores, la información y el programa del máster.
U N I V E R S I D A D
COMPLUTENSE
M A D R I D
ntic master