ET124 - BIY7131 - Instrucciones y Pauta Situacion Evaluativa

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

Evaluación Final Transversal

Instrucciones y Pauta de Evaluación


Sigla Nombre Asignatura

BIY7131 BIG DATA

1. Instrucciones generales para el/la estudiante


Esta es una evaluación que corresponde a una entrega de encargo con presentación.

El tiempo para desarrollar el encargo es de 4 semanas iniciándose la semana 15 del semestre


y todos los estudiantes deberán presentar en 4 horas.

La evaluación consiste en:


 Desarrollar un informe de gestión de grandes volúmenes de Datos, mediante la carga
histórica de todos los archivos disponibles, junto con información diaria reciente, la cual
permita a los usuarios responder diversas preguntas de negocio relacionadas con la
disponibilidad de servicios de transporte en ciertas zonas, horarios y frecuencia.
 Además, se deberá diseñar y crear dos reportes que muestren información agregada.

2. Evaluación
El encargo debe cumplir con todas las instrucciones establecidas previamente, considerando
aspectos asociados a contenido y forma de entrega.

Recuerde respetar tanto el tiempo de entrega como la estructura propuesta, ya que de no


cumplirlos incidirán negativamente en su evaluación.

INSTRUCCIONES ESPECÍFICAS

 Lea y analice la situación planteada en el caso propuesto.

 Desarrolle lo solicitado en el documento.

 Presente su análisis en un informe y posterior presentación.

CASO - CONSIDERACIOES ESPECÍFICAS

Datos de Transporte Público;

Contexto: El transporte público es fundamental para la movilización de las personas en una

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 1


ciudad, es por ello que conocer los trayectos, paradas, horarios y duración de los trayectos
es indispensable para planificar correctamente los viajes.

Este examen busca generar una plataforma de datos que contenga la información histórica
de los viajes, de tal forma de identificar la cantidad de transportes disponibles por cada uno
de los medios disponibles (buses, metro), ver qué horarios tiene mayor disponibilidad de
transporte en una zona determinada, y cuáles de esas zonas han tenido la mayor variabilidad
en los recorridos (señalando si han agregado o quitado recorridos). Por otro lado, es
importante tener siempre la información lo más actualizada posible, es por ello que también
será requerido en este examen la obtención diaria de los recorridos disponibles en Santiago.

Información

La información que utilizaremos para desarrollar este examen proviene de varias fuentes. A
continuación, se especifican dichas fuentes:

Datos Históricos: Estos datos se pueden obtener desde la plataforma de datos abiertos del
Gobierno de Chile, el link es el siguiente: https://datos.gob.cl/dataset/33245. Este set de datos
contiene la información mensual de la planificación de los distintos medios de transporte en
Santiago, y está disponible cerca del día 15 de cada mes. El examen requiere que la descarga
de datos sea automatizada, para ello deberá utilizar la siguiente API
https://datos.gob.cl/api/action/package_show?id=33245. Esta API devuelve los recursos
disponibles, debe identificar la ULR en la respuesta que le permitirá descargar los archivos.

Datos Diarios: Para obtener la información de transportes diarios, primero deber consultar una
API que le devolverá todos los recorridos disponibles
(https://www.red.cl/restservice_v2/rest/getservicios/all), luego, por cada uno de esos recorridos
deberá obtener la información de su trayecto, horarios y paradas desde la siguiente API:

https://www.red.cl/restservice_v2/rest/conocerecorrido?codsint=101 (donde “101” es un código


de servicio devuelto por la API anterior)

Los procedimientos específicos incluyen las siguientes etapas con sus respectivos requisitos:

ETAPA 1: Durante la semana 15 se deberá identificar la arquitectura que mejor se adapte a la


problemática planteada, para ello se entregarán 3 arquitecturas de referencia, deberán
seleccionar una de ellas, justificando su decisión desde una perspectiva técnica y funcional.

En esta etapa se debe realizar el diseño el o los modelos de datos finales optimizados para el
consumo de usuarios finales y/o de herramientas de visualización, los procesos Batch y
Streaming/api/near-real-time/real-time (según corresponda), junto con las mallas de ejecución y
puntos de control de errores.

Esta etapa deberá:

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 2


 Seleccionar herramientas de procesamiento, transformación y visualización, justificando
su aplicación.

 Incorporar ciclo de vida del dato en el proceso end to end.

 Analizar problemática planteada utilizando arquitecturas de referencia.

 Definir los procesos, flujos de información y orquestación de datos para dar inicio a la
construcción de la solución.

Entregable: Informe versión 1 (desde portada hasta elección de arquitectura para diseño de
procesos a construir para toma de decisiones) y avance PPT interactiva.

ETAPA 2: Durante la semana 16 se deberá construir los procesos Batch, se sugieren los
siguientes pasos:

Paso 1: Realizar las conexiones con la fuente de origen de datos (estas pueden ser bases
de datos, archivos que deben descargar desde internet, etc.)

Paso 2: Descargar y/o generar los archivos a la data Lake.

Paso 3: Construir los procesos de limpieza, transformación y carga al modelo de datos final.

Paso 4: Construir los reportes y/o visualizaciones correspondientes.

En esta etapa deberá:

 Construir procesos de carga en data Lake, considerando disponibilidad de la información


desde de la fuente

 Construir procesos de transformación, limpieza de datos Batch.

 Construir procesos orquestados considerando disponibilidad de información y


dependencias de grandes volúmenes de datos en formato Batch.

Para cada uno de estos pasos, debe considerar (si aplica) lo siguiente:

 Control de errores: todos los procesos pueden tener puntos de fallo, de acuerdo con lo
identificado en la Etapa 1 (diseño), debe implementar los controles de errores
correspondientes.

 Control de duplicidad de archivos: Los DataLake contienen múltiples archivos, debe


considerar que los procesos se pueden ejecutar múltiples veces, por tanto, sus procesos
deben determinar qué hacer si un fichero y/o datos ya existen (tome la decisión de
acuerdo con lo visto durante el semestre).

 Registro de actividad: Como se señaló anteriormente, los procesos se podrían ejecutar


varias veces, debe incorporar el control de ejecución (ej.:¿si el proceso ya se ejecutó lo

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 3


debo volver a ejecutar, lo debo bloquear o debo pedir autorización para volver a
ejecutar?).

 Validación de Datos y Procesos: Según corresponda, debe considerar en su construcción


la validación de los procesos y la validación de los datos a trabajar, incluyendo procesos
de transformación, manteniendo la trazabilidad de los datos desde el origen. Tenga en
cuenta que al ser datos Batch, los procesos deben permitir reprocesar datos históricos
en alguna fecha en particular.

Entregable: Informe versión 2 (desarrollo con etapas de gestión de volúmenes de datos en


formato Batch para su análisis y visualización, más código fuente y las instrucciones para poder
implementar y ejecutar) y avance PPT interactiva.

ETAPA 3: Durante la semana 17, deberán construir los procesos de BigData utilizando una
estrategia de Real-Time, Streaming o API, según corresponda. Se sugieren los siguientes
pasos:

Paso 1: Realizar las conexiones con la fuente de origen de datos.

Paso 2: Descargar y/o generar los archivos al dataLake o fuente de destino.

Paso 3: Construir los procesos de limpieza, transformación y carga al modelo de datos final,
considerando la trazabilidad de información y ciclo de vida del dato.

Paso 4: Mejorar los reportes y/o visualizaciones correspondientes construidos previamente


en la etapa 2.

En esta etapa deberá:

 Construir procesos de carga, considerando disponibilidad de la información desde fuente


de origen, en caso de errores.

 Construir procesos de transformación y limpieza de datos, dejando los datos en formatos


para capa de consumo, evitando duplicidad de datos real time/Streaming para detección
oportuna de errores

Para cada uno de estos pasos, debe considerar (si aplica) lo siguiente:

 Control de errores: todos los procesos pueden tener puntos de fallo, de acuerdo a lo
identificado en la Etapa 1 (diseño), debe implementar los controles de errores
correspondientes.

 Control de duplicidad de datos: Considerar que los procesos se pueden ejecutar múltiples
veces, y que los datos desde el origen pueden cambiar, por tanto, sus procesos deben
determinar qué hacer si una ejecución devuelve datos que ya existen (tome la decisión

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 4


de acuerdo a lo visto durante el semestre). También debe considerar que parte de estos
datos pueden haber sido cargados desde la etapa 2 de datos Batch.

 Registro de actividad: Los procesos se podrían ejecutar varias veces, debe incorporar el
control de ejecución y considerar el ciclo de vida de los datos.

 Validación de Datos y Procesos: Según corresponda, debe considerar en su construcción


la validación de los procesos y la validación de los datos a trabajar, incluyendo procesos
de transformación, manteniendo la trazabilidad de los datos desde el origen.

Entregable: Informe versión 3 (desarrollo con etapas de gestión de volúmenes de datos en


formato real-time/Streaming para su análisis y visualización, más código fuente y las
instrucciones para poder implementar y ejecutar) y avance PPT interactiva.

El ET considera los siguientes entregables:


Informe Versión 1: Debe ser entregado al finalizar la primera semana, este informe debe
considerar todo lo expuesto en la Etapa 1, es decir:

 Elección de la arquitectura.

 Elección de las herramientas.

 Definición de los procesos de carga Batch y Streaming/API, considerando:

 Validaciones y controles de errores.

 Conexión a las Fuentes de Origen, indicando nombres de servidores, archivos a leer, API
a consultar, etc.

 Definición de la orquestación de ejecución de procesos, dependencias, periodicidad de


ejecución, etc.

 Modelos de Datos y Diccionarios de datos, los cuales debe contener

 Tipos de datos de origen y destino.

 Datos que considera anómalos y sugerencia de correcciones.

 Datos que pueden fallar y sugerencias de control de errores.

 Posibles transformaciones.

 Posibles separaciones de campos.

 Procesos Construidos Etapa 2: Deben ser enviados al finalizar la segunda semana,


entregando el código fuente y las instrucciones para poder implementar y ejecutar.

 Procesos Construidos Etapa 3: Deben ser enviados al finalizar la tercera semana,

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 5


entregando el código fuente y las instrucciones para poder implementar y ejecutar.

Informe Final: Debe ser entregado al finalizar la tercera semana. Este informe debe contener
lo mismo del informe versión 1, agregando una sección con el diseño de los procesos
realmente implementados, identificando las diferencias vs el diseño inicial, y reflexiones del
grupo en torno al proceso completo.

3. Pauta de Evaluación
%
Categoría Descripción niveles de logro
logro
Muy buen Demuestra un desempeño destacado, evidenciando el logro de todos los
100%
desempeño aspectos evaluados en el indicador.
Buen Demuestra un alto desempeño del indicador, presentando pequeñas
80%
desempeño omisiones, dificultades y/o errores.
Desempeño Demuestra un desempeño competente, evidenciando el logro de los
60%
aceptable elementos básicos del indicador, pero con omisiones, dificultades o errores.
Presenta importantes omisiones, dificultades o errores en el desempeño, que
Desempeño
30% no permiten evidenciar los elementos básicos del logro del indicador, por lo que
incipiente
no puede ser considerado competente.
Desempeño no
0% Presenta ausencia o incorrecto desempeño.
logrado

Categorías de Respuesta
Ponderación
Indicador de Evaluación Muy buen Desempeño Desempeño Desempeño no Indicador de
desempeño aceptable incipiente logrado Evaluación
100% 60% 30% 0%
Selecciona y Selecciona las La elección de No realiza
justifica las herramientas, las selección de
herramientas pero no justifica herramientas no herramientas
para de acuerdo a los es la adecuada, para
Selecciona las herramientas de
procesamiento, elementos o la justificación procesamiento,
procesamiento, transformación y
transformación exigidos en el que entrega no transformación
visualización de información, 5%
y visualización caso. se condice con a fin de justificar
justificando su uso en el ámbito de
de información, el uso que se ámbito de
aplicación.
de acuerdo a los hará de las aplicación
elementos mismas.
exigidos en el
caso.
Incorpora la No aplica No aplica Solo realiza
creación, creación y/o
actualización y actualización de
Incorpora el ciclo de vida del dato
eliminación de datos, sin una
en el proceso end to end,
información estrategia de 5%
considerando requerimientos y
histórica de ciclo de vida del
práctica de gobierno de datos.
acuerdo a dato.
criterios de
negocio y

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 6


técnicos
justificados.
Selecciona una Selecciona una Selecciona una No selecciona
arquitectura que arquitectura arquitectura una arquitectura
permite dar adecuada, pero adecuada, y no adecuada para
solución a la la justificación justifica la dar resolución a
Analiza la problemática planteada problemática no es selección de la requerimientos
utilizando arquitecturas de planteada, consistente con misma de la industria
10%
referencia, para resolución de justificando de el diseño de los considerando
requerimientos de la industria. acuerdo a los procesos y requerimientos
procesos requerimientos de la industria
diseñados y de la industria
requerimientos
de la industria.
Define el 100% Define el 100% Define menos Define menos
correctamente correctamente del 49% al 10% de 10% los
todos los todos los de los procesos procesos
procesos que procesos que e identifica solo construidos de
construyó, construyó, algunas la solución
Define los procesos, flujos de identificando los identificando los dependencias requerida
información y orquestación de los nombres, nombres,
10%
mismos, que permitirán iniciar la dependencias, dependencias,
construcción de la solución. malla de malla de
procesos, procesos,
frecuencia de frecuencia de
ejecución y ejecución y
control de control de
errores errores
Implementa el Implementa Implementa < Implementa <
100% de los entre un 99% a 50% y más de 50% y más de
procesos de un 51% de los un 10% de los un 10% de los
acuerdo a la procesos, procesos, o procesos, o
definición, al considerando gran parte de gran parte de
Construye procesos de carga al ejecutar en ellos control los procesos los procesos
DataLake, considerando la funcionan y de errores, construidos NO construidos NO
disponibilidad de la información controlan los disponibilidad consideran consideran
desde la fuente origen, errores en caso de información control de control de 10%
considerando preparación en caso de que los en origen y logs. errores, logs ni errores, logs ni
de errores, de acuerdo a archivos no disponibilidad disponibilidad
necesidades de la organización. estén de información de información
disponibles, en el origen. en el origen.
incluye
condiciones de
re-ejecución y
logs.
Realiza el 100% Realiza entre el Realiza < 50% y Realiza menos
de la 99% y 51% de más de un 10% del 10% de
Construye procesos de transformación procesos de de procesos de procesos de
transformación y limpieza de datos y limpieza de transformación transformación limpieza y
Batch, dejándolos en formato datos de y limpieza, y limpieza, o los transformación
adecuado para capa de consumo, acuerdo al dejando dichos procesos que de datos 10%
preparándolos para evitar la modelo, datos en realiza no deja
duplicidad de datos y detección de dejando los formatos los datos en un
errores datos en estructurados formato
formato adecuados. adecuado (por
estructurado de ejemplo, los

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 7


acuerdo a la almacena en
tecnología TXT en vez de
utilizada dejarlos en
(parquet, parquet o
columnares, columnares).
etc.).
Construye el Construye entre Construye < Construye
100% de las un 99% y 51% 50% y más de menos de un
mallas de de las mallas de un 10% de las 10% de la
procesos procesos, y mallas de orquestación de
considerando considera en procesos, o NO datos, los
dependencias ellos las considera en la procesos se
Construye procesos orquestados,
técnicas y dependencias construcción las ejecutan
considerando la disponibilidad de
funcionales, técnicas y dependencias manualmente.
información y dependencias de 10%
horarios y/o funcionales, técnicas y
grandes volúmenes de datos en
eventos de horarios y/o funcionales,
formato Batch.
disponibilidad eventos de horarios y/o
de información y disponibilidad eventos de
control de de información y disponibilidad
errores. control de de información y
errores. control de
errores.
Construye el Implementa Implementa < Implementa
100% los entre un 99% y 50% y más de menos del 10%
procesos > 50% de los un 10% de los de Procesos
conectando a procesos, procesos, o que no están
las fuentes de considerando gran parte de correctamente
origen vía API, control de los procesos construidos o
Construye procesos de carga, de
webhook o errores y logs. construidos NO presentan
acuerdo a la disponibilidad de la
suscribiendo consideran errores en la
información desde la fuente 5%
Pub/Sub. Al control de ejecución no
origen, considerando preparación
ejecutar los errores ni logs controlados
en caso de errores.
procesos
obtienen datos y
considera el
control de
errores,
incluyendo logs.
Realiza el 100% Realiza entre el Realiza < 50% y Realiza menos
de la 99% y 51% de más del 10% de del 10% de
Construye procesos de transformación procesos de procesos de procesos de
transformación y limpieza de y limpieza de transformación transformación limpieza ni
datos, dejando los datos en un datos de y limpieza y limpieza, o los transformación
formato adecuado para la capa de acuerdo al procesos que de datos.
10%
consumo, considerando modelo, realiza no deja
preparación para evitar la considerando la los datos en un
duplicidad de datos real time y sincronización formato
detección de errores. con el resto de adecuado
los datos del
ecosistema
Contiene todos Contiene Contiene Hay elementos
Construye recursos (Informe y
los apartados apartados apartados clave de los
presentación) que contiene todas
solicitados, en el solicitados, solicitados, procedimientos
las etapas solicitadas, con 10%
orden adecuado aunque el orden aunque con falta que fueron
procedimientos relevantes y
y con podría ser alguna omitidos en los
secuencia lógica de acuerdo con
información mejorado, falta información recursos, siendo

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 8


los requerimientos de la relevante y alguna relevante y los la estructura no
organización oportuna que información apartados adecuada y la
soporta relevante y los tienen en información
adecuadamente apartados general una presentada
la exposición tienen en secuencia tiene notables
con una general una lógica, pero con carencias
secuencia secuencia imprecisiones
lógica y existe lógica y existe en la
interrelación interrelación interrelación
entre todas y entre la mayoría entre la mayoría
cada una de las de las partes de de las partes de
partes los procesos. los procesos.
Dominio Dominio de los Dominio parcial Dominio
completo sobre diferentes con ideas insuficiente con
el tema, temas, con un correctas pero ideas no
respondiendo a buena incompletas. desarrolladas,
todas las comprensión y Comprensión donde los
preguntas con exposición del básica de los procedimientos
Domina los procesos solicitados
explicaciones y tema donde la procesos, no y la exposición
considerando estándares y
detalles, información muy a fondo, se. del material es
procesos requeridos en la gestión
profundizando entregada identifica superficial, la 5%
de datos Batch y streaming de
en los temas y responde a las parcialmente la información
acuerdo a las necesidades de la
ofrece preguntas información tiene poco o
organización.
información de principales y da importante, nada que ver
fondo 1-2 ideas respondiendo a con las
secundarias y/o las preguntas preguntas
ejemplos. principales, pero planteadas.
no da detalles
y/o ejemplos.
La información La mayor parte Presenta con Presenta
es presentada de la una resultado de
de manera información es organización forma no
lógica (inductiva presentada de adecuada, pero estructurada y
o deductiva) y manera lógica y débil en difícil de
coherente, de generalmente aspectos entender.
manera que la bien claves, Desorganizada,
Presenta los resultados siguiendo
audiencia pueda organizada, demostrando no
una estructura lógica,
seguir pero hace falta falta de evidenciándose 5%
considerando la información del
fácilmente. mejores conexiones hay secuencia
informe.
transiciones de claras entre las lógica en la
una idea a otra. partes de la información.
presentación,
las partes
parecen
aisladas entre
sí.
Ejecuta En general, Habla en voz un Presentación no
apropiado y articula poco baja y es clara, con
lenguaje técnico claramente y la comete algunos tono de voz
Establece comunicación efectiva, y con buena pronunciación y errores de demasiado bajo
utilizando lenguaje técnico pronunciación lenguaje pronunciación y y no se le puede
5%
requerido en la disciplina y comunicando técnico, con una lenguaje entender,
contexto laboral. efectivamente el comunicación técnico, pero es comete errores
proceso que en su comprensible en de
ejecutado. mayoría general. pronunciación y
correcta. palabras

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 9


técnicas que
dificultan la
comprensión.
Total 100%

Subdirección de Evaluación de Resultados de Aprendizaje - Subdirección de Diseño Instruccional 1- 2023 10

También podría gustarte