Certus Big Data 10

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 15

INSTITUTO SUPERIOR TECNOLÓGICO

PRIVADO CERTUS

ESCUELA DE GESTIÓN Y NEGOCIOS

UD: Big Data aplicada a los negocios

Ciclo: III

Docente: HELLEN PATRICIA PIÑA ORTIZ

Integrantes: Grupo 2

● JEAN PANDIA COLLANTES


● NOELIA OCAÑA SULCA
● MILTON ORTIZ TAPARA
● JHONNY RODRIGUEZ YNOÑAN
● CHRISTOPHER PIERRE DUEÑAS TEJADA
● KELLY JARA VELA
● EMERSON JORKY JACO GUTIERREZ
● GLADIZ MARTINEZ CASTRO

Lima – Perú

2023
ÍNDICE

Contenido
Introducción ............................................................................................................................ 3
Marco teórico .......................................................................................................................... 5
Metodología de procesamiento de datos y sus pasos ....................................................... 5
● Recopilación de datos ..................................................................................................... 5
● Limpieza de datos............................................................................................................ 5
● Transformación de datos ................................................................................................. 5
● Análisis de datos.............................................................................................................. 5
● Interpretación de resultados ............................................................................................ 5
● Presentación de resultados ............................................................................................. 5
● Almacenamiento y gestión de datos ............................................................................... 5
● Mantenimiento y actualización ........................................................................................ 6
● Seguridad y privacidad de datos ..................................................................................... 6
● Evaluación y retroalimentación ....................................................................................... 6
Descripción de las herramientas de big data ......................................................................... 6
Apache storm ...................................................................................................................... 6
Python ................................................................................................................................. 7
2. Descripción de herramientas ............................................................................................. 7
Python ................................................................................................................................. 9
3. Usos de las herramientas de Big Data .............................................................................. 9
3.1. Infochimps (similar a rappi) ......................................................................................... 9
3.2.Taobao (filtra la informacion) ........................................................................................ 9
3.3. wega (selecciona la información) .............................................................................. 10
4. Comparativa de herramientas de Big Data ...................................................................... 10
4.1. Propósito: ................................................................................................................... 10
4.2. Rendimiento y Escalabilidad: .................................................................................... 10
4.3. Facilidad de Uso: ....................................................................................................... 10
4.4. Ecosistema y Comunidad: ......................................................................................... 11
4.5.Tipo de Aplicación: ..................................................................................................... 11
5. Ventajas de la herramienta de big data ........................................................................... 11
6. Beneficios de las herramientas de Big Data .................................................................... 12
Conclusiones ........................................................................................................................ 13
12. Referencias bibliográficas: ............................................................................................. 14

Introducción
La explosión de datos en la era digital ha transformado por completo la forma en
que las organizaciones operan y toman decisiones. El Big Data se ha convertido en
un recurso invaluable que puede proporcionar información valiosa para comprender
y mejorar las operaciones comerciales, la toma de decisiones estratégicas y la
satisfacción del cliente. Sin embargo, el simple almacenamiento masivo de datos ya
no es suficiente; se necesita un enfoque integral para procesar y aprovechar
eficazmente este torrente de información. Este proyecto de investigación se
adentrará en el mundo del procesamiento de datos en Big Data desde una
perspectiva centrada en el entendimiento e interpretación del negocio.
Examinaremos los pasos o fases cruciales que conforman este proceso y
explicaremos las herramientas que lo hacen posible. Nuestro objetivo es
desentrañar el potencial de Big Data como un recurso estratégico que puede
impulsar la innovación, la eficiencia operativa y el éxito empresarial. En este
contexto, exploramos cómo el procesamiento de datos en Big Data no solo se trata
de manejar grandes volúmenes de información, sino también de comprender cómo
esos datos pueden traducirse en conocimiento significativo para las empresas. Nos
sumergimos en las herramientas y técnicas que permiten a las organizaciones
analizar tendencias, identificar patrones, predecir resultados y tomar decisiones
informadas que impacten positivamente en sus objetivos comerciales. A lo largo de
esta investigación, examinaremos casos de estudio reales con empresas y ejemplos
concretos para ilustrar cómo el procesamiento de datos en Big Data ha cambiado la
forma en que las empresas operan en diversas industrias. Además, exploramos los
desafíos y las consideraciones éticas asociadas con el manejo de grandes
cantidades de datos y su impacto en la privacidad y la seguridad de la información.
Este proyecto de investigación será una oportunidad para adquirir un conocimiento
profundo sobre el emocionante mundo de Big Data y cómo puede ser un habilitador
clave para el éxito empresarial en la era digital. A medida que avanzamos,
desentrañaremos los misterios del procesamiento de datos en Big Data y
descubriremos cómo puede convertirse en una herramienta poderosa para impulsar
el crecimiento y la innovación en las organizaciones.
Marco teórico

Metodología de procesamiento de datos y sus pasos

La metodología de procesamiento de datos implica una serie de pasos para


convertir datos en información útil y significativa. A continuación, se describen estos
pasos de manera general:
● Recopilación de datos
En este primer paso, se reúnen los datos necesarios para el análisis. Los datos
pueden provenir de diversas fuentes, como encuestas, sensores, registros de
transacciones, bases de datos, formularios en línea, entre otros.
● Limpieza de datos
Los datos suelen contener errores, valores faltantes, duplicados o inconsistencias.
En esta etapa, se realiza la limpieza de datos para corregir estos problemas y
asegurarse de que los datos sean precisos y coherentes.
● Transformación de datos
En esta fase, los datos se preparan para su análisis. Esto puede incluir la
normalización de datos, la agregación de información, la conversión de formatos y
la creación de nuevas variables.
● Análisis de datos
En este paso, se aplican técnicas de análisis de datos para obtener información
valiosa. Esto puede incluir la generación de estadísticas descriptivas, la
identificación de patrones, el modelado estadístico o el aprendizaje automático,
dependiendo de los objetivos del análisis.
● Interpretación de resultados
Una vez que se obtienen los resultados del análisis, se interpretan para extraer
conclusiones y tomar decisiones basadas en la información generada.
● Presentación de resultados
Los resultados se comunican de manera efectiva a través de informes, gráficos,
tablas u otros medios visuales. La presentación debe ser comprensible para el
público objetivo.

● Almacenamiento y gestión de datos


Es importante mantener una gestión adecuada de los datos, asegurando su
almacenamiento seguro y su disponibilidad para futuros análisis o referencias.
● Mantenimiento y actualización
Los datos y los procesos de procesamiento de datos deben mantenerse y
actualizarse de acuerdo con las necesidades cambiantes de la organización.
● Seguridad y privacidad de datos
Se deben tomar medidas para proteger la seguridad y la privacidad de los datos,
especialmente si contienen información sensible o confidencial.

● Evaluación y retroalimentación
Es importante evaluar la efectividad del proceso de procesamiento de datos y
recopilar retroalimentación para mejorarlo en el futuro. Estos pasos pueden variar
en detalle según el contexto específico y los objetivos del procesamiento de datos,
pero proporcionan una guía general para convertir datos en información significativa
y tomar decisiones informadas.

Descripción de las herramientas de big data

Apache storm

Es un sistema para procesar datos en transmisión en tiempo real, ofrece


prestaciones para situaciones que requieren análisis en tiempo real, aprendizaje
automático y supervisión continua de las operaciones.
Storm es extremadamente rápido y puede procesar más de un millón de registros
por segundo y por nodo en un clúster de tamaño normal. Las empresas aprovechan
esta velocidad y la combinan con otras aplicaciones de acceso a los datos en
Hadoop para evitar eventos no deseados u optimizar resultados positivos.
Se compone de dos partes principalmente. La primera es la que se denomina Spout
y es la encargada de recoger el flujo de datos de entrada. La segunda se denomina
Bolt y es la encargada del procesado o transformación de los datos.
Storm ofrece cinco características que lo hacen ideal para las cargas de trabajo de
procesamiento de datos en tiempo real

Rápido: en los análisis de referencia procesa un millón de mensajes de 100 bytes


por segundo y por nodo.
Fiable: Storm garantiza que cada unidad de datos (tupla) se procese al menos una
vez o exactamente una vez. Los mensajes sólo se reproducen cuando hay fallos.
Escalable: con cálculos en paralelo que se ejecutan a través de un clúster de
equipos.

Tolerante a fallos: cuando un nodo de trabajo deja de funcionar, Storm lo


reinicia automáticamente. Si un nodo deja de funcionar, el nodo de trabajo se
reinicia en otro nodo.

Fácil de usar: las configuraciones estándar sirven para la producción desde el


primer momento. Una vez implementado, Storm se opera fácilmente.

Un clúster de Storm tiene tres conjuntos de nodos: nodo Nimbus. nodo ZooKeeper,
nodo Supervisor

Python

- Python es, probablemente, el lenguaje de programación más conocido y


utilizado hoy en día. La sencillez en su manejo con respecto a otros lenguajes de
programación y la facilidad para trabajar con conjuntos de datos y analizarlos lo
convierten en una opción más que interesante , la ventaja es que es fácil de usar
para usuarios que no estén familiarizados con informática profesional pero que
necesiten trabajar con análisis de datos . Es su innovador código abierto lo que lo
hace único, ya que son los propios usuarios los que lo mejoran día a día,
beneficiando a todas las personas que se valen de Python.

El único inconveniente que presenta esta herramienta es la lentitud con la que


ejecuta sus funciones. No obstante, ofrece muchas posibilidades para trabajar con
grandes cantidades de datos.

2. Descripción de herramientas

Apache Storm es una herramienta de procesamiento de datos en tiempo real que


se puede aplicar en una variedad de escenarios empresariales, incluyendo la
empresa de entrega a domicilio Rappi.
1. Spouts: Los spouts en el contexto de Rappi podrían utilizarse para recibir los
datos de origen relacionados con las órdenes de entrega, los detalles de los
productos, los cambios en el inventario, la ubicación de los repartidores, las
interacciones de los usuarios y otros datos relevantes. Estos datos pueden provenir
de aplicaciones móviles, sensores u otras fuentes de datos en tiempo real.

2. Bolts: En el caso de Rappi, los bolts podrían realizar diversas tareas de


procesamiento de los datos recibidos desde los spouts. Por ejemplo, podrían validar
y enriquecer las órdenes de entrega, calcular rutas óptimas para los repartidores,
monitorizar el inventario en tiempo real, analizar el comportamiento de los usuarios
para ofrecer recomendaciones personalizadas, entre otras operaciones.

3. Topología: La topología en Rappi define cómo se conectan y procesan los


datos. Podría haber diferentes topologías para manejar tareas específicas, como la
asignación de órdenes, el seguimiento de los repartidores, la generación de
informes de ventas o la detección y respuesta a eventos inusuales. La topología
permitiría dirigir y distribuir eficientemente los datos a través de los diferentes bolts.

4. Stream Grouping: En el contexto de Rappi, el stream grouping se utilizaría


para controlar cómo se distribuyen y agrupan los datos entre los bolts en la
topología. Por ejemplo, los datos de las órdenes podrían estar agrupados por
ubicación geográfica para asignar eficientemente las tareas a los repartidores más
cercanos, o podrían agruparse por categoría de producto para llevar un seguimiento
específico del inventario.

5. Apache ZooKeeper: ZooKeeper se emplearía para la coordinación y gestión


de la topología de Storm en Rappi. Permitiría mantener la consistencia y la
tolerancia a fallos, supervisar los nodos de trabajo, gestionar la comunicación entre
los componentes y garantizar un funcionamiento confiable de la plataforma de
procesamiento de datos en tiempo real.

6. Trident: Trident, como una capa de alto nivel construida sobre Apache Storm,
podría ser utilizada por Rappi para simplificar y acelerar el desarrollo de topologías
más complejas de procesamiento de datos en tiempo real. Por ejemplo, podría
facilitar la agregación de datos para generar informes de ventas diarios o permitir la
implementación de operaciones avanzadas de análisis de datos.

En resumen, Apache Storm y sus diferentes componentes pueden ser aplicados en


Rappi para procesar datos en tiempo real, mejorar la eficiencia operativa,
personalizar la experiencia del usuario y optimizar la logística y el flujo de trabajo de
entrega a domicilio
Python

Python es un lenguaje versátil y ampliamente utilizado en el á la ciencia de datos,


el aprendizaje automático y el desarrollo web, entre otros. En Rappi, Python se
utiliza para diversas tareas, como la manipulación y análisis de datos, la
implementación de algoritmos de aprendizaje automático para recomendaciones
personalizadas, la construcción de sistemas de recomendación en tiempo real y el
desarrollo de aplicaciones y servicios web.
. La herramienta de Python en Rappi permite a los desarrolladores aprovechar las
bibliotecas y módulos de Python existentes, como Numpy, Pandas, Scikit-learn y
TensorFlow, para acelerar el proceso de desarrollo y garantizar la calidad de las
soluciones implementadas. Además, Rappi proporciona un entorno de desarrollo
integrado (IDE) que facilita la escritura, depuración y ejecución de código Python,
así
como la colaboración en equipo. Los desarrolladores también tienen acceso a
documentación y recursos adicionales para aprender y mejorar sus habilidades en
Python.
La herramienta de Python en Rappi brinda a los desarrolladores la capacidad de
aprovechar la potencia y flexibilidad de este lenguaje de programación para crear
soluciones innovadoras y mejorar la experiencia de los usuarios en la plataforma.

3. Usos de las herramientas de Big Data

3.1. Infochimps (similar a rappi)

Infochimps utiliza Apache Storm como fuente para uno de sus tres servicios de
datos en la nube: Data Delivery Services (DDS), que emplea Storm para
proporcionar un servicio en la nube de procesamiento, transporte y recopilación de
datos empresariales linealmente escalable y tolerante a fallas. . De manera similar
a Hadoop, que proporciona ETL por lotes y procesamiento analítico por lotes a gran
escala, DDS también proporciona ETL en tiempo real y procesamiento en tiempo
real a gran escala.

3.2.Taobao (filtra la informacion)

Taobao, con la ayuda de Apache Storm, crea estadísticas de registros y extrae


información útil de las estadísticas en tiempo real. Los registros se leen de las colas
de mensajes persistentes a los canales, se procesan y luego se pasan a las
topologías para calcular los resultados requeridos. El recuento de registros de
entrada de Taobao varía entre 2 millones y 1,5 mil millones cada día.

3.3. wega (selecciona la información)

Wega es el metabuscador de viajes completo del mundo, que opera en todo el


mundo y es utilizado por innumerables viajeros para obtener más opciones para
pagar menos y viajar más. Wego compara y muestra horarios de vuelos en tiempo
real, disponibilidad de hoteles, precios y muestra otros sitios de viajes alrededor del
mundo. Aquí, Apache Storm transmite datos de metabúsqueda en tiempo real de
los afiliados a los usuarios finales. Los conceptos de topología de Storm resuelven
problemas de simultaneidad y, al mismo tiempo, les ayudan a integrar, analizar y
limpiar los datos sin descanso. Además, las herramientas proporcionadas en Storm
permiten la actualización incremental para mejorar sus datos.

4. Comparativa de herramientas de Big Data

4.1. Propósito:

Apache Storm: Diseñado específicamente para el procesamiento en tiempo real de


flujos de datos a gran escala y aplicaciones de transmisión.

Python: Un lenguaje de programación general utilizado para una amplia variedad de


aplicaciones, incluyendo desarrollo web, análisis de datos, automatización y más.

4.2. Rendimiento y Escalabilidad:

Apache Storm: Ofrece un alto rendimiento y escalabilidad para procesar grandes


volúmenes de datos en tiempo real gracias a su capacidad de paralelismo y
distribución.

Python: Es más adecuado para aplicaciones secuenciales y no se escala tan


eficientemente para el procesamiento en tiempo real de grandes flujos de datos.

4.3. Facilidad de Uso:

Apache Storm: Requiere un conocimiento técnico más profundo y puede tener


una curva de aprendizaje más empinada debido a su naturaleza distribuida y las
topologías de procesamiento.

Python: Es conocido por su facilidad de uso y legibilidad, lo que lo hace accesible


para una amplia gama de desarrolladores, incluyendo principiantes.
4.4. Ecosistema y Comunidad:

Apache Storm: Tiene una comunidad activa, pero su ecosistema es más limitado
y se enfoca principalmente en aplicaciones de procesamiento en tiempo real.

Python: Cuenta con una comunidad extremadamente grande y diversa, con una
abundancia de bibliotecas y frameworks disponibles para una variedad de casos de
uso.

4.5.Tipo de Aplicación:

Apache Storm: Ideal para aplicaciones que requieren análisis en tiempo real,
detección de fraudes, transmisión de eventos en vivo y procesamiento continuo de
datos en tiempo real.

Python: Se utiliza para una amplia gama de aplicaciones, desde desarrollo web y
scripting hasta análisis de datos, aprendizaje automático y más, tanto en
procesamiento en tiempo real como en procesamiento por lotes.

5. Ventajas de la herramienta de big data

Actualmente usa más la herramienta hadoop, tiene herramientas que permiten


realizar desarrollos en entornos de sandbox para realizar pruebas que permitan
mejorar la eficiencia de los procesos de operaciones de empresas y entidades
públicas.

● Los lagos de datos permiten almacenar enormes cantidades de datos en su formato


original, permitiendo que los analistas de datos puedan llevar a cabo procesos de
análisis y descubrimiento sin restricciones.
● A través del framework MAP-REDUCE se puede utilizar un sistema de archivos
distribuido para el procesamiento en paralelo de los datos, de manera que el
servidor maestro del clúster Hadoop recibe y pone en cola las peticiones de los
usuarios y las asigna a los servidores esclavos para su procesamiento. Esto ahorra
a los desarrolladores los problemas de la programación en paralelo.
● Cuenta con mecanismos para monitorizar los datos, así como funciones para
facilitar el tratamiento, seguimiento y control de los datos almacenados y la
información que contiene.
● Permite analizar y descubrir patrones de comportamiento a través del
procesamiento de los datos obtenidos de los dispositivos IoT.

6. Beneficios de las herramientas de Big Data

Apache Storm es un sistema de procesamiento de datos en tiempo real que ofrece


muchos beneficios especialmente para una plataforma como Rappi. Aquí te
menciono :

1. Procesamiento en tiempo real: Storm puede analizar flujos de datos en tiempo


real. Esto es especialmente útil para Rappi, ya que permite tomar decisiones
basadas en datos actualizados al instante.

2. Alto rendimiento: Storm tiene un alto rendimiento suficiente para procesar más
de un millón de solicitudes por segundo. Esto significa que puede manejar grandes
volúmenes de datos sin ralentizar el sistema.

3. Tolerancia a fallas: Si un nodo falla, la topología se reinicia automáticamente en


un nuevo modo. Esto asegura que el sistema siga funcionando sin interrupciones,
incluso en caso de fallos.

4. Escalabilidad: Las topologías de Storm pueden ampliarse o reducirse según sea


necesario. Esto permite a Rappi adaptar su capacidad de procesamiento de datos
a medida que cambian sus necesidades.

5. Integración con otras tecnologías: Storm admite la integración con varios


sistemas de procesamiento de colas y tecnologías de base de datos. Esto facilita la
incorporación de Storm en la infraestructura existente de Rappi.
Python es un lenguaje de programación muy versátil y potente que puede aportar
numerosos beneficios a un sistema de entrega como Rappi. Aquí te menciono
algunos de los beneficios más destacados.

A. Legibilidad del código: Python es conocido por su sintaxis clara y legible, lo que
facilita la lectura y comprensión del código. Esto es especialmente útil en proyectos
grandes donde varios desarrolladores necesitan entender y modificar el código
existente.

B. Lenguaje de alto nivel: Python es un lenguaje de alto nivel, lo que significa que
es más fácil de usar que los lenguajes de bajo nivel . Su sintaxis es similar al inglés,
lo que facilita su lectura, escritura y aprendizaje . Polivalente y de paradigmas:
Python es un lenguaje de propósito general, lo que significa que se puede usar para
diversos propósitos. Es una excelente opción para el desarrollo de software, ya que
permite a los desarrolladores utilizar grandes frameworks como Django y Flask.

C. Bibliotecas y frameworks: Python tiene una amplia colección de bibliotecas y


frameworks, lo que proporciona una gran ventaja competitiva.. La biblioteca
estándar de Python es muy extensa y contiene muchos módulos integrados.

D. Paradigma orientado a objetos: Python admite varios paradigmas de


programación, incluyendo la programación orientada a objetos.. Esto es excelente
para resolver desafíos complejos de desarrollo de software.

En el caso específico de un sistema de entrega como Rappi, Python podría ser útil
para desarrollar y mantener la plataforma web, procesar y analizar datos,
implementar algoritmos complejos para la optimización de rutas, entre otras
aplicaciones.

Conclusiones

- El Big Data es una herramienta que hoy en día ninguna empresa debería
desaprovechar. A través de éste, es posible encontrar soluciones a muchos
problemas que esté presentando un negocio y crear estrategias efectivas desde el
análisis de datos. No se trata del tamaño de la base de datos sino del impacto que
tendrá el análisis hecho a partir de la información obtenida. El Big Data resuelve los
problemas con mayor precisión y rapidez gracias a un análisis profundo de la data
obtenida, por ejemplo, a través de cada uno de los pedidos que hacen los usuarios.
- La herramienta de Apache Storm se destaca en la empresa de Rappi en el
procesamiento en tiempo real de grandes flujos de datos y aplicaciones de
transmisión, mientras que Python es un lenguaje de programación general con una
amplia gama de aplicaciones y una comunidad extremadamente grande.
- Es una herramienta muy eficiente porque en torno a ella se crea una gran
comunidad de usuarios, aunque su principal inconveniente es que el proceso es
más lento que el de otros programas similares.
- El sistema de entrega como Rappi, Python podría ser útil para desarrollar y
mantener la plataforma web, procesar y analizar datos, implementar algoritmos
complejos para la optimización de rutas, entre otras aplicaciones.

- Apache Storm se destaca en el procesamiento en tiempo real de grandes


flujos de datos y aplicaciones de transmisión, mientras que Python es un
lenguaje de programación general con una amplia gama de aplicaciones y
una comunidad extremadamente grande. La elección entre ellos depende de
las necesidades específicas de tu proyecto y el tipo de procesamiento de
datos que debas realizar.

12. Referencias bibliográficas:

https://about.rappi.com/es/inicio
https://es.wikipedia.org/wiki/Python
https://es.cloudera.com/products/open-source/apache-
hadoop/apache-storm.html
https://keepcoding.io/blog/ventajas-y-desventajas-de-python/
https://orientacion.universia.edu.pe/infodetail/orientacion/con
sejos/que-es-python-y-cuales-son-sus-beneficios-6098.html
https://products.containerize.com/es/big-data/apache-storm/
https://es.ichlese.at/apache-storm-use-cases

También podría gustarte