Certus Big Data 10
Certus Big Data 10
Certus Big Data 10
PRIVADO CERTUS
Ciclo: III
Integrantes: Grupo 2
Lima – Perú
2023
ÍNDICE
Contenido
Introducción ............................................................................................................................ 3
Marco teórico .......................................................................................................................... 5
Metodología de procesamiento de datos y sus pasos ....................................................... 5
● Recopilación de datos ..................................................................................................... 5
● Limpieza de datos............................................................................................................ 5
● Transformación de datos ................................................................................................. 5
● Análisis de datos.............................................................................................................. 5
● Interpretación de resultados ............................................................................................ 5
● Presentación de resultados ............................................................................................. 5
● Almacenamiento y gestión de datos ............................................................................... 5
● Mantenimiento y actualización ........................................................................................ 6
● Seguridad y privacidad de datos ..................................................................................... 6
● Evaluación y retroalimentación ....................................................................................... 6
Descripción de las herramientas de big data ......................................................................... 6
Apache storm ...................................................................................................................... 6
Python ................................................................................................................................. 7
2. Descripción de herramientas ............................................................................................. 7
Python ................................................................................................................................. 9
3. Usos de las herramientas de Big Data .............................................................................. 9
3.1. Infochimps (similar a rappi) ......................................................................................... 9
3.2.Taobao (filtra la informacion) ........................................................................................ 9
3.3. wega (selecciona la información) .............................................................................. 10
4. Comparativa de herramientas de Big Data ...................................................................... 10
4.1. Propósito: ................................................................................................................... 10
4.2. Rendimiento y Escalabilidad: .................................................................................... 10
4.3. Facilidad de Uso: ....................................................................................................... 10
4.4. Ecosistema y Comunidad: ......................................................................................... 11
4.5.Tipo de Aplicación: ..................................................................................................... 11
5. Ventajas de la herramienta de big data ........................................................................... 11
6. Beneficios de las herramientas de Big Data .................................................................... 12
Conclusiones ........................................................................................................................ 13
12. Referencias bibliográficas: ............................................................................................. 14
Introducción
La explosión de datos en la era digital ha transformado por completo la forma en
que las organizaciones operan y toman decisiones. El Big Data se ha convertido en
un recurso invaluable que puede proporcionar información valiosa para comprender
y mejorar las operaciones comerciales, la toma de decisiones estratégicas y la
satisfacción del cliente. Sin embargo, el simple almacenamiento masivo de datos ya
no es suficiente; se necesita un enfoque integral para procesar y aprovechar
eficazmente este torrente de información. Este proyecto de investigación se
adentrará en el mundo del procesamiento de datos en Big Data desde una
perspectiva centrada en el entendimiento e interpretación del negocio.
Examinaremos los pasos o fases cruciales que conforman este proceso y
explicaremos las herramientas que lo hacen posible. Nuestro objetivo es
desentrañar el potencial de Big Data como un recurso estratégico que puede
impulsar la innovación, la eficiencia operativa y el éxito empresarial. En este
contexto, exploramos cómo el procesamiento de datos en Big Data no solo se trata
de manejar grandes volúmenes de información, sino también de comprender cómo
esos datos pueden traducirse en conocimiento significativo para las empresas. Nos
sumergimos en las herramientas y técnicas que permiten a las organizaciones
analizar tendencias, identificar patrones, predecir resultados y tomar decisiones
informadas que impacten positivamente en sus objetivos comerciales. A lo largo de
esta investigación, examinaremos casos de estudio reales con empresas y ejemplos
concretos para ilustrar cómo el procesamiento de datos en Big Data ha cambiado la
forma en que las empresas operan en diversas industrias. Además, exploramos los
desafíos y las consideraciones éticas asociadas con el manejo de grandes
cantidades de datos y su impacto en la privacidad y la seguridad de la información.
Este proyecto de investigación será una oportunidad para adquirir un conocimiento
profundo sobre el emocionante mundo de Big Data y cómo puede ser un habilitador
clave para el éxito empresarial en la era digital. A medida que avanzamos,
desentrañaremos los misterios del procesamiento de datos en Big Data y
descubriremos cómo puede convertirse en una herramienta poderosa para impulsar
el crecimiento y la innovación en las organizaciones.
Marco teórico
● Evaluación y retroalimentación
Es importante evaluar la efectividad del proceso de procesamiento de datos y
recopilar retroalimentación para mejorarlo en el futuro. Estos pasos pueden variar
en detalle según el contexto específico y los objetivos del procesamiento de datos,
pero proporcionan una guía general para convertir datos en información significativa
y tomar decisiones informadas.
Apache storm
Un clúster de Storm tiene tres conjuntos de nodos: nodo Nimbus. nodo ZooKeeper,
nodo Supervisor
Python
2. Descripción de herramientas
6. Trident: Trident, como una capa de alto nivel construida sobre Apache Storm,
podría ser utilizada por Rappi para simplificar y acelerar el desarrollo de topologías
más complejas de procesamiento de datos en tiempo real. Por ejemplo, podría
facilitar la agregación de datos para generar informes de ventas diarios o permitir la
implementación de operaciones avanzadas de análisis de datos.
Infochimps utiliza Apache Storm como fuente para uno de sus tres servicios de
datos en la nube: Data Delivery Services (DDS), que emplea Storm para
proporcionar un servicio en la nube de procesamiento, transporte y recopilación de
datos empresariales linealmente escalable y tolerante a fallas. . De manera similar
a Hadoop, que proporciona ETL por lotes y procesamiento analítico por lotes a gran
escala, DDS también proporciona ETL en tiempo real y procesamiento en tiempo
real a gran escala.
4.1. Propósito:
Apache Storm: Tiene una comunidad activa, pero su ecosistema es más limitado
y se enfoca principalmente en aplicaciones de procesamiento en tiempo real.
Python: Cuenta con una comunidad extremadamente grande y diversa, con una
abundancia de bibliotecas y frameworks disponibles para una variedad de casos de
uso.
4.5.Tipo de Aplicación:
Apache Storm: Ideal para aplicaciones que requieren análisis en tiempo real,
detección de fraudes, transmisión de eventos en vivo y procesamiento continuo de
datos en tiempo real.
Python: Se utiliza para una amplia gama de aplicaciones, desde desarrollo web y
scripting hasta análisis de datos, aprendizaje automático y más, tanto en
procesamiento en tiempo real como en procesamiento por lotes.
2. Alto rendimiento: Storm tiene un alto rendimiento suficiente para procesar más
de un millón de solicitudes por segundo. Esto significa que puede manejar grandes
volúmenes de datos sin ralentizar el sistema.
A. Legibilidad del código: Python es conocido por su sintaxis clara y legible, lo que
facilita la lectura y comprensión del código. Esto es especialmente útil en proyectos
grandes donde varios desarrolladores necesitan entender y modificar el código
existente.
B. Lenguaje de alto nivel: Python es un lenguaje de alto nivel, lo que significa que
es más fácil de usar que los lenguajes de bajo nivel . Su sintaxis es similar al inglés,
lo que facilita su lectura, escritura y aprendizaje . Polivalente y de paradigmas:
Python es un lenguaje de propósito general, lo que significa que se puede usar para
diversos propósitos. Es una excelente opción para el desarrollo de software, ya que
permite a los desarrolladores utilizar grandes frameworks como Django y Flask.
En el caso específico de un sistema de entrega como Rappi, Python podría ser útil
para desarrollar y mantener la plataforma web, procesar y analizar datos,
implementar algoritmos complejos para la optimización de rutas, entre otras
aplicaciones.
Conclusiones
- El Big Data es una herramienta que hoy en día ninguna empresa debería
desaprovechar. A través de éste, es posible encontrar soluciones a muchos
problemas que esté presentando un negocio y crear estrategias efectivas desde el
análisis de datos. No se trata del tamaño de la base de datos sino del impacto que
tendrá el análisis hecho a partir de la información obtenida. El Big Data resuelve los
problemas con mayor precisión y rapidez gracias a un análisis profundo de la data
obtenida, por ejemplo, a través de cada uno de los pedidos que hacen los usuarios.
- La herramienta de Apache Storm se destaca en la empresa de Rappi en el
procesamiento en tiempo real de grandes flujos de datos y aplicaciones de
transmisión, mientras que Python es un lenguaje de programación general con una
amplia gama de aplicaciones y una comunidad extremadamente grande.
- Es una herramienta muy eficiente porque en torno a ella se crea una gran
comunidad de usuarios, aunque su principal inconveniente es que el proceso es
más lento que el de otros programas similares.
- El sistema de entrega como Rappi, Python podría ser útil para desarrollar y
mantener la plataforma web, procesar y analizar datos, implementar algoritmos
complejos para la optimización de rutas, entre otras aplicaciones.
https://about.rappi.com/es/inicio
https://es.wikipedia.org/wiki/Python
https://es.cloudera.com/products/open-source/apache-
hadoop/apache-storm.html
https://keepcoding.io/blog/ventajas-y-desventajas-de-python/
https://orientacion.universia.edu.pe/infodetail/orientacion/con
sejos/que-es-python-y-cuales-son-sus-beneficios-6098.html
https://products.containerize.com/es/big-data/apache-storm/
https://es.ichlese.at/apache-storm-use-cases