CD - M8 AE2 Contenidos - 2023
CD - M8 AE2 Contenidos - 2023
CD - M8 AE2 Contenidos - 2023
Ciencia de Datos
Módulo: Fundamentos del Big Data
Aprendizaje Esperado
Amazon AWS
● Rápido
A través del almacenamiento en caché en la memoria y la ejecución
optimizada de consultas, Spark puede ejecutar consultas analíticas
rápidas contra datos de cualquier tamaño.
3. Inicie sesión en el clúster EMR: Una vez que haya creado el clúster
EMR, podrá iniciar sesión en él utilizando SSH. Deberá usar las
credenciales de SSH proporcionadas por AWS para conectarse al
clúster.
Con estos pasos, habrá habilitado Spark en AWS EMR y podrá comenzar a
procesar grandes conjuntos de datos utilizando Spark en la nube de AWS.
Para crear una instancia EC2 en Amazon Web Services (AWS), siga estos
pasos:
2. Navegue hasta el servicio EC2: Una vez que haya iniciado sesión,
busque y seleccione el servicio EC2 en el panel de servicios de AWS.
3. Haga clic en "Lanzar instancia": En la página de inicio de EC2, haga
clic en el botón "Lanzar instancia" para comenzar el proceso de
creación de la instancia EC2.
Una vez que haya lanzado su instancia EC2, podrá conectarse a ella y
comenzar a utilizarla para ejecutar aplicaciones o alojar su sitio web o
aplicación.
Con estos pasos, habrá configurado Putty para conectarse a una instancia
de Amazon EC2 y podrá comenzar a administrar su servidor.
nano ~/.jupyter/jupyter_notebook_config.py
c = get_config()
c.NotebookApp.ip = '0.0.0.0'
# Utilice un puerto de su elección (por ejemplo,
8888)
c.NotebookApp.port = 8888
c.NotebookApp.open_browser = False
sc = SparkContext("local", "myAppName")
rdd = sc.textFile("ruta/al/archivo")
sc = SparkContext("local", "myAppName")
data = ["Hola", "Mundo", "en", "Spark"]
rdd = sc.parallelize(data)
sc = SparkContext("local", "myAppName")
rdd1 = sc.parallelize(data)
rdd.persist()
Los RDDs Pair son una variante de los RDDs en Spark que contienen datos
almacenados en pares de clave-valor. Los RDDs Pair se utilizan
comúnmente en el procesamiento de datos estructurados y en la
realización de operaciones de agregación. Algunas de las operaciones que
se pueden realizar en los RDDs Pair incluyen groupByKey(), reduceByKey()
y sortByKey().
rdd = sc.parallelize(data)
rddPair = rdd.reduceByKey(lambda x, y: x + y)
En este ejemplo, se crea un RDD Pair a partir de una lista de tuplas que
contienen el nombre de una fruta y su cantidad. Luego, se utiliza la
función reduceByKey() para agregar la cantidad de cada fruta y se genera
un nuevo RDD Pair que contiene el nombre de la fruta y su cantidad total.
Principales Métodos
Transformación estrecha: en la transformación estrecha , todos los
elementos necesarios para calcular los registros en una partición única
viven en la partición única del RDD principal. Se utiliza un subconjunto
limitado de partición para calcular el resultado. Las transformaciones
estrechas son el resultado de map(), filter().
● Top
top()– Devuelve los n elementos principales del conjunto de
datos.
Job Spark
En Spark, un job es un conjunto de transformaciones y acciones que se
aplican a uno o varios RDDs para obtener un resultado final. Un job se
ejecuta en un clúster de Spark y se divide en tareas (tasks), que se
ejecutan en diferentes nodos del clúster.
https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-
configure.html
https://sostenibilidad.aboutamazon.es/medio-ambiente/la-
nube?energyType=true
https://docs.aws.amazon.com/es_es/emr/latest/ReleaseGuide/emr-
spark-configure.html
https://www.linkedin.com/learning/python-para-data-science-y-big-
data-esencial/que-son-los-rdd-resilient-distributed-
databases?autoplay=true
https://thatcsharpguy.github.io/tv/lazy-evaluation/
https://spark.apache.org/docs/latest/job-scheduling.html
Complementario
https://www.youtube.com/watch?v=3_ZNHe4PZsY&t=1s
https://youtu.be/6rTiRp982wE