Laboratorio Análisis de Twitter

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 33

LABORATORIO: BIG DATA ANÁLISIS DE SENTIMIENTO

Objetivo del laboratorio:


Aprender Big data a través del desarrollo de un ejercicio práctico donde se
abordarán temas de obtención de datos no estructurados, limpieza, transformación
y visualización de datos.
Laboratorio
● Crear un WordCloud de análisis de sentimiento para una cuenta de twitter.
● Analizar mediante técnicas de Big data el sentimiento que genera una publicación
en una red social, (Twitter), para esto usaremos el lenguaje Python sobre
databricks
● Ejemplo de WordCloud

Herramientas a utilizadas
1. Amazon Databricks (Crear cuenta)
2. Twitter (Crear cuenta developer) (Se debe contar con una cuenta normal de
twitter)
3. Librerías:
a. Librería Twitter (Para Obtención de datos)
b. Librería WordCloud (Para Visualización de datos)
El laboratorio se desarrollará a través de 6 MODULOS o clases prácticas.

DESCRIPCIÓN DE LOS MÓDULOS

MÓDULO 1: INICIO DEL LABORATORIO


Instalar y configurar las herramientas necesarias para el desarrollo del laboratorio
Configurar cuenta en databricks
Configurar cuenta en Twitter – Developer
Configurar librerías en Databricks
Configurar clúster en databricks

MÓDULO 2: CREACIÓN DE APP


Creación de apps para obtener twits

MÓDULO 3: CREAR PROYECTO EN DATABRICKS


Creación de proyecto en Databricks

MÓDULO 4. OBTENCIÓN DE DATOS


Código para obtener los datos desde twitter

MÓDULO 5. LIMPIEZA DE DATOS


Código para realizar limpieza de datos

MÓDULO 6. LECTURA DE TWITS


Código para obtener los datos desde twitter

MÓDULO 7. TRANSFORMACIÓN Y VISUALIZACIÓN DE DATOS


Código para transformar y visualizar los datos
MÓDULO 1: INICIO DEL LABORATORIO

Paso 1: Crear una cuenta en la comunidad de Databricks – Apache Spark


Databricks es una herramienta in cloud para el procesamiento de Big data, basado
en lenguaje Python que permite el uso de diferentes librerías para machine
learning ML, analítica entre otras.
Ingresar a: https://databricks.com/try-databricks
1. En la página que se abre, llenar los campos y dar clic en REGÍSTRATE
2. Después de dar el clic en REGÍSTRATE, en la página que se abre, dar clic en el
apartado de Community Edition y dar clic en GET STARTED

3. Validar la cuenta

Si no recibió el correo, valide en SPAM, si no está allí valide con la página web.
Paso 2: Crear cuenta Twitter Developer
Esta cuenta permite crear apps para desarrolladores, obtener datos no
estructurados desde twitter, hacer consultas para el posterior analisis de
información.

1. Iniciar sesión en twitter, (Si no tiene cuenta, por favor cree una cuenta de Twitter)
a. https://twitter.com/login
2. Ingresamos a:
a. https://developer.twitter.com/
b. Dar clic en Apps

3. En la ventana abierta:
a. Dar clic en Create an App

b. Dar clic en Apply


4. Se inician pantallas determinar el uso que le vas a dar a tu cuenta de
desarrollador, por tanto, dependiendo del interés de la cuenta se selecciona la
opción.
a. En este caso seleccionamos Academic -> student Project -> Learning to code.
5. Dar clic en Next y diligenciar el formulario explicando que crearemos una cuenta
estudiante para pruebas de analítica.
6. Insertar el siguiente texto en el primer cuadro:
Hello!

For this account I plan to build and collect inspirational memes related to the anime
character Rock Lee from the TV series Naruto.

I'll be using a scheduling tool we built as a WordPress plugin to manage our content
creation. This project will also serve as a case study for other clients wanting to use
our scheduling tool. We have no intention of using the API for likes, or direct
messaging, nor does our scheduling tool provide for it.

7. Insertar el siguiente texto en el segundo cuadro:


I plan to use our granted API keys in a way that's compliant with Twitters automation
policy located here: https://help.twitter.com/en/rules-and-policies/twitter-automation

We do not plan to poll for deep tweet or user insights, but we hope to implement
insights in the future.

8. Insertar el siguiente texto en el tercer cuadro:


I don't intend to use the API to display twitter tweets inside our WordPress
Dashboard, but we will embed tweets that our scheduler was used to publish.This
way users can visualize their tweet.

Kind regards,

WordPress Developer

9. Insertar el siguiente texto en el Cuarto cuadro:


I don't planned to display tweets or aggregate data about Twitter content outside of
Twitter, we only use
Kind regards,

WordPress Developer

10. Insertar el siguiente texto en el Quinto cuadro:


My academic product will not service or analysis make Twitter content or derived
information available to a government entity.

11. Dar clic en continuar y enviar Aplicación:


12. Twitter te envía un correo electrónico de confirmación de creación de la cuenta,
dar clic en confirmar para abrir tu cuenta developer, este proceso tiene un tiempo
de espera de aprobación para la habilitación de uso
MÓDULO 2: CREACION DE APP
Después de la aprobación de la cuenta, damos clic en empezar y luego Crear una
aplicación
Vamos a crear una app que nos permita conectarnos a twitter como
desarrolladores
Ingresar a https://developer.twitter.com y logearse
Dar click en crear una aplicación o app

Crear una aplicación


Escribir una breve descripción de lo que hará nuestra aplicación, en este caso una
aplicación para analizar datos de twitter.

Nos pide una dirección de nuestro sitio web, podemos ingresar cualquiera.
Diligenciamos el formulario informando sobre el uso que le daremos a los datos
obtenidos de twitter.

Y damos click en crear


Al crear la App nos genera un Token
Al crear la APP, nos genera un Token, el cual usaremos para conectarnos desde
Databricks, debemos guardarlo o copiar el token.
clic en “create” para crear el token

MÓDULO 3: CREAR PROYECTO EN DATABRICKS

1. Iniciamos sesión en Databricks


https://community.cloud.databricks.com/login.html
En databricks es donde desarrollaremos nuestro proyecto en lenguaje
Python.
2. Ingresamos nuestros datos y nos logueamos
Componentes que debemos crear:
● Cluster
● Librería twitter
● Librería wordcloud
● Proyecto en blanco
3. Al ingresar a Databricks lo primero que se debe realizar para cualquier proyecto es
crear un cluster, el cluster es la instancia donde se ejecutara nuestro proyecto.

4. Creamos las librerias que se van a conectar con Twitter a través del token y la
librería de WordCloud que nos permitirá visualizar los datos.
5. Dar clic en crear clúster, ponemos un nombre y luego dar clic en crea clúster.

● Esperar unos minutos. El cluster siempre debe estar en modo running

6. Después de crear el clúster


7. Crear librería Twitter, dar clic en workspace
8. Dar click en PyPI y damos un nombre a nuestra librería Twitter, el repositorio de la
librería es: https://pypi.org/project/twitter/
9. Después de dar Create, NO teclear o dar clic a nada más en la ventana
informativa de la librería.
Repetimos el mismo proceso para crear la librería de Wordcloud.

10. Dar click en workspace y créate library, dar click en pypi y poner la dirección del
repositorio:
https://pypi.org/project/wordcloud/ y un nombre y dar click en “Create”

Para revisar el repositorio de librería ir a cada uno de las direcciones


(https://pypi.org/project/wordcloud/ , https://pypi.org/project/twitter/ )
MÓDULO 4. OBTENCION DE DATOS

EMPEZAMOS A CREAR EL PROYECTO EN DATABRICKS


1. Seleccionamos Workspace, Create, Notebook.
2. Iniciar un proyecto en blanco, ponemos un nombre a nuestro proyecto y
seleccionamos lenguaje Python.
Abrir con Notepad++ el archivo adjunto: 3. LABORATORIO BIG DATA ANALISIS
DE TWITTER
● El Notepad ++ nos muestra el código de manera ordenada.
● El código está dividido por fragmentos y etiquetado con comentarios aclaratorios
para su mayor entendimiento, COPIAR POR LOS FRAGMENTOS, en total
tenemos 20 Comandos para que ejecute por aparte, todo esta separado con la
etiqueta
#--------------COMANDO #1-----------------------
#--------------COMANDO #2-----------------------
● En esta primera parte del código definimos las variables que usaremos para
conectarnos a la app que creamos en twitter.

Para su guía del código que debe ir ejecutando es la siguiente.


Para la etiqueta COMANDO 1 esta debe coincidir con el valor CMD del cuadro de
texto, a continuación, el ejemplo.

3. Copiar y pegar hasta antes del módulo 5.


4. Pegamos los tokens que nos permitirán autenticarnos con nuestra app creada en
twitter

5. Pegamos la siguiente fracción de codigo para empezar a realizar consultas a


twitter
6. Ejecutamos y validamos que este trayendo los Twits y que está bien los
parámetros.

7. Filtramos los datos obtenidos, buscando alguna cuenta en twitter (Pontifex_es)


MÓDULO 5. LIMPIEZA DE DATOS
Hacemos un proceso de limpieza de datos usando funciones de expresiones
regulares.
Utilizar el código de limpieza de datos del: 3. LABORATORIO BIG DATA
ANALISIS DE TWITTER
Limpieza de caracteres
Las expresiones regulares las usamos para remover caracteres que no aportan
información valiosa al twit.

1. Verificamos que el proceso de limpieza, está quedando de acuerdo a la


necesidad.
Limpieza de Stopwords
2. Las Stopwords son palabras que no aportan información valiosa al twit

3. Verificamos que se hayan limpiado las StopWords


MODULO 6. LECTURA DE TWITS
Leemos los primero 5000 Twits
1. Copiamos y pegamos el codigo del #------ comando 9 -------

2. Transformamos las características a valores numéricos para su posterior análisis,


proceso de normalización.
3. Contamos el número de veces que se repite una palabra (ocurrencias)
Utilizando el método de kmeans

4. Generamos el porcentaje de probabilidad de ocurrencia de palabras


MODULO 7. CLUSTERIZACION Y VISUALIZACION DE DATOS
1. Agrupamos en un Cluster, para iniciar el proceso de visualización de datos

2. Script que recorre el cluster y función plot que genera el wordlcoud


3. Resultado del análisis de sentimiento Usamos diferentes formas de plotear

4. Usamos diferentes formas de plotear


5. Usamos diferentes formas de plotear

6. Usamos diferentes formas de plotear


7. Usamos diferentes formas de plotear

También podría gustarte