Big Data y Mineria de Datos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 72

BIG DATA Y

MINERIA DE
DATOS
Profesor: Oscar Martínez
Big Data y Minería
de Datos con
Python
1. Introducción a Big Data
2. Programar con Python;
condicionales. ciclos (While y For),
Vectores.
3. Estructura de datos.
4. Invocación de librerías para limpieza
y de datos, creación y
transformación de DataFrames,
filtrado y la función install
(packages); Math, Pandas, Numpy,
DateTime, Random, yFinance,
DataReader, etc.
5. Importación de librerías para
visualización de datos y elaboración
de informes; Matplotlib, Seaborn y
MarkDown.
6. Aprendizaje automático (Machine
Learning) con Scikit Learn.
TEXTOS RECOMENDADOS

1. Caballero, Rafael. et al. (2019). “Big Data con Python; Recolección, almacenamiento y
proceso”. Ed. Alpha Editorial.

2. Cervantes, Villagómez. (2017). Python con aplicaciones a las matemáticas, ingeniería y


finanzas.

3. Sitios Web Recomendados: www.github.com

www.kaggle.com
BIG DATA Y PYTHON
• ¿Por qué Big Data con Python?

• Capacidad de resolver problemas con una menor cantidad de códigos


procedimientos, o instrucciones, para indicarle al ordenador que tareas
tiene que hacer.
• Ofrece el uso de múltiples bibliotecas para computación numérica, análisis
de datos y estadísticos, visualización, tales como Numpy, Pandas,
Matplotlib y Seaborn.
BIG DATA Y PYTHON

Raw Data Process

Real Clean
World Data

Outcome
Contextualización, modelado,
Visualización de datos, informes.
BIG DATA Y PYTHON

• Comunidad que lo respalda porque siempre hay alguien que ya


resolvió tu problema.

• Hay librería para casi todo…


Big Data y Minería
de Datos con
Python
1. Introducción a Big Data
2. Programar con Python;
condicionales. ciclos (While y For),
Vectores.
3. Estructura de datos.
4. Invocación de librerías para limpieza
y de datos, creación y
transformación de DataFrames,
filtrado y la función install
(packages); Math, Pandas, Numpy,
DateTime, Random, yFinance,
DataReader, etc.
5. Importación de librerías para
visualización de datos y elaboración
de informes; Matplotlib, Seaborn y
MarkDown.
6. Aprendizaje automático (Machine
Learning) con Scikit Learn.
Programar con Python; condicionales, ciclos
While y For), vectores.
1. Para programar en Python se requiere de un editor de texto o un entorno de desarrollo
integrado (IDE), donde se escriba el código que se ejecutará más adelante (block de
notas de Windows, símbolo del sistema, el editor de IDLE (Integrated Development
Enviroment), Spyder, Jupyter, entre otros). En nuestro caso usaremos Google
Colaboratory.

2. Lo importante “es el conocimiento que se tenga del lenguaje” más no el editor o el


entorno de desarrollo; usted escoge el de su preferencia pero requiere por lo menos
una base en programación.

3. Se puede consultar en: https://juejung.github.io/jdocs/Comp/html/index.html


Programar con Python; condicionales,
ciclos While y For), vectores.
1. Variable: Es el espacio de memoria donde se almacenan los datos que utiliza
un programa. Cada variable debe tener un nombre el cual se podrá identificar
para el desarrollo del programa, con un comentario.

Se trabajan las que almacenan texto (str), las que almacenan números (enteros y
reales) y las lógicas. Los números enteros son llamados int, los números reales o
decimales, son llamados float, y las que almacenan texto son tipo strings (str), las
cuales se debe almacenar entre comillas, dobles o sencillas.
Programar con Python; condicionales,
ciclos While y For), vectores.
2. Declaración de variables: se asigna el valor o dato a guardar o almacenar en el
siguiente espacio de memoria (X = 2). A modo práctico se abre Google Colab y
para asignarle 2 a la variable X.
Se almacena el dato dentro de la variable.
2 En este espacio de memoria recibe un número
entero. Lo mismo pasa con los números reales y
Los tipo texto.

“Hola a
2,5 todos”
Programar con Python; condicionales,
ciclos While y For), vectores.

(bool)

(str)
Programar con Python; condicionales,
ciclos While y For), vectores.
Elaboración del código: Se elaboran las sentencias en el lenguaje de
programación de Python, por ejemplo, la suma de dos número enteros
(X y Y) en Colab.
Programar con Python; condicionales,
ciclos While y For), vectores.
Programar con Python; condicionales,
ciclos While y For), vectores.
• En el editor del IDLE (o desde Google Función Phyton Significado
Colaboratory), se pueden programar diversas |X| abs(x) Valor absoluto de X
operaciones matemáticas, incluso aquellas ab pow(a,b) Potenciación
especializadas como funciones trigonométricas, Cociente de a/b Arroja el cociente entero de
a/b a sobre b
logarítmicas, raíces y potenciación, disponibles
Residuo de a%b Arroja el residuo de a sobre
en bibliotecas que deben ser cargadas o a/b b
importadas antes de usarse, p.e.
import math as mt a/b divmod(a,b) Obtiene el cociente y el
residuo de a/b
y = mt.sqrt(2) √x sqrt(x) Devuelve la raíz cuadrada
print(y) de x
Programar con Python; condicionales,
ciclos While y For), vectores.
• Entrada de datos: para la entrada de datos se utiliza la instrucción input, de la siguiente manera:

a. Si se quiere definir si X o Y son valores enteros o decimales, se aplica lo siguiente:


X = int(input (“dame el valor de x:”))
Y = float(input (“dame el valor de y:”))

b. Si es tipo cadena o string, se aplica lo siguiente:


Z = str(input(“Responda S o N:”)
Programar con Python; condicionales,
ciclos While y For), vectores.
• Salida de datos: con la instrucción print se despliegan los resultados de los
En lugar de concatenar texto
algoritmos realizados. con resultado se usa %

print (“el resultado es: $ %0.2f \n” % resultado)

Salto de renglón

Campo que indica que al final existe una variable real (float) que se imprimirá con
dos decimales. El campo f es el especificador de formato (decimal de punto
flotante) y 2 es el número de decimales a la derecha.
Programar con Python; condicionales,
ciclos While y For), vectores.
• Concatenación: consiste en unir dos o más cadenas para conformar
una cadena mayor, utilizado el operador de concatenación +, por
ejemplo en el editor de IDLE:
mensaje = “buenas noches”
espacio = “ “
Concatenar variables de nombre = “curso de Phyton”
caracteres.
print(mensaje + espacio + nombre)
Programar con Python; condicionales,
ciclos While y For), vectores.
• Convertir un número en una variable de texto, teniendo en cuenta
que no se puede concatenar una variable tipo entero de una de texto
(string).
Programar con Python; condicionales,
ciclos While y For), vectores.
• Ejemplo: se desea un programa en Python que calcule el interés simple y
el compuesto de un capital que ganará un rendimiento dado a una tasa de
interés X y en un periodo de tiempo de n meses. Las fórmulas son:

F _interés simple= capital*(1+n*interés)


F_interés compuesto = capital*(1+interés)^n
Programar con Python; condicionales,
ciclos While y For), vectores.
1. Después de la expresión lógica debe
escribirse dos puntos.

2. Las instrucciones dentro de un ciclo llevan


CONSIDERACIONES sangría.
AL PROGRAMAR 3. En el caso de los ciclos, la instrucción sin
sangría esta fuera del ciclo.

4. Las instrucciones solamente se ejecutan


cuando la expresión lógica es verdadera.
• Usando el símbolo numeral al principio del
programa, o abrir con tres comillas dobles (o
sencillas) al inicio de la instrucción y luego al
USO DE final, o usar #, para que no se considere al
COMENTARIOS momento de comprobar el algoritmo.

• Igualmente, al final de una línea de instrucción


se indica un comentario que le dice al usuario
en que le contribuye esa línea al programa.
Instrucción Descripción
Condicionales if Para iniciar la condición.
else Sirve para ejecutar otra condición si
la anterior no se cumple.
• Para la toma de decisiones,
Python tiene instrucciones para elif Si la condición anterior o inicial no
realizar las condiciones, y son se cumple, se considera esta
de tres clases:
condición.

a. Condición simple.
b. Condición si_sino.
c. Condición anidada.
Condición simple.
If (expresión lógica):
instrucciones….
Condición si_sino.
If (expresión lógica):
instrucciones 1
elif (expresión lógica):
Condicionales instrucciones 2
Condición anidada.
If (expresión lógica A):
instrucciones A.
else:
If (expresión lógica B):
instrucciones B
Condicionales Operador Definición Ejemplo

> mayor que A>B

>= Mayor que o igual a A>=B

< menor que A<5

<= menor o igual que X<=5

== Igual a X=5

!= Distinto a X! = 5
EJERCICIO EN CLASE

• Elabore un algoritmo para resolver la


siguiente ecuación de primer grado:

a.x + b = 0

Hay que tener en cuenta que a debe ser


diferente de cero para realizar la siguiente
instrucción deseada; x = -b/a
EJERCICIO EN CLASE

1. Se requiere un programa que reciba fórmulas químicas de compuestos y se muestre su nombre en


español.
Cloruro de sodio NaCl
Agua H2O
Ácido clorhídrico HCl

• Pasos: Lee el compuesto químico que se ingresa y de acuerdo con la condición se muestra el nombre del
compuesto químico. Se despliega el compuesto químico con la opción print.
EJERCICIO 2
EJERCICIOS

1. Elabore un algoritmo donde un consumidor financiero ingrese una cantidad de dinero que desea invertir.
Si este usuario ingresa una cantidad menor o igual a $1.000.000, entonces recibirá el 3 % EA, sino, si
ingresa una cantidad superior a $1.000.000, entonces recibirá el 4 % EA. La inversión es pagadera al final
del primer año.

2. Existen 3 opciones en una decisión de inversión. En la primera opción, si deposita 7 millones de pesos
recibirá al final del primer año el 10 % EA, si deposita entre 7 y 10 millones de pesos al final recibirá 11 %
EA, y si deposita más de 10 millones de pesos se le pagará al final del primer año 12 % EA. Elabore un
algoritmo para determinar el valor futuro de una inversión con interés compuesto.
CICLOS (WHILE)

• Sujeto a una expresión lógica, los ciclos permiten la repetición de instrucciones


dentro de un algoritmo o programa. Si no se cumple la condición lógica, no entra
al ciclo, o no se repite la instrucción. Existen dos tipos de ciclos, el ciclo Mientras
y el ciclo Para.
while (expresión lógica):
instrucciones
CICLOS (WHILE)

• Por ejemplo, un programa que me calcule la suma de los números del 1 hasta n. El usuario
ingresa el valor de n.

n = int(input(“Ingrese el valor de n”)


j=1 # esta variable se le conoce con el nombre de contador y se guarda en la variable suma.
Sum = 0 # esta variable se le conoce como acumuladora, porque se usa para sumar o acumular
valores de una serie de datos.
while (j<n):
Sum = Sum + j #variable que acumula
j=j+1 #variable contadora
CICLOS (WHILE)
• Se debe incluir la variable sum = 0 ,
j=1, y n, antes del ciclo.
• Si no se incrementa el contador, el
ciclo no podría terminar ya que la
expresión lógica no cambiaría.
• El ciclo termina cuando el contador “j”
eS igual al número entero que ingresa
el usuario.
Es un conjunto de instrucciones que se repite un
número determinado de veces, mediante un
contador que cuenta las veces en que se debe repetir
el ciclo. Las instrucciones se repiten dentro del ciclo

CICLOS (FOR) para (For) y se ejecuta cada vez que se incrementa el


valor del contador y hasta que se cumple el valor
final del contador. La estructura es:

for contador in lista:

instrucciones
CICLOS (FOR)

CARACTERÍSTICAS:

• La condición no debe estar entre paréntesis y no se hace necesario inicializar el


contador (cont = 1), y el ciclo termina en el último valor de la lista. list = (1,….,n).

• El contador se incrementa en la unidad, de acuerdo con el último valor de la lista, es


decir, n.
CICLOS (FOR)

# Inicia la suma
Sum = 0
lista = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
for contador in lista
sum = sum + contador
print(“la suma de los números enteros del 1 al 10, es:\n”, sum)
CICLOS (FOR)
CICLOS (FOR)
import math as mt Visualización f(x):

for cont in range(10): def f(x):


x = cont return pow(x,1/3)
y = mt.sqrt(cont) x = linspace(0,10,10)
print(x," ",y) plt.plot(f(x),x)
plt.show()
print(x," ",f(x))
función range: en lugar de una lista, la función “range” tiene
el siguiente formato:

range (a, b, c)

Esta función crea una lista que inicia en a, termina en b, y c


es el incremento. Con la función range, no se incluye el

CICLOS (FOR) último número que es 11. Por ejemplo, se estructura así:

# Inicia la suma
Sum = 0
for contador in range(1,11,1)
sum = sum + contador
print(“la suma de los números enteros del 1 al 10, es:\n”,
sum)
CICLOS
(FOR)
CICLOS (FOR)

• Elabore un algoritmo que


calcule el factorial de un
número entero n, el cual se
denota por n! y se define
como: 5! = 5*4*3*2*1 = 120.
CICLOS (FOR)

• Elabore un programa que


sume m números aleatorios
en el rango entre 1 y m+1, y
calcule su promedio. En
pantalla deben aparecer los
números aleatorios.
VECTORES

• Un vector consiste en un número x= [None]*50


finito de elementos o datos (que
for cont in range(50):
pueden ser reales, enteros,
x[cont]="a“
alfanuméricos y lógicos). Se pueden
print(x[cont])
listar desde cero hasta N, tal como
indica a continuación en este ejemplo:
VECTORES
VECTORES

• Vectores con números aleatorios; import random


x = [None]*10
Se utiliza la función random que se
for index in range(10):
encuentra en la biblioteca random
x[index]=random.random()
(import random). Esta función arroja un print(x[index])
número aleatorio entre cero y uno.
VECTORES

• Sumar 10 números aleatorios de un vector:


import random
x = [None]*10
sum=0

for cont in range(10):


x[cont]=random.random()
sum=sum+x[cont]
print(sum)
print(sum)
VECTORES
VECTORES
Big Data y Minería
de Datos con
Python
1. Introducción a Big Data
2. Programar con Python;
condicionales. ciclos (While y For),
Vectores.
3. Estructura de datos.
4. Invocación de librerías para limpieza
y de datos, creación y
transformación de DataFrames,
filtrado y la función install
(packages); Math, Pandas, Numpy,
DateTime, Random, yFinance,
DataReader, etc.
5. Importación de librerías para
visualización de datos y elaboración
de informes; Matplotlib, Seaborn y
MarkDown.
6. Aprendizaje automático (Machine
Learning) con Scikit Learn.
ESTRUCTURA DE DATOS

• Se han manejado tres tipos de variables a saber: reales, enteros,


alfanuméricos, lógicos.

• Se crean estructuras de datos a partir de distintos de datos, conocidos


como Estructuras de Datos, que son listas, tuplas y diccionarios.

• Las listas agrupan elementos dentro de los corchetes y cada elemento


se separa con comas, así: x = [A, B, C] ó y = [1 , 2, 3].
ESTRUCTURA DE DATOS
1. Una tupla es inmutable y de longitud específica, sus valores no
se pueden cambiar. Consiste en encapsular datos que no queremos
que cambien; se definen valores separados por comas y dentro de
un par de paréntesis A = (1, 2, 3). El primer elemento de la tupla
tiene índice cero.
2. T[i] imprime el elemento i de la tupla T.
3. len(T) me indica la longitud de la tupla T.
4. El último elemento de la tupla se ubica en la posición len(T) – 1.
ESTRUCTURA DE DATOS
1. Una lista en cambio si es mutable, es decir si se puede cambiar un
elemento del mismo, se puede agregar un dato, o cambiar la
longitud del mismo. Es una secuencia de valores o cadenas, entre
corchetes y separados por comas.
2. Un diccionario es una colección de pares clave – valor. La secuencia
de pares clave – valor se encuentra entre llaves, así:
3. A = {‘clave_1’: 1, ‘clave_2’:2, ‘clave_3’:3}
ESTRUCTURA
DE DATOS
• Sean x = [A, B, C] and

y = [1 , 2, 3], un conjunto de
listas, se suman o concatenan, y
se duplican, así:
ESTRUCTURA
DE DATOS
• La concatenación (unión) de una
lista se utiliza el signo +.
• Longitud de una lista con la
instrucción len.
• Porción de lista A[1:n]
• Mutabilidad de listas A[i], consiste
en cambiar uno o más elementos
de una lista, así:
ESTRUCTURA DE DATOS
Instrucciones adicionales a las anteriores:
1 “”.join(lista) Unir elementos o caracteres que se encuentran en la lista.
2 max(lista) Regresa el valor máximo de una lista.
3 min(lista) Regresa el valor mínimo de una lista.
4 tuple(lista) Convierte una lista a tupla.
5 lista.append(obj) Agregar un elemento a una lista
6 lista.pop() Regresa y borra el último elemento de la lista.
7 lista.pop(i) Regresa y borra el elemento i de la lista.
8 lista.reverse() Invierte el orden de los elementos de la lista.

9 lista.sort() Ordena los elementos de una lista.

10 lista.remove() Borra el último elemento de la lista.


ESTRUCTURA DE DATOS
• Estructuras de datos consistentes en listas de
pares de variables. El formato de un diccionario
es:

A = {“clave1”:valor1, “clave2”:valor2,
“clave3”:valor3,…., “claveM”:valorM}

Las calificaciones de un grupo de estudiantes del


salón de Big Data:

A = {“Juan”: 1.9, “Nicolas”: 3.5, “Sergio”: 4.0}


Big Data y Minería
de Datos con
Python
1. Introducción a Big Data
2. Programar con Python;
condicionales. ciclos (While y For),
Vectores.
3. Estructura de datos.
4. Invocación de librerías para limpieza
y de datos, creación y
transformación de DataFrames,
filtrado y la función install
(packages); Math, Pandas, Numpy,
DateTime, Random, yFinance,
DataReader, etc.
5. Importación de librerías para
visualización de datos y elaboración
de informes; Matplotlib, Seaborn y
MarkDown.
6. Aprendizaje automático (Machine
Learning) con Scikit Learn.
MANEJO DE DATOS: PANDAS, NUMPY

1. Numpy: Librería especializada en el cálculo numérico (funciones) y le brinda


soporte al programador para crear vectores y matrices multidimensionales
(arrays y vectorización).

2. Pandas: Librería de código abierto útil para el manejo, la manipulación y el


análisis de datos (series y dataframes). Se deriva del término “Panel Data” y
esta librería le permite al analista de datos crear nuevas estructuras de datos
(dataframes) y se soporta con los “arrays” de la librería Numpy. Leer y escribir
datos en formato csv, xlsx, por ejemplo.
5. Datetime: Sirve para ingresar datos de fecha

MANEJO DE DATOS: y hora. La fecha de inicio tiene atributo year


– month – day, y la fecha actual se determina
DATETIME usando el método de clase today().
MANEJO DE DATOS: DATETIME

6. yfinance: Librería para obtener datos de Yahoo Finance, sin necesidad de


descargarlos de la página web.
Instrucción para subir archivos • Instrucción para subir
IMPORTACIÓN “csv” a Python: archivos “xlsx” a Python:
DE DATOS BAJO
PYTHON from google.colab import files from google.colab import files
import pandas as pd import pandas as pd
uploaded = files.upload() uploaded = files.upload()
file = “name.csv” file = “name.xlsx”
data = pd.read_csv(file) data = pd.read_excel(file)
IMPORTACIÓN
DE DATOS BAJO
PYTHON
TRANFORMACIÓN DE DATOS BAJO PYTHON Y
CREACIÓN DE DATAFRAMES
• Instrucciones para tener en cuenta, al momento de importar el archivo Ejercicio.xlsx, crear nuevos
DataFrames y transformarlos.
Instrucción Descripción
df0 # instrucción para visualizar la tabla de DataFrame base.
df0.columns # muestra cada etiqueta de las columnas del DataFrame ((MultiIndex).
df0.head() # muestra el encabezado del DataFrame.
df0.shape # Devuelve una pareja en el DataFrame, con el número de filas y de columnas.
celdas = np.product(df0.shape) # Devuelve el número total de celdas (multiplica filas por columnas.
drop = df0.drop(columns=('P') # Se crea DataFrame drop que elimina la columna “P”, del df0
dropna = df0.dropna() # Elimina filas del DataFrame df0 que no contiene datos o es NaN.
dropna = df0.dropna() .reset_index(drop=True) # Elimina filas del DataFrame df0 que no contiene datos o es NaN y reordena
índice (periodo).
df0.loc[1:10, ‘column’] # Arroja el df0 de 1 a 10 periodos de la columna ‘column’.
TRANFORMACIÓN DE DATOS BAJO PYTHON Y
CREACIÓN DE DATAFRAMES
• Instrucciones para tener en cuenta, al momento de importar el archivo Ejercicio.xlsx, crear nuevos
DataFrames y transformarlos.

Instrucción Descripción
df1 = df0[['columnY’, 'columnX’] ] # crear nuevo DataFrame (cambiando orden de columnas).
df1['columnX'].columns # indica nombre etiqueta de la columna según df1['columna’]
df1['columnX'].head() # muestra el encabezado del DataFrame.
new_data= df1 [['column_n', 'column_1 ', ' column_2']] ) # Nuevo DataFrame con otro orden de columnas (new_data).
new_data= newdata.assign(column_1=0, #crea o agrega nuevas columnas al DataFrame new_data
column_2=0,………., column_n=0)
new_data[' column_n']=new_df['columnX'].shift(1) # crea columna de rezago en 'column_n'.
new_data[' column_1']=df1['columnX']. pct_change(1) # crea columna tasa de crecimiento.
df['columna j'].loc[‘15'] # buscar el dato de la columna j en la fecha i (periodo) solicitada.
TRANFORMACIÓN DE DATOS BAJO PYTHON Y
CREACIÓN DE DATAFRAMES
• Instrucciones para tener en cuenta, al momento de importar el archivo Ejercicio.xlsx, crear nuevos
DataFrames y transformarlos.
Instrucción Descripción
df1.describe() # instrucción para visualizar la tabla de información
descriptiva.
df1 = df1.sort_values('Sales',ascending=False,ignore_index=False) # ordena de mayor a menor sin tener en cuenta la
columna índice.
df1=df1.sort_values('Sales',ascending=False,ignore_index=False). # reordena la columna index, de acuerdo con la columna
reset_index(drop=True) ‘Sales’.
datos = df1.values # convierte la columna df1 en un array llamado datos.
x = datos[:,0] # almacena en la variable X todos los datos de la
columna ‘Price’ del array.
y = datos[:,1] # almacena en la variable Y todos los datos de la
columna ‘Sales’ del array.
TRANFORMACIÓN DE DATOS BAJO PYTHON Y
CREACIÓN DE DATAFRAMES
• Instrucciones para tener en cuenta, al momento de importar el archivo Ejercicio.xlsx, crear nuevos
DataFrames y transformarlos.

Instrucción Descripción
df1[‘X'].nunique() # indica el número de especificaciones de la columna X.
df1.loc[X', 'Periodo'] # buscar el dato de la columna ‘X', en el periodo solicitado i.
df0.iloc[-1] # busca los datos de la última fila, columnas X y Y.
df0.iloc[1:3] # muestra solamente las filas del 1 al 3.
type(df1['Sales']) # arroja el tipo de los datos de la columna.
np.linspace(0, 5, 10) # arroja 10 valores entre 0 y 5.
plt.figure(figsize=(4,3)) # visualiza imagen con ancho 4 y alto de 3.
plt.plot(x,y) # visualiza la gráfica y = f(x)
EJERCICIO EN CLASE
1. Importe el archivo (o dataset deseado) e imprima el DataFrame. Una vez insertados
los datos, utilice las instrucciones como drop, columns, type, unique, describe, loc, etc.

2. Cambie el orden de las columnas y crea un nuevo Dataframe.

3. A partir del nuevo Dataframe, incluya nuevas columnas que realicen cálculos sencillos.

4. Crear un nuevo Dataframe donde incluya nuevas columnas de tasa de crecimiento con
función log.

5. Graficar con las librerias Matplotlib y Seaborn.


VISUALIZACIÓN DE DATOS CON MATPLOTLIB Y
SEABORN
3. Matplotlib: Librería para la generación de gráficos a partir de datos
contenidos en series, listas o arrays. Visualización de grandes volúmenes de
datos.

4. Seaborn: Librería basada en Matplotlib para hacer gráficos estadísticos y se


integra con la estructura Pandas. Se utiliza para visualizar datos (datasets)
complejos, uni-variados y multivariados, multiplot de alto nivel.
WEB SCRAPING

• También hay bibliotecas que se utilizan para extraer información de


interés en la Web, simplemente accediendo a la URL de la página.

• Formularios en Web Scraping que permiten definir listas


desplegables, casillas para marcar o llenar, etc, y un botón de envió de
la información.
SCIKIT LEARN

• Dado que los datos por solos tienen poco valor, es necesario
extraerlos, transformarlos y analizarlos para Identificar patrones a
través de ellos (Aprendizaje automático). La biblioteca sklearn que se
verá a continuación, esta relacionada con las bibliotecas numpy y
pandas.

• Pandas, que se construye sobre numpy, analiza datos tipo serie y


DataFrame.
SCIKIT LEARN
• Las series son secuencias de datos que poseen un índice personalizado (texto o
etiqueta). Los DataFrames en cambio, tienen columnas etiquetas con una cadena
de texto, y cada una de ellas está indexada.

• Un DataFrame se carga mediante fichero, cuyo catalogo de formato es .csv o .xlsx,


que se importan así: pd.read_csv(‘file’) o pd.read_excel(‘file’)

• En caso de importar un archivo xlsx, las formulas no son incorporadas en el


Dataframe creado. Solo toma el valor calculado al abrir el fichero.
SCIKIT LEARN
• Si en lugar de df, utilizó print(df), el DataFrame sería representado como una
cadena de texto. Si el DataFrame es demasiado grande, la salida sería truncada y
se imprimirían solamente las primeras filas y las últimas.

• Al reducir las dimensiones del DataFrame, con las instrucciones drop y dropna, el
primero para columnas que no se necesitan y el segundo para eliminar filas vacías
o NaN, es necesario aplicar df.reset_index(drop=True).

También podría gustarte