Módulo 1 - Resumen

Herramientas avanzadas de
programación en Python para

procesamiento de datos
Resumen
Módulo 1
Ciencia de datos
Se define como “la disciplina que permite encontrar patrones predecibles en sets de datos
estructurados, y no estructurados” (Dhar, 2013). También como “un concepto que busca
unificar estadísticas, análisis de datos, inteligencia artificial y cualquier otro método similar
para poder entender y analizar fenómenos con los datos.” (Hayashi, 1998). Un ejemplo de
su uso es la astronomía, donde diariamente se genera un exabyte de datos (la cantidad de
información que se genera en internet en un solo día).
Python es un lenguaje de programación que permite ocupar la ciencia de datos.

Específicamente, existen paquetes (como el paquete random) que permite hacer esto. Los
paquetes también pueden llamarse librerías. Una librería muy usada para procesar datos de
forma masiva y eficiente es Pandas.
Pandas es una librería de código abierto, que provee estructuras de datos de alto
rendimiento y fáciles de usar. Además, suministra herramientas para el análisis de datos en
Python.
Librería Pandas
Las estructuras de datos básicas en Pandas son: series y Data Frames.
 Serie: Es una lista de datos con un largo fijo, aquí no se agregan o quitan elementos,
sólo se modifican. Además, los datos de una serie son del mismo tipo.
 Data Frame: Los Data Frames son la estructura más usada en la librería Pandas. Se
percibe como una matriz de datos. Cada columna, representa datos para una
variable específica. Y cada fila corresponde a medidas o valores de cada instancia.
Se observa que cada columna es de un tipo específico, y cada fila tiene valores de
distintos tipos. En esta estructura de datos, se agregan filas y columnas según la
preferencia del programador. Las columnas de un Data Frame son series. Es
TELEDUC 2
importante destacar que cada fila tendrá un índice, que permitirá acceder a esa fila
en particular y su información específica.
Se crea un Data Frame a partir de una lista de listas con el siguiente código:
import Pandas as pd
data = [lista de listas]
df = pd.DataFrame(data)
En el caso anterior, la primera línea sirve para cargar la librería Pandas para usarla
posteriormente. Esta la cargamos con el nombre pd, que es el que ocuparemos después
para poder acceder a sus funciones. Luego, creamos un Data Frame mediante la función
DataFrame(), ingresando como parámetro la lista de listas creada anteriormente.
No obstante, en este caso, el Data Frame generado no tiene nombres para sus columnas.
Se añade nombres a las columnas agregando un segundo parámetro columns a la función
DataFrame() con una lista de strings que representen los nombres de las columnas. Esto se
puede hacer de la siguiente manera:
df = pd.DataFrame(data, columns=[lista nombres columnas])
Se carga un archivo CSV en un Data Frame con el siguiente código (asumiendo que ya
cargamos la librería Pandas):
df = pd.read_csv("nombre archivo CSV",encoding="latin-

1",sep=";")
TELEDUC 3
Mediante la función read_csv() sobre la librería Pandas, se lee un archivo CSV por el nombre
del archivo. Luego, se ingresa como segundo parámetro encoding=”latin-1” para leer
caracteres únicos del español (como tildes, ¡, ñ, etc). Y el tercer parámetro sep=”;” para
asegurarnos de que Pandas lea correctamente el archivo CSV.
A continuación se presentarán algunas operaciones comunes con la librería Pandas:
 Ver columnas: Se utiliza para listar las columnas de un Data Frame usando la función
dtypes(). Esto se aplica directamente sobre la variable que contiene al Data Frame.
De esta forma se observan los nombres de las columnas y sus tipos. Si se encuentra
un Data Frame en una variable de nombre df, se ejecuta esta operación de la
siguiente manera:
df.dtypes()
 Extraer columna: Se observan todos los datos de una columna específica. Si hay un
Data Frame en una variable de nombre df, se realiza esta operación de la siguiente
manera:
df["nombre columna"]
 Extraer fila: Se observan todos los datos de una fila específica. Si se encuentra un
Data Frame en una variable de nombre df, se ejecuta esta operación de la siguiente
manera:
df.loc[identificador fila]
TELEDUC 4
 Extraer filas: Se encuentran todos los datos de un conjunto de filas. Si se
encuentra un Data Frame en una variable de nombre df, se realiza esta operación
de la siguiente manera:
df.loc[identificador fila inicial: identificador fila final]
Importante: A diferencia de un intervalo de strings, en este efectivamente se toma desde el

valor inicial al final. Por ejemplo, si uno tiene un intervalo 0:4, entonces mostrará las
filas con identificadores 0,1,2,3 y 4.
 Extraer valor: Se observa un dato específico (columna) de una fila. Si se

encuentra un Data Frame en una variable de nombre df, se efectúa esta
operación de la siguiente manera:
df.loc[identificador fila fila][ "nombre columna"]
 Filtrar datos: Se emplea para filtrar datos según los valores de ciertas columnas.
Si se tiene un Data Frame en una variable de nombre df, se ejecuta esta
df.loc[df['Nombre columna'] (operación lógica)]
TELEDUC 5
 Agregar columna: Si se tiene un Data Frame en una variable de nombre df, se agrega
una columna con un valor específico de la siguiente manera:
df["nombre nueva columna"] = valor específico
También se agrega una nueva columna como el resultado de una operación con otra
columna.
df["nueva columna"] = (operación con otra columna del Data

Frame)
 Editar columna: Se edita el contenido de una columna asignándole un nuevo valor

(que puede ser específico o el resultado con otra columna). Si hay un Data Frame en
una variable de nombre df, se realiza esta operación de la siguiente manera:
df["columna del Data Frame"] = valor específico
También se edita una columna como el resultado de una operación con otra columna.
df["columna del Data Frame"] = (operación con otra columna del

Data Frame)
TELEDUC 6
 Borrar columna: Se borra una columna en un Data Frame. Si se encuentra un Data
Frame en una variable de nombre df, se ejecuta esta operación de la siguiente
manera:
del df["nombre columna"]
 Calcular estadísticos descriptivos: se calculan los estadísticos descriptivos de una

Data Frame. Si hay un Data Frame en una variable de nombre df, se efectúa esta
df.describe()
 Guardar en archivo CSV: Permite guardar un Data Frame en un archivo CSV. Si se

encuentra un Data Frame en una variable de nombre df, se realiza esta operación de
la siguiente manera:
df.to_csv("nombre archivo CSV", index=false)
Referencias bibliográficas
 Dhar, V. (2013). Data Science and Prediction. Communications of the ACM.

 Hayashi, C. (1998). What is data science? Fundamental concepts and a heuristic
example. Data Science, Classification, and Related Methods, 40–51.
TELEDUC 7

Módulo 1 - Resumen

Cargado por

Copyright:

Formatos disponibles

Módulo 1 - Resumen

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Módulo 1 - Resumen

Cargado por

Copyright:

Formatos disponibles

Herramientas avanzadas de

programación en Python para

Python es un lenguaje de programación que permite ocupar la ciencia de datos.

Las estructuras de datos básicas en Pandas son: series y Data Frames.

data = [lista de listas]

df = pd.DataFrame(data, columns=[lista nombres columnas])

df = pd.read_csv("nombre archivo CSV",encoding="latin-

A continuación se presentarán algunas operaciones comunes con la librería Pandas:

df.loc[identificador fila inicial: identificador fila final]

Importante: A diferencia de un intervalo de strings, en este efectivamente se toma desde el

 Extraer valor: Se observa un dato específico (columna) de una fila. Si se

df.loc[identificador fila fila][ "nombre columna"]

df.loc[df['Nombre columna'] (operación lógica)]

df["nombre nueva columna"] = valor específico

df["nueva columna"] = (operación con otra columna del Data

 Editar columna: Se edita el contenido de una columna asignándole un nuevo valor

df["columna del Data Frame"] = valor específico

df["columna del Data Frame"] = (operación con otra columna del

del df["nombre columna"]

 Calcular estadísticos descriptivos: se calculan los estadísticos descriptivos de una

 Guardar en archivo CSV: Permite guardar un Data Frame en un archivo CSV. Si se

df.to_csv("nombre archivo CSV", index=false)

 Dhar, V. (2013). Data Science and Prediction. Communications of the ACM.

También podría gustarte