Manejo de Python

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 23

MANEJO DE

PYTHON
BIY7121 MINERÍA DE DATOS
CONTENIDO

01 04
INTRODUCCION RESUMEN

02
NUMPY

03
PANDAS
01
INTRODUCCIÓN
INTRODUCCIÓN

Python es un lenguaje de programación interpretado


cuya filosofía hace hincapié en una sintaxis que
favorezca un código legible.

Se trata de un lenguaje de programación


multiparadigma, ya que soporta orientación a objetos,
programación imperativa y programación funcional (en
menor medida).
INTRODUCCIÓN

Anaconda es una distribución gratuita y de código


abierto de los lenguajes de programación Python y R
para procesamiento de datos a gran escala, análisis
predictivo y computación científica, cuyo objetivo es
simplificar la administración y la implementación de
paquetes.

Anaconda facilita la instalación de todas las bibliotecas


y paquetes que necesita para un proyecto Python de
una sola vez.

Todo lo que tiene que hacer es crear un "entorno


conda" para su proyecto y luego instalar las bibliotecas
requeridas usando el comando "conda install".
INTRODUCCIÓN

Google Colaboratory, comúnmente conocido como


GOOGLE COLAB, es un servicio gratuito en la nube
proporcionado por Google.

Permite a los usuarios escribir y ejecutar código


Python a través del navegador, sin necesidad de
ninguna configuración previa.

Es particularmente popular para ciencia de datos, por


varias razones:

•No requiere configuración


•Colaboración y Compartir
•Acceso gratuito a GPU
•Entorno de Codificación Interactivo
•Control de versiones:
02
NUMPY TÍTULO
Librería NUMPY

NUMPY es una librería de Python especializada


en el cálculo numérico y el análisis de datos,
especialmente para un gran volumen de datos.

Incorpora una nueva clase de objetos


llamados arrays que permite representar
colecciones de datos de un mismo tipo en
varias dimensiones, y funciones muy eficientes
para su manipulación.

La ventaja de Numpy frente a las listas


predefinidas en Python es que el
procesamiento de los arrays se realiza mucho
más rápido (hasta 50 veces más) que las listas,
lo cual la hace ideal para el procesamiento de
vectores y matrices de grandes dimensiones.
Librería NUMPY

La clase objetos ARRAY.

Un array es una estructura de datos de un


mismo tipo organizada en forma de tabla o
cuadrícula de distintas dimensiones.

Las dimensiones de un array también se


conocen como ejes
Librería NUMPY
Creación de arrays

Para crear un array se utiliza la siguiente función de


NumPy

np.array(lista) : Crea un array a partir de la lista o tupla


lista y devuelve una referencia a él. El número de
dimensiones del array dependerá de las listas o tuplas
anidadas en lista:

Para una lista de valores se crea un array de una dimensión, también conocido
como vector.

Para una lista de listas de valores se crea un array de dos dimensiones, también
conocido como matriz.

Para una lista de listas de listas de valores se crea un array de tres dimensiones,
también conocido como cubo.

Y así sucesivamente. No hay límite en el número de dimensiones del array más


allá de la memoria disponible en el sistema.
Librería NUMPY
Acceso a los elementos de un array.

Para acceder a los elementos contenidos en un array se


usan índices al igual que para acceder a los elementos
de una lista, pero indicando los índices de cada
dimensión separados por comas.

Al igual que para listas, los índices de cada dimensión


comienzan en 0.

También es posible obtener subarrays con el operador


dos puntos : indicando el índice inicial y el siguiente al
final para cada dimensión, de nuevo separados por
comas
Librería NUMPY
Operaciones matemáticas con arrays

Existen dos formas de realizar operaciones matemáticas


con arrays: a nivel de elemento y a nivel de array.

Las operaciones a nivel de elemento operan los


elementos que ocupan la misma posición en dos arrays.
Se necesitan, por tanto, dos arrays con las mismas
dimensiones y el resultado es una array de la misma
dimensión.

Los operadores mamemáticos +, -, *, /, %, ** se utilizan


para la realizar suma, resta, producto, cociente, resto y
potencia a nivel de elemento.
Librería NUMPY
Álgebra matricial

Numpy incorpora funciones para realizar las principales


operaciones algebraicas con vectores y matrices.

Por ejemplo, multiplicación entre matrices.

En la imagen, se devuelve el producto matricial de las


matrices a y b siempre y cuando sus dimensiones sean
compatibles.
03
PANDAS
Librería PANDAS

Pandas es una de las principales librerías de


Python, que es un lenguaje de programación
orientado a objetos de alto nivel muy popular entre
los Data Scientists.

Las estructuras más utilizadas en este módulo son


las Series y los DataFrames.

A diferencia de las Series, que son objetos


correspondientes a paneles unidimensionales, los
DataFrames son paneles bidimensionales
compuestos por filas y columnas, que permiten
destacar las relaciones entre las distintas variables
de la serie de datos.
Librería PANDAS

El formato de estas estructuras puede compararse


con los diccionarios de Python. Efectivamente, las
claves son los nombres de las columnas y los
valores son las Series. Su estructura puede
considerarse similar a la de una hoja de cálculo de
Excel.

Cada fila contiene datos específicos de varias


columnas, que son variables. El nombre de las filas
de un DataFrame se llama «index» que, por defecto,
empieza siempre por 0.
Librería PANDAS

Para importar una serie de datos, la librería Pandas


propone un método muy práctico que
es pd.read_csv().

Si el archivo que contiene la serie de datos está en


otro formato que no sea el de Comma Separated
Value, basta con cambiar la terminación del método
por el tipo de archivo correcto.

Por ejemplo, un archivo de Excel se importará de la


siguiente manera: pd.read_excel(). Este método
importa la serie de datos en una estructura
DataFrame.
Librería PANDAS

Cuando se importa la serie de datos, es necesario tener


una visión general del DataFrame.

El primer paso es utilizar el atributo shape, que permite


conocer la dimensión del DataFrame y devolver una
tupla (número_de_filas, número_de_columnas).

Para entender la serie de datos, hay tres métodos muy


útiles para ver las filas del DataFrame :
• El método head() devuelve las cinco primeras filas del
DataFrame, si no se especifica un número entre
paréntesis.
• Por otro lado, el método tail() permite visualizar las
últimas cinco líneas del DataFrame.

Estos dos métodos permiten visualizar el principio y el


final de la serie de datos
Librería PANDAS

Podemos filtrar nuestros datos utilizando el slice.

Por ejemplo, df[:2] devuelve las dos primeras filas de


nuestro DataFrame. No hay que olvidar que el último
número es exógeno al resultado, lo que significa que en
el ejemplo, el slicing devolverá las filas al índice 0 y 1
Librería PANDAS

Como se explicó en la introducción, los DataFrames son


tablas bidimensionales, que corresponden a los ejes de
las filas (eje = 0) y de las columnas (eje = 1). Se pueden
añadir tantas filas o columnas como sea necesario,
especificando el eje en el que queremos añadir estos
nuevos valores.

Lo interesante de los DataFrames es que es muy fácil


recuperar, cambiar, cargar o buscar datos en esta
estructura.
Librería PANDAS

Si el DataFrame tiene diez variables diferentes, se


puede saber cuáles son sus nombres utilizando el
atributo df.columns. Pero cuando la serie de datos
tiene ochocientas columnas, la visualización de los
nombres de las variables no será completa.

Para resolver este problema, se puede utilizar el


método df.columns.toList(), que permite almacenar los
nombres de las columnas en una lista de Python.
04
RESUMEN
RESUMEN

En esta presentación, hemos visto:

❑ Introducción a Python

❑ Librería NUMPY

❑ Librería PANDAS

También podría gustarte