Analyse Des Données

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

ANALYSE DE DONNÉES 2021/2022

Analyse des données


I. Importation de la bibliothèque pandas
from pandas import *
# ou bien import pandas
# ou bien import pandas as alias
II. Création d’un dataframe
1. Importation des fichiers txt et csv
Syntaxe :
df=pandas.read_csv('Chemin\Nom_Fichier.extension',sep='séparateur',index_col=N°Colonne,header=0,encoding='Code_codage')
remarque : Le fichier CSV doit être enregistré sous le codage utf-8 !
Exemple :
from pandas import *
df = read_csv("heart.txt",sep='\t',header=0)
df1= read_csv('heart.csv',sep=';')
2. Importation des fichiers Excel
Syntaxe :
df=pandas.read_excel(′′Chemin\Nom_Fichier.xls′′,′′Nom_Feuille′′,index_col=N°Colonne,header=0)
Remarques :
• il faut installer la bibliothèque xlrd !
• l’extension ".xls" désigne les fichiers excel créés avec office 2003 ou toute version
antérieure ;
• l’extension ".xlsx" désigne les fichiers excel créés avec office 2007 ou toute version
ultérieure.
Exemple :
from pandas import *
df = read_excel("heart.xlsx","heart")
III. Structure d’un dataframe
1. Afficher la structure d’un dataframe
Syntaxe :
print(df.shape, df.columns, df.info(),df.dtypes )
Exemple :
from pandas import *
df = read_excel("heart.xlsx","heart")
print(df.shape)
print("--------------------------------------------------------")
print(df.columns)
print("--------------------------------------------------------")

NESRINE HLILOU 1
ANALYSE DE DONNÉES 2021/2022

print(df.info())
print("--------------------------------------------------------")
print(df.dtypes )
IV. Manipulation d’un dataframe
1. Afficher le contenu d’un dataframe
Syntaxe :
print(Nom_dataframe)
Exemple :
print(df)
Activité :
Modifier le code suivant afin d'afficher le contenu de la deuxième feuille intitulée
"Min_MAX" du fichier "heart.xlsx".
➔Solution :
from pandas import *
df = read_excel("heart.xlsx","Min_Max")
print(df)
2. Afficher le contenu d’une colonne
Syntaxe :
print(Nom_dataframe.Nom_colonne)
Activité :
Afficher le contenu de la colonne "age".
➔Solution :
from pandas import *
df = read_excel("heart.xlsx","heart")
print(df.age)
#ou bien print(df['age'])
3. Afficher le contenu de plusieurs colonnes
Syntaxe :
print(Nom_dataframe[[Nom_col1,Nom_col1, ...]])
Activité :
Afficher les contenus des colonnes "age" et "sexe".
➔Solution :
print(df[['age','sexe']])
4. Afficher les données des lignes de la position initiale à la position finale-1
Syntaxe :
print(Nom_dataframe.iloc[pi:pf])
Activité :
Afficher les contenus des 4 premières lignes de la feuille "heart" du fichier "heart.xlsx".

NESRINE HLILOU 2
ANALYSE DE DONNÉES 2021/2022

➔ Solution :
print(df.iloc[0:4])
Activité :
Compléter le code suivant afin d'afficher la deuxième ligne de la feuille "heart" du fichier
"heart.xlsx".
➔Solution :
print(df.iloc[1])
Activité :
Compléter le code suivant afin d'afficher les 5 premières cellules de la colonne "age" de la
feuille "heart" du fichier "heart.xlsx".
➔Solution :
print(df.age[0:5])
5. Afficher les N premières lignes d’une dataframe
Syntaxe :
print(Nom_dataframe.head(N))
Exemple :
print(df.head(3))
6. Afficher les N dernières lignes d’une dataframe
Syntaxe :
print(Nom_dataframe.tail(N))
Exemple :
print(df.tail(3))
7. Affichage des données d’un dataframe selon une condition
Syntaxe :
dataframe[dataframe ["nom colonne"] opérateur_comparaison valeur]
Exemple 1 :
print(df[df["age"]>50])
Exemple 2 :
print(df[df['age'].isin([40,50])])
print(df[df['type_douleur'].isin(["A","B"])])
Activité :
Compléter le code suivant afin d'afficher le nombre de chaque type douleur à partir de la
feuille "heart" du fichier "heart.xlsx".
➔Solution :
print(df['type_douleur'].value_counts())

NESRINE HLILOU 3
ANALYSE DE DONNÉES 2021/2022

8. Affichage des données d’un dataframe selon plusieurs conditions


Syntaxe :
dataframe[ (dataframe ["Nom_Colonne"] Opérateur_Comparaison Valeur) Opérateur_Logique
(dataframe ["Nom_Colonne"] Opérateur_Comparaison Valeur)]
Opérateurs logiques: & "et", | "ou", ~ "négation"
Activité :
Afficher la liste des patients âgés de plus de 70 ans et dont le type de douleur est D.
➔Solution :
print(df[(df["age"]>=70)&(df["type_douleur"]=="D")])
9. Trier les données d’un dataframe
Syntaxe :
dataframe=dataframe.sort_values(by=[Liste_des_colonnes],ascending=[critère pour chaque
colonne (True/False)])
tri croissant : True
tri décroissant : False
Exemple :
print(df.sort_values(by=['age'],ascending=True))
10.Fonctions statistiques sur un dataframe
Activité :
Compléter le code suivant afin d'afficher le patient le plus âgé de la feuille "heart" du
fichier "heart.xlsx".
➔Solution :
print(df[(df["age"]==df["age"].max())])
11.Renommer les libelles d’une colonne ou plusieurs colonnes
Syntaxe :
df.rename(columns={"Colonne1" : "Nouveau_Colonne1", "Colonne2" : "Nouveau_Colonne2"},
inplace=True/False)
Activité :
Modifier le libellé de la colonne "cœur" par "Problème cardiaque".
➔Solution :
df2=df.rename(columns={"coeur":'Problème cardiaque'},inplace=False)
print(df2)
print(df)
Remarques :
inplace = True : signifie que les modifications sont appliquées sur le dataframe.
inplace = False : signifie que les modifications ne sont pas appliquées sur le dataframe
12.Modifier le contenu d’une cellule dans un dataframe
Syntaxe :
Dataframe.loc[N° ligne, "Nom_colonne"]=Valeur

NESRINE HLILOU 4
ANALYSE DE DONNÉES 2021/2022

Activité :
Modifier le contenu de la 1ère cellule de la colonne "angine" par "oui".
➔Solution :
df.loc[0,"angine"]="oui"
print(df)
13.Ajouter une colonne dans un dataframe
Syntaxe :
Nom_Dataframe["Nom_Colonne"]=valeur
Activité :
Ajouter à la fin du data frame df une nouvelle colonne intitulée Taux_max_gramme et la
remplir sachant que : Taux_max_gramme=taux_max/100.
➔Solution :
𝑑𝑓["𝑇𝑎𝑢𝑥_𝑚𝑎𝑥_𝑔𝑟𝑎𝑚𝑚𝑒"] = 𝑑𝑓. 𝑡𝑎𝑢𝑥_𝑚𝑎𝑥/100
𝑝𝑟𝑖𝑛𝑡(𝑑𝑓)
14.Supprimer une colonne
Syntaxe : del (Nom_dataframe["Nom_Colonne"])
Activité :
Supprimer la colonne sexe du data frame df.
➔Solution :
df=read_excel("heart.xlsx","heart")
del(df["sexe"])
print(df)
15.Supprimer une ligne
Syntaxe :
dataframe=dataframe.drop([indice_ligne],inplace=(True/False))
Activité :
Supprimer la ligne numéro 2 du data frame df.
➔Solution :
from pandas import *
df1=read_excel("heart.xlsx","heart")
df2=df1.drop(2)
print(df2)
16.Supprimer plusieurs lignes consécutives
Syntaxe :
dataframe=dataframe.drop(dataframe.index[pi:pf], inplace=(True/False))

NESRINE HLILOU 5
ANALYSE DE DONNÉES 2021/2022

Activité :
Supprimer les lignes numéros 2, 3 et 4 du data frame df.
➔Solution :
from pandas import *
df=read_excel("heart.xlsx","heart")
df.drop(df.index[2:5],inplace=True)
print(df)
df=df.reset_index()
print(df)
17.Supprimer les doublons
Syntaxe :
dataframe = dataframe. drop_duplicates()
Exemple :
from pandas import *
df=read_excel("heart.xlsx","heart")
print(df)
df1=DataFrame([[67,"masculin","D","A",108,"oui",1.5,"presence"]],columns
=["age","sexe","type_douleur","sucre","taux_max","angine","depression","
coeur"])
df=df.append(df1,sort=False,ignore_index=True)
print(df)
df=df.drop_duplicates()
print(df)
18.Supprimer les lignes avec des données manquantes
Syntaxe :
df.drop(df.index[df["nom_col"].isnull()],inplace=(True/False))
Exemple :
from pandas import *
df=read_excel("heart.xlsx","heart")
df1=DataFrame([[67,"masculin","D"]],columns=["age","sexe","type_douleur"])
df=df.append(df1,sort=False,ignore_index=True)
print(df)
df.drop(df.index[df["sucre"].isnull()],inplace=True)
print(df)
19.Ajouter une colonne remplie par des données suite à une condition simple
Syntaxe :
df["Nom_Colonne_Resultat"]=numpy.where(df["Nom_Colonne"]opérateur_comparaison valeur,
Valeur1_Si_vrai, Valeur2_si_Faux)

NESRINE HLILOU 6
ANALYSE DE DONNÉES 2021/2022

Exemple :
from pandas import *
from numpy import where
df=read_excel("heart.xlsx","heart")
df["Taux_max_gramme"]=df.taux_max/100
df["Observation"]=where(df["Taux_max_gramme"]>1.40,"vérifie ton surcre","c'est bon")
print(df)
20.Les fonctions statistiques sur les dataframes
Exemple :
from pandas import *
df=read_excel("heart.xlsx","heart")
print('Nombre des patients :',len(df))
➔Nombre des patients : 270
21.Description des données
print(df.describe(include='all'))
V. Présentation des données à travers des graphiques
1. Importation de la bibliothèque matplotlib
from matplotlib pyplot import *
#Ou bien import matplotlib.pyplot as alias
#ou bien import matplotlib.pyplot
2. Créer un graphique à barres
Syntaxe :
pyplot.bar([Position1,Position2,PositionN],[Valeur1,Valeur2,ValeurN],align="Position",
width=Taille,color="Couleur/Code_Couleur")
Exemple 1 :
from pandas import *
from matplotlib.pyplot import *
df=read_excel("heart.xlsx","heart")
df.hist(column="age",by="sexe")
show()
df["Taux_max_gramme"]=df.taux_max/100
bar(df.age,df["Taux_max_gramme"],width=0.4,color='b')
xlabel('Age')
ylabel('Taux_max_gramme')
title('Age/Taux_max_gramme')
legend(['Taux_max_gramme'],loc='upper left')
show()

NESRINE HLILOU 7
ANALYSE DE DONNÉES 2021/2022

from pandas import *


import matplotlib.pyplot as plt
df=read_excel("heart.xlsx","heart")
fig=plt.figure()
plt.hist(df.age)
plt.title('nbre des patients par age')
plt.xlabel('Age')
plt.ylabel('Nombre')
plt.legend(['Age'],loc='upper left')
plt.show()
fig.savefig('Nbre_age.png')
plt.close()

Exemple 2 :
Statistiques :
Genre (Femmes / Hommes)
from pandas import *
from matplotlib.pyplot import *
df=read_excel("heart.xlsx","heart")
h=df["sexe"].value_counts("masculin")
f=df["sexe"].value_counts("feminin")
h=h.iloc[0]
f=f.iloc[1]
explode=(0,0.2)
pie([f,h],autopct='%.1f%%',shadow=True,labels=['Femmes','Hommes'],explode=explode)
title('Genre des Patients')
legend(loc='upper right')
show()

NESRINE HLILOU 8

Vous aimerez peut-être aussi