Analyse Des Données
Analyse Des Données
Analyse Des Données
NESRINE HLILOU 1
ANALYSE DE DONNÉES 2021/2022
print(df.info())
print("--------------------------------------------------------")
print(df.dtypes )
IV. Manipulation d’un dataframe
1. Afficher le contenu d’un dataframe
Syntaxe :
print(Nom_dataframe)
Exemple :
print(df)
Activité :
Modifier le code suivant afin d'afficher le contenu de la deuxième feuille intitulée
"Min_MAX" du fichier "heart.xlsx".
➔Solution :
from pandas import *
df = read_excel("heart.xlsx","Min_Max")
print(df)
2. Afficher le contenu d’une colonne
Syntaxe :
print(Nom_dataframe.Nom_colonne)
Activité :
Afficher le contenu de la colonne "age".
➔Solution :
from pandas import *
df = read_excel("heart.xlsx","heart")
print(df.age)
#ou bien print(df['age'])
3. Afficher le contenu de plusieurs colonnes
Syntaxe :
print(Nom_dataframe[[Nom_col1,Nom_col1, ...]])
Activité :
Afficher les contenus des colonnes "age" et "sexe".
➔Solution :
print(df[['age','sexe']])
4. Afficher les données des lignes de la position initiale à la position finale-1
Syntaxe :
print(Nom_dataframe.iloc[pi:pf])
Activité :
Afficher les contenus des 4 premières lignes de la feuille "heart" du fichier "heart.xlsx".
NESRINE HLILOU 2
ANALYSE DE DONNÉES 2021/2022
➔ Solution :
print(df.iloc[0:4])
Activité :
Compléter le code suivant afin d'afficher la deuxième ligne de la feuille "heart" du fichier
"heart.xlsx".
➔Solution :
print(df.iloc[1])
Activité :
Compléter le code suivant afin d'afficher les 5 premières cellules de la colonne "age" de la
feuille "heart" du fichier "heart.xlsx".
➔Solution :
print(df.age[0:5])
5. Afficher les N premières lignes d’une dataframe
Syntaxe :
print(Nom_dataframe.head(N))
Exemple :
print(df.head(3))
6. Afficher les N dernières lignes d’une dataframe
Syntaxe :
print(Nom_dataframe.tail(N))
Exemple :
print(df.tail(3))
7. Affichage des données d’un dataframe selon une condition
Syntaxe :
dataframe[dataframe ["nom colonne"] opérateur_comparaison valeur]
Exemple 1 :
print(df[df["age"]>50])
Exemple 2 :
print(df[df['age'].isin([40,50])])
print(df[df['type_douleur'].isin(["A","B"])])
Activité :
Compléter le code suivant afin d'afficher le nombre de chaque type douleur à partir de la
feuille "heart" du fichier "heart.xlsx".
➔Solution :
print(df['type_douleur'].value_counts())
NESRINE HLILOU 3
ANALYSE DE DONNÉES 2021/2022
NESRINE HLILOU 4
ANALYSE DE DONNÉES 2021/2022
Activité :
Modifier le contenu de la 1ère cellule de la colonne "angine" par "oui".
➔Solution :
df.loc[0,"angine"]="oui"
print(df)
13.Ajouter une colonne dans un dataframe
Syntaxe :
Nom_Dataframe["Nom_Colonne"]=valeur
Activité :
Ajouter à la fin du data frame df une nouvelle colonne intitulée Taux_max_gramme et la
remplir sachant que : Taux_max_gramme=taux_max/100.
➔Solution :
𝑑𝑓["𝑇𝑎𝑢𝑥_𝑚𝑎𝑥_𝑔𝑟𝑎𝑚𝑚𝑒"] = 𝑑𝑓. 𝑡𝑎𝑢𝑥_𝑚𝑎𝑥/100
𝑝𝑟𝑖𝑛𝑡(𝑑𝑓)
14.Supprimer une colonne
Syntaxe : del (Nom_dataframe["Nom_Colonne"])
Activité :
Supprimer la colonne sexe du data frame df.
➔Solution :
df=read_excel("heart.xlsx","heart")
del(df["sexe"])
print(df)
15.Supprimer une ligne
Syntaxe :
dataframe=dataframe.drop([indice_ligne],inplace=(True/False))
Activité :
Supprimer la ligne numéro 2 du data frame df.
➔Solution :
from pandas import *
df1=read_excel("heart.xlsx","heart")
df2=df1.drop(2)
print(df2)
16.Supprimer plusieurs lignes consécutives
Syntaxe :
dataframe=dataframe.drop(dataframe.index[pi:pf], inplace=(True/False))
NESRINE HLILOU 5
ANALYSE DE DONNÉES 2021/2022
Activité :
Supprimer les lignes numéros 2, 3 et 4 du data frame df.
➔Solution :
from pandas import *
df=read_excel("heart.xlsx","heart")
df.drop(df.index[2:5],inplace=True)
print(df)
df=df.reset_index()
print(df)
17.Supprimer les doublons
Syntaxe :
dataframe = dataframe. drop_duplicates()
Exemple :
from pandas import *
df=read_excel("heart.xlsx","heart")
print(df)
df1=DataFrame([[67,"masculin","D","A",108,"oui",1.5,"presence"]],columns
=["age","sexe","type_douleur","sucre","taux_max","angine","depression","
coeur"])
df=df.append(df1,sort=False,ignore_index=True)
print(df)
df=df.drop_duplicates()
print(df)
18.Supprimer les lignes avec des données manquantes
Syntaxe :
df.drop(df.index[df["nom_col"].isnull()],inplace=(True/False))
Exemple :
from pandas import *
df=read_excel("heart.xlsx","heart")
df1=DataFrame([[67,"masculin","D"]],columns=["age","sexe","type_douleur"])
df=df.append(df1,sort=False,ignore_index=True)
print(df)
df.drop(df.index[df["sucre"].isnull()],inplace=True)
print(df)
19.Ajouter une colonne remplie par des données suite à une condition simple
Syntaxe :
df["Nom_Colonne_Resultat"]=numpy.where(df["Nom_Colonne"]opérateur_comparaison valeur,
Valeur1_Si_vrai, Valeur2_si_Faux)
NESRINE HLILOU 6
ANALYSE DE DONNÉES 2021/2022
Exemple :
from pandas import *
from numpy import where
df=read_excel("heart.xlsx","heart")
df["Taux_max_gramme"]=df.taux_max/100
df["Observation"]=where(df["Taux_max_gramme"]>1.40,"vérifie ton surcre","c'est bon")
print(df)
20.Les fonctions statistiques sur les dataframes
Exemple :
from pandas import *
df=read_excel("heart.xlsx","heart")
print('Nombre des patients :',len(df))
➔Nombre des patients : 270
21.Description des données
print(df.describe(include='all'))
V. Présentation des données à travers des graphiques
1. Importation de la bibliothèque matplotlib
from matplotlib pyplot import *
#Ou bien import matplotlib.pyplot as alias
#ou bien import matplotlib.pyplot
2. Créer un graphique à barres
Syntaxe :
pyplot.bar([Position1,Position2,PositionN],[Valeur1,Valeur2,ValeurN],align="Position",
width=Taille,color="Couleur/Code_Couleur")
Exemple 1 :
from pandas import *
from matplotlib.pyplot import *
df=read_excel("heart.xlsx","heart")
df.hist(column="age",by="sexe")
show()
df["Taux_max_gramme"]=df.taux_max/100
bar(df.age,df["Taux_max_gramme"],width=0.4,color='b')
xlabel('Age')
ylabel('Taux_max_gramme')
title('Age/Taux_max_gramme')
legend(['Taux_max_gramme'],loc='upper left')
show()
NESRINE HLILOU 7
ANALYSE DE DONNÉES 2021/2022
Exemple 2 :
Statistiques :
Genre (Femmes / Hommes)
from pandas import *
from matplotlib.pyplot import *
df=read_excel("heart.xlsx","heart")
h=df["sexe"].value_counts("masculin")
f=df["sexe"].value_counts("feminin")
h=h.iloc[0]
f=f.iloc[1]
explode=(0,0.2)
pie([f,h],autopct='%.1f%%',shadow=True,labels=['Femmes','Hommes'],explode=explode)
title('Genre des Patients')
legend(loc='upper right')
show()
NESRINE HLILOU 8