TP KNN
TP KNN
TP KNN
Présentation
Quel est l’effet de la commande suivante ? Visualiser la distribution
L’objectif de ce TP est de vous familiariser avec la manipulation de des quatre variables explicatives à travers les espèces. Lesquelles vous
données sous forme de dataframe dans R, et de tester un premier clas- paraissent les plus discriminantes ?
sifieur, celui des k plus-proche voisins. b o x p l o t ( i r i s . data $ P e t a l . Length ˜ i r i s . data $ S p e c i e s )
Le début du TP vous est donné dans le fichier TP1.Rmd (au format
R Markdown) que l’on pourra compléter. On peut également regarder comment un couple de variables est dis-
tribué à travers les espèces en affichant un nuage de point étiqueté par
les espèces avec la fonction plot :
1 Exploration du jeu de données p a l e t t e <− c ( ” r e d ” , ” g r e e n 3 ” , ” b l u e ” )
p l o t ( i r i s . data $ S e p a l . Length , i r i s . data $ S e p a l . Width , c o l=p a l e t t e
La base de données iris.dat contient les caractéristiques de plusieurs [ i r i s . data $ S p e c i e s ] )
iris, ainsi que leur espèce. La commande read.csv() permet d’importer
les données, en sélectionnant le type de séparateur, la présence d’une La fonction pairs() permet d’afficher simultanément les nuages de
en-tête ou d’autres paramètres (un coup d’oeil à la base de données points de toutes les paires de variables.
ou la commande Import Dataset permet d’aider à les choisir). En plus p a i r s ( i r i s . data [ 1 : 4 ] , pch = 2 1 , bg = c ( ” r e d ” , ” g r e e n 3 ” , ” b l u e ” )
d’importer les données sous forme de dataframe, on nomme ici chaque [ i r i s . data $ S p e c i e s ] )
variable (en accord avec la description donnée dans iris.names) :
i r i s . data <− r e a d . c s v ( ’ i r i s . data ’ , s e p= ’ , ’ , h e a d e r=F)
En se basant sur toutes ces visualisations préliminaires, quelle paire
names ( i r i s . data ) <− c ( ’ S e p a l . Length ’ , ’ S e p a l . Width ’ , ’ P e t a l . de variables semble la plus utile pour prédire l’espèce ?
Length ’ , ’ P e t a l . Width ’ , ’ S p e c i e s ’ )
Observer l’effet des fonctions head(), str() et summary() appliquées 2 Classifieur des k-plus proches voisins
au dataframe iris.data. Ces commandes sont cruciales pour un premier
contact avec une base de données, afin d’avoir une idée de ce qu’elle Dans un problème d’apprentissage, le but est de construire un classi-
contient. fieur à partir d’une base d’apprentissage. Pour évaluer ce classifieur, on
L’objectif du TP est d’arriver à prédire l’espèce d’une iris à partir des regarde ses performances de prédiction sur une nouvelle base de données,
quatre autres variables (quantitatives) donnant la longueur des pétales la base de test. Ici on ne nous donne qu’une base de données. On va donc
et des sépales. Dans un premier travail exploratoire, on cherche à étudier artificiellement la séparer en deux, créant ainsi une base d’apprentissage,
l’influence des différentes variables sur la variable à prédire, Species. que nous appelerons train et un base de test, test.
1
Pour faire cela en pratique, on peut se servir de la commande Quelle valeur de k donne l’erreur de test la plus petite ?
sample(n, nTest) qui retourne une liste de nTest entiers entre 1 et
n choisis aléatoirement. Construire train et test. Vous paraı̂t-il pertinent de choisir la valeur de k en se basant sur
l’ensemble de test ? Par la suite on prendra l’habitude de séparer le jeu
i n d t e s t <− sample ( n , nTest ) ;
t e s t <− i r i s . data [ i n d t e s t , ] de données en trois parties :
— ensemble d’apprentissage : pour construire le classifieur (ex.
On pourrait écrire nous même une fonction qui, pour un point x ∈ R4 , k-nn pour différentes valeurs de k)
calcule ses k plus proches voisins dans la base de données et renvoie — ensemble de validation : pour sélectionner le meilleur classifieur
l’espèce majoritaire parmi ceux-ci. Une implémentation efficace existe (ex. choix de k pour k-nn)
toutefois déjà dans R avec la fonction knn() du package class. — ensemble de test : pour estimer le risque du classifieur proposé
La syntaxe suivante permet de calculer les étiquettes prédites pour les
entrées de la base de test, ici pour k = 3 :
library ( class )
4 Visualisation de la règle de classification
p r e d i c t i o n <− knn ( t r a i n [ 1 : 4 ] , t e s t [ 1 : 4 ] , t r a i n $ S p e c i e s , k=3)
On a remarqué précédemment que deux attributs semblaient suffisants
Que contient prediction ? Calculer l’erreur de test, c’est-à-dire la pour prédire l’espèce de chaque plante. A k fixé, écrivez une fonction
fraction d’étiquettes mal prédites dans la base de test. knnclassifier() qui étant donné un dataframe à deux colonnes X
On pourra aussi comparer les prédictions avec les vraies espèces en contenant les caractéristiques choisies, renvoie le vecteur des prédiction
affichant une table de contingence : k-nn se basant sur ces deux caractéristiques seulement.
c o n f u s i o n <− t a b l e ( p r e d i c t i o n , t e s t $ S p e c i e s ) k <− 2
k n n c l a s s i f i e r <− f u n c t i o n (X) {}
Vous pouvez tester plusieurs valeurs de k. Le classifieur des k-ppv vous
parait-il avoir de bonnes performances sur ce jeu de données ? Le code ci-dessous permet de visualiser le classifieur k-nn basé sur les
caractéristiques de pétales. Observez comment ce dernier varie avec k.
N <− 1 0 0 ; X <− a r r a y ( 0 , dim = c (Nˆ 2 , 2 ) ) ;
3 Choix du nombre de voisins # p o i n t s extremaux
a <− 0 ; b <− max( i r i s . data $ P e t a l . Length ) +1;
Pour toutes les valeurs de k entre 1 et la taille de la base d’appren- c <− 0 ; d <− max( i r i s . data $ P e t a l . Width ) +1;
tissage, calculer l’erreur d’apprentissage et l’erreur de test du classifieur # generer des po i n t s re g u li e re m e nt espaces
f o r ( i i n 0 :N) f o r ( j i n 1 :N)
des k-plus proches voisins et présenter le résultat sur un graphique. Pour {X [ ( N−1)∗ i+j , ] <− c ( a+(b−a ) ∗ i /N, c + ( d−c ) ∗ j /N) }
faire cela en pratique, on pourra faire une boucle et stocker dans deux # a f f i c h a g e s des p o i n t s generes et des l a b e l s p r e d i t s
tableaux les valeurs des erreurs obtenues. p o i n t s (X [ , 1 ] , X [ , 2 ] , c o l=p a l e t t e [ k n n c l a s s i f i e r (X) ] , pch =15 ,
c e x =1.7) ;
k V al u e s <− c ( 1 : nTrain ) ; t r a i n E r r o r s <− a r r a y ( 0 , nTrain ) ;
# a f f i c h a g e de l ’ e n s e m b l e d ’ a p p r e n t i s s a g e
t e s t E r r o r s <− a r r a y ( 0 , nTrain ) ;
symbols=c ( 1 6 , 8 , 1 7 )
f o r ( i i n 1 : nTrain ) {
p o i n t s ( t r a i n $ P e t a l . Length , t r a i n $ P e t a l . Width , c o l=” b l a c k ” , pch=
nb <− k Va l u es [ i ] ;
symbols [ t r a i n $ S p e c i e s ] )
p r e d i c t i o n<− knn ( t r a i n [ 1 : 4 ] , t e s t [ 1 : 4 ] , t r a i n $ S p e c i e s , k=nb ) ;
[...]
}