Reconnaissance Et Classification Des Traits Caractéristiques Biométriques Faciale
Reconnaissance Et Classification Des Traits Caractéristiques Biométriques Faciale
Reconnaissance Et Classification Des Traits Caractéristiques Biométriques Faciale
Soutenu publiquement le :
05 /10/2020
Devant le Jury :
Un gros merci à nos familles, plus spécifiquement nos parents pour leur soutien.
Enfin, que tous ceux qui ont contribué de près ou de loin à la réalisation de ce
mémoire, puissent trouver ici, toute notre reconnaissance.
Dédicace
Je dédie ce modeste travail
Asma
Dédicace
Je dédie ce modeste travail
A celle que j’aime beaucoup et qui m’a soutenue tout au long de ce projet :
mon mari , et bien sûr à mes sœurs, sans oublier mes belles-sœurs que
j’aime.
A tous mes professeurs et enseignants que j’ai eu durant tout mon cursus
scolaire et qui m’ont permis de réussir dans mes études.
Et à tous ceux qui ont contribué de près ou de loin pour que ce projet soit
possible, je vous dis merci.
Abir
Sommaire
Liste des figures ..................................................................................................................... iv
Motivation :................................................................................................................ 14
i
1.10.2 L'estimation d’âge .............................................................................................. 19
2.1 INTRODUCTION............................................................................................................ 22
3.4.2 L'apprentissage................................................................................................... 41
ii
3.5.4 Quelques réseaux convolutifs célèbres ............................................................... 60
4.2.1 ORL..................................................................................................................... 65
4.4.3 Discussion........................................................................................................... 77
4.7 Test des méthodes de réduction des dimensions sur la base FEI ................................... 84
CONCLUSION GENERALE.................................................................................................. 87
iii
Liste des figures
Figure 2.1 : Les projections PCA et LDA d’un ensemble de données. ............................... 28
Figure 2.2 : Système de reconnaissance faciale utilisant ACP et LDA .............................. 29
Figure 2.3 : Les étapes de la méthode de t SNE.................................................................. 30
Figure 2.4 : t-SNE ............................................................................................................... 30
Figure 2.5 : Le fonctionnement de l’UMAP. ....................................................................... 31
Figure 2.6 : UMAP vs t-SNE. .............................................................................................. 31
Figure 2.7 : Modèle d'un neurone artificiel. ....................................................................... 33
iv
Figure 3.9 : Correspondance entre le neurone biologique et le neurone formel [80]. ....... 45
Figure 3.10 : Architecture de réseau non bouclé [82]. ....................................................... 46
Figure 3.11 : Architecture de réseau bouclé [83]. .............................................................. 47
Figure 3.12 : perceptron monocouche [85]. ....................................................................... 48
Figure 3.13 : perceptron multicouche [85]. ........................................................................ 49
Figure 3.14 : Réseau de Hopfield [75]. ............................................................................... 49
Figure 3.15 : Structure du modèle Adaline [86]. ................................................................ 50
Figure 3.16 : Architecture du modèle Adaline [81]. ........................................................... 51
Figure 3.17 : Le modèle de Kohonen [81]. ......................................................................... 51
Figure 3.18 : L’architecture standard d’un réseau de neurone convolutionnels [68]........ 52
Figure 3.19 : Schéma du parcours de fenêtre de filtre sur l’image [68]. ........................... 54
Figure 3.20 : L'opération de convolution [87]. ................................................................... 55
Figure 3.21 : Les deux méthodes de Pooling [69]. ............................................................. 55
Figure 3.22 : Pooling avec un filtre 2x2 et un pas de 2 [69]. ............................................. 56
Figure 3.23 : Fonction relu [86]. ........................................................................................ 56
Figure 3.24 : La Couche de Fully-Connected [89]. ............................................................ 57
Figure 3.25 : Schéma de deux réseaux de neurones avec et sans dropout [93]. ................ 59
Figure 3.26 : L’architecture LeNet [90]. ........................................................................... 60
Figure 3.27 : L’architecture AlexNet [90]. ......................................................................... 60
Figure 3.28 : L’architecture ZFNet [90]. ............................................................................ 61
Figure 3.29 : L’architecture GoogLeNet/ Inception [90]. .................................................. 61
Figure 3.30 : L’architecture VGGNet [90]. ........................................................................ 62
Figure 3.31 : L’architecture ResNet [90]. ........................................................................... 62
v
Figure 4.10 : Taux de reconnaissance obtenue sur les bases de données (CASIA Webface,
FEI, ORL, Essex). ................................................................................................................ 75
Figure 4. 11 : Les résultats de visualisation des bases de données utilisées (CASIA
Webface, FEI, ORL, Essex) ................................................................................................. 76
Figure 4. 12 : Les résultats de Regroupement des bases de données utilisées (CASIA
Webface, FEI, ORL, Essex) ................................................................................................. 77
Figure 4.13 : Interface graphique de notre application (menu principale). ....................... 79
Figure 4.14 : La deuxième interface. .................................................................................. 80
Figure 4.15 : Interface de la reconnaissance faciale. ......................................................... 81
Figure 4.16 : Interface de la Réduction des dimensions. .................................................... 82
Figure 4.17 : message de choisir une image. ...................................................................... 82
Figure 4.18 : le choix d’image test...................................................................................... 83
Figure 4.19 : le choix du système de reconnaissance. ........................................................ 83
Figure 4.20 : Résultat de teste............................................................................................. 84
Figure 4.21 : Interface des méthodes de Réduction des dimensions................................... 84
Figure 4.22 : Résultat de teste............................................................................................. 85
vi
Liste des tableaux
Tableau 1.1 : Avantages et inconvénients de la reconnaissance faciale. .......................... 19
Tableau 4.1 : Architecture détaillée de notre CNN utilisée pour l'extraction des
caractéristiques……………………………………………………………………………………..70
Tableau 4.4 : Taux de reconnaissance et de perte pour les différentes bases de données
utilisées. ............................................................................................................................... 74
vii
Liste des équations
Équation 2.4 : Représentation des visages dans notre nouvel espace ..................................... 27
viii
Liste des acronymes
2D Représentation à 2 Dimensions
3D Représentation à 3 Dimensions
AAM Active Appearance Model
ACI Analyse en Composantes Indépendantes
ACP Analyse en Composantes Principales
ADALINE Adaptive Linear Neuron
ADN Acide Désoxyribo Nucléique
AI Artificial Intelligence
DL Deep Learning
FA Fausse Acceptation
FR Faux Rejects
ML Machine Learning
ix
ReLU Rectified Linear Unit
RLDA Regression Linear Discriminant Analysis
RNA Réseau de Neurones Artificiels
RNN Recurrent Neural Network
ROC Receiver Operating Characteristic
SAM : Supervised Appearance Model
SVC Support Vectors clustering
SVM Support Vectors Machines
TER Total Error Rate
t-SNE t- Stochastic Neighbor Embedding
UMAP Uniform Manifold Approximation and Projection
TIC Taux d’Identificaion Correct
x
Introduction
INTRODUCTION GENERALE
La sécurité des systèmes d’information est devenue un domaine de recherche d’une très
grande importance. La conception d’un système d’identification fiable, efficace et robuste est
une tâche prioritaire. L’identification de l’individu est essentielle pour assurer la sécurité des
systèmes et des organisations. Elle correspond à la recherche de l’identité de la personne qui se
présente dans une base de données et peut servir à autoriser l’utilisation des services. Chaque
être humain peut dès son plus jeune âge, de reconnaître les visages des personnes qui lui sont
familières. En fait, comment peut-on de manière automatique par ordinateur reconnaître un
individu, d’estimer de son âge et prédire de son genre par la seule prise en compte de l’image
de son visage ? La réponse à cette seule question sera le fil directeur de notre travail.
Les visages humains peuvent être considéré comme des données biométriques qui véhiculent
une grande quantité d'informations, comme par exemple la pose, l'identité, l'état émotionnel, le
genre, l'âge, etc. L’utilisation de ces indices facials dans une interaction entre les humains et la
machines est rendue possible par la remarquable capacité de ces derniers de reconnaître et
interpréter les visages et leurs comportements. De manière schématique, la tâche de la
reconnaissance de visage consiste à comparer une image d'entrée avec une base de données
contenant un ensemble d'images de visage avec leurs identités, ensuite identifier le sujet
auquel appartient le visage d'entrée. Cependant, leur implémentation reste difficile, parce
que les visages font preuve de plusieurs variations significatives dans leur apparence, ces
variations sont dues aux conditions d'acquisition des images, l'illumination, la position des
visages et l'âge.
Plusieurs méthodes ont été développées dans la littérature pour la reconnaissance de visage
et la classification de genre et d’âge. Dans notre travail nous avons opté pour une technique
basée sur les réseaux de neurone profond, principalement les réseaux de neurone convolutifs
(CNN) qui utilisent un apprentissage en profondeur (deep learning). Le CNN est composé de
deux parties bien distinctes, une partie d’extraction de caractéristiques qui peut être utilisée
pour simplifier un ensemble de données, et une partie de classification qui donne la classe
d’appartenance de ces données (caractéristiques).
1
Introduction
Nous avons choisi d’articuler notre étude autour de quatre chapitres principaux.
Dans le deuxième chapitre, nous évoquerons l'état de l‘art des techniques de réduction de
dimension et classification d’image, où nous décrivons brièvement certaines techniques les plus
importantes ou les plus courantes utilisées dans la réduction de dimension et classification
automatiques, ainsi que les approches de reconnaissance faciale, d’estimation du genre et d’âge
qui ont été proposées dans ce travail.
Dans le troisième chapitre nous avons passé en revue les fondements essentiels des réseaux
de neurones convolutifs. Nous avons défini l’architecture détaillée de ce type de réseau ainsi
que les différentes couches le constituant. Une partie de chapitre a été consacrée aux propriétés
et paramètres du CNN. Cette étude détaillée du modèle CNN nous permet de mieux comprendre
son processus.
Dans le quatrième chapitre, Nous présentons les résultats expérimentaux obtenus par les
méthodes utilisées pour la reconnaissance de visage, l'estimation d'âge et la prédiction de genre
en analysons leurs performances, suivies d'une discussion avec interprétation des résultats.
Enfin, une conclusion générale résumera les résultats obtenus par les différentes approches et
donnera quelques perspectives sur les travaux futurs.
2
Chapitre 01 : La
biométrie & systèmes
de reconnaissance
faciale
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
1.1 Introduction
Les empreintes digitales, les veines de la main, l’iris, le visage, la voix ou l’ADN deviennent
des données d’identification et d’authentification comme les autres grâce au progrès de la
numérisation. L’empreinte digitale remplaçait déjà le badge d’entreprise, désormais elle se
substitue au code PIN. À la pointe de « l’expérience utilisateur », Apple, le premier, en 2013, a
équipé son iPhone 5 de la fonction Touch ID permettant le déverrouillage de l’appareil par la
reconnaissance de l’empreinte digitale. Puis, en 2017, l’iPhone X sera équipé de la fonction
Face ID, permettant l’identification du propriétaire de l’appareil par une image en 3D de son
visage, même si l’on ajoute une paire de lunettes ou si l’on change de coupe de cheveux.
L'analyse du visage humain constitue l'une des tâches les plus importantes de la vision par
ordinateur, car l'analyse automatique d'un tel objet déformable est d'une grande importance [1]:
la caractérisation de l'âge, du sexe, des attributs faciaux, des expressions, du vêtement et même
de la personnalité, pour n'en citer que quelques-uns, sont cruciaux dans plusieurs applications,
comme l'identification des utilisateurs, l'interaction sociale, le suivi du visage et la
reconnaissance des comportements [2, 3]. En ce qui concerne la classification d'âge et de genre,
bien que ces deux tâches aient été largement traitées dans le passé, les performances rapportées
sont loin d'être optimales [4, 5].
Au cours des dernières années, les réseaux de neurones convolutifs (CNN) [6] sont devenus
le principal cheval de bataille pour l'estimation de l'âge et du genre. Les CNN se sont avérés
très performants dans une variété de tâches de vision par ordinateur telles que la reconnaissance
de l'action humaine [7], la reconnaissance des chiffres manuscrits [8], la vérification du visage
[9] ou la détection automatique du visage [10]. En ce qui concerne la tâche de l'analyse de la
biométrie douce, les CNN ont récemment été appliqués à la tâche d'estimation de l'âge apparent
[11, 12, 13], de la classification du genre et du sourire [14], et de la prévision réelle de l'âge et
du genre [15].
4
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
1.2 La biométrie
1.2.1 Définition
Le terme biométrie vient des mots grecs Bios (vies) et Metrikos (mesure ou distance), qui
veut dire Distance Biophysiques de l'être humain, ou en d'autre terme, c'est l'anthropométrie
[16].
5
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
6
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
• Le mode d'identification est une comparaison "un à N", dans lequel le système
reconnaît un individu en l’appariant avec un des modèles de la base de données. La personne
peut ne pas être dans la base de données. Ce mode consiste à associer une identité à une
personne. En d'autres termes, il répond à des questions du type : « Qui suis-je ? ».
Figure 1.2 : Principaux modules d’un système biométrique ainsi que les différentes modes [22].
7
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
Les différents modules qui composent un système biométrique sont représentés sur la figure
1.2 ; leur fonctionnement peut être résumé comme suit :
• Module extraction des données : extrait les informations pertinentes à partir des
données biométriques brutes, par exemple des images de visage ou des régions caractéristiques
de visage.
• Module base de données : stocke les modèles biométriques des utilisateurs enrôlés.
L’extraction : Après fait l’acquisition d’une image ou d’une voix, on réalise les
informations nécessaires et les stocker dans une base de données.
8
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
• coût : doit être modéré. À cet égard nous pouvons dire que la reconnaissance faciale ne
nécessite pas une technologie coûteuse. En effet, la plupart des systèmes fonctionnent en
utilisant un appareil à photo numérique de qualité standard.
• effort : requis par l'utilisateur lors de la saisie de mesures biométriques, et qui doit être
réduit le plus possible. La reconnaissance faciale est la technique biométrique la plus facile à
utiliser car non contraignante.
• les techniques les moins "intrusives" aux plus "intrusives" : la voix, la frappe sur le
clavier, la signature, la main, le visage, l'empreinte digitale, l'iris et enfin la rétine.
9
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
• les techniques les plus fiables aux moins fiables : l'iris, la rétine, l'empreinte digitale, le
visage, la main, la voix, et enfin à un niveau équivalent, la frappe sur le clavier et la signature.
• les techniques les moins coûteuses aux plus coûteuses : la frappe sur le clavier, la voix,
la signature, l'empreinte digitale, le visage, la main, la rétine et enfin l'iris.
• les techniques les plus faciles d'utilisation aux plus difficiles : le visage, la signature,
l'iris, la frappe sur le clavier, la voix, l'empreinte digitale, la main et enfin la rétine.
Les techniques biométriques sont appliquées dans plusieurs domaines et leur champ
d’application couvre potentiellement tous les domaines de la sécurité où il est nécessaire de
connaître l’identité des personnes. Les applications peuvent être divisées en trois groupes
principaux [23] :
10
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
La fiabilité d’un système de reconnaissance biométrique est caractérisée par deux valeurs
statistiques :
11
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
Il existe d’autres critères statistiques pour mesurer les performances d’un système
biométrique :
12
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
𝐅𝐀𝐑 = 𝐅𝐑𝐑…………………………………………………………………………..1.4
Le HTER (Half Total Error Rate) : Il représente la moyenne de FAR et FRR donc :
𝐅𝐀𝐑+ 𝐅𝐑𝐑
𝐇𝐓𝐄𝐑 = ………………………………………………………………….1.5
𝟐
La reconnaissance faciale est une modalité qui peut être implémentée de manière
indépendante des autres modalités biométriques, elle est souvent utilisée dans des applications
de surveillance. Elle offre plusieurs avantages : le système de capture (c.à.d les caméras) est
facile à installer, il est accepté dans les lieux publics ce qui permet d’avoir des bases de données
de plus en plus grandes et ainsi d’améliorer les performances de la reconnaissance [24].
13
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
La reconnaissance faciale est une tâche que les humains effectuent naturellement et sans
effort dans leurs vies quotidiennes. Et en tant qu’une des technologies biométriques de base, a
pris une part de plus en plus importante dans le domaine de la recherche, ceci étant dû aux
avances rapides dans des technologies telles que les appareils photo numériques, Internet et les
dispositifs mobiles, le tout associé à des besoins en sécurité sans cesse en augmentation.
Les systèmes de reconnaissance du visage reposent sur des algorithmes d’analyse de l’image,
pouvant identifier les personnes qui y sont associées. Ces programmes créent une image du
visage, en mesurant ses caractéristiques. Ils en produisent ensuite un fichier individuel,
dénommé "Template ou signature". Les Template sont alors comparées avec toutes les images
existantes au niveau de la base de données, en ressortant un score de similitude.
Motivation :
Pourquoi la reconnaissance de visages ?
En effet, la personne n’a qu’à rester ou marcher devant une caméra pour qu’elle puisse être
identifiée par le système. En plus, cette technique est très efficace pour les situations non
standards, c’est les cas où on ne peut avoir la coopération de l’individu à identifier, par exemple
lors d’une arrestation des criminels. Certes que la reconnaissance des visages n’est pas la plus
fiable comparée aux autres techniques de biométrie, mais elle peut l’être aussi si on utilise des
approches plus efficaces en plus du bon choix des caractéristiques d’identification représentant
le visage en question [32].
14
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
• Méthodes globale :
Ce type d’approches utilisent la segmentation de ses parties, elles se basent principalement
sur des informations pixel, ces algorithmes s’appuient sur des techniques d’analyse statique
bien connue. Dans ces méthodes, les images de visage sont généralement transformées en
vecteur plus faciles à manipuler.
L’avantage principale des méthodes globales sont relativement rapides à mettre en œuvre, mais
sont sensibles aux problèmes d’éclairement, de pose et d’expression faciale.
Nous pouvons distinguer deux types de techniques parmi les méthodes globales les techniques
linéaires et les techniques non linéaires.
Il y’a plusieurs méthodes globale, mais les plus connues sont : PCA, LDA/FLD,…
• Méthode locale :
Les méthodes locales, basées sur des modèles, utilisent des connaissances a priori que l’on
possède sur la morphologie du visage et s’appuient en général sur des points caractéristiques de
celui-ci. Kanade [25] présenta un des premiers algorithmes de ce type en détectant certains
points ou traits caractéristiques d’un visage, puis en les comparants avec des paramètres extraits
d’autre visage. Ces méthodes constituent un autre approche pour prendre en compte la non-
linéarité en construisant un espace de caractéristiques locale et en utilisant des filtres d’image
approprié de manière à ce que les distributions des visages soient moins affectées par divers
changements.
15
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
L'avantage de ces méthodes est qu'elles prennent en compte la particularité du visage en tant
que forme naturelle à reconnaître, en plus elles utilisent un nombre réduit de paramètres. Par
rapport aux méthodes globales elles sont plus robustes aux problèmes posés par les variations
d’éclairement, de pose et d’expression faciale.
Parmi ces approches on peut citer : filtres de Gabor, HMM…
• Méthode hybride :
La méthode globale et méthode locale ont des propriétés différentes, la méthode hybride
faire la combinaison entre la détection de caractéristiques structurales et l’extraction de
caractéristiques d’apparence locales, pour obtenir des informations complémentaire utiles ce
qui permettent d’augmenté la performance de reconnaissance lors de changements de pose,
d’éclairement et d’expressions faciales [26].
16
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
17
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
problème difficile qui est toujours pertinent et reste non résolu [29], la figure 1.8 ci-dessous
montre quelques expressions faciales.
18
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
Avantages Inconvénients
19
Chapitre 01 La biométrie & systèmes de reconnaissance faciale
1.11 Conclusion
Dans ce chapitre, nous avons présenté les technologies utilisées dans les systèmes
biométriques pour l’identification de personnes. Nous avons aussi donné un aperçu sur les
techniques de mesure de leurs performances. Cette étude nous a permis de constater que la
reconnaissance de visage suscite de plus en plus l’intérêt de la communauté scientifique ,car
elle présente plusieurs challenges et verrous technologiques. Enfin, nous avons mis en évidence
les différentes difficultés inhérentes à la reconnaissance automatique de visages ,ce qui nous a
permis de bien définir les problématiques traitées dans cette thèse ,notamment l’invariance à
l’illumination.
20
Chapitre 02 : Etat de
l'art des techniques
de réduction de
dimension et
classification d'image
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
2.1 INTRODUCTION
Dans ce chapitre, nous décrivons brièvement certaines techniques les plus importantes ou
les plus couramment utilisées dans le domaine de la reconnaissance de forme, en commençant
par les méthodes basées sur la réduction de dimension qui vise à produire une représentation
de faible dimension des données de haute dimension en préservant leurs structures pertinente
(la pertinence dépendant souvent de l'application). Ce type de technique sont importantes en
science des données, à la fois pour la visualisation et potentiellement pour le prétraitement des
données avant l'apprentissage automatique. Nous allons aussi présentés de nombreuses
techniques de classification automatiques utilisées en reconnaissance faciale, estimation du
genre et d’âge qui ont été proposées au cours de ces dernières années.
Dans cette description de l'état de l'art vu le grand nombre de méthodes appliquées dans ce
domaine, la citation de la totalité des méthodes ne peut être complète. On s’est limité à décrire
la plupart des grandes approches classiques et la majorité des techniques qui ont apporté une
vraie originalité et une avancée sensible dans le domaine.
Dans l'état de l'art, deux familles d'algorithmes ressortent. Une première famille, la plus
populaire, est basée sur des méthodes de réduction d'espace. Une deuxième famille
d'algorithmes est basée sur des approches de classification dite aussi de discrimination [36].
22
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
Les techniques de classification par réduction d'espace restent parmi les techniques les plus
utilisées et les plus populaires dans le domaine de la reconnaissance du visage [37]. Ces
méthodes considèrent l'image entière du visage comme un vecteur dans un espace
multidimensionnel. L'objectif de ces méthodes est de trouver une base réduite de projections
qui optimise un certain critère et l'espace original est ensuite projeté sur cette base de
dimension inférieure. De ce fait on réduit considérablement la complexité des calculs tout en
conservant l'information discriminante entre les images. La classification est habituellement
effectuée selon une mesure de distance simple dans l'espace multidimensionnel. Ainsi,
l’utilisation de distances classiques dans l’espace projeté ne permet pas toujours de réaliser
une bonne classification entre les classes. Les approches de réduction d'espace peuvent se
décomposer en deux types de techniques : les techniques linéaires et les techniques non
linéaires. Parmi les approches les plus importantes réunies au sein de cette classe on trouve :
La réduction des dimensions est l’une des plus anciennes approches permettant d’apporter
des éléments de réponse à ce problème. Son objectif est de sélectionner ou d’extraire un sous-
ensemble optimal de caractéristiques pertinentes pour un critère fixé auparavant. La sélection
de ce sous-ensemble de caractéristiques permet d’éliminer les informations non-pertinentes et
redondantes selon le critère utilisé. Cette sélection/extraction permet donc de réduire la
dimension de l’espace des exemples et rendre l’ensemble des données plus représentatif du
problème. En effet, les principaux objectifs de la réduction de la dimension sont [39] :
23
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
L'ACP prend sa source dans un article de Karl Pearson [40], pour ses travaux dans le
domaine de la régression et des corrélations entre plusieurs variables. Pearson utilise ces
corrélations non plus pour expliquer une variable à partir des autres (comme en régression),
mais pour décrire et résumer l'information contenue dans ces variables. Encore connue sous
le nom de transformée de Karhunen-Loève ou de transformée de Hotelling, l'ACP a été de
nouveau développée et formalisée quelque années après par Harold Hotelling [41]. La
puissance mathématique de l'économiste et statisticien américain le conduira aussi à
développer l'analyse canonique, généralisation des analyses factorielles dont fait partie l'ACP.
Les champs d'application sont aujourd'hui multiples, allant de la biologie à la recherche
économique et sociale, et plus récemment le traitement d'images.
L’ACP est l’une des méthodes les plus anciennes et le mieux étudiées pour la
représentation des visages dans un espace de dimension réduite, reste la technique dite des
Eigenfaces présentée par Turk et Pentland en 1991 [42] basé sur l'analyse en composante
principale (ACP). Cette représentation est réalisée sur un ensemble d’images d’apprentissage
de visages. Les principaux vecteurs propres résultant de l’ACP définissent le nouvel espace.
Les images de visages sont ensuite projetées sur cet espace, et les vecteurs obtenus sont utilisés
pour la classification. L’ACP appliquée aux visages permet la réduction de la dimension de
représentation du visage [43]. C’est une approche rapide et très facile à mettre en œuvre,
néanmoins elle présente quelques inconvénients tels qu’une baisse des performances (temps
d’exécution plus long) dans le cas où la base d’image est volumineuse.
La méthode des Eigen Faces repose sur une utilisation des premiers vecteurs propres
comme visages propres, d’où le terme Eigen Faces. La base formée par ces vecteurs constitue
un espace qu’on utilise pour représenter les images des visages. Les personnes se voient donc
attribuer un vecteur d’appartenance pour chacune de leur image. Cela étant dit, la
reconnaissance est réalisée en comparant les coefficients de projection d’un visage test avec
24
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
ceux appartenant aux visages d’entraînement. Après le choix des visages sur lesquels on va
travailler, l’idée de cette méthode est de représenter chaque image sous forme de vecteur, puis
regrouper ses derniers pour former une matrice de vecteur qu’on appellera matrice d’image,
Etape1 :
Cette étape consiste à définir les images des personnes, soit M le nombre d’image allant de I 1
, I 2 , …, I M .Ces images doivent être centré et de même taille.
Etape2 :
Cette étape consiste à représenter chaque image I i par un vecteur i , pour cela on va
superposer les colonnes de chaque image.
Exemple :
5
3
0
5 3 0 2
I i 2 7 9 On obtiendra i 7
1 1 4 9
1
1
4
Etape 3 :
Cette étape consiste à calculer la moyenne des visages et de les représenter sous forme de
vecteur .
25
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
M
1
M
…………………………………………......….........................………….2.1
i 1
i
Etape 4 :
Cette étape consiste à enlever la moyenne de la matrice d’image, en d’autres termes : enlever
tous ce qui est commun aux individus. Soit la matrice résultante obtenue comme suit :
i i ……………………………………………………………………………………..2.2
Etape 5 :
M
1
C n Tn A A t ( N
2
N 2 )………….......................................................…2.3
M n 1
Où
Etape6 :
Cette étape consiste à calculer les vecteurs propres qui constitueront notre espace d’étude. Ces
vecteurs u i seront tirés de la matrice de covariance C AAT . Cependant, cette matrice est très
grande donc non praticable, à ce niveau, nous allons procéder à une déviation qui nous
permettra de détourner le problème.
un lien entre les vecteurs propres de chacune des deux matrices qui est le suivant : u i Avi
On notera que pour la matrice AAT on aura N 2 valeurs et vecteurs propres. Et pour la matrice
AT A on aura M valeurs et vecteurs propres. Ainsi, les M valeurs propres de AT A
correspondent aux M plus grandes valeurs de la matrice AAT (en correspondance avec leurs
vecteurs propres).
26
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
Etape 7 :
Cette étape est assez simple à réaliser, elle consiste à prendre K vecteurs propres
correspondant aux K plus grandes valeurs propres.
Une fois les vecteurs propres trouvés, il ne reste plus qu’à déterminer la représentation des
visages dans notre nouvel espace, pour cela on procède comme suit : Chaque visage (moins
la moyenne) sera représenté comme étant une combinaison linéaire des K vecteurs propres
choisis.
K
ˆi mean w j u j
j 1
…………………..............................................................................2.4
Où
w j u Tj i
Donc chaque visage d’apprentissage i sera représenté dans l’espace comme suit :
w1i
i
w2
.
i i 1,2,..., M
.
.
w I
K
Le problème qui reste à résoudre est le choix de K , la dimension de l’espace, Pour cela on
aura besoin d’un seuil (pourcentage) dit de quantité d’information. Le but est de pouvoir
représenter une certaine quantité d’information en un minimum de vecteurs base.
K
i
i 1
N
SEUIL ..............................................................................................................….2.5
i 1
i
27
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
utilisée pour trouver la combinaison linéaire des caractéristiques qui séparent le mieux les
classes d’objet ou d'événement. Les combinaisons résultantes peuvent être employées comme
classificateur linéaire, ou généralement dans la réduction de caractéristiques avant la
classification postérieure. LDA est étroitement lié à l’ACP, du fait que tous les deux
recherchent des combinaisons linéaires des variables qui représentent au mieux les données.
Les combinaisons linéaires obtenues en utilisant FLD s’appellent les Fisherfaces, en analogie
avec les Eigenfaces [45].
Chaque image d’entrées, qui se compose d'un grand nombre de Pixel, est réduit à un plus
petit ensemble de combinaisons linéaires avant la classification Chacune des nouvelles
dimensions est une combinaison linéaire des valeurs de pixel, qui forment un template. Les
combinaisons linéaires obtenues en utilisant FLD s'appellent les Fisherfaces, en analogie avec
les Eigenfaces [46]. LDA est une technique qui cherche les directions qui sont efficaces pour
la discrimination entre les données.
Récemment, des algorithmes pour l'application directe de la LDA pour l'extraction des informations
discriminantes, ont été proposés. Ces solutions ont pour but d'éviter la perte d'information
discriminante qui se produit après une réduction par ACP. On cite la DLDA (Direct LDA) [47], la
LDA (Regression LDA) [48], GDA (General Discriminant Analysis) [49] et l'analyse non linéaire
discriminante de Fisher KFDA (Kernel Fisher Discriminant Analysis) [50].
28
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
La taille des données peut être mesurée selon deux dimensions, le nombre de variables et le
nombre d’exemples. Ces deux dimensions peuvent prendre des valeurs très élevées, ce qui
peut poser un problème lors de l’exploration et l’analyse de ces données. Pour cela, il est
fondamental de mettre en place des outils de traitement de données permettant une meilleure
représentation de la valeur des caractéristiques disponibles dans ces données.
Cette technique est une variation de Stochastic Neighbor Embedding qui est beaucoup plus
facile à optimiser et produit des visualisations nettement meilleures en réduisant la tendance
à regrouper les points au centre de la carte. t-SNE est meilleur que les techniques existantes
pour créer une carte unique qui révèle la structure à de nombreuses échelles différentes. Ceci
est particulièrement important pour les données de haute dimension qui se trouvent sur
plusieurs variétés différentes, mais liées, de faible dimension, telles que des images d'objets
de plusieurs classes vues de plusieurs points [53].
29
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
30
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
31
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
Dans cette section, nous présentons les principales approches basées la classification de
caractéristiques extraites de différentes régions des visages.
Les réseaux de neurones fonctionnent en répartissant les valeurs des variables dans des
automates (les neurones). Ces unités sont chargées de combiner entre elles leurs informations
pour déterminer la valeur du paramètre de discrimination. C’est de la connexion de ces unités
entre elles qu’émerge la capacité de discrimination du RNA. Chaque neurone reçoit des
informations numériques en provenance de neurones voisins, à chacune de ces valeurs est
associé un poids représentatif de la force de la connexion. Chaque neurone effectue localement
un calcul dont le résultat est transmis ensuite aux neurones avals [55].
Un neurone formel (ou simplement neurone artificiel) est une fonction algébrique non
linéaire et bornée, dont la valeur dépend des paramètres appelés coefficients ou poids. Les
variables de cette fonction sont habituellement appelées "entrées" du neurone, et la valeur de
la fonction est appelée sa sortie [56]. Un neurone est donc avant tout un opérateur
mathématique, dont on peut calculer la valeur numérique par quelques lignes de logiciel.
32
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
Aujourd’hui, les réseaux de neurones artificiels ont de nombreuses applications dans des
secteurs très variés :
Traitement d’images : reconnaissance de caractères et de signatures, compression
d’images, reconnaissance de forme, cryptage, classification, etc.
Traitement du signal : filtrage, classification, identification de source, traitement de la
parole…etc.
Contrôle : commande de processus, diagnostic, contrôle qualité, asservissement des robots,
systèmes de guidage automatique des automobiles et des avions…etc.
Défense : guidage des missiles, suivi de cible, reconnaissance du visage, radar, sonar, lidar,
compression de données, suppression du bruit…etc.
Optimisation : planification, allocation de ressource, gestion et finances, etc.
Simulation : simulation du vol, simulation de boîte noire, prévision météorologique,
recopie de modèle…etc.
33
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
espace de plus grande dimension appelé espace de caractéristiques, de façon à ce que les
données deviennent linéairement séparables [57] [58].
Le SVM est une méthode de discrimination de données basé sur un apprentissage supervisé,
utilisée pour la classification et la régression. Elle consiste à séparer deux ou plusieurs
ensembles de points par un hyperplan. Selon les cas et la configuration des points, la
performance de la machine à vecteurs de support peut être supérieure à celle d'un réseau de
neurones ou d'un modèle de mixture gaussienne [59]. Le but du SVM est donc de trouver une
séparatrice qui minimise l'erreur de classification sur l'ensemble d'apprentissage mais qui sera
également performante en généralisation sur des données non utilisées en apprentissage. Pour
cela le concept utilisé est celui de marge (d'où le nom de séparateurs à vaste marge). La marge
est la distance quadratique moyenne entre la séparatrice et les éléments d'apprentissage les
plus proches de celle-ci appelés vecteurs de support (figure 2.3). Ces éléments sont appelés
vecteurs de support car c'est uniquement sur ces éléments de l'ensemble d'apprentissage qu'est
optimisée la séparatrice. Dans cette section, nous présenterons quelques notions de base qui
sont Hyperplan, marge et support vecteur. Nous mettrons également en évidence l’utilisation
des SVM dans les deux cas où les données sont (linéairement ou non linéairement) séparables
[60].
Ramin Azarmehr et all [61], ont proposé un cadre complet pour une classification en temps
réel et précise de l’âge et du genre sur les systèmes intégrés dans des environnements sans
contrainte. Plusieurs améliorations ont été présentées pour l’alignement de la taille, la
normalisation de l’éclairage et l’extraction des caractéristiques à l’aide d’une méthode de
modèle binaire multi-résolution. Pour surmonter les limites des systèmes embarqués, ils ont
introduit une technique de réduction de la dimensionnalité segmentaire et mis en place un
classificateur SVM+RBF ainsi qu’une stratégie de classification démographique
discriminante pour améliorer la performance.
34
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
Le modèle a d’abord été introduit par Edwards, Cootes et Taylor dans le contexte de
l’analyse du visage lors de la 3e Conférence internationale sur la reconnaissance du visage et
des gestes, 1998. [62] Cootes, Edwards et Taylor ont en outre décrit l’approche comme une
méthode générale dans la vision par ordinateur à la Conférence européenne sur la vision par
ordinateur la même année. [63][64] L’approche est largement utilisée pour l’appariement et
le suivi des visages et pour l’interprétation des images médicales. L’algorithme utilise la
différence entre l’estimation actuelle de l’apparence et l’image cible pour piloter un processus
d’optimisation. En tirant parti des techniques des moindres carrés, il peut correspondre à de
nouvelles images très rapidement.
L’AAM est l’une des techniques d’extraction de caractéristiques les plus utilisées.
Cependant, elle souffre de certains inconvénients, surtout lorsqu’il est utilisé pour la
classification. Cela s’explique principalement par le fait que l’analyse des composantes
principales (ACP), qui est au cœur du modèle, fonctionne de façon non supervisée, c’est-à-
dire que la réduction de la dimension de l’ACP ne tient pas compte de la façon dont les
variables prédictives se rapportent à la réponse (étiquettes de classe). Il explore plutôt
seulement la structure sous-jacente des variables prédictives, et il n’est donc pas surprenant
que l’ACP écarte des parties précieuses des données qui représentent des caractéristiques
discriminatoires. À cette fin, Ali Maina Bukar et all [65], proposent un modèle d’apparence
supervisée (SAM) qui améliore l’AAM en remplaçant l’ACP par une régression partielle des
moindres carrés. Cette technique d’extraction des caractéristiques est ensuite utilisée pour les
problèmes de classification selon l’âge et le sexe. Leurs expériences montrent que SAM a une
meilleure puissance prédictive que l’AAM classique.
2.5 Conclusion
Dans ce chapitre, on a passé en revue les principales techniques de reconnaissance, de
réduction de dimension et classification les plus utilisées dans le domaine de la reconnaissance
de formes. Cet engouement pour les systèmes de reconnaissance basée sur les images faciales
est justifié par les nombreux avantages de cette approche. En effet cette technologie est peu
35
Chapitre 02 Etat de l'art des techniques de réduction de dimension et classification d'image
couteuse, peu encombrante, elle est de surcroit peu contraignant pour les usagers. Ce chapitre
n'a pas pour finalité de décrire tous les algorithmes cité dans l’état de l’art, mais nous nous
sommes contentés de présenter les algorithmes qui ont introduit une nette évolution dans le
domaine de biométrie, permettant ainsi une véritable amélioration des performances.
36
Chapitre 03 :
Apprentissage
Profond : réseaux de
neurones convolutifs
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
3.1 Introduction
Depuis plusieurs années, l’intelligence artificielle (IA) connaît une très forte
croissance de popularité aussi bien dans le milieu de la recherche scientifique qu’auprès
des grandes compagnies des technologies de l’information comme Google, Amazon,
Microsoft ou Facebook. Cette technologie s’invite aujourd’hui dans de nombreux
domaines tels que les moteurs de recherche sur le Web, les assistants virtuels, la
reconnaissance d’images ou encore les voitures autonomes.
Cette popularité est due aux récents développements d’un domaine de l’intelligence
artificielle, l’apprentissage profond (Deep Learning en anglais). Où des avancées
remarquables ont été faites dans la reconnaissance de parole et d’images en surpassant la
précision des algorithmes utilisés jusqu’alors.
Dans ce chapitre, nous présentons une étude détaillée sur les réseaux de neurones CNN
et ses différentes composantes. Ce chapitre vise à fournir une présentation au concept de
réseaux de neurones convolutifs, pour ce faire, il est nécessaire de comprendre le concept
du réseau neuronal artificiel, où une partie du chapitre lui est consacrée.
L'IA tente de reproduire une partie de l'intelligence humaine à travers une application,
un système ou un processus. La reconnaissance de la parole, la perception visuelle et la
traduction linguistique sont des exemples de systèmes d'intelligence artificielle.
38
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Le Deep Learning est un nouveau domaine de recherche du ML, qui a été introduit
dans le but de le rapprocher de son objectif principal l’intelligence artificielle, il concerne
les algorithmes inspirés par la structure et le fonctionnement du cerveau [69]. Autrement
dit, c’est un ensemble de méthodes d'apprentissage automatique utilisables pour
modéliser à un haut niveau d'abstraction des données et avec lesquelles la machine
apprend par elle-même à réaliser une tâche donnée. Par exemple, lorsque l'on parle de
reconnaissance d'images, le système apprend automatiquement à classifier les images en
différentes catégories selon le jeu de données qui lui est fourni pour reconnaître une
automobile ou une motocyclette sur une image.
39
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Le Deep Learning est basé sur l’idée des réseaux de neurones artificiels et il est taillé
pour gérer de larges quantités de données en ajoutant des couches au réseau. Un modèle
de deep learning a la capacité d’extraire des caractéristiques à partir des données brutes
grâce aux multiples couches de traitement composé de multiples transformations linéaires
et non linéaires et apprendre sur ces caractéristiques petit à petit à travers chaque couche
avec une intervention humaine minime [71].
40
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
allés jusqu’à dépasser la performance humaine dans des domaines comme l’image
processing.
3.4.2 L'apprentissage
L’apprentissage est la propriété la plus intéressante des réseaux neuronaux. C’est une
phase du développement d’un réseau de neurones durant laquelle le comportement du
réseau est modifié jusqu’à l’obtention du comportement désiré.
41
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
42
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
3.5.1 Le neurone
Modèle biologique
43
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Le neurone artificiel est une fonction algébrique non linéaire et bornée, dont la valeur
dépend des paramètres appelés coefficients ou poids. Les variables de cette fonction sont
habituellement appelées entrées du neurone, et la valeur de la fonction est appelée sa
sortie [12]. Le neurone Artificiel est donc un modèle mathématique simplifié du neurone
biologique.
44
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
45
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
On distingue deux types de RNA : Les réseaux non bouclés et les réseaux bouclés :
La majorité des réseaux de neurones non bouclés sont mise en œuvre pour les tache de
classification automatique sont organisé en plusieurs couches dont certaines sont cachées.
46
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Le perceptron est un réseau de neurones très simple qui a été proposé par le
psychologue FRANK ROSENBLATT en 1958 et inspiré du système visuel. Il est linéaire
et monocouche ayant juste deux couches, une couche représente les entrées de système et
l’autre pour les sorties, acceptant uniquement des valeurs d'entrées et de sorties binaires
(0 ou 1). Les connexions entre ces deux couches sont modifiables et bidirectionnelles.
47
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
La sortie du réseau sera désignée par ‘O’. Elle sera de la forme suivante :
1 si net 𝑘 ≥ 𝜃𝑘
𝑶𝒌 = { ………………………….………………..…………3.2
0 si net 𝑘 ≤ 𝜃𝑘
48
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Le Modèle de Hopfield
Le modèle de Hopfield fut présenté en 1982. Ce modèle très simple est basé sur le
principe des mémoires associatives. C’est d’ailleurs la raison pour laquelle ce type de
réseau est dit associatif (par analogie avec le pointeur qui permet de récupérer le contenu
d’une case mémoire). Le modèle de Hopfield utilise l’architecture des réseaux
entièrement connectés et récurrents (dont les connexions sont non orientées et ou chaque
neurone n’agit pas sur lui-même). Les sorties sont en fonction des entrées et du dernier
état pris par le réseau [75].
Le Modèle d’Adaline
ADALINE (Adaptive Linear Neuron ou plus tard Adaptive Linear Element) est un
réseau de neurones artificiels simple-couche.Il a été développé par le professeur Bernard
Widrow et un de ses étudiants, Ted et Hoff de l'université Stanford en 1960. Ce modèle
est similaire au modèle de perceptron,Il s'agit en fait d'un Perceptron sans saturation des
sorties.et la fonction de transfert change , mais reste toujours linéaire c’est-à- dire :F(x)
= x.
49
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
La sortie estimée y(k) du signal de référence d (k) sera composée par la relation linéaire
suivante :
Les réseaux de neurones à base radiale RBFs (Radial Basis Function) sont une classe
particulière des réseaux de neurones multicouches.ces réseaux sont une architecture
Feedforward puissante ,à trois couches: une couche d’entrée, une couche cachée
composée de fonctions noyaux et une couche de sortie, dont les neurones sont
généralement animés par une fonction d’activation linéaire .Ce type de réseaux a été
introduit pour la première fois par Hardy, et la théorie correspondante a été développée
par Powell, ensuite, ces réseaux ont pris le terme de réseaux de neurones grâce à
Broomhead et Lowe.
Les réseaux de neurones sont principalement utilisés pour résoudre des problèmes
d’approximation de fonctions dans des espaces de grandes dimensions. Ils sont lus
adaptés, en raison d’apprentissage local.
50
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Un réseau RBF est plus facile à construire qu’un PMC, et apprend beaucoup plus vite,
mais sur les problèmes difficiles les réseaux RBF ne peuvent pas lutter avec les réseaux
PMC, en terme de qualité des résultats [77].
La sortie du réseau est simplement une combinaison linéaire des sorties des neurones
RBF multipliés par le poids de leur connexion respective.
Le Modèle de Kohonen
51
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Les cartes de Kohonen sont réalisées à partir d’un réseau à deux couches, une en entrée
et une en sortie. Notons que les neurones de la couche d’entrée sont entièrement connectés
à la couche de sortie [81].
Les réseaux de neurone convolutifs (CNN en anglais) comportent deux parties bien
distinctes. En entrée, une image est fournie sous la forme d’une matrice de pixels, 2
dimensions pour une image en niveaux de gris. La couleur est représentée par une
troisième dimension, de profondeur 3 pour représenter les couleurs fondamentales
[Rouge, Vert, Bleu].
52
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
La première partie d’un CNN est la partie convolutive à proprement parler. Elle
fonctionne comme un extracteur de caractéristiques des images. Une image est passée à
travers une succession de filtres, ou noyaux de convolution, créant de nouvelles images
appelées cartes de convolutions. Certains filtres intermédiaires réduisent la résolution de
l’image par une opération de maximum local. Au final, les cartes de convolutions sont
mises à plat et concaténées en un vecteur de caractéristiques, appelé code CNN [68].
Ce code CNN en sortie de la partie convolutive est ensuite branché en entrée d’une
deuxième partie, constituée de couches entièrement connectées (perceptron multicouche).
Le rôle de cette partie est de combiner les caractéristiques du code CNN pour classer
l’image.
La sortie est une dernière couche comportant un neurone par catégorie. Les valeurs
numériques obtenues sont généralement normalisées entre 0 et 1, de somme 1, pour
produire une distribution de probabilité sur les catégories.
Quand on lui présente une nouvelle image, le CNN ne sait pas exactement si les
caractéristiques seront présentes sur le bord ou le centre de l’image, il cherche donc à les
trouver dans toute l’image et dans n’importe quelle position. En calculant dans toute
l’image si une caractéristique est présente, nous faisons un filtrage. Les mathématiques
que nous utilisons pour réaliser cette opération sont appelés une convolution, de laquelle
les réseaux de neurones à convolution tiennent leur nom [86].
53
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
𝑤−𝐹+𝟐 𝑃 𝑤−𝐹+𝟐 𝑃
WC = +1 et HC = et DC = k
𝑆 𝑆
Où F est la taille des filtres et le S c’est le pas avec lequel on fait glisser la fenêtre, le
P correspond au zéro padding, et K c’est le nombre des filtres.
𝐹−1
Choisir P = et S=1 permet ainsi d'obtenir des features maps de même largeur et
2
hauteur que celles reçues en entrée, Où F est la taille du filtre, chaque filtre est de
dimensions F×F×D pixels
54
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
Un autre outil très puissant utilisé par les CNNs s’appelle le Pooling. Qui est une
méthode permettant de prendre une large image et d’en réduire la taille tout en préservant
les informations les plus importantes qu’elle contient [86]. Ce qui est une forme de sous-
échantillonnage de l'image [88].
Ce type de couche est souvent placé entre deux couches de convolution, elle reçoit en
entrée plusieurs features maps et applique à chacune d'entre elles l'opération de pooling.
Les deux méthodes les plus utilisées pour appliquer cette opération sont les suivantes,
soit on fait la moyenne des valeurs de la zone (pooling average), soit on extrait
uniquement la valeur la plus élevée (pooling max). Nous utilisons dans ce travail celle
qui applique l’opération max au résultat de chaque filtre [86].
Pour cela, on découpe l'image en cellules régulière, puis on garde au sein de chaque
cellule la valeur maximale. En pratique, on utilise souvent des cellules carrées de petite
taille pour ne pas perdre trop d'informations.
55
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
La forme la plus courante est une couche de mise en commun avec des tuiles de taille
2 × 2 (largeur/hauteur) et comme valeur de sortie la valeur maximale en entrée son utilité
consiste à réduire la quantité de poids à apprendre, ce qui réduit le temps de calcul ainsi
que la probabilité de sur apprentissage, on parle dans ce cas de « Max-Pool 2x2 ».
Cette fonction, appelée aussi « fonction d'activation non saturante », augmente les
propriétés non linéaires de la fonction de décision et de l'ensemble du réseau sans affecter
les champs récepteurs de la couche de convolution [88].
56
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
La couche de correction ReLU remplace donc toutes les valeurs négatives reçues en
entrées par des zéros. Elle joue le rôle de fonction d'activation souvent, la correction Relu
est préférable, mais il existe d'autre forme [68] :
57
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
La Batch Normalization
58
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
rapport aux valeurs réelles dans le but de minimiser autant que possible la différence entre
l'estimation et la valeur réelle. La couche de perte effectue cela en ajustant les poids à la
fois dans la couche de convolution et dans les couches entièrement connectées [86].
Méthodes de régularisation
Le Dropout est donc une solution peu couteuse en calcul qui va permettre d’améliorer
les capacités de modélisation et de généralisation du réseau. En contre partie, le nombre
d’itérations nécessaires à l’apprentissage est augmenté.
Figure 3.25 : Schéma de deux réseaux de neurones avec et sans dropout [93].
59
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
- Pooling Stochastique
Le pooling stochastique est une méthode de régularisation inspirée par le dropout. Au
lieu de toujours capturer la plus forte activité au sein de chaque région de pooling comme
le fait le MaxPooling, le pooling stochastique sélectionne les activations de manière
aléatoire en fonction d'une distribution multinomiale [86].
3.5.4 Quelques réseaux convolutifs célèbres
LeNet (1990)
Les premières applications réussies des réseaux convolutifs ont été
développées par Yann LeCun dans les années 1990. Parmi ceux-ci, le plus connu est
l’architecture LeNet utilisée pour lire les codes postaux, les chiffres, etc [71].
AlexNet (2012)
Le premier travail qui a popularisé les réseaux convolutifs dans la vision par ordinateur
était AlexNet, développé par Alex Krizhevsky, Ilya Sutskever et Geoff Hinton. Ce CNN
été soumis au défi de la base ImageNet en 2012 et a nettement surpassé ses concurrents.
Le réseau avait une architecture très similaire à LeNet, mais était plus profond, plus grand
et comportait des couches convolutives empilées les unes sur les autres (auparavant, il
était commun de ne disposer que d’une seule couche convolutifs toujours immédiatement
suivie d’une couche de pooling) [71].
60
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
ZFNet (2013)
C’était une amélioration d’AlexNet en ajustant les hyper-paramètres de l’architecture,
en particulier en élargissant la taille des couches convolutifs et en réduisant la taille du
noyau sur la première couche [69].
GoogLeNet (2014)
C’est un modèle de Google. Sa principale contribution a été le développement d’un
module inception qui a considérablement réduit le nombre de paramètres dans le réseau
(4M, par rapport à AlexNet avec 60M). En outre, ce module utilise le global Average
pooling ce qui élimine une grande quantité de paramètres. Il existe également plusieurs
versions de GoogLeNet, parmi elles, Inception-v4 et Xception ce dernier est l’un des
modèles lesquels notre système s’inspire, plus de détails dans le chapitre de conception
[69].
61
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
VGGNet (2014)
Il s'agit d'une structure du Visual Geometry Group d'Oxford réalisée par Andrea
Vedaldi et Andrew Zisserman, Sa principale contribution a été de montrer que la
profondeur du réseau est un composant essentiel pour de bonnes performances. Son
inconvénient est qu'il est plus coûteux à évaluer et utilise beaucoup plus de mémoire et
de paramètres (140M).
ResNet (2015)
Residual network développé par Kaiming He et al, il a été le vainqueur de ILSVRC
2015. Il présente des sauts de connexion et une forte utilisation de la batch normalisation.
Il utilise aussi le global AVG pooling au lieu du PMC à la fin [71].
62
Chapitre 03 Apprentissage Profond : réseaux de neurones convolutifs
3.6 Conclusion
Les réseaux de neurones artificiels ont réussi à se faire une place de choix dans des
domaines tels que le traitement de l’image. Des résultats remarquables ont été obtenus
par exemple en détection d’objets et la reconnaissance de forme, L’état de l’art et les
possibilités de techniques utilisés en Deep Learning sont conséquents, et représentatifs ce
qui nous a motiver pour l’utilisation de cette technique dans ce travail. Le réseau de
neurone convolutif est l’un des techniques de deep learning les plus utilisé, puisqu’il
intègre les deux étapes de reconnaissance de forme au sein d’un même réseau.
Dans ce chapitre nous avons présenté les concepts liés à l’intelligence artificielle,
l’apprentissage automatique et l’apprentissage profond et la relation qu’ils ont avec, après
nous avons présenté les réseaux de neurones et leurs différents types ensuite on s’est
focalisé notre attention sur les réseaux de neurones convolutifs CNN, leur structure, et
ses différentes couches, nous avons présenté enfin quelques exemples d’architectures.
Cette étude détaillée du modèle CNN nous permet de mieux comprendre son processus
et de proposer notre modèle CNN qui fera l’objet du chapitre 4.
63
Chapitre 04 :
Expérimentations,
Résultats et
Discussions
Chapitre 04 Expérimentations, Résultats et Discussions
4.1 Introduction
Pour évaluer l’efficacité des méthodes décrites dans les chapitres précédant, nous avons opté
pour une validation sur des bases de données standard « ORL », « Essex », « Casia-WebFace »
et « FEI ». Notre travail consiste à concevoir un système d’identification biométrique de
personnes, de prédiction de genre et estimation d’âge par reconnaissance faciale se basant sur
un réseau de neurone convolutifs. Plusieurs étapes sont nécessaires, en commençant par l'étape
d'extraction des caractéristiques qui est la plus importante car les performances du système en
dépendent (résultats et robustesse). Nous évaluerons dans ce chapitre les résultats obtenus sur
les bases de données utilisées sous différentes conditions et attributs des méthodes.
65
Chapitre 04 Expérimentations, Résultats et Discussions
4.2.2 FEI
La base de données de visage FEI est une base brésilienne qui contient un ensemble d'images
de visage prises entre juin 2005 et mars 2006 au laboratoire d'intelligence artificielle FEI de
São Bernardo font Campo, São Paulo, au Brésil. Elle contient des images de visage de 200
personnes, avec 14 images pour chacune d’entre elles, un total de 2800 images. Toutes les
images sont en couleur et prises sur un fond blanc homogène en position frontale avec divers
angles de pose de chaque personne, s'étendant du profil aux vues frontales. La variation
d’éclairage est de 10% et la résolution de l’image est de 640x480 Pixel [95].
4.2.3 Essex
Les images de la base ESSEX sont capturées à une distance fixe avec une orientation buccale
différente sous différentes expressions faciales. La base de données se compose de 153 images
d’individus de résolution 180 par 200 pixels repartit entre femmes et d'hommes (20 images
chacun) avec un fond vert uni sans échelle mais présente une variation très mineure du tour de
tête, d'inclinaison et d'éclairage [94].
66
Chapitre 04 Expérimentations, Résultats et Discussions
Dans la série de tests que nous avons effectuée, la base de données était divisée comme suit :
67
Chapitre 04 Expérimentations, Résultats et Discussions
• Processeur : Intel(R) Core (TM) i5-7200U CPU @ 2.50 Ghz 2.70 Ghz.
• Mémoire installée (RAM) : 8.00 Go.
• Disque Dur : 500 Go.
• Type du système : système d'exploitation 64 bits.
• OS : Microsoft Windows 10.
68
Chapitre 04 Expérimentations, Résultats et Discussions
d'apprentissage. Autrement dit, trouver la personne dont le visage est le plus similaire à celui
qu’on cherche à identifier.
L'architecture de notre CNN, comme la montre le tableau 4.1, est entraines sur une base de
données pour classer les visages, l’âges et les sexes de chaque individu. Dans cette section, nous
présentons notre modèle CNN et expliquons les différents expérimentations et résultats
obtenues.
69
Chapitre 04 Expérimentations, Résultats et Discussions
Tableau 4.1 : Architecture détaillée de notre CNN utilisée pour l'extraction des caractéristiques.
L'entrée : est une image sous forme RGB (couleur) de taille 3x92x112 pixels.
Première couche de convolution : composée de 16 filtres de taille 3×3×3.
Couche de sous-échantillonnage: composée de 16 filtres de taille 16×2×2.
Deuxième couche de convolution : composée de 32 filtres de taille 16×3×3.
Couche de sous-échantillonnage : composée de 32 filtres de taille 32×2×2.
Troisième couche de convolution : composée de 64 filtres de taille 32×3×3.
Couche de sous-échantillonnage : composée de 64 filtres de taille 64×2×2.
Quatrième couche de convolution : composée de 128 filtres de taille 64×3×3.
Couche de sous-échantillonnage : composée de 128 filtres de taille 128×2×2.
Première couche entièrement connectée (FC1): contient 5376 neurones.
Deuxième couche entièrement connectée (FC1) : contient 512 neurones.
Troisième couche entièrement connectée (FC1) : contient 128 neurones.
70
Chapitre 04 Expérimentations, Résultats et Discussions
L'entrée de notre CNN est une image sous forme RGB (couleur) de taille 3x92x112 pixels.
Elle passe à travers quatre couches de convolution qui forment le réseau dont chacune est suivie
d'une fonction ReLU et des couches de regroupement (pooling) avec conv1 composée de 16
filtres, conv2 composée de 32 filtres, conv3 composée de 64 filtres et conv4 composée de 128
filtres, puis quatre couches de regroupement sont utilisées, couche S1, S2, S3 et S4
respectivement, sont des couches de sous-échantillonnage (subsampling).
Après les couches de prétraitement, arrive trois couches entièrement connectées (FC),
chacune d'elles est suivie d'une fonction ReLU et d'une fonction de perte, FC1 avec 5376
neurones, FC2 avec 512 neurones et FC3 avec 128 neurones, ce qui donne respectivement les
scores de classe non normalisés pour le genre ou l'âge. Enfin, pour la classification une fonction
softmax est utilisée pour donner les probabilités de perte et de classification finale pour l'âge,
ainsi que la fonction sigmoïde est utilisée sur la couche FC3 pour donner les probabilités de
perte et de classification finale pour la reconnaissance de genre et la reconnaissance faciale.
71
Chapitre 04 Expérimentations, Résultats et Discussions
D’après ces résultats obtenus, on remarque que la fonction sigmoïde a permis une précision
de [0.00000007, 0.99999976], qui est meilleurs que le résultat de la fonction softmax
[0.99954045,0.00045961].
A partir de cette expérience et les résultats obtenus, on conclut que la fonction sigmoïde est
meilleure l’lorsqu’il s’agit d’une tâche de classification binaire (problème a deux classes), alors
72
Chapitre 04 Expérimentations, Résultats et Discussions
que la fonction softmax est plus efficace pour une tâche de multi classification (plus de 2
classes).
La deuxième expérience : Dans une deuxième expérimentation, on a augmenté le nombre
des couches convolution et sous-échantillonnage (pooling) à 4 couches chacune, afin de voir
l’effet de nombre de couche sur le taux de reconnaissance.
On remarque que les résultats de classification ce sont nettement améliorer avec l’intégration
de cette quatrième couche supplémentaire.
La troisième expérience : lors de cette expérience, nous avons augmenté le nombre d'époque
d'apprentissage (itérations) jusqu'à atteindre un taux de reconnaissance le meilleurs possible.
Tableau 4.2 : Taux de reconnaissance par rapport de nombre d’époques
Nous avons aussi voulu illustrer l’influence du nombre d’exemples d’apprentissage sur les
performances de la reconnaissance. Dans cette expérimentation, on a augmenté le nombre de
visages d'apprentissage pour chaque personne.
73
Chapitre 04 Expérimentations, Résultats et Discussions
Après les expériences précédentes, nous avons adopté l'architecture de notre réseau neuronal
convolutifs illustrer dans la figure 4.4, pour appliquer sur les quatre bases de données (CASIA
Webface, FEI, ORL, Essex) pour la tâche de reconnaissance faciale de classification de genre
et l'estimation d'âge.
Tableau 4.4 : Taux de reconnaissance et de perte pour les différentes bases de données utilisées.
D’après les résultats obtenus dans les tableaux (4.2-4.3-4.4), nous constatons que la précision
de reconnaissance est positivement proportionnelle au nombre d’images d’apprentissage et de
test (c'est-à-dire que le taux de reconnaissance augmente avec l’augmentation de nombre
d’images d’apprentissage et de test) jusqu’à atteindre une amélioration de précision significatif
ainsi que le nombre d’itérations est un facteur très important pour minimiser le taux de perte.
74
Chapitre 04 Expérimentations, Résultats et Discussions
Figure 4.9 : Taux de perte des bases de données utilisées (CASIA Webface, FEI, ORL, Essex).
Les figures 4.9 et 4.10 ci-dessous illustre les performances du modèle CNN utilisé sur les
différentes bases de données.
Figure 4.10 : Taux de reconnaissance obtenue sur les bases de données (CASIA Webface, FEI,
ORL, Essex).
75
Chapitre 04 Expérimentations, Résultats et Discussions
La visualisation des données après classification par le réseau CNN est illustrée sur la figure
4.11.
Figure 4. 11 : Les résultats de visualisation des bases de données utilisées (CASIA Webface, FEI,
ORL, Essex)
76
Chapitre 04 Expérimentations, Résultats et Discussions
Nous avons ensuite utilisé ces méthodes pour une tache de regroupement (clustering) sur
è »l’ensemble des bases de données employées dans ce travail.
Figure 4. 12 : Les résultats de Regroupement des bases de données utilisées (CASIA Webface, FEI,
ORL, Essex)
4.4.3 Discussion
Dans ce travail, nous nous somme intéresser à développer une application pour la
reconnaissance faciale, la classification de genre et l'estimation d'âge testé sur quatre bases de
données CASIA WebFace, Essex, ORL et FEI. Au cours de cette étude on s’est basé
principalement sur l’utilisation des réseaux de neurones convolutifs (CNN) pour l’extraction
des caractéristiques et la classification des traits faciales.
77
Chapitre 04 Expérimentations, Résultats et Discussions
L'architecture du réseau CNN employer dans ce travail est constitué d’une succession de blocs
de traitement, des couches de convolution, des couches de pooling (sous-échantillonnage) et
des couches entièrement connectées. Notre réseau neuronal profond (CNN) prend l’image en
entrée sans extraction préalable des caractéristiques, ce qui évite grandement la reconstruction
massive de données et l’extraction complexe de caractéristiques dans les algorithmes de
reconnaissance traditionnels. Le CNN peut effectuer à la fois une extraction et une classification
des caractéristiques. La couche d'entrée reçoit des images normalisées de mêmes tailles, ensuite,
l'image est convertie sous plusieurs noyaux de filtre à l'aide de poids partagés. Un CNN est
composé d'une pile de couches convolutives, qui est paramétrée par le nombre de cartes. On
applique un certain nombre de filtres aux données (pixels brutes) d'une image pour extraire les
caractéristiques, que le modèle peut ensuite utiliser pour la classification.
Après l’extraction des caractéristiques, le résultat est transmis à trois couches entièrement
connectées, qui effectuent la classification des entités extraites. Ces couches sont similaires aux
couches de Multilayer Perceptron (MLP). Enfin la sortie de la dernière couche entièrement
connecté est classée par la fonction softmax sur un nombre de classes pour la reconnaissance
faciale et pour six classes d’âge, en revanche pour la prédiction du genre on a utilisé la fonction
sigmoïde. Selon les résultats obtenues le réseau proposé offre une précision de reconnaissance
faciale, de classification de genre et l'estimation d'âge très satisfaisante, mais nécessite un temps
d’apprentissage très long pour mettre en œuvre une prédiction correcte.
De nombreuses méthodes de réduction de dimensions ont été employées dans ce travail afin
de visualiser et regrouper les résultats issus du réseau CNN, y compris celles qui effectuent une
transformation linéaire des données par l’analyse en composantes principales (PCA).
Cependant, l'ACP est une méthode linéaire et ne fonctionne pas bien dans les cas où les relations
ne sont pas linéaires. L’utilisation des méthodes T-SNE qui est considéré comme une méthode
focalisée localement et la technique d'apprentissage multiple UMAP ont montré de meilleures
performances pour préserver à la fois la structure locale et globale.
Nous avons découvert qu'UMAP fournit les meilleures projections pour tous les modèles
évalués, tandis que t-SNE parvient également à regrouper assez bien les attributs. Dans la
plupart des cas, certains axes PCA sont capables de fournir des d'attributs aussi bien
représentatifs lorsque les méthodes non linéaires ne sont pas efficaces. Le mappage des données
de grande dimension contient généralement de nombreuses observations redondantes de
caractéristiques très informatives, ils sont une étape utile dans l'analyse des données, car elle
permet de générer des visualisations de données simples telles que des histogrammes ou des
nuages de points. L’utilisation de ces méthodes de réduction de dimension permet
78
Chapitre 04 Expérimentations, Résultats et Discussions
On présente dans cette section les différents aspects de l’application du notre système de
reconnaissance.
79
Chapitre 04 Expérimentations, Résultats et Discussions
Menu pour choisir l'application voulu 'la reconnaissance' ou bien 'la réduction des
dimensions’.
‘Lancer’ : pour démarrer l’application.
‘Fermer’ : pour quitter le programme.
80
Chapitre 04 Expérimentations, Résultats et Discussions
81
Chapitre 04 Expérimentations, Résultats et Discussions
82
Chapitre 04 Expérimentations, Résultats et Discussions
83
Chapitre 04 Expérimentations, Résultats et Discussions
Dans ce cas, le programme compare l'image d’entrer de test avec les images d'apprentissage.
4.7 Test des méthodes de réduction des dimensions sur la base FEI
On sélectionne notre choix de visualisation ou bien regroupement, puis on choisit la base de
données, la technique de réduction de dimension et le système voulu.
84
Chapitre 04 Expérimentations, Résultats et Discussions
4.8 Conclusion
Dans ce chapitre, nous avons présenté une application de reconnaissance de visage,
d’estimation du genre et d’âges basée sur les réseaux de neurones profond de type CNN. Notre
système est appliqué et testé sur quatre bases de données de visages ORL, FEI, Casia-WebFace
et Essex, on a présenté aussi les différents résultats obtenus pour chaque bases de donnés par le
réseau de neurones convolutifs. Après on a appliqué des méthodes de réduction de dimension en
l’occurrence de l’ACP, t-SNE et UMAP. Les résultats obtenus montrent que le système proposé
pour la prédiction du sexe, d’âge et la reconnaissance faciale donne une plus grande précision
que les techniques existantes. D'après les performances de la méthode proposée, nous avons
remarqué que le réseau CNN était plus précis avec les classificateurs softmax et sigmoïdes. En
général, nous estimons que la performance globale de notre système proposé est très efficace.
85
Conclusion
CONCLUSION GENERALE
Ces dernières années les systèmes de sécurité utilisant des technologies de reconnaissance
de forme sont en plein expansion. Parmi ces technologies, la biométrie s'est rapidement
distinguée comme la plus pertinente pour identifier et authentifier les personnes de manière
fiable et rapide, en fonction de caractéristiques biologiques uniques. La biométrie offre un
large éventail de techniques et peut servir dans des domaines très variés, allant de la sécurité
d’états et des entreprises, les secteurs de l'identification judiciaire, l’administration et le
contrôle d'accès, que ce soit dans les établissements privés ou publics.
En termes plus techniques, Nous avons développé une application basée sur les réseaux
CNN qui utilisent un apprentissage en profondeur (deep learning) pour la reconnaissance
faciale dans diverses conditions, telles que la pose, l'éclairage, et mauvais alignement. De plus,
une extension de ce travail étaient réaliser pour fonctionner en temps réel dans des conditions
87
Conclusion
non contrôlées. Nous avons amélioré cette technologie pour l’adopter sur des problématiques
l’estimation de l'âge et la classification du genre.
Dans cet esprit, nous avons développé une deuxième partie de notre application, pour la
visualisation et le regroupement (clustering) des données (images faciales), basé sur des
techniques de réduction des dimensions et mises en œuvre pour la classification de genre et
l’estimation de l’âge, ce qui a permis d’obtenir des meilleurs résultats avec un taux de
reconnaissance élevé, et d’atteindre d’excellentes performances pour les tâches de
classification et de réduction de dimensions. Les expériences effectuées sur les bases de
données Essex, FEI, ORL et Casia Web, confirment l’avantage de notre système.
En guise de perspective, dans un premier temps une extension de ce travail peut être
envisagée par l’étude et la réalisation de détection et de localisation de visage avec des
performances assez hautes. Nous souhaitons aussi tester notre modèle sur d’autres bases des
données plus volumineuses présentant de fortes variations d'éclairage et de pose. Dans un
travail futur, nous planifions de généraliser les conclusions de ce travail a d’autre challenge
de la reconnaissance de visage comme les modèles des images 3D acquises par des caméras
de profondeur et l’expression faciale ce qui permettra plus de précision pour indiquer l’état
émotionnel des individus.
88
Références bibliographiques
Référence bibliographies
[1]. A. Dantcheva, P. Elia, A. Ross, What else does your biometric data reveal? a survey on
soft biometrics. Information Forensics and Security, IEEE Transactions on 11 (2015):
441-467.
[2]. L. Best-Rowden, H. Han, C. Otto, B. F. Klare, A. K. Jain, Uncon-strained face
recognition: Identifying a person of interest from a media collection. Information
Forensics and Security, IEEE Transactions on 9 (2014): 2144-2157.
[3]. J. Orozco, O. Rudovic, J. Gonz_alez, M. Pantic, Hierarchical on-line appearance-based
tracking for 3d head pose. eyebrows, lips, eyelids and irises, Image and Vision Computing
32 (2014): 14-26.
[4]. H. Han, C. Otto, A. K. Jain, Age estimation from face images: Human vs. machine
performance, in: Biometrics (ICB). 2013 International Conference on, IEEE: 1-8, 2013.
[5]. J. E. Tapia, C. A. Perez, Gender classi_cation based on fusion of di_erent spatial scale
features selected by mutual information from histogram of lbp. intensity, and shape,
Information Forensics and Security, IEEE Transactions on 8 (2013) : 488-499.
[6]. Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hub-bard, L. D.
Jackel, Backpropagation applied to handwritten zip code recognition. Neural computation
1 (1989) : 541-551.
[7]. S. Ji, W. Xu, M. Yang, K. Yu, 3D convolutional neural networks for human action
recognition, TPAMI 35 (2013): 221-231.
[8]. D. Ciresan, U. Meier, J. Schmidhuber, Multi-column deep neural networks for image
classi_cation. in: CVPR, IEEE: 3642-3649, 2012.
[9]. Y. Taigman, M. Yang, M. Ranzato, L. Wolf, Deepface : Closing the gap to human-level
performance in face veri_cation. in: CVPR, IEEE: 1701-1708, 2014.
[10]. S. S. Farfade, M. Saberian, L.-J. Li, Multi-view face detection using deep convolutional
neural networks. arXiv preprint arXiv:1502.02766 (2015).
[11]. R. Rothe, R. Timofte, L. Van Gool, Dex: Deep expectation of apparent age from a single
image. in: ICCV Workshops: 10-15, 2015.
[12]. X. Liu, S. Li, M. Kan, J. Zhang, S. Wu, W. Liu, H. Han, S. Shan, X. Chen, Agenet: Deeply
learned regressor and classi_er for robust apparent age estimation. in: ICCV Workshops:.
16-24, 2015.
89
Références bibliographiques
[13]. Z. Kuang, C. Huang, W. Zhang, Deeply learned rich coding for cross dataset facial age
estimation, in: ICCV Workshops, 2015, pp. 96{101.26
[14]. K. Zhang, L. Tan, Z. Li, Y. Qiao, Gender and smile classi_cation using deep
convolutional neural networks, in: CVPR Workshops: 34-38, 2016.
[15]. G. Levi, T. Hassncer, Age and gender classi_cation using convolutional neural networks,
in: CVPR Workshops: 34-42, 2015.
[16]. [En ligne]. Available http://infoscience.over-blog.com/bioinformatique-56396352.html.
[Accès le 17 03 2020].
[17]. M. Chassé, La biométrie au Québec : Les enjeux. Commission d’accès à l’information au
Québec, Juillet 2002.
[18]. C.L. Tisse. " Contribution à la vérification biométrique de personnes par reconnaissance
de l’iris ". Thèse de doctorat, Université de Montpellier II, 28 octobre 2003.
[19]. A. Ouamane. " Reconnaissance Biométrique par Fusion Multimodale du Visage 2D et
3D". Thèse de doctorat en sciences en Electronique, Université de Mohamed Khider
Biskra, 11 Juin 2015.
[20]. A. Jain, L. Hong, S. Pankanti ET R. Bolle. "An Identity Authentication System Using
Fingerprints ". Proceedings of the IEEE ISSN 0018-9219, volume 85, Numéro 9. 1997.
[21]. F. Perronnin et J. Dugelay. " Introduction à la Biométrie Authentification des Individus
par Traitement Audio-Vidéo ". Revue Traitement du Signal, Volume 19, numéro 4, 2002.
[22]. S. G. Ababsa, Authentification d’individus par reconnaissance de caractéristiques
biométriques liées aux visages 2D/3D. Thèse de doctorat, Université Evry Val d'Essonne.
03 octobre 2008.
[23]. BENCHENNANE Ibtissam, Etude et mise au point d’un procédé biométrique
multimodale pour la reconnaissance des individus. Thèse de doctorat, Université des
Sciences et de la Technologie d’Oran Mohamed Boudiaf
[24]. Souhila Guerfi. Authentification d’individus par reconnaissance de caractéristiques
biométriques liées aux visages 2D/3D. Traitement du signal et de l’image [eess.SP].
Université d’Evry-Val d’Essonne, 2008. Français. tel-00623243
[25]. T. Kanade, Picture Processing by Computer Complex and Recognition of Human Faces.
these de doctorat université Kyoto , 1973.
[26]. V. Perlibakas, Face recognition using principal component analysis and log-gabor filters.
arXiv preprint cs/0605025 , 2006
[27]. S. G. ABABSA, «Authentification d’individus par reconnaissance de caractéristiques
biométriques liées aux visages 2D/3D,» Université d’evry val d’Essonne, France, 2008.
90
Références bibliographiques
91
Références bibliographiques
[44]. A.Mellakh, Reconnaissance des visages en conditions dégradées, l'Institut National des
Télécommunications de l'université d'Evry-Val d’Essonne, Avril 2009.
[45]. H. Abdi, L.J. Williams .Principal component analysis; Wiley Interdisciplinary Reviews:
Computational Statistics, pp 433-459, 2010.
[46]. [en ligne].available : http://en.wikipedia.org/wiki/Linear_discriminant_analysis. [Accès
le 16 04 2020].
[47]. K. Kyungnam, Face Recognition using Principle Component Analysis, Computer Vision
and Pattern Recognition, University of Maryland, USA, 1996.
[48]. M.Kirby and L. Sirovich. Application of the karhunen-loeve procedure for the
characterization of human faces. IEEE Transactions on Pattern Analysisand Machine
Intelligence, PAMI-12(1) :103–108, January 1990.
[49]. M. Martínez and A. C. Kak. PCA versus LDA. IEEE Transactions on Pattern Analysis
and Machine Intelligence, Vol (2), pp228–233, 2001.
[50]. B.Scholkopf, A. Smola, and KR Muller. Nonlinear component analysis as a kernel
eigenvalue problem. Technical Report No 44, December 1996.
[51]. J. Lu, K. N. Plataniotis, and A.N. Venetsanopoulos, Face Recognition Using LDA-
Based Algorithms, IEEE TRANSACTIONS ON NEURAL NETWORKS, VOL. 14, NO.
1, 2003.
[52]. Ravi Ranjan, Data Visualization and Dimensionality Reduction using t-SNE June 20
2019
[53]. Geoffrey Hinton " Visualizing Data using t-SNE " University of Toronto Department of
Computer Science
[54]. H. Yu and J. Yang. A direct lda algorithm for high-dimensional data - with application to
face recognition. Pattern Recognition, 34(10) :2067 2070, 2001.
[55]. C. Touzet, «Les réseaux de neurones artificiels, introduction au connexionnisme,»
cours,exercices et travaux pratiques, Collection de l’EERIE, 1992.
[56]. Youcef Djeriri " Les Réseaux de Neurones Artificiels " September 2017
[57]. J. Lu, K.N. Plataniotis, and A.N. Venetsanopoulos. Regularization studies of linear
discriminant analysis in small sample size scenarios with application to face recognition.
PRL, 26(2) :181191, January 2005.
[58]. S. Mika, G. Ratsch, J. Weston, B. Scholkopf, and K.R. Mullers. Fisher discriminant
analysis with kernels. Neural Networks for Signal Processing IX, Proceedings of the
IEEE Signal Processing Society Workshop, pages 41-48, Aug 1999.
92
Références bibliographiques
[59]. S. Mika, G. Rätsch, J. Weston, B. Schölkopf, A. Smola, and K.R. Müller. Invariant feature
extraction and classication in kernel spaces, 2000.
[60]. K. Delac, M. Grgic, S. Grgic, "Independent Comparative Study of PCA, ICA, and LDA
on the FERET Data Set", Technical Report, University of Zagreb, FER, 2004.
[61]. Azarmehr, R., Laganiere, R., Lee, W-S., Xu, C., Laroche, D. (2015). Real-time Embedded
Age and Gender Classification in Unconstrained Video. Conference of IEEE Computer
Vision and Pattern Recognition workshop, 56-64.
[62]. Edwards, G. J.; Taylor, C. J.; Cootes, T. F. (1998). "Interpreting face images using active
appearance models". Proceedings Third IEEE International Conference on Automatic
Face and Gesture Recognition. P . 300
[63]. Cootes, T. F.; Edwards, G. J.; Taylor, C. J. (1998). "Active appearance
models". Computer Vision — ECCV'98. Lecture Notes in Computer Science. 1407.
p. 484. CiteSeerX 10.1.1.374.7954. doi:10.1007/BFb0054760. ISBN 978-3-540-64613-
6.
[64]. Cootes, T. F.; Edwards, G. J.; Taylor, C. J. (2001). "Active appearance models". IEEE
Transactions on Pattern Analysis and Machine Intelligence. 23 (6):
681. CiteSeerX 10.1.1.128.4967. doi:10.1109/34.927467.
[65]. Bukar, A.M., Ugail, H., Connah, D. (2016). Automatic age and gender classification
using supervised appearance model. Journal of Electronic Imaging, 25(6): 061605-
061605.
[66]. [En ligne]. Available : https://fr.talend.com/resources/ai-vs-machine-learning-vs-deep-
learning/. [Accès le 28 02 2020].
[67]. [En ligne]. Available : https://www.centralesupelec.fr/fr/lancement-dun-nouveau-mooc-
dedie-au-machine-learning-avec-openclassrooms. [Accès le 29 02 2020].
[68]. F. Daoud, F. Louali «La reconnaissance des caractères arabes manuscrits par les réseaux
des neurones convolutifs» Mémoire de master, Université Saad Dahlab, Blida-2018
[69]. F. Nacer «Reconnaissance d’expression faciale à partir d’un visage réel» Mémoire de
master, Université de 8/Mai/19450, Guelma- 2019
[70]. P. Cornioley «Intégration d’un module d’apprentissage profond dans l’architecture
logicielle d’un SIG Web» Mémoire de magister, Université Sherbrooke, Mai 2018
[71]. Dj. Y. Moualek «Deep Learning pour la classification des images» Mémoire de master,
Université Abou Bakr Belkaid, Tlemcen-2017
[72]. [En ligne]. Available : https://mc.ai/machine-learning-vs-deep-learning-5/. [Accès le 29
02 2020].
93
Références bibliographiques
94
Références bibliographiques
95
Résumé
Abstract
Nowadays, the systems of recognition of forms constantly arouse the interest of the
scientific community. In this context, biometrics presents itself as a potentially powerful
and rapidly expanding core technology that is becoming widespread in a large number of
current life applications and scientific research.
The work presented in this brief consists in the study and realization of a system of facial
recognition and classification of gender and age, based on the networks of the convulsive
neuron (CNN), followed by a step of visualization and grouping (clustering) of the data
(facial images) using dimensional reduction techniques. The experimental results obtained
show the effectiveness of our proposed system with good performance in terms of data
recognition and representation.
ملخص
تقدم،وفي هذا السياق. تثير أنظمة االعتراف باألشكال اهتمام األوساط العلمية باستمرار،في الوقت الحاضر
والتي أصبحت منتشرة على نطاق واسع في،المقاييس الحيوية نفسها باعتبارها تكنولوجيا أساسية قوية وسريعة التوسع
.عدد كبير من تطبيقات الحياة الحالية والبحوث العلمية
ً استنادا،يتألف العمل المقدم في هذا الموجز من دراسة وإدراك نظام التعرف على الوجه وتصنيف الجنس والعمر
) ثم خطوة في التصور والتجميع (تجميع) للبيانات (صور الوجه، (CNN)إلى شبكات الخلية العصبية االختالجة
وتبين النتائج التجريبية التي تم الحصول عليها مدى فعالية نظامنا المقترح مع األداء الجيد. استخدام تقنيات تقليل األبعاد
.من حيث التعرف على البيانات وتمثيلها