These Bohi
These Bohi
These Bohi
THÈSE
présentée par :
Amine BOHI
soutenue le : 22 mai 2017
JURY :
1
Thesis title: Fourier descriptors inspired by the
structure of the human primary visual cortex
Application to vessels recognition in the framework of maritime
surveillance.
Abstract
In this thesis, we develop a supervised object recognition method using new global image
descriptors inspired by the model of the human primary visual cortex V1. Mathematically
speaking, the latter is modeled as the semi-discrete roto-translation group
(semi-direct product between and . Therefore, our technique is based on
generalized and rotational Fourier descriptors defined in , and which are invariant
to natural geometric transformations (translations, and rotations). Furthermore, we show
that such Fourier descriptors are weakly complete, in the sense that they allow to distinguish
over an open and dense set of compactly supported functions in , hence
between real-world images. These descriptors are later used in order to feed a Support
Vector Machine (SVM) classifier for object recognition purposes. We have conducted a series
of experiments aiming both at evaluating and comparing the performances of our method
against existing both local - and global - descriptor based state of the art techniques, using
the RL, the CVL, and the ORL face databases, and the COIL-100 image database (containing
various types of objects). The obtained results have demonstrated that our approach was
able to compete with many existing state of the art object recognition techniques, and to
outperform many others. These results have also shown that our method is robust to noise.
Finally, we have applied the proposed method on vessels recognition in the framework of
maritime surveillance.
2
Résumé
Dans cette thèse, nous développons une approche supervisée de reconnaissance d’objets
basée sur l’utilisation de nouveaux descripteurs d’images globaux inspirés du modèle du
cortex visuel humain primaire V1 en tant que groupe de roto-translations semi-
discrètes (produit semi-direct entre et . La méthode proposée
est basée sur des descripteurs de Fourier généralisés et rotationnels définis sur le
groupe , qui sont invariants aux transformations géométriques (translations, et
rotations). De plus, nous montrons que ces descripteur de Fourier sont faiblement complets,
dans le sens qu’ils permettent de discriminer sur un ensemble ouvert et dense
de fonctions à support compact, donc distinguer entre des images réelles. Ces descripteurs
sont ensuite utilisés pour alimenter un classifieur de type SVM dans le cadre de la
reconnaissance d’objets. Nous avons mené une séries d’expérimentations dans le but
d’évaluer notre méthode sur les bases de visages RL, CVL et ORL et sur la base d’images
d’objets variés COIL-100, et de comparer ses performances à celles des méthodes basées sur
des descripteurs globaux et locaux. Les résultats obtenus ont montré que notre approche est
en mesure de concurrencer de nombreuses techniques de reconnaissance d’objets
existantes et de surpasser de nombreuse autres. Ces résultats ont également montré que
notre méthode est robuste aux bruits. Enfin, nous avons employé la technique proposée
pour reconnaître des navires dans un contexte de surveillance maritime.
3
Remerciements
Une thèse est un effort collectif et il est utopique de croire qu’un thésard solitaire
puisse s’épanouir et réaliser un travail original.
Cet ouvrage est tout d’abord le fruit d’une collaboration entre le Laboratoire des
Sciences de l’Information et des Systèmes (LSIS) de l’Université de Toulon et l’entreprise
Opéra Ergonomie.
Je tiens donc à exprimer ma profonde gratitude et mon profond respect ainsi que
mes vifs remerciements à mes directeurs de thèse : Frédéric BOUCHARA et Jean-Paul
GAUTHIER, ainsi qu’à mes tuteurs au sein d’Opéra Ergonomie, pour leur patience, leurs
explications et leurs critiques toujours éclairées. J’ai tout particulièrement apprécié
l’autonomie qu’ils m’ont accordée dans les choix et les orientations de mon travail. J’adresse
également mes remerciements à Vincente GUIS et Dario PRANDI pour leurs précieux conseils
qui m’ont grandement aidé dans mes travaux, ainsi que leur disponibilité et leur gentillesse
en toute circonstance. Je veux aussi témoigner de ma gratitude à mes collègues Ikhlef
BECHAR, Kheireddine AZIZ et à mon ami Badr BOUKKOURI, pour avoir partagé avec et dans
la bonne humeur de nombreux problèmes, soucis administratifs et autres situations
inextricables. Je remercie également toute l’équipe Signal/Image du Laboratoire LSIS avec
qui j’ai eu le plaisir à travailler.
J’adresse évidemment un grand merci aux doctorants du laboratoire qui ont croisé
ma route, qu’ils m’aient précédé ou suivi : Omar CHERRAK, Rémy ANDRE, Diogon SYLLA,
Victor MURANDI, Cécile PESCHOUD, Vincent MARIÉ, Emilien ROYER, Vincent MARTIN, ainsi
qu’à tous les étudiants ou stagiaires que j’ai côtoyés qui sont tous révélés être des collègues
très sympathiques.
Je remercie enfin l’ensemble des membres du jury pour l’intérêt qu’ils ont porté à
mes travaux.
4
Sommaire
Abstract ................................................................................................................................................... 2
Résumé .................................................................................................................................................... 3
Remerciements ....................................................................................................................................... 4
Liste des figures ....................................................................................................................................... 8
Liste des Tableaux ................................................................................................................................. 10
Chapitre 1 : Introduction générale ........................................................................................................ 12
1. Contexte .................................................................................................................................... 12
2. Contributions ............................................................................................................................. 12
3. Organisation du manuscrit ........................................................................................................ 13
Chapitre 2 : Descripteurs d’images ....................................................................................................... 15
1. Introduction ............................................................................................................................... 15
2. Descripteurs locaux ................................................................................................................... 16
2.1. Haar ................................................................................................................................... 16
2.2. SIFT .................................................................................................................................... 20
2.3. RIFT .................................................................................................................................... 27
2.4. DSIFT (SIFT denses) ............................................................................................................ 29
2.5. SURF................................................................................................................................... 30
2.6. GLOH.................................................................................................................................. 32
2.7. DAISY ................................................................................................................................. 34
2.8. MOPS ................................................................................................................................. 36
2.9. Shape Context ................................................................................................................... 36
2.10. Histogrammes de gradients orientés ............................................................................ 39
2.11. Descripteurs binaires ..................................................................................................... 44
3. Descripteurs globaux ................................................................................................................. 48
3.1. Filtres de Gabor ................................................................................................................. 48
3.2. GIST .................................................................................................................................... 56
3.3. Les moments géométriques .............................................................................................. 58
3.4. Les moments orthogonaux ................................................................................................ 59
3.5. Les descripteurs de Fourier ............................................................................................... 61
4. Conclusion ................................................................................................................................. 68
Chapitre 3 : Descripteurs de Fourier généralisés et rotationnels ......................................................... 70
1. Introduction ............................................................................................................................... 70
5
2. Préliminaires .............................................................................................................................. 70
2.1. Analyse harmonique sur les groupes abéliens localement compacts .............................. 71
2.2. La transformée de Fourier sur les groupes non-commutatifs localement compacts ....... 72
2.3. Contexte de notre travail .................................................................................................. 74
2.4. Fonctions faiblement cycliques ......................................................................................... 77
3. Descripteurs de Fourier dans les groupes ................................................................................. 78
3.1. Invariants spectraux et bi-spectraux ................................................................................. 78
3.2. Invariants spectraux et bi-spectraux sur les groupes abéliens localement compacts ...... 80
3.3. Invariants spectraux et bi-spectraux sur ........................................................... 81
4. Descripteurs de Fourier basés sur la structure du cortex visuel primaire humain V1 .............. 83
4.1. Présentation du pipeline naturel pour la reconnaissance d’objets .................................. 83
4.2. Présentation du modèle mathématique du cortex visuel primaire V1 ............................. 86
4.3. La non-applicabilité du théorème de la complétude dans ................................ 87
4.4. Les invariants spectraux et bi-spectraux rotationnels et leur complétudes dans
88
5. Le calcul pratique des descripteurs de Fourier ......................................................................... 92
6. Conclusion ................................................................................................................................. 93
Chapitre 4 : Résultats et expérimentations ........................................................................................... 96
1. Introduction ............................................................................................................................... 96
2. Evaluation des descripteurs de Fourier ..................................................................................... 97
2.1. Les bases d’images utilisées .............................................................................................. 97
2.2. Extraction des descripteurs ............................................................................................. 102
2.3. Expérimentations ............................................................................................................ 104
3. Application à la surveillance maritime .................................................................................... 114
3.1. Navires subissant des rotations 2D ................................................................................. 114
3.2. Navires sous différents angles de vue ............................................................................. 115
4. Conclusion ............................................................................................................................... 117
Chapitre 5 : Conclusion et perspectives .............................................................................................. 119
1. Conclusion ............................................................................................................................... 119
2. Perspectives............................................................................................................................. 120
Annexes ............................................................................................................................................... 123
A. Décomposition du produit tensoriel des représentations ...................................................... 123
B. Lemmes auxiliaires pour la démonstration du théorème 3.3.1 .............................................. 124
C. Machines à vecteurs de support (SVM) .................................................................................. 128
6
Bibliographie........................................................................................................................................ 131
Publications dans le cadre de la thèse ................................................................................................ 139
7
Liste des figures
8
Figure 32 : Transformation de Gabor (a) en module (b) en phase........................................................ 50
Figure 33 : QBC de phase de Gabor [91] ............................................................................................... 52
Figure 34 : Patterns GGPP (a) partie réelle (b) partie imaginaire [91] .................................................. 53
Figure 35 : Illustration de l’opérateur LXP [91] ..................................................................................... 54
Figure 36 : Patterns LGPP (a) partie réelle (b) partie imaginaire [91] ................................................... 54
Figure 37 : (a) sous-régions de LGPP (b) diagramme général de HGPP [91]............................... 56
Figure 38 : Principe du descripteur GIST [58] ........................................................................................ 57
Figure 39 : Les polynômes de Zernike au 5 premiers ordres ................................................................ 60
Figure 40 : Reconstruction des formes de quatre images de papillons en fonction du nombre de
descripteurs invariants utilisés pour la reconstruction (TFMA) [33] ..................................................... 62
Figure 41 : (a) l'image originale dans l'espace polaire; (b) l'image polaire de (a) dans tracée dans
l'espace cartésien [92] ........................................................................................................................... 64
Figure 42 : (a) un motif et son spectre de Fourier; (b) le motif pivoté de (a) et son spectre de Fourier;
(c) l'image polaire de (a) et son spectre de Fourier; (d) l'image polaire de (b) et son spectre de Fourier
[92] ........................................................................................................................................................ 65
Figure 43: Rotation de la tranche de camembert par ................................................ 76
Figure 44 : Log du Power Spectrum d'une image synthétique et sa version pivotée ........................... 79
Figure 45 : Pipeline naturel pour la reconnaissance d'objets ............................................................... 85
Figure 46 : Base des images synthétiques ............................................................................................. 97
Figure 47: Extrait de la base RL ............................................................................................................. 98
Figure 48: Extrait de la base CVL ........................................................................................................... 99
Figure 49: Trois expressions faciales extraites de la base CVL .............................................................. 99
Figure 50 : Base de visages ORL ............................................................................................................ 99
Figure 51 : Exemples de visages enregistrés sous des vues différentes ............................................. 100
Figure 52: Base de visages Sheffield.................................................................................................... 100
Figure 53: Base de visages Extended Yale B ........................................................................................ 101
Figure 54 : Les 100 objets de COIL-100 ............................................................................................... 101
Figure 55 : Exemples d'objets vus sous des angles différents ............................................................. 102
Figure 56 : Etapes de calcul des descripteurs de Fourier .................................................................... 103
Figure 57: Test sur la base d'images synthétiques .............................................................................. 106
Figure 58 : Exemple d'images bruitées pour un objet de la base COIL-100 ........................................ 112
Figure 59: Taux de reconnaissance pour différentes tailles de la base d'apprentissage .................... 113
Figure 60: Exemples de bateaux qui ont subit des rotations 2D......................................................... 114
Figure 61: Exemples de bateaux qui ont subit des transformations générales .................................. 116
Figure 62: Principe de l'architecture hexagonale en spiral ................................................................. 121
9
Liste des Tableaux
10
11
Chapitre 1 : Introduction générale
1. Contexte
La tâche de description d’images est primordiale dans la plupart des applications en vision
par ordinateur. Il s’agit entre autres de : la reconnaissance d’objets [44, 6, 74], la recherche
d’images [46, 67], la reconnaissance de texture [42], la mise en correspondance d’images
[82, 65].
Cette thèse est une contribution dans le domaine de la reconnaissance d’objets dans les
images couleurs. Ici nous adoptons l’approche classique qui repose sur l’utilisation d’une
méthode de classification supervisée prenant en entrée des vecteurs descripteurs d’images
issues des bases de données considérées.
Un descripteur d’images efficace doit discriminer différents types d’images qui ont subit
différentes transformations géométriques (rotations, translations, changement d’échelle) et
qui sont soumises à des altérations complexes (ajout de bruit, changement de luminosité,
occlusions...).
2. Contributions
Les travaux réalisés au cours de cette thèse s’articulent autour d’un axe principal de
recherche ayant pour but de proposer une nouvelle solution de reconnaissance automatique
d’objets basée sur des descripteurs de Fourier.
12
structure du cortex visuel primaire humain V1 qui est modélisé mathématiquement par un
groupe de roto-translations semi-discrètes . Dans ce modèle, les
stimuli corticaux sont des fonctions dans l’espace des fonctions de carré
intégrable, par rapport à la mesure de Haar de , et les images provenant du plan
visuel sont relevées à des stimuli corticaux par l’intermédiaire d’une opération de
relèvement injectif et invariant à gauche .
Enfin, la deuxième contribution dans cette thèse sera l’association de ces descripteurs de
Fourier à un classifieur pour résoudre le problème de reconnaissances de navires, dans le
cadre de la surveillance maritime.
3. Organisation du manuscrit
Cette thèse comprend trois chapitres, les deux premiers introduisent des notions théoriques,
le dernier les valident par des tests et des expérimentations.
Nous commençons dans le premier chapitre par un état de l’art des descripteurs d’images
locaux et globaux utilisés pour la reconnaissance d’objet, domaine dans lequel la notion de
l’invariance aux transformations géométriques, la robustesse aux bruits, aux changements
de luminosité, et aux occlusions, est centrale.
13
Le troisième, et dernier chapitre, a pour objectif d’évaluer les performances de notre
ensemble de descripteurs de Fourier, dans un contexte de reconnaissance d’objets. A cette
fin, nous proposons d’utiliser une structure classique basée sur un descripteur et un
classifieur, et nous menons une série de tests et d’expérimentations sur des bases d’images
différentes afin de comparer notre ensemble de descripteurs de Fourier aux principaux de la
littérature, tel que les descripteurs locaux SIFT et les histogrammes de gradients orientés, et
les descripteurs globaux représentés par les moments de Zernike et de Hu, et les invariants
de Fourier-Mellin. Enfin, nous évaluons ces descripteurs de Fourier pour une problématique
de reconnaissance de navires dans un contexte de surveillance maritime.
14
Chapitre 2 : Descripteurs d’images
1. Introduction
La description de l’image est souvent l’étape principale, pour plusieurs applications de
traitement d’images. Celles-ci incluent, par exemple, le suivi par vidéo [81, 28, 52], la
localisation et cartographie pour robots mobiles [77, 78], et la reconnaissance d’objet [44,
6].
La raison principale derrière cette étape de description d’image est de fournir une
représentation de l’image, compacte, distinctive et invariante (robuste) aux transformations
géométriques et aux altérations simples et complexes.
Dans ce but, de nombreux algorithmes d’extraction de descripteurs ont été proposés dans la
littérature de traitement d’images, et qui peuvent être classés en deux grandes catégories,
approches locales et globales :
Locale : basée sur des méthodes locales, l’image est représentée par un ensemble de
descripteurs locaux qui encodent les propriétés (e.g, distribution, variation, …) des
informations collectées au voisinage du point caractéristique considéré. Cette
catégorie comprend plusieurs types de descripteurs, on peut citer:
- Ceux basés sur le calcul des orientations du gradient comme SIFT [45], DSIFT [11],
RIFT [42], GLOH [47], DAISY [79], MOPS [14] et HOG [17].
- Ceux basés sur l’utilisation de l’image intégrale comme les caractéristiques de
Haar [84] et les descripteurs SURF [4] (basés sur le même principe que SIFT).
- Autres types de descripteurs locaux comme le Shape Context [5] utilisé pour la
description de la forme et les descripteurs binaires LBP [53] et Centrist [90] (basé
sur la Census Transform).
Globale : pour les méthodes globales, une image est représentée par un unique
descripteur (vecteur), qui encode les propriétés (e.g, distribution, variation, …) des
informations disponibles sur l’ensemble de l’image. Cette catégorie comprend :
15
- Les descripteurs basés sur les filtres de Gabor comme GIST [55] et HGPP [91]
(Histogrammes de Gabor Phase Patterns) qui encodent les informations de phase
de Gabor.
- Les descripteurs basés sur les moments géométriques (Hu) [39] et orthogonaux
(Zernike) [76].
- Les descripteurs exploitant les propriétés de la transformée de Fourier comme les
descripteurs de Fourier-Mellin (FMT) [68, 21], Fourier génériques [92] et Fourier
généralisés [74].
Pour contourner ces problèmes, plusieurs techniques ont été suggérées. Nous les
présenterons en détails dans les deux sections suivantes.
2. Descripteurs locaux
2.1. Haar
16
Où représente l’intensité dans l’image.
Ces descripteurs sont calculés dans une fenêtre glissante de taille fixe (par exemple 24x24
pixels). Généralement, on trouve 3 sortes de descripteurs de Haar: à 2 rectangles, à 3
rectangles et à 4 rectangles (Figure 2). Les descripteurs à 2 rectangles sont utilisés
horizontalement et verticalement (Figure 2: A et B). Les zones blanches ont des poids positifs
et celles noires ont des poids négatifs.
17
Figure 2 : Descripteurs de Haar dans une fenêtre de taille fixe: à 2, 3 et 4 rectangles [84]
Un descripteur de Haar est caractérisé par les paramètres suivants: le nombre de rectangles
utilisées par filtre, la position de chaque filtre dans la fenêtre (c’est le coin supérieur
gauche), la largeur w et la hauteur h de chaque filtre avec
, et enfin les poids positifs ou négatifs attribué à chaque filtre. Une description
complète d’un exemple de descripteur de Haar est donnée dans la Figure 3.
Figure 3 : Description complète d’un descripteur de Haar, H et W représentent la taille de la fenêtre [43]
Les descripteurs de Haar sont très simples à calculer mais très nombreux du fait du balayage
de toute l’image avec des fenêtres de taille et de position variable. Selon [84], pour une
fenêtre donnée de résolution 24x24 pixels, on peut définir environ 160 000 détecteurs
possibles dans cette fenêtre.
18
L’opération de balayage de toute l'image par une sous-fenêtre de taille et de position
variable est trop coûteuse en temps. Pour contourner ce problème, Viola et Jones ont
introduit l’idée d’image intégrale afin d’optimiser le calcul.
Figure 5 : Image Intégrale (la valeur de l’image intégrale au point est égale à la somme de tous les pixels situés au-
dessus et à sa gauche [85]
19
La somme des valeurs des pixels dans le rectangle D (Figure 6) peut être calculée avec
seulement quatre références. La valeur de l’image intégrale à l’endroit 1 est la somme des
valeurs des pixels dans le rectangle A. la valeur à l’endroit 2 est , à l’endroit 3
est , et à l’endroit 4 est . La somme dans D peut donc être calculée
par : .
Grâce à cette représentation, une caractéristique à 2 rectangles peut donc être calculée en
seulement 6 accès à l’image intégrale, et donc en un temps constant quelle que soit la taille
de la caractéristique.
D’autre formes et orientations de descripteurs de Haar ont été proposées. Parmi ces travaux
les exploitant, on peut citer ceux de [43] pivoté à 45 degrés.
2.2. SIFT
20
Lowe propose une approche constituée de deux parties :
Cependant, c’est la première partie qui a assuré la popularité de la méthode de Lowe et elle
se déroule en quatre étapes principales :
Avec
La convolution de l’image originale par le filtre gaussien permet de lisser l’image de telle
sorte que les détails trop petits sont estompés. Par conséquent, la détection des extrema
dans l’espace des échelles s’effectue en utilisant la fonction Différence de Gaussiennes
(DOG) définie comme la différence de deux images filtrées par un noyau gaussien, séparées
par un facteur . La fonction DOG est définie comme suit :
21
Où est un paramètre multiplicatif fixe (généralement fixé à ) qui dépend de la finesse de
la discrétisation de l’espace des échelles voulue.
Afin d’optimiser le calcul des images floutées à un grand nombre d’échelles, Lowe utilise une
pyramide dont la base est l’image originale et chaque niveau (octave) est obtenu à partir du
niveau précédent en divisant la résolution de l’image par 2, c.à.d. doubler le facteur
d’échelle. Le nombre d’intervalles par octave est définit par (Figure 7).
Pour chaque octave de l’espace des échelles, l’image initiale est successivement convoluée
par une gaussienne pour produire les différentes images à échelle. La différence entre
images à échelle successive est calculée pour produire la DoG correspondante comme
montré à droite. Après chaque octave, l’image gaussienne est sous échantillonnée d’un
facteur 2, et le processus recommence.
22
type ), c’est-à-dire on a besoin d’un ensemble contenant 26 comparaisons défini
par :
Si la valeur du pixel est supérieure ou inférieure aux valeurs des pixels testés, on retient le
point.
23
Si est supérieur à un seuil égal à 0.5 dans l’une des trois dimensions, cela signifie que
l’extremum se trouve plus près d’un des points voisins dans l’espace des échelles. Dans ce
cas, on recommence cette interpolation autour du point voisin le plus proche. Sinon,
l’extremum est ajouté à la position du point candidat initial interpolé pour déterminer la
position exacte de l’extrema.
Pour rejeter les points-clé de faible contraste, il suffit d’évaluer la fonction à l’extrema .
En cette position on a :
Pour les points de faible contraste, la valeur absolue de la fonction est petite, il suffit
donc d’appliquer un seuillage pour les éliminer.
Finalement une analyse des rapports des valeurs propres de la matrice hessienne carrée
permet d’éliminer les points d’intérêt détectés sur des contours à faible courbure. Pour
rappel, la matrice hessienne (ou simplement la hessienne) d’une fonction numérique est la
matrice carée, noté , de ses dérivées partielles secondes de la gaussienne. Cette
matrice est définie par :
Si une des valeurs propres est très supérieure à l’autre, alors le point détecté est sur un
contour (Forte variation uniquement dans un sens), sinon il s’agit d’un coin (Forte variation
dans tous les sens).
Les points détectés sur un contour peuvent être filtrés facilement en analysant la trace et le
déterminant de la matrice hessienne . On peut écrire :
Avec . Ce ratio augmente quand augmente, on peut donc filtrer les points où ce ratio
24
2.2.4. Assignation d’orientation
L’étape suivante consiste à attribuer à chaque point-clé sélectionné une ou plusieurs
orientations déterminées localement sur l’image et qui correspondent à la direction
majoritaire des gradients spatiaux d’intensité calculés dans un voisinage autour du point
d’intérêt à l’échelle préalablement déterminée. Cette étape est primordiale pour garantir
l’invariance des descripteurs SIFT à la rotation.
Un histogramme est constitué à partir de l’orientation des gradients des points sur le
voisinage du point d’intérêt (Figure 9). L’histogramme est réalisé avec 36 bins (c.-à-d.
intervalles), couvrant chacun 10 degrés d’angle. L’histogramme est doublement pondéré :
d’une part, par une fenêtre gaussienne circulaire d’écart type de 1,5 fois l’échelle du point,
d’autre part, par l’amplitude du gradient de chaque point.
25
Figure 9 : Illustration de la construction de l'histogramme des orientations. A gauche : gradients des pixels définissant le
voisinage du point, au centre : histogrammes des orientations à 36 bins, à droite : extraction des orientations
dominantes
26
Figure 10 : Construction d'un descripteur SIFT à partir de gradients calculés dans une fenêtre 1
2.3. RIFT
RIFT (Rotation invariant Feature Transform) est un descripteur invariant par rotation dérivé
de SIFT, adapté aux images texturées pour lesquelles la notion d'orientation principale n'a
pas vraiment de sens. Le SIFT original a été noté pour sa performance supérieure dans
différentes applications, cependant, et d’après [42], il ne peut pas être utilisé directement
pour la représentation de la texture, car il dépend de trouver l’orientation dominante dans
un patch normalisé. Le descripteur RIFT est construit de la manière suivante : d’abord on
décompose l’image en patches normalisés dans lesquels on calcule un histogramme
d’orientations de gradient. La différence avec le SIFT est qu’on utilise là des patches divisés
en anneaux concentriques et que les orientations du gradient en un point sont calculées par
rapport à la direction du centre en ce point (Figure 11).
https://upload.wikimedia.org/wikipedia/commons/6/6b/SIFT_gradient_magnitude_and_orientation_computat
27
Figure 11 : Construction du descripteur RIFT [42]
Pour chaque région, on note la position centrale par , pour une position
aléatoire dans cette région, les gradients dans les directions horizontales et
perpendiculaires sont donnés par :
Lorsque l’image tourne, ne changera pas, d’où l’invariance à la rotation illustrée dans
la Figure 12.
28
Figure 12 : extraction de l'angle avec invariance à la rotation
Une fois que l’invariance à la rotation est obtenue pour chaque point de la région locale,
l’histogramme peut être facilement calculé. Le descripteur de caractéristiques RIFT est défini
comme , avec est la fenêtre gaussienne. Finalement, le
descripteur final RIFT est obtenu par :
Dans [42], les auteurs utilisent quatre anneaux et huit histogrammes d’orientations, ce qui
donne des descripteurs de taille 32.
29
2.5. SURF
Le descripteur SURF (Speeded Up Robust Features) a été introduit par Bay et al. dans [3, 4],
fortement influencé par les SIFT de Lowe, puisqu’il traduit la distribution des intensités dans
le voisinage du point d’intérêt. L’approche proposée par Bay utilise une approximation de la
matrice hessienne afin de détecter les structures de types « blobs ». Les blobs sont localisés
aux maxima du déterminant de la matrice hessienne (cf. Localisation précise des points
d’intérêt). L’originalité du descripteur SURF réside dans le fait d’utiliser la notion d’image
intégrale et de son calcul récurent [84] afin de diminuer fortement les temps de calculs car
elles permettent le calcul rapide des convolutions avec les approximations de type « box-
filters » (cf. Image intégrale).
point .
Pour pouvoir tirer parti des images intégrales, Bay et al. Proposent d’approximer les valeurs
de la matrice hessienne par des filtres rectangulaires (box-filters) (Figure 13), ce qui permet
de réduire le temps de calcul. Typiquement, on peut distinguer des filtres de tailles
, etc.
30
Figure 13 : Opérateurs de dérivation d’ordre 2 discrétisés et dérivées d’ordre 2 de la gaussienne [3]
Les nouvelles valeurs de la matrice Hessienne après approximation par les filtres
correspondent à la somme des termes sur le voisinage des points , et sont ensuite utilisées
pour normaliser le déterminant de la hessienne. L’approximation de ce dernier est stockée
dans des structures de données appelées « blob response map » (Figure 14), puis les maxima
locaux sont recherchés sur ces blob pour déterminer les coordonnées et la taille des
meilleurs points d’intérêt.
Le descripteur SURF est invariant aux changements d’échelle et à la rotation. Comme pour le
SIFT de Lowe, l’échelle de détection permet de définir la taille de la fenêtre du descripteur
ainsi que la taille du box-filter utilisé. Dans la région de calcul du descripteur, les
réponses aux filtres dans les directions et sont calculées et pondérées par une fonction
gaussienne d’écart-type (Figure 15). Comme dans la construction du descripteur SIFT,
31
Pour chaque pixel du voisinage, un vecteur d’orientation est calculé et l’orientation
maximale est considérée comme étant l’orientation dominante. Ainsi la fenêtre de calcul est
orientée dans la direction de l’orientation dominante et subdivisée en sous-fenêtres de
taille . Pour chacune des ces sous-fenêtres, on calcule les quatre valeurs suivantes :
où et sont les réponses du filtre de Haar de premier ordre
(box-filter) dans les directions et respectivement (Figure 15).
Finalement, le vecteur descripteur SURF est obtenu par concaténation de ces quatre valeurs
pour chacune des sous-fenêtres considérées. Une dernière étape de normalisation du
vecteur est nécessaire afin d’assurer l’invariance au contraste.
Figure 15 : La structure du descripteur SURF. A droite : les ondelettes de Haar. A gauche : calcul de l’orientation
dominante [4]
2.6. GLOH
L’opérateur GLOH (Gradient Location and Orientation Histogram) [47] est une extension du
descripteur SIFT destiné à accroître sa robustesse et sa spécificité. Il s’applique sur des
régions concentriques à la place des grilles de patterns utilisées dans le SIFT de Lowe. Il se
génère de la manière suivante : pour l’opérateur original SIFT, les positions sont établies
avec trois rayons du petit au grand dans la direction radiale, sur la base des coordonnées
polaires logarithmiques ( ), et huit orientations angulaires : l’espace des
coordonnées polaires est défini par qui représente respectivement le rayon,
l’orientation polaire et l’orientation du gradient du pixel.
32
Figure 16 : (à gauche) la structure de la fenêtre de calcul du SIFT, (à droite) la structure de la fenêtre du calcul du GLOH
[36]
La différence avec le descripteur SIFT réside dans la structure spatiale de la fenêtre de calcul
du descripteur (Figure 16). Celle-ci est représentée par une grille polaire de 17 sous-régions
(une région circulaire centrale et sous-régions à des intervalles de sur deux régions
circulaires centrées sur le point d’intérêt). À noter que la région centrale ne se divise pas
dans les directions angulaires. Les orientations du gradient sont quantifiées sur 16 sous-
régions. En chacune des sous-régions, un histogramme de gradients orientés est construit
suivant seize bins (intervalles de ). L’histogramme final est donc constitué de
33
2.7. DAISY
Le descripteur DAISY proposé par Tola et al. en 2008 et repris ensuite en 2010 [79, 80] est
proche des descripteurs SIFT et GLOH. Il a été introduit pour accélérer les temps de calculs et
d’améliorer l’invariance. Selon les auteurs, il est 66 fois plus rapide que le SIFT. La différence
essentielle réside dans la forme de la région dans laquelle est calculé le descripteur et dans
l’utilisation des filtres de dérivées gaussiennes orientées à la place des gradients exploités
dans les méthodes précédemment citées. Étant donné une image et une orientation , les
auteurs proposent de créer huit orientations définies par :
Le terme correspond à l’ensemble des gradients d’une orientation donnée, ayant une
norme positive. L’image est convertie en une série de maps d’orientations (une dans
chaque direction).
Tola et al. présentent un masque d’analyse ayant une structure constituée de 25 cercles se
chevauchant et centrée sur le point d’intérêt (Figure 18) : les rayons des cercles augmentent
proportionnellement à leurs distance par rapport au centre du descripteur, à savoir le pixel
pour lequel le descripteur est calculé, et la puissance du lissage gaussien est proportionnelle
aux rayons des cercles. Pour chaque région circulaire, un histogramme d’orientation est
calculé à partir de toutes les valeurs de suivant une orientation particulière , il est
défini en une position par :
Ces histogrammes sont calculés et normalisé selon les mêmes principes de SIFT et GLOH afin
d’accroître l’invariance aux changements de luminosité. Ils sont notés par .
34
Figure 18 : La structure du masque d’analyse du descripteur DAISY [80]
Une fois que ces calculs sont faits, le vecteur descripteur final est construit par la
concaténation de tous les histogrammes d’orientation de la région considérée, et se
compose donc de vingt-cinq histogrammes (un par cercle) possédant chacun huit
orientations. Il peut être écrit de la manière suivante :
35
2.8. MOPS
Comme le SIFT de Lowe, les motifs orientés multi-échelles (en anglais multi-scale oriented
patches) [14] utilisent les gradients du voisinage du point d’intérêt pour extraire une
orientation dominante. Les MOPS sont construit en utilisant un échantillonnage des valeurs
d’intensité par le biais de patchs de taille pixels calculés dans un voisinage de rayon 4.5
fois l’échelle de détection du point d’intérêt, avec un échantillonnage d’espacement 5 pixels
entre chaque pixel retenu (Figure 19). Cet échantillonnage basse-fréquence donne au
descripteur une certaine robustesse aux erreurs (bruit) de localisation des points d’intérêt.
En conséquence, un vecteur de dimensions est obtenu et normalisé. Finalement, une
transformée en ondelettes de Haar est appliquée à ce vecteur pour former un vecteur
descripteur contenant les coefficients des ondelettes. Ce descripteur est invariant aux
faibles changements d’intensité.
36
moyen d’un histogramme de coordonnées relatives des points de contour par rapport à ces
points qu’on appelle les points de référence.
Une forme est décrite par un sous-ensemble discret de points de contours externes et
internes. Supposons que , est l’ensemble des points de contours
détectés sur l’image, avec est le nombre de points de contour :
Avec :
37
Les auteurs utilisent des bins (ou régions) qui sont uniformes dans l’espace log-polaire,
rendant le descripteur plus sensible aux points les plus proches qu’aux ceux les plus loin.
Une comparaison entre les descripteurs SC de deux versions différentes de la lettre « A » est
montrée dans la Figure 21.
Figure 21 : Comparaison des contextes de forme de deux versions différentes de la lettre "A". (a) et (b) correspondent
aux points des contours des deux formes. (c) est le diagramme d’histogramme log-polaire utilisé pour calculer le shape
context. Belongie et al. utilisent 5 bins pour et 12 pour . (d-f) les contextes de forme pour les points de référence
marqués respectivement dans (a) et (b) par un cercle, un triangle et un rectangle. (g) les correspondances trouvées [5]
38
Puisque les contextes de forme sont des distributions représentées sous forme
d’histogrammes, il est donc naturel d’utiliser le test statistique :
Pour que le contexte de forme soit aussi invariant à a rotation, les auteurs ont proposé
d’utiliser le vecteur tangent associé à chaque point au lieu de l’axe absolu horizontal. Dans
chaque région ou bin , les vecteurs tangents à chacun des points de contour
appartenant à la grille sont calculés. L’orientation est donnée par la somme sur chaque bin :
, où
39
Vote pondéré extraction des
normalisation
calcul des dans les Normalisation HOGs dans
Gamma & SVM linéaire
gradients cellules de contraste des fenêtres
Couleur
d'orientation de détéction
Image de Personne/
test non-personne
classification
Figure 22 : Chaîne d'extraction des descripteurs HoG et de détection d’objet proposé par Dalal et Triggs dans [17]
Dans le cas des images couleurs, le gradient est calculé séparément pour chaque canal, le
gradient ayant la norme la plus grande est gardé.
Une opération de lissage gaussien 2-D est souhaitable afin de réduire le bruit et de limiter le
nombre de contours. Différents filtres dérivatifs ont été testés par Dalal et Triggs:
40
o Filtre dérivatif 1-D ajusté cubiquement :
o Filtre de Sobel :
o Filtre diagonale : et
Et
En chaque point, les approximations horizontales et verticales sont combinées pour obtenir
une approximation de la norme du gradient (voir Figure 23.d) :
41
Figure 23 : (a) image d'un piéton en niveau de gris normalisée, (b) composante horizontale du gradient, (c) composante
verticale du gradient, (d) la norme de gradient [18]
Figure 24 : Construction du HoG d'une image: (a) découpage en blocs et formation de l'histogramme des blocs adjecents,
(b) vote d'un pixel selon l'orientation de ses gradients
42
L’étape suivante est la normalisation des histogrammes, afin d’éviter les disparités dues aux
variations d’illumination, ainsi que l’introduction de redondance dans le descripteur. Pour
cela, les histogrammes de blocs adjacents sont concaténés pour former un vecteur qui est
ensuite normalisé.
Le descripteur HOG final est obtenu en répétant l’opération sur tous les blocs adjacents
possibles.
o L2-Norme :
o L1-Norme :
o L1-Racine :
Différents types de masques dérivatifs ont été testé dans [17], permettant de différencier
deux types d’architectures : les R-HOG (Rectangular-HOG) calculés avec des fenêtres
rectangulaires, et les C-HOG (Circular-HOG) calculés avec des fenêtres circulaires. Les
différents descripteurs utilisant les HOG peuvent donc être classés dans l’une des deux
classes.
Ces dernière années, de nombreuses variantes par rapport aux HOG ont été proposés [57,
2]. Afin de choisir la meilleure version à implémenter, il est nécessaire de passer par une
étape de test pour régler les différents paramètres des HOG, généralement, le type du filtre
dérivatif et le nombre de bins de l’histogramme.
Ce descripteur est devenu l’un des plus performants en reconnaissance d’objet, par sa
capacité d’être applicable en temps réel, notamment à travers l’utilisation des images
intégrales introduites par Viola et Jones [84], l’idée est inspirée de la méthode proposée par
Porikli [61] qui calcule rapidement des histogrammes d’une région rectangulaire aléatoire,
nommée ‘Histogramme intégral’.
43
2.11. Descripteurs binaires
Avec est le nombre de pixels voisins équi-répartis sur le cercle de centre et de rayon .
Cet opérateur renvoie un mot binaire crée en comparant successivement l’intensité du pixel
central avec celles des pixels . Si la valeur du niveau de gris du pixel
central est supérieure ou égale à celle de son voisin, la valeur est mise à 1, sinon à 0.
2
Figure 25 : Les étapes de calcul du LBP
Généralement est fixé à huit, c.à.d. un voisinage de pixels. On obtient donc, dans le
cas d’une image en niveaux de gris, une matrice contenant des valeurs des LBP comprises
entre 0 et 255 pour chaque pixel. Finalement, un histogramme est calculé en se basant sur
ces valeurs pour former le descripteur LBP.
2
http://robinhsieh.com/?p=156
44
désignant le nombre de pixels voisins et suivant le rayon choisi. Dans le cas des grandes
bases de données, le paramétrage optimum devient très compliqué. En plus, l’application de
ce descripteur en temps réel est difficile si le nombre de pixels voisins considéré est
important.
Néanmoins, l’avantage du descripteur LBP est sa représentation binaire ayant une capacité
et une rapidité de traitement car il ne nécessite pas de gestion de nombres décimaux. De
plus, le stockage mémoire des informations, surtout dans le cas des grandes bases de
données.
2.11.2. CENTRIST
CENTRIST (CENsus TRansform hISTogram) est un descripteur visuel qui a été proposé par
Jianxin Wu et James Rehg [90] pour contourner le problème de la catégorisation de scènes
et de la reconnaissance de lieux. Les différentes étapes du calcul sont les suivantes:
- Extraction de contour (Figure 26). Cette étape peut-être réalisée à l’aide d’un
opérateur quelconque tel que le filtre de Sobel.
45
transformation chacun des pixels voisins se voit affecté la valeur « 0 » ou « 1 »
suivant le résultat « vrais » ou « faux » de la comparaison. Voici un exemple :
Les huit bits générés à partir des comparaisons des valeurs d’intensités peuvent être
mis ensemble dans un ordre quelconque (du gauche à droite, et du haut vers le bas).
La nouvelle valeur du pixel central est donnée par la conversion en base 10 de cette
suite de bits, cette valeur correspond à la Census Transform du pixel central.
En tant qu’approche visuelle, une image transformée par la CT est crée en
remplaçant la valeur du niveau de gris de chaque pixel par celle de sa CT (Figure 27).
Figure 27 : Exemple d'une image transformée par la Census Transform [89, 90]
46
Figure 28 : Histogrammes des sous-régions de la Census Transform [89, 90]
L’inconvénient de ce descripteur est qu’il n’est calculé que pour une seule échelle. De plus,
les auteurs utilisent le filtre de Sobel qui n’est pas le meilleur choix, car il existe d’autres
détecteurs de contours plus efficaces dans la littérature. Enfin, une autre limitation du
CENTRIST est que les valeurs de la CT des voisinages sont fortement corrélées. Un exemple
est illustré dans la Figure 29 : le bit 5 de et le bit 4 de sont toujours
complémentaire sauf dans le cas de , car le premier vaut 1 si
et le deuxième vaut 1 si . En effet, Wu et Rehg mentionnent
que ces contraintes (et d’autres) existent mais ils ne les exploitent pas. Pour réduire la
dimensionnalité du vecteur, une analyse en composante principale (ACP) est utilisée. À noter
que la Census transform est équivalente (à l’ordre de parcours près) à l’encodage LBP (Local
Binary Pattern) d’OJALA [53].
Figure 29 : Illustration des contraintes entre les valeurs de la CT des pixels voisins [89, 90]
47
3. Descripteurs globaux
Les filtres de Gabor sont des ondes sinusoïdales avec une fréquence et une orientation
particulière modulée par une gaussienne elliptique. Dans le cas bidimensionnel, cette onde
sinusoïdale est la somme de deux fonctions sinusoïdales, la première paire et réelle, et la
deuxième impaire et imaginaire. Ces filtres ont une réponse impulsionnelle de la forme:
avec :
ou l’angle de rotation de
par rapport à donne l’orientation de l’enveloppe gaussienne dans le domaine
spatial, et
Un filtre de Gabor en partie réelle et imaginaire, est illustré dans la Figure 30.
48
Figure 30 : Filtres de Gabor à différentes échelles et fréquences spatiales
Où
, et
est obtenu par rotation du point par le même angle .
49
Figure 31 : Filtre de Gabor (a) en partie réelle (b) les modules de 5 fréquences
50
Dans la littérature, La plupart des travaux effectués n’utilisent que la partie module, comme
dans [95, 88]. Les phases sont considérées comme des informations inutiles pour la
description d’images, car elles varient considérablement même dans des régions locales
presque identiques.
C’est en 2007 que Zhang et al. ont proposé une nouvelle méthode de représentation de la
texture pour la reconnaissance de visage [91], appelée Histogramme de Gabor phase pattern
(HGPP), combinant ainsi l’histogramme spatiale et les informations de phase de Gabor.
Gabor respectivement.
Le QBC sépare les convoluées de Gabor dans 4 quadrants dans l’espace complexe, 00 pour le
quadrant , 10 pour le quadrant , 11 pour le quadrant et 01 pour le quadrant (Figure
33).
Maintenant à partir de QBC, on extrait les deux Patterns : GGPP (Global Gabor Phase
Patterns) et LGPP (Local Gabor Phase Patterns).
52
Dans [91] , et huit bits représentant huit orientations sont exploités qui forment un
octet, pour représenter 256 modes d’orientation différents. Ces modes peuvent être
facilement calculés par les équations suivantes :
Un exemple des Patterns GGPP en partie réelle et imaginaire est montré dans la Figure 34(a)
et (b).
Figure 34 : Patterns GGPP (a) partie réelle (b) partie imaginaire [91]
53
Figure 35 : Illustration de l’opérateur LXP [91]
Similaire aux patterns GGPP, huit bits qui représentent huit voisins forment un octet (255
niveaux de gris) pour chaque pixel. Un exemple de 40 images de partie réelle du pattern
LGPP, ainsi pour la partie imaginaire, est illustré dans la Figure 36.
Figure 36 : Patterns LGPP (a) partie réelle (b) partie imaginaire [91]
Si on calcul les histogrammes directement sur une image entière, les détails locales seront
perdus. Les auteurs proposent de diviser l’image originale en 64 sous-régions (Figure 37(a))
et de calculer les histogrammes HGPP de toutes ces sous-régions. En effet, chaque
histogramme est un micro-pattern, en 16 bins.
Le diagramme général de calcul du HGPP est présenté dans la Figure 37(b). Selon Zhang et al.
les images de doivent être normalisées en pixels avant la convolution avec les
filtres de Gabor afin d’avoir le meilleur résultat.
55
Figure 37 : (a) sous-régions de LGPP (b) diagramme général de HGPP [91]
3.2. GIST
Dans le domaine de la vision par ordinateur, le descripteur GIST est une représentation
d’une image en basse dimension qui contient suffisamment d’informations pour identifier
une scène. Il a été introduit par les chercheurs Oliva et Torralba dans [55, 56] dans le but
d’une classification automatique des images. Ces deux auteurs ont défini le descripteur GIST
de l’image en analysant les fréquences spatiales et les orientations. Il est issu d’une suite de
travaux de recherche à la fois psychologiques et informatiques sur la classification
automatique de scènes. Il y a plusieurs présentations différentes de ce descripteur. Nous
nous basons ici sur une étude du code source disponible sur la page web de Torralba
(http://people.csail.mit.edu/torralba/code/spatialenvelope/).
56
Figure 38 : Principe du descripteur GIST [58]
GIST permet d’extraire Une enveloppe spatiale globale qui correspond aux différentes
fréquences et orientations contenues dans l’image, d’où vient le critère de globalité de ce
descripteur. Du fait de la description globale de l’information essentielle dans l’image, il est
possible de ne pas conserver les détails d’une image et donc n’identifier que les fréquences
et les orientations principales de celle-ci dans l’objectif de la classer.
D’après Torralba et Oliva, le descripteur GIST peut être considéré comme une bonne
solution pour des problèmes de catégorisation de scènes [56]. Le succès du descripteur GIST
s’est rapidement propagé vers d’autres applications, d’abord il a été réutilisé efficacement
pour résoudre des problèmes de reconnaissance de lieux [50], ensuite il a été appliqué dans
le domaine de la recherche d’image à l’échelle du web [22].
- D’abord, les images d’entrée sont réduites en imagettes carrées, d’une taille
comprise entre et , quelles que soient leur proportions.
- Ensuite elles sont convoluées avec un banc de filtres de Gabor avec orientations
et échelles.
57
- Les images en sortie du filtre sont divisées en une grille régulière de régions
sur lesquelles on calcule la moyenne.
- Enfin, le descripteur GIST de l’image est obtenu par concaténation des descripteurs
des différentes régions.
Dans le cas des images couleurs, ces étapes sont répétées pour chaque canal.
La taille du vecteur descripteur final est (x3 dans le cas d’une image couleur),
indépendante de la taille de l’image. On choisit souvent orientations et
échelles. Enfin, une analyse en composantes principales (ACP) est utilisée pour réduire la
dimension des vecteurs.
et
D’une manière plus courante, on utilise les moments centraux qui ont la propriété
importante d’être invariants par translation, ils sont calculés à base des coordonnées du
centre de gravité de l’objet et sont notés par :
58
A partir de ces moments géométriques, et dans le but de les utiliser pour la description de
forme en vue d’une classification ou d’une indexation, Hu [39] a proposé d’utiliser une
succession de sept polynômes calculés à partir des moments centraux et sont donnés par les
équations suivantes :
En plus du fait qu’ils soient invariants aux translations, rotations et changement d’échelle,
ces moments géométriques sont très simples et rapides à calculer. Hu montre qu’il est
suffisant d’utiliser les deux premiers invariants et pour séparer les 26 caractères
alphabétiques, cela montre bien qu’il n’est pas nécessaire d’utiliser tous les moments de
l’ensemble de Hu en vue d’une classification d’objets.
Par ailleurs ces descripteurs sont assez sensibles aux bruits et aux déformations. En plus, ils
ne sont ni orthogonaux ni complets, ce qui fait, qu’ils souffrent d’un niveau élevé de
redondance d’informations. Un autre inconvénient de ces descripteurs, c’est qu’ils doivent
être dérivés à la main, au contraire des moments orthogonaux tels que les moments
invariants de Zernike qui peuvent être calculés à des ordres arbitraire.
59
de la redondance des informations portées par chacun des moments. Les moments
orthogonaux les plus utilisés en vision par ordinateur sont ceux de Zernike, introduits par
Teague [76] qui a proposé d’utiliser une série de polynômes complexes et orthogonaux
définis sur le disque unitaire , qu’on peut écrire sous la forme :
La Figure 39 ci-dessous présente une pyramide des polynômes de Zernike jusque quatrième
ordre.
60
Les moments de Zernike d’une image sont construits par les projections de cette
image sur la base de ces polynômes . Le moment de Zernike d’ordre et de
répétition de l’image peut être donné par :
- Les modules des moments de Zernike sont invariants par rotation [15, 87],
- Ils sont robustes aux altérations telles que le bruit, changement de luminosité, etc.
(voir section 2.3.6),
Une des limitations de ce descripteur, c’est que la complexité de calcul des polynômes de
Zernike augmente fortement dans les hautes fréquences de l’image qui sont principalement
codées dans les moments d’ordres supérieurs.
Où est supposée intégrable sur le groupe des similitudes planes vectorielles (rotation,
translation et homothétie) , avec est le cercle unité de .
La TFM a été définie dans le but de mettre en œuvre des approches invariantes aux
similitudes directes, ces approches ne prennent en considération que le module de la TFM,
par contre, la phase est souvent non exploitée, donc une représentation partielle des objets,
ce qui est insuffisant pour discriminer des objets surtout dans le cas des grandes bases
d’images. Afin de résoudre ce problème, Derrode et al, ont présenté un procédé de
61
normalisation de la transformée de Fourier-Mellin analytique (TFMA) permettant de mettre
en œuvre des familles complètes de descripteurs invariants par similitude.
La TFMA a été introduite dans [33] pour pallier le problème de divergence des intégrales
lorsqu’elles sont calculées sur des images en niveaux de gris. Celle-ci est définie par :
La TFMA admet une transformée inverse ce qui permet de reconstruire des images depuis
son spectre (Figure 40). Elle s’exprime par la formule suivante :
Figure 40 : Reconstruction des formes de quatre images de papillons en fonction du nombre de descripteurs invariants
utilisés pour la reconstruction (TFMA) [33]
62
La famille complète des descripteurs invariants par similitude issue de la TFMA a été proposé
dans [33], et peut être réécrite facilement et appliquée pour toute valeur strictement
positive de :
De plus, cette famille d’invariants est complète car il est possible de reconstruire la TFMA
d’un objet à partir des valeurs des descripteurs invariants et des deux paramètres
de normalisation et . On peut alors reconstruire l’objet de l’image
originale en utilisant la TFMA inverse. Dans [33], il est prouvé également que cette famille
d’invariants est convergente au sens . Ces deux propriétés ont pour conséquence de
définir une vraie distance dans l’espace des formes donnée par :
La distance pour des objets de même forme et elle utilisée comme critère de mesure
de degré de similarité entre deux objets indépendamment de leur orientation, leur taille et
leur pose.
63
l’espace polaire comme une image rectangulaire à deux dimensions dans l’espace cartésien
(Figure 41).
Figure 41 : (a) l'image originale dans l'espace polaire; (b) l'image polaire de (a) dans tracée dans l'espace cartésien [92]
L’image polaire de la Figure 41(b) est l’image rectangulaire. Par conséquent, si nous
appliquons une transformé de Fourier 2D sur cette image rectangulaire, la FT polaire aura
une forme similaire à celle d’une FT discrète classique dans l’espace cartésien. Donc, pour
une image donnée , la transformé de Fourier modifiée polairement (MPFT) est définie
par :
Figure 42 : (a) un motif et son spectre de Fourier; (b) le motif pivoté de (a) et son spectre de Fourier; (c) l'image polaire de
(a) et son spectre de Fourier; (d) l'image polaire de (b) et son spectre de Fourier [92]
L’invariance par rotation et par changement d’échelle est atteinte par la normalisation
suivante :
Zhang et Lu ont comparé leur descripteur GFD avec celui basé sur les moments de Zernike,
ils ont pu conclure que : le GFD est plus simple à calculer, les attributs sont purement
spectraux et montrent de meilleurs performances de recouvrement car l’analyse multi-
65
résolution dans les deux directions radiale et spectrale, est possible. Enfin, les auteurs ont
montré aussi que le GFD donnait de meilleurs résultats que les moments de Zernike.
66
Dans le domaine discret, ces descripteurs sont remplacés par un ensemble fini de valeurs
formant les composantes d’un vecteur qu’il est possible d’utiliser à l’entrée d’un processus
de classification.
Les descripteurs de Fourier calculés selon l’équation précédente ont des propriétés
élémentaires cruciales pour la reconnaissance d’objets. Ils sont invariants par déplacement
et réflexion :
À noter que :
Où et .
Cet ensemble d’invariants stables, nommés DF2, est adapté au groupe des
déplacements dans le plan, et la complétion de cette famille est assurée dans le
groupe des déplacements d’angle . Ceci permet de garantir que deux objets
différents auront des DF2 différents, et par conséquent, donner une raison solide à leur
utilisation en tant que descripteurs discriminants pour la reconnaissance de formes.
4. Conclusion
Dans ce chapitre, nous avons fait l’inventaire des différentes techniques d’extraction de
caractéristiques. Ainsi, les propriétés de chaque descripteur d’images ont été étudiées pour
montrer leurs différentes invariances. De plus, un soin particulier a été apporté à l’étude des
avantages et des inconvénients.
Si on considère tout d’abord les descripteurs locaux, on peut remarquer en premier temps
que ces descripteurs sont extraits de manière fiable autour de points d’intérêts
préalablement détectés. L’efficacité de ces descripteurs a été démontrée dans de multiples
travaux, mais dans certains contextes, tel que la présence d’un bruit important, les
descripteurs globaux sont les plus efficaces.
Si toutes ces méthodes présentent des qualités et des défauts, nous allons devoir
développer de nouvelles méthodes plus adaptées à notre objectif de reconnaissance d’objet,
et c’est l’objet du prochain chapitre.
68
69
Chapitre 3 : Descripteurs de Fourier généralisés et rotationnels
1. Introduction
La méthode que nous proposons est un prolongement des travaux de Smach et al. [74] qui
ont permis de définir un ensemble de descripteurs de Fourier Généralisés (GFD). Comme
nous le verrons dans leur définition, les descripteurs de Fourier Généralisés munis d’un
relèvement cyclique dans les groupes de roto-translations discrétisées , sont
invariants en translation et en rotation. Cette approche a guidé la définition de notre nouvel
ensemble de descripteurs de Fourier dits « rotationnels » dont le calcul réel sur des images
relevées (en considérant plutôt un relèvement invariant à gauche) nécessite fois moins de
temps de calcul et d’espace par rapport aux descripteurs de Fourier généralisés proposés
dans [74].
Ce chapitre est organisé comme suit : Dans la section suivante, nous présentons quelques
notions préliminaires sur l’analyse harmonique (i.e. l’étude de la transformée de Fourier et
ses propriétés) sur les groupes abéliens et non-abéliens localement compacts. La deuxième
section concerne les invariants spectraux et bi-spectraux, ainsi que leurs propriété de
complétude dans les groupes abéliens localement compacts et dans le groupe dérivé de
produit semi-direct défini dans la section 2.3 par . Dans la
troisième section, nous introduisons les descripteurs de Fourier rotationnels basés sur la
structure du cortex visuel humain primaire V1. Enfin, pour clore ce chapitre, nous
présentons quelques techniques pour le calcul pratique de ces descripteurs.
2. Préliminaires
Pour définir et calculer les descripteurs de Fourier spécifiques à notre étude, nous
introduisons quelques généralités sur la transformée de Fourier dans les groupes non-
commutatifs. Nous nous référons à [63, 37] pour une introduction générale du sujet.
70
2.1. Analyse harmonique sur les groupes abéliens localement compacts
Soit un groupe abélien localement compact. Un caractère de est un homomorphisme
continu de groupes tel que pour tout . En définissant le produit
de deux caractères comme une multiplication point par point, et l’inverse comme le
conjugué complexe, l’ensemble
muni de la topologie de la convergence uniforme sur tout compact, est un groupe abélien
localement compact, appelé le groupe dual (de Pontryagin) de .
Avec :
3
Une mesure de Haar sur un groupe localement compact est une mesure de Borel quasi-régulière non-
nulle invariante par translation à gauche. En particulier, pour tout ensemble Borélien de et pour tout
dans , on a : .
71
Théorème 2.1.2 (Théorème de Plancherel). Il existe une mesure unique sur , appelée
mesure de Plancherel, de sorte que la transformée de Fourier définie ci-dessus peut être
étendue à une isométrie . En particulier, lorsque
et , on a :
En effet, la mesure de Haar sur est la mesure de Lebesgue, peut être réalisée
comme l’ensemble des pour , et la mesure de Plancherel sur devient la
mesure de Lebesgue, i.e. la transformée de Fourier inverse peut être réécrite comme suit :
4
Un groupe est unimodulaire si et seulement si sa mesure de Haar est invariante non seulement à gauche mais
aussi à droite. En effet, sa fonction modulaire (qui mesure le défaut d’invariance à droite d’une mesure de
Haar) est le morphisme constant .
72
et est l’ensemble des opérateurs unitaires sur . Une représentation est
irréductible s’il n’y a aucun sous-espace fermé non triviale de invariant pour
toute . Deux représentations sont équivalentes s’il existe un opérateur
linéaire inversible tel que . Dans ce cas nous écrivons .
(1)
De la même façon que dans le cas abélien, la transformée de Fourier satisfait le théorème
(2.1.2) en diagonalisant l’action de la représentation régulière à gauche ,
définie par .
(2)
73
2.3. Contexte de notre travail
Dans le reste de ce chapitre, nous considérons le cas particulier de produit semi-direct de
deux groupes . On rappelle que :
Les hypothèses ci-dessus garantissent que est unimodulaire. Plus tard, nous allons
calculer explicitement les représentations irréductibles unitaires de , qui seront de
dimension finie, démontrant ainsi que est un groupe de Moore5.
Une notation additive est utilisée pour les deux groupes et . Nous notons :
5
Un groupe de Moore est un groupe localement compact dont les représentations unitaires irréductibles sont
de dimension finie.
74
et . Leur action de rotation sur et
est donnée par :
et
Théorème 2.3.1 (Représentations des ). Le dual est paramétré par les orbites
de l’action des rotations sur , i.e., par la tranche de camembert qui en
coordonnées polaires est (Figure 43). En outre, correspondant à
l’origine, il y a les caractères de . A savoir, à chaque correspond la
représentation agissant sur via :
(3)
75
Figure 43: Rotation de la tranche de camembert par
(4)
Ce qui implique le premier énoncé. D’autre part, pour démontrer le second énoncé, il suffit
de calculer :
76
2.4. Fonctions faiblement cycliques
On vérifie que les fonctions utilisées pour nos descripteurs sont faiblement cycliques, une
condition nécessaire pour démontrer que les invariants rotationnels, introduits dans la
section 4.4, soit faiblement complets.
(5)
Définition 2.4.1. Une fonction est faiblement cyclique si est cyclique pour
(6)
77
En particulier, n’est jamais cyclique.
Observons que est invariant sous l’action de l’opérateur de décalage. Nous disons alors
que est -cyclique si , et posons la définition suivante.
Définition 2.4.3. Si est paire, une fonction à valeurs réelles est faiblement -
cyclique si est -cyclique pour presque tout . D’autre part, si est impaire,
est faiblement -cyclique si et seulement si elle est faiblement cyclique dans le sens
de la définition 2.4.1.
Un choix d’invariants est faiblement complet si l’énoncé ci-dessus est vrai uniquement sur un
sous ensemble résiduel6 de .
Comme il a été montré dans les sous-sections 2.1 et 2.2 qui présentent les propriétés
associées à la représentation régulière à gauche dans le cas abélien (Th 1.1.4) et non abélien
6
Intersection dénombrable d’ensembles ouverts et denses.
78
(Th 1.2.2), nous utilisons ces deux théorèmes afin de mettre en évidence le caractère
invariant des descripteurs spectraux et bi-spectraux.
Les premiers invariants que l’on peut envisager sont les suivants.
Les invariants spectraux ne sont pas faiblement complets, même dans le cas simple
Ainsi, nous devons considérer des ensembles plus riches d’invariants, comme les suivants.
79
A priori, on a besoin d’utiliser les deux invariants, spectraux et bi-spectraux, bien que nous
allions voir que dans la plupart des cas, et en particulier, dans le cas du groupe ,
nous avons .
(7)
80
Ceci implique que est un caractère mesurable de et donc, par le biais d’un résultat
connu ([37], Théorème 22.17), il doit être continu. Par la dualité de Pontryagin, ceci
démontre l’existence de tel que . Ainsi, nous avons démontré que
, ce qui d’après le théorème 2.2.2 implique que , complétant ainsi la
démonstration.
Dans le cas où le résultat ci-dessus peut être renforcé.
Corollaire 3.2.2. Les invariants bi-spectraux sur sont complets sur les fonctions à support
compact de .
Soit un ensemble compact. Dans ce qui suit, nous serons principalement concernés
par les fonctions qui sont à support compact soit dans ou dans .
Le résultat suivant généralise, par une démonstration simplifiée, le résultat présenté dans
[74]. Notons que ce résultat est vrai dans un cadre plus général, comme il sera montré dans
un article à paraitre par Prandi et Gauthier.
81
fonctions à support dans et dont la transformée de Fourier est inversible pour un
ensemble ouvert et dense des s.
Démonstration. Le fait que est ouvert et dense est démontré dans le lemme 1 (Annexes :
Lemmes auxiliaires pour la démonstration du théorème 3.3.1). Soit tel que
et . L’égalité du BS généralisé implique que l’ensemble des s pour
De plus est unitaire pour tout . En effet, par l’égalité du PS généralisé, nous
avons :
(8)
Le résultat annoncé est alors une conséquence des trois faits suivants, qui sont démontrés
dans l’annexe (Lemmes auxiliaires pour la démonstration du théorème 3.3.1) :
82
1. Lemme 2 : La fonction est continue sur .
2. Lemme 3 : La fonction peut être étendue à une fonction continue sur ,
pour laquelle (8) est toujours vraie.
3. Lemme 4 : Il existe tel que .
Un corollaire immédiat est le suivant.
En fait, les contributions de certains des auteurs à un modèle assez récent du cortex visuel
primaire humain V1 [62, 9, 8, 10], ont montré que celui-ci peut être modélisé comme un
groupe de roto-translations semi-discrètes . Dans ce modèle, les stimuli
corticaux sont des fonctions dans , par rapport à la mesure de Haar
de , et les images provenant du plan visuel sont relevées à des stimuli corticaux via
une opération naturelle de relèvement injectif et invariant à gauche
. Un tel relèvement est défini comme la transformée en ondelettes par rapport
à une ondelette mère (voir: section 4.2).
A partir de ces faits, un pipeline naturel pour la reconnaissance d’objets est le suivant (Figure
45) :
83
1. Etant donné une image , relevons-la à un stimulus cortical
.
2. Calculer les descripteurs de Fourier généralisés de sur le groupe non-
commutatif .
3. Si le relèvement d’une autre image a les mêmes descripteurs de Fourier
que , on déduit que à une action d’un élément de près.
4. Grâce à l’invariance à gauche et à l’injectivité du relèvement , on obtient aussi
que à une action d’un élément de près.
Ce pipeline a été déjà étudié dans [74], où les auteurs ont considéré un relèvement non-
invariant à gauche. Pour ce relèvement, ils ont démontré un résultat de faible complétude
du BS pour des images, représentées comme des fonctions de à support à l’intérieur
d’un ensemble compact et fixe.
84
Figure 45 : Pipeline naturel pour la reconnaissance d'objets
Dans la suite, nous considérons la même question pour les relèvements invariants à gauche,
où la situation se révèle être plus compliquée. En particulier, comme il sera expliqué dans la
section 4.4, afin d’assurer la faible complétude, nous sommes amenés à considérer des
invariants « plus forts » que le BS généralisé. Toutefois, comme il sera observé dans la
section 4.4, le calcul réel de ces plus forts invariants sur des images relevées nécessite fois
moins de temps de calcul et d’espace par rapport au calcul des invariants proposés dans
[74].
85
4.2. Présentation du modèle mathématique du cortex visuel primaire V1
Comme mentionné précédemment, la principale nouveauté de notre approche est son lien
avec un modèle assez récent du cortex visuel primaire humain V1, grâce à Petitot et Citti-
Sarti [16, 60] et les contributions récentes de certains des auteurs [8, 9, 10, 62, 7]. La théorie
« Orientations score » introduite dans [24, 25], est aussi fortement connectée avec ce
travail, en particulier pour son exploitation du relèvement invariant à gauche. Nous
mentionnons aussi [73], où les invariants d’images basés sur la structure du groupe de roto-
translation ont été introduits pour les textures. Dans cette section, nous présentons
les caractéristiques de ce modèle qui sont essentielles pour notre approche.
Etant donné qu’il est bien connu [40] que les neurones dans V1 sont sensibles non
seulement aux différentes positions dans le champ visuel, mais aussi aux orientations
locales, et qu’il est raisonnable de supposer que ces orientations soient finies, dans [8] V1 a
été modélisé comme un groupe de roto-translations semi-discrètes
pour paires.
Les stimuli visuels sont supposés être relevés à des motifs (patterns) d’activation
dans par un opérateur de relèvement . Motivés
par des évidences neurophysiologiques, nous supposons donc que :
(9)
pour une ondelette mère donnée tel que est injectif et borné.
Remarque 4.2.1. Cette hypothèse signifie que l’opérateur de relèvement sous considération
est la transformation en ondelettes par rapport à (voir, e.g. [27]). Le fait que soit injectif
et borné est alors équivalent au fait que l’ondelette mère est faiblement admissible, i.e., est
86
Comme conséquence de l’hypothèse ci-dessus, l’opération de relèvement est invariante à
gauche par rapport à l’action de . A savoir :
(10)
La formule (10) peut être vue comme une version semi-discrète de la symétrie shift-twist
[13].
L’observation principale pour nos besoins est que (10) signifie que deux images
peuvent être déduites par roto-translation (i.e., pour certains
) si et seulement si leurs relèvements peuvent être déduits par . C.-à-d. que,
(11)
87
Démonstration. Soit et considérons . Observons que .
Ensuite, par (1), (4) et (3), pour tout , nous avons
4.4. Les invariants spectraux et bi-spectraux rotationnels et leur complétudes
dans
Pour contourner la difficulté posée par la non-inversibilité de la transformée de Fourier pour
les fonctions relevées, nous sommes amenés à considérer les descripteurs plus forts
suivants.
88
compact dans , avec une moyenne non-nulle. Observons que ceci est un sous-ensemble
ouvert et dense de . On peut donc définir le barycentre de comme :
(12)
Pour certains
En effet, pour paire, cela implique que pour tout . A ce titre, il n’y a
aucun espoir pour que la famille génère la totalité de .
Théorème 4.4.3. Pour tout compact , si l’ondelette mère , les RPS et RBS sont
faiblement complets sur . A savoir, l’ensemble est ouvert et dense dans et
pour tout , on admet que et si et
seulement si pour certain .
89
suffit d’exploiter le fait que rang pour tout et , où est défini dans
(6) et que l’équivalence du théorème d’induction-reduction se réduit tout simplement à
une équivalence entre et . Cependant, afin de démontrer le point-clé
technique (13), nous avons besoin d’une étude plus raffinée des propriétés des opérateurs
circulants, ce qui est en dehors du cadre de ce travail et nous nous en reportons à un article
par Prandi et Gauthier, à paraitre.
Démonstration. (Esquisse dans le cas est impair). Le fait que est ouvert et dense
dans résulte des mêmes arguments dans le lemme 1 (Annexe : Lemmes auxiliaires pour
la démonstration du théorème 3.3.1).
La démonstration est similaire à celle du théorème 3.3.1 mais avec des difficultés techniques
supplémentaires. Soit l’ensemble où et sont inversibles. Par
90
En particulier, est constante sur les orbites . Finalement, est
unitaire, en conséquence, e.g. du théorème 5.1.
(13)
Comme déjà mentionnée, la démonstration de cette identité exige une utilisation profonde
des propriétés des opérateurs circulants, ce qui est en dehors du cadre de ce travail. Nous
reportons donc à un article à paraitre.
Une fois (13) est connue, l’énoncé suit en appliquant les mêmes arguments que ceux dans le
théorème 3.3.1. A savoir :
1. La fonction est continue sur . Cela peut être fait par les mêmes
arguments que dans le lemme 2 (Annexe : Lemmes auxiliaires pour la démonstration du
théorème 3.3.1).
91
5. Le calcul pratique des descripteurs de Fourier
Ici, nous présentons des formules explicites pour le calcul des descripteurs de Fourier
présentés dans les sections précédentes.
Dans ce qui suit, nous montrons que, sous certaines hypothèses sur l’ondelette mère , le
calcul concret des PS et BS généralisés et de leurs homologues rotationnels RPS et RBS, ne
dépend que de la transformée de Fourier 2D de . Dans la suite, étant donné deux
vecteurs , on note , le produit élément par élément de deux vecteurs.
- Pour tout , les RPS et RBS de sont déterminés respectivement par les
quantités, pour presque tout et :
Remarque 5.2. Le théorème 5.1 montre en particulier que le résultat du théorème 4.4.3
est en effet plus fort que le résultat de complétude pour le BS généralisé du relèvement
cyclique obtenu dans [74]. En effet, dans ce travail, il est démontré que celui-ci (pour
92
impaire) est déterminé exactement par les quantités, pour presque tout
et :
En particulier, pour chaque , on doit calculer fois plus de quantités que celles
pour les RBS.
Comme corollaire du théorème 5.1, nous montrons que, dans le but de comparer le PS et
BS, il est généralement suffisant de comparer que le dernier.
6. Conclusion
Dans ce chapitre, nous avons présenté un ensemble de descripteurs de Fourier sur le groupe
de roto-translations semi-discrètes . Ensuite, nous avons démontré que les
93
descripteurs PS et BS généralisés – et leurs homologues rotationnels RPS et RBS – sont
faiblement complets, dans le sens où ils permettent de discriminer sur un ensemble ouvert
et dense de fonctions à support compact à une action d’un élément
de près.
Les aspects techniques, les tests comparatifs effectués et les résultats obtenus seront
présentés dans le chapitre suivant.
94
95
Chapitre 4 : Résultats et expérimentations
1. Introduction
Les chapitres précédents ont abordé un des points clés essentiels pour réaliser la tâche de
reconnaissance d’objets : l’extraction des caractéristiques. Le but de ce chapitre est
d’évaluer les performances, dans un contexte de reconnaissance d’objets, des descripteurs
proposés dans ce document.
Dans cette thèse, nous proposons d’utiliser la structure classique basée sur un
un classifieur. En ce qui concerne les descripteurs, nous mettons en place ceux
dans le chapitre précédent, à savoir : les invariants spectraux (PS) et bi-spectraux (BS)
généralisés et leurs homologues rotationnels (RPS) et (RBS), nous considérons aussi
combinaison des deux descripteurs BS et RPS. En effet, combiner ces deux
semble être un bon compromis entre le résultat théorique de la complétude donné
théorème 4.4.3 (qui ne tient que pour le RBS) et les calculs, comme le montreront les
résultats sur les différentes bases d’images. Pour les classifieurs, nous aurons recours
méthode de classification supervisée à noyau : les machines à vecteurs de support
Annexe :
96
performances de reconnaissance de ces différents descripteurs par rapport à l’invariance par
rotation, la capacité de discrimination et la robustesse aux bruits, seront calculées.
7
http://robotics.csie.ncku.edu.tw/Databases/FaceDetect_PoseEstimate.htm#Our_Database_
8
https://www.sheffield.ac.uk/eee/research/iel/research/face
97
b. Base de visages RL
La base de visages RL a été construite par le laboratoire RL (Robotics Laboratory,
Department of Computer Science and Information Engineering), basé à l’université nationale
de Cheng Kung, Taiwan.
Elle contient 6660 images de 90 sujets. Chaque sujet a 74 images, où 37 images ont été
prises tous les 5 degrés du profil droit (défini par +90°) au profil gauche (défini par -90°) dans
le plateau de rotation (Figure 47). Les 37 images restantes sont générées (synthétisées) par
les 37 images existantes à l’aide d’un logiciel commercial de traitement d’images afin
d’obtenir les images symétriques. Les images suivantes constituent un exemple de cette
base de données, avec des rotations de 0° (frontal) -> -90° (profil de gauche) (Figure 47) :
Figure 47: Extrait de la base RL. Pour chacune des 90 personnes enregistrées, on dispose de 74 vues avec des poses
différentes
98
Figure 48: Extrait de la base CVL. Ensembles de vues collectées pour un individu de la base
99
Figure 51 : Exemples de visages enregistrés sous des vues différentes
101
Figure 55 : Exemples d'objets vus sous des angles différents
D’un point de vue théorique, l’utilisation d’une ondelette mère spécifique permet
d’améliorer les performances en termes de discrimination du descripteur. Les tests
préliminaires que nous avons réalisés en utilisant une ondelette de Gabor, ont
effectivement montré une amélioration sensible mais pour des coûts de calcul plus
importants.
- Il est bien connu que les cellules rétiniennes sont réparties sur une grille hexagonale,
et il est donc raisonnable de supposer que les activations corticales reflètent ce fait.
- Les grilles hexagonales sont invariantes sous l’action de et les translations
discrétisées. En effet, à part le réseau hexagonal, les seules autres grilles sur qui
sont invariantes par certaines et par des translations discrètes appropriées, sont
obtenues avec .
102
Figure 56 : Etapes de calcul des descripteurs de Fourier. (S1) calcul de la FFTSHIFT de l'image , (S2) génération du
maillage hexagonal, (S3) extraction des hexagons, (S4) évaluation de la FFT de sur chaque hexagon extrait, (S5)
génération du vecteur et (S6) calcul des quatres invariants
Les différentes étapes de calcul des descripteurs9 sont décrites dans la Figure 56 et
données de la façon suivante :
1. L’image d’entrée est convertie en mode niveau de gris, la transformée de Fourier est
calculée, et la composante de fréquence zéro est décalée au centre du spectre.
(Figure 56 S1).
2. Pour des raisons de coût de calcul et puisque nous traitons des images naturelles,
dont les fréquences concernées sont les basses, nous extrayons une grille de
pixels autour de l’origine (Figure 56 S2).
3. Les invariants du théorème 5.1 sont calculés à partir des valeurs de la transformée de
Fourier décalée (FFTSHIFT), sur toutes les fréquences dans un maillage hexagonal à
l’intérieur de cette grille de taille pixels. Une interpolation bilinéaire est
appliquée pour obtenir les valeurs correctes de (Figure 56 S3, S4, S5, S6). La
dimension finale du vecteur descripteur est donnée dans le Tableau 1.
9
Exemple de code Matlab pour l’implémentation des invariants bi-spectraux rotationnels :
https://nbviewer.jupyter.org/github/dprn/bispectral-invariant-
svm/blob/master/Invariant_computation_matlab.ipynb
103
Descripteurs Dimension
PS 136
BS 717
RPS 816
RBS 4417
RPS + BS 1533
2.3. Expérimentations
Le classifieur SVM que nous avons utilisé est basé sur un noyau Gaussien dont la taille est
fixée empiriquement afin de maximiser le taux de reconnaissance.
104
Les performances des différents descripteurs invariants sont analysées en fonction du taux
de reconnaissance. Par conséquent, pour un ratio donné, les ensembles d’apprentissage et
de test ont été construits en divisant aléatoirement tous les exemples. Puis, en raison du
caractère aléatoire de cette procédure, de multiples essais ont été effectués avec différents
tirages au hasard de l’ensemble d’apprentissage et de test. Dans le cas ou un bruit est
ajouté, puisque comme mentionné précédemment l’ensemble d’apprentissage comprend
toutes les images, cette procédure est appliquée uniquement à l’ensemble de test.
Pour résoudre un problème multi-classes, les deux approches les plus populaires sont la
méthode One-Against-All (OAA) et la méthode One-Against-One (OAO). Pour notre propos,
nous avons choisi un multi-classifieur SVM basé sur la méthode OAO, car cette dernière est
beaucoup plus rapide pour l’étape d’apprentissage et semble préférable pour les problèmes
avec un très grand nombre de classes.
105
Dans Figure 57, les notations {D-D60, D-D120, D-D180, D-D240, D-D300, D-D360, D-rose, etc.}
signifient, respectivement, les distances euclidiennes entre le descripteur de l’image de
l’objet original {Diamant, Triangle, Ellipse…} et ceux des images du même objet subissant des
rotations de 0 à , ainsi que les descripteurs des images réelles.
La Figure 57 montre bien que les normes euclidiennes entre le descripteur de l’image de
l’objet original et ceux des images du même objet pivoté, sont presque égales et convergent
vers 0, au contraire de celle entre le même descripteur et ceux des images réelle, qui
divergent. En analysant les différents graphes de la figure, nous constatons aussi que les
descripteurs BS et RBS sont légèrement plus faiblement complets que les descripteurs PS,
RPS et la combinaison (BS,RPS).
106
2.3.3. Tests sur la base des visages RL
Pour la base de visages RL, les tests ont été réalisés en utilisant 75% d’images de visages
pour l’apprentissage (environ 55 images par visage) et 25% pour le test (environ 19 images
par visage).
Nous effectuons des expérimentations sur la base de données RL en utilisant l’ensemble des
descripteurs globaux RBS, BS, PS, RPS, ZM, HU, FM, la combinaison du RPS & BS, et les deux
fameux descripteurs locaux SIFT et HOG.
RBS 99.5
BS 91.4
PS 53
RPS 96.4
RPS + BS 97.6
ZM 95
HM 42.8
FM 51.5
HOG 98.8
SIFT 98.7
107
2.3.4. Tests sur la base des visages CVL
La base de visages CVL a été utilisée dans plusieurs travaux, sous des conditions
d’apprentissage et de test différents. Elle est notamment utilisée par Albiol et al. dans [1] qui
présentent un nouvel algorithme de reconnaissance de visages basé sur une combinaison
des EBGM (Elastic Bunch Graph Matchnig) et des descripteurs HOG (Histogram of Oriented
Gradients), et par Goal et al. dans [34], où les auteurs ont mené une étude de la faisabilité
des RP (Random Projection) pour la reconnaissance de visages.
Les tests ont été réalisés en utilisant les mêmes descripteurs d’images exploités dans la base
de visages RL. Le Tableau 3 montre que le descripteur RBS et la combinaison du RPS et BS,
approchent les performances des descripteurs locaux SIFT et HOG, et donnent un meilleur
résultat par rapport aux autres descripteurs globaux.
RBS 97.5
BS 95
PS 93.5
RPS 96.7
RPS + BS 96
ZM 80.4
HM 65.2
FM 69
HOG 98.2
SIFT 98.4
Tableau 3: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages CVL
108
2.3.5. Tests sur la base des visages ORL
Dans la littérature, le protocole utilisé pour l’apprentissage et le test est différent d’un
papier à l’autre. Dans [64], une approche basée sur le modèle de Markov caché (HMM) est
utilisée, et le meilleur modèle a abouti à un taux de reconnaissance de 95%, avec un coût de
calcul élevé. Dans [38], Hjelmas a atteint un taux de reconnaissance de 85% en utilisant la
base de visages ORL et des vecteurs descripteurs constitués de coefficients de Gabor.
Les résultats sont présentés dans le Tableau 4, où l’on voit clairement que le descripteur RBS
approche les descripteurs locaux et surpasse ceux globaux en terme de performances.
RBS 92.5
BS 70
PS 50
RPS 83.5
RPS + BS 86.5
ZM 82
HM 50
FM 54
HOG 95
SIFT 92.5
Tableau 4: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages ORL
109
2.3.6. Tests sur la base de visages Sheffield
Dans le cas de la base de visages Sheffield, les expérimentations ont été réalisées en
respectant le même protocole de test (c.à.d. 75% d’images pour l’apprentissage et 25% pour
le test) et en utilisant les mêmes descripteurs testés dans le cas de la base de visages RL.
RBS 100
BS 90
PS 83
RPS 95
RPS + BS 100
ZM 92.5
HM 81.2
FM 85
HOG 90
SIFT 100
Tableau 5: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages Sheffield
110
descripteur local HOG, qui surpassent nettement les autres descripteurs, suivi des
descripteurs SIFT et RBS qui donnent aussi un taux de reconnaissance acceptable.
RBS 89.9
BS 70.3
PS 66.4
RPS 84.3
RPS + BS 87.4
ZM 82
HM 63.5
FM 68.1
HOG 98
SIFT 92.1
Tableau 6: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages Extended Yale B
111
Figure 58 : Exemple d'images bruitées pour un objet de la base COIL-100
a. Cas simple
RBS 95.5
BS 88
PS 84.3
RPS 89.8
RPS + BS 92.8
ZM 91.9
HM 80.2
FM 89.6
112
HOG 95.3
SIFT 93.4
Tableau 7: Le taux de reconnaissance pour chaque descripteur en utilisant la base de données COIL-100 (cas non-bruité)
100
RBS
90 BS
PS
80 RPS
RPS + BS
70 ZM
HM
60 FM
SIFT
50 HOG
10% 20% 50% 75%
b. Cas bruité
Les résultats présentés dans le Tableau 8 montrent que le bruit a peu d’influence sur la
performance de classification quand on utilise un descripteur global tel que le RBS, BS, la
combinaison du BS & RPS, ZM, HM et FM. Il a cependant une grande influence sur les
descripteurs locaux SIFT et HOG.
113
RBS BS PS RPS RPS+BS ZM HM FM SIFT HOG SIFT
(%) (%) (%) (%) (%) (%) (%) (%) (%) (%) (%)
Elle contient 875 images de 125 navires. Chaque navire a 7 images, qui représentent des
rotations sur le plan 2D (Figure 60) :
114
3.1.2. Résultats obtenus
Vu le nombre petit d’images par navire (7 images par navire), nous avons choisi d’alimenter
le classifieur SVM par un ensemble d’apprentissage composé de 6 images, et se contenter
d’une seule image par navire pour le test. Les tests ont été réalisés en utilisant les mêmes
descripteurs d’images exploités dans les cas des bases de visages RL, CVL et ORL.
Le Tableau 9 présente les résultats obtenus sur cette base et montre que les descripteurs
SIFT, HOG, RBS et RPS+BS donnent les meilleurs résultats et sont par la suite les plus
discriminants.
RBS 98.6
BS 94
PS 91.2
RPS 97.1
RPS + BS 98.2
ZM 95
HM 84.3
FM 89.5
HOG 98.2
SIFT 99
115
chaqu’un a été pris sous 50 vues différentes avec des arrière-plans complexes et des
conditions d’éclairage qui changent d’une image à une autre (Figure 61) :
Figure 61: Exemples de bateaux qui ont subit des transformations générales
Les résultats des expérimentations sur cette base sont donnés par le Tableau 10, qui montre
que le descripteur RBS approche les performances du descripteur SIFT et discrimine mieux
que le descripteur local HOG et les autres descripteurs globaux. La difficulté principale
rencontrée lors de ces expérimentations était constituée par des arrière-plans complexes,
qui comportent, par exemple, d’autres objets que celui que nous cherchons à reconnaitre
(arbres, bâtiments, autres navires …), ou encore, des conditions météorologiques et de l’état
de la mer variables, qui influencent légèrement sur la qualité de la description d’images dans
un espace fréquentiel.
116
Descripteurs Taux de reconnaissance (%)
RBS 83.5
BS 68.2
PS 61.2
RPS 72.7
RPS + BS 75
ZM 71
HM 37.8
FM 41.2
HOG 83.4
SIFT 88
4. Conclusion
Dans ce chapitre, nous avons exposé les performances obtenues par notre ensemble de
descripteurs et nous les avons comparées à celle des descripteurs principaux (locaux et
globaux) de la littérature. Tout d’abord, nous avons validé et confirmé la propriété de la
faible-complétude de nos descripteurs de Fourier démontrée théoriquement dans le
chapitre 2, par une série de tests que nous avons effectués sur des images synthétiques
comportant des formes géométriques simples (triangles, ellipses, étoiles…). Ensuite, nous
avons testé ces descripteurs et les avons comparés à d’autres descripteurs locaux et globaux,
dans le cadre de la reconnaissance d’objet, en utilisant des bases de visages telles que RL,
CVL, ORL, Sheffield, Extended Yale B, et des bases d’images d’objets variés comme COIL-100.
Pour la base d’images COIL-100, deux cas ont été traités : un cas simple de reconnaissance
d’objet et un cas bruité, où différentes images de la base ont subit des altérations
différentes telles que l’ajout de bruit gaussien. Cette série d’expérimentations que nous
avons menée, nous a permis de constater qua la théorie était validée. Ainsi, nos descripteurs
117
de Fourier rotationnels fournissent des résultats supérieurs en moyenne à tous les autres
descripteurs.
Dans un second temps nous avons testé nos descripteurs de Fourier dans un contexte de
surveillance maritime, en les utilisant pour reconnaître des navires. Une fois encore nous
avons pu montrer que nos descripteurs de Fourier rotationnels mis au point permettent
d’obtenir de bons résultats de reconnaissance sur des bases d’images de navires ayant un
arrière-plan complexe et pour des conditions d’acquisition variables.
118
Chapitre 5 : Conclusion et perspectives
1. Conclusion
Les travaux décrits dans cette thèse portent sur la définition et la mise en œuvre de
nouveaux descripteurs de Fourier sur le groupe de roto-translations semi-discrètes .
Nous avons commencé par présenter un état de l’art des différentes approches de
description d’images. Les propriétés de chaque méthode ont été étudiées pour montrer
leurs invariances aux différentes transformations géométriques et leurs robustesses aux
altérations. Nous avons également présenté les avantages et inconvénients de ces
différentes approches.
La deuxième partie concerne plus précisément notre contribution. Celle-ci débute par des
rappels sur l’analyse harmonique dans les groupes abéliens et non-abéliens localement
compacts. Ensuite, nous avons démontré que les invariants spectraux (PS) et bi-spectraux
(BS) généralisés, et leurs homologues rotationnels (RBS) et (RPS), sont faiblement complets,
c'est-à-dire qu’ils permettent de discriminer deux fonctions définies sur un ensemble ouvert
et dense de fonctions à support compact à une action d’un élément
de près. Cela généralise un résultat de [74]. Par la suite, nous avons utilisé ces
descripteurs dans le cadre de la reconnaissance d’objets invariante aux roto-translations,
inspiré par certaines propriétés neurophysiologiques du cortex visuel humain primaire V1.
Dans ce cadre, nous avons montré que les invariants bi-spectraux rotationnels sont en effet
des invariants aux roto-translations faiblement complets pour les images planaires. De plus,
bien que les descripteurs de Fourier proposés soient définis en termes d’objets
mathématiques complexes, nous avons montré qu’ils peuvent être implémentés de façon
linéaire en tant que combinaisons linéaires des valeurs de la transformée de Fourier 2D de
l’image.
Dans la deuxième partie de cette thèse, nous avons proposé une évaluation des
performances de ces descripteurs de Fourier dans un contexte de reconnaissance d’objets et
nous avons présenté les résultats obtenus sur différents base de données : les bases de
visages RL, CVL, ORL, Sheffield et Extended Yale B, sur lesquelles différents visages sont
soumis à plusieurs types de variations ; la base d’images COIL-100, composées de plusieurs
119
objets soumis à des changements de rotations 3D et d’échelles. Pour toutes ces bases de
données, les descripteurs de Fourier globaux introduits dans cette thèse sont, en moyenne,
les descripteurs testés les plus efficaces. Bien que pour les images non altérées, les
descripteurs de Fourier rotationnels approchent souvent les performances des descripteurs
locaux SIFT et HOG et parfois donnent un meilleur taux de reconnaissance, l’addition de
bruit et de différentes altérations donne toujours l’avantage aux descripteurs globaux.
Ces résultats montrent ainsi que l’invariant bi-spectral rotationnel (RBS) est un très bon
descripteur de Fourier pour la reconnaissance d’objets, en cohérence avec le résultat
théorique de la faible-complétude. Lorsque la dimension du vecteur descripteur de Fourier
pose un problème, le RBS peut être remplacé par la combinaison des descripteurs bi-
spectraux généralisés BS et des descripteurs spectraux rotationnels RPS, qui donne des
résultats légèrement moins bons avec un vecteur descripteur de taille égale au tiers de celle
du RBS.
2. Perspectives
Les travaux réalisés au cours de cette thèse nous ouvrent un large champ de perspectives.
D’une part, l’implémentation d’une architecture hexagonale en spirale (Figure 62) introduite
par Sheridan [71, 70], à la place de la grille hexagonale classique utilisée dans nos
expérimentations, peut améliorer le temps de calcul et réduire la taille de nos descripteurs
de Fourier. L’architecture en spirale est un moyen d’indexer des hexagones de la grille avec
un seul index qui permet d’introduire une opération, multiplication en spirale, qui, avec la
même complexité d’une multiplication normale, calcule des rotations avec des multiples
.
Il existe des méthodes efficaces [23] pour simuler des pixels hexagonaux par un sur-
échantillonnage de l’image par un ratio de 7 puis en utilisant ce que nous appelons des
« hyperpels », composés de 56 pixels pour approximer un pixel hexagonal.
120
Figure 62: Principe de l'architecture hexagonale en spiral
Enfin, en s’inspirant de la méthode de détection d’objets, proposée par les chercheurs Paul
Viola et Michael Jones en 2001 [84], nous envisageons d’associer ce type de descripteurs à
un classifieur de type Adaboost (ou Adaptative Boosting) [26] qui semble très prometteur et
bien adapté au problème de détection d’objets.
121
122
Annexes
(14)
(15)
par :
123
En particulier, pour un couple d’opérateurs linéaires , il en est
que :
et . Alors :
Lemme 1. L’ensemble introduit dans le théorème 3.3.1 est ouvert et dense dans
.
Nous affirmons que l’ensemble est dense. En effet, soit et fixons un certain
et tel que est inversible. Par l’analyticité de , il en
résulte que pour un suffisamment petite, ce qui implique que ,
démontrant ainsi ce que nous avons affirmé.
124
pour suffisamment grand on doit admettre que . D’où, pour
suffisamment grand et est ouvert.
Avant de plonger dans les démonstrations des autres lemmes auxiliaires, nous faisons
l’observation suivante. Soit tel que pour tout . L’application
du théorème d’Induction-Reduction (14) sur (8) donne :
(16)
Ceci est possible puisque . Puisque l’ensemble est ouvert et dense, jusqu’à la
réduction de nous pouvons supposer qu’il existe un voisinage de tel que
pour tout . Ensuite, (16) est valable pour et . En calculant
explicitement le bloc de (16), nous avons
Puisque la fonction sur le côté droit est clairement continue sur , ceci prouve la continuité
à de , complétant ainsi la démonstration.
125
Lemme 3. La fonction peut être étendue à une fonction continue sur , pour
laquelle (8) est toujours vraie.
Démonstration. Soit . Puisque est un ensemble ouvert et dense, ceci implique que
est dans sa fermeture et que nous pouvons choisir tel que pour
un certain et pour tout . Nous considérons ensuite
(17)
Lemme 4. Il existe tel que .
(18)
126
Par l’inversibilité de , il existe tel que . En utilisant (18) ceci
équivalente, que
(19)
Pour tout et .
Nous affirmons que les ’s sont les caractères de . En effet, fixons dans (19) :
(20)
Choisir dans ce qui est ci-dessus montre que peut être étendue à 0. De plus,
considérer et prendre la limite montre que cette extension est continue.
Puisque les caractères de sont exactement les fonctions continues satisfaisant (20),
l’affirmation est démontrée.
127
C. Machines à vecteurs de support (SVM)
La plupart des systèmes de reconnaissance d’objet incluent une étape de classification. Nous
avons choisi ici la fameuse et efficace approche SVM.
SVM est une machine d’apprentissage universelle (développée en particulier par Vladimir
Vapnik [83, 12]). Une revue des principes de base suit, en considérant un problème de deux
classes (quelque soit le nombre de classes, il peut être réduit à un problème de deux classes,
via une approche One-Against-All ou One-Against-One [48].
Vapnik et al. ont introduit des classifieurs SVM pour lesquels les surfaces de décision sont
des hyperplans dans un espace :
128
La fonction dépend des exemples d’apprentissage pour lesquels est non-nulle. Ces
exemples sont appelés les vecteurs de support. Souvent, le nombre de vecteurs de support
n’est qu’une fraction de l’ensemble de données d’origine. La formulation SVM de base peut
être étendue au cas non-linéaire en utilisant des noyaux non-linéaires qui mappent l’espace
d’entrée à un espace caractéristique de grande dimension. Dans cet espace caractéristique
de grande dimension, une classification linéaire peut être réalisée.
Les SVM ont été mis en place avec succès pour les tâches de détection et de reconnaissance
de visages.
129
130
Bibliographie
[1] Alberto Albiol, David Monzo, Antoine Martin, Jorge Sastre, and Antonio Albiol. Face
recognition using hog–ebgm. Pattern Recognition Letters, 29(10):1537–1543, 2008.
[2] Mohamed ATRI, Taoufik SAIDANI, and Rached TOURKI. Détection d’individu d’histogramme
intégral.
[3] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-up robust features
(surf). Computer vision and image understanding, 110(3):346–359, 2008.
[4] Herbert Bay, Tinne Tuytelaars, and Luc Van Gool. Surf: Speeded up robust features. In
Computer vision–ECCV 2006, pages 404–417. Springer, 2006.
[5] Serge Belongie, Jitendra Malik, and Jan Puzicha. Shape context: A new descriptor for shape
matching and object recognition. In NIPS, volume 2, page 3, 2000.
[6] Serge Belongie, Jitendra Malik, and Jan Puzicha. Shape matching and object recognition using
shape contexts. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(4):509–522,
2002.
[7] Amine Bohi, Dario Prandi, Vincente Guis, Frédéric Bouchara, and Jean-Paul Gauthier. Fourier
descriptors based on the structure of the human primary visual cortex with applications to object
recognition. Journal of Mathematical Imaging and Vision, 57(1):117–133, 2017.
[8] Ugo Boscain, Roman A Chertovskih, Jean-Paul Gauthier, and AO Remizov. Hypoelliptic
diffusion and human vision: a semidiscrete new twist. SIAM Journal on Imaging Sciences, 7(2):669–
695, 2014.
[9] Ugo Boscain, Jean Duplaix, Jean-Paul Gauthier, and Francesco Rossi. Anthropomorphic image
reconstruction via hypoelliptic diffusion. SIAM Journal on Control and Optimization, 50(3):1309–
1336, 2012.
[10] Ugo Boscain, Jean-Paul Gauthier, Dario Prandi, and Alexey Remizov. Image reconstruction via
non-isotropic diffusion in dubins/reed-shepp-like control systems. In 53rd IEEE Conference on
Decision and Control, pages 4278–4283. IEEE, 2014.
[11] Anna Bosch, Andrew Zisserman, and Xavier Muñoz. Scene classification via plsa. In Computer
Vision–ECCV 2006, pages 517–530. Springer, 2006.
[12] Bernhard E Boser, Isabelle M Guyon, and Vladimir N Vapnik. A training algorithm for optimal
margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory,
pages 144–152. ACM, 1992.
[13] Paul C Bressloff, Jack D Cowan, Martin Golubitsky, Peter J Thomas, and Matthew C Wiener.
Geometric visual hallucinations, euclidean symmetry and the functional architecture of striate cortex.
Philosophical Transactions of the Royal Society of London B: Biological Sciences, 356(1407):299–330,
2001.
131
[14] Matthew Brown, Richard Szeliski, and Simon Winder. Multi-image matching using multi-scale
oriented patches. In Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR’05) - Volume 1 - Volume 01, CVPR ’05, pages 510–517, Washington,
DC, USA, 2005. IEEE Computer Society.
[15] Anant Choksuriwong, Bruno Emile, Helene Laurent, and Christophe Rosenberger.
Comparative study of global invariant descriptors for object recognition. Journal of Electronic
imaging, 17(2):023015–023015, 2008.
[16] Giovanna Citti and Alessandro Sarti. A cortical based model of perceptual completion in the
roto-translation space. Journal of Mathematical Imaging and Vision, 24(3):307–326, 2006.
[17] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In
Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on,
volume 1, pages 886–893. IEEE, 2005.
[18] Navneet Dalal, Bill Triggs, and Cordelia Schmid. Human detection using oriented histograms
of flow and appearance. In Computer Vision–ECCV 2006, pages 428–441. Springer, 2006.
[19] John G Daugman. High confidence visual recognition of persons by a test of statistical
independence. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 15(11):1148–1161,
1993.
[20] Stéphane Derrode. Représentation de formes planes à niveaux de gris par différentes
approximations de Fourier-Mellin analytique en vue d’indexation de bases d’images. PhD thesis,
1999.
[21] Stephane Derrode and Faouzi Ghorbel. Robust and efficient fourier–mellin transform
approximations for gray-level image reconstruction and complete invariant description. Computer
Vision and Image Understanding, 83(1):57–78, 2001.
[22] Matthijs Douze, Hervé Jégou, Harsimrat Sandhawalia, Laurent Amsaleg, and Cordelia Schmid.
Evaluation of gist descriptors for web-scale image search. In Proceedings of the ACM International
Conference on Image and Video Retrieval, page 19. ACM, 2009.
[23] Shlomo Dubnov, Naftali Tishby, and Dalia Cohen. Polyspectra as measures of sound texture
and timbre. Journal of New Music Research, 26(4):277–314, 1997.
[24] Remco Duits and Erik Franken. Left-invariant parabolic evolutions on se (2) and contour
enhancement via invertible orientation scores part i: Linear left-invariant diffusion equations on se
(2). Quarterly of Applied Mathematics, pages 255–292, 2010.
[25] Remco Duits and Erik Franken. Left-invariant parabolic evolutions on se (2) and contour
enhancement via invertible orientation scores part ii: Nonlinear left-invariant diffusions on invertible
orientation scores. Quarterly of applied mathematics, pages 293–331, 2010.
[26] Yoav Freund and Robert E Schapire. A desicion-theoretic generalization of on-line learning
and an application to boosting. In European conference on computational learning theory, pages 23–
37. Springer, 1995.
132
[27] Hartmut Führ and Matthias Mayer. Continuous wavelet transforms from semidirect
products: Cyclic representations and plancherel measure. Journal of Fourier Analysis and
Applications, 8(4):375–398, 2002.
[28] Pierre F Gabriel, Jacques G Verly, Justus H Piater, and André Genon. The state of the art in
multiple object tracking under occlusion in video sequences. In Advanced Concepts for Intelligent
Vision Systems, pages 166–173. Citeseer, 2003.
[29] Jean-Paul Gauthier, Guy Bornard, and Martine Silberman. Motions and pattern analysis:
harmonic analysis on motion groups and their homogeneous spaces. Systems, Man and Cybernetics,
IEEE Transactions on, 21(1):159–172, 1991.
[30] Philip Geismann and Georg Schneider. A two-staged approach to vision-based pedestrian
recognition using haar and hog features. In Intelligent Vehicles Symposium, 2008 IEEE, pages 554–
559. IEEE, 2008.
[31] Athinodoros S. Georghiades, Peter N. Belhumeur, and David J. Kriegman. From few to many:
Illumination cone models for face recognition under variable lighting and pose. IEEE transactions on
pattern analysis and machine intelligence, 23(6):643–660, 2001.
[32] David Gerónimo, Antonio López, Daniel Ponsa, and Angel D Sappa. Haar wavelets and edge
orientation histograms for on–board pedestrian detection. In Iberian Conference on Pattern
Recognition and Image Analysis, pages 418–425. Springer, 2007.
[33] Faouzi Ghorbel. A complete invariant description for gray-level images by the harmonic
analysis approach. Pattern recognition letters, 15(10):1043–1051, 1994.
[34] N Goal, George Bebis, and Ara Nefian. Face recognition experiments with random projection.
In Proceedings SPIE Vol, volume 5779, pages 426–437, 2005.
[35] Stephen Gould, Joakim Arfvidsson, Adrian Kaehler, Benjamin Sapp, Marius Messner, Gary R
Bradski, Paul Baumstarck, Sukwon Chung, Andrew Y Ng, et al. Peripheral-foveal vision for real-time
object recognition and tracking in video. In IJCAI, volume 7, pages 2115–2121, 2007.
[36] M Hassaballah, Aly Amin Abdelmgeid, and Hammam A Alshazly. Image features detection,
description and matching. In Image Feature Detectors and Descriptors, pages 11–45. Springer, 2016.
[37] Edwin Hewitt and Kenneth A Ross. Preliminaries. In Abstract harmonic analysis, pages 1–15.
Springer, 1963.
[38] Erik Hjelmås and Boon Kee Low. Face detection: A survey. Computer vision and image
understanding, 83(3):236–274, 2001.
[39] Ming-Kuei Hu. Visual pattern recognition by moment invariants. information Theory, IRE
Transactions on, 8(2):179–187, 1962.
[40] David H Hubel and Torsten N Wiesel. Receptive fields of single neurones in the cat’s striate
cortex. The Journal of physiology, 148(3):574–591, 1959.
[41] Ian Jolliffe. Principal component analysis. Wiley Online Library, 2002.
133
[42] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. A sparse texture representation using
local affine regions. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(8):1265–
1278, 2005.
[43] Rainer Lienhart and Jochen Maydt. An extended set of haar-like features for rapid object
detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1,
pages I–900. IEEE, 2002.
[44] David G Lowe. Object recognition from local scale-invariant features. In Computer vision,
1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157.
Ieee, 1999.
[45] David G Lowe. Distinctive image features from scale-invariant keypoints. International journal
of computer vision, 60(2):91–110, 2004.
[46] Krystian Mikolajczyk and Cordelia Schmid. Indexing based on scale invariant interest points.
In Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, volume 1,
pages 525–531. IEEE, 2001.
[47] Krystian Mikolajczyk and Cordelia Schmid. A performance evaluation of local descriptors.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(10):1615–1630, 2005.
[48] Jonathan Milgram, Mohamed Cheriet, and Robert Sabourin. “one against one” or “one
against all”: Which one is better for handwriting recognition with svms? In Tenth International
Workshop on Frontiers in Handwriting Recognition. Suvisoft, 2006.
[49] Greg Mori, Serge Belongie, and Jitendra Malik. Efficient shape matching using shape
contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(11):1832–1837, 2005.
[50] Ana Cris Murillo and J Kosecka. Experiments in place recognition using gist panoramas. In
Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on, pages
2196–2203. IEEE, 2009.
[51] Sameer A Nene, Shree K Nayar, Hiroshi Murase, et al. Columbia object image library (coil-20).
1996.
[52] Lucas PJJ Noldus, Andrew J Spink, and Ruud AJ Tegelenbosch. Ethovision: a versatile video
tracking system for automation of behavioral experiments. Behavior Research Methods, Instruments,
& Computers, 33(3):398–414, 2001.
[53] Timo Ojala, Matti Pietikäinen, and David Harwood. A comparative study of texture measures
with classification based on featured distributions. Pattern recognition, 29(1):51–59, 1996.
[54] Timo Ojala, Matti Pietikäinen, and Topi Mäenpää. Multiresolution gray-scale and rotation
invariant texture classification with local binary patterns. Pattern Analysis and Machine Intelligence,
IEEE Transactions on, 24(7):971–987, 2002.
[55] Aude Oliva and Antonio Torralba. Modeling the shape of the scene: A holistic representation
of the spatial envelope. International journal of computer vision, 42(3):145–175, 2001.
134
[56] Aude Oliva and Antonio Torralba. Building the gist of a scene: The role of global image
features in recognition. Progress in brain research, 155:23–36, 2006.
[57] Patrick Ott and Mark Everingham. Implicit color segmentation features for pedestrian and
object detection. In ICCV, pages 723–730, 2009.
[59] Constantine P Papageorgiou, Michael Oren, and Tomaso Poggio. A general framework for
object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE,
1998.
[61] Fatih Porikli. Integral histogram: A fast way to extract histograms in cartesian spaces. In
Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on,
volume 1, pages 829–836. IEEE, 2005.
[62] Dario Prandi, Ugo Boscain, and Jean-Paul Gauthier. Image processing in the semidiscrete
group of rototranslations. In International Conference on Networked Geometric Science of
Information, pages 627–634. Springer, 2015.
[63] Ryszard Raczka. Theory of group representations and applications. Polish scientific Publishers,
1977.
[64] Ferdinando S Samaria and Andy C Harter. Parameterisation of a stochastic model for human
face identification. In Applications of Computer Vision, 1994., Proceedings of the Second IEEE
Workshop on, pages 138–142. IEEE, 1994.
[65] Frederik Schaffalitzky and Andrew Zisserman. Multi-view matching for unordered image sets,
or “how do i organize my holiday snaps?”. In European conference on computer vision, pages 414–
431. Springer, 2002.
[66] Sam Schauland, Anton Kummert, Su-Birm Park, Uri Iurgel, and Yan Zhang. Vision-based
pedestrian detection–improvement and verification of feature extraction methods and svm-based
classification. In 2006 IEEE Intelligent Transportation Systems Conference, pages 97–102. IEEE, 2006.
[67] Cordelia Schmid and Roger Mohr. Local grayvalue invariants for image retrieval. IEEE
transactions on pattern analysis and machine intelligence, 19(5):530–535, 1997.
[68] Yunlong Sheng and Henri H Arsenault. Experiments on pattern recognition using invariant
fourier–mellin descriptors. JOSA A, 3(6):771–776, 1986.
[70] Phil Sheridan, Tom Hintz, and David Alexander. Pseudo-invariant image transformations on a
hexagonal lattice. Image and Vision Computing, 18(11):907–917, 2000.
135
[71] Phillip Sheridan. Spiral Architecture for machine vision. PhD thesis, 1996.
[72] Jamie Shotton, Toby Sharp, Alex Kipman, Andrew Fitzgibbon, Mark Finocchio, Andrew Blake,
Mat Cook, and Richard Moore. Real-time human pose recognition in parts from single depth images.
Communications of the ACM, 56(1):116–124, 2013.
[73] Laurent Sifre and Stéphane Mallat. Rotation, scaling and deformation invariant scattering for
texture discrimination. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 1233–1240, 2013.
[74] Fethi Smach, Cedric Lematre, Jean-Paul Gauthier, Johel Miteran, and Mohamed Atri.
Generalized fourier descriptors with applications to objects recognition in svm context. Journal of
Mathematical Imaging and Vision, 30(1):43–71, 2008.
[75] Franc Solina, Peter Peer, Borut Batagelj, Samo Juvan, and Jure Kovac. Color-based face
detection in the" 15 seconds of fame" art installation. 2003.
[76] Michael Reed Teague. Image analysis via the general theory of moments*. JOSA, 70(8):920–
930, 1980.
[77] Sebastian Thrun, Wolfram Burgard, and Dieter Fox. A real-time algorithm for mobile robot
mapping with applications to multi-robot and 3d mapping. In Robotics and Automation, 2000.
Proceedings. ICRA’00. IEEE International Conference on, volume 1, pages 321–328. IEEE, 2000.
[78] Sebastian Thrun et al. Robotic mapping: A survey. Exploring artificial intelligence in the new
millennium, 1:1–35, 2002.
[79] Engin Tola, Vincent Lepetit, and Pascal Fua. A fast local descriptor for dense matching. In
Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1–8. IEEE,
2008.
[80] Engin Tola, Vincent Lepetit, and Pascal Fua. Daisy: An efficient dense descriptor applied to
wide-baseline stereo. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 32(5):815–
830, 2010.
[81] Emanuele Trucco and Konstantinos Plakas. Video tracking: a concise survey. IEEE Journal of
Oceanic Engineering, 31(2):520–529, 2006.
[82] Tinne Tuytelaars and Luc Van Gool. Matching widely separated views based on affine
invariant regions. International journal of computer vision, 59(1):61–85, 2004.
[83] Vladimir Naumovich Vapnik and Vlamimir Vapnik. Statistical learning theory, volume 1. Wiley
New York, 1998.
[84] Paul Viola and Michael Jones. Rapid object detection using a boosted cascade of simple
features. In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE
Computer Society Conference on, volume 1, pages I–511. IEEE, 2001.
[85] Paul Viola and Michael J Jones. Robust real-time face detection. International journal of
computer vision, 57(2):137–154, 2004.
136
[86] Paul Viola, Michael J Jones, and Daniel Snow. Detecting pedestrians using patterns of motion
and appearance. International Journal of Computer Vision, 63(2):153–161, 2005.
[87] Åke Wallin and Olaf Kübler. Complete sets of complex zernike moment invariants and the
role of the pseudoinvariants. IEEE Transactions on Pattern Analysis & Machine Intelligence,
(11):1106–1110, 1995.
[88] Laurenz Wiskott, Jean-Marc Fellous, N Kuiger, and Christoph Von Der Malsburg. Face
recognition by elastic bunch graph matching. Pattern Analysis and Machine Intelligence, IEEE
Transactions on, 19(7):775–779, 1997.
[89] Jianxin Wu. Visual place categorization. PhD thesis, Georgia Institute of Technology, 2009.
[90] Jianxin Wu and James M Rehg. Centrist: A visual descriptor for scene categorization. Pattern
Analysis and Machine Intelligence, IEEE Transactions on, 33(8):1489–1501, 2011.
[91] Baochang Zhang, Shiguang Shan, Xilin Chen, and Wen Gao. Histogram of gabor phase
patterns (hgpp): a novel object representation approach for face recognition. Image Processing, IEEE
Transactions on, 16(1):57–68, 2007.
[92] Dengsheng Zhang and Guojun Lu. Generic fourier descriptor for shape-based image retrieval.
In Multimedia and Expo, 2002. ICME’02. Proceedings. 2002 IEEE International Conference on,
volume 1, pages 425–428. IEEE, 2002.
[93] Dengsheng Zhang and Guojun Lu. Shape-based image retrieval using generic fourier
descriptor. Signal Processing: Image Communication, 17(10):825–848, 2002.
[94] Dengsheng Zhang, Aylwin Wong, Maria Indrawan, and Guojun Lu. Content-based image
retrieval using gabor texture features. In IEEE Pacific-Rim Conference on Multimedia, University of
Sydney, Australia, pages 91–110, 2000.
[95] Wenchao Zhang, Shiguang Shan, Wen Gao, Xilin Chen, and Hongming Zhang. Local gabor
binary pattern histogram sequence (lgbphs): A novel non-statistical model for face representation
and recognition. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on,
volume 1, pages 786–791. IEEE, 2005.
137
138
Publications dans le cadre de la thèse
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157