These Bohi

Download as pdf or txt
Download as pdf or txt
You are on page 1of 157

ÉCOLE DOCTORALE MER ET SCIENCES

Laboratoire des Sciences de l’Information et des Systèmes

THÈSE
présentée par :

Amine BOHI
soutenue le : 22 mai 2017

pour obtenir le grade de Docteur en Informatique


Spécialité : Traitement et analyse d’images

Descripteurs de Fourier inspirés de la


structure du cortex visuel primaire humain
Application à la reconnaissance de navires dans le
cadre de la surveillance maritime

THÈSE dirigée par :

Frédéric BOUCHARA Maître de conférences, HDR, Université de Toulon


Jean-Paul GAUTHIER Professeur, Université de Toulon

JURY :

Johel MITERAN Professeur (Rapporteur)


Faculté Mirande, Dijon
William PUECH Professeur (Rapporteur)
Université de Montpellier
Yuliya TARABALKA Chargée de recherche (Examinateur)
Inria Sophia Antipolis
Nicole VINCENT Professeur (Examinateur)
Université Paris Descartes
Vincente GUIS Ingénieur de recherche (Co-Encadrant)
Université de Toulon
Dario PRANDI Chargé de recherche CNRS (Co-Encadrant)
Centrale Supelec

1
Thesis title: Fourier descriptors inspired by the
structure of the human primary visual cortex
Application to vessels recognition in the framework of maritime
surveillance.

Abstract

In this thesis, we develop a supervised object recognition method using new global image
descriptors inspired by the model of the human primary visual cortex V1. Mathematically
speaking, the latter is modeled as the semi-discrete roto-translation group
(semi-direct product between and . Therefore, our technique is based on
generalized and rotational Fourier descriptors defined in , and which are invariant
to natural geometric transformations (translations, and rotations). Furthermore, we show
that such Fourier descriptors are weakly complete, in the sense that they allow to distinguish
over an open and dense set of compactly supported functions in , hence
between real-world images. These descriptors are later used in order to feed a Support
Vector Machine (SVM) classifier for object recognition purposes. We have conducted a series
of experiments aiming both at evaluating and comparing the performances of our method
against existing both local - and global - descriptor based state of the art techniques, using
the RL, the CVL, and the ORL face databases, and the COIL-100 image database (containing
various types of objects). The obtained results have demonstrated that our approach was
able to compete with many existing state of the art object recognition techniques, and to
outperform many others. These results have also shown that our method is robust to noise.
Finally, we have applied the proposed method on vessels recognition in the framework of
maritime surveillance.

Keywords: Object recognition - Primary visual cortex V1 - Geometric transformation -


Local/global image descriptor - Generalized Fourier descriptor - Support Vector Machine -
Vessels recognition - Maritime surveillance.

2
Résumé

Dans cette thèse, nous développons une approche supervisée de reconnaissance d’objets
basée sur l’utilisation de nouveaux descripteurs d’images globaux inspirés du modèle du
cortex visuel humain primaire V1 en tant que groupe de roto-translations semi-
discrètes (produit semi-direct entre et . La méthode proposée
est basée sur des descripteurs de Fourier généralisés et rotationnels définis sur le
groupe , qui sont invariants aux transformations géométriques (translations, et
rotations). De plus, nous montrons que ces descripteur de Fourier sont faiblement complets,
dans le sens qu’ils permettent de discriminer sur un ensemble ouvert et dense
de fonctions à support compact, donc distinguer entre des images réelles. Ces descripteurs
sont ensuite utilisés pour alimenter un classifieur de type SVM dans le cadre de la
reconnaissance d’objets. Nous avons mené une séries d’expérimentations dans le but
d’évaluer notre méthode sur les bases de visages RL, CVL et ORL et sur la base d’images
d’objets variés COIL-100, et de comparer ses performances à celles des méthodes basées sur
des descripteurs globaux et locaux. Les résultats obtenus ont montré que notre approche est
en mesure de concurrencer de nombreuses techniques de reconnaissance d’objets
existantes et de surpasser de nombreuse autres. Ces résultats ont également montré que
notre méthode est robuste aux bruits. Enfin, nous avons employé la technique proposée
pour reconnaître des navires dans un contexte de surveillance maritime.

Mots-clefs : Reconnaissance d’objets – Cortex visuel primaire V1 – Transformations


géométriques – Descripteur d’images local/global – Descripteur de Fourier généralisé –
Machines à vecteurs de supports – reconnaissance de navires – Surveillance maritime.

3
Remerciements

Une thèse est un effort collectif et il est utopique de croire qu’un thésard solitaire
puisse s’épanouir et réaliser un travail original.

Cet ouvrage est tout d’abord le fruit d’une collaboration entre le Laboratoire des
Sciences de l’Information et des Systèmes (LSIS) de l’Université de Toulon et l’entreprise
Opéra Ergonomie.

Je tiens donc à exprimer ma profonde gratitude et mon profond respect ainsi que
mes vifs remerciements à mes directeurs de thèse : Frédéric BOUCHARA et Jean-Paul
GAUTHIER, ainsi qu’à mes tuteurs au sein d’Opéra Ergonomie, pour leur patience, leurs
explications et leurs critiques toujours éclairées. J’ai tout particulièrement apprécié
l’autonomie qu’ils m’ont accordée dans les choix et les orientations de mon travail. J’adresse
également mes remerciements à Vincente GUIS et Dario PRANDI pour leurs précieux conseils
qui m’ont grandement aidé dans mes travaux, ainsi que leur disponibilité et leur gentillesse
en toute circonstance. Je veux aussi témoigner de ma gratitude à mes collègues Ikhlef
BECHAR, Kheireddine AZIZ et à mon ami Badr BOUKKOURI, pour avoir partagé avec et dans
la bonne humeur de nombreux problèmes, soucis administratifs et autres situations
inextricables. Je remercie également toute l’équipe Signal/Image du Laboratoire LSIS avec
qui j’ai eu le plaisir à travailler.

J’adresse évidemment un grand merci aux doctorants du laboratoire qui ont croisé
ma route, qu’ils m’aient précédé ou suivi : Omar CHERRAK, Rémy ANDRE, Diogon SYLLA,
Victor MURANDI, Cécile PESCHOUD, Vincent MARIÉ, Emilien ROYER, Vincent MARTIN, ainsi
qu’à tous les étudiants ou stagiaires que j’ai côtoyés qui sont tous révélés être des collègues
très sympathiques.

J’adresse également des remerciements tout particuliers aux rapporteurs, les


professeurs Johel MITERAN et William PUECH qui ont pris le temps de lire et évaluer mes
travaux ainsi que pour leurs remarques judicieuses.

Je remercie enfin l’ensemble des membres du jury pour l’intérêt qu’ils ont porté à
mes travaux.

Je terminerai en remerciant ma famille qui m’a toujours soutenu, et ce quoi que je


fasse.

4
Sommaire

Abstract ................................................................................................................................................... 2
Résumé .................................................................................................................................................... 3
Remerciements ....................................................................................................................................... 4
Liste des figures ....................................................................................................................................... 8
Liste des Tableaux ................................................................................................................................. 10
Chapitre 1 : Introduction générale ........................................................................................................ 12
1. Contexte .................................................................................................................................... 12
2. Contributions ............................................................................................................................. 12
3. Organisation du manuscrit ........................................................................................................ 13
Chapitre 2 : Descripteurs d’images ....................................................................................................... 15
1. Introduction ............................................................................................................................... 15
2. Descripteurs locaux ................................................................................................................... 16
2.1. Haar ................................................................................................................................... 16
2.2. SIFT .................................................................................................................................... 20
2.3. RIFT .................................................................................................................................... 27
2.4. DSIFT (SIFT denses) ............................................................................................................ 29
2.5. SURF................................................................................................................................... 30
2.6. GLOH.................................................................................................................................. 32
2.7. DAISY ................................................................................................................................. 34
2.8. MOPS ................................................................................................................................. 36
2.9. Shape Context ................................................................................................................... 36
2.10. Histogrammes de gradients orientés ............................................................................ 39
2.11. Descripteurs binaires ..................................................................................................... 44
3. Descripteurs globaux ................................................................................................................. 48
3.1. Filtres de Gabor ................................................................................................................. 48
3.2. GIST .................................................................................................................................... 56
3.3. Les moments géométriques .............................................................................................. 58
3.4. Les moments orthogonaux ................................................................................................ 59
3.5. Les descripteurs de Fourier ............................................................................................... 61
4. Conclusion ................................................................................................................................. 68
Chapitre 3 : Descripteurs de Fourier généralisés et rotationnels ......................................................... 70
1. Introduction ............................................................................................................................... 70

5
2. Préliminaires .............................................................................................................................. 70
2.1. Analyse harmonique sur les groupes abéliens localement compacts .............................. 71
2.2. La transformée de Fourier sur les groupes non-commutatifs localement compacts ....... 72
2.3. Contexte de notre travail .................................................................................................. 74
2.4. Fonctions faiblement cycliques ......................................................................................... 77
3. Descripteurs de Fourier dans les groupes ................................................................................. 78
3.1. Invariants spectraux et bi-spectraux ................................................................................. 78
3.2. Invariants spectraux et bi-spectraux sur les groupes abéliens localement compacts ...... 80
3.3. Invariants spectraux et bi-spectraux sur ........................................................... 81
4. Descripteurs de Fourier basés sur la structure du cortex visuel primaire humain V1 .............. 83
4.1. Présentation du pipeline naturel pour la reconnaissance d’objets .................................. 83
4.2. Présentation du modèle mathématique du cortex visuel primaire V1 ............................. 86
4.3. La non-applicabilité du théorème de la complétude dans ................................ 87
4.4. Les invariants spectraux et bi-spectraux rotationnels et leur complétudes dans
88
5. Le calcul pratique des descripteurs de Fourier ......................................................................... 92
6. Conclusion ................................................................................................................................. 93
Chapitre 4 : Résultats et expérimentations ........................................................................................... 96
1. Introduction ............................................................................................................................... 96
2. Evaluation des descripteurs de Fourier ..................................................................................... 97
2.1. Les bases d’images utilisées .............................................................................................. 97
2.2. Extraction des descripteurs ............................................................................................. 102
2.3. Expérimentations ............................................................................................................ 104
3. Application à la surveillance maritime .................................................................................... 114
3.1. Navires subissant des rotations 2D ................................................................................. 114
3.2. Navires sous différents angles de vue ............................................................................. 115
4. Conclusion ............................................................................................................................... 117
Chapitre 5 : Conclusion et perspectives .............................................................................................. 119
1. Conclusion ............................................................................................................................... 119
2. Perspectives............................................................................................................................. 120
Annexes ............................................................................................................................................... 123
A. Décomposition du produit tensoriel des représentations ...................................................... 123
B. Lemmes auxiliaires pour la démonstration du théorème 3.3.1 .............................................. 124
C. Machines à vecteurs de support (SVM) .................................................................................. 128

6
Bibliographie........................................................................................................................................ 131
Publications dans le cadre de la thèse ................................................................................................ 139

7
Liste des figures

Figure 1: Exemples de Descripteurs rectangulaires de Haar [43] ......................................................... 17


Figure 2 : Descripteurs de Haar dans une fenêtre de taille fixe: à 2, 3 et 4 rectangles [84] ................. 18
Figure 3 : Description complète d’un descripteur de Haar [43] ............................................................ 18
Figure 4 : Exemple de calcul de l'image intégrale ................................................................................. 19
Figure 5 : Image Intégrale [85] .............................................................................................................. 19
Figure 6 : Calcul de la somme du rectangle D avec l'image intégrale [84] ............................................ 20
Figure 7 : Différence de Gaussiennes [45, 44]....................................................................................... 22
Figure 8 : Recherche d'extrema dans DoG [45, 44] ............................................................................... 23
Figure 9 : Illustration de la construction de l'histogramme des orientations ....................................... 26
Figure 10 : Construction d'un descripteur SIFT ..................................................................................... 27
Figure 11 : Construction du descripteur RIFT [42] ................................................................................ 28
Figure 12 : Extraction de l'angle avec invariance à la rotation.............................................................. 29
Figure 13 : Opérateurs de dérivation d’ordre 2 discrétisés et dérivées d’ordre 2 de la gaussienne [3]31
Figure 14 : Blobs détectés [3] ................................................................................................................ 31
Figure 15 : La structure du descripteur SURF [4] .................................................................................. 32
Figure 16 : Structure de la fenêtre de calcul du SIFT, Structure de la fenêtre du calcul du GLOH [36] 33
Figure 17 : La structure du masque d’analyse du descripteur GLOH [47]............................................. 33
Figure 18 : La structure du masque d’analyse du descripteur DAISY [80] ............................................ 35
Figure 19 : Structure des descripteurs MOPS [14] ................................................................................ 36
Figure 20: Diagramme d’histogramme log-polaire ............................................................................... 37
Figure 21 : Comparaison des contextes de forme de deux versions différentes de la lettre "A" [5].... 38
Figure 22 : Chaîne d'extraction des descripteurs HoG proposée par Dalal et Triggs dans [17] ............ 40
Figure 23 : (a) image d'un piéton en niveau de gris normalisée, (b) composante horizontale du
gradient, (c) composante verticale du gradient, (d) la norme de gradient [18] .................................. 42
Figure 24 : Construction du HoG d'une image ...................................................................................... 42
Figure 25 : Les étapes de calcul du LBP ................................................................................................. 44
Figure 26 : Détection de contours par le filtre de Sobel [89, 90] .......................................................... 45
Figure 27 : Exemple d'une image transformée par la Census Transform [89, 90] ................................ 46
Figure 28 : Histogrammes des sous-régions de la Census Transform [89, 90]...................................... 47
Figure 29 : Illustration des contraintes entre les valeurs de la CT des pixels voisins [89, 90]............... 47
Figure 30 : Filtres de Gabor à différentes échelles et fréquences spatiales ......................................... 49
Figure 31 : Filtre de Gabor (a) en partie réelle (b) les modules de 5 fréquences ................................. 50

8
Figure 32 : Transformation de Gabor (a) en module (b) en phase........................................................ 50
Figure 33 : QBC de phase de Gabor [91] ............................................................................................... 52
Figure 34 : Patterns GGPP (a) partie réelle (b) partie imaginaire [91] .................................................. 53
Figure 35 : Illustration de l’opérateur LXP [91] ..................................................................................... 54
Figure 36 : Patterns LGPP (a) partie réelle (b) partie imaginaire [91] ................................................... 54
Figure 37 : (a) sous-régions de LGPP (b) diagramme général de HGPP [91]............................... 56
Figure 38 : Principe du descripteur GIST [58] ........................................................................................ 57
Figure 39 : Les polynômes de Zernike au 5 premiers ordres ................................................................ 60
Figure 40 : Reconstruction des formes de quatre images de papillons en fonction du nombre de
descripteurs invariants utilisés pour la reconstruction (TFMA) [33] ..................................................... 62
Figure 41 : (a) l'image originale dans l'espace polaire; (b) l'image polaire de (a) dans tracée dans
l'espace cartésien [92] ........................................................................................................................... 64
Figure 42 : (a) un motif et son spectre de Fourier; (b) le motif pivoté de (a) et son spectre de Fourier;
(c) l'image polaire de (a) et son spectre de Fourier; (d) l'image polaire de (b) et son spectre de Fourier
[92] ........................................................................................................................................................ 65
Figure 43: Rotation de la tranche de camembert par ................................................ 76
Figure 44 : Log du Power Spectrum d'une image synthétique et sa version pivotée ........................... 79
Figure 45 : Pipeline naturel pour la reconnaissance d'objets ............................................................... 85
Figure 46 : Base des images synthétiques ............................................................................................. 97
Figure 47: Extrait de la base RL ............................................................................................................. 98
Figure 48: Extrait de la base CVL ........................................................................................................... 99
Figure 49: Trois expressions faciales extraites de la base CVL .............................................................. 99
Figure 50 : Base de visages ORL ............................................................................................................ 99
Figure 51 : Exemples de visages enregistrés sous des vues différentes ............................................. 100
Figure 52: Base de visages Sheffield.................................................................................................... 100
Figure 53: Base de visages Extended Yale B ........................................................................................ 101
Figure 54 : Les 100 objets de COIL-100 ............................................................................................... 101
Figure 55 : Exemples d'objets vus sous des angles différents ............................................................. 102
Figure 56 : Etapes de calcul des descripteurs de Fourier .................................................................... 103
Figure 57: Test sur la base d'images synthétiques .............................................................................. 106
Figure 58 : Exemple d'images bruitées pour un objet de la base COIL-100 ........................................ 112
Figure 59: Taux de reconnaissance pour différentes tailles de la base d'apprentissage .................... 113
Figure 60: Exemples de bateaux qui ont subit des rotations 2D......................................................... 114
Figure 61: Exemples de bateaux qui ont subit des transformations générales .................................. 116
Figure 62: Principe de l'architecture hexagonale en spiral ................................................................. 121

9
Liste des Tableaux

Tableau 1 : Dimension des vecteurs descripteurs de Fourier considérés ........................................... 104


Tableau 2: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages RL....... 107
Tableau 3: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages CVL .... 108
Tableau 4: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages ORL .... 109
Tableau 5: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages Sheffield
............................................................................................................................................................. 110
Tableau 6: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages Extended
Yale B ................................................................................................................................................... 111
Tableau 7: Le taux de reconnaissance pour chaque descripteur en utilisant la base de données COIL-
100 (cas non-bruité) ............................................................................................................................ 113
Tableau 8: taux de classification pour le cas bruité de la base COIL-100............................................ 114
Tableau 9: Résultats obtenus pour la base de navires 2D .................................................................. 115
Tableau 10: Résultats obtenus sur la base de navire "Marine Traffic" ............................................... 117

10
11
Chapitre 1 : Introduction générale

1. Contexte
La tâche de description d’images est primordiale dans la plupart des applications en vision
par ordinateur. Il s’agit entre autres de : la reconnaissance d’objets [44, 6, 74], la recherche
d’images [46, 67], la reconnaissance de texture [42], la mise en correspondance d’images
[82, 65].

Cette thèse est une contribution dans le domaine de la reconnaissance d’objets dans les
images couleurs. Ici nous adoptons l’approche classique qui repose sur l’utilisation d’une
méthode de classification supervisée prenant en entrée des vecteurs descripteurs d’images
issues des bases de données considérées.

La finalité de la tâche de description d’images est de fournir une représentation d’image


compacte, distinctive et invariante aux transformations géométriques d’images, changement
de luminosité, occlusions et bruits. A cette fin, différentes méthodes ont été proposées, qui
peuvent être classées en deux grandes catégories : locales où l’image est représentée par un
ensemble de descripteurs locaux [45, 11, 42, 47, 79, 14, 17, 84, 4, 5, 53, 90], et globales qui
utilisent un unique vecteur descripteur [55, 91, 39, 76, 68, 21, 92, 74].

Un descripteur d’images efficace doit discriminer différents types d’images qui ont subit
différentes transformations géométriques (rotations, translations, changement d’échelle) et
qui sont soumises à des altérations complexes (ajout de bruit, changement de luminosité,
occlusions...).

2. Contributions
Les travaux réalisés au cours de cette thèse s’articulent autour d’un axe principal de
recherche ayant pour but de proposer une nouvelle solution de reconnaissance automatique
d’objets basée sur des descripteurs de Fourier.

Une première contribution sera le développement d’un ensemble de descripteurs de Fourier


nommés par la suite « Rotational Fourier Descriptors » (RBS et RPS pour Rotational Bi-
Spectrum invariant et Rotational Power-Spectrum invariant, respectivement), basés sur la

12
structure du cortex visuel primaire humain V1 qui est modélisé mathématiquement par un
groupe de roto-translations semi-discrètes . Dans ce modèle, les
stimuli corticaux sont des fonctions dans l’espace des fonctions de carré
intégrable, par rapport à la mesure de Haar de , et les images provenant du plan
visuel sont relevées à des stimuli corticaux par l’intermédiaire d’une opération de
relèvement injectif et invariant à gauche .

Enfin, la deuxième contribution dans cette thèse sera l’association de ces descripteurs de
Fourier à un classifieur pour résoudre le problème de reconnaissances de navires, dans le
cadre de la surveillance maritime.

3. Organisation du manuscrit
Cette thèse comprend trois chapitres, les deux premiers introduisent des notions théoriques,
le dernier les valident par des tests et des expérimentations.

Nous commençons dans le premier chapitre par un état de l’art des descripteurs d’images
locaux et globaux utilisés pour la reconnaissance d’objet, domaine dans lequel la notion de
l’invariance aux transformations géométriques, la robustesse aux bruits, aux changements
de luminosité, et aux occlusions, est centrale.

Dans le deuxième chapitre, nous introduisons un nouvel ensemble de descripteurs de


Fourier dits « rotationnels » basés sur la structure du cortex visuel primaire humain V1. Nous
commençons d’abord par présenter quelques notions préliminaires sur l’analyse
harmonique (i.e. l’étude de la transformée de Fourier et ses propriétés) sur les groupes
abéliens et non-abéliens localement compacts. Ensuite, nous présentons les invariants
spectraux et bi-spectraux, ainsi que leurs propriété de complétude (i.e. capacité de
discrimination) dans les groupes abéliens localement compacts et dans le groupe dérivé de
produit semi-direct défini dans la section 2.3 par . Dans la
section d’après, nous introduisons les descripteurs de Fourier rotationnels basés sur la
structure du cortex visuel primaire humain V1. Enfin, pour clore le chapitre, nous présentons
quelques techniques pour le calcul pratique de ces descripteurs.

13
Le troisième, et dernier chapitre, a pour objectif d’évaluer les performances de notre
ensemble de descripteurs de Fourier, dans un contexte de reconnaissance d’objets. A cette
fin, nous proposons d’utiliser une structure classique basée sur un descripteur et un
classifieur, et nous menons une série de tests et d’expérimentations sur des bases d’images
différentes afin de comparer notre ensemble de descripteurs de Fourier aux principaux de la
littérature, tel que les descripteurs locaux SIFT et les histogrammes de gradients orientés, et
les descripteurs globaux représentés par les moments de Zernike et de Hu, et les invariants
de Fourier-Mellin. Enfin, nous évaluons ces descripteurs de Fourier pour une problématique
de reconnaissance de navires dans un contexte de surveillance maritime.

14
Chapitre 2 : Descripteurs d’images

1. Introduction
La description de l’image est souvent l’étape principale, pour plusieurs applications de
traitement d’images. Celles-ci incluent, par exemple, le suivi par vidéo [81, 28, 52], la
localisation et cartographie pour robots mobiles [77, 78], et la reconnaissance d’objet [44,
6].

La raison principale derrière cette étape de description d’image est de fournir une
représentation de l’image, compacte, distinctive et invariante (robuste) aux transformations
géométriques et aux altérations simples et complexes.

Dans ce but, de nombreux algorithmes d’extraction de descripteurs ont été proposés dans la
littérature de traitement d’images, et qui peuvent être classés en deux grandes catégories,
approches locales et globales :

 Locale : basée sur des méthodes locales, l’image est représentée par un ensemble de
descripteurs locaux qui encodent les propriétés (e.g, distribution, variation, …) des
informations collectées au voisinage du point caractéristique considéré. Cette
catégorie comprend plusieurs types de descripteurs, on peut citer:
- Ceux basés sur le calcul des orientations du gradient comme SIFT [45], DSIFT [11],
RIFT [42], GLOH [47], DAISY [79], MOPS [14] et HOG [17].
- Ceux basés sur l’utilisation de l’image intégrale comme les caractéristiques de
Haar [84] et les descripteurs SURF [4] (basés sur le même principe que SIFT).
- Autres types de descripteurs locaux comme le Shape Context [5] utilisé pour la
description de la forme et les descripteurs binaires LBP [53] et Centrist [90] (basé
sur la Census Transform).

 Globale : pour les méthodes globales, une image est représentée par un unique
descripteur (vecteur), qui encode les propriétés (e.g, distribution, variation, …) des
informations disponibles sur l’ensemble de l’image. Cette catégorie comprend :

15
- Les descripteurs basés sur les filtres de Gabor comme GIST [55] et HGPP [91]
(Histogrammes de Gabor Phase Patterns) qui encodent les informations de phase
de Gabor.
- Les descripteurs basés sur les moments géométriques (Hu) [39] et orthogonaux
(Zernike) [76].
- Les descripteurs exploitant les propriétés de la transformée de Fourier comme les
descripteurs de Fourier-Mellin (FMT) [68, 21], Fourier génériques [92] et Fourier
généralisés [74].

Une méthode de description d’images efficace doit fonctionner indifféremment tout en


maintenant de bonnes performances (i.e., caractère distinctif et robustesse) sur différents
types d’images et sous des altérations difficiles. Ceux-ci incluent, par exemple, les problèmes
qui se posent avec des images extraites de scènes homogènes et texturées, ou avec celles
soumises à des transformations géométriques compliquées.

Pour contourner ces problèmes, plusieurs techniques ont été suggérées. Nous les
présenterons en détails dans les deux sections suivantes.

2. Descripteurs locaux

2.1. Haar

2.1.1. Extraction des caractéristiques de Haar


Les valeurs d'un pixel nous informent sur la luminance et la couleur d'un point donné.
Cependant, pour être à la fois plus efficace et plus rapide, Il est plus judicieux d’utiliser des
caractéristiques plus globales de l'objet, c'est-à-dire des représentations synthétique et
informative, calculée à partir des valeurs des pixels. C'est le cas des descripteurs de Haar ou
pseudo-Haar définis dans [84]. Les descripteurs de Haar sont des fonctions permettant de
connaître la différence de contraste entre deux ou plusieurs régions rectangulaires
adjacentes. La Figure 1 donne des exemples des caractéristiques rectangulaires de Haar les
plus utilisées, dans lesquelles la somme de pixels sombres est soustraite de la somme des
pixels blancs. La valeur du descripteur de Haar est obtenue grâce à la relation suivante :

16
Où représente l’intensité dans l’image.

Figure 1: Exemples de Descripteurs rectangulaires de Haar [43]

Ces descripteurs sont calculés dans une fenêtre glissante de taille fixe (par exemple 24x24
pixels). Généralement, on trouve 3 sortes de descripteurs de Haar: à 2 rectangles, à 3
rectangles et à 4 rectangles (Figure 2). Les descripteurs à 2 rectangles sont utilisés
horizontalement et verticalement (Figure 2: A et B). Les zones blanches ont des poids positifs
et celles noires ont des poids négatifs.

17
Figure 2 : Descripteurs de Haar dans une fenêtre de taille fixe: à 2, 3 et 4 rectangles [84]

Un descripteur de Haar est caractérisé par les paramètres suivants: le nombre de rectangles
utilisées par filtre, la position de chaque filtre dans la fenêtre (c’est le coin supérieur
gauche), la largeur w et la hauteur h de chaque filtre avec
, et enfin les poids positifs ou négatifs attribué à chaque filtre. Une description
complète d’un exemple de descripteur de Haar est donnée dans la Figure 3.

Figure 3 : Description complète d’un descripteur de Haar, H et W représentent la taille de la fenêtre [43]

Les descripteurs de Haar sont très simples à calculer mais très nombreux du fait du balayage
de toute l’image avec des fenêtres de taille et de position variable. Selon [84], pour une
fenêtre donnée de résolution 24x24 pixels, on peut définir environ 160 000 détecteurs
possibles dans cette fenêtre.

18
L’opération de balayage de toute l'image par une sous-fenêtre de taille et de position
variable est trop coûteuse en temps. Pour contourner ce problème, Viola et Jones ont
introduit l’idée d’image intégrale afin d’optimiser le calcul.

2.1.2. Image intégrale


L'image intégrale est une nouvelle représentation sous la forme d’une image, de même taille
que l’image d’origine, qui va permettre de calculer plus rapidement les attributs du
descripteur. L'idée est de calculer seulement une fois la somme de tous les pixels de l'image
[84]. Le pixel à la position de l'image intégrale contient la somme de tous les pixels
situés au-dessus de lui, à sa gauche et lui même (voir la Figure 4 et la Figure 5).

Figure 4 : Exemple de calcul de l'image intégrale

Figure 5 : Image Intégrale (la valeur de l’image intégrale au point est égale à la somme de tous les pixels situés au-
dessus et à sa gauche [85]

L’image intégrale au point est définie à partir de l’image d’origine par :

19
La somme des valeurs des pixels dans le rectangle D (Figure 6) peut être calculée avec
seulement quatre références. La valeur de l’image intégrale à l’endroit 1 est la somme des
valeurs des pixels dans le rectangle A. la valeur à l’endroit 2 est , à l’endroit 3
est , et à l’endroit 4 est . La somme dans D peut donc être calculée
par : .

Grâce à cette représentation, une caractéristique à 2 rectangles peut donc être calculée en
seulement 6 accès à l’image intégrale, et donc en un temps constant quelle que soit la taille
de la caractéristique.

Figure 6 : Calcul de la somme du rectangle D avec l'image intégrale [84]

D’autre formes et orientations de descripteurs de Haar ont été proposées. Parmi ces travaux
les exploitant, on peut citer ceux de [43] pivoté à 45 degrés.

2.2. SIFT

2.2.1. Description de la méthode SIFT


SIFT (Scale-invariant feature transform) est une approche proposée et développée par David
Lowe [45, 44] pour détecter des points d’intérêt et d’extraire des caractéristiques
distinctives afin de les identifier entre différentes images. La force des caractéristiques de
SIFT est qu’elles sont invariantes à la rotation, à la translation, à l’échelle et partiellement
invariantes aux changements d’illumination et de projection affine et 3D.

20
Lowe propose une approche constituée de deux parties :

- Une partie pour la détection et l’extraction de caractéristiques sur les points


d’intérêt.
- Une partie pour la mise en correspondance

Cependant, c’est la première partie qui a assuré la popularité de la méthode de Lowe et elle
se déroule en quatre étapes principales :

- Détection d’extrema d’espace-échelle (scale-space),


- Localisation des points d’intérêt,
- Choix de l’orientation des descripteurs,
- Calcul des Descripteurs.

Nous détaillerons pas à pas les différentes étapes de cette approche.

2.2.2. Détection d’extrema d’espace-échelle


La détection d’extrema se fait dans un espace discret appelé « espace des échelles » (scale
space en anglais) qui comporte trois dimensions (les coordonnées cartésiennes et et le
facteur d’échelle ). Soit une image et un noyau gaussien de paramètre d’échelle , on
appelle le gradient de facteur d’échelle (noté ) le résultat de la convolution de par et
il est donné par:

Avec

La convolution de l’image originale par le filtre gaussien permet de lisser l’image de telle
sorte que les détails trop petits sont estompés. Par conséquent, la détection des extrema
dans l’espace des échelles s’effectue en utilisant la fonction Différence de Gaussiennes
(DOG) définie comme la différence de deux images filtrées par un noyau gaussien, séparées
par un facteur . La fonction DOG est définie comme suit :

21
Où est un paramètre multiplicatif fixe (généralement fixé à ) qui dépend de la finesse de
la discrétisation de l’espace des échelles voulue.

Afin d’optimiser le calcul des images floutées à un grand nombre d’échelles, Lowe utilise une
pyramide dont la base est l’image originale et chaque niveau (octave) est obtenu à partir du
niveau précédent en divisant la résolution de l’image par 2, c.à.d. doubler le facteur
d’échelle. Le nombre d’intervalles par octave est définit par (Figure 7).

Pour chaque octave de l’espace des échelles, l’image initiale est successivement convoluée
par une gaussienne pour produire les différentes images à échelle. La différence entre
images à échelle successive est calculée pour produire la DoG correspondante comme
montré à droite. Après chaque octave, l’image gaussienne est sous échantillonnée d’un
facteur 2, et le processus recommence.

Figure 7 : Différence de Gaussiennes [45, 44]

Un point-clé candidat retenu correspond à un extremum local du DoG. Chaque


point est comparé à ses 8 voisins immédiats et aux 9 voisins des niveaux (ou échelles)
supérieurs et inférieurs comme le montre la Figure 8 (typiquement un voisinage de

22
type ), c’est-à-dire on a besoin d’un ensemble contenant 26 comparaisons défini
par :

Si la valeur du pixel est supérieure ou inférieure aux valeurs des pixels testés, on retient le
point.

Figure 8 : Recherche d'extrema dans DoG [45, 44]

2.2.3. Localisation précise des points d’intérêt


Une interpolation de la fonction a pour but : d’une part, de raffiner la position des
points d’intérêt pour obtenir une localisation plus précise en espace et en échelle, d’autre
part, d’éliminer les points de faible contraste ou situés sur des arêtes de contour à faible
courbure et donc susceptible de glisser facilement. En appliquant le développement
polynomial de Taylor à l’ordre 2 sur la fonction autour du point-clé candidat, on
obtient :

Où est le décalage par rapport au point d’intérêt selon les 3


dimensions . La position précise de l’extremum local est obtenue en annulant la
dérivée de la fonction précédente par rapport à . On obtient donc:

23
Si est supérieur à un seuil égal à 0.5 dans l’une des trois dimensions, cela signifie que
l’extremum se trouve plus près d’un des points voisins dans l’espace des échelles. Dans ce
cas, on recommence cette interpolation autour du point voisin le plus proche. Sinon,
l’extremum est ajouté à la position du point candidat initial interpolé pour déterminer la
position exacte de l’extrema.

Pour rejeter les points-clé de faible contraste, il suffit d’évaluer la fonction à l’extrema .
En cette position on a :

Pour les points de faible contraste, la valeur absolue de la fonction est petite, il suffit
donc d’appliquer un seuillage pour les éliminer.

Finalement une analyse des rapports des valeurs propres de la matrice hessienne carrée
permet d’éliminer les points d’intérêt détectés sur des contours à faible courbure. Pour
rappel, la matrice hessienne (ou simplement la hessienne) d’une fonction numérique est la
matrice carée, noté , de ses dérivées partielles secondes de la gaussienne. Cette
matrice est définie par :

Si une des valeurs propres est très supérieure à l’autre, alors le point détecté est sur un
contour (Forte variation uniquement dans un sens), sinon il s’agit d’un coin (Forte variation
dans tous les sens).

Les points détectés sur un contour peuvent être filtrés facilement en analysant la trace et le
déterminant de la matrice hessienne . On peut écrire :

Avec . Ce ratio augmente quand augmente, on peut donc filtrer les points où ce ratio

est inférieur à un seuil (Lowe utilise un seuil égal à 10).

24
2.2.4. Assignation d’orientation
L’étape suivante consiste à attribuer à chaque point-clé sélectionné une ou plusieurs
orientations déterminées localement sur l’image et qui correspondent à la direction
majoritaire des gradients spatiaux d’intensité calculés dans un voisinage autour du point
d’intérêt à l’échelle préalablement déterminée. Cette étape est primordiale pour garantir
l’invariance des descripteurs SIFT à la rotation.

Pour un point donné , le calcul est réalisé sur l’image , à savoir le


gradient de la pyramide dont le facteur d’échelle est le plus proche de celui du point. De
cette manière, les calculs sont effectués dans un contexte indépendant de l’échelle. À
chaque position dans un voisinage du point , on estime le gradient par différences
finies symétriques, puis son amplitude (c.-à-d. sa norme) , et son
orientation dont leurs formules sont données par:

Un histogramme est constitué à partir de l’orientation des gradients des points sur le
voisinage du point d’intérêt (Figure 9). L’histogramme est réalisé avec 36 bins (c.-à-d.
intervalles), couvrant chacun 10 degrés d’angle. L’histogramme est doublement pondéré :
d’une part, par une fenêtre gaussienne circulaire d’écart type de 1,5 fois l’échelle du point,
d’autre part, par l’amplitude du gradient de chaque point.

L’orientation du point correspond au pic maximal de l’histogramme. Tout pic supérieur à


80% de la valeur du pic maximal est aussi pris en considération, ce qui provoque si
nécessaire la génération de nouveaux points supplémentaires à la même échelle et la même
position.

25
Figure 9 : Illustration de la construction de l'histogramme des orientations. A gauche : gradients des pixels définissant le
voisinage du point, au centre : histogrammes des orientations à 36 bins, à droite : extraction des orientations
dominantes

2.2.5. Descripteur de point d’intérêt


Une fois les points détectés et qu’on leur ait associé des facteurs d’échelle et des
orientations, et assuré leur invariance aux changements d’échelles et aux rotations, on
calcule un descripteur pour chaque point. À cette occasion, Lowe propose des traitements
supplémentaires permettant de rendre également les descripteurs invariants à d’autres
transformations telles que les changements affines de l’éclairage et de point de vue 3D, etc.
Cette étape est réalisée sur l’image lissée avec le paramètre de facteur d’échelle le plus
proche de celui du point considéré.

Afin de garantir l’invariance à la rotation, on modifie le système de coordonnée local autour


du point d’intérêt considéré, en utilisant une rotation d’angle égal à l’orientation du point,
mais de sens opposé. À partir d’une fenêtre , toujours autour de ce point, on calcule
l’histogramme des orientations par sous-fenêtres de taille , orientés selon l’orientation
principale du point calculée dans l’étape antérieure. En chaque point de ces sous-fenêtres,
l’orientation et la norme du gradient sont calculés comme précédemment. L’orientation
détermine l’intervalle à incrémenter dans l’histogramme, ce qui nécessite, d’une part, une
pondération par la norme du gradient, et d’autre part, par un noyau gaussien centré au
point d’intérêt et d’écart type fois la taille de la fenêtre de calcul du descripteur.

26
Figure 10 : Construction d'un descripteur SIFT à partir de gradients calculés dans une fenêtre 1

L’étape suivante consiste à concaténer et normaliser les seize histogrammes à huit


intervalles chacun. Dans le but de limiter la sensibilité du descripteur aux changements de
luminosité, les valeurs sont plafonnées à et l’histogramme est de nouveau normalisé, le
résultat est un vecteur descripteur de éléments.

2.3. RIFT
RIFT (Rotation invariant Feature Transform) est un descripteur invariant par rotation dérivé
de SIFT, adapté aux images texturées pour lesquelles la notion d'orientation principale n'a
pas vraiment de sens. Le SIFT original a été noté pour sa performance supérieure dans
différentes applications, cependant, et d’après [42], il ne peut pas être utilisé directement
pour la représentation de la texture, car il dépend de trouver l’orientation dominante dans
un patch normalisé. Le descripteur RIFT est construit de la manière suivante : d’abord on
décompose l’image en patches normalisés dans lesquels on calcule un histogramme
d’orientations de gradient. La différence avec le SIFT est qu’on utilise là des patches divisés
en anneaux concentriques et que les orientations du gradient en un point sont calculées par
rapport à la direction du centre en ce point (Figure 11).

https://upload.wikimedia.org/wikipedia/commons/6/6b/SIFT_gradient_magnitude_and_orientation_computat
27
Figure 11 : Construction du descripteur RIFT [42]

Pour chaque région, on note la position centrale par , pour une position
aléatoire dans cette région, les gradients dans les directions horizontales et
perpendiculaires sont donnés par :

L’amplitude du gradient est et son orientation .

Pour garantir l’invariance à la rotation, l’orientation du gradient du point est mesurée à


chaque point par rapport à la direction pointant vers l’extérieur à partir du point central, elle
est donnée par :

Où la direction par rapport au centre est :

Lorsque l’image tourne, ne changera pas, d’où l’invariance à la rotation illustrée dans
la Figure 12.

28
Figure 12 : extraction de l'angle avec invariance à la rotation

Une fois que l’invariance à la rotation est obtenue pour chaque point de la région locale,
l’histogramme peut être facilement calculé. Le descripteur de caractéristiques RIFT est défini
comme , avec est la fenêtre gaussienne. Finalement, le
descripteur final RIFT est obtenu par :

Dans [42], les auteurs utilisent quatre anneaux et huit histogrammes d’orientations, ce qui
donne des descripteurs de taille 32.

2.4. DSIFT (SIFT denses)


Le SIFT dense (DSIFT) est une variante de SIFT avec des descripteurs extraits à de multiples
échelles. Ici les descripteurs SIFT sont calculés à des points sur une grille régulière avec un
espacement de pixels, une échelle et une orientation fixée. Dans [11], les auteurs
choisissent et . Au niveau de chaque point de la grille des descripteurs SIFT
sont calculés sur des patchs circulaires avec des rayon et/ou pixels. En
conséquence, chaque point est représenté par descripteurs SIFT (où est le nombre de
patchs circulaires), chacun de taille 128. Lorsque , plusieurs descripteurs sont calculés
pour permettre la variation d’échelle entre les images. Les patchs avec des rayons de 8, 12 et
16 se chevauchent. À noter que ces descripteurs sont également invariants par rotation et
souvent utilisés pour la catégorisation d’objet.

29
2.5. SURF
Le descripteur SURF (Speeded Up Robust Features) a été introduit par Bay et al. dans [3, 4],
fortement influencé par les SIFT de Lowe, puisqu’il traduit la distribution des intensités dans
le voisinage du point d’intérêt. L’approche proposée par Bay utilise une approximation de la
matrice hessienne afin de détecter les structures de types « blobs ». Les blobs sont localisés
aux maxima du déterminant de la matrice hessienne (cf. Localisation précise des points
d’intérêt). L’originalité du descripteur SURF réside dans le fait d’utiliser la notion d’image
intégrale et de son calcul récurent [84] afin de diminuer fortement les temps de calculs car
elles permettent le calcul rapide des convolutions avec les approximations de type « box-
filters » (cf. Image intégrale).

Dans le contexte du descripteur SURF, la matrice hessienne en un point donné et à


l’échelle est définie par :

Avec , , , sont les résultats de la convolution

gaussienne de second ordre , , et de l’image au

point .

Pour pouvoir tirer parti des images intégrales, Bay et al. Proposent d’approximer les valeurs
de la matrice hessienne par des filtres rectangulaires (box-filters) (Figure 13), ce qui permet
de réduire le temps de calcul. Typiquement, on peut distinguer des filtres de tailles
, etc.

30
Figure 13 : Opérateurs de dérivation d’ordre 2 discrétisés et dérivées d’ordre 2 de la gaussienne [3]

Les nouvelles valeurs de la matrice Hessienne après approximation par les filtres
correspondent à la somme des termes sur le voisinage des points , et sont ensuite utilisées
pour normaliser le déterminant de la hessienne. L’approximation de ce dernier est stockée
dans des structures de données appelées « blob response map » (Figure 14), puis les maxima
locaux sont recherchés sur ces blob pour déterminer les coordonnées et la taille des
meilleurs points d’intérêt.

Figure 14 : Blobs détectés [3]

Le descripteur SURF est invariant aux changements d’échelle et à la rotation. Comme pour le
SIFT de Lowe, l’échelle de détection permet de définir la taille de la fenêtre du descripteur
ainsi que la taille du box-filter utilisé. Dans la région de calcul du descripteur, les
réponses aux filtres dans les directions et sont calculées et pondérées par une fonction
gaussienne d’écart-type (Figure 15). Comme dans la construction du descripteur SIFT,

31
Pour chaque pixel du voisinage, un vecteur d’orientation est calculé et l’orientation
maximale est considérée comme étant l’orientation dominante. Ainsi la fenêtre de calcul est
orientée dans la direction de l’orientation dominante et subdivisée en sous-fenêtres de
taille . Pour chacune des ces sous-fenêtres, on calcule les quatre valeurs suivantes :
où et sont les réponses du filtre de Haar de premier ordre
(box-filter) dans les directions et respectivement (Figure 15).

Finalement, le vecteur descripteur SURF est obtenu par concaténation de ces quatre valeurs
pour chacune des sous-fenêtres considérées. Une dernière étape de normalisation du
vecteur est nécessaire afin d’assurer l’invariance au contraste.

Figure 15 : La structure du descripteur SURF. A droite : les ondelettes de Haar. A gauche : calcul de l’orientation
dominante [4]

2.6. GLOH
L’opérateur GLOH (Gradient Location and Orientation Histogram) [47] est une extension du
descripteur SIFT destiné à accroître sa robustesse et sa spécificité. Il s’applique sur des
régions concentriques à la place des grilles de patterns utilisées dans le SIFT de Lowe. Il se
génère de la manière suivante : pour l’opérateur original SIFT, les positions sont établies
avec trois rayons du petit au grand dans la direction radiale, sur la base des coordonnées
polaires logarithmiques ( ), et huit orientations angulaires : l’espace des
coordonnées polaires est défini par qui représente respectivement le rayon,
l’orientation polaire et l’orientation du gradient du pixel.

32
Figure 16 : (à gauche) la structure de la fenêtre de calcul du SIFT, (à droite) la structure de la fenêtre du calcul du GLOH
[36]

La différence avec le descripteur SIFT réside dans la structure spatiale de la fenêtre de calcul
du descripteur (Figure 16). Celle-ci est représentée par une grille polaire de 17 sous-régions
(une région circulaire centrale et sous-régions à des intervalles de sur deux régions

circulaires centrées sur le point d’intérêt). À noter que la région centrale ne se divise pas
dans les directions angulaires. Les orientations du gradient sont quantifiées sur 16 sous-
régions. En chacune des sous-régions, un histogramme de gradients orientés est construit
suivant seize bins (intervalles de ). L’histogramme final est donc constitué de

données, seuillées et normalisées. Enfin, la taille est réduite à 128 dimensions en


utilisant l’analyse en composante principale ACP [41]. La structure du masque d’analyse du
descripteur GLOH est montrée dans la Figure 17.

Figure 17 : La structure du masque d’analyse du descripteur GLOH [47]

33
2.7. DAISY
Le descripteur DAISY proposé par Tola et al. en 2008 et repris ensuite en 2010 [79, 80] est
proche des descripteurs SIFT et GLOH. Il a été introduit pour accélérer les temps de calculs et
d’améliorer l’invariance. Selon les auteurs, il est 66 fois plus rapide que le SIFT. La différence
essentielle réside dans la forme de la région dans laquelle est calculé le descripteur et dans
l’utilisation des filtres de dérivées gaussiennes orientées à la place des gradients exploités
dans les méthodes précédemment citées. Étant donné une image et une orientation , les
auteurs proposent de créer huit orientations définies par :

Le terme correspond à l’ensemble des gradients d’une orientation donnée, ayant une
norme positive. L’image est convertie en une série de maps d’orientations (une dans
chaque direction).

Tola et al. présentent un masque d’analyse ayant une structure constituée de 25 cercles se
chevauchant et centrée sur le point d’intérêt (Figure 18) : les rayons des cercles augmentent
proportionnellement à leurs distance par rapport au centre du descripteur, à savoir le pixel
pour lequel le descripteur est calculé, et la puissance du lissage gaussien est proportionnelle
aux rayons des cercles. Pour chaque région circulaire, un histogramme d’orientation est
calculé à partir de toutes les valeurs de suivant une orientation particulière , il est
défini en une position par :

Ces histogrammes sont calculés et normalisé selon les mêmes principes de SIFT et GLOH afin
d’accroître l’invariance aux changements de luminosité. Ils sont notés par .

34
Figure 18 : La structure du masque d’analyse du descripteur DAISY [80]

Une fois que ces calculs sont faits, le vecteur descripteur final est construit par la
concaténation de tous les histogrammes d’orientation de la région considérée, et se
compose donc de vingt-cinq histogrammes (un par cercle) possédant chacun huit
orientations. Il peut être écrit de la manière suivante :

Où correspond à la position du cercle avoisinant à une distance de et


suivant une orientation . Les cercles sont ordonnés suivant trois rayons : et et
suivant huit orientations : avec l’indice 1 pour l’orientation locale du cercle central (le
point d’intérêt considéré).

Dans leurs tests, les auteurs recommandent d’utiliser : orientations avec


, et ainsi que , et . Enfin, leur
descripteur est constitué de valeurs et extrait à partir de 25 cercles et
suivant 8 orientations.

35
2.8. MOPS
Comme le SIFT de Lowe, les motifs orientés multi-échelles (en anglais multi-scale oriented
patches) [14] utilisent les gradients du voisinage du point d’intérêt pour extraire une
orientation dominante. Les MOPS sont construit en utilisant un échantillonnage des valeurs
d’intensité par le biais de patchs de taille pixels calculés dans un voisinage de rayon 4.5
fois l’échelle de détection du point d’intérêt, avec un échantillonnage d’espacement 5 pixels
entre chaque pixel retenu (Figure 19). Cet échantillonnage basse-fréquence donne au
descripteur une certaine robustesse aux erreurs (bruit) de localisation des points d’intérêt.
En conséquence, un vecteur de dimensions est obtenu et normalisé. Finalement, une
transformée en ondelettes de Haar est appliquée à ce vecteur pour former un vecteur
descripteur contenant les coefficients des ondelettes. Ce descripteur est invariant aux
faibles changements d’intensité.

Figure 19 : Structure des descripteurs MOPS [14]

2.9. Shape Context


Shape context (SC), que l’on peut traduire par contexte de forme, est un descripteur
d’images présenté pour la première fois en 2000 par Serge Belongie et Jitendra Malik [5], et
repris en 2002 par les mêmes auteurs [6] afin de mesurer la similarité entre deux formes
différentes et pour l’utiliser aussi dans la reconnaissance d’objets. Le descripteur SC se base
sur l’idée qu’une forme est associée à un objet dont le principe est d’extraire d’une image les
points décrivant les contours, et d’obtenir pour chacun de ces points le contexte de forme
en déterminant la distribution des points de contour dans la région au voisinage de , au

36
moyen d’un histogramme de coordonnées relatives des points de contour par rapport à ces
points qu’on appelle les points de référence.

Une forme est décrite par un sous-ensemble discret de points de contours externes et
internes. Supposons que , est l’ensemble des points de contours
détectés sur l’image, avec est le nombre de points de contour :

Pour chaque point du contour de la forme, on considère les vecteurs obtenus en


connectant le point à tous les autres points. Le contexte de forme du point est
l’histogramme des coordonnées relatives des autres points, il est défini par :

Où est le nombre de points de contour appartenant à la classe de l’histogramme


et .

Avec :

Où est la distance entre et , est l’angle entre le vecteur et l’axe horizontal


(Figure 20)

Figure 20: Diagramme d’histogramme log-polaire

37
Les auteurs utilisent des bins (ou régions) qui sont uniformes dans l’espace log-polaire,
rendant le descripteur plus sensible aux points les plus proches qu’aux ceux les plus loin.

Une comparaison entre les descripteurs SC de deux versions différentes de la lettre « A » est
montrée dans la Figure 21.

Figure 21 : Comparaison des contextes de forme de deux versions différentes de la lettre "A". (a) et (b) correspondent
aux points des contours des deux formes. (c) est le diagramme d’histogramme log-polaire utilisé pour calculer le shape
context. Belongie et al. utilisent 5 bins pour et 12 pour . (d-f) les contextes de forme pour les points de référence
marqués respectivement dans (a) et (b) par un cercle, un triangle et un rectangle. (g) les correspondances trouvées [5]

Chaque contexte de forme est un histogramme log-polaire des coordonnées de l’ensemble


des autres points calculés en prenant le point de référence comme origine. À noter dans la
Figure 21, la similitude visuelle entre le contexte de forme de la référence marquée par un
cercle et celui de la référence marquée par un rectangle, et qui ont été calculés pour des
points relativement similaires sur les deux formes. En revanche, le contexte de forme de la
référence marquée par un triangle est tout à fait différent. Les correspondances sont
trouvées en utilisant un appariement avec des coûts définis par la distance entre les
histogrammes.

Considérons un point dans la première forme et un point dans la deuxième forme.


Soit représente le coût de mise en correspondance de ces deux points.

38
Puisque les contextes de forme sont des distributions représentées sous forme
d’histogrammes, il est donc naturel d’utiliser le test statistique :

Où et représentent le nombre de points de contour appartenant à la classe


des histogrammes aux points et respectivement.

Cependant le contexte de forme décrit ci-dessus n’est pas invariant à la rotation et au


changement d’échelle. Pour obtenir l’invariance au changement d’échelle, les distances
radiales sont normalisées. Par la distance moyenne des paires de points de la forme.

Pour que le contexte de forme soit aussi invariant à a rotation, les auteurs ont proposé
d’utiliser le vecteur tangent associé à chaque point au lieu de l’axe absolu horizontal. Dans
chaque région ou bin , les vecteurs tangents à chacun des points de contour
appartenant à la grille sont calculés. L’orientation est donnée par la somme sur chaque bin :

, où

Ce descripteur est appelé Generalized Shape Context [49] et contient l’orientation


dominante des contours dans chaque bin de l’histogramme.

2.10. Histogrammes de gradients orientés


Les descripteurs HOG (Histogram of Oriented Gradients) ont été introduits par Navneet Dalal
et Bill Triggs [17, 18], deux chercheurs de l’Institut National de Recherche en Informatique et
en Automatique (INRIA). Le but des HoG est de représenter l’apparence et la forme d’objet
dans une image grâce à la distribution d’intensité des gradients ou de direction des contours.
Ceci est effectué en divisant l’image en régions connectées, appelées cellules, et en calculant
pour chaque cellule un histogramme des directions de gradients ou des orientations de
contour pour les pixels appartenant à cette cellule. Le descripteur final est obtenu par la
concaténation de ces histogrammes. La Figure 22 montre le processus d’utilisation des HOG
dans un contexte de détection d’objets à base des SVM.

39
Vote pondéré extraction des
normalisation
calcul des dans les Normalisation HOGs dans
Gamma & SVM linéaire
gradients cellules de contraste des fenêtres
Couleur
d'orientation de détéction

Image de Personne/
test non-personne
classification
Figure 22 : Chaîne d'extraction des descripteurs HoG et de détection d’objet proposé par Dalal et Triggs dans [17]

2.10.1. Normalisation Gamma/Couleur


Avant de commencer, une étape de prétraitement facultative peut être effectuée : la
normalisation des couleurs de l’image et une correction gamma correcte. Cette étape n’a
qu’une faible incidence sur les performances et n’est donc pas obligatoire, la normalisation
du descripteur HOG lui-même s’avèrent suffisante. Dalal et Triggs ont montré des résultats
comparables pour les espaces couleurs RGB et LAB, alors que le niveau de gris réduit les
performances.

2.10.2. Calcul des gradients


Le calcul du gradient est une étape critique dans la formation du descripteur, les
performances de ce dernier sont sensibles à la manière dont ont été calculés les gradients.
La justesse des orientations calculées, et des histogrammes, dépends de cette étape et les
résultats sont donc étroitement liés à la méthode employée pour calculer le gradient dans
l’image. Il s’agit de calculer le gradient pour tous les points de l’image ; généralement deux
filtres dérivatifs sont appliqués sur l’image, un horizontal et un vertical, qui peuvent être des
masques de dérivation simple 1-D (centré et non centré ), des
opérateurs 2-D de Sobel, ou encore des opérateurs récursifs de Deriche.

Dans le cas des images couleurs, le gradient est calculé séparément pour chaque canal, le
gradient ayant la norme la plus grande est gardé.

Une opération de lissage gaussien 2-D est souhaitable afin de réduire le bruit et de limiter le
nombre de contours. Différents filtres dérivatifs ont été testés par Dalal et Triggs:

o Filtre dérivatif 1-D non centré :


o Filtre dérivatif 1-D centré :

40
o Filtre dérivatif 1-D ajusté cubiquement :

o Filtre de Sobel :

o Filtre diagonale : et

Prenons l’exemple du filtre de Sobel de taille , sa convolution avec l’image permet de


calculer les approximations des dérivées horizontales et verticales. Soit l’image source,
pour chaque point de , une approximation de la dérivée horizontale notée
(respectivement verticale notée ) du gradient est obtenue (Figure 23) :

Et

En chaque point, les approximations horizontales et verticales sont combinées pour obtenir
une approximation de la norme du gradient (voir Figure 23.d) :

On calcule également l’orientation du gradient comme suit :

41
Figure 23 : (a) image d'un piéton en niveau de gris normalisée, (b) composante horizontale du gradient, (c) composante
verticale du gradient, (d) la norme de gradient [18]

2.10.3. Calcul des histogrammes


L’image est découpée en blocs (ou cellules), généralement de taille pixels, pour chacun
d’entre eux on calcule l’histogramme d’orientation de gradient. Chaque pixel de blocs vote
pour une orientation entre 0 et 180 dans le cas du gradient non signé (Figure 24.b), ou entre
0 et 360 dans le cas du gradient signé. Ces orientations du gradient sont représentées par les
classes de l’histogramme.

Figure 24 : Construction du HoG d'une image: (a) découpage en blocs et formation de l'histogramme des blocs adjecents,
(b) vote d'un pixel selon l'orientation de ses gradients

42
L’étape suivante est la normalisation des histogrammes, afin d’éviter les disparités dues aux
variations d’illumination, ainsi que l’introduction de redondance dans le descripteur. Pour
cela, les histogrammes de blocs adjacents sont concaténés pour former un vecteur qui est
ensuite normalisé.

Le descripteur HOG final est obtenu en répétant l’opération sur tous les blocs adjacents
possibles.

Les normalisations possibles du descripteur final sont les suivantes ( représente


l’histogramme d’un bloc) :

o L2-Norme :

o L1-Norme :

o L1-Racine :

Différents types de masques dérivatifs ont été testé dans [17], permettant de différencier
deux types d’architectures : les R-HOG (Rectangular-HOG) calculés avec des fenêtres
rectangulaires, et les C-HOG (Circular-HOG) calculés avec des fenêtres circulaires. Les
différents descripteurs utilisant les HOG peuvent donc être classés dans l’une des deux
classes.

Ces dernière années, de nombreuses variantes par rapport aux HOG ont été proposés [57,
2]. Afin de choisir la meilleure version à implémenter, il est nécessaire de passer par une
étape de test pour régler les différents paramètres des HOG, généralement, le type du filtre
dérivatif et le nombre de bins de l’histogramme.

Ce descripteur est devenu l’un des plus performants en reconnaissance d’objet, par sa
capacité d’être applicable en temps réel, notamment à travers l’utilisation des images
intégrales introduites par Viola et Jones [84], l’idée est inspirée de la méthode proposée par
Porikli [61] qui calcule rapidement des histogrammes d’une région rectangulaire aléatoire,
nommée ‘Histogramme intégral’.

43
2.11. Descripteurs binaires

2.11.1. Local Binary Patterns (LBP)


L’opérateur LBP (Local Binary Patterns) a été introduit en 1996 par Ojala et al. [53] puis
complété dans [54]. L’idée de cet opérateur de texture est d’assigner à chaque pixel un code
dépendant des valeurs des niveaux de gris des pixels situés dans le voisinage (Figure 25). La
valeur du niveau de gris du pixel central de cordonnées est comparée à celle de
ses pixels voisins suivant l’équation :

Avec est le nombre de pixels voisins équi-répartis sur le cercle de centre et de rayon .
Cet opérateur renvoie un mot binaire crée en comparant successivement l’intensité du pixel
central avec celles des pixels . Si la valeur du niveau de gris du pixel
central est supérieure ou égale à celle de son voisin, la valeur est mise à 1, sinon à 0.

2
Figure 25 : Les étapes de calcul du LBP

Généralement est fixé à huit, c.à.d. un voisinage de pixels. On obtient donc, dans le
cas d’une image en niveaux de gris, une matrice contenant des valeurs des LBP comprises
entre 0 et 255 pour chaque pixel. Finalement, un histogramme est calculé en se basant sur
ces valeurs pour former le descripteur LBP.

Un inconvénient de ce descripteur est le nombre de paramètres à fixer au préalable. Dans la


littérature, il existe des versions différentes de ce descripteur, suivant le paramètre fixé

2
http://robinhsieh.com/?p=156

44
désignant le nombre de pixels voisins et suivant le rayon choisi. Dans le cas des grandes
bases de données, le paramétrage optimum devient très compliqué. En plus, l’application de
ce descripteur en temps réel est difficile si le nombre de pixels voisins considéré est
important.

Néanmoins, l’avantage du descripteur LBP est sa représentation binaire ayant une capacité
et une rapidité de traitement car il ne nécessite pas de gestion de nombres décimaux. De
plus, le stockage mémoire des informations, surtout dans le cas des grandes bases de
données.

2.11.2. CENTRIST
CENTRIST (CENsus TRansform hISTogram) est un descripteur visuel qui a été proposé par
Jianxin Wu et James Rehg [90] pour contourner le problème de la catégorisation de scènes
et de la reconnaissance de lieux. Les différentes étapes du calcul sont les suivantes:

- Extraction de contour (Figure 26). Cette étape peut-être réalisée à l’aide d’un
opérateur quelconque tel que le filtre de Sobel.

Figure 26 : Détection de contours par le filtre de Sobel [89, 90]

- Encodage de la structure locale du gradient au voisinage de chaque pixel ou « Census


Transform » (CT). Il s’agit d’une transformation locale qui réalise la comparaison du
niveau de gris du pixel considéré avec celui de ses 8 voisins. Dans cette

45
transformation chacun des pixels voisins se voit affecté la valeur « 0 » ou « 1 »
suivant le résultat « vrais » ou « faux » de la comparaison. Voici un exemple :

Les huit bits générés à partir des comparaisons des valeurs d’intensités peuvent être
mis ensemble dans un ordre quelconque (du gauche à droite, et du haut vers le bas).
La nouvelle valeur du pixel central est donnée par la conversion en base 10 de cette
suite de bits, cette valeur correspond à la Census Transform du pixel central.
En tant qu’approche visuelle, une image transformée par la CT est crée en
remplaçant la valeur du niveau de gris de chaque pixel par celle de sa CT (Figure 27).

Figure 27 : Exemple d'une image transformée par la Census Transform [89, 90]

- L’étape finale consiste à découper l’image en régions de taille pixels et


de calculer l’histogramme dans chacune de ces sous-régions (Figure 28). L’ensemble
de ces histogrammes forment le descripteur visuel CENTRIST. À noter qu’on obtient
256 valeurs possibles pour la CT car on travaille sur 8 bits.

46
Figure 28 : Histogrammes des sous-régions de la Census Transform [89, 90]

L’inconvénient de ce descripteur est qu’il n’est calculé que pour une seule échelle. De plus,
les auteurs utilisent le filtre de Sobel qui n’est pas le meilleur choix, car il existe d’autres
détecteurs de contours plus efficaces dans la littérature. Enfin, une autre limitation du
CENTRIST est que les valeurs de la CT des voisinages sont fortement corrélées. Un exemple
est illustré dans la Figure 29 : le bit 5 de et le bit 4 de sont toujours
complémentaire sauf dans le cas de , car le premier vaut 1 si
et le deuxième vaut 1 si . En effet, Wu et Rehg mentionnent
que ces contraintes (et d’autres) existent mais ils ne les exploitent pas. Pour réduire la
dimensionnalité du vecteur, une analyse en composante principale (ACP) est utilisée. À noter
que la Census transform est équivalente (à l’ordre de parcours près) à l’encodage LBP (Local
Binary Pattern) d’OJALA [53].

Figure 29 : Illustration des contraintes entre les valeurs de la CT des pixels voisins [89, 90]

Néanmoins, l’avantage de ce descripteur est la notion de la transformation CT qui est


robuste aux changements d’illumination et aux variations gamma, etc.

47
3. Descripteurs globaux

3.1. Filtres de Gabor


Les filtres de Gabor sont largement utilisés en vision par ordinateur, pour la description de la
texture [94]. Généralement, les paramètres de texture sont déterminés en calculant un
ensemble de valeurs des moyennes et d’écarts type des niveaux de gris de l’image filtrée par
Gabor, ces valeurs seront regroupées dans un seul vecteur descripteur.

Les filtres de Gabor sont des ondes sinusoïdales avec une fréquence et une orientation
particulière modulée par une gaussienne elliptique. Dans le cas bidimensionnel, cette onde
sinusoïdale est la somme de deux fonctions sinusoïdales, la première paire et réelle, et la
deuxième impaire et imaginaire. Ces filtres ont une réponse impulsionnelle de la forme:

avec :

 ou l’angle de rotation de
par rapport à donne l’orientation de l’enveloppe gaussienne dans le domaine
spatial, et

 est une fonction gaussienne bidimensionnelle de rapport

d’axe , de facteur de dilatation .

Un filtre de Gabor en partie réelle et imaginaire, est illustré dans la Figure 30.

48
Figure 30 : Filtres de Gabor à différentes échelles et fréquences spatiales

La transformée de Fourier correspondante à est donnée par :

 , et
 est obtenu par rotation du point par le même angle .

est une gaussienne passe-bande de rapport d’axes , tournée d’un angle ,

centrée en et d’orientation . La connaissance de ces

paramètres permet de définir complètement le filtre de Gabor.

La Figure 31 présente 40 filtres de Gabor de différentes fréquences et de différentes


orientations, par leur partie réelle et les modules de 5 fréquences.

49
Figure 31 : Filtre de Gabor (a) en partie réelle (b) les modules de 5 fréquences

Le filtrage de Gabor conserve les aspects temporels et fréquentiels du signal. Dans le


domaine spatial, ce filtrage est effectué par la convolution complexe d’une image par
un filtre de Gabor, elle est donnée par :

Dans le domaine fréquentiel, le produit de convolution se réduit à une simple multiplication


des transformées de Fourier. La Figure 32 montre les résultats de l’application de cette
transformation sur une même image avec différentes fréquences et orientations.

Figure 32 : Transformation de Gabor (a) en module (b) en phase

50
Dans la littérature, La plupart des travaux effectués n’utilisent que la partie module, comme
dans [95, 88]. Les phases sont considérées comme des informations inutiles pour la
description d’images, car elles varient considérablement même dans des régions locales
presque identiques.

C’est en 2007 que Zhang et al. ont proposé une nouvelle méthode de représentation de la
texture pour la reconnaissance de visage [91], appelée Histogramme de Gabor phase pattern
(HGPP), combinant ainsi l’histogramme spatiale et les informations de phase de Gabor.

3.1.1. Histogramme de Gabor Phase Patterns (HGPP)


Pour encoder les informations de phase de Gabor, Zhang et al. ont proposé deux patterns :
GGPP (Global Gabor Phase Patterns) et LGPP (Local Gabor Phase Patterns) [91], les deux sont
définis en fonction du codage QBC (Quadrant-bit codes) [19] de la partie réelle et de la partie
imaginaire de la transformation de Gabor. Alors que le GGPP encode les informations
d’orientation à chaque échelle, le LGPP encode les variations locales au voisinage à chaque
orientation et échelle. Enfin, GGPP et LGPP sont combinés avec des histogrammes spatiaux
pour modéliser l’image d’origine de l’objet.

a. Encodage QBC (Quadrant-bit codes)


Selon la méthode proposée par Daugman dans [19] et appliquée dans la reconnaissance de
l’iris, chaque pixel de l’image résultante sera codé sur deux bits, et donc le calcul des
patterns de phase de Gabor se fera selon les formules suivantes :

Où et sont les parties réelles et imaginaires des coefficients de

Gabor respectivement.

La méthode d’encodage de Daugman, citée ci-dessus, peut être reformulée de la manière


suivante :
51
Où est l’angle de phase de Gabor pour le pixel à la position .

Le QBC sépare les convoluées de Gabor dans 4 quadrants dans l’espace complexe, 00 pour le
quadrant , 10 pour le quadrant , 11 pour le quadrant et 01 pour le quadrant (Figure
33).

Figure 33 : QBC de phase de Gabor [91]

Maintenant à partir de QBC, on extrait les deux Patterns : GGPP (Global Gabor Phase
Patterns) et LGPP (Local Gabor Phase Patterns).

b. GGPP (Global Gabor Phase Patterns)


Le pattern GGPP calcule une chaine binaire pour chaque pixel en concaténant la partie réelle
ou imaginaire du QBC de toutes les orientations pour une fréquence donnée, dans une
image de même taille que l’image originale. La valeur GGPP, , pour la fréquence
à la position dans une image, est définie par :

Où est la valeur du GGPP réel et est la valeur du GGPP imaginaire.

52
Dans [91] , et huit bits représentant huit orientations sont exploités qui forment un
octet, pour représenter 256 modes d’orientation différents. Ces modes peuvent être
facilement calculés par les équations suivantes :

Un exemple des Patterns GGPP en partie réelle et imaginaire est montré dans la Figure 34(a)
et (b).

Figure 34 : Patterns GGPP (a) partie réelle (b) partie imaginaire [91]

c. LGPP (Local Gabor Phase Patterns)


Contrairement aux patterns GGPP qui encode des informations d’orientation, Zhang et al .
proposent aussi un encodage des variations locales pour chaque pixel, appelé LGPP. Pour
chaque orientation et chaque fréquence , la valeur de la partie réelle ou imaginaire de
LGPP à la position est calculée en encodant la différence de signe du pixel à la position
et ses 8 voisins par l’opérateur LXP (local XOR pattern):

Où , sont les huit voisins du pixel , et désigne l’opérateur OU Exclusif.


Cette procédure est illustrée dans la Figure 35.

53
Figure 35 : Illustration de l’opérateur LXP [91]

Similaire aux patterns GGPP, huit bits qui représentent huit voisins forment un octet (255
niveaux de gris) pour chaque pixel. Un exemple de 40 images de partie réelle du pattern
LGPP, ainsi pour la partie imaginaire, est illustré dans la Figure 36.

Figure 36 : Patterns LGPP (a) partie réelle (b) partie imaginaire [91]

d. HGPP (Histogramme de Gabor Phase Patterns)


Dans la méthode de Daugman pour la reconnaissance d’iris, les QBC sont utilisés
directement pour former la représentation d’une image d’iris, et la classification est réalisée
par une distance de Hamming. Toutefois, pour cinq fréquences et huit orientations, la
méthode d’encodage GPP proposée donnera 90 images (5 GGPPs réels, 5 GGPPs imaginaires,
40 LGPPs réels et 40 LGPPs imaginaires), qui ont la même taille que l’image originale. Pour
les modéliser efficacement, les auteurs exploitent les histogrammes spatiaux pour modéliser
les GPPs encodés (GGPP et LGPP), appelés Histogrammes de Gabor Phase Patterns (HGPP).
La raison du choix d’une méthode à base d’histogramme réside dans les observations que les
54
GPPs ressemblent à des images ayant une texture structurelle (voir Figure 34 et Figure 36),
en plus, l’histogramme spatial est un bon outil pour représenter des images de texture.

Si on calcul les histogrammes directement sur une image entière, les détails locales seront
perdus. Les auteurs proposent de diviser l’image originale en 64 sous-régions (Figure 37(a))
et de calculer les histogrammes HGPP de toutes ces sous-régions. En effet, chaque
histogramme est un micro-pattern, en 16 bins.

Ces HGPPs sont formulés comme suit:

Où sont, respectivement, les histogrammes de la sous-région de


la partie réelle du GGPP, les histogrammes de la sous-région de la partie imaginaire du
GGPP, les histogrammes de la sous-région de la partie réelle du LGPP et les histogrammes de
la sous-région de la partie imaginaire du LGPP, et ils sont donnés par :

Où est le nombre de sous-régions divisées pour le calcul de l’histogramme.

Le diagramme général de calcul du HGPP est présenté dans la Figure 37(b). Selon Zhang et al.
les images de doivent être normalisées en pixels avant la convolution avec les
filtres de Gabor afin d’avoir le meilleur résultat.

55
Figure 37 : (a) sous-régions de LGPP (b) diagramme général de HGPP [91]

3.2. GIST
Dans le domaine de la vision par ordinateur, le descripteur GIST est une représentation
d’une image en basse dimension qui contient suffisamment d’informations pour identifier
une scène. Il a été introduit par les chercheurs Oliva et Torralba dans [55, 56] dans le but
d’une classification automatique des images. Ces deux auteurs ont défini le descripteur GIST
de l’image en analysant les fréquences spatiales et les orientations. Il est issu d’une suite de
travaux de recherche à la fois psychologiques et informatiques sur la classification
automatique de scènes. Il y a plusieurs présentations différentes de ce descripteur. Nous
nous basons ici sur une étude du code source disponible sur la page web de Torralba
(http://people.csail.mit.edu/torralba/code/spatialenvelope/).

56
Figure 38 : Principe du descripteur GIST [58]

GIST permet d’extraire Une enveloppe spatiale globale qui correspond aux différentes
fréquences et orientations contenues dans l’image, d’où vient le critère de globalité de ce
descripteur. Du fait de la description globale de l’information essentielle dans l’image, il est
possible de ne pas conserver les détails d’une image et donc n’identifier que les fréquences
et les orientations principales de celle-ci dans l’objectif de la classer.

D’après Torralba et Oliva, le descripteur GIST peut être considéré comme une bonne
solution pour des problèmes de catégorisation de scènes [56]. Le succès du descripteur GIST
s’est rapidement propagé vers d’autres applications, d’abord il a été réutilisé efficacement
pour résoudre des problèmes de reconnaissance de lieux [50], ensuite il a été appliqué dans
le domaine de la recherche d’image à l’échelle du web [22].

Le descripteur GIST se calcule suivant les étapes montrées dans la Figure 38 :

- D’abord, les images d’entrée sont réduites en imagettes carrées, d’une taille
comprise entre et , quelles que soient leur proportions.
- Ensuite elles sont convoluées avec un banc de filtres de Gabor avec orientations
et échelles.

57
- Les images en sortie du filtre sont divisées en une grille régulière de régions
sur lesquelles on calcule la moyenne.
- Enfin, le descripteur GIST de l’image est obtenu par concaténation des descripteurs
des différentes régions.

Dans le cas des images couleurs, ces étapes sont répétées pour chaque canal.

La taille du vecteur descripteur final est (x3 dans le cas d’une image couleur),
indépendante de la taille de l’image. On choisit souvent orientations et
échelles. Enfin, une analyse en composantes principales (ACP) est utilisée pour réduire la
dimension des vecteurs.

3.3. Les moments géométriques


Les moments géométriques sont utilisés pour caractériser l’intégralité de la forme d’une
région à l’aide de propriétés statistiques. Ils étaient Utilisés dans un premier temps
globalement, puis localement en limitant le calcul des moments au voisinage d’un point
d’intérêt. Ces moments géométriques ont été introduits et appliqués pour la première fois
en tant qu’approche pour la description d’images dans [39]. En général, ils sont définis par :

Où est l’ordre du moment. est le moment d’ordre 0 et représente l’aire de la


forme de l’objet dans l’image. Ce dernier est associé aux moments d’ordre 1 et
afin de calculer le centre de gravité de l’objet dont les coordonnées sont données par:

et

D’une manière plus courante, on utilise les moments centraux qui ont la propriété
importante d’être invariants par translation, ils sont calculés à base des coordonnées du
centre de gravité de l’objet et sont notés par :

58
A partir de ces moments géométriques, et dans le but de les utiliser pour la description de
forme en vue d’une classification ou d’une indexation, Hu [39] a proposé d’utiliser une
succession de sept polynômes calculés à partir des moments centraux et sont donnés par les
équations suivantes :

En plus du fait qu’ils soient invariants aux translations, rotations et changement d’échelle,
ces moments géométriques sont très simples et rapides à calculer. Hu montre qu’il est
suffisant d’utiliser les deux premiers invariants et pour séparer les 26 caractères
alphabétiques, cela montre bien qu’il n’est pas nécessaire d’utiliser tous les moments de
l’ensemble de Hu en vue d’une classification d’objets.

Par ailleurs ces descripteurs sont assez sensibles aux bruits et aux déformations. En plus, ils
ne sont ni orthogonaux ni complets, ce qui fait, qu’ils souffrent d’un niveau élevé de
redondance d’informations. Un autre inconvénient de ces descripteurs, c’est qu’ils doivent
être dérivés à la main, au contraire des moments orthogonaux tels que les moments
invariants de Zernike qui peuvent être calculés à des ordres arbitraire.

3.4. Les moments orthogonaux


A l’inverse des moments géométriques qui sont définis par rapport à une base quelconque,
les moments orthogonaux sont définis dans une base orthogonale, ce qui résout le problème

59
de la redondance des informations portées par chacun des moments. Les moments
orthogonaux les plus utilisés en vision par ordinateur sont ceux de Zernike, introduits par
Teague [76] qui a proposé d’utiliser une série de polynômes complexes et orthogonaux
définis sur le disque unitaire , qu’on peut écrire sous la forme :

Et le polynôme orthogonal défini par :

La Figure 39 ci-dessous présente une pyramide des polynômes de Zernike jusque quatrième
ordre.

Figure 39 : Les polynômes de Zernike au 5 premiers ordres (wikipédia.org)

60
Les moments de Zernike d’une image sont construits par les projections de cette
image sur la base de ces polynômes . Le moment de Zernike d’ordre et de
répétition de l’image peut être donné par :

Ces moments possèdent certains avantages dont :

- Les modules des moments de Zernike sont invariants par rotation [15, 87],
- Ils sont robustes aux altérations telles que le bruit, changement de luminosité, etc.
(voir section 2.3.6),

Une des limitations de ce descripteur, c’est que la complexité de calcul des polynômes de
Zernike augmente fortement dans les hautes fréquences de l’image qui sont principalement
codées dans les moments d’ordres supérieurs.

3.5. Les descripteurs de Fourier

3.5.1. Les descripteurs de Fourier-Mellin


Les descripteurs de Fourier-Mellin sont construits principalement à base de la transformé de
Fourier Mellin (TFM) qui est très utilisée en traitement d’images [68, 69, 20, 21]. Pour une
image en niveaux de gris de dans passée dans l’espace polaire, la TFM est définie par :

Où est supposée intégrable sur le groupe des similitudes planes vectorielles (rotation,
translation et homothétie) , avec est le cercle unité de .

La TFM a été définie dans le but de mettre en œuvre des approches invariantes aux
similitudes directes, ces approches ne prennent en considération que le module de la TFM,
par contre, la phase est souvent non exploitée, donc une représentation partielle des objets,
ce qui est insuffisant pour discriminer des objets surtout dans le cas des grandes bases
d’images. Afin de résoudre ce problème, Derrode et al, ont présenté un procédé de

61
normalisation de la transformée de Fourier-Mellin analytique (TFMA) permettant de mettre
en œuvre des familles complètes de descripteurs invariants par similitude.

La TFMA a été introduite dans [33] pour pallier le problème de divergence des intégrales
lorsqu’elles sont calculées sur des images en niveaux de gris. Celle-ci est définie par :

Avec un nombre réel strictement positif et où désigne le cercle


unité. et est intégrable sur le groupe de similitudes .

La TFMA admet une transformée inverse ce qui permet de reconstruire des images depuis
son spectre (Figure 40). Elle s’exprime par la formule suivante :

Figure 40 : Reconstruction des formes de quatre images de papillons en fonction du nombre de descripteurs invariants
utilisés pour la reconstruction (TFMA) [33]

62
La famille complète des descripteurs invariants par similitude issue de la TFMA a été proposé
dans [33], et peut être réécrite facilement et appliquée pour toute valeur strictement
positive de :

Partant de ces invariants, si , il peut être montré facilement


que .

De plus, cette famille d’invariants est complète car il est possible de reconstruire la TFMA
d’un objet à partir des valeurs des descripteurs invariants et des deux paramètres
de normalisation et . On peut alors reconstruire l’objet de l’image
originale en utilisant la TFMA inverse. Dans [33], il est prouvé également que cette famille
d’invariants est convergente au sens . Ces deux propriétés ont pour conséquence de
définir une vraie distance dans l’espace des formes donnée par :

La distance pour des objets de même forme et elle utilisée comme critère de mesure
de degré de similarité entre deux objets indépendamment de leur orientation, leur taille et
leur pose.

3.5.2. Les descripteurs de Fourier Génériques


La transformée de Fourier a été largement utilisée dans le traitement et l’analyse d’images.
L’avantage d’analyser une image dans le domaine fréquentiel est qu’il est facile de pallier au
problème du bruit qui est fréquent dans les images numériques. Cependant, il n’est pas
recommandé de calculer des descripteurs utilisant directement la transformée de Fourier,
car ces derniers ne seront pas invariant par rotation. En outre, les descripteurs acquis ne
sont pas compacts (Figure 41(a)(b)). Densheng Zhang et Guojun Lu [92, 93] ont contourné ce
problème en proposant un descripteur de Fourier générique (GFD), celui-ci est basé sur une
transformée de Fourier modifiée polairement (MPFT), c.à.d. en traitant l’image polaire dans

63
l’espace polaire comme une image rectangulaire à deux dimensions dans l’espace cartésien
(Figure 41).

Figure 41 : (a) l'image originale dans l'espace polaire; (b) l'image polaire de (a) dans tracée dans l'espace cartésien [92]

L’image polaire de la Figure 41(b) est l’image rectangulaire. Par conséquent, si nous
appliquons une transformé de Fourier 2D sur cette image rectangulaire, la FT polaire aura
une forme similaire à celle d’une FT discrète classique dans l’espace cartésien. Donc, pour
une image donnée , la transformé de Fourier modifiée polairement (MPFT) est définie
par :

Où et avec ; sont les

coordonnées du centre de gravité de la forme. , avec et sont


les résolutions radiales et angulaires. La signification physique de et est claire, ce sont
respectivement la fréquence radiale et la fréquence angulaire. La détermination
du nombre de et de pour la description des formes est physiquement réalisable, parce
que les caractéristiques de la forme sont normalement extraites par les quelques basses
fréquences. Les Figure 42(c)(d) montrent des images polaires et les spectres de Fourier
polaire des deux motifs des Figure 42(a)(b). On peut observer sur la Figure 42(c)(d) que la
rotation du motif dans l’espace cartésien se traduit par un shift (ou décalage) circulaire dans
l’espace polaire. Le décalage circulaire ne modifie pas la répartition spectrale dans l’espace
polaire. Le spectre de Fourier polaire est plus concentré autour de l’origine de l’espace
polaire. Ceci est particulièrement bien adapté pour la représentation des formes, car pour
64
représenter une forme efficacement, le nombre de caractéristiques spectrales sélectionnées
pour la décrire, ne devrait pas être grand. Le spectre est circulairement symétrique, on peut
ne considérer qu’un quart des caractéristiques spectrales pour décrire une forme. Les
coefficients de Fourier polaire acquis sont invariants par translation.

Figure 42 : (a) un motif et son spectre de Fourier; (b) le motif pivoté de (a) et son spectre de Fourier; (c) l'image polaire de
(a) et son spectre de Fourier; (d) l'image polaire de (b) et son spectre de Fourier [92]

L’invariance par rotation et par changement d’échelle est atteinte par la normalisation
suivante :

Où est la surface du cercle englobant la forme d’intérêt, et sont respectivement le


nombre maximal des fréquences radiales et angulaires sélectionnées.

Pour une représentation efficace d’objets, seulement un petit nombre de caractéristiques


GFD sont sélectionnées. Dans l’implémentation de Zhang et Lu, 36 caractéristiques GFD
reflétant 4 fréquences radiales et 9 fréquences angulaires sont sélectionnées pour indexer
l’objet. Les caractéristiques GFD sélectionnées forment un vecteur descripteur qui est utilisé
pour indexer un objet. Pour deux formes représentées par leurs descripteurs GFD, la
similarité entre ces deux formes est mesurée par la distance City Block entre leurs GFD. Par
conséquent, la mise en correspondance en ligne est simple et efficace.

Zhang et Lu ont comparé leur descripteur GFD avec celui basé sur les moments de Zernike,
ils ont pu conclure que : le GFD est plus simple à calculer, les attributs sont purement
spectraux et montrent de meilleurs performances de recouvrement car l’analyse multi-

65
résolution dans les deux directions radiale et spectrale, est possible. Enfin, les auteurs ont
montré aussi que le GFD donnait de meilleurs résultats que les moments de Zernike.

3.5.3. Les descripteurs de Fourier Généralisés


Les premiers descripteurs de Fourier généralisés ont été introduit par Gauthier et al dans
[29], ils sont construits à partir des actions de groupe et plus particulièrement du groupe de
déplacement , ce groupe est constitué des translations et des rotations dans le plan.
Dans [74], les auteurs ont proposé un second ensemble de descripteurs issu également des
actions du groupe de déplacement , et qui peuvent être utilisés de manière souple et
robuste pour la reconnaissance de forme basée sur des images couleur, en les associant avec
des SVM, ils ont aussi proposé une implantation matérielle qui permet d’accélérer le calcul
de leurs descripteurs.

a. Les premiers invariants


Ces invariants sont de type « densité spectrale » et sont définis comme suit : Soit une
fonction carrée sommable sur le plan, et sa transformée de Fourier définie par l’équation
suivante :

où est le produit scalaire sur .

Si sont les coordonnées polaires du point , nous noterons à nouveau par la


transformée de Fourier de au point . Dans [29], Gauthier et al ont défini les premiers
descripteurs de Fourier Généralisé (DF1) par :

66
Dans le domaine discret, ces descripteurs sont remplacés par un ensemble fini de valeurs
formant les composantes d’un vecteur qu’il est possible d’utiliser à l’entrée d’un processus
de classification.

Les descripteurs de Fourier calculés selon l’équation précédente ont des propriétés
élémentaires cruciales pour la reconnaissance d’objets. Ils sont invariants par déplacement
et réflexion :

- Si est un déplacement tel que , alors ,


- S’il existe une réflexion tel que , alors ,
- Ces descripteurs sont aussi covariants par homothétie :
Si k est une constante réelle tel que pour tout ,

b. Les invariants complets


Les premiers invariants cités précédemment et introduits par Gauthier dans [29] ne sont pas
complets (i.e. deux images différentes peuvent avoir le même DF1), mais ceci n’est pas un
inconvénient car ils sont suffisant pour une large classe d’applications. Dans [74], Smach et
al. définissent une seconde famille d’invariants (contenant également les premiers déjà
cités) qui sont complets dans les cas des groupes commutatifs et dans une large classe de
fonctions, dans le cas des groupes compacts. Ces invariants sont de type « décalage de
phase », notés par et définis par :

Avec et désigne l’action de dans définie par :

À noter que :

- Il est clair que est invariant par déplacement.


- Il est également clair que l’ensemble des invariants est complètement
déterminé par le plus petit ensemble obtenu en prenant sous la forme ,
.
67
Par conséquent, une autre définition de est donnée par :

Où et .

Cet ensemble d’invariants stables, nommés DF2, est adapté au groupe des
déplacements dans le plan, et la complétion de cette famille est assurée dans le

groupe des déplacements d’angle . Ceci permet de garantir que deux objets

différents auront des DF2 différents, et par conséquent, donner une raison solide à leur
utilisation en tant que descripteurs discriminants pour la reconnaissance de formes.

4. Conclusion
Dans ce chapitre, nous avons fait l’inventaire des différentes techniques d’extraction de
caractéristiques. Ainsi, les propriétés de chaque descripteur d’images ont été étudiées pour
montrer leurs différentes invariances. De plus, un soin particulier a été apporté à l’étude des
avantages et des inconvénients.

Si on considère tout d’abord les descripteurs locaux, on peut remarquer en premier temps
que ces descripteurs sont extraits de manière fiable autour de points d’intérêts
préalablement détectés. L’efficacité de ces descripteurs a été démontrée dans de multiples
travaux, mais dans certains contextes, tel que la présence d’un bruit important, les
descripteurs globaux sont les plus efficaces.

Si toutes ces méthodes présentent des qualités et des défauts, nous allons devoir
développer de nouvelles méthodes plus adaptées à notre objectif de reconnaissance d’objet,
et c’est l’objet du prochain chapitre.

68
69
Chapitre 3 : Descripteurs de Fourier généralisés et rotationnels

1. Introduction
La méthode que nous proposons est un prolongement des travaux de Smach et al. [74] qui
ont permis de définir un ensemble de descripteurs de Fourier Généralisés (GFD). Comme
nous le verrons dans leur définition, les descripteurs de Fourier Généralisés munis d’un
relèvement cyclique dans les groupes de roto-translations discrétisées , sont
invariants en translation et en rotation. Cette approche a guidé la définition de notre nouvel
ensemble de descripteurs de Fourier dits « rotationnels » dont le calcul réel sur des images
relevées (en considérant plutôt un relèvement invariant à gauche) nécessite fois moins de
temps de calcul et d’espace par rapport aux descripteurs de Fourier généralisés proposés
dans [74].

Ce chapitre est organisé comme suit : Dans la section suivante, nous présentons quelques
notions préliminaires sur l’analyse harmonique (i.e. l’étude de la transformée de Fourier et
ses propriétés) sur les groupes abéliens et non-abéliens localement compacts. La deuxième
section concerne les invariants spectraux et bi-spectraux, ainsi que leurs propriété de
complétude dans les groupes abéliens localement compacts et dans le groupe dérivé de
produit semi-direct défini dans la section 2.3 par . Dans la
troisième section, nous introduisons les descripteurs de Fourier rotationnels basés sur la
structure du cortex visuel humain primaire V1. Enfin, pour clore ce chapitre, nous
présentons quelques techniques pour le calcul pratique de ces descripteurs.

2. Préliminaires
Pour définir et calculer les descripteurs de Fourier spécifiques à notre étude, nous
introduisons quelques généralités sur la transformée de Fourier dans les groupes non-
commutatifs. Nous nous référons à [63, 37] pour une introduction générale du sujet.

70
2.1. Analyse harmonique sur les groupes abéliens localement compacts
Soit un groupe abélien localement compact. Un caractère de est un homomorphisme
continu de groupes tel que pour tout . En définissant le produit
de deux caractères comme une multiplication point par point, et l’inverse comme le
conjugué complexe, l’ensemble

muni de la topologie de la convergence uniforme sur tout compact, est un groupe abélien
localement compact, appelé le groupe dual (de Pontryagin) de .

Soit l’application définie par

Ceci est un homomorphisme continu de groupes, et donc .

Théorème 2.1.1 (Dualité de Pontryagin). L’application est un isomorphisme de groupe, et par


conséquent est canoniquement isomorphe au dual de .

Grâce au théorème ci-dessus, la transformée de Fourier permet de réaliser cet


isomorphisme au niveau des fonctions à valeurs complexes définies sur et . A savoir, on
peut munir de sa mesure de Haar3 et pour tout définir sa transformée
de Fourier par

Avec :

Notons en particulier que, si l’on définit , alors on a : ,

où est l’identité de . Nous avons le théorème suivant.

3
Une mesure de Haar sur un groupe localement compact est une mesure de Borel quasi-régulière non-
nulle invariante par translation à gauche. En particulier, pour tout ensemble Borélien de et pour tout
dans , on a : .

71
Théorème 2.1.2 (Théorème de Plancherel). Il existe une mesure unique sur , appelée
mesure de Plancherel, de sorte que la transformée de Fourier définie ci-dessus peut être
étendue à une isométrie . En particulier, lorsque
et , on a :

Remarque 2.1.3. Lorsque , la procédure ci-dessus nous donne la transformée de Fourier


classique.

En effet, la mesure de Haar sur est la mesure de Lebesgue, peut être réalisée
comme l’ensemble des pour , et la mesure de Plancherel sur devient la
mesure de Lebesgue, i.e. la transformée de Fourier inverse peut être réécrite comme suit :

Considérons la représentation régulière à gauche de , i.e. l’opérateur de translation


définie comme , la propriété fondamentale de la
transformée de Fourier pour nos besoins est la suivante.

Théorème 2.1.4. Pour tout et tout , on a :

2.2. La transformée de Fourier sur les groupes non-commutatifs localement


compacts
Soit maintenant un groupe localement compact unimodulaire4, non nécessairement
abélien. Une représentation unitaire de est un homomorphisme continu
, où est un espace de Hilbert complexe (éventuellement de dimension infinie)

4
Un groupe est unimodulaire si et seulement si sa mesure de Haar est invariante non seulement à gauche mais
aussi à droite. En effet, sa fonction modulaire (qui mesure le défaut d’invariance à droite d’une mesure de
Haar) est le morphisme constant .

72
et est l’ensemble des opérateurs unitaires sur . Une représentation est
irréductible s’il n’y a aucun sous-espace fermé non triviale de invariant pour
toute . Deux représentations sont équivalentes s’il existe un opérateur
linéaire inversible tel que . Dans ce cas nous écrivons .

L’ensemble dual de est l’ensemble de toutes les classes d’équivalence des


représentations irréductibles unitaires de . Nous remarquons que , en général, n’a pas
une structure de groupe. Cependant, cela est suffisant pour généraliser la transformée de
Fourier à cet égard. Soit , alors sa transformée de Fourier est définie par :

(1)

Observons que est un opérateur de Hilbert-Schmidt sur . Nous avons la


généralisation suivante du Théorème 2.1.2.

Théorème 2.2.1 (Théorème de Plancherel non-commutatif unimodulaire). Soit un groupe


localement compact unimodulaire. Alors, il existe une (unique) mesure de Plancherel sur
telle que la définition ci-dessus peut être étendue à une isométrie . En
particulier, la formule d’inversion suivante est vérifiée :

De façon plus générale, si est une représentation unitaire de – pas nécessairement


irréductible – on peut définir la transformée de Fourier par la même formule (1).

De la même façon que dans le cas abélien, la transformée de Fourier satisfait le théorème
(2.1.2) en diagonalisant l’action de la représentation régulière à gauche ,
définie par .

Théorème 2.2.2. Pour tout et tout , il en est que :

(2)

73
2.3. Contexte de notre travail
Dans le reste de ce chapitre, nous considérons le cas particulier de produit semi-direct de
deux groupes . On rappelle que :

 est un groupe abélien localement compact, connexe et séparable.


 est un groupe abélien fini de cardinalité .
 L’action de rotation de sur est libre et la mesure de
Haar sur (i.e. la mesure de Lebesgue) est invariante sous les ’s.
 l’opération (ou action) du groupe (non-commutatif) de est :

Ici, nous identifions implicitement par mod .

Les hypothèses ci-dessus garantissent que est unimodulaire. Plus tard, nous allons
calculer explicitement les représentations irréductibles unitaires de , qui seront de
dimension finie, démontrant ainsi que est un groupe de Moore5.

Une notation additive est utilisée pour les deux groupes et . Nous notons :

 l’identité de par et celle de par .


 Les lettres sont réservées aux éléments de , alors que sont des
éléments de .
 Les éléments des duals de Pontryagin et sont notés, respectivement,
et .
 Les identités des duals de Pontryagin sont et .
 Les éléments de sont notés soit par ou par les
couples .
 L’action de rotation de sur induit une action de rotation de sur ,
toujours notée et définie par .
 Les représentations régulières à gauches de et sont appelées translation et
opérateurs de décalage, et notées, respectivement,

5
Un groupe de Moore est un groupe localement compact dont les représentations unitaires irréductibles sont
de dimension finie.

74
et . Leur action de rotation sur et
est donnée par :

et

Observons que, étant cyclique, l’opérateur de décalage est complètement déterminé


par via .

La représentation régulière à gauche de est notée par


, et son action sur est . En exploitant
la structure du produit semi-direct de , nous pouvons considérer la représentation
quasi-régulière de , notée , dont l’action sur
est .

Nous allons aussi considérer la représentation obtenue par conjugaison de avec la


transformée de Fourier sur , celle-ci est facilement vue opérer sur via :

Une description complète des représentations irréductibles unitaires de peut être


obtenue au moyen de la théorie de Mackey (voir, e.g., [63], Ch. 17.1, Théorème 4 et 5]).
Nous la rappelons dans ce qui suit.

Théorème 2.3.1 (Représentations des ). Le dual est paramétré par les orbites
de l’action des rotations sur , i.e., par la tranche de camembert qui en
coordonnées polaires est (Figure 43). En outre, correspondant à
l’origine, il y a les caractères de . A savoir, à chaque correspond la
représentation agissant sur via :

(3)

où l’on désigne par la matrice diagonale de diagonale . D’autre part, à

chaque correspond la représentation sur donnée par : .

75
Figure 43: Rotation de la tranche de camembert par

Proposition 2.3.2. Soit . Alors, pour tout , on peut vérifier que :

(4)

De plus, pour tout et pour tout , on a :

Démonstration. D’après le théorème 2.3.1, des calculs simples nous donnent :

Ce qui implique le premier énoncé. D’autre part, pour démontrer le second énoncé, il suffit
de calculer :


76
2.4. Fonctions faiblement cycliques
On vérifie que les fonctions utilisées pour nos descripteurs sont faiblement cycliques, une
condition nécessaire pour démontrer que les invariants rotationnels, introduits dans la
section 4.4, soit faiblement complets.

Un vecteur est cyclique si est une base de . Ceci est équivalent à ce


que la matrice circulante suivante soit inversible :

Fixons . Pour , nous considérons le vecteur tel que :

(5)

Ici, nous désignons par la transformée de Fourier abélienne sur . Observons


que .

Etant donné que , le vecteur ne peut pas être cyclique pour

tout , motivant ainsi la définition suivante.

Définition 2.4.1. Une fonction est faiblement cyclique si est cyclique pour

presque tout . Nous notons l’ensemble des fonctions faiblement


cycliques.

a. Fonctions à valeurs réelles


Nos arguments, dans ce qui suit, sont fortement basés sur l’exploitation de la propriété de la
cyclicité faible des fonctions. Toutefois, pour les fonctions à valeurs réelles cela se révèle en
général impossible.

Proposition 2.4.2. Soit un nombre paire et . Alors, pour tout

, où est le sous-espace -vectoriel propre de défini par :

(6)

77
En particulier, n’est jamais cyclique.

Démonstration : A partir de la parité de , il en résulte que pour

tout et . Etant donné que , cela implique que :

Ce qui démontre l’énoncé.


Observons que est invariant sous l’action de l’opérateur de décalage. Nous disons alors
que est -cyclique si , et posons la définition suivante.

Définition 2.4.3. Si est paire, une fonction à valeurs réelles est faiblement -
cyclique si est -cyclique pour presque tout . D’autre part, si est impaire,
est faiblement -cyclique si et seulement si elle est faiblement cyclique dans le sens
de la définition 2.4.1.

Nous notons l’ensemble des fonctions faiblement -cycliques.

3. Descripteurs de Fourier dans les groupes


3.1. Invariants spectraux et bi-spectraux
Des applications sont appelées des invariants pour si pour tout .
Un choix d’invariants est complet s’il vérifie la propriété suivante : pour tout ,
nous avons :

Un choix d’invariants est faiblement complet si l’énoncé ci-dessus est vrai uniquement sur un
sous ensemble résiduel6 de .

Comme il a été montré dans les sous-sections 2.1 et 2.2 qui présentent les propriétés
associées à la représentation régulière à gauche dans le cas abélien (Th 1.1.4) et non abélien
6
Intersection dénombrable d’ensembles ouverts et denses.

78
(Th 1.2.2), nous utilisons ces deux théorèmes afin de mettre en évidence le caractère
invariant des descripteurs spectraux et bi-spectraux.

Les premiers invariants que l’on peut envisager sont les suivants.

Définition 3.1.1. Les invariants spectraux (Power Spectrum invariant ou PS) de


sont l’ensemble , où :

Les invariants spectraux ne sont pas faiblement complets, même dans le cas simple

de . Dans ce cas pour tout , et il est facile de


construire un contre-exemple. En effet, il suffit de fixer un certain et considérer
la fonction . De toute évidence, est tel que mais
si et seulement si .

Ainsi, nous devons considérer des ensembles plus riches d’invariants, comme les suivants.

Figure 44 : Log du Power Spectrum d'une image synthétique et sa version pivotée

Définition 3.1.2. Les invariants bi-spectraux (Bi-Spectrum invariant ou BS) de sont


l’ensemble , où :

79
A priori, on a besoin d’utiliser les deux invariants, spectraux et bi-spectraux, bien que nous
allions voir que dans la plupart des cas, et en particulier, dans le cas du groupe ,
nous avons .

3.2. Invariants spectraux et bi-spectraux sur les groupes abéliens localement


compacts
Dans cette section, nous allons démontrer la faible complétude des invariants bi-spectraux
dans le cas où est un groupe abélien localement compact. Dans ce cas, toutes ses
représentations sont unidimensionnelles et la mesure de Plancherel est la mesure de Haar
sur le caractère du groupe . En effet on va montrer que les invariants sont faiblement
complets sur l’ensemble :

Des calculs simples montrent que:

(7)

Dans ce cas, nous avons que pour tout . En effet, observons


que le fait de choisir dans les invariants bi-spectraux donne
, ce qui implique que . Ceci montre que
.

Théorème 3.2.1. Les invariants bi-spectraux sont complets sur l’ensemble .

Démonstration. Soit tel que . Etant donné que ceci implique ,

nous avons que . Ainsi, et s’annulent sur le même ensemble . En outre,


observons que étant donné et sont à support compact, leurs transformées de Fourier
et sont continues.

Soit pour tout . Puisque est le ratio de deux fonctions continues


qui s’annulent uniquement sur un ensemble discret, elle est mesurable. Alors, par l’égalité
des invariants bi-spectraux et (7), il en résulte que satisfait :

80
Ceci implique que est un caractère mesurable de et donc, par le biais d’un résultat
connu ([37], Théorème 22.17), il doit être continu. Par la dualité de Pontryagin, ceci
démontre l’existence de tel que . Ainsi, nous avons démontré que
, ce qui d’après le théorème 2.2.2 implique que , complétant ainsi la
démonstration.


Dans le cas où le résultat ci-dessus peut être renforcé.

Corollaire 3.2.2. Les invariants bi-spectraux sur sont complets sur les fonctions à support
compact de .

Démonstration. Il suffit d’observer que par le théorème de Paley-Wiener, les transformées


de Fourier des fonctions à support compact sont analytiques. Etant donné que les fonctions
non nulles analytiques ont un ensemble discret de zéros isolés, ceci implique que
l’ensemble du théorème 3.2.1 coïncide avec toutes les fonctions considérées.

3.3. Invariants spectraux et bi-spectraux sur


Dans cette sous-section, nous allons étudier la faible-complétude des invariants spectraux et
bi-spectraux dans le cas où .

Soit un ensemble compact. Dans ce qui suit, nous serons principalement concernés
par les fonctions qui sont à support compact soit dans ou dans .

Le résultat suivant généralise, par une démonstration simplifiée, le résultat présenté dans
[74]. Notons que ce résultat est vrai dans un cadre plus général, comme il sera montré dans
un article à paraitre par Prandi et Gauthier.

Théorème 3.3.1. Soit un ensemble compact. Le PS et BS généralisés sont faiblement


complets sur . En particulier, ils discriminent sur l’ensemble ouvert et dense de

81
fonctions à support dans et dont la transformée de Fourier est inversible pour un
ensemble ouvert et dense des s.

Autrement dit, sont tel que et si et seulement si


pour certains .

Démonstration. Le fait que est ouvert et dense est démontré dans le lemme 1 (Annexes :
Lemmes auxiliaires pour la démonstration du théorème 3.3.1). Soit tel que
et . L’égalité du BS généralisé implique que l’ensemble des s pour

lequel et ne peuvent pas être inversibles, est le même. Nous le notons et


considérons

Afin de compléter la démonstration de l’énoncé, nous allons démontrer que peut


être définie pour tous s dans et, en outre, que .

En effet, par (2) cela implique donc que .

De plus est unitaire pour tout . En effet, par l’égalité du PS généralisé, nous
avons :

Observons que l’égalité du BS généralisé et la définition de , impliquent que pour


tout , on a :

Par l’inversibilité de et l’unitarité de , on obtient :

(8)

Le résultat annoncé est alors une conséquence des trois faits suivants, qui sont démontrés
dans l’annexe (Lemmes auxiliaires pour la démonstration du théorème 3.3.1) :

82
1. Lemme 2 : La fonction est continue sur .
2. Lemme 3 : La fonction peut être étendue à une fonction continue sur ,
pour laquelle (8) est toujours vraie.
3. Lemme 4 : Il existe tel que .


Un corollaire immédiat est le suivant.

Corollaire 3.3.2. Soit un opérateur de relèvement injectif.


Supposons qu’il existe un ensemble résiduel tel que est résiduelle.
Alors, les PS et BS généralisés sont faiblement complets sur . A savoir, pour
tout on admet que si et seulement si pour
certains .

4. Descripteurs de Fourier basés sur la structure du cortex visuel


primaire humain V1
4.1. Présentation du pipeline naturel pour la reconnaissance d’objets
Dans cette partie, suivant une ligne de recherche commencée dans [74], nous présentons un
cadre théorique qui nous permet de construire des descripteurs de Fourier généralisés
invariants par rapport aux roto-translations (semi-discrètes) d’images.

En fait, les contributions de certains des auteurs à un modèle assez récent du cortex visuel
primaire humain V1 [62, 9, 8, 10], ont montré que celui-ci peut être modélisé comme un
groupe de roto-translations semi-discrètes . Dans ce modèle, les stimuli
corticaux sont des fonctions dans , par rapport à la mesure de Haar
de , et les images provenant du plan visuel sont relevées à des stimuli corticaux via
une opération naturelle de relèvement injectif et invariant à gauche
. Un tel relèvement est défini comme la transformée en ondelettes par rapport
à une ondelette mère (voir: section 4.2).

A partir de ces faits, un pipeline naturel pour la reconnaissance d’objets est le suivant (Figure
45) :

83
1. Etant donné une image , relevons-la à un stimulus cortical
.
2. Calculer les descripteurs de Fourier généralisés de sur le groupe non-
commutatif .
3. Si le relèvement d’une autre image a les mêmes descripteurs de Fourier
que , on déduit que à une action d’un élément de près.
4. Grâce à l’invariance à gauche et à l’injectivité du relèvement , on obtient aussi
que à une action d’un élément de près.

Ce pipeline a été déjà étudié dans [74], où les auteurs ont considéré un relèvement non-
invariant à gauche. Pour ce relèvement, ils ont démontré un résultat de faible complétude
du BS pour des images, représentées comme des fonctions de à support à l’intérieur
d’un ensemble compact et fixe.

84
Figure 45 : Pipeline naturel pour la reconnaissance d'objets

Dans la suite, nous considérons la même question pour les relèvements invariants à gauche,
où la situation se révèle être plus compliquée. En particulier, comme il sera expliqué dans la
section 4.4, afin d’assurer la faible complétude, nous sommes amenés à considérer des
invariants « plus forts » que le BS généralisé. Toutefois, comme il sera observé dans la
section 4.4, le calcul réel de ces plus forts invariants sur des images relevées nécessite fois
moins de temps de calcul et d’espace par rapport au calcul des invariants proposés dans
[74].

85
4.2. Présentation du modèle mathématique du cortex visuel primaire V1
Comme mentionné précédemment, la principale nouveauté de notre approche est son lien
avec un modèle assez récent du cortex visuel primaire humain V1, grâce à Petitot et Citti-
Sarti [16, 60] et les contributions récentes de certains des auteurs [8, 9, 10, 62, 7]. La théorie
« Orientations score » introduite dans [24, 25], est aussi fortement connectée avec ce
travail, en particulier pour son exploitation du relèvement invariant à gauche. Nous
mentionnons aussi [73], où les invariants d’images basés sur la structure du groupe de roto-
translation ont été introduits pour les textures. Dans cette section, nous présentons
les caractéristiques de ce modèle qui sont essentielles pour notre approche.

Etant donné qu’il est bien connu [40] que les neurones dans V1 sont sensibles non
seulement aux différentes positions dans le champ visuel, mais aussi aux orientations
locales, et qu’il est raisonnable de supposer que ces orientations soient finies, dans [8] V1 a
été modélisé comme un groupe de roto-translations semi-discrètes
pour paires.

Les stimuli visuels sont supposés être relevés à des motifs (patterns) d’activation
dans par un opérateur de relèvement . Motivés
par des évidences neurophysiologiques, nous supposons donc que :

(H) l’opérateur de relèvement est linéaire et défini par

(9)

pour une ondelette mère donnée tel que est injectif et borné.

Remarque 4.2.1. Cette hypothèse signifie que l’opérateur de relèvement sous considération
est la transformation en ondelettes par rapport à (voir, e.g. [27]). Le fait que soit injectif
et borné est alors équivalent au fait que l’ondelette mère est faiblement admissible, i.e., est

tel que l’application est strictement positive et essentiellement


bornée.

86
Comme conséquence de l’hypothèse ci-dessus, l’opération de relèvement est invariante à
gauche par rapport à l’action de . A savoir :

(10)

Ici et sont les actions de sur et respectivement. C'est-à-


dire :

La formule (10) peut être vue comme une version semi-discrète de la symétrie shift-twist
[13].

L’observation principale pour nos besoins est que (10) signifie que deux images
peuvent être déduites par roto-translation (i.e., pour certains
) si et seulement si leurs relèvements peuvent être déduits par . C.-à-d. que,

4.3. La non-applicabilité du théorème de la complétude dans


Le corollaire 3.3.2 ne peut jamais être appliqué aux relèvements de la forme (9). En fait, on a
le résultat suivant.

Proposition 4.3.1. Considérons , nous avons :

(11)

Où pour , nous considérons et , de sorte


que pour tout . En particulier, on a que rang et
donc lorsque .

87
Démonstration. Soit et considérons . Observons que .
Ensuite, par (1), (4) et (3), pour tout , nous avons

Par définition de ceci complète la démonstration.


4.4. Les invariants spectraux et bi-spectraux rotationnels et leur complétudes
dans
Pour contourner la difficulté posée par la non-inversibilité de la transformée de Fourier pour
les fonctions relevées, nous sommes amenés à considérer les descripteurs plus forts
suivants.

Définition 4.4.1. Les invariants spectraux et bi-spectraux rotationnels (RPS et RBS


respectivement) de sont les collections de matrices, pour tout
et ,

Les descripteurs rotationnels sont invariants uniquement sous l’action de rotations


de mais pas sous l’action de translations. Pour éviter ce problème, nous
fixons un compact et considérons l’ensemble des fonctions à support

88
compact dans , avec une moyenne non-nulle. Observons que ceci est un sous-ensemble
ouvert et dense de . On peut donc définir le barycentre de comme :

Et l’opérateur de centrage comme :

(12)

Ensuite, en considérant le relèvement centré , nous avons si et


seulement si est une translatée de . En particulier,

Pour certains

Définition 4.4.2. Soit l’ensemble des fonctions à valeurs réelles à support

dans , tel que pour presque tout et la famille est une

base pour , si est impair, ou, si est pair, pour

La dépendance de cette définition de la parité de provient du fait que .

En effet, pour paire, cela implique que pour tout . A ce titre, il n’y a
aucun espoir pour que la famille génère la totalité de .

Finalement, nous avons le théorème suivant.

Théorème 4.4.3. Pour tout compact , si l’ondelette mère , les RPS et RBS sont
faiblement complets sur . A savoir, l’ensemble est ouvert et dense dans et
pour tout , on admet que et si et
seulement si pour certain .

Ici, nous nous contentons de présenter uniquement une esquisse de la démonstration de ce


résultat pour le cas impaire. La parité de ne présente pas les problèmes essentiels, il

89
suffit d’exploiter le fait que rang pour tout et , où est défini dans
(6) et que l’équivalence du théorème d’induction-reduction se réduit tout simplement à
une équivalence entre et . Cependant, afin de démontrer le point-clé
technique (13), nous avons besoin d’une étude plus raffinée des propriétés des opérateurs
circulants, ce qui est en dehors du cadre de ce travail et nous nous en reportons à un article
par Prandi et Gauthier, à paraitre.

Démonstration. (Esquisse dans le cas est impair). Le fait que est ouvert et dense
dans résulte des mêmes arguments dans le lemme 1 (Annexe : Lemmes auxiliaires pour
la démonstration du théorème 3.3.1).

Soit la matrice circulante associée à , donnée par, . Alors


la condition sur pour est équivalente à l’inversibilité de pour un
ensemble ouvert et dense de s. Selon les propriétés de la transformée de Fourier sur
par rapport aux translations, il en résulte :

Ceci implique que est inversible si et seulement si l’est. Par


conséquent, l’énoncé est équivalente au fait que pour tout couple nous
avons si et seulement si pour certain .

La démonstration est similaire à celle du théorème 3.3.1 mais avec des difficultés techniques
supplémentaires. Soit l’ensemble où et sont inversibles. Par

hypothèse est ouvert et dense. Pour surmonter la non-inversibilité de dans la


définition candidate, nous exploitons l’inversibilité des matrices circulantes
et sur un ensemble ouvert et dense. A savoir, pour tout , nous considérons

Par définition, est circulant et pour tout . En


outre, par (11), ceci est équivalent à :

90
En particulier, est constante sur les orbites . Finalement, est
unitaire, en conséquence, e.g. du théorème 5.1.

La difficulté principale dans la démonstration maintenant est d’obtenir l’équivalent de


l’identité (8), qui est, que pour un ensemble ouvert et dense de couples nous avons

(13)

Comme déjà mentionnée, la démonstration de cette identité exige une utilisation profonde
des propriétés des opérateurs circulants, ce qui est en dehors du cadre de ce travail. Nous
reportons donc à un article à paraitre.

Une fois (13) est connue, l’énoncé suit en appliquant les mêmes arguments que ceux dans le
théorème 3.3.1. A savoir :

1. La fonction est continue sur . Cela peut être fait par les mêmes
arguments que dans le lemme 2 (Annexe : Lemmes auxiliaires pour la démonstration du
théorème 3.3.1).

2. La fonction peut être étendue à une fonction continue sur satisfaisant


(13). Cela peut être fait exactement comme dans le lemme 3 (Annexe : Lemmes
auxiliaires pour la démonstration du théorème 3.3.1).

3. Il existe tel que . Cela est démontré suivant le lemme 4


(Annexe : Lemmes auxiliaires pour la démonstration du théorème 3.3.1). En effet, le fait
que est maintenant constante sur les orbites , implique que
les s y obtenues doivent être indépendantes de . Comme pour
certains , ceci implique que et donc . Evidemment, cela
démontre que , pour certains .

91
5. Le calcul pratique des descripteurs de Fourier
Ici, nous présentons des formules explicites pour le calcul des descripteurs de Fourier
présentés dans les sections précédentes.

Dans ce qui suit, nous montrons que, sous certaines hypothèses sur l’ondelette mère , le
calcul concret des PS et BS généralisés et de leurs homologues rotationnels RPS et RBS, ne
dépend que de la transformée de Fourier 2D de . Dans la suite, étant donné deux
vecteurs , on note , le produit élément par élément de deux vecteurs.

Théorème 5.1. Nous supposons que l’ondelette mère . Alors :

- Pour tout , les PS et BS généralisés de sont déterminés respectivement par


les quantités, pour presque tout :

- Pour tout , les RPS et RBS de sont déterminés respectivement par les
quantités, pour presque tout et :

Ici, est l’opérateur de centrage défini dans (12).

Remarque 5.2. Le théorème 5.1 montre en particulier que le résultat du théorème 4.4.3
est en effet plus fort que le résultat de complétude pour le BS généralisé du relèvement
cyclique obtenu dans [74]. En effet, dans ce travail, il est démontré que celui-ci (pour

92
impaire) est déterminé exactement par les quantités, pour presque tout
et :

En particulier, pour chaque , on doit calculer fois plus de quantités que celles
pour les RBS.

Comme corollaire du théorème 5.1, nous montrons que, dans le but de comparer le PS et
BS, il est généralement suffisant de comparer que le dernier.

Corollaire 5.3. Soit et . Alors, si et ont le même BS généralisé


(resp. rotationnel), elles ont aussi le même PS généralisé (resp. rotationnel).

Démonstration. Nous démontrons uniquement le résultat pour les descripteurs


rotationnels. Dans le but de démontrer celui des descripteurs généralisés, il sera suffisant
de fixer dans ce qui suit. D’après le théorème 5.1, il est suffisant de montrer qu’à

chaque fois que pour presque tout et tout ,

alors pour presque tout et tout . Nous commençons par


observer que par le théorème de Paley-Wiener, toutes ces quantités sont analytiques,
étant donné que et sont à support compact. De plus,

Et la même chose est vraie pour . Ainsi, .

Finalement, le résultat suit en observant que :

6. Conclusion
Dans ce chapitre, nous avons présenté un ensemble de descripteurs de Fourier sur le groupe
de roto-translations semi-discrètes . Ensuite, nous avons démontré que les

93
descripteurs PS et BS généralisés – et leurs homologues rotationnels RPS et RBS – sont
faiblement complets, dans le sens où ils permettent de discriminer sur un ensemble ouvert
et dense de fonctions à support compact à une action d’un élément
de près.

Les aspects techniques, les tests comparatifs effectués et les résultats obtenus seront
présentés dans le chapitre suivant.

94
95
Chapitre 4 : Résultats et expérimentations

1. Introduction
Les chapitres précédents ont abordé un des points clés essentiels pour réaliser la tâche de
reconnaissance d’objets : l’extraction des caractéristiques. Le but de ce chapitre est
d’évaluer les performances, dans un contexte de reconnaissance d’objets, des descripteurs
proposés dans ce document.

De nombreuses applications de reconnaissance automatique d’objets sont proposées dans la


littérature. Certaines sont spécifiquement destinées à des traitements temps réel tel que les
travaux de Gould et al. [35] et Shotton et al. [72]. Les structures des systèmes de
reconnaissance les plus communes utilisent un seul descripteur suivi d’un seul classifieur
[18, 59, 86], d’autres systèmes font appel à des combinaisons associant plusieurs
descripteurs et/ou classifieurs [66, 32, 30].

 Dans cette thèse, nous proposons d’utiliser la structure classique basée sur un
un classifieur. En ce qui concerne les descripteurs, nous mettons en place ceux
dans le chapitre précédent, à savoir : les invariants spectraux (PS) et bi-spectraux (BS)
généralisés et leurs homologues rotationnels (RPS) et (RBS), nous considérons aussi
combinaison des deux descripteurs BS et RPS. En effet, combiner ces deux
semble être un bon compromis entre le résultat théorique de la complétude donné
théorème 4.4.3 (qui ne tient que pour le RBS) et les calculs, comme le montreront les
résultats sur les différentes bases d’images. Pour les classifieurs, nous aurons recours
méthode de classification supervisée à noyau : les machines à vecteurs de support
Annexe :

Machines à vecteurs de support (SVM)).

Dans l’objectif de comparer nos ensembles de descripteurs de Fourier aux principaux de la


littérature, une série d’expérimentations complexes est menée. Cette dernière testera et
comparera des descripteurs globaux tels que les moments de Zernike et de Hu, les invariants
de Fourier-Mellin, des descripteurs locaux tels que les SIFT et les histogrammes de gradients
orientés, et notre ensemble de descripteurs de Fourier {PS, BS, RPS, RBS, RPS & BS}. Les

96
performances de reconnaissance de ces différents descripteurs par rapport à l’invariance par
rotation, la capacité de discrimination et la robustesse aux bruits, seront calculées.

2. Evaluation des descripteurs de Fourier


Pour évaluer les descripteurs de Fourier que nous avons définis dans la partie théorique
(chapitre 3), nous mettons en place différentes expérimentations sur des bases d’images
standards. Nous commencerons par étudier la capacité de discrimination chez ces
descripteurs en les évaluant sur une base d’images synthétiques, ensuite nous comparerons
leurs performances avec celles des descripteurs locaux et globaux en les testant sur des
bases de visages comme RL7, CVL [75], ORL [64], Shieffeld8 et Extended Yale b[31], et sur une
base d’images d’objets variés larges comme COIL-100 [51]. Enfin, nous évaluerons ces
descripteurs de Fourier pour une problématique de reconnaissance de navires dans un
contexte de surveillance maritime.

2.1. Les bases d’images utilisées

a. Base d’images synthétiques


La première base d’images de test est composée des images de quelques formes
géométriques simples (triangles, rectangles, étoiles, ellipses ….) et qui ont subit des rotations
entre 0 à (Figure 46)

Figure 46 : Base des images synthétiques

7
http://robotics.csie.ncku.edu.tw/Databases/FaceDetect_PoseEstimate.htm#Our_Database_
8
https://www.sheffield.ac.uk/eee/research/iel/research/face

97
b. Base de visages RL
La base de visages RL a été construite par le laboratoire RL (Robotics Laboratory,
Department of Computer Science and Information Engineering), basé à l’université nationale
de Cheng Kung, Taiwan.

Elle contient 6660 images de 90 sujets. Chaque sujet a 74 images, où 37 images ont été
prises tous les 5 degrés du profil droit (défini par +90°) au profil gauche (défini par -90°) dans
le plateau de rotation (Figure 47). Les 37 images restantes sont générées (synthétisées) par
les 37 images existantes à l’aide d’un logiciel commercial de traitement d’images afin
d’obtenir les images symétriques. Les images suivantes constituent un exemple de cette
base de données, avec des rotations de 0° (frontal) -> -90° (profil de gauche) (Figure 47) :

Figure 47: Extrait de la base RL. Pour chacune des 90 personnes enregistrées, on dispose de 74 vues avec des poses
différentes

c. Base de visages CVL


La base CVL a été collectée par le chercheur Peter Peer, membre du Computer Vision
Laboratory (CVL) à l’université de Ljubljana, Slovénie. Elle contient 114 personnes dont 90%
sont de sexe masculin et avec un âge moyen de 18 ans, chacune étant enregistrée sous 7
vues différentes avec des expressions faciales différentes (Figure 48 et Figure 49). Les images
sont en couleur de taille pixels. Pour tous les sujets, les images ont été collectées
dans des conditions d’éclairage uniformes avec des variations de poses et d’expressions
faciales. Parmi ces vues, trois seulement sont de face.

98
Figure 48: Extrait de la base CVL. Ensembles de vues collectées pour un individu de la base

Figure 49: Trois expressions faciales extraites de la base CVL

d. Base de visages ORL


Cette base de données de visage a été créée au laboratoire AT&T, basé à Cambridge (Figure
50). Elle contient 40 personnes de sexe différent. Les images sont de taille pixels.
10 vues différentes de chaque sujet ont été collectées (Figure 51). Ces vues présentent
différentes poses et expressions faciales (expression neutre, sourire et yeux fermés) et des
occlusions partielles par des lunettes, sous des conditions de luminosité variables.

Figure 50 : Base de visages ORL

99
Figure 51 : Exemples de visages enregistrés sous des vues différentes

e. Base de visages Sheffield


La base de visages Sheffield (auparavant UMIST) est composée de 564 images de 20
individus (race/genre/apparence mixtes), chacun représenté dans un intervalle de poses,
allant des vues de profil aux vues frontales (Figure 52). Les images des visages sont sous le
format PGM et sont de taille pixels.

Figure 52: Base de visages Sheffield

f. Base de visages Extended Yale B


La base extended Yale B est une verison étendue de la base de visages Yale B construite par
l’université de Yale. Cette base est considérée comme la base standard pour l’évaluation de
la robustesse des systèmes de biométrie faciale en cas de conditions d’illumination variables
(Figure 53). Elle est composée de 16128 images faciales de 10 personnes, chacune
enregistrées sous 9 poses et 64 conditions différentes d’éclairages (en total 576 images par
100
individu). Le format des images de cette base est le même que celui des images de la base
d’origine Yale B : format GIF en niveaux de gris.

Figure 53: Base de visages Extended Yale B

g. Base d’images COIL-100


Coil-100 (Columbia Object Image Library) est composée de 7200 images couleur de
taille de 100 objets différents (Figure 54). Chaque image est composée d’un fond
noir et chaque objet est pris sous 72 angles de vue différents (Figure 55). Cette base, utilisée
dans des travaux similaires [74], peut être qualifiée de « facile » car le seul contenu
fréquentiel est celui de l’objet d’intérêt. De plus, les objets ont souvent un contenu très
géométrique.

Figure 54 : Les 100 objets de COIL-100

101
Figure 55 : Exemples d'objets vus sous des angles différents

2.2. Extraction des descripteurs


Comme démontré dans le théorème 5.1, l’égalité des descripteurs de Fourier que nous
avons introduite, ne dépend pas du choix de l’ondelette mère . Par conséquent, dans
notre implémentation, nous avons calculé uniquement les quantités introduites dans le
théorème 5.1, dont la complexité est réduite au calcul efficace du vecteur ,
pour donnée. Nous rappelons que ce vecteur est obtenu par l’évaluation de la
transformée de Fourier de sur l’orbite de sous l’action des rotations discrètes
pour .

D’un point de vue théorique, l’utilisation d’une ondelette mère spécifique permet
d’améliorer les performances en termes de discrimination du descripteur. Les tests
préliminaires que nous avons réalisés en utilisant une ondelette de Gabor, ont
effectivement montré une amélioration sensible mais pour des coûts de calcul plus
importants.

Pour l’implémentation, nous choisissons de considérer et de travailler avec des


images composées de pixels hexagonaux. Il y a deux raisons pour ce choix :

- Il est bien connu que les cellules rétiniennes sont réparties sur une grille hexagonale,
et il est donc raisonnable de supposer que les activations corticales reflètent ce fait.
- Les grilles hexagonales sont invariantes sous l’action de et les translations
discrétisées. En effet, à part le réseau hexagonal, les seules autres grilles sur qui
sont invariantes par certaines et par des translations discrètes appropriées, sont
obtenues avec .

102
Figure 56 : Etapes de calcul des descripteurs de Fourier. (S1) calcul de la FFTSHIFT de l'image , (S2) génération du
maillage hexagonal, (S3) extraction des hexagons, (S4) évaluation de la FFT de sur chaque hexagon extrait, (S5)
génération du vecteur et (S6) calcul des quatres invariants

Les différentes étapes de calcul des descripteurs9 sont décrites dans la Figure 56 et
données de la façon suivante :

1. L’image d’entrée est convertie en mode niveau de gris, la transformée de Fourier est
calculée, et la composante de fréquence zéro est décalée au centre du spectre.
(Figure 56 S1).
2. Pour des raisons de coût de calcul et puisque nous traitons des images naturelles,
dont les fréquences concernées sont les basses, nous extrayons une grille de
pixels autour de l’origine (Figure 56 S2).
3. Les invariants du théorème 5.1 sont calculés à partir des valeurs de la transformée de
Fourier décalée (FFTSHIFT), sur toutes les fréquences dans un maillage hexagonal à
l’intérieur de cette grille de taille pixels. Une interpolation bilinéaire est
appliquée pour obtenir les valeurs correctes de (Figure 56 S3, S4, S5, S6). La
dimension finale du vecteur descripteur est donnée dans le Tableau 1.

9
Exemple de code Matlab pour l’implémentation des invariants bi-spectraux rotationnels :
https://nbviewer.jupyter.org/github/dprn/bispectral-invariant-
svm/blob/master/Invariant_computation_matlab.ipynb

103
Descripteurs Dimension

PS 136

BS 717

RPS 816

RBS 4417

RPS + BS 1533

Tableau 1 : Dimension des vecteurs descripteurs de Fourier considérés

2.3. Expérimentations

2.3.1. Protocole de test


Nous utilisons nos descripteurs de Fourier pour alimenter un classifieur de type SVM, en
l’appliquant sur les différentes bases d’images. Finalement, nous comparons les résultats
obtenus avec ceux obtenus via des descripteurs traditionnels.

Le résultat de l’étape d’apprentissage consiste en l’ensemble des vecteurs supports SVM.


Durant l’étape de décision, le classifieur calcule les descripteurs de Fourier et le modèle
déterminé durant l’étape d’apprentissage est utilisé pour réaliser la décision du SVM. La
sortie est la classe image.

Nous évaluons séparément le taux de reconnaissance obtenu en utilisant les quatre


descripteurs cités précédemment et la combinaison des deux invariants RPS et BS afin de
tester leur complémentarité. Ensuite, nous comparons leur performance avec les moments
de Hu (HM), les moments de Zernike (ZM), les descripteurs de Fourier-Mellin (FM), décrits
dans l’état de l’art, nous avons comparé aussi avec des descripteurs locaux comme SIFT et
HOG.

Le classifieur SVM que nous avons utilisé est basé sur un noyau Gaussien dont la taille est
fixée empiriquement afin de maximiser le taux de reconnaissance.

104
Les performances des différents descripteurs invariants sont analysées en fonction du taux
de reconnaissance. Par conséquent, pour un ratio donné, les ensembles d’apprentissage et
de test ont été construits en divisant aléatoirement tous les exemples. Puis, en raison du
caractère aléatoire de cette procédure, de multiples essais ont été effectués avec différents
tirages au hasard de l’ensemble d’apprentissage et de test. Dans le cas ou un bruit est
ajouté, puisque comme mentionné précédemment l’ensemble d’apprentissage comprend
toutes les images, cette procédure est appliquée uniquement à l’ensemble de test.

Les paramètres fixés pour nos expérimentions sont les suivant :

- L’ensemble d’apprentissage correspondant aux valeurs d’un descripteur invariant


calculé sur une image de la base de données.
- Les classes correspondant à la classe d’objet (100 classes pour le cas de
la base COIL-100).
- Nombre d’essais aléatoires : fixé à 5.
- Noyau : un noyau gaussien de bande passante est choisi

et correspondent aux vecteurs descripteurs des objets.

Pour résoudre un problème multi-classes, les deux approches les plus populaires sont la
méthode One-Against-All (OAA) et la méthode One-Against-One (OAO). Pour notre propos,
nous avons choisi un multi-classifieur SVM basé sur la méthode OAO, car cette dernière est
beaucoup plus rapide pour l’étape d’apprentissage et semble préférable pour les problèmes
avec un très grand nombre de classes.

2.3.2. Tests sur la base des images synthétiques


Les tests sur la base d’images synthétiques ont été réalisés dans le but de valider la propriété
de faible-complétude (i.e. capacité de discrimination) des descripteurs de Fourier définis
dans le chapitre précédent {PS, BS, RPS, RBS, BS+RPS}. Tout d’abord, nous commençons par
calculer ces différents descripteurs pour chaque image synthétique de la base, ainsi pour
d’autres images réelles. Dans le but de comparer ces descripteurs, nous avons eu recours à
la norme euclidienne classique qui calcule la distance entre deux vecteurs descripteurs.

105
Dans Figure 57, les notations {D-D60, D-D120, D-D180, D-D240, D-D300, D-D360, D-rose, etc.}
signifient, respectivement, les distances euclidiennes entre le descripteur de l’image de
l’objet original {Diamant, Triangle, Ellipse…} et ceux des images du même objet subissant des
rotations de 0 à , ainsi que les descripteurs des images réelles.

La Figure 57 montre bien que les normes euclidiennes entre le descripteur de l’image de
l’objet original et ceux des images du même objet pivoté, sont presque égales et convergent
vers 0, au contraire de celle entre le même descripteur et ceux des images réelle, qui
divergent. En analysant les différents graphes de la figure, nous constatons aussi que les
descripteurs BS et RBS sont légèrement plus faiblement complets que les descripteurs PS,
RPS et la combinaison (BS,RPS).

Figure 57: Test sur la base d'images synthétiques

106
2.3.3. Tests sur la base des visages RL
Pour la base de visages RL, les tests ont été réalisés en utilisant 75% d’images de visages
pour l’apprentissage (environ 55 images par visage) et 25% pour le test (environ 19 images
par visage).

Nous effectuons des expérimentations sur la base de données RL en utilisant l’ensemble des
descripteurs globaux RBS, BS, PS, RPS, ZM, HU, FM, la combinaison du RPS & BS, et les deux
fameux descripteurs locaux SIFT et HOG.

Le Tableau 2 présente les résultats obtenus en testant notre méthode de reconnaissance


d’objets sur la base de visages RL. Le meilleur résultat a été obtenu en utilisant le descripteur
RBS confirmant ainsi son invariance aux rotations, suivi des descripteurs SIFT et HOG et de la
combinaison du RPS + BS.

Descripteurs Taux de reconnaissance (%)

RBS 99.5

BS 91.4

PS 53

RPS 96.4

RPS + BS 97.6

ZM 95

HM 42.8

FM 51.5

HOG 98.8

SIFT 98.7

Tableau 2: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages RL

107
2.3.4. Tests sur la base des visages CVL
La base de visages CVL a été utilisée dans plusieurs travaux, sous des conditions
d’apprentissage et de test différents. Elle est notamment utilisée par Albiol et al. dans [1] qui
présentent un nouvel algorithme de reconnaissance de visages basé sur une combinaison
des EBGM (Elastic Bunch Graph Matchnig) et des descripteurs HOG (Histogram of Oriented
Gradients), et par Goal et al. dans [34], où les auteurs ont mené une étude de la faisabilité
des RP (Random Projection) pour la reconnaissance de visages.

Les tests ont été réalisés en utilisant les mêmes descripteurs d’images exploités dans la base
de visages RL. Le Tableau 3 montre que le descripteur RBS et la combinaison du RPS et BS,
approchent les performances des descripteurs locaux SIFT et HOG, et donnent un meilleur
résultat par rapport aux autres descripteurs globaux.

Descripteurs Taux de reconnaissance (%)

RBS 97.5

BS 95

PS 93.5

RPS 96.7

RPS + BS 96

ZM 80.4

HM 65.2

FM 69

HOG 98.2

SIFT 98.4

Tableau 3: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages CVL

108
2.3.5. Tests sur la base des visages ORL
Dans la littérature, le protocole utilisé pour l’apprentissage et le test est différent d’un
papier à l’autre. Dans [64], une approche basée sur le modèle de Markov caché (HMM) est
utilisée, et le meilleur modèle a abouti à un taux de reconnaissance de 95%, avec un coût de
calcul élevé. Dans [38], Hjelmas a atteint un taux de reconnaissance de 85% en utilisant la
base de visages ORL et des vecteurs descripteurs constitués de coefficients de Gabor.

Les résultats sont présentés dans le Tableau 4, où l’on voit clairement que le descripteur RBS
approche les descripteurs locaux et surpasse ceux globaux en terme de performances.

Descripteurs Taux de reconnaissance (%)

RBS 92.5

BS 70

PS 50

RPS 83.5

RPS + BS 86.5

ZM 82

HM 50

FM 54

HOG 95

SIFT 92.5

Tableau 4: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages ORL

109
2.3.6. Tests sur la base de visages Sheffield
Dans le cas de la base de visages Sheffield, les expérimentations ont été réalisées en
respectant le même protocole de test (c.à.d. 75% d’images pour l’apprentissage et 25% pour
le test) et en utilisant les mêmes descripteurs testés dans le cas de la base de visages RL.

Le Tableau 5 montre que le descripteur RBS et la combinaison du RPS et BS égalent les


performances du descripteur local SIFT, et surpassent celle du HOG et des autres
descripteurs globaux.

Descripteurs Taux de reconnaissance (%)

RBS 100

BS 90

PS 83

RPS 95

RPS + BS 100

ZM 92.5

HM 81.2

FM 85

HOG 90

SIFT 100

Tableau 5: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages Sheffield

2.3.7. Tests sur la base de visages Extended Yale B


Pour la base de visages Extended Yale B, nous refaisons les mêmes tests et nous réutilisons
l’ensemble de descripteurs exploité dans les cas des bases de visages RL et Sheffield.

Le Tableau 6 présente les résultats obtenus en testant notre méthode de reconnaissance


d’objets sur cette base de visages. Le meilleur résultat a été obtenu en utilisant le

110
descripteur local HOG, qui surpassent nettement les autres descripteurs, suivi des
descripteurs SIFT et RBS qui donnent aussi un taux de reconnaissance acceptable.

Descripteurs Taux de reconnaissance (%)

RBS 89.9

BS 70.3

PS 66.4

RPS 84.3

RPS + BS 87.4

ZM 82

HM 63.5

FM 68.1

HOG 98

SIFT 92.1

Tableau 6: Taux de reconnaissance pour chaque descripteur en utilisant la base de visages Extended Yale B

2.3.8. Tests sur la base des images COIL-100


Pour la base d’images COIL-100, deux cas ont été étudiés : un cas avec bruit et un autre sans
bruit. Dans le premier cas, les tests ont été réalisés en utilisant 75% de la base d’images pour
l’apprentissage (54 images par objet) et 25% pour le test (18 images par objet). Dans le
second cas, nous avons utilisé un ensemble de données d’apprentissage composé de 6700
images (100 objets avec 67 vues pour chacun) non bruitées, et un ensemble de données de
test composé de 15 vues par objet sélectionnées aléatoirement pour lesquelles un bruit
gaussien avec est ajouté (Figure 58).

111
Figure 58 : Exemple d'images bruitées pour un objet de la base COIL-100

a. Cas simple

Le Tableau 7 présente les résultats obtenus en testant notre méthode de reconnaissance


d’objets avec la base d’images COIL-100. Les meilleurs résultats ont été obtenus en utilisant
le descripteur RBS. Le descripteur local SIFT vient en deuxième place et le HOG troisième.
Alors qu’il a été démontré dans la littérature, que les méthodes locales donnent
actuellement les meilleurs résultats [15]. De plus, si le bruit est ajouté sur l’image,
l’utilisation d’une approche globale semble plus efficace que l’approche locale. La raison
principale est que le détecteur de points-clés utilisé dans les méthodes locales produit dans
ce cas de nombreux points-clés qui ne sont pas pertinents pour la reconnaissance d’objets.
Cela sera montré dans la sous-section suivante.

Descripteurs Taux de reconnaissance (%)

RBS 95.5

BS 88

PS 84.3

RPS 89.8

RPS + BS 92.8

ZM 91.9

HM 80.2

FM 89.6

112
HOG 95.3

SIFT 93.4

Tableau 7: Le taux de reconnaissance pour chaque descripteur en utilisant la base de données COIL-100 (cas non-bruité)

Dans la Figure 59, nous présentons le taux de reconnaissance en fonction de la taille de


l’ensemble d’apprentissage. Comme prévu, il s’agit d’une fonction croissante et nous
remarquons que les descripteurs HOG et SIFT, le RBS et la combinaison RPS + BS nécessitent
moins de données d’apprentissage afin de donner un bon taux de reconnaissance, au
contraire des descripteurs qui ont besoin d’une grande taille de données.

100
RBS
90 BS
PS
80 RPS
RPS + BS

70 ZM
HM

60 FM
SIFT

50 HOG
10% 20% 50% 75%

Figure 59: Taux de reconnaissance pour différentes tailles de la base d'apprentissage

b. Cas bruité

Les résultats présentés dans le Tableau 8 montrent que le bruit a peu d’influence sur la
performance de classification quand on utilise un descripteur global tel que le RBS, BS, la
combinaison du BS & RPS, ZM, HM et FM. Il a cependant une grande influence sur les
descripteurs locaux SIFT et HOG.

113
RBS BS PS RPS RPS+BS ZM HM FM SIFT HOG SIFT
(%) (%) (%) (%) (%) (%) (%) (%) (%) (%) (%)

5 98.2 93.4 85.4 91.8 94.2 93.7 82 90.2 89.27 4 1.4

10 98.2 92.8 85 91.4 94 93.7 82 90.2 88.89 1.2 0.6

20 98.2 92 85 90.8 93.6 92.8 80.8 89 85.46 1 0.3

Tableau 8: Taux de classification pour le cas bruité de la base COIL-100

3. Application à la surveillance maritime

3.1. Navires subissant des rotations 2D

3.1.1. Présentation de la base de données


Cette base d’images de navires a été construite par les membres de l’équipe SIIM (Signal
Image) du LSIS.

Elle contient 875 images de 125 navires. Chaque navire a 7 images, qui représentent des
rotations sur le plan 2D (Figure 60) :

Figure 60: Exemples de bateaux qui ont subit des rotations 2D

114
3.1.2. Résultats obtenus
Vu le nombre petit d’images par navire (7 images par navire), nous avons choisi d’alimenter
le classifieur SVM par un ensemble d’apprentissage composé de 6 images, et se contenter
d’une seule image par navire pour le test. Les tests ont été réalisés en utilisant les mêmes
descripteurs d’images exploités dans les cas des bases de visages RL, CVL et ORL.

Le Tableau 9 présente les résultats obtenus sur cette base et montre que les descripteurs
SIFT, HOG, RBS et RPS+BS donnent les meilleurs résultats et sont par la suite les plus
discriminants.

Descripteurs Taux de reconnaissance (%)

RBS 98.6

BS 94

PS 91.2

RPS 97.1

RPS + BS 98.2

ZM 95

HM 84.3

FM 89.5

HOG 98.2

SIFT 99

Tableau 9: Résultats obtenus pour la base de navires 2D

3.2. Navires sous différents angles de vue

3.2.1. Présentation de la base de données


Les images de cette base ont été téléchargées depuis le site
https://www.marinetraffic.com/. Nous avons pu collecter 2200 images de 44 navires, où

115
chaqu’un a été pris sous 50 vues différentes avec des arrière-plans complexes et des
conditions d’éclairage qui changent d’une image à une autre (Figure 61) :

Figure 61: Exemples de bateaux qui ont subit des transformations générales

3.2.2. Résultats obtenus


Pour la base de navires « Marine Traffic », les tests ont été réalisés de la même manière que
dans le cas de la base précédente, c.-à-d., nous avons pris une image parmi les 50 images par
navire de façon aléatoire pour le test, et nous avons utilisé les 49 images restantes pour
l’apprentissage. Les tests ont été réalisés en utilisant les mêmes descripteurs d’images
exploités dans les cas des bases de visages RL, CVL et ORL.

Les résultats des expérimentations sur cette base sont donnés par le Tableau 10, qui montre
que le descripteur RBS approche les performances du descripteur SIFT et discrimine mieux
que le descripteur local HOG et les autres descripteurs globaux. La difficulté principale
rencontrée lors de ces expérimentations était constituée par des arrière-plans complexes,
qui comportent, par exemple, d’autres objets que celui que nous cherchons à reconnaitre
(arbres, bâtiments, autres navires …), ou encore, des conditions météorologiques et de l’état
de la mer variables, qui influencent légèrement sur la qualité de la description d’images dans
un espace fréquentiel.

116
Descripteurs Taux de reconnaissance (%)

RBS 83.5

BS 68.2

PS 61.2

RPS 72.7

RPS + BS 75

ZM 71

HM 37.8

FM 41.2

HOG 83.4

SIFT 88

Tableau 10: Résultats obtenus sur la base de navire "Marine Traffic"

4. Conclusion
Dans ce chapitre, nous avons exposé les performances obtenues par notre ensemble de
descripteurs et nous les avons comparées à celle des descripteurs principaux (locaux et
globaux) de la littérature. Tout d’abord, nous avons validé et confirmé la propriété de la
faible-complétude de nos descripteurs de Fourier démontrée théoriquement dans le
chapitre 2, par une série de tests que nous avons effectués sur des images synthétiques
comportant des formes géométriques simples (triangles, ellipses, étoiles…). Ensuite, nous
avons testé ces descripteurs et les avons comparés à d’autres descripteurs locaux et globaux,
dans le cadre de la reconnaissance d’objet, en utilisant des bases de visages telles que RL,
CVL, ORL, Sheffield, Extended Yale B, et des bases d’images d’objets variés comme COIL-100.
Pour la base d’images COIL-100, deux cas ont été traités : un cas simple de reconnaissance
d’objet et un cas bruité, où différentes images de la base ont subit des altérations
différentes telles que l’ajout de bruit gaussien. Cette série d’expérimentations que nous
avons menée, nous a permis de constater qua la théorie était validée. Ainsi, nos descripteurs

117
de Fourier rotationnels fournissent des résultats supérieurs en moyenne à tous les autres
descripteurs.

Dans un second temps nous avons testé nos descripteurs de Fourier dans un contexte de
surveillance maritime, en les utilisant pour reconnaître des navires. Une fois encore nous
avons pu montrer que nos descripteurs de Fourier rotationnels mis au point permettent
d’obtenir de bons résultats de reconnaissance sur des bases d’images de navires ayant un
arrière-plan complexe et pour des conditions d’acquisition variables.

118
Chapitre 5 : Conclusion et perspectives

1. Conclusion
Les travaux décrits dans cette thèse portent sur la définition et la mise en œuvre de
nouveaux descripteurs de Fourier sur le groupe de roto-translations semi-discrètes .

Nous avons commencé par présenter un état de l’art des différentes approches de
description d’images. Les propriétés de chaque méthode ont été étudiées pour montrer
leurs invariances aux différentes transformations géométriques et leurs robustesses aux
altérations. Nous avons également présenté les avantages et inconvénients de ces
différentes approches.

La deuxième partie concerne plus précisément notre contribution. Celle-ci débute par des
rappels sur l’analyse harmonique dans les groupes abéliens et non-abéliens localement
compacts. Ensuite, nous avons démontré que les invariants spectraux (PS) et bi-spectraux
(BS) généralisés, et leurs homologues rotationnels (RBS) et (RPS), sont faiblement complets,
c'est-à-dire qu’ils permettent de discriminer deux fonctions définies sur un ensemble ouvert
et dense de fonctions à support compact à une action d’un élément
de près. Cela généralise un résultat de [74]. Par la suite, nous avons utilisé ces
descripteurs dans le cadre de la reconnaissance d’objets invariante aux roto-translations,
inspiré par certaines propriétés neurophysiologiques du cortex visuel humain primaire V1.
Dans ce cadre, nous avons montré que les invariants bi-spectraux rotationnels sont en effet
des invariants aux roto-translations faiblement complets pour les images planaires. De plus,
bien que les descripteurs de Fourier proposés soient définis en termes d’objets
mathématiques complexes, nous avons montré qu’ils peuvent être implémentés de façon
linéaire en tant que combinaisons linéaires des valeurs de la transformée de Fourier 2D de
l’image.

Dans la deuxième partie de cette thèse, nous avons proposé une évaluation des
performances de ces descripteurs de Fourier dans un contexte de reconnaissance d’objets et
nous avons présenté les résultats obtenus sur différents base de données : les bases de
visages RL, CVL, ORL, Sheffield et Extended Yale B, sur lesquelles différents visages sont
soumis à plusieurs types de variations ; la base d’images COIL-100, composées de plusieurs

119
objets soumis à des changements de rotations 3D et d’échelles. Pour toutes ces bases de
données, les descripteurs de Fourier globaux introduits dans cette thèse sont, en moyenne,
les descripteurs testés les plus efficaces. Bien que pour les images non altérées, les
descripteurs de Fourier rotationnels approchent souvent les performances des descripteurs
locaux SIFT et HOG et parfois donnent un meilleur taux de reconnaissance, l’addition de
bruit et de différentes altérations donne toujours l’avantage aux descripteurs globaux.

Ces résultats montrent ainsi que l’invariant bi-spectral rotationnel (RBS) est un très bon
descripteur de Fourier pour la reconnaissance d’objets, en cohérence avec le résultat
théorique de la faible-complétude. Lorsque la dimension du vecteur descripteur de Fourier
pose un problème, le RBS peut être remplacé par la combinaison des descripteurs bi-
spectraux généralisés BS et des descripteurs spectraux rotationnels RPS, qui donne des
résultats légèrement moins bons avec un vecteur descripteur de taille égale au tiers de celle
du RBS.

2. Perspectives
Les travaux réalisés au cours de cette thèse nous ouvrent un large champ de perspectives.

D’une part, l’implémentation d’une architecture hexagonale en spirale (Figure 62) introduite
par Sheridan [71, 70], à la place de la grille hexagonale classique utilisée dans nos
expérimentations, peut améliorer le temps de calcul et réduire la taille de nos descripteurs
de Fourier. L’architecture en spirale est un moyen d’indexer des hexagones de la grille avec
un seul index qui permet d’introduire une opération, multiplication en spirale, qui, avec la
même complexité d’une multiplication normale, calcule des rotations avec des multiples
.

Il existe des méthodes efficaces [23] pour simuler des pixels hexagonaux par un sur-
échantillonnage de l’image par un ratio de 7 puis en utilisant ce que nous appelons des
« hyperpels », composés de 56 pixels pour approximer un pixel hexagonal.

120
Figure 62: Principe de l'architecture hexagonale en spiral

Enfin, en s’inspirant de la méthode de détection d’objets, proposée par les chercheurs Paul
Viola et Michael Jones en 2001 [84], nous envisageons d’associer ce type de descripteurs à
un classifieur de type Adaboost (ou Adaptative Boosting) [26] qui semble très prometteur et
bien adapté au problème de détection d’objets.

121
122
Annexes

A. Décomposition du produit tensoriel des représentations

Théorème 1.2. (Théorème d’Induction-Reduction). Pout tout , il en est que :

(14)

L’équivalence dans le théorème (14) peut être

explicitement calculée comme :

(15)

Ici, est la composition de avec la projection sur le -ième

composant. L’inverse de est son adjoint , donné par :

Soit l’inverse à droite de , défini par :

Par ailleurs, l’action d’un opérateur linéaire est donnée

par :

Où sont les composants du bloc de .

Dans ce qui suit, nous recueillons quelques faits utiles.

Proposition 1.3. Soit l’équivalence dans (15). Alors, on a ce qui suit :

 Pour tout opérateur linéaire avec les


composantes , l’opérateur a composant de bloc :

123
En particulier, pour un couple d’opérateurs linéaires , il en est
que :

 Soit définie par pour tout

et . Alors :

B. Lemmes auxiliaires pour la démonstration du théorème 3.3.1

Lemme 1. L’ensemble introduit dans le théorème 3.3.1 est ouvert et dense dans
.

Démonstration. Nous commençons par montrer que . Pour ce faire, il suffit de


considérer tel que pour tout et tel que
. Par (4), nous avons alors , comme

Pour tout et , le théorème de Paley-Wiener implique que est


analytique. En particulier, par (4), est analytique. Ainsi, si et seulement
si est inversible.

Nous affirmons que l’ensemble est dense. En effet, soit et fixons un certain
et tel que est inversible. Par l’analyticité de , il en
résulte que pour un suffisamment petite, ce qui implique que ,
démontrant ainsi ce que nous avons affirmé.

Démontrons maintenant que est ouvert dans . Pour ce faire, fixons


et dans . Ceci implique que dans , et en particulier
que est en mesure. Par la définition de la convergence en mesure, ceci implique que

124
pour suffisamment grand on doit admettre que . D’où, pour
suffisamment grand et est ouvert.


Avant de plonger dans les démonstrations des autres lemmes auxiliaires, nous faisons
l’observation suivante. Soit tel que pour tout . L’application
du théorème d’Induction-Reduction (14) sur (8) donne :

(16)

Lemme 2. La fonction est continue sur .

Démonstration. Fixons et un ensemble ouvert tel que

Ceci est possible puisque . Puisque l’ensemble est ouvert et dense, jusqu’à la
réduction de nous pouvons supposer qu’il existe un voisinage de tel que
pour tout . Ensuite, (16) est valable pour et . En calculant
explicitement le bloc de (16), nous avons

Ensuite, en l’intégrant sur w.r.t. , ça donne

Puisque la fonction sur le côté droit est clairement continue sur , ceci prouve la continuité
à de , complétant ainsi la démonstration.


125
Lemme 3. La fonction peut être étendue à une fonction continue sur , pour
laquelle (8) est toujours vraie.

Démonstration. Soit . Puisque est un ensemble ouvert et dense, ceci implique que
est dans sa fermeture et que nous pouvons choisir tel que pour
un certain et pour tout . Nous considérons ensuite

(17)

Nous montrons maintenant que la définition ci-dessus ne dépend pas du choix de


et . Par l’ouverture de , il existe un voisinage de entièrement contenu dans . Puis,
jusqu’à prendre un petit , on admet que pour tout . Par (16),
ceci implique que pour tout , il en est que

Pour et assez près, mais différents, de et , respectivement. Par la continuité de


sur , démontrée dans le lemme 2, ceci implique que cette équation est valable aussi
pour et . D’où, (17) ne dépend pas du choix de et .

Finalement, le fait que pour tout


résulte de (17) et (16).


Lemme 4. Il existe tel que .

Démonstration. Par la définition de on admet que

Ensuite, pour tout

(18)

126
Par l’inversibilité de , il existe tel que . En utilisant (18) ceci

implique que pour tout . A savoir, nous avons démontré qu’il

existe une famille de fonctions tel que ou, de manière

équivalente, que

Par l’expression explicite (3) de , dans le but de compléter la démonstration, il suffit de


démontrer que .

Par la continuité et l’unitarité de , les ’s sont continues et satisfont . En


utilisant encore une fois (18) avec , nous obtenons

(19)

Pour tout et .

Nous affirmons que les ’s sont les caractères de . En effet, fixons dans (19) :

(20)

Choisir dans ce qui est ci-dessus montre que peut être étendue à 0. De plus,
considérer et prendre la limite montre que cette extension est continue.
Puisque les caractères de sont exactement les fonctions continues satisfaisant (20),
l’affirmation est démontrée.

Par la dualité de Pontryagin, il existe tel que . Finalement, par (19)


avec on obtient , qui démontre qu’il existe tel que
. Ceci complète la démonstration de l’énoncé.

127
C. Machines à vecteurs de support (SVM)

La plupart des systèmes de reconnaissance d’objet incluent une étape de classification. Nous
avons choisi ici la fameuse et efficace approche SVM.

SVM est une machine d’apprentissage universelle (développée en particulier par Vladimir
Vapnik [83, 12]). Une revue des principes de base suit, en considérant un problème de deux
classes (quelque soit le nombre de classes, il peut être réduit à un problème de deux classes,
via une approche One-Against-All ou One-Against-One [48].

L’objectif des machines à vecteurs de support est de déterminer un classifieur ou une


fonction de régression qui minimise le risque empirique (c’est-à-dire, l’erreur de l’ensemble
d’apprentissage) et l’intervalle de confiance (qui correspond à l’erreur de généralisation ou
de l’ensemble de test).

Vapnik et al. ont introduit des classifieurs SVM pour lesquels les surfaces de décision sont
des hyperplans dans un espace :

Etant donné un ensemble d’apprentissage de exemples linéairement séparables


, où chaque exemple appartient à l’une des deux classes,
représenté par , la méthode d’apprentissage SVM cherche l’hyperplan
optimal , comme surface de décision, qui sépare les exemples positifs et
négatifs avec une plus grande marge. La fonction de décision pour classifier les données
linéairement séparables est :

Où et sont obtenues à partir de l’ensemble d’apprentissage en résolvant un problème


d’optimisation quadratique contraint. La fonction de décision finale est :

128
La fonction dépend des exemples d’apprentissage pour lesquels est non-nulle. Ces
exemples sont appelés les vecteurs de support. Souvent, le nombre de vecteurs de support
n’est qu’une fraction de l’ensemble de données d’origine. La formulation SVM de base peut
être étendue au cas non-linéaire en utilisant des noyaux non-linéaires qui mappent l’espace
d’entrée à un espace caractéristique de grande dimension. Dans cet espace caractéristique
de grande dimension, une classification linéaire peut être réalisée.

Les SVM ont été mis en place avec succès pour les tâches de détection et de reconnaissance
de visages.

129
130
Bibliographie

[1] Alberto Albiol, David Monzo, Antoine Martin, Jorge Sastre, and Antonio Albiol. Face
recognition using hog–ebgm. Pattern Recognition Letters, 29(10):1537–1543, 2008.

[2] Mohamed ATRI, Taoufik SAIDANI, and Rached TOURKI. Détection d’individu d’histogramme
intégral.

[3] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-up robust features
(surf). Computer vision and image understanding, 110(3):346–359, 2008.

[4] Herbert Bay, Tinne Tuytelaars, and Luc Van Gool. Surf: Speeded up robust features. In
Computer vision–ECCV 2006, pages 404–417. Springer, 2006.

[5] Serge Belongie, Jitendra Malik, and Jan Puzicha. Shape context: A new descriptor for shape
matching and object recognition. In NIPS, volume 2, page 3, 2000.

[6] Serge Belongie, Jitendra Malik, and Jan Puzicha. Shape matching and object recognition using
shape contexts. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 24(4):509–522,
2002.

[7] Amine Bohi, Dario Prandi, Vincente Guis, Frédéric Bouchara, and Jean-Paul Gauthier. Fourier
descriptors based on the structure of the human primary visual cortex with applications to object
recognition. Journal of Mathematical Imaging and Vision, 57(1):117–133, 2017.

[8] Ugo Boscain, Roman A Chertovskih, Jean-Paul Gauthier, and AO Remizov. Hypoelliptic
diffusion and human vision: a semidiscrete new twist. SIAM Journal on Imaging Sciences, 7(2):669–
695, 2014.

[9] Ugo Boscain, Jean Duplaix, Jean-Paul Gauthier, and Francesco Rossi. Anthropomorphic image
reconstruction via hypoelliptic diffusion. SIAM Journal on Control and Optimization, 50(3):1309–
1336, 2012.

[10] Ugo Boscain, Jean-Paul Gauthier, Dario Prandi, and Alexey Remizov. Image reconstruction via
non-isotropic diffusion in dubins/reed-shepp-like control systems. In 53rd IEEE Conference on
Decision and Control, pages 4278–4283. IEEE, 2014.

[11] Anna Bosch, Andrew Zisserman, and Xavier Muñoz. Scene classification via plsa. In Computer
Vision–ECCV 2006, pages 517–530. Springer, 2006.

[12] Bernhard E Boser, Isabelle M Guyon, and Vladimir N Vapnik. A training algorithm for optimal
margin classifiers. In Proceedings of the fifth annual workshop on Computational learning theory,
pages 144–152. ACM, 1992.

[13] Paul C Bressloff, Jack D Cowan, Martin Golubitsky, Peter J Thomas, and Matthew C Wiener.
Geometric visual hallucinations, euclidean symmetry and the functional architecture of striate cortex.
Philosophical Transactions of the Royal Society of London B: Biological Sciences, 356(1407):299–330,
2001.

131
[14] Matthew Brown, Richard Szeliski, and Simon Winder. Multi-image matching using multi-scale
oriented patches. In Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision
and Pattern Recognition (CVPR’05) - Volume 1 - Volume 01, CVPR ’05, pages 510–517, Washington,
DC, USA, 2005. IEEE Computer Society.

[15] Anant Choksuriwong, Bruno Emile, Helene Laurent, and Christophe Rosenberger.
Comparative study of global invariant descriptors for object recognition. Journal of Electronic
imaging, 17(2):023015–023015, 2008.

[16] Giovanna Citti and Alessandro Sarti. A cortical based model of perceptual completion in the
roto-translation space. Journal of Mathematical Imaging and Vision, 24(3):307–326, 2006.

[17] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In
Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on,
volume 1, pages 886–893. IEEE, 2005.

[18] Navneet Dalal, Bill Triggs, and Cordelia Schmid. Human detection using oriented histograms
of flow and appearance. In Computer Vision–ECCV 2006, pages 428–441. Springer, 2006.

[19] John G Daugman. High confidence visual recognition of persons by a test of statistical
independence. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 15(11):1148–1161,
1993.

[20] Stéphane Derrode. Représentation de formes planes à niveaux de gris par différentes
approximations de Fourier-Mellin analytique en vue d’indexation de bases d’images. PhD thesis,
1999.

[21] Stephane Derrode and Faouzi Ghorbel. Robust and efficient fourier–mellin transform
approximations for gray-level image reconstruction and complete invariant description. Computer
Vision and Image Understanding, 83(1):57–78, 2001.

[22] Matthijs Douze, Hervé Jégou, Harsimrat Sandhawalia, Laurent Amsaleg, and Cordelia Schmid.
Evaluation of gist descriptors for web-scale image search. In Proceedings of the ACM International
Conference on Image and Video Retrieval, page 19. ACM, 2009.

[23] Shlomo Dubnov, Naftali Tishby, and Dalia Cohen. Polyspectra as measures of sound texture
and timbre. Journal of New Music Research, 26(4):277–314, 1997.

[24] Remco Duits and Erik Franken. Left-invariant parabolic evolutions on se (2) and contour
enhancement via invertible orientation scores part i: Linear left-invariant diffusion equations on se
(2). Quarterly of Applied Mathematics, pages 255–292, 2010.

[25] Remco Duits and Erik Franken. Left-invariant parabolic evolutions on se (2) and contour
enhancement via invertible orientation scores part ii: Nonlinear left-invariant diffusions on invertible
orientation scores. Quarterly of applied mathematics, pages 293–331, 2010.

[26] Yoav Freund and Robert E Schapire. A desicion-theoretic generalization of on-line learning
and an application to boosting. In European conference on computational learning theory, pages 23–
37. Springer, 1995.

132
[27] Hartmut Führ and Matthias Mayer. Continuous wavelet transforms from semidirect
products: Cyclic representations and plancherel measure. Journal of Fourier Analysis and
Applications, 8(4):375–398, 2002.

[28] Pierre F Gabriel, Jacques G Verly, Justus H Piater, and André Genon. The state of the art in
multiple object tracking under occlusion in video sequences. In Advanced Concepts for Intelligent
Vision Systems, pages 166–173. Citeseer, 2003.

[29] Jean-Paul Gauthier, Guy Bornard, and Martine Silberman. Motions and pattern analysis:
harmonic analysis on motion groups and their homogeneous spaces. Systems, Man and Cybernetics,
IEEE Transactions on, 21(1):159–172, 1991.

[30] Philip Geismann and Georg Schneider. A two-staged approach to vision-based pedestrian
recognition using haar and hog features. In Intelligent Vehicles Symposium, 2008 IEEE, pages 554–
559. IEEE, 2008.

[31] Athinodoros S. Georghiades, Peter N. Belhumeur, and David J. Kriegman. From few to many:
Illumination cone models for face recognition under variable lighting and pose. IEEE transactions on
pattern analysis and machine intelligence, 23(6):643–660, 2001.

[32] David Gerónimo, Antonio López, Daniel Ponsa, and Angel D Sappa. Haar wavelets and edge
orientation histograms for on–board pedestrian detection. In Iberian Conference on Pattern
Recognition and Image Analysis, pages 418–425. Springer, 2007.

[33] Faouzi Ghorbel. A complete invariant description for gray-level images by the harmonic
analysis approach. Pattern recognition letters, 15(10):1043–1051, 1994.

[34] N Goal, George Bebis, and Ara Nefian. Face recognition experiments with random projection.
In Proceedings SPIE Vol, volume 5779, pages 426–437, 2005.

[35] Stephen Gould, Joakim Arfvidsson, Adrian Kaehler, Benjamin Sapp, Marius Messner, Gary R
Bradski, Paul Baumstarck, Sukwon Chung, Andrew Y Ng, et al. Peripheral-foveal vision for real-time
object recognition and tracking in video. In IJCAI, volume 7, pages 2115–2121, 2007.

[36] M Hassaballah, Aly Amin Abdelmgeid, and Hammam A Alshazly. Image features detection,
description and matching. In Image Feature Detectors and Descriptors, pages 11–45. Springer, 2016.

[37] Edwin Hewitt and Kenneth A Ross. Preliminaries. In Abstract harmonic analysis, pages 1–15.
Springer, 1963.

[38] Erik Hjelmås and Boon Kee Low. Face detection: A survey. Computer vision and image
understanding, 83(3):236–274, 2001.

[39] Ming-Kuei Hu. Visual pattern recognition by moment invariants. information Theory, IRE
Transactions on, 8(2):179–187, 1962.

[40] David H Hubel and Torsten N Wiesel. Receptive fields of single neurones in the cat’s striate
cortex. The Journal of physiology, 148(3):574–591, 1959.

[41] Ian Jolliffe. Principal component analysis. Wiley Online Library, 2002.

133
[42] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. A sparse texture representation using
local affine regions. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(8):1265–
1278, 2005.

[43] Rainer Lienhart and Jochen Maydt. An extended set of haar-like features for rapid object
detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1,
pages I–900. IEEE, 2002.

[44] David G Lowe. Object recognition from local scale-invariant features. In Computer vision,
1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157.
Ieee, 1999.

[45] David G Lowe. Distinctive image features from scale-invariant keypoints. International journal
of computer vision, 60(2):91–110, 2004.

[46] Krystian Mikolajczyk and Cordelia Schmid. Indexing based on scale invariant interest points.
In Computer Vision, 2001. ICCV 2001. Proceedings. Eighth IEEE International Conference on, volume 1,
pages 525–531. IEEE, 2001.

[47] Krystian Mikolajczyk and Cordelia Schmid. A performance evaluation of local descriptors.
Pattern Analysis and Machine Intelligence, IEEE Transactions on, 27(10):1615–1630, 2005.

[48] Jonathan Milgram, Mohamed Cheriet, and Robert Sabourin. “one against one” or “one
against all”: Which one is better for handwriting recognition with svms? In Tenth International
Workshop on Frontiers in Handwriting Recognition. Suvisoft, 2006.

[49] Greg Mori, Serge Belongie, and Jitendra Malik. Efficient shape matching using shape
contexts. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(11):1832–1837, 2005.

[50] Ana Cris Murillo and J Kosecka. Experiments in place recognition using gist panoramas. In
Computer Vision Workshops (ICCV Workshops), 2009 IEEE 12th International Conference on, pages
2196–2203. IEEE, 2009.

[51] Sameer A Nene, Shree K Nayar, Hiroshi Murase, et al. Columbia object image library (coil-20).
1996.

[52] Lucas PJJ Noldus, Andrew J Spink, and Ruud AJ Tegelenbosch. Ethovision: a versatile video
tracking system for automation of behavioral experiments. Behavior Research Methods, Instruments,
& Computers, 33(3):398–414, 2001.

[53] Timo Ojala, Matti Pietikäinen, and David Harwood. A comparative study of texture measures
with classification based on featured distributions. Pattern recognition, 29(1):51–59, 1996.

[54] Timo Ojala, Matti Pietikäinen, and Topi Mäenpää. Multiresolution gray-scale and rotation
invariant texture classification with local binary patterns. Pattern Analysis and Machine Intelligence,
IEEE Transactions on, 24(7):971–987, 2002.

[55] Aude Oliva and Antonio Torralba. Modeling the shape of the scene: A holistic representation
of the spatial envelope. International journal of computer vision, 42(3):145–175, 2001.

134
[56] Aude Oliva and Antonio Torralba. Building the gist of a scene: The role of global image
features in recognition. Progress in brain research, 155:23–36, 2006.

[57] Patrick Ott and Mark Everingham. Implicit color segmentation features for pedestrian and
object detection. In ICCV, pages 723–730, 2009.

[58] M Oujaoura, B Minaoui, M Fakir, R El Ayachi, and O Bencharef. Recognition of isolated


printed tifinagh characters. International Journal of Computer Applications, 85(1), 2014.

[59] Constantine P Papageorgiou, Michael Oren, and Tomaso Poggio. A general framework for
object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE,
1998.

[60] Jean Petitot. Neurogéométrie de la vision: modeles mathematiques et physiques des


architectures fonctionnelles. Editions Ecole Polytechnique, 2008.

[61] Fatih Porikli. Integral histogram: A fast way to extract histograms in cartesian spaces. In
Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on,
volume 1, pages 829–836. IEEE, 2005.

[62] Dario Prandi, Ugo Boscain, and Jean-Paul Gauthier. Image processing in the semidiscrete
group of rototranslations. In International Conference on Networked Geometric Science of
Information, pages 627–634. Springer, 2015.

[63] Ryszard Raczka. Theory of group representations and applications. Polish scientific Publishers,
1977.

[64] Ferdinando S Samaria and Andy C Harter. Parameterisation of a stochastic model for human
face identification. In Applications of Computer Vision, 1994., Proceedings of the Second IEEE
Workshop on, pages 138–142. IEEE, 1994.

[65] Frederik Schaffalitzky and Andrew Zisserman. Multi-view matching for unordered image sets,
or “how do i organize my holiday snaps?”. In European conference on computer vision, pages 414–
431. Springer, 2002.

[66] Sam Schauland, Anton Kummert, Su-Birm Park, Uri Iurgel, and Yan Zhang. Vision-based
pedestrian detection–improvement and verification of feature extraction methods and svm-based
classification. In 2006 IEEE Intelligent Transportation Systems Conference, pages 97–102. IEEE, 2006.

[67] Cordelia Schmid and Roger Mohr. Local grayvalue invariants for image retrieval. IEEE
transactions on pattern analysis and machine intelligence, 19(5):530–535, 1997.

[68] Yunlong Sheng and Henri H Arsenault. Experiments on pattern recognition using invariant
fourier–mellin descriptors. JOSA A, 3(6):771–776, 1986.

[69] Yunlong Sheng and Jacques Duvernoy. Circular-fourier–radial-mellin transform descriptors


for pattern recognition. JOSA A, 3(6):885–888, 1986.

[70] Phil Sheridan, Tom Hintz, and David Alexander. Pseudo-invariant image transformations on a
hexagonal lattice. Image and Vision Computing, 18(11):907–917, 2000.

135
[71] Phillip Sheridan. Spiral Architecture for machine vision. PhD thesis, 1996.

[72] Jamie Shotton, Toby Sharp, Alex Kipman, Andrew Fitzgibbon, Mark Finocchio, Andrew Blake,
Mat Cook, and Richard Moore. Real-time human pose recognition in parts from single depth images.
Communications of the ACM, 56(1):116–124, 2013.

[73] Laurent Sifre and Stéphane Mallat. Rotation, scaling and deformation invariant scattering for
texture discrimination. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 1233–1240, 2013.

[74] Fethi Smach, Cedric Lematre, Jean-Paul Gauthier, Johel Miteran, and Mohamed Atri.
Generalized fourier descriptors with applications to objects recognition in svm context. Journal of
Mathematical Imaging and Vision, 30(1):43–71, 2008.

[75] Franc Solina, Peter Peer, Borut Batagelj, Samo Juvan, and Jure Kovac. Color-based face
detection in the" 15 seconds of fame" art installation. 2003.

[76] Michael Reed Teague. Image analysis via the general theory of moments*. JOSA, 70(8):920–
930, 1980.

[77] Sebastian Thrun, Wolfram Burgard, and Dieter Fox. A real-time algorithm for mobile robot
mapping with applications to multi-robot and 3d mapping. In Robotics and Automation, 2000.
Proceedings. ICRA’00. IEEE International Conference on, volume 1, pages 321–328. IEEE, 2000.

[78] Sebastian Thrun et al. Robotic mapping: A survey. Exploring artificial intelligence in the new
millennium, 1:1–35, 2002.

[79] Engin Tola, Vincent Lepetit, and Pascal Fua. A fast local descriptor for dense matching. In
Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1–8. IEEE,
2008.

[80] Engin Tola, Vincent Lepetit, and Pascal Fua. Daisy: An efficient dense descriptor applied to
wide-baseline stereo. Pattern Analysis and Machine Intelligence, IEEE Transactions on, 32(5):815–
830, 2010.

[81] Emanuele Trucco and Konstantinos Plakas. Video tracking: a concise survey. IEEE Journal of
Oceanic Engineering, 31(2):520–529, 2006.

[82] Tinne Tuytelaars and Luc Van Gool. Matching widely separated views based on affine
invariant regions. International journal of computer vision, 59(1):61–85, 2004.

[83] Vladimir Naumovich Vapnik and Vlamimir Vapnik. Statistical learning theory, volume 1. Wiley
New York, 1998.

[84] Paul Viola and Michael Jones. Rapid object detection using a boosted cascade of simple
features. In Computer Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE
Computer Society Conference on, volume 1, pages I–511. IEEE, 2001.

[85] Paul Viola and Michael J Jones. Robust real-time face detection. International journal of
computer vision, 57(2):137–154, 2004.

136
[86] Paul Viola, Michael J Jones, and Daniel Snow. Detecting pedestrians using patterns of motion
and appearance. International Journal of Computer Vision, 63(2):153–161, 2005.

[87] Åke Wallin and Olaf Kübler. Complete sets of complex zernike moment invariants and the
role of the pseudoinvariants. IEEE Transactions on Pattern Analysis & Machine Intelligence,
(11):1106–1110, 1995.

[88] Laurenz Wiskott, Jean-Marc Fellous, N Kuiger, and Christoph Von Der Malsburg. Face
recognition by elastic bunch graph matching. Pattern Analysis and Machine Intelligence, IEEE
Transactions on, 19(7):775–779, 1997.

[89] Jianxin Wu. Visual place categorization. PhD thesis, Georgia Institute of Technology, 2009.

[90] Jianxin Wu and James M Rehg. Centrist: A visual descriptor for scene categorization. Pattern
Analysis and Machine Intelligence, IEEE Transactions on, 33(8):1489–1501, 2011.

[91] Baochang Zhang, Shiguang Shan, Xilin Chen, and Wen Gao. Histogram of gabor phase
patterns (hgpp): a novel object representation approach for face recognition. Image Processing, IEEE
Transactions on, 16(1):57–68, 2007.

[92] Dengsheng Zhang and Guojun Lu. Generic fourier descriptor for shape-based image retrieval.
In Multimedia and Expo, 2002. ICME’02. Proceedings. 2002 IEEE International Conference on,
volume 1, pages 425–428. IEEE, 2002.

[93] Dengsheng Zhang and Guojun Lu. Shape-based image retrieval using generic fourier
descriptor. Signal Processing: Image Communication, 17(10):825–848, 2002.

[94] Dengsheng Zhang, Aylwin Wong, Maria Indrawan, and Guojun Lu. Content-based image
retrieval using gabor texture features. In IEEE Pacific-Rim Conference on Multimedia, University of
Sydney, Australia, pages 91–110, 2000.

[95] Wenchao Zhang, Shiguang Shan, Wen Gao, Xilin Chen, and Hongming Zhang. Local gabor
binary pattern histogram sequence (lgbphs): A novel non-statistical model for face representation
and recognition. In Computer Vision, 2005. ICCV 2005. Tenth IEEE International Conference on,
volume 1, pages 786–791. IEEE, 2005.

137
138
Publications dans le cadre de la thèse

139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157

You might also like