Rapport TD SRecherche
Rapport TD SRecherche
Rapport TD SRecherche
Université de Monastir
Département de l’informatique
Mastère de recherche
Systèmes de Raisonnement Automatique
Figure 1.2 Schéma du principe d’un neurone de type mémoire court-terme et long terme
(adaptée de [Graves 13a]).
Figure 1.3 Les principaux blocs de construction d’une architecture utilisant un réseau de
neurones convolutif simple
Figure 1.4Les principaux blocs de construction d’une architecture hybride utilisant un CNN et
LSTM
Figure 1.5 – Exemple de d’utilisations d’un signal acoustique à l’entrée des réseaux de
neurones convolutifs
RAFIK AMARI 3
Introduction
1. Introduction générale
C'est seulement quand vous avez un très grand ensemble de données, vous connaissez
un pour dire 10 000 heures de données, tout ce qui peut aller jusqu'à 100 000 heures de
données que l'approche de bout à bout puis commence soudainement à fonctionner très bien.
Regardons quelques exemples supplémentaires. Prendre la traduction automatique.
Traditionnellement, les systèmes de traduction automatique avaient aussi un long pipeline
compliqué, où vous prenez d'abord dire anglais, texte, puis faites une analyse de texte.
RAFIK AMARI 4
Fondamentalement, extrayez un tas de fonctionnalités du texte, et ainsi de suite. Et après de
nombreuses étapes, vous finiriez par dire, une traduction du texte anglais en français. Parce
que, pour la traduction automatique, vous avez beaucoup de paires de phrases anglaises
virgules françaises. L'apprentissage profond de bout en bout fonctionne assez bien pour la
traduction automatique. Et c'est parce qu'aujourd'hui, il est possible de rassembler de grands
ensembles de données de paires X-Y où c'est la phrase anglaise et c'est la traduction française
correspondante
2. Problématique
RAFIK AMARI 5
Partie I : Etat de l’art
1. 1. Introduction à la RAP
1. 2. Concepts de base
RAFIK AMARI 6
Ainsi, étant donné un signal en entrée du système, celui-ci va subir un prétraitement
qui consiste généralement en un filtrage et un échantillonnage qui permet de passer d’un
signal continu à des valeurs discrètes, de ces valeurs dont le nombre est important seront
extraites des caractéristiques qui permettent de représenter de façon compacte et pertinente le
signal originel. Cette étape permet d’avoir une première représentation du signal, ensuite et
selon l’approche adoptée par le système de reconnaissance, ce modèle représentatif du signal
sera comparé à des formes d’autres signaux que le système « connaît ». Sur la base du résultat
de cette comparaison une décision quant au mot reconnu sera prise, celle-ci sera
éventuellement validée en considérant les connaissances du domaine.
RAFIK AMARI 7
Partie II : Modèle profond pour la reconnaissance de la parole
Chapitre I L’apprentissage profond
Le réseau neuronal convolutif est inspiré par le cortex visuel des vertébrés [Hubel 68].
En 1990 le réseau neuronal convolutif dédié spécifiquement à la classification d’images de
chiffres manuscrits qui ne nécessite qu’un prétraitement minimal des données [LeCun 90].
Contrairement à la plupart des travaux qui se faisaient jusque-là, ce réseau reçoit directement
des données à deux dimensions 2D, à savoir des images, plutôt que des données à une
dimension 1D (vecteurs). Cela met en jeu une capacité de ces nouveaux réseaux à traiter de
grandes quantités d’information de bas niveau, c’est à dire sans besoin de convertir
lourdement la donnée brute via des fonctions mathématiques finement choisies qui ferait
appel à un savoir-faire ou une expertise humaine. Ainsi, bien choisir le type d’architecture de
réseau neuronal selon la tâche de prédiction à effectuer évite d’avoir à effectuer un important
prétraitement des données nécessitant une ingénierie détaillée. Ce dernier était et reste en effet
une tâche longue et fastidieuse à effectuer pour le scientifique. En 1998, LeCun montrent que
si on compare diverses méthodes de classification automatique appliquées à la reconnaissance
de caractères manuscrits, on observe que les réseaux neuronaux convolutifs, spécialement
conçus pour traiter la variabilité des formes à deux dimensions, sont plus performants que les
autres techniques standards [LeCun 98].
Depuis le début des années 2000, les réseaux neuronaux convolutifs ou ConvNets
s’appliquent avec succès à la détection, à la segmentation et à la reconnaissance d’objets et de
régions dans des images [LeCun 15]. (Peut-être dire pourquoi c’est revenu en 2012, ou au
moins des hypothèses : disponibilité de gros volumes de données, disponibilité de puissance
de calcul, plus quelques "tricks" en plus par rapport aux réseaux de 98)
Malgré ces succès, les ConvNets ont été en grande partie délaissés par l’industrie
jusqu’au concours ImageNet de 2012.
RAFIK AMARI 8
1.2Principe des réseaux de neurones convolutifs
Les réseaux neuronaux convolutifs ou ConvNets sont conçus pour traiter des
données qui se présentent sous la forme de tableaux de valeurs en Ndimensions. Par exemple,
une image couleur se compose de trois tableaux 2D contenant des intensités de pixels dans les
trois canaux de couleur RVB (rouge, vert, bleu). Mais de nombreux autres types de données
se présentent sous la forme de tableaux à multiples dimensions :
— 1D pour les signaux et les séquences, y compris la langue ;
— 2D pour images ou spectrogrammes audios ;
— et 3D pour les images vidéo ou volumétriques.
Le principe des ConvNets repose sur quatre idées clés qui exploitent les propriétés des
signaux naturels [LeCun 90] :
— les connexions locales,
— les poids partagés (expliqué ci-après),
— et la couche de regroupement (pooling) (expliquée ci-après), facultative.
L’architecture d’un ConvNet typique est structurée en une série d’étapes. Les
premières étapes sont composées de deux types de couches : les couches convolutives
et les couches de regroupement (pooling). La couche de convolution est l’élément
central des réseaux neuronaux convolutifs. Elle compose au minimum leur première couche.
Son objectif est de détecter la présence de caractéristiques (features) dans les images d’entrée.
Cela est réalisé grâce à un filtrage par convolution qui consiste à faire glisser une fenêtre
représentative de la caractéristique sur l’image d’entrée et à calculer produit de convolution
entre la caractéristique et chaque portion de l’image balayée.
Les réseaux de neurones récurrents à mémoire court-terme et long terme (Long short-
term memory, LSTM) [Hochreiter 97] sont un modèle neuronal efficace pour un grand
nombre d’applications impliquant des données temporelles ou séquentielles [Karpathy 15].
Parmi les multiples applications existantes, on trouve la modélisation du langage [Mikolov
10], la reconnaissance de l’écriture manuscrite ou sa génération [Graves 13a], la traduction
RAFIK AMARI 9
automatique, l’analyse vidéo, les sous-titrages des images, ou encore la reconnaissance de la
parole.
En 2013, Graves, Mohamed et Hinton montrent qu’un système neuronal bout-en- bout
composé de couches LSTM sont à la pointe en termes de performance dans le cadre d’une
tâche de reconnaissance des phonèmes dans la base de données
TIMIT [Graves 13b]. Ils incitent alors la communauté de la reconnaissance de la parole
(Automatic Speech Recognition, ASR) à combiner des réseaux neuronaux convolutifs (CNN)
à des réseaux LSTM suite aux travaux de [Abdel-Hamid 12].
Ces derniers utilisent des CNN afin d’améliorer les performances de reconnaissance
vocale de plusieurs locuteurs dans le cadre d’un modèle hybride {modèle de Markov caché +
réseau neuronal convolutif}. Les résultats expérimentaux obtenus avec un tel modèle
permettent une réduction d’erreur de plus de 10% sur les ensembles de test du jeu de données
TIMIT comparé avec un réseau neuronal non convolutif [Abdel-Hamid 12].
L’algorithme LSTM originel utilise un calcul du gradient approximatif qui permet aux
poids d’être mis à jour après chaque pas de temps. La méthode que nous utilisons et la même
que chez [Graves 13a], à savoir que la totalité des gradients sont recalculés au cours de la
rétropropagation du gradient.
RAFIK AMARI 10
Chapitre II Architecture bout-en-bout pour la reconnaissance de parole
Dans ce chapitre, nous nous sommes intéressés aux réseaux de neurones convolutifs
que nous allons utiliser pour proposer une approche hybride pour des systèmes de
reconnaissance automatique de la parole discontinu pour la langue arabe.
1 Contributions
Contrairement aux approches d’apprentissage standards qui sont fondées sur des
caractéristiques pré-définies, les réseaux de neurones convolutifs sont capables de détecter,
d’extraire et d’apprendre des traits spécifiques adaptés à la tâche visée au moment de
l’apprentissage sans avoir besoin de ressources, d’implémentation des algorithmes ou d’outils
pour extraire des « traits pré-définis » (engineered features).
Figure 1.3 – Les principaux blocs de construction d’une architecture utilisant un réseau de neurones convolutif simple
Comme illustré dans la figure 1.3, l’architecture d’un réseau de neurones convolutif simple est
caractérisée principalement par deux blocs :
— Extraction des caractéristiques : ce bloc est composé d’une entrée de dimension n_k qui
représente une instance (une séquence de mots ou un signal de parole dans notre cas d’usage),
des opérations de convolution permettant d’extraire un grand nombre de caractéristiques qui
seront par la suite compressées par des opérations de pooling (appelées aussi sous-
échantillonnages).
— Modélisation et prédiction : ce bloc est caractérisé par une suite de couches cachées
entièrement connectées pour prédire une unité qui peut être une catégorie ou une valeur, selon
la tâche.
L’architecture CNN LSTM consiste à utiliser des couches Convolutional Neural Network
(CNN) pour l’extraction de fonctionnalités sur les données d’entrée combinées à des LSTM
pour soutenir la prédiction de séquences.
Cette architecture a également été utilisée sur la reconnaissance vocale et les problèmes de
traitement du langage naturel où les CNN sont utilisés comme extracteurs de fonctionnalités
pour les LSTM sur les données d’entrée audio et textuelle.
Cette architecture convient aux problèmes qui :
RAFIK AMARI 11
Avoir une structure spatiale dans leur entrée comme la structure 2D ou des pixels dans une
image ou la structure 1D des mots dans une phrase, un paragraphe ou un document.
Avoir une structure temporelle dans leur entrée comme l’ordre des images dans une vidéo ou
des mots dans le texte, ou nécessitent la génération de sortie avec une structure temporelle
telle que les mots dans une description textuelle.
Figure 1.4 – Les principaux blocs de construction d’une architecture hybride utilisant un CNN et LSTM
Après avoir unifié la durée des signaux bruts, plusieurs travaux ont proposé d’utiliser des
paramètres acoustiques à l’entrée d’un réseau de neurones convolutif comme les MFCC, les
PLP, etc. (voir la section 1.5). Par exemple pour une transformation de signal en MFCC
(utilisé dans notre cas), nous obtenons une matrice 2D de dimension n _ k, dont n la durée de
la piste dans les trames et k le nombre de MFCC
RAFIK AMARI 12
Figure 1.5 – Exemple de d’utilisations d’un signal acoustique à l’entrée des réseaux de neurones convolutifs
RAFIK AMARI 13
2 Corpus
Les données utilisées dans notre protocole proviennent de l’université de Stirling
Le corpus de discours arabe pour les mots isolés contient 9992 déclarations de 20 mots
prononcés par 50 arabophones natifs.450 itération pour chaque mots . Il a été
enregistré avec un taux d’échantillonnage de 44100 Hz et une résolution de 16 bits.
RAFIK AMARI 14
3 Evaluation et Résultats
4 Conclusion
Enfin, nous avons proposé un système de reconnaissance automatique de la
parole discontinu pour la langue arabe hybride CNN-LSTM pour obtenir des
transcriptions automatiques. En premier lieu notre système obtient respectivement 79%
et en deuxième lieu 086 %sur les données TrainPred et TestPred .
RAFIK AMARI 15
Conclusion et perspectives
Notre travail s’est inscrit dans un courant scientifique destiné à faire état de l’art sur recherche
fondamentale pour système de reconnaissance de parole pour la langue arabe. Nous regrettons
de n’avoir pas pu approfondir ces notions.
À partir des connaissances présentées dans ce manuscrit, diverses perspectives peuvent être
envisagées :
— À court terme : nous prévoyons dans un premier temps, particulière de la langue arabe
pour reconnaissance automatique de parole ainsi que différentes approche et mécanismes pour
système RAP en se basant apprentissage profond
RAFIK AMARI 16
Bibliographie
RAFIK AMARI 17
Annexe
Parameters MFCC
Model CNN
RAFIK AMARI 18
Model CNN+LSTM
RAFIK AMARI 19