DÉFINITION
DÉFINITION
DÉFINITION
DÉFINITION
la reconnaissance automatique de la parole (RAP) est un ensemble de techniques informatiques
qui consiste, en analysant la voix humaine à partir d’un microphone, à convertir le signal de
parole, phonèmes ou phrases prononcées par un locuteur. en un ensemble de symboles transcrits
sous formes de textes assimilables et exploitable par la machine.
Malgré les progrès considérables en modélisation de la parole, on est néanmoins très loin de
pouvoir identifier avec certitude des voix
La continuité
La production d'un son est fortement influencée par les sons qui le précédent et
le suivent en raison de l'anticipation du geste articulatoire. L'identification
correcte
d'un segment de parole isolé de son contexte est parfois impossible. Évidement il
est
plus simple de reconnaître des mots isolés bien séparés par des périodes de silence
que
de reconnaître la séquence de mots constituant une phrase. En effet, dans ce
dernier
cas, non seulement la frontière entre mots n'est plus connue mais, de plus,
les mots
deviennent fortement articulés.
Plus simplement, il suffit de parler à son ordinateur ou à son Smartphone pour que l’appareil
comprenne les paroles à travers les mots prononcés. Les techniques utilisées se basent sur
l’analyse du spectre, les fréquences ou le mouvement des lèvres (dans ce dernier cas, il s’agit de
reconnaissance d’images).
L’approche «compositionnelle» utilisée en reconnaissance d’images est aussi valable en
reconnaissance vocale. De la même manière qu’un ordinateur peut « additionner » les pixels
trouvés dans à une image pour recomposer la moustache d’un chat, on peut recomposer des
syllabes à partir de sons, puis des mots et enfin des phrases complètes.
La cousine germaine de la reconnaissance vocale est la synthèse vocale qui permet cette fois
non plus de transformer une parole en phrase écrite mais de transformer une phrase écrite en
énoncé vocal.
.
.
texte devant être le plus semblable possible de ce qu’un humain aurait fidèlement transcrit.
Le texte automatiquement produit est ensuite révisé par des annotateurs afin d’en ôter par
exemple les répétitions, les faux départs, les hésitations ou les erreurs de syntaxe qui
spontanée. Les transcriptions peuvent également être enrichies avec diverses informations
Le principe reste le même : la voix est numérisée et associée à des sons basés dans son lexique, appelé aussi
la «grammaire». Le logiciel d’IA reconnaît ensuite les sons, les syllabes, les mots et enfin la phrase pour
adresser une requête à un serveur.
Il existe 2 types de lexiques :
La grammaire de règles : la phrase est traitée comme un seul ensemble
La grammaire statistique : seuls certains mots clefs sont reconnus
L’applicatif SIRI d’Apple combine subtilement les deux grammaires.
A noter : les meilleures systèmes ont des taux d’erreurs de 8 à 12% quand l’homme a un taux d’erreur à
4% (retranscription d’une conversation téléphonique).
Démo Apple IPhone 4S Siri
LA MARGE D’ERREURS
Les meilleurs systèmes plafonnent en ce moment à 10% de taux d’erreurs contre 3% pour un être humain.
La différence entre l’homme et la machine vient essentiellement de la non désambiguïsation des mots, car
le robot ne COMPREND pas ce qui est dit. Seul le mot dans son acception «son» est entendu. Deux mots
de même prononciation (homonyme, voire un groupe de mots au(x) sens radicalement différent(s)),
peuvent parfois conduire à de curieux quiproquos.
- L'approche analytique qui est basée sur la reconnaissance des phonèmes et syllabes.
Définition et Principe
Définition
La reconnaissance de la parole est une technique visant à reconnaître, dans une suite de signaux
sonores, les phonèmes et les phrases prononcées par un locuteur.
e reconnaître un phonème.
• Les phonèmes et le langage : cet article permet de comprendre la notion de phonè
mes.
• Technologie et système de reconnaissance automatique : cet article offre une descr
iption rapide des différents composants des système de reconnaissance automatique
de la parole.
Nous allons décrire les étapes principales permettant de transcrire un fichier audio e
n texte.
La reconnaissance de phonèmes
La reconnaissance de phonèmes est effectuée grâce au modèle acoustique. Le mod
èle acoustique est créé en utilisant des algorithmes d’apprentissage automatique (m
achine learning en anglais). Le machine learning se décompose en deux phases :
l’entraînement, et le test.
Le modèle acoustique est tout d’abord calculé lors de la phase d’entraînement, puis,
le modèle est utilisé lors de la phase de décodage permettant la transcription de l’én
oncé audio en texte.
1. La phase d’entraînement
Lors de cette phase d’apprentissage, on utilise de grands volumes audio (plusieurs c
entaines d’heures), pour lesquelles les données ont été préalablement transcrite. Ce
s données permettent de faire le lien entre une réalisation acoustique et un phonème
. Pour chaque phonème, un grand nombre de réalisations acoustiques vont être étud
iées : ces différentes réalisations peuvent être variables à cause du bruit, de la réver
bération, des différents locuteurs, des différents contextes phonétique (phonème pré
cédent et phonème suivant) etc.
Par exemple, si on prend le cas du phonème [a]. L’observation du comportement éne
rgétique dans le repère temps-fréquence d’un très grand nombre de phonèmes [a] pr
ononcés dans différentes conditions, va permettre la création d’un modèle de [a] « gé
néral » en utilisant un mélange de loi gaussiennes (GMM).
Figure 1 : Création d’un modèle de [a] grâce aux multiples occurrences de [a] des fichiers audio utilisés en apprentissage
Comme on peut le constater dans la figure
1, les [a] prononcés par différents locuteurs sont légèrement différents. Cela est dû a
ux variations du triangle vocalique qui est propre aux locuteurs.
2. Adaptation aux locuteurs
Afin de pouvoir utiliser au mieux notre modèle de [a] général, nous allons devoir ada
pter ce modèle aux locuteurs lors du décodage (qui effectue la transcription automati
que d’un fichier audio en texte). Comme il existe un grand nombre de méthode d’ada
ptation, nous allons juste voir le principe.
Le modèle du [a], précédemment calculé lors de la phase d’apprentissage, va subir u
ne transformation mathématique de
ses paramètres, comme des translations et des rotations afin que l’espace de ces pa
ramètres soit le plus proche de l’espace des paramètres d’un locuteur inconnu. Une f
ois cette transformation effectuée, notre modèle général se spécialisera pour mieux
modéliser le locuteur inconnu.
Figure 2 : Adaptation du modèle général [a] au locuteur x
Une fois notre modèle acoustique adapté, il est prêt à l’emploi.
3. La phase de test
Nous allons observer au cours du temps, le comportement de l’énergie dans le repèr
e temps-fréquence du fichier audio dont on souhaite connaître les phonèmes les plus
probablement prononcés. Si l’observation n est plus proche du modèle du phonème [
a], alors le phonème [a] sera le phonème le plus probablement prononcé.
Nous avons vu comment le système est capable de reconnaître un phonème. Cepen
dant, la détection de phonème n’est pas toujours correcte.
La reconnaissance automatique de la parole se définit comme l’ensemble des métho
des informatiques permettant de convertir un enregistrement de parole en texte. La d
ictée vocale, commercialisée dès les années 80, est sans aucun doute l’application l
a plus populaire de la reconnaissance automatique de la parole. Les récents progrès
du domaine offrent aujourd’hui l’opportunité d’exploiter ces technologies dans une lar
ge variété d’applications telles que :
le sous-titrage et la traduction automatique de vidéo,
l'indexation et l’extraction d’information dans les documents audiovisuels,
ou encore les interfaces vocales homme-machine.
Le marché potentiel que constituent le milliard d’utilisateurs d’objets connectés à trav
ers le monde, positionne la reconnaissance automatique de la parole parmi les techn
ologies les plus prometteuses du moment.
Les progrès du domaine au fil du temps
L’innovation en reconnaissance automatique de la parole repose sur plus de 50 ans
de recherche scientifique. Les premiers systèmes datent des années 60. Il s’agit de s
ystèmes de reconnaissance de mots isolés, où chaque terme doit être prononcé sép
arément. Les vocabulaires étaient alors très limités, contenant dans certains cas les
nombres de 0 à 9, ou quelques voyelles dans d’autres réalisations.
C’est à la fin des années 80, grâce à un programme d’investissement financier du dé
partement de la défense américaine, que seront développés les premiers systèmes
modernes de reconnaissance automatique de parole continue. L’intérêt pour ce dom
aine de recherche s’intensifie, menant à des innovations majeures telles que :
l’augmentation des vocabulaires des systèmes, qui passent d’un millier de mots à plus
de 100,000 termes reconnus ;
le traitement d’énoncés de parole de nature de plus en plus difficile. D’abord limités à
des énoncés de parole préparée et lue par un seul locuteur, les systèmes évoluent vers la parol
e conversationnelle entre plusieurs locuteurs ;
Mais encore le développement de systèmes indépendants du locuteur, avec un gain de
performance important obtenu récemment grâce aux méthodes de deep learning et aux réseau
x de neurones profonds ;
et à la création de technologies de plus en plus robustes aux enregistrements dégradés.
La reconnaissance automatique de la parole bruitée réverbérante est aujourd’hui une thématiq
ue majeure de la communauté de recherche du domaine.
Architecture du Système de
Reconnaissance Automatique de la Parole
Un système de reconnaissance automatique de la parole c
omporte typiquement 5 modules :
le prétraitement acoustique, qui va identifier les zones de parole dans l'enregistrement
à transcrire et en extraire des séquences de paramètres acoustiques.
le modèle de prononciation, qui associe les mots connus par le système à leurs représe
ntations phonétiques.
Le modèle acoustique, servant à prédire les phonèmes les plus probablement prononcé
s dans un énoncé audio.
Le modèle linguistique, servant à prédire la séquence de mots la plus probable pour un
texte donné.
Et enfin le décodeur, qui va combiner les prédictions des modèles acoustiques et lingui
stiques pour proposer la transcription en texte la plus probable pour un énoncé de parole donn
é.
INTRODUCTION
L’utilisation de la parole comme mode de communication entre un homme et une
machine a été largement étudiée au cours des dernières décennies. Nous nous
intéressons dans cet article à la reconnaissance automatique de la parole (RAP),
c’est-à-dire à l’ensemble des techniques permettant de communiquer oralement avec
une machine. La RAP présente un intérêt pratique indéniable, dans certaines
conditions d’utilisation (accès à distance, charge de travail importante, handicapés,
etc.). Des produits commerciaux existent depuis plus de trente ans, d’abord
essentiellement pour la reconnaissance de mots isolés et enchaînés puis maintenant
pour des phrases prononcées continûment. La plupart sont fondés sur des algorithmes
de programmation dynamique et des modèles stochastiques (sources de Markov).
Néanmoins, des problèmes restent à résoudre pour accroître la robustesse de ces
systèmes et étendre leurs capacités de dialogue. Les recherches menées actuellement
portent ainsi sur la reconnaissance de parole bruitée, le traitement d’énoncés
incomplets ou incorrects, la définition de procédures de dialogue, etc.
2.1 Historique
La reconnaissance de la parole est une discipline quasi contemporaine de l’informatique. Vers
1950 apparut le premier système de reconnaissance de chiffres, appareil entièrement câblé et
très imparfait. Vers 1960, l’introduction des méthodes numériques et l’utilisation des ordinateurs
changent la dimension des recherches. Néanmoins, les résultats demeurent modestes car la
difficulté du problème avait été largement sous-estimée, en particulier en ce qui concerne la
parole continue. Vers 1970, la nécessité de faire appel à des contraintes linguistiques dans le
décodage automatique de phrases apparaît clairement, alors que la reconnaissance de la parole
avait été jusque-là considérée comme un problème d’ingénierie. La fin de la décennie 1970 voit
se terminer la première génération des systèmes commercialisés de reconnaissance de mots.
Les générations suivantes, mettant à profit les possibilités sans cesse croissantes de la micro-
informatique, posséderont des performances de plus en plus grandes (systèmes multilocuteurs,
parole continue).
2.2 Applications
Toutes les applications de la RAP bénéficient de l’évolution technologique qui se traduit par le fait
qu’un système de reconnaissance complet (y compris l’analyse du signal vocal) peut désormais
être entièrement implanté sous forme logicielle. Cette évolution a largement contribué au
développement d’applications nouvelles à faible coût.
La reconnaissance de mots isolés pour des vocabulaires de quelques dizaines jusqu’à
quelques centaines de mots est un problème bien résolu. Les premiers systèmes commerciaux
relevant de cette catégorie sont apparus voici près de quarante ans. Plus récemment, des
progrès importants ont été réalisés :
en reconnaissance de petits vocabulaires de mots isolés, multilocuteurs, dans des
conditions difficiles ;
Exemple : reconnaissance de chiffres à travers le réseau téléphonique.
en reconnaissance de parole continue, multilocuteurs,...
3.1 Méthodes générales
Les méthodes spectrales occupent une place prépondérante en analyse de la parole : l’oreille
effectue, entre autres, une analyse fréquentielle du signal qu’elle perçoit ; de plus, les sons de la
parole peuvent être assez bien décrits en termes de fréquences.
La transformée de...
4. RECONNAISSANCE DE MOTS
4.1 Principe général
L’absence dans le signal vocal d’indicateurs sur les frontières de phonèmes et de mots constitue,
comme on l’a déjà dit, une difficulté majeure de la reconnaissance de la parole. De ce fait, la
reconnaissance de mots prononcés artificiellement de façon isolée représente une simplification
notable du problème. La reconnaissance d’un mot est alors un problème typique
de reconnaissance de formes. Tout système de reconnaissance de formes comporte les trois
parties suivantes :
un capteur permettant d’appréhender le phénomène physique considéré (dans notre cas
un microphone) ;
un étage de paramétrisation des formes (par exemple, un analyseur spectral) ;
un étage de décision chargé de classer une forme inconnue dans l’une des catégories
possibles.
On retrouve ces trois étages dans un système de reconnaissance de mots isolés, comme le
montre la figure 7.
Au cours d’une phase préalable dite d’apprentissage, un locuteur prononce l’ensemble du
vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références.
Dans la phase suivante de reconnaissance, un locuteur prononce un mot du vocabulaire. Ce mot
est comparé aux mots de références. L’algorithme de reconnaissance permet de choisir le mot le
plus ressemblant, par calcul d’un taux de similitude – au sens d’une distance à définir – entre le
mot prononcé et les diverses références. Ce calcul n’est pas simple, même pour un locuteur
unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents. Il
s’agit alors d’effectuer le recalage temporel des séquences acoustiques représentant les mots,
afin de pouvoir les comparer.
4.2 Normalisation temporelle
Une solution au problème de recalage temporel fait appel aux techniques de programmation
dynamique. Initialement développée en ex-URSS et au Japon, puis en France et dans d’autres
pays, cette méthode donne d’excellents résultats ; en fait,...
5.1 Position du problème
L’utilisation de mots isolés limite considérablement la richesse de la communication entre un
homme et une machine. Seule la parole naturelle et continue assure le niveau d’expression
nécessaire pour des applications d’une certaine complexité. Il s’agit alors de prendre en compte
le processus d’encodage du signal vocal avant son émission par un locuteur et d’exploiter les
informations (acoustiques, linguistiques, etc.) permettant de comprendre la phrase ou la portion
de phrase émise. Outre le contexte du dialogue dans laquelle une phrase s’insère, les principales
sources de connaissances et d’informations sont les suivantes :
acoustico-phonétiques. Ces informations régissent la transcription phonétique du
message ; il faut y adjoindre les informations phonologiques qui rendent compte des
variations individuelles (accent, etc.) et des phénomènes d’altérations des sons
(coarticulations, liaisons, etc.) ;
lexicales. Elles sont liées aux mots ; l’étape des mots est indispensable, même si ces
derniers n’apparaissent pas explicitement dans le signal acoustique ;
prosodiques. Elles concernent le rythme, l’intensité et la mélodie de la voix.
Caractéristique de la communication parlée, la prosodie constitue, entre autres
paramètres, une sorte de ponctuation de la parole. Les informations prosodiques jouent
un rôle important dans la compréhension de la parole chez l’homme. Néanmoins, leur
utilisation en compréhension automatique est très restreinte ;
syntaxiques. La syntaxe est en liaison avec la structure des phrases. Ces informations
sont plus décisives pour des langages artificiels que pour des langues naturelles car,
dans ce dernier cas, la syntaxe est beaucoup moins rigide ;
sémantiques. Elles sont liées à la signification des mots et aux concepts sous-jacents.
Leur rôle est important car le problème est davantage de comprendre le sens de la
phrase prononcée que d’en reconnaître exactement tous les phonèmes ou même tous
les mots ;
pragmatiques. Ce sont les informations relatives au contexte de l’univers et de la
conversation. Cela recouvre aussi la notion de dialogue, fondamentale en communication
parlée, même entre un homme et une machine. Le dialogue permet en effet de vérifier
qu’une phrase a été bien comprise, de confirmer une interprétation...
6.1 Position du problème
Les performances des systèmes de reconnaissance actuellement disponibles sont bonnes dans
des conditions d’utilisation bien contrôlées. Ces performances sont fortement dépendantes de la
complexité et de la difficulté de la tâche envisagée. Ainsi, en moyenne, les taux d’erreur mesurés
en laboratoire, en mode indépendant du locuteur, peuvent aller de 0,3 % (pour des suites de
chiffres) à 5 % (pour un vocabulaire de 20 000 mots en parole continue), puis à 8 % (pour des
lettres épelées), et jusqu’à 55 % pour des conversations téléphoniques spontanées !
Par ailleurs, le taux d’erreur s’accroît de façon spectaculaire lorsque les conditions
d’apprentissage et d’utilisation d’un système sont différentes (notamment en ce qui concerne le
type et le niveau de bruit).
À titre d’exemple, la figure 15 donne le taux de reconnaissance en parole continue en fonction
du rapport signal/bruit (RSB) (avec un bruit blanc gaussien ajouté au signal) d’un système
entraîné au préalable avec de la parole non bruitée. Les performances passent de 97 % de
reconnaissance en parole très peu bruitée (RSB = 36 dB) à 3 % en milieu très bruité
(RSB = 0 dB).
Les systèmes actuels sont donc dans l’ensemble très peu robustes aux variations même si
celles-ci peuvent paraître assez faibles à l’oreille. Les sources de variabilité de la parole peuvent
être classées en trois catégories, selon leur provenance :
l’environnement du locuteur avec le bruit corrélé à la parole (réverbération, réflexion)
ou additif (bruit ambiant, etc.) ;
le locuteur lui-même, selon son état et son mode d’expression : essoufflement, stress,
effet Lombard (qui amène un locuteur à modifier sa voix lorsqu’il est placé dans une
ambiance très bruitée), rythme d’élocution, fatigue, etc. ;
les conditions d’enregistrement liées au type de microphone, distance au microphone,
canal de transmission (distorsion, écho, bruit électronique, etc.).
De nombreuses techniques ont été proposées pour augmenter la robustesse des systèmes,
notamment...
Bonheur courant électrique filtre convertisseur numérique reconnaissance du signal dictionnaire bonheur