Voix

Acoustique de la parole
Master ATAL
Marie Tahon
MCF, dpt. Informatique
6 novembre 2017
1 / 43 Master ATAL, Traitement de la parole

INTRODUCTION
Le traitement automatique de la parole consiste à réaliser des
opérations sur un signal sonore de parole.
L’étude de la parole est un champ pluri-disciplinaire:
linguistique
acoustique de la voix
traitement automatique de la parole
reconnaissance automatique des mots
identification du locuteur
synthèse de parole
affective computing
...
artistique: chant, théâtre
médical: orthophonie, phoniatrie, ...
communication, interaction, sociologie, ...
...
INTRODUCTION
Pourquoi étudier l’acoustique de la parole ?
Comprendre les mécanismes de production de la voix permet
d’identifier les éléments caractéristiques de la parole
le modèle source-filtre,
l’intonation, les formants,
les sons de la parole (phonèmes).
Identifier les éléments qui peuvent modifier le signal et perturber

les modèles
présence de bruit de fond,
capture du signal sonore
types de voix (expressives ou pathologiques)
En résumé: cela permet d’anticiper les difficultés de modélisation

et de savoir ce qu’on fait !!
PLAN DU COURS
1 Production de la parole
2 Le signal sonore numérique
3 Les sons de la parole

PLAN DE LA SECTION ACTUELLE
Anatomie
Vibration des cordes vocales
Les résonateurs

ANATOMIE
L’appareil vocal humain:

source excitatrice poumons, trachée
élément vibrant cordes vocales
résonateurs cavités buccales et
nasales
articulateurs dents, lèvres, langue

ANATOMIE
Les cordes vocales peuvent

être:
fermées: déglutition
en vibration: production
d’un son voisé
ouvertes: respiration,
son non-voisé

VIBRATION DES CORDES VOCALES
Hall
Le relâchement du diaphragme entraîne une expulsion de l’air
(expiration passive), éventuellement aidé par les muscles
expirateurs (expiration forcée).
La forte pression sous les cordes vocales les forcent à s’ouvrir.
L’air en passant crée une force de Bernoulli (augmentation de
la vitesse et baisse de la pression) qui ferme les cordes vocales
Et ainsi de suite, un train de bouffées d’air est envoyé dans le
conduit vocal.
La fermeture est par convention représentée par la montée positive de gran-
VIBRATION
de amplitude DES CORDES
de la courbe, VOCALES
l’ouverture complète correspond à une intensité
minima et une amplitude nulle (fig. 28, 29).
FIGURE 28 :
Courbes d’ELG
ion graphique
urbe d’onde et
dance avec les
emps du cycle
près Lecluse).
– En haut : aspect en stroboscopie.

– Au milieu : aspect correspondant sur une coupe
frontale des cordes vocales.
– En bas : courbe d’onde en électrolaryngographie :
I - début de l’accolement cordal (face inférieure)
II -
III - fermeture complète
IV - début d’ouverture (face intérieure)
VI - ouverture complète en mécanisme lourd.
La courbe d’ELG sera faite sur une voyelle tenue dans les mécanismes 1 et 2.
Visualisation
A partir de de lacourbe,
cette vibration descalculer
on peut cordes vocales fondamentale
la fréquence et débit d’air
de laentre
les cordes vocales associé.
voix (inverse de la période).
VIBRATION DES CORDES VOCALES
Contrairement aux "anches faibles" (trompette, clarinette), les
cordes vocales imposent leur fréquence de vibration et le
conduit vocal ne les influence pas: "anche forte"
Au niveau du larynx, il se produit alors un son de fréquence
fondamentale celle de vibration des cordes vocales qui est
contrôlé uniquement par les muscles du larynx.
Wolfe et al.
Forme d’onde périodique créée au niveau du larynx, débit d’air à

travers les cordes vocales en fonction du temps.
2) Revue des méthodes de visualisation et d’analyse du mouvement des cordes vocales.
Disposer de méthodes de visualisation et de quantification du mouvement des cordes vocales
ETUDE DES ORGANES PHONATOIRES
est très intéressant afin de mieux comprendre la vibration des cordes vocales
L’observation du mouvement des cordes vocales en phonation a débuté à la fin du 19ème siècle
avecMéthodes invasives
l’invention, par M Garcia, du Laryngosope à miroir. (1850). Ce petit miroir, que l’on
place au fond de la gorge, permet
Laryngoscopie d’observer
à miroir (1850)les cordes vocales. Les méthodes se sont ensuite
perfectionnées et les années 80
Fibroscopie souple (1980) ont été l’avènement de méthode de visualisation plus
modernes basées sur l’endoscopie rigide (on introduit une caméra dans la bouche du locuteur
ou duMéthodes
chanteur) ounonsurinvasives
l’endoscopie souple également appelée fibroscopie (on introduit un
endoscopeElectroglottographie
souple dans le nez du locuteur
EGG ou du chanteur).Pour visualiser le mouvement
périodique des cordes vocales plus en détail, on utilise des méthodes basée sur la stroboscopie
et la cinématographie ultrarapide.
Fig3 : Méthode de visualisation du mouvement des cordes vocales (Laryngoscope à miroir, fibroscopie)
[Heinrich]
L’avantage de la fibrosopie est de permettre la visualisation de toute sortes de phonation, en
particulier du chant. Au contraire, avec un endoscope rigide, on ne va pouvoir examiner que
certains types de phonation, en particulier seulement certaines voyelles qu’il est possible de
11 / 43produire avec la langue tirée vers l’extérieur. L’endoscopie
Master ATAL,
rigide Traitement de la
est très invasive parole
mais fait
qui traverse la glotte au cours du temps.
Cependant, cette hypothèse forte n’est pas toujours valide dans certains cas. C’est pourquoi il
ETUDE DES ORGANES PHONATOIRES
est intéressant de trouver des méthodes à la fois non invasives, indirectes mais surtout qui ne
se basent pas sur des modèles, c’est à dire qu’elles ne se basent sure aucune hypothèse
préalable quant au mouvement des cordes vocales.
Méthodes invasives
L’Electroglottographie en est une. Elle permet en effet d’avoir accès au contact entre les
Laryngoscopie à miroir (1850)
cordes vocales sans émettre d’hypothèse.
Le principe est le suivant : Deux électrodes sont attachées sur le cou du chanteur de part et
Fibroscopie souple (1980)
d’autre de la glotte. Elles mesurent une différence de potentiel reliée à la résistance que le
courant reçoit lorsqu’il traverse l’espace entre ces deux électrodes. Si la glotte est fermée, le
Méthodes non invasives
courant va très facilement passer d’une électrode à l’autre. Le signal Egg va donc être très
élevé. Quand la glotte est ouverte, le signal est plus faible, car le courant a plus de difficulté à
Electroglottographie EGG
passer d’une électrode à l’autre.
Fig4 : Principe de l’electroglottographie
FERMETURE
EGG
3) Analyse et applications du signal Electroglottographique
Ce signal Egg est très intéressant car il nous permet T0 d’avoir une mesure directe du contact
OUVERTUR
entre les cordes vocales. Le contact correspond au sommet de la courbe verte de la E figure 5,
l’ouverture au contraire au bas de la courbe. On peut également s’intéresser à la dérivée de ce
signal (en bleu), qui permet plutôt de mettre en avantOq desTphénomènes
0 de variations rapides de
contact, en particulier à la fermeture ou à l’ouverture. Ces variations rapides sont repérées par
DEGG
des pics très marqués de ce signal dérivé du signal Egg. Les pics « positifs » très marqués
vont être reliés aux instants de fermeture glottique, c’est à dire les instants où le débit va
commencer à diminuer jusqu’à s’annuler. Les pics « négatifs » moins marqués sont reliés aux
11 / 43 instants d’ouverture glottique,
Fig 8 : Définition duc’est à dire
quotient les instants
ouvert par rapport
Master
où àleladébit vadu
période
ATAL, Traitement
commencer
signal Degg àets’accélérer
de la parole
aux instants d’ouverture
RESONATEURS
Le son source émis par la vibration des cordes vocales va être
modulé par
Le pharynx,
Les cavités nasales,
La cavité buccale,
Les lèvres, les dents et la langue.

RESONATEURS
Filtre
Résonateurs
Source
Débit d’air Son émis
Pression acoustique
Modélisation
acoustique /a/
Profils réels
/i/ /u/
/e/ /o/

FORMANTS
Un filtre est caractérisé par sa réponse en fréquence.
Les fréquences de résonance du conduit vocal sont appelées les
formants.
A: /a/
B: /i/
C: /u/

FORMANTS
Un filtre est caractérisé par sa réponse en fréquence.
Les fréquences de résonance du conduit vocal sont appelées les
formants.
Elles dépendent du volume de la cavité et de ses ouvertures et son
caractéristique du timbre
Formant F1: ouverture de la cavité vocale /i/ (fermée), /a/
(ouverte)
Formant F2: profondeur de la cavité vocale /i/ (avant), /u/
(arrière)


Les signaux numériques
Représentation fréquentielle: transformée de Fourrier
Représentation temps/fréquence: le spectrogramme

QU’EST-CE QU’UN SIGNAL?
Un signal = mesure d’une grandeur physique.
signal analogique d’une

grandeur physique (ex:
pression EGG) signal numérique
FERMETURE
EGG
T0 OUVERTUR
E
DEGG
Oq T0 pression acoustique
Fig 8 : Définition du quotient ouvert par rapport à la période du signal Degg et aux instants d’ouverture
et de fermeture glottique.
signal électrique
Nous avons fait des mesures en voix chantée, en particulier sur des glissandos. Ci-dessous est
représenté un glissando chanté par un ténor.
Fig 9 : Relation entre mécanisme laryngé et quotient ouvert
On entend les ruptures correspondant au changement de mécanisme. Le chanteur commence à

17 / 43 chanter en M1, passe en M2 puis revient en M1. On observe ces mêmes ruptures sur la courbe Master ATAL, Traitement de la parole
ENREGISTREMENT ACOUSTIQUE
L’enregistrement se fait via un microphone.
Plusieurs paramètres peuvent influencer la capture du son:
le type de microphone (omni/mono directionnel,
proche/lointain, bande passante) et le nombre de voix.
la distance entre la source et le microphone
le bruit environnant (voiture, bruits extérieurs, ventilation,
ordinateur, ...)
l’acoustique de la salle (extérieur, hall, bureau, studio,
chambre anéchoïque).

ECHANTILLONAGE
Discrétisation temporelle: Discrétisation en amplitude:
∞
X
xe (t) = x (t)δ(t − kTe ) ∞
X
k=−∞ xq (t) = xq (kTe )
∞
X k=−∞
= x (kTe ) ∞
X
k=−∞ = i(k)q
k=−∞
Te période d’échantillonage
δ(t) fonction Dirac q pas de quantification
k∈N i ∈Z
TRANSFORMÉE DE FOURRIER
Décomposition en série de Fourrier:
1
Tout signal de période T0 = peut se décomposer en une somme
f0
de fonctions sinusoïdales de fréquences fn = nf0 multiples de la
fréquence fondamentale:
+∞
X
x (t) = a0 + (an cos(2πnf0 t) + bn sin(2πnf0 t)) (1)
n=1

Généralisation à un signal x (t) continu quelconque:
La transformée de Fourier de x (t) est telle que :
Z +∞
X (f ) = TF (x (t)) = x (t)e −i2πft dt (2)
−∞
La transformée de Fourier inverse TF −1 est telle que :

Z +∞
−1
x (t) = TF (X (f )) = X (f )e i2πft df (3)
−∞
x (t) est réel MAIS X (f ) est complexe.

X (f ) est représenté complètement par son module |X (f )| et
sa phase arg(X (f ))
f est la fréquence donnée en Hertz
En traitement automatique de la parole on n’utilise que le
spectre d’amplitude donné en dB 20 log10 (|X (f )|/2.10−5 ).
Signal temporel de parole (pression acoustique/temps) sur 2 s.
Signal temporel de parole (pression acoustique/temps) sur 70 ms.
Spectre en amplitude (amplitude en dB/fréquence) sur 70 ms.

Généralisation à un signal xe (t) échantillonné à la période Te
quelconque:
La transformée de Fourier discrète de xe (t) est telle que :
+∞
x (nTe )e −i2πfnTe dt
X
Xe (f ) = TF (xe (t)) = (4)
n=−∞
Échantillonnage temporel → périodisation du spectre
1 +∞X n
Xe (f ) = X (f − ) (5)
Te n=−∞ Te

Périodisation du spectre:
Phénomène de recouvrement:
1 P+∞ 1
Xe (f ) = n=−∞
X (f − Tn ) Si B > ⇒ recouvrement.
Te e 2T
haut: spectre en amplitude d’un signal continu
x (t)
Théorème de Shannon:
bas: spectre du signal échantillonné xe (t) à la
Fe > 2B
période T (B = Fmax )
En pratique: on utilise un filtre passe-bas pour supprimer les
fréquences telles que f > F2e avant l’échantillonage.

SPECTROGRAMME
Transformée de Fourrier à Court Terme (ou spectrogramme):
Un compromis entre:
durée de la fenêtre d’analyse ∆T × ∆f = cte (large bande ou bande étroite)
le type de fenêtre (rectangulaire, Hanning, Haming, etc...)

SPECTROGRAMME
fenêtre de Hamming, fenêtre 5 ms (large bande)
fenêtre de Hamming, fenêtre 30 ms (bande étroite)
fenêtre rectangulaire, fenêtre 5 ms (large bande)


Voix parlée
Les locuteurs
Voix chantée
Voix expressive

PHONEMES
Il existe trois modes d’excitation de la source:
vibration des cordes vocales
Plosives (∼ 0, 1s), ouverture soudaine laissant passer une
bouffée d’air avec/sans vibration des cordes vocales, signal
impulsionnel, non périodique, contenant une large bande de
fréquences
Fricatives (∼ 0, 01s), fluide turbulent dans un conduit étroit;
signal permanent, non périodique, contenant une grande
bande de fréquence
36 phonèmes en français: 16 voyelles, 3 semi-consonnes
(/j w 4/) + 17 consonnes
Référence International Phonetic Alphabet
voyelles fricatives plosives liquides
voisé normal voy. /z, Z, v/ /b, d, g/ /l, K/
non-voisé voy. chuchotée /s, S, f/ /p, t, k/
nasal voy. nasales /m, n, ñ/
Les consonnes du français.

LES SONS VOISÉS
Récapitulatif

LES SONS VOISÉS
Les voyelles du français: /a @ i o 4/ (Fe = 44.1 kHz.)
Paramètres des spectrogrammes: ∆T = 30 ms, fenêtre de Hamming

La fréquence fondamentale F0 (bleu) ne change pas entre les voyelles, les cordes
vocales vibrent à la même fréquence quelle que soit la voyelle.
Le spectrogramme à bande étroite permet de visualiser la fréquence
fondamentale et ses harmoniques.
LES SONS VOISÉS
1) /a/ Fe = 44.1 kHz 2) /a/ Fe = 44.1 kHz
Paramètres du spectre: Fmax = ?

Combien de périodes sur 100 ms ?
Confirmer sur le spectre ?

LES SONS VOISÉS
1) /a/ Fe = 44.1 kHz 2) /a/ Fe = 44.1 kHz
Paramètres du spectre: Fmax = ? Fmax = Fe /2 = 22.05 kHz

Combien de périodes sur 100 ms ? 1) 19 → F01 = 190 Hz; 2) 23 → F01 = 230 Hz
Confirmer sur le spectre ? 1)F01 ' 190 Hz; 2) F02 ' 219 Hz

LES SONS VOISÉS
Les voyelles du français: /a @ i o 4/
Paramètres des spectrogrammes: ∆T = 5 ms, fenêtre de Hamming

Les formants (rouge) changent entre les voyelles mais ne changent pas avec la
fréquence fondamentale.
Le spectrogramme à large bande permet de visualiser les bandes formantiques.

LES SONS VOISÉS
Relation entre formants et fréquence fondamentale.

LES PLOSIVES
Ouverture soudaine laissant passer une bouffée d’air avec/sans
vibration des cordes vocales.
Exemple du /k/:
extinction du son puis,
impulsion contenant une large bande de fréquence.
signal apériodique (pas de fréquence fondamentale !!)

LES FRICATIVES
Son créé par un jet d’air turbulent passant dans un conduit étroit,
avec/sans vibration des cordes vocales.
Exemple du /S/:
signal stationnaire contenant une large bande de fréquence
/S/ très large bande, /s/ bande hautes fréquences
signal apériodique (pas de fréquence fondamentale !!)

STRUCTURE DE LA PAROLE
Alternance parties voisées / parties non-voisées
La parole s’organise en
phonèmes (12 à 15 par sec.),
syllabes (3 à 5 par sec.),
mots (environ 200 mots par min.)
et phrases

LES LOCUTEURS
Quels paramètres varient d’un locuteur à un autre ?
Fréquence fondamentale (intonation, expressivité)
Variation de la F0 pour la parole inférieure Ãă une octave
Hommes: 70 − 250 Hz, femmes: 150 − 400 Hz, enfants:
200 − 600Hz
La valeur moyenne de la F0 est très liée à la physiologie de
chaque individu (longueur du conduit vocal).
Energie (puissance vocale, articulation, ...)
Rythme, débit de parole (débit syllabique, taux de voisement)
Qualité vocale ou timbre (contenu spectral)
Quels paramètres ne varient pas ?

les formants
les caractéristiques spectrales des phonèmes (périodique,
apériodique, impulsionnel, haute/basse fréquences )

LES LOCUTEURS
Description qualitative: voix éraillée, claire, profonde,
stridente, grinçante, ...
Exemple du tremor
Pathologies de la voix: disphonie avec/sans lésion des cordes
vocales, immobilité de la glotte, laryngite chronique,
Parkinson, etc.
Mesure des micro-tremblements de voix: jitter et shimmer
Trémor
F, nasale
H, sourde
H, claire

MODES DE PRODUCTION
Chuchotement: les cordes vocales sont ouvertes et laissent
passer l’air. La source sonore est une turbulence qui produit
un son proche d’un bruit blanc (pas de fréquence
fondamentale !!)
Voisement: les cordes vocales sont proches et vibrent
Murmure: les cordes vocales vibrent accolées
[Farner]

VOIX CHANTEE / PARLEE
parole chant
F0 libre (< oct.) suit la mélodie (> 2 oct.)
Rythme chaotique régulier
Timbre naturel/expressif formant chanteur (chant
lyrique)
Energie faible forte, hyperarticuliation des
phonèmes de faibles énergie
Vibrato non-contrôlé, voix pathologiques contrôlé
[Sundberg]

NUANCE
[Henrique]
Voix de soprano, voyelle /a/, fréquence 792 Hz, A) piano, B) forte

L’effort vocal modifie le timbre de la voix.

VIBRATO
Modulation de la fréquence fondamentale par un relâchement
périodique des muscles laryngés.
Pour le chant lyrique occidental, le vibrato sont à 5 ou 8
pulsations par secondes.
Cette valeur varie suivant les esthétiques.
Spectogramme de la Flûte enchantée (Mozart), air de la Reine de la nuit.
Spectogramme d’un extrait de "what a wonderful world" par L. Amstrong.

VOIX EXPRESSIVE
La voix est un des supports de l’expressivité (émotions,
attitudes, stress, ...). Cela se manifeste par des modifications
de la prosodie.
Mais également par des affect bursts: événements émotionnels
ponctuels de forte intensité: rire, pleurs, respirations, cris, ...
Lors d’une interaction, la voix permet également de signaler
notre attention: backchannels.
Rire:
Triste,
joyeuse,
agaçée.

Voix

Transféré par

Droits d'auteur :

Formats disponibles

Voix

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Voix

Transféré par

Droits d'auteur :

Formats disponibles

Acoustique de la parole

1 / 43 Master ATAL, Traitement de la parole

Identifier les éléments qui peuvent modifier le signal et perturber

En résumé: cela permet d’anticiper les difficultés de modélisation

2 Le signal sonore numérique

3 Les sons de la parole

4 / 43 Master ATAL, Traitement de la parole

2 Le signal sonore numérique

3 Les sons de la parole

5 / 43 Master ATAL, Traitement de la parole

L’appareil vocal humain:

6 / 43 Master ATAL, Traitement de la parole

Les cordes vocales peuvent

7 / 43 Master ATAL, Traitement de la parole

– En haut : aspect en stroboscopie.

Forme d’onde périodique créée au niveau du larynx, débit d’air à

Fig4 : Principe de l’electroglottographie

12 / 43 Master ATAL, Traitement de la parole

13 / 43 Master ATAL, Traitement de la parole

14 / 43 Master ATAL, Traitement de la parole

15 / 43 Master ATAL, Traitement de la parole

2 Le signal sonore numérique

3 Les sons de la parole

16 / 43 Master ATAL, Traitement de la parole

signal analogique d’une

Fig 9 : Relation entre mécanisme laryngé et quotient ouvert

On entend les ruptures correspondant au changement de mécanisme. Le chanteur commence à

18 / 43 Master ATAL, Traitement de la parole

20 / 43 Master ATAL, Traitement de la parole

La transformée de Fourier inverse TF −1 est telle que :

x (t) est réel MAIS X (f ) est complexe.

Signal temporel de parole (pression acoustique/temps) sur 70 ms.

Spectre en amplitude (amplitude en dB/fréquence) sur 70 ms.

22 / 43 Master ATAL, Traitement de la parole

Échantillonnage temporel → périodisation du spectre

23 / 43 Master ATAL, Traitement de la parole

24 / 43 Master ATAL, Traitement de la parole

25 / 43 Master ATAL, Traitement de la parole

fenêtre de Hamming, fenêtre 30 ms (bande étroite)

fenêtre rectangulaire, fenêtre 5 ms (large bande)

26 / 43 Master ATAL, Traitement de la parole

2 Le signal sonore numérique

3 Les sons de la parole

27 / 43 Master ATAL, Traitement de la parole

28 / 43 Master ATAL, Traitement de la parole

29 / 43 Master ATAL, Traitement de la parole

Paramètres des spectrogrammes: ∆T = 30 ms, fenêtre de Hamming

Paramètres du spectre: Fmax = ?

31 / 43 Master ATAL, Traitement de la parole

Paramètres du spectre: Fmax = ? Fmax = Fe /2 = 22.05 kHz

31 / 43 Master ATAL, Traitement de la parole

Paramètres des spectrogrammes: ∆T = 5 ms, fenêtre de Hamming

32 / 43 Master ATAL, Traitement de la parole

33 / 43 Master ATAL, Traitement de la parole

34 / 43 Master ATAL, Traitement de la parole

35 / 43 Master ATAL, Traitement de la parole

36 / 43 Master ATAL, Traitement de la parole

Quels paramètres ne varient pas ?

37 / 43 Master ATAL, Traitement de la parole

38 / 43 Master ATAL, Traitement de la parole