Decouverte Spy Analytiqye

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 21

réseaux de neurones

Classification supervisée
par réseaux multicouches( ,)
Supervised Classification
b y Multilayer Networks

P . COMON Pierre Comon a obtenu le Doctorat INPG en 1985, il est affilié au


laboratoire CEPHAG de 1983 à 1986, puis en 1987 il visite le
THOMSON-SINTRA, laboratoire Information Systems à l' niversité de Stanford . En 1988, il
Parc de Sophia Antipolis, quitte le CNRS pour entrer à Thomson-Sintra dans le service d'Études

vi BP 138, F-06561 albonne Cedex

RÉS MÉ
Amont, département de Sophia Antipolis . Activités : théorie du signal,
algorithmique numérique adaptative, détection et localisation de
signaux sonar, réseaux de neurones. Il peut être joint par courier
électronique à l'adresse comonNmirsa .inria.fr.

Le Perceptron MultiCouche (PMC) est un des réseaux de neurones les estimateurs de densité, dont les propriétés remarquables sont résumées,
plus utilisés actuellement, pour la classification supervisée notamment . il est possible de construire un réseau de neurones stratifié réalisant la
On fait dans un premier temps une synthèse des résultats acquis en classification bayesienne . Cette technique de discrimination directe
matière de capacités de représentation dont jouit potentiellement semble être supérieure au PMC classique à tous points de vue en dépit de
l'architecture PMC, indépendamment de tout algorithme d'apprentis- la similarité des architectures .
sage . Puis on montre pourquoi la minimisation d'une erreur quadratique
sur la base d'apprentissage semble être un critère mal approprié, bien
que certaines propriétés asymptotiques soient aussi exhibées . Dans un MOTS CLÉS
second temps, l'approche bayesienne est analysée lorsqu'on ne dispose Neurone, perceptron, rétro-propagation, classification, Bayes, discrimi-
que d'une base d'apprentissage de taille finie . A l'aide de certains nation, apprentissage supervisé, représentation, noyau de probabilité .

ABSTRACT
The Multi-Layer Perceptron (PMC in French) is one of the neural phasized, it is possible to build a feed forward neural network implement-
networks the most widely used, particularly for supervised classification . ing the bayesian classification . This technique of direct discrimination
First, existing results on general representation capabilities enjoyed by the seems to perform better Chan the classical MLP in all respects despite of the
PMC architecture are surveyed, independently of any learning algorithm . similarities of the architectures .
Then it is shown why the minimization of a quadratic error over the
learning set seems an awkward optimization criterion, though some
asymptotic properties are also proved . In a second stage, the bayesian KE ORDS
approach is analyzed when leaming sets offinite size are at disposai. ith Neuron, perceptron, back-propagation, classification, Bayes, discrimi-
the help of certain density estimators whose basic properties are em- nation, supervised learning, representation, probability kernel .

1. Introduction le terme de «phase » peut sembler mal adapté, étant


donné que les « phases » d'apprentissage et de reconnais-
Objectifs .Dans un réseau de neurones, deux modes de sance peuvent être théoriquement entrelacées . Il ne s'agit
fonctionnement peuvent être distingués . Dans le premier, pas en réalité de phases distinctes mais bien de modes de
les paramètres du réseau sont ajustés grâce à la présenta- fonctionnement .
tion d'exemples pour lesquels on connaît la réponse Ce point de terminologie étant précisé, on peut définir la
désirée : ce mode de fonctionnement est appelé « phase classe des réseaux « non bouclés » (feed-forward
d'apprentissage » . Dans le deuxième mode, il s'agit networ ks) . Dans les réseaux de cette classe, les données
d'exploiter le réseau en lui présentant des données incon-
nues : ce mode d'utilisation est souvent appelé « phase de
reconnaissance », ou « phase de généralisation » . Cette
dernière appellation sera utilisée dans la suite . Notons que

(')Travail en partie financé par la D .R .E .T . Soumis à la revue


Traitement du Signal le 7/9/91 ; révisé le 17/3/92 .

387
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

boucle, cellules identiques), surtout si les connexions ent


couches sont partielles (locales) .
Plus précisément, parmi les réseaux de neurones nc
bouclés décrits dans la littérature 45 , 57 , 69 , deux oi
fait l'objet d'utilisations beaucoup plus poussées ; il s'ag
du Perceptron MultiCouche (PMC) 25 , 34 , 35 , 43
44 , 66 , 67 et du réseau Adaline polynomial (ALT
36 , 49 , 67 . On trouvera également des exemple
d'application dans les ouvrages plus généraux tels qt
45 , 57 , 69 . Dans cet article, notre attention ses
accaparée uniquement par le PMC, et ses propriét(
lorsqu'il est utilisé pour la classification supervisée
Lorsqu'il sera fait référence au PMC, il ne s'agira que c
l'architecture physique du réseau (de nature stratifiée
mais aucun algorithme particulier ne sera sous-entends
Le but de cet article est de présenter les propriétés d
PMC de façon synthétique, vues sous l'éclairage d
traitement du signal .
Définitions . La définition et les fonctionnalités du PM
sont décrites par exemple dans 57, chapitres 2 et 8 , 37
34 . Rappelons simplement quelques définitions de base
n neurone formel peut être considéré comme ur
application particulière de RM dans ll8 définie comme suit
(1) dx e IR M , x -. g,,,, a (x)
M '

f m Xm B f (w t x - 0 )
m=1 / =

où f est une fonction scalaire réelle fixée, en général ne


linéaire, appelée « fonction de transition » -, w,,, est 1
vecteur de « poids synaptiques » pondérant les entrée
xm ; et 0 est un scalaire réel, appelé parfois « offset » . O Figure 2 . - Perceptron multicouche ; (a) PMC à trois couches standard ; (b
PMC à trois couches avec adjonction d'une entrée constante et égale à 1
convient de noter les vecteurs en minuscules grasses, et le C'est principalement ce deuxième type de réseau qui est utilisé, car il perme
matrices en majuscules . Comme cela est souligné dans 65 d'éviter de représenter les offsets .
entre autres, une autre écriture est plus simple dan
R M + l en rajoutant une entrée constante de valet
1, ce qui permet de supprimer le terme constant 9
troisième couches peuvent être différentes . En outre, o
(2) g (x) = f ' (wt x) , avec x M + i = - 1 et w M + l = 0 suppose souvent dans le PMC que les fonctions d
transition sont identiques au sein d'une même couch
Ces deux écritures conduisent aux représentations schéma 25 , 67 .
tiques des figures 1 a et 1 b .
Dans la suite un autre type de cellule moins standard ser
n Perceptron MultiCouche (PMC) est une architecture utilisé, délivrant en sortie la norme carrée de son vecteu
stratifiée de neurones formels . La figure 2 a représente us d'entrée . Cette cellule sera distinguée des autres par ui
perceptron à 3 couches . Par convention, la couche d'entrée point (fig. 1 c) . L'usage de fonctions radiales a été préco
n'exécute rien, et deux couches seulement sont donc nisé initialement dans 42 , puis ultérieurement dans 50
actives . La couche du milieu est la seule couche « cachée » 46 , mais des cellules polynomiales de forme plus général
dans le sens où ses sorties ne sont pas directemen ont déjà été expérimentées 17 , 64 , sans parler di
observables . La figure 2 b schématise la simple extension réseau ALN 67 , 49 , 36 .
du PMC permettant de se ramener à des fonction, Les problèmes pour le Traitement du Signal . En traitemen
linéaires, et non plus affines, en dimension M + 1 . Si du signal, les signaux mesurés aussi bien que les signau :
cellules sont présentes dans la couche cachée, les sortie délivrés en sortie de traitement sont toujours bornés, et
du réseau de la figure 2 a vérifient par conséquent un raison de la dynamique finie des appareils, qui es
relation du type d'ailleurs a priori connue . Si on suppose en outre que le
signaux sont à valeurs réelles, alors on est en droi
xm - o d'admettre que les entrées, x, et les sorties y sont à valeur
(3) k = f3 akp f ry wvm - µk dans des ensembles E et F, tous deux compacts de
P~1 2 p) RM et R K respectivement . n classifieur bayesien pa
Les fonctions de transition f'2 et J'3 des deuxième e exemple, peut être considéré comme une application <p de

388
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

E dans F 0, 1 K qui, à tout vecteur d'observation x, plus ou moins intuitives permettant d'anticiper les capaci-
associe le K-uplet des probabilités d'appartenance de x à tés du réseau PMC à représenter tel ou tel type d'applica-
chacune des classes k , notées p(x, k) . tion, notamment booléenne . n bon exemple de ce genre
Le problème de l'apprentissage supervisé consiste à identi- de présentation est l'article de Lippmann 37 où les
fier cette application à partir d'un ensemble d'exemples, arguments avancés sont de nature uniquement expérimen-
A (N) = {x (-n), y("), 1 s n - N } , appelé base d'apprentis- tale, tandis que 41 et 39 en sont de moins convaincants .
sage . Deux problèmes peuvent être abordés . Le premier Sur le plan théorique, le premier résultat susceptible de
est celui de la représentation exacte de l'application nous intéresser remonte à 1957 avec le théorème de
Kolmogorov .
(n) = (p(x(n)) n e {1, . . . . N} .
(4) y (6) Théorème de Kolmogorov 32 .
Ce problème est rarement rencontré en pratique (mémoi- Soit cp (x) une application réelle continue quelconque de
res associatives par exemple 2 ) : il consiste à représenter 0, 1 M dans 0, 11, et {f pq , 0--q--2M, 1 --p--M} des
sans erreur une application à l'aide de fonctions imposées applications continues bijectives sur 0, 1 , dépendant de
(c'est un codage sans perte d'information) . Pour ce faire le M (elles sont donc fixées lorsque M est fixé) . Alors il
réseau sera en général de grande taille (comparable à N) . existe des fonctions continues X q , dépendant de p, telles
Le deuxième problème est celui de l'approximation d'une que
application avec un niveau de tolérance donné et le
2M M
minimum de cellules
<p(X)= O Xq fpq(Xp)) .

(5) y(n) , pp(x (n) ) , n e {1, . . ., N} .

Il existe aussi le problème dual du précédent, à savoir celui La difficulté d'utilisation de ce théorème vient du fait que
de la représentation la plus fidèle possible avec un nombre les fonctions X q dépendent de p, ce qui est contraire à
de cellules donné . Ces problèmes seront abordés de notre définition du neurone formel où les fonctions de
différentes façons dans cet article . transition sont fixées à l'avance . Ce théorème a été
sensiblement amélioré dans les années 60 avec le résultat
Dans le chapitre qui va suivre, on fera une synthèse des
résultats connus concernant les capacités de représentation suivant .
de l'architecture PMC à trois ou quatre couches, en ne
(7) Théorème de Sprecher 59 .
tenant compte que des contraintes imposées par les
définitions précédentes . Dans un troisième chapitre, on Soit p(x) une application réelle continue quelconque de
s'intéressera au choix du critère d'optimisation et aux 0, 1 M dans 0, 1 , X une constante et f une application
conséquences qu'il entraîne en classification . Dans le lipschitienne sur 0, 1 de rapport inférieur à 1, fixées à M
chapitre quatre, les performances de l'algorithme fixé. Alors il existe une fonction continue X, dépendant de
cp, et un nombre rationnel e tels que
d'apprentissage le plus répandu pour le PMC seront
analysées . ne alternative sera proposée dans le chapitre 2M M
cinq, avec une architecture légèrement différente, et un (P(X)= X Xp f(X,+eq)+q
algorithme d'apprentissage approprié . Enfin, un problème 9=~ P=~
de classification binaire construit à l'aide de simulations
sera traité par les deux méthodes à des fins d'illustration Ici, seule la fonction X dépend de la fonction p, ce qui est
dans une dernière partie . un mieux, mais rend le théorème malgré tout inapplicable .
De plus, ces deux théorèmes ne donnent aucune idée de
procédé constructif permettant de calculer les paramètres
intervenant dans la décomposition 24 . Ceci s'améliore un
peu avec le théorème suivant, dont la démonstration
utilise les propriétés de la transformée de Fourier .
2. Capacités ultimes de représentation de
(8) Théorème de Irie et Miyake 27 .
l'architecture PMC
Soient p(x) une application réelle continue quelconque de
R M dans 0, 11, et f une application fixée de R dans
On passe en revue dans cette partie les capacités qu'a le 0, 11, toutes deux absolument intégrables . Alors il existe
PMC à représenter des applications quelconques lorsque une fonction poids B (w, v) définie sur R' x R telle que
son nombre de cellules peut être arbitrairement grand .
C'est en cela qu'elles sont ultimes . ne architecture
v) dw
incapable de représenter une application p avec une
infinité de cellules le sera a fortiori avec un nombre fini .
(P (x) = J
f B (w, v) f (w x + dv .

Étudier les capacités ultimes a donc un sens .


Ce théorème est le premier qui, historiquement, a été
réellement applicable aux réseaux de neurones . La figure 3
2 .1. REPRÉSENTATION EXACTE
représente le réseau PMC à trois couches, sous-jacent au
Depuis quatre ou cinq ans, on a pu voir dans la littérature théorème, dont la couche cachée est un continuum de
proliférer un grand nombre d'articles présentant des règles cellules neuro-mimétiques .

389
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

Il existe un certain nombre de références moins percutan-


tes à notre avis, citons 19 et 14 , entre autres . Le fond du
raisonnement est de toutes façons toujours le même, et il
est basé sur le théorème de Stone- eierstrass 56 . Si cela
ne se voit pas immédiatement dans l'énoncé des théorè-
mes, cela apparaît dans la démonstration . En effet, dans
26 il est fait clairement usage des polynômes trigonomé-
triques et de leurs propriétés . Dans 27 ou 19 , c'est la
transformée de Fourier qui est utilisée . En revanche dans
12 , Cybenko utilise successivement les théorèmes de
Hahn-Banach et de Riesz, de sorte que l'on n'y voit pas
apparaître le théorème Stone- eierstrass . En réalité, les
polynômes trigonométriques interviennent dans 12
lorsqu'il s'agit de montrer que toute fonction bornée
Figure 3 . - Réseau infini de Irie et Miyakie ; la couche cachée est continue . saturante est discriminante .
Les théorèmes (10) et (11) montrent de façon claire qu'un
PMC à trois couches peut approcher n'importe quelle
2.2 . REPRÉSENTATION APPROCHÉE application, pourvu qu'il ait suffisamment de cellules et
que la fonction de transition de ses neurones formels
Les résultats analysés dans cette section sont plus exploita- satisfasse certaines propriétés (assez faibles) . Toutefois, le
bles dans la mesure où ils concernent les capacités du PMC nombre total de cellules requises peut fort bien ête plus
à approximer une application (continue) avec une préci- faible avec un PMC à plus de trois couches pour approcher
sion arbitraire, mais finie . la même application avec la même tolérance . Ce problème
(9) Définition . reste ouvert sur le plan théorique, et peut sans doute être
On dira qu'une fonction f est saturante si elle vérifie résolu pour certaines classes d'applications, mais certaine-
ment pas pour des applications continues quelconques . En
Lim f (u) = 0 et Lim f (u) = 1 . effet, il n'existe pas d'architecture qui soit optimale pour
u--n - Co u --.+00
tous les problèmes 12 , 42 , mais plutôt des architectures
Notons que la fonction f (u) ne décrit pas nécessairement qui soient statistiquement optimales pour des classes de
l'intervalle 0, 1 , et n'est pas forcément continue . problèmes 4 .
(10) Théorème de Hornik 26 . Cette constatation nous conduirait à l'étude de la
complexité de l'apprentissage dans sa définition générale
Soit f une fonction saturante croissante fixée . Alors toute
fonction continue cp(x) définie sur un compact l' de si nous voulions aller plus loin . Par exemple selon aliant
62 , on dira qu'un algorithme est optimal pour l'apprentis-
R m , est limite uniforme (sur IŒS) de fonctions de la forme
sage d'une application quelconque cp d'une famille ' si,
J (n)
pour toute densité p (x), tout exemple {x, cp (x» tiré selon
h„(x)= E aj(n)f(w;(n) x+e;(n)), p(x), et pour tout couple de réels positifs (e, 8), il est
i=1
capable de fournir avec une probabilité au moins égale à
où a1 (n)et 0 .(n) sont des scalaires réels, et wj (n) des 1 - 8 une solution cp telle que la probabilité pr(p(x) é
vecteurs de Ï-M . cp(x)) < e . De plus, l'algorithme ne doit nécessiter qu'un
Ce résultat est valable pour des fonctions de transition nombre d'opérations qui soit fonction polynomiale de 6 et
croissantes . Le résultat ci-dessous le complète dans le sens e . Toutefois, cette définition est beaucoup trop exigeante
où la monotonie est remplacée par la continuité . Rien en pratique si aucune restriction n'est faite sur la densité
n'empêche bien sûr d'utiliser des fonctions de transition à p(x). D'autres approches existent 3 , 4c , 13 , 40 ;
la fois continues et croissantes . citons à titre indicatif seulement l'approche de Baum 4
où la densité p (x) est soumise à la contrainte d'être issue
(11) Théorème de Cybenko 12 . d'une famille donnée, et d'être choisie indépendamment
Soient f une fonction continue discriminante fixée, et ls un de l'application (p . Cette définition de la complexité est
fermé borné de R M . Alors l'espace 6 des fonctions de III probablement la plus réaliste à l'heure actuelle .
dans IIB de la forme
J

h(x)= aj f(w~x+0 .), 2 .3. PROCÉD RES CONSTR CTI ES DANS LE CAS
BOOLÉEN
i=1

Les théorèmes précédents prouvaient l'existence de repré-


est dense dans l'espace .C(Œ') La définition exacte d'une
sentations sans pouvoir inspirer de procédures viables
fonction discriminante nous mènerait trop loin, et peut pour les construire . La procédure décrite maintenant est
être renvoyée à 12 . La propriété importante qu'il est très simple et constructive mais n'est malheureusement
suffisant de connaître pour mesurer la portée du théorème
valable que pour des fonctions booléennes . Elle peut être
ci-dessus est que 12 vue comme une variante de la procédure succinctement
(12) Toute fonction bornée saturante est discriminante . décrite dans 37, p . 161, utilisant des polyèdres au lieu

390
Traitement du Signal - volume 8 - n° 6
éseaux de neurones

d'hypercubes ; elle permet de construire n'importe quelle convexes (et même de pavés plus simplement) avec une
fonction booléenne donnée définie sur RM avec un nombre précision arbitraire e . Il suffit pour cela d'extraire un sous-
réduit de cellules . La fonction de transition f désigne dans recouvrement fini P d'un recouvrement de 1K par des
cette section la fonction échelon unité (donc croissante polyèdres convexes de diamètre £ . Or un moyen permet-
discontinue) . tant de construire un polyèdre quelconque avec un PMC à
Les résultats énoncés ci-dessous sont immédiats . Avec une trois couches a été décrit plus haut . En adjoignant
cellule, on peut réaliser simplement une couche supplémentaire réalisant l'opéra-
tion de réunion, on obtient le résultat escompté . Ce
(13) la synthèse d'une fonction indicatrice du demi espace
résultat s'applique à tout fermé borné de R M .
{w x + 6 , 0 } avec
Exemple
g : x€ M-->g(x)=f(w x+e) On se propose de montrer dans cet exemple comment
représenter la fonction indicatrice d'un tétragone non
(14) la synthèse de la complémentation grâce à la relation convexe, représenté sur la figure 4 . On construit les quatre
g (x) indicatrice d'un ensemble D r> hyperplans de la deuxième couche avec quatre cellules

c 1 - g (x) indicatrice de son complémentaire ® . (19) 1= .f(3xi+x2 - 2) ; 2=f(xI+3x2-2) ;


(15) la synthèse de l'opération de réunion, notée v, en 3 =f(xI-x2+1,5) ; 4=f(x2 - x1+1,5) ;
remarquant que
puis on réalise l'opération
si yn = gn (x)sont les fonctions indicatrices de N ensembles
®n, yn e {0, 1}, alors (20) 9(x) = ( I X 2) n 3 A 4,

soit sous FNC


n=f~~ ,,-0 .5/
n=1 n I
(21) 9(x) = ( I 2) n ( I 2) A 3 n 4
N
est la fonction indicatrice de ®n. Ceci conduit, d'après les relations (14) à (16) au réseau de
n=1 la figure 5 .
(16) la synthèse de l'opération d'intersection, notée n, en
remarquant de façon similaire que l'application

/ n= .fy,-N+0,5/
n=1 „=1
N
est la fonction indicatrice de I n.
! D
n=1
Par conséquent, la fonction indicatrice de tout polyèdre
convexe peut être représentée exactement par un PMC à
trois couches, la couche cachée réalisant la synthèse des
hyperplans-frontière, et la troisième couche réalisant leur
intersection . Si le polyèdre a P côtés, alors P + 1 cellules
actives sont nécessaires dans la couche cachée .
Supposons maintenant que y,,, 1 n < N, désignent N 'igure 4. - n exemple de domaine dont on peut construire la fonction
variables booléennes . Alors toute fonction booléenne des indicatrice avec un PMC à quatre couches.
y,, peut se décomposer sous Forme Normale Conjonctive
(FNC)

(17) 9(y) = l { ~ t
P =I iEI(p) JeJ(p)

On aboutit donc tout naturellement au théorème suivant

(18) La fonction indicatrice, (p, de tout domaine compact


l4 de RM peut être approximée par un réseau PMC à
quatre couches (deux couches cachées) de façon construc-
tive .

Démonstration Figure 5. - Réseau PMC à quatre couches construisant la fonction indicatrice


RM peut du domaine de la figure 4 . Si nécessaire, on peut rajouter deux cellules pass-
En effet, un domaine compact £ quelconque de tout dans la troisième couche pour se conformer aux contraintes de
être approché par une réunion finie P de polyèdres l'architecture standard.

i91
T raitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

On cite parfois le « ou exclusif » (XOR) comme un 25 , 35 , 36 . Pour le codage (24), on définit la corres-
exemple pathologique . En réalité, cette opération boo- pondance
léenne ne présente aucune difficulté particulière, et n'est
X(n) E
qu'une application banale de la procédure décrite plus (25) wJ p yk"> = Sjk .
haut . Comme notre tétragone contient les points (0, 1) et
(1, 0) du plan R2, à toutes entrées a et b de {0, l} la sortie Lorsque les sorties sont les probabilités p (x, w k ), L'ensem-
délivrée sera a x b. L'exemple ci-dessus est donc une ble F est de cardinal infini et
façon de réaliser le XOR lorsque les entrées sont booléen-
nes . Mais il y a bien entendu une infinité de façons de (26) F 0, 1 K .
construire le ou exclusif avec cinq cellules actives (PMC à
Contrairement à ce que l'on pourrait croire au premier
quatre couches) en construisant la fonction indicatrice
abord, le choix de ce codage est absolument crucial pour
d'un cône contenant les points (1, 0) et (0, 1) et excluant
certains critères d'optimisation, et en particulier pour le
les points (0, 0) et (1, 1) .
critère MEQ qui va être analysé ci-après . Les théorèmes
de la section 3 .5 l'illustrent bien .
2 .4 . REMARQ ES

Les résultats théoriques précédents nécessitent la connais-


sance de cp, qui n'est malheureusement pas donnée en 3 .2 . MINIMISATION DE L'ERRE R Q ADRATIQ E
pratique mais seulement connue en un nombre fini de (MEQ)
points, constitués par les éléments de la base d'apprentis- L'objectif est de chercher l'ensemble des poids, 4 , de
sage . Or, il y a une infinité de fonctions continues à façon à minimiser l'écart entre les sorties désirées,
support borné passant par N points . Diverses questions se y (n) , et les sorties obtenues, cp(O , x ("», lorsque x(n) décrit
posent alors . Faut-il que <p passe exactement par les N la base d'apprentissage
points pour maximiser le taux de reconnaissance des
exemples futurs ? Le problème n'est-il pas mal posé N

puisqu'apparemment une infinité de solutions existent? (27) D = Arg Min Il y (") - ~p( , X(n) )II 2 .
Faut-il chercher les fonctions les plus lisses possible, selon
un certain critère 50 ? Quelles sont les performances de Ce critère présente un inconvénient majeur . En effet, on
la solution la plus utilisée à l'heure actuelle pour l'appren- voudrait en réalité minimiser il y(n)-cp( , x(n )II pour
tissage du PMC ? Les sections qui vont suivre vont des observations y(n) qui n'appartiennent pas à la base
aborder ces questions . d'apprentissage, mais à une « base de généralisation »
inconnue, ce qui apparaît plus clairement dans une appro-
che statistique que dans (27) .

3. Apprentissage et critères d'optimisation


De façon générale, l'apprentissage nécessite l'existence
d'un lien entre la base de généralisation et la base
d'apprentissage, par exemple de nature statistique 11 . A
Considérons un PMC fixé . L'application qu'il va représen- l'instar de 25 , on supposera que les exemples des deux
ter est fonction d'un ensemble de paramètres qu'il faut bases sont des réalisations tirées aléatoirement conformé-
déterminer (poids et terme constant) . Notons (p ( , x ) ment à une même densité de probabilité, p (x/ k ), sous
l'application ainsi construite chacune des classes, et que les classes ont la même
probabilité d'occurrence, P k , dans chacune des bases .
(22) xE EcR M ~y=cp( ,x)EFcR K , Le risque de surapprentissage (souvent dénommé « over-
fitting » en franglais) est présent dans tous les problèmes
et (D l'ensemble des fonctions cp ( , e), obtenu lorsque
d'apprentissage supervisé, et notamment dans (27) de
décrit toutes les valeurs possibles des paramètres .
façon particulièrement cachée . En effet, si la base
d'apprentissage A(N) est de faible taille comparée au
3 .1 . CODAGE DES SORTIES nombre de paramètres libres dans , l'erreur peut
Lorsqu'il s'agit de traiter un problème de classification, les atteindre des valeurs très faibles, voire nulles . Pourtant,
sorties délivrées doivent permettre d'attribuer le vecteur absolument rien n'assure que les probabilités d'erreurs
d'entrée à telle ou telle classe . Il y a donc une infinité de soient minimisées ; au contraire, le surapprentissage a
façons de coder les sorties . Les sorties peuvent notamment bien souvent pour conséquence l'augmentation des erreurs
appartenir à un ensemble fini de valeurs, F, dont le de classification : expérimentalement, on vérifie que la
cardinal coïncide avec le nombre K de classes, par probabilité d'erreur admet un minimum pour une certaine
exemple valeur de l'erreur quadratique . Ceci a été analysé dans le
cas linéaire (Perceptron à deux couches) 52 , et expéri-
(24) F = {e 1 , e2, . . ., e K } , mentalement dans le cas non-linéaire par de nombreux
auteurs (PMC à plus de 2 couches, et réseau ALN) . Le
où ek désigne la k-ième colonne de la matrice identité de surapprentissage est d'autant plus sensible que la taille du
dimension K . n codage également très utilisé lorsque le réseau est grande (beaucoup de paramètres en comparai-
PMC est destiné à des fins de classification est celui obtenu son à la taille de la base), si le nombre de recyclages est
à partir de (24) en remplaçant les {0} par des {- 1} 57 , élevé .

392
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

3 .3 . RISQ E BA ESIEN estimateurs sont démontrées dans 7 , tandis que 23 en


fait un tour d'horizon synthétique .
Dans le contexte bayesien, on minimise la fonction
risque Soit {x (n ), 1 = n N, x (n) E I18 M } une base d'apprentis-
sage de taille N, que l'on suppose être la réalisation d'une
variable aléatoire unique, de densité px (u ) . Alors on
(28) R = ~, K(i, j) Pj p(u/wj ) du , définit l'estimateur à noyau radial, px (u) comme suit .
J uew i
1 cN 1 u - N)
X(n)
où p ( u/wj ) = probabilité qu'une observation issue de la (32) px(N, u) =
N n , h(N)M K h(N)
classe wi prenne la valeur u,
Pi = probabilité a priori qu'une observation soit issue
de la classe wj , où K est une fonction de RM dans D ne dépendant que de
K (i , j) = coût de la classification dans la classe
la norme de son argument (fonction radiale), et h (N) une
w i d'un élément de la classe wj . suite réelle positive tendant vers zéro quand N --* oo .
Cacoullos 7 énonce un certain nombre de conditions
Il vient avec ces notations la relation donnant la densité de suffisantes sur h (N) pour que l'estimateur soit performant .
probabilité marginale de l'observation Nous avons en particulier le thérorème de convergence
K suivant
(29) p (u) Pk p (ulwk ) . Si K (u) et p,,(u) vérifient les conditions
k=1

Rappelons ce que donne ce critère dans quelques cas


particuliers . Si les réponses correctes ne sont pas pénali-
( 33) f~M K(u) du = 1 ,

sées, i .e . Si K (i , i) = 0, la solution bayesienne est obtenue


en affectant à x la classe w i pour laquelle la quantité (34) J K(u) ui uj du = v if borné , di, j, 1
M
suivante est la plus faible
(35) p, (x) est deux fois continûment différentiable ,
(30) B i (x) K(i, j) Pj p(x/wj ) .
t #i et si h (N) vérifie
Ceci découle directement de (29) . n cas particulier (36) lim h (N) = 0 et lim Nh (N )M = oo ,
d'importance est celui des coûts uniformes : K (i, j) = N --- oo N -- m

1 - S i . Dans ce cas la relation (29) permet d'écrire (30)


sous une autre forme alors l'estimateur (32) converge en moyenne quadratique ;
autrement dit, l'erreur
B i (x) = p (x) - P i p (x/w i ) .

Autrement dit, puisque p (x) ne dépend pas de w i , on peut (37) e(N) E p ,(N, u) - px(u) 2 du }
de manière équivalente affecter x à la classe pour laquelle {JR M JJ
la quantité ci-dessous est la plus grande tend vers zéro quand N --> oo . On supposera dorénavant
que les conditions (33) à (36) sont satisfaites .
(31) b i (x) = P i p(x/w i ) .
C'est sous cette dernière forme que le critère bayesien est 3.5 . LIMITATIONS INTRINSÈQ ES D CRITÈRE
le plus souvent utilisé . Notons au passage que b i (x) n'est MEQ
autre que la probabilité conjointe p (x, wi ), probabilité
d'observer un vecteur d'entrée x issu de la classe Le but de cette section est de vérifier mathématiquement
wi . l'assertion
Pour définir un classifieur bayesien, il est donc nécessaire « Les sorties du PMC tendent vers les probabilités
(39)
d'estimer les densités conditionnelles p (x, wi ), qui sont en bayesiennes lorsque la taille de la base d'apprentis-
générai inconnues . L'objet de la section suivante est de sage tend vers l'infini . »
proposer des estimateurs dont les performances sont
remarquables pour des échantillons de taille limitée . Cette Ici encore, on analyse les limites « ultimes » du critère
section a également pour fonction d'introduire les nota- MEQ, c'est-à-dire dans le cas le plus favorable où l'algo-
bons nécessaires à l'étude asymptotique des performances rithme de minimisation MEQ atteint le minimum absolu
du PMC . de l'erreur. Les quatre théorèmes suivants (dont trois sont
originaux) ont été démontrés en annexe .

3 .4 . ESTIMATE RS À NO A DE PROBABILITÉ Théorème I


Les performances des estimateurs nucléaires sur des Soit A O (N) = {x ")y")1 n N} une base d'appren-
échantillons courts sont remarquables lorsque la densité tissage, contenant N k exemples dans chacune des classes
cherchée est Co O . Les propriétés fondamentales de ces à) k , 1 k K . Soit l'application cp( . .) obtenue en

393
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

minimisant l'erreur remplacées par leurs estimations nucléaires de noyau


pz ( ) .
(40) Il p( ,
Les démonstrations, données en annexe, exhibent des
£(N) E (n) - x (n) )ll 2
= N n=1 conditions portant sur le bruit z permettant à la solution
d'être consistante . En effet, on y constate que les densités
par rapport à . Alors cette application tend lorsque conditionnelles p (vlw k ) tendent vers leurs estimations
{Nk .- oo, 1 = k K } vers la meilleure approximation nucléaires (32) de noyau
quadratique dans la classe 4 du récepteur optimal bayesien
équipénalisé, à condition de choisir le codage (25), i .e . la (46) p, (u) = K (u/h)/h M .
fonction indicatrice de classe .
Par conséquent, grâce au théorème de Cacoullos, on
Théorème II
constante qu'il convient de choisir un bruit additif z tel que
Soit A 0 (N) = {x (n), y (n) , 1 < n N} une base d'appren- sa densité soit définie par (46) où h vérifie (38)
tissage de taille finie N, contenant N k exemples dans
1
chacune des classes wk , 1 k K . Alors la solution M+a
p( , .) obtenue en minimisant l'erreur h(N) -N
N On conclut de ces quatre théorèmes que, lorsqu'on créera
il
£(N) = E (n) - <p ( , x(n)) il 2 les bases A, .(N), on pourra notamment choisir un bruit
N n= 1 gaussien isotrope d'écart-type u = aN -1/M + a où a est une
constante fixée . On conclut également que l'assertion (39)
tend vers la meilleure approximation dans 4) de la solution
n'est vraie que si une infinité d'exemples différents est
bayesienne générale (30) lorsque {Nk --> oo, 1 k K}, traitée, et que si le minimum absolu de l'erreur quadrati-
à condition de choisir pour codage
que est atteint. Ces deux conditions ne sont évidemment
j) pour x (n ) E w/ .
pas satisfaites en pratique, de sorte que l'on peut s'attendre
(42) i(n) = K (i,
à ce que les sorties du PMC ne soient pas égales aux
Lorsque N est fini, une méthode couramment pratiquée densités bayesiennes estimées . Notons que notre théo-
pour étendre artificiellement la taille de la base A 0 (N) = rème I a été indépendamment obtenu par d'autres auteurs
{x (n), y (n ), 1 { n N} consiste à la dupliquer en la dans 55 ou 4d , tandis que nos théorèmes II à I le
bruitant à l'aide de NR réalisations indépendantes d'un généralisent .
bruit centré de densité p z (u ) . On obtient ainsi R bases
d'apprentissage de taille N

(43) Ar(N) {x (n) + Z (i r) , y (n) , 1 n N} , 1 r R .

Posons alors
4. L'algorithme de Rétro-Propagation du Gradient
(RPG)
(44) A (N, R A r (N) .
4.1 . DÉFINITION DE L'ALGORITHME
Théorème III L'algorithme RPG a été découvert indépendamment par
Soit A 0 (N) = {x (n), y (n) , 1 n N} une base d'appren- plusieurs auteurs, le premier remontant semble-t-il à 1973 .
tissage de taille finie contenant N k exemples (N k ~ 0) dans Par ailleurs, il existe 5 de très fortes similarités entre
chacune des classes, et A (N, R) sa version étendue l'algorithme de RPG et l'algorithme de iterbi, utilisé
conformément à (44) . On suppose en outre que le codage pour l'identification des modèles de Markov cachés 51 ;
adopté est celui de (25) . Alors lorsque R tend vers l'infini, de plus, cet algorithme a été découvert quelques années
la solution p ( , .) obtenue en minimisant l'erreur eucli- plus tôt (vers 1966) . La présentation faite ci-après de
dienne l'algorithme de RPG est similaire à celle de 34 , et est à
notre avis la plus rationnelle ; la présentation de l'algo-
il y (n) rithme RPG de Rumelhart 57 est également à recomman-
(45) £ (N, R) - p (%, x (n) + z (n, r)) il 2 der.
Q -1
Considérons un réseau PMC à Q couches, Q > 2, et une
tend vers la meilleure approximation dans t de la solution base d'apprentissage A 0 (N) {x (n), y (n) , 1 n-N} .
bayesienne équipénalisée (31) construite à partir de l'esti- Notons m (q) le nombre de cellules dans la couche q, et
mateur nucléaire (32) de noyau p z (u) . s (n) (q) le vecteur de dimension m (q) délivré à la sortie de
la couche q . Avec ces notations, m (Q) = K, m (1) = M,
Théorème I et x (n ) = s n ) ( 1) . Conformément à (2), la structure du
réseau est telle que
Dans les mêmes conditions que le théorème ci-dessus, et
lorsque les sorties y (n ) sont définies par le codage (42), la
(50) s (n) (q + 1) = .Î ( (q) S(n)(q)) ,
solution obtenue en minimisant l'erreur £ (N, R) tend vers
la solution bayesienne générale (30) où les densités sont où on a supposé que toutes les couches avaient la même

394
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

fonction de transition pour simplifier (ce n'est nullement et pour 1 < q < Q
nécessaire sur le plan théorique), ici supposée dérivable .
Dans (50), la matrice (q) est de dimension m (q + 1) x
m (q ) . L'apprentissage du PMC peut être considéré m(q+1) m(q)
comme un problème d'optimisation sous contraintes .
X1' (n, q) wjr(q)f' w»(q) Sj(n) (q))
Supposons que l'on veuille minimiser la distance eucli-
dienne entre les sorties désirées et les sorties réellement
obtenues qui s'écrit d'après (53)
N

E IIS (n) (Q) - y (n) I Z • (56 ) X(n,q-1)= (q) z(n)(q), 1 ~r m(q) .


n = 1

La première opération de l'algorithme RPG est la « propa-


Certaines contraintes sont imposées par l'architecture du gation », et consiste à passer les exemples dans le sens
réseau et définies par (50) de sorte que la fonction objectif direct (entrée vers sortie) afin d'obtenir tous les s ( n ) ( q) .
peut être écrite sous la forme variationnelle suivante pour Ensuite, il s'agit de modifier les poids (q) de façon à
1 q<Q, 1 n<N, 1 j m (q+1) : diminuer la fonction objectif (51) ; la difficulté vient du
fait que l'erreur n'est connue que dans la couche de sortie
(51)
Q et non dans les couches cachées, 1 < q < Q . On utilise à
N
L { (q), s (n) (q+ 1 ), Xj(n, q)} cette fin un algorithme du gradient
IIs (n) (Q) - ( n) 1 2 +
n = 1
(q) - (q)-µaL/a (q),
N Q--1 m(q+1)
+ XX (n, q) x qui s'écrit d'après (54)
n=1q=1 =1
N
m(q)
( 57 ) (q) <- (q) + µ (n) (q) s (n) (q) e ,
X si(n) (q + 1) - f wji(q) Si(n) (q) n = 1
i=1

où les vecteurs X (n, q) sont de dimension m (q + 1) et à la fin de chaque cycle . L'équation (53) exprime
z (q) en fonction de A (q ), tandis que (56) exprime
désignent les multiplicateurs de Lagrange associés aux
contraintes (50) . ne condition nécessaire pour qu'un X (q - 1) à partir de z (q ) . Ces équations permettent donc
obtenir par récurrence descendante les quantités X (q) et
point soit minimum local de L est qu'il soit stationnaire
z (q) pour 1 q < Q, la première valeur . X (Q - 1), étant
selon toutes ses composantes (toutes celles figurant entre
accolades dans (51)), ce qui donne en plus de (50) deux donnée par (55) . La « rétro-propagation » de ces grandeurs
familles d'équations supplémentaires ; auxiliaires permet de modifier les poids conformément à
(57) puisque toutes les sorties s( f(017) ont été calculées
(52) pendant la propagation directe .
dq, r, j , 1 q<Q, 1 r m(q), 1 j -m(q+ l) En pratique, les exemples x (n ), y(n ) sont présentés au
aLlawj ,(q) = réseau séquentiellement, de sorte qu'il est aussi possible
de remettre à jour les matrices (q) à chaque fois que n
m 9) 1
- est incrémenté, sans attendre la fin du cycle . Dans ce cas,
X1(n, q) srn)(q),f' w»(q) si (n) (q)'
n=1 i =1
la remise à jour (57) prend la forme (que l'on peut
qualifier de gradient stochastique) suivante
Soit, en posant
(q) - (q) + µz (n) (q) s n ) (q) ,
m(q) l

( 53 ) zj(n) (q) X 1 (n, q) f' wji (q) si(n) (q) J pour chaque exemple de chaque cycle . On augmentera
=1 considérablement la vitesse de convergence de l'algorithme
en ajustant la valeur du pas µ (appelé parfois taux
on obtient le gradient d'apprentissage) à sa valeur optimale . Pour ce faire,
comme la fonctionnelle à minimiser n'est pas fonction
(54) aL/awjr (q) - zj( n ) (q) s, n) (q) ,
explicite de µ, on peut utiliser des méthodes de réduction
n=1 d'intervalles ou d'interpolation polynomiales 20 . ne
autre façon encore plus performante mais plus coûteuse
dj,q,r/1 q<Q, 1 j=m(q+1), 1 r- m(q) . est d'utiliser des algorithmes de type quasi-Newton 20 .
n excellent article en présente les avantages (rapidité) et
Par ailleurs l'annulation des dérivées partielles de L par inconvénients (coûts) dans le cadre du PMC 65 . Ces
rapport aux s, n) (q), n, j, 1 n< N, 1 r m (q), fournit méthodes sont parfois appelées méthodes du second ordre
pour q = Q 47 . Pour information, l'application de ce type d'algo-
rithme d'apprentissage a été récemment rapportée dans
(55 ) X(n,Q-1)=-2(s(n)(Q)-y(n)), 63 , 28 .

395
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

4 .2. ITESSE DE CON ERGENCE DES POIDS PO R où le terme g (N) (µ) est un polynôme de degré N - 2 en µ,
N RÉSEA LINÉAIRE dont on peut exprimer le premier terme

L'étude de la convergence de l'algorithme de RPG pré- E x ( 0 X (i) t x u) x v)t-


(62) g IN O) (µ) = (o)
sente des difficultés insurmontables s'il est exécuté sur un
x(i)t1
PMC de forme générale . En effet, on ne connaît pas la y O y (t)1 x(i) + O (µ)
limite vers laquelle tend l'erreur quadratique, entre autres
raisons parce que ce critère admet a priori plusieurs A N fixé, le polynôme g (N, r) (µ) peut être simplement
minima locaux . L'étude de la convergence d'une suite sans considéré comme une grandeur bornée dans (61) puisque
en connaître la limite ne peut être qu'incomplète . Par 0 < µ < 1 . Si µ est suffisamment petit, la relation (61)
exemple, dans 601 l'étude ne concerne que la variation du décrit le cycle avec une bonne précision . Posons mainte-
critère avec le nombre d'itérations, lorsqu'on se trouve nant
dans un voisinage de la limite (inconnue) . Or sur le plan
pratique, c'est plutôt le temps nécessaire pour parvenir X = x((), x (2) , . . ., x ( ) ,
N j

dans ce voisinage qui est intéressant . = 3,(() (2) . . .,


(N)j >

C'est pourquoi notre analyse a été effectuée dans le cas


30a1, qui présente et la S D de X : X= E t .
linéaire (2 couches avec f (x) = x)
l'avantage d'être analytiquement tractable et d'avoir un Les matrices , , et sont respectivement de dimension
critère MEQ toujours convexe, mais qui est aussi sans M x M, M x N, et N x N, tandis que X et sont
aucun doute plus favorable que le cas multicouche . En respectivement de dimensions M x N et K x N . Étudions
d'autres termes, le temps d'apprentissage d'une fonction la suite
linéaire avec un PMC sans couche cachée est vraisembla-
blement plus court que l'apprentissage de fonctions (63) Z ( r) = ( (NO) - X- ) ,
complexes sur un PMC de forme générale . On étudie donc
bien une borne inférieure au temps d'apprentissage, assez où X - désigne la pseudo-inverse de X, satisfaisant
éloignée de la borne atteinte par l'algorithme, donc X- = l - , où 1 est diagonale et où et sont
optimiste . Mais insistons bien sur le fait que dans cette orthogonales . Cette suite est régie par la récurrence
section le gradient n'est pas rétropropagé . (64) Z ( r + 1)
ne pratique usuelle de l'algorithme de RPG sur des bases .
= Z(r) 1 - µ(r) 1It + µ(r)29(N.r)(µ(r))
d'apprentissage finies consiste à recycler la base plusieurs
fois intégralement . Dans des cas plus raffinés, la base est (65) Lemme .
bruitée lors de chaque recyclage (cf . section 3 .5) . Au cours X
du (r + 1)-ième recyclage, le gradient s'écrit, si le pas µ Si µ(r) = oc, la suite Z(r) définie ci-dessous converge
est maintenu constant au sein de chaque recyclage E
r-1
(58) (rN+n+1) vers zéro
= (rN+n) li(r)( (rN+n) x (n) y ( n) x (n)1
(66) Z ( r + 1) = Z (r) 1 - µ (r) $ j .
pour r -- 0 et 1 n - N . ne analyse très récente 381
utilise implicitement l'hypothèse (très forte) que les vec- (67) Lemme .
teurs x ( n ) sont décorrélés, ce qui confère au résultat un
caractère excessivement optimiste à notre avis . On ne fera
Si µ(r) = oo, et ' µ(r) 2 < oo . alors la suite définie
pas cette hypothèse ici, de sorte que nos conclusions
r=1
seront moins flatteuses .
par (64) converge vers zéro .
Pour alléger, utilisons temporairement la notation µ au
lieu de µ(r), tant que r est fixé . Après présentation des (68) Théorème .
deux premiers vecteurs de la base A 0 (N) dans le premier
cycle, la matrice des poids prend la forme Soient À la plus petite valeur propre non nulle de la
(59) ,i,(2) = (°) 1 µ(x (1) x (1)t + x (2) x (2)t )1 + matrice XX 1 , et µ(r) une suite satisfaisant les hypothèses
(1) x (t) t + y (2) x (2)1 1 + 112 g(2) >
du lemme (67), e .g ., µ(r) = 1/r . Alors l'exécution de
+ l,, O (F - ' ) f) cycles garantit la convergence de la suite des
où g s'écrit poids à F près .
(60) g (2) (o) x(() x(1)t x (2) x (2)1 y(() x(1)1 x (2) x (2)1
Les démonstrations sont renvoyées en annexe . Le théo-
Si nous poursuivons le calcul jusqu'à la fin du cycle, nous rème montre que si X est petite, la convergence de
obtenons l'algorithme RPG peut être arbitrairement lente .
N
L'apprentissage du PMC par RPG est donc de complexité
(61) (N) (°) 1 - µ x (n) x(n)t + non polynomiale, bien que les conditions dans lesquelles
n-,
elle ait été abordée aient été favorables (optimistes) . Enfin
N lorsque la base A ( ,(N) est recyclée avec un bruitage
y ( n) x (n) t + u 2 q (N . °)(~ additif, un résultat analogue au théorème pourrait être
+ µ )
n 1 obtenu, pourvu que N soit suffisamment grand pour que

396
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

XX puisse être remplacée par une matrice de covariance en posant


empirique du type (XX + a2 j), ce qui aurait aussi le
mérite d'assurer une valeur minimale à A . Si par contre N (73) J (X) =
est faible, l'étude devient sans doute plus compliquée .
L'étude de la convergence de ce type d'algorithme a déjà
été abordée depuis longtemps dans le cadre du filtrage et où v ii est définie par (34) . On montre alors en annexe
adaptatif, et des résultats plus généraux ont été obtenus que l'erreur minimale est atteinte pour
4b . Toutefois, les développements mathématiques cor-
respondants sont beaucoup plus complexes (voir par
exemple 4b et les références qui y sont citées) .
(74) h (N ) M + a = M
L K 2 (z) dz

N J 2 (x) dx

et vaut
5. Discrimination bayesienne directe
(75) e(N)mini =( 4+ 1) 1 1 K 2 (z) dz .
hM J M
Quelques propriétés des réseaux de neurones en couches
ont été passées en revue dans les sections précédentes . On
La relation (74) donne la valeur de h(N) à choisir, à
a notamment vu pourquoi il est raisonnable (mais opti- condition de connaître J (x) et K (x) . La seconde constata-
miste) de croire que ces réseaux minimiseront la probabi-
tion que l'on peut faire est que l'ordre de grandeur de
lité totale d'erreurs de classification . Montrons à présent e(N) n'est pas affecté par la forme exacte de K(x) pourvu
comment la solution bayesienne, censée minimiser cette
que les conditions de la section 3 .4 soient respectées .
probabilité d'erreur par définition, peut elle aussi être Choisissons (arbitrairement) le noyau gaussien standar-
implantée (mais de façon approchée il est vrai) sur un disé
réseau de neurones en couches .
T )- M/2
(76) K(v) = (2 exp(- il vil 2/2) .
5 .1 . CHOIX OPTIMAL DE LA S ITE h(N)
L'estimateur (32) est alors un mélange gaussien, qui
Dans cette section, on propose une façon de choisir la permet de bien représenter la plupart des densités obser-
suite h(N), basée sur la minimisation de l'erreur quadrati- vées dans le monde réel 22 . La relation (74) devient dans
que (37) . Afin d'écrire explicitement cette erreur, il faut ce cas
reprendre en détail les calculs de Cacoullos, et en particu-
lier calculer le biais et la variance de l'estimateur (32) . (77) h(N) M2
- - ( ti ) M
pr+a
Sous les hypothèses énoncées dans la section 3 .4, et N Ç
Lxp (x )2 dx
lorsque N tend vers l'infini (et donc lorsque h tend vers J nM
zéro), les résultats asymptotiques suivants peuvent être
obtenus où Op désigne le laplacien de p .
2 M a2
E px(x )
(70) £ ( N x) = h v )
2 1 ax, axe + O (h 3
5 .2 . APPRENTISSAGE PRATIQ E D' NE DENSITÉ
pour le biais, et DE PROBABILITÉ
(71)
L'estimateur (32) est peu pratique si la base d'apprentis-
var (N, x) hMpx(x) K 2 (z) dz + O N i/ sage est de grande taille . Si l'on veut que la procédure
= N f~M hm proposée soit compétitive face au PMC, il est nécessaire
d'imposer une limite aux exigences mémoire de notre
pour la variance . Les démonstrations sont données en algorithme d'apprentissage . Or avec (32), il est nécessaire
annexe . Or l'erreur quadratique, puisqu'elle vérifie de mémoriser toute la base d'apprentissage, comme c'est
le cas dans 58 par exemple . Afin de rendre une telle
e(N) = var (N, u) + eN, u 2 du . solution réalisable, on peut effectuer une compression de
J fM données, par agglomération automatique de l'ensemble
{x (n), 1 n N } en P groupes, E (p), de centroïde
s'écrit par conséquent
w (p) et contenant chacun a (p) éléments . De plus, si la
vraie densité cherchée, pX (u) est effectivement un mélange
h(N)a
(72) e(N) = J(x)2 dx + gaussien, elle sera bien approximée par un estimateur du
M
type de (32) avec le noyau gaussien (76) pourvu que le
nombre de modes de la densité px (u) soit inférieur ou égal
+N MJ~
h M K 2 (z)dz+O(h s )+O~N
au nombre maximal de modes de l'estimateur . Supposons
hm 1 )
que les contraintes matérielles nous imposent un nombre P

397
Traitement du Signal volume 8 - n° 6
éseaux de neurones

Classification supervisée par réseaux multicouches

de gaussiennes . L'estimateur (32) peut s'écrire 5.3 . IMPLANTATION PARALLÈLE

Les estimateurs à noyaux radiaux peuvent être implantés


pX (N, u)
sur une architecture parallèle s'apparentant au PMC à
1 p 1 u x(n) trois couches, auquel on aurait adjoint une cellule de
.a(
p) n , x(n) p) h(a(p))M K h(a(p)) quadration (fig . 1 c) . En effet, pour calculer la valeur de la
fonction radiale, on a besoin de
qu'il est possible d'approximer par l'estimateur à P modes :
(82) JJu-w112=2 IIuI1 2 +Z IIwI12-ut w .
u 2
(78 ) p (u) K
1a (p) pZ1 h (a (p) )M h(a (p) ))
Si on pose

en assimilant les échantillons x(n) de chacun des groupes -1/2 l1u11 2


E (p) à leur centroïde w (p ) . Au sein de chaque groupe (83) w = w et û = u
E (p), on peut calculer la valeur de h (a (p)) en appliquant
11w112 -1/2
la formule (77) . En effet, si x(n) e E(p), alors p,,(u) est
gaussienne de moyenne w (p) et de variance Q (p )2 I . Le
alors on peut écrire (82) sous la forme d'un produit
calcul donné en annexe conduit à
scalaire
1 1
M+4 M+4 (84) llu-w112=üt w .
(79) h(a(p)) o-(p) ( 4 3 ) a(p) 2
où l'écart-type v(p) peut être remplacé par son estimation Par ailleurs, définissons la fonction de transition saturante
du maximum de vraisemblance (sous hypothèse gaussienne
(85)
isotrope)
f(z)=e-'12, si z=0 ; et f(z)=1-f(-z) si z<0 .
1
(80) v (p ) 2 = li x - w (p) Il 2 .
Ma(p) xeE(p) Alors il est évident que pour le noyau gaussien isotrope
(76) on a
En résumé, l'estimateur utilisé est donc de la forme M/2 f (u t w)
(86) K(u - w) = 2(2 7r)-

(81) p(u) (2 ir) - M/2 1 1 x Similairement, si on avait défini un noyau radial à partir de
a(p) p=, h(a(P))M
la fonction sigmoïde
x a(p) exp(- il u - w(p)Il 2 1 2 h(a(p))2 ) ,

Pour terminer cette section, signalons l'existence de techni-


(87) fs(v) = 1 + e ,
ques plus élaborées (mais plus coûteuses) permettant
d'identifier des mélanges gaussiens, notamment 68 et 9 . alors on aurait
En revanche, nous n'avons pas encore étudié les possibili-
tés d'implantation de ces techniques sur des réseaux (88) Ks (u - w) = C s f s (û t ), avec
stratifiés tels que celui de la figure 6 . avec Cr 1 = (2M/2 -2) ,7 M/2 I (M/2) ~(M/2) ,

où «k) est la fonction zêta de Riemann 1, p . 8071 . Le


noyau KS approche le noyau gaussien pour de grandes
valeurs de l'argument, et peut être utilisé si les moyens
matériels sont plus adaptés à la synthèse de (85) plutôt que
(87) .
L'apprentissage consiste alors simplement à stocker les
vecteurs centroïdes, w (p ), ainsi que les effectifs, a (p ),
dans le réseau . Ceci est immédiat si le nombre d'exemples
de la base, N, est inférieur ou égal à la taille du réseau, P .
Mais en général, on a N > P, et l'apprentissage se ramène
donc à l'exécution d'un algorithme d'agglomération 10 .

5 .4 . ALGORITHME D'AGGLOMÉRATION

L'algorithme proposé est une version récursive des nuées


Figure 6-Réseau
Réseau à trois couches permettant d'implanter le classifieur dynamiques 16 . Rappelons en quelques lignes les instruc-
bayesien estimé décrit dans la section 5 . A chaque entrée x présentée, ce tions de l'algorithme des nuées . Deux opérations sont
réseau délivre en sortie les probabilités conditionnelles exécutées dans chaque itération .

398
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

(89) Algorithme des Nuées Dynamiques . classe 1

• ne opération d'affectation -xxi+ 1 e -x'x/2o


(9 3 ) p x(x) = e'2
chaque individu x(n) est affecté au groupe E (p {x} ) 4 Tr 10
pour lequel le centroïde w(p {x} ) est le plus proche .
et pour ceux de la classe 2
• ne opération de représentation
les centroïdes w (p) sont remplacés par les centres de (94 ) px(x) {p 1 (x) +p2(x) + 2p3(x)}/4 ,
gravité des vecteurs qui leur sont affectés . avec
Pour des bases de taille N finie, on peut montrer que (x-mi, x )2 (y-m;, y ) 2
1
l'algorithme se termine au bout d'un nombre fini d'itéra- p,-(x)= 1 exp~-
2 Tr ŒJ, x cri, 2 Œ~J, x 2 a~J, y
tions 16 . En outre, l'algorithme minimise le critère y

P
- xll 2 Œ1,x= 0, 2 , Œ(, y = 0,2, m l ,, =0, y,=0 ;
£ Ilw(p)
P=1 -f(p) Œ2,x =0,2, Œ 2,y =0,2, nZ1,x= 0 , mi,y =2 ;
Œ3,x =0,2, Œ 3,y =1, m i , X =0,2, m
où E (p) est le groupe engendré par les w(p) à chaque
itération . Rien n'assure que le minimum atteint soit L'échantillon sur lequel on travaille est de taille 50 pour
absolu, mais cela n'a pas forcément une grosse importance . chacune des classes, et est représenté en figure 7 . Afin de
Cela veut simplement dire que l'on peut approximer plus
finement la base de données avec le même nombre de
groupes . La version récursive proposée peut se décrire
comme suit 10 .
(90) Algorithme des Nuées Récursives
• Les centroïdes w (p) sont initialement fixés à des valeurs
arbitraires, par exemple équiparties sur une grille .
• Les effectifs a(p) valent initialement 1, bien que les
groupes soient encore vides .
• On présente un nouveau vecteur x .
• On sélectionne le vecteur w(p {x} ) le plus proche de x .
• On remet à jour l'ensemble des centroïdes par la règle
d'évolution

(91) w(p) (a(p) w(p) + 5 (p - p {x} ) x) x


x 1 , p ;
a (p) + b (p - p {X} )

autrement dit seul le centroïde w(p { x } ) est modifié .


• On remet à jour les effectifs par la règle

(92) a(p) F--ri(a(p)+8(p-p{x})), dp ;


• Les données sont recyclées une ou deux fois, après quoi
l'algorithme est interrompu .
Le coefficient rl est un facteur d'oubli que l'on choisira
dans l'intervalle (0,9, 1) . Cet algorithme s'apparente à
celui des cartes auto-organisatrices de Kohonen 31 , de
sorte que sa convergence pourrait être étudiée à l'aide des
outils d'analyse des processus linéaires markoviens,
comme cela a été fait dans 54 pour les cartes auto-
organisatrices .

6. n exemple de Classification binaire

Dans cet exemple, des individus caractérisés par les Figure 7 . - Échantillons de taille 50 générés par simulation et utilisés dans la
densités suivantes ont été générés . Pour les individus de la partie 6 ; (a) classe 1, (b) classe 2.

399
Traitement du Signal volume 8 - n° 6
éseaux de neurones
- Classification supervisée par réseaux multicouches

mesurer les performances de la classification réalisée on • Le facteur d'apprentissage µ a été pris égal à 0, 1
calcule l'ensemble des probabilités d'erreurs, que l'on initialement, puis
convient de ranger dans une matrice dite de confusion . En
accord avec (28), cette dernière est définie par : a été diminué exponentiellement si l'erreur augmen-
tait : µ .- µ/2 ; dans ce cas l'itération suivante n'a
C i1 = prob (choisir w i /x E wj ) . pas pris en compte la valeur de obtenue,
a été augmenté si l'erreur décroissait : µ F-- µ * 1,1,
Cette matrice est calculable exactement, puisque nous l'apprentissage s'arrêtait dès que le pas était inférieur
connaissons les vraies densités . Elle a pour expression, à 10 -7 .
pour un classifieur décidant w i sur un domaine D ;
• La fonction de transition utilisée est celle définie par
(85), avec un facteur de dilatation de 5, c'est-à-dire
(95) C (i , j) = p ( x/wj ) dx .
J f (x) = 1 + s - s exp (- sax) l2, avec s = sign (x) et
a=5 .

Si on convient de poser d i (u) la fonction indicatrice du • Dix exécutions complètes de l'algorithme ont été faites
domaine D i , l'expression (95) s'écrit à partir de dix valeurs initiales tirées aléatoirement, et
seule celle conduisant à la confusion la plus faible a été
conservée .
(96) C(i, j) = d i (x) p(x/wj ) dx .
Jt Pour le PMC (3, 9, 1), l'erreur est devenue stationnaire à
partir du 19-ième recyclage, et ce jusqu'à ce que le pas
Pour un classifieur binaire bayesien, on peut notamment atteigne µ - 10-7 au recyclage 40 . La matrice de confusion
écrire apparente obtenue sur l'ensemble d'apprentissage (en
effectuant un comptage simple non pondéré par les
1 densités) avait alors atteint la valeur
(97) di (x) sign {px (x) - p, (x)} + 1 ,
2
Apmc
0 , 97 0 , 13
(101) (s, 9, 1) =
où sign (z) E {+ 1, - 1 }, et où les p ; (x) approximent les 0,03 0,87 /
p (x/wi ) . En utilisant notre algorithme d'apprentissage
décrit dans la section 5, on obtient la matrice de confusion Les domaines de décision correspondants sont représentés
ci-dessous après 2 recyclages, il = 0, 99, et avec P = 6 figure 8 c . Pour le PMC (4, 5, 2, 1), l'apprentissage a été
groupes dans chaque classe : stoppé à l'itération 77 . La matrice de confusion apparente
sur l'ensemble d'apprentissage avait alors atteint la valeur
C - 0,916 0,160
(98)
eS 0,084 0,840 (101)
( 00,95 0,13)l
A pmc (4, 5, 2, 1) =
05 0,87/
Sur les 6 groupes, 4 seulement ont été retenus dans la
Les domaines de décision correspondants sont représentés
classe 1, les 2 groupes restants ayant des effectifs nuls au
terme de l'algorithme d'agglomération . La confusion (98) figure 8 d . Les matrices de confusion réelles pour ces deux
doit être comparée à la confusion ultime que l'on obtient classifieurs ont été estimées à (en utilisant les vraies
avec le classifieur bayesien idéal, i .e ., celle que l'on densités, qui sont connues dans le cas de simulations)
obtient en remplaçant p i (x) par p (x/wi ) dans (97) 0,775 0,266
(102) Cpmc (s, 9, 1) =
/0,864 0, 024 0,225 0,734
(99) Cideal =
0,136 0,976 0, 600 0,270)
Cpmc (4, 5, 2, D
= ( 0,400 0,730
La figure 6 donne une vue générale de l'ensemble du
réseau bayesien qui serait utilisé dans cet exemple . Les On a supposé que les exemples étaient bien classés en
figures 8 a et 8 b représentent les domaines de décision dehors du pavé - 2,5, 4 x - 2,5, 41, ce qui est évidem-
bayesiens idéaux, et bayesiens estimés à travers (81) et ment un peu optimiste, surtout pour le PMC ; les probabi-
(97), respectivement . lités d'occurrence des exemples sont par contre faibles à
l'extérieur de ce pavé, de sorte que le biais de la confusion
Ensuite, l'algorithme RPG a été appliqué d'une part à un
reste raisonnable .
PMC (3, 9, 1), ayant 3 cellules d'entrée, 9 cellules cachées
et 1 cellule de sortie, et d'autre part à un PMC (4, 5, 2, 1)
pour lequel l'entrée il x il 2 a été rajoutée . L'apprentissage a
été exécuté dans les conditions suivantes

(100) 7. Conclusions

• La valeur initiale des éléments des matrices (q) a été On retiendra que le PMC à 3 couches peut approcher
choisie aléatoirement dans l'intervalle - 1/5, 1/5 . n'importe quelle application, mais avec un nombre grand
• La version stochastique du RPG a été utilisée . de cellules, et pourvu que cette application soit connue .

400
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

(c) (d)
Figure 8 . - Domaines de décision obtenus sur une grille de 29 x 29 points ; la (c) Solution obtenue avec un PMC (3, 9, 1) . (d) Solution obtenue avec un
décision en faveur de la classe 2 est représentée par la zone noircie . (a) PMC (4, 5, 2, 1), en adjoignant aux 3 entrées précédentes l'entrée
Solution bayesienne idéale, obtenue avec les densités exactes . (b) Solution ~Ç x ÇÇ 2
bayesienne, obtenue avec les estimateurs de densité à noyau radial variable .

Lorsque l'application n'est connue qu'à travers N exem- grand nombre de recyclages bruités) la solution Baye-
ples, l'apprentissage du PMC par RPG nécessite du sienne (théorèmes I à I , section 3) . Pourtant, même la
doigté . Ses performances en classification sont sensibles à convergence de l'algorithme RPG vers un minimum local
la valeur initiale que l'on donne à l'ensemble des paramè- peut prendre un temps arbitrairement long (théorème ,
tres , comme nous l'avons montré dans la section 6 . De section 4) . Ces limitations de l'algorithme RPG ont motivé
plus, dans le cas favorable où la RPG converge vers le la recherche d'une autre procédure . La seconde procédure
minimum absolu du critère d'erreur, le PMC ne délivre d'apprentissage que nous avons proposée est basée sur
qu'asymptotiquement (pour de grandes bases ou pour un l'estimation des densités conditionnelles, et soulève moins

401
Traitement du Signal volume 8 - n° 6
éseaux de neurones
- Classification supervisée par réseaux multicouches

de difficultés pratiques (section 5) . En outre, la complexité Kaufmann, ainsi que dans les actes des International Joint
de sa mise en oeuvre est beaucoup plus faible pour des Conférences on Neural Networks, de 1988 à 1991, publiées
performances plutôt meilleures . par IEEE .
En conclusion, l'approche bayesienne, bien que plus Pour les problèmes de minimisation de risque empirique,
standard, semble à nos yeux plus maniable et pour un expert recommande le livre de apnik 70 . En ce qui
l'instant moins coûteuse en nombre d'opérations que la concerne les relations entre les réseaux de neurones et
RPG . De plus, cette approche peut être elle aussi implan- l'approche Bayesienne, les rapporteurs indiquent aussi
tée sur un réseau stratifié de cellules neuro-mimétiques . 71 et 72 .
Cette solution pourrait inspirer un certain nombre Enfin, l'approximation de fonctions booléennes est abor-
d'améliorations à apporter aux algorithmes d'apprentis- dée dès 1970 dans 73 , et les approximations polyédrales
sage pour les réseaux en couches dédiés à la classification . dans 74 .
Par ailleurs, un des problèmes encore ouvert est celui de
Manuscrit reçu le 7 septembre 1991 .
l'évaluation des performances de généralisation lorsque
seulement un nombre limité d'exemples est disponible .
Certains auteurs abordent différentes facettes de ce pro-
blème dans 21 , 18 , 33 . Ce problème ne s'est pas
imposé à nous dans ce travail puisqu'il s'agissait de
simulations (il était possible d'utiliser les vraies densités BIBLIOGRAPHIE
pour calculer les matrices de confusion) . L'expression (96)
suppose en effet que les densités p ( x/ ,) sont connues . 1 M . ABRAMO ITZ and I . A . STEG N, Handbook of Mathematical
Dans certains utilitaires informatiques actuellement dispo- Functions, Dover Publ . Inc ., New ork, 1965, 1972 .
nibles, notamment Soma 15b ou Neuroclass 8 , les 2 S . AMARI, « Mathematical Foundations of Neuro-Computing »,
performances sont estimées par tirage aléatoire de parti- Proceedings of the IEEE, special issue on neural networks,
tions dans l'ensemble des données : dans chaque tirage September 1990, 1443-1463 .
une partie sert pour l'apprentissage, l'autre pour l'estima- 3 E . B . BA M, « A Proposai for More Powerful Learning Algo-
tion des performances . Ce procédé n'est pas le meilleur, rithms », Neural Computation, 1, 1989, 201-207 .
mais a l'avantage d'être simple à mettre en oeuvre . 4 E . B . BA M, « The Perceptron Algorithm is Fast for Non
D'autres utilitaires incluent des procédés similaires, mais Malicious Distributions », Neural Computation, 2, 1990, 248-
260 .
aucun ne semble à l'heure actuelle totalement satisfaisant .
4b A . BEN ENISTE, M . MÉTI IER et P . PRIO RET, Algorithmes
Des recherches sont en cours autour de ce problème, qui
adaptatifs et approximations stochastiques, Masson, 1987 .
ne date pas d'aujourd'hui d'ailleurs, puisque l'obtention
4c A . BL MER et al ., « Learnability and the apnik-Chervonenkis
de résultats fiables ne peut se passer d'une prédiction de Dimension », Journal of the ACM, vol. 36, n'4, October 1989,
performances . 929-965 .
4d J. BRIDLE, « Probabilistic Interpretation of Feedforward Classi-
fication Network Outputs with relationships to Statistical Pat-
tern Recognition », Neurocomputing, Fogelman and Hérault
editors, NATO ASI series, vol . F68, 1990, Springer erlag,
227-236 .
8. Remarques 5 H . BO LARD and C . J . ELLEKENS, « Links between Markov
Models and Multilayer Perceptrons », Advances in Neural
Pendant la rédaction du présent article, nous avons Information Processing Systems 1, Morgan Kauffmann, 1989,
502-510.
remarqué la parution de deux communications dont le 6 P . B RRASCANO, « Learning ector Quantization for the Proba-
contenu rejoint certains de nos résultats . Dans 6 , un bilistic Neural Network », IEEE Trans . Neural Networks,
algorithme d'agglomération (quantification vectorielle) est vol . 2, n' 4, July 1991, 458-461 .
proposé en vue de rendre utilisable le réseau de classifica- 7 T . CACO LLOS, « Estimation of a Multivariate Density », Annals
tion probabiliste 58 ; cet algorithme est une alternative à of Inst. of Stat. Math ., 18, 1966, 178-189 .
notre algorithme 10 exposé en section 5 .5 . Dans 29 , la 8 J . G . CAILTON, F . ALLET et al., « Neuroclass, Manuel d'utilisa-
convergence de l'erreur quadratique vers les probabilités tion », version 1 .1 pour stations S N, Rapport Thomson LCR,
empiriques a été abordée, à première vue d'une façon 9 août 1990 .
sensiblement différente de la nôtre . 9 G . CELE X and D . DIEBOLT, « Identification of a densifies
mixture and classification », INRIA Report, 1984 .
Par ailleurs, les rapporteurs sur l'article ont suggéré
10 P . COMON, « Distributed bayesian classification », Revue Techni-
tardivement un certain nombre de références complémen- que Thomson CSF, numéro spécial Reconnaissance de Formes
taires que l'auteur n'a pas voulu passer sous silence, bien et Réseaux Neuronaux, vol . 22, n' 4, December 1990, 543-562 .
qu'elles lui soient peu familières pour la plupart . 11 P . CoMON, « Supervised Detection and Estimation », Esprit
Le livre 69 semble exceptionnellement clair et rigoureux, BRA. orkshop on Neural Networks and 4rtificial ision,
et serait une bonne sélection parmi la myriade de livres January 1991 .
disponibles sur le sujet. 12 G . C BENKO, « Approximation by Superpositions of Sigmoidal
Functions », Mathematics of Control, Signais and Systems, 2,
n certain nombre d'applications des réseaux de neurones n' 4, 1989 .
peut être trouvé dans la série Neural Information Proces- 13 M . COSNARD, « Neural Algorithms », Les entretiens de Lyon,
sing Systems, de 1989 à 1991, publiée par Morgan mars 1990 .

402
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

14 N . E. COTTER, « The Stone- eierstrass Theorem and its gie-Mellon niversity, Touretzky, Hinton and Sejnowski edi-
Application to Neural Networks », IEEE Trans . Neural tors, Morgan Kaufmann 1989 .
Networks, vol . 1, December 1990, 290-295 . 35 T. LEFEB RE et al., « Arachyde, Analyse et Reconnaissance
15 P . DELSARTE and . KAMP, « Low Rank Matrices with a given Acoustique par Systeme Hybride », Revue Thomson CSF,
Sign Pattern », SIAM Jour. Disc . Math ., vol. 2, n' 1, February numéro spécial Reconnaissances des Formes, tome 2, vol. 23,
1989, 51-63 . n' 1, mars 1991, 185-198 .
15b P. DEMARTINES et L . TETTONI, « SOMA » : Simulateur logiciel 36 D . LEGITIM S and L . SCH AB, « Natural nderwater Sounds
de modèles neuronaux adaptatifs », rapport interne LAMI Identification by Neural Networks and Classical techniques »,
(EPFL, Ecublens, CH1015 Lausanne), 1991 . Revue Thomson CSF, numéro spécial Reconnaissance des
16 E . DIDA et al ., Éléments d'Analyse de Données, Dunod, 1982 . Formes, tome 2, vol . 23, n' 1, mars 1991, 161-184 .

17 R . D RBIN and D. E . RuMELHART, « Product nits : A Computa- 37 R. P . LIPPMANN, « An Introduction to Computing with Neural
tionally Powerful and Biologically Plausible Rxtension to Back- Nets », IEEE ASSP Magazine, April 1987, 4-19 .
propagation Networks », Neural Computation, 1, 1989, 133- 38 Z . Q . Luc, « On the Convergence of the LMS Algorithm with
142 . Adaptive Learning Rate », Neural Computation, 3, 1991, 226-
18 K . F K NGA and D . L . KESSEL, « Estimation of Classification 245 .
Er or », IEEE Trans . Computers, vol . 20, n' 12, December 39 J . MAKHO L et al., « Classification Capabilities of two layer
1971, 1521-1527 . Neural Nets », ICASSP 89, 635-638 .
19 K . F NAHASASHI, « On the Approximate Realization of Conti- 40 G . MA RI and B . APOLLONI, « Computational Aspects of Lear-
nuous Mappings by Neural Networks », Neural Networks, ning in Neural Networks », Les entretiens de Lyon, mars 1990 .
vol . 2, n' 3, 1989, 183-192 . 41 G . MIRCHANDANI and . CAO, « On Hidden Nodes for Neural
20 P . E . GILL, . M RRA and M . H . RIGHT, Practical Optimiza- Nets », IEEE Trans . CAS, special issue, May 1989, vol . 26,
tion, Academic Press, 1981 . n' 5, 661-664 .
21 . GREBLECKI, « Asymptotically Optimal Pattern Recogni- 42 J. MooD and C . J . DARKEN, « Fast Learning in Networks of
tion . . . », IEEE Trans . Inf. Theory, 1978, 24, 250-251 . Locally-Tune Processing nits », Neural Computation, 1, 1989,
22 F . R. HAMPEL, « Robust Estimation : A Condensed Partial 281-294 .
Survey », ahrscheinlischskeits Theorie erw . Geb ., 27, 1973, 43 J . M . NICOLAS, A . LEMER et D . LEGITIM S, « Identification
87-104 . Automatique de Bruits Impulsifs en Acoustique Sous-Marine
23 D . J . HAND, Kernel Discriminant Analysis, 1982, RSP press . par Réseaux Multicouches », Neuro-Nimes, 13-16 novembre
24 R. HECHT-NIELSEN, « Kolmogorov's Mapping Neural Network 1989 .
Existence Theorem », First IEEE ICNN Conférence, 3, 1987, 44 J . M. NICOLAS, A . LEMER and J. C . DEL IGNE, « Automatic
11-14. Identification of Transient Biological Noises using Arborescent
25 R. HECHT-NIELSEN, «Theory of Backpropagation Neural avelets and Neural Networks », Colloque Ondelettes et Pre-
Networks », IEEE IJCNN, 1, 1989, 593-605 . mières Applications, Marseille, 29 mai-3 juin 1989 .
26 K . HORNIK, « Approximation Capabilities of Multilayer Feed- 45 OFTA ed., Les réseaux de Neurones, Masson, 1991 .
forward Networks », Neural Networks, vol. 4, n' 2, 1991, 251- 46 J . PARK and I . . SANDBERG, « niversal Approximation sing
258 . Radial-Basis Function Networks », Neural computation, 3,
1991, 246-257 .
27 B . IRIE and S . MI AKE, « Capabilities of Three-Layered Percep-
trons » . Second IEEE ICNN Conference, 1, 1988, 641-648 . 47 D . B . PARKER, « Optimal Algorithms for Adaptive Networks
28 R. A . JACOBS, « Increased Rates of Convergence through second Order Back-Propagation, Second Order Direct Propaga-
Learning Rate Adaptation », Neural Networks, vol . 1, n' 4, tion, and Second Order Hebbian Learning », First IJCNN, San
Diego, June 1987, vol . II, 593-600.
1988, 295-307 .
48 L . PERSONNAZ et al ., « Les Machines Neuronales », La Recher-
29 F . KANA A and S . MI AKE, « Bayes Statistical Behavior and
alid Generalization . . . », IEEE Trans . NN, vol . 2, July 1991, che, vol . 19, novembre 1988, 1362-1373 .
471-475 . 49 T . PoGGio, « On Optimal Non Linear Associative Recall »,
30 D . KAZAKOS, « Bayes Error Probability with Inaccurate Decision Biol . Cybernetics,
19, 1975, 201-209.
Threshold », Electronic Letters, vol . 25, n' 14, July 1989, 894- 50 T . Pocoio and F. GIROSI, « Networks for Approximation and
895 . Learnings », Proceedings of the IEEE, special issue on neural
30a S . KNERR, L . PERSONNAZ, G . DRE F S, «Single-layer Learning networks, September 1990, 1481-1497 .
Revisited : a Stepwise Procedure for Building and Training a 51 L . R . RABINER, « A Tutorial on Hidden Markov Models and
Neural Network », Neurocomputing, Fogelman and Herault Selected Applications in Speech Recognition », Proc . of the
editors, NATO ASI series, vol. F68, 1990, Springer erlag, 41- IEEE, vol . 77, n' 2, February 1989, 257-286 .
50 . 52 P. REFREGIER and J . M . IGNOLLE, « An Improved ersion of
31 T . KOHONEN, « The Self-Organizing Maps », Proceedings of the the Pseudo-Inverse Solution for Classification and Neural
Networks », June 1989, EurophysicsLetters, October 1989, 387-
IEEE, special issue on neural networks, September 1990, 1464-
392 .
1480.
32 A . N . KOLMOGORO , « On the Representation of Continuous 53 P. REFREGIER, A . JAFFRE and F . ALLET, « A Probabilistic
Approach for Multiclass Discrimination with Neural
Functions of Many ariables by Superposition of Continuous
Networks », Revue Technique Thomson CSF, numéro spécial
Functions of One ariable and Addition », American Math .
Reconnaissance de Formes et Réseaux Neuronaux, vol . 22,
Soc . Series Trans ., series 2, vol. 88, 1963, 55-59 (orig . : Dolk .
n' 4, December 1990, 563-572 .
Akad . Nauk. SSSR, 114, 1957, 953-956).
54 H . RITTER and K . SCH LTEN, « Convergence Properties of
33 A . KRZ ZAK, « On Exponential Bounds on the Bayes Risk of Kohonen's Topology Conserving Maps : Fluctuations, Stability
Kernel Classification Rule », IEEE Trans . Information Theory, and Dimension Selection », Biological Cybernetics, vol . 60,
vol. 37, n' 3, May 1991, 490-499 . 1988, 59-71 .
34 . LEC N, « A Theoretical Framework for Back-Propagation », 55 D. . R CK, S . K . ROGERS et al., « The Multilayer Perceptron
Proceedings of the 1988 Connectionist Summer School, Carne- as an Approximation to Bayes Optimal Discriminant Func-

403
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

tion », IEEE Trans . Neural Networks, vol . 1, December 1990, Faisons tendre les N k vers l'infini, nous obtenons
296-298 .
K
56 . RuDIN, Analyse Réelle et Complexe, Masson, 1978 . ( ) )112 du .
E (cc } Pk Jp(u/wk)II " -p( ,
57 D . E . R MELHART and J . L . MCCLELLAND, Parallel Distributed
k=1
Processing, vol . 1, 1986, MIT Press .
58 D . F . SPECHT, « Probabilistic Neural Networks », Neural Puis en utilisant la relation
Networks, vol . 3, n' 1, 1990, 109-118 . K

59 D . A . SPRECHER, « On the Structure of Continuous Functions of P (u) Pk p (u/wk) ,


Several ariables », Transactions of the American Mathematical k=I
Society, vol . 115, n' 3, March 1965, 340-355 .
nous obtenons finalement
60 G . TESA RO, . HE and S . AHMAD, « Asymptotic Convergence
of Backpropagation », Neural Computation, vol . 1, 1989, 382-
391 . (A-1) p~pu)Il2du-
E(oo)= J(n)Il(
61 F. ALET, « Approche globale du problème de discrimination
aspects probabilistes », Revue Technique Thomson CSF, K K
numéro spécial Reconnaissance de Formes et Réseaux Neuro- - 2 Pk JP (u/03k ) i'PJ ( , u) du + P I) ,
naux, vol . 22, n'4, décembre 1990, 519-542 . k=1 f j=1
62 L . G . AILLANT, « A Theory of the Learnable », Communica-
tions of the ACM, November 1984, vol . 27, 1134-1142 . ou s o est indépendant des cpj. O
63 T . P . O(-,L et al ., « Accelerating the Convergence of the Back-
Démonstration du théorème I
Propagation Method », Biol. Cybernetics, 59, 1988, 257-263 .
64 D . J . oLPER and S . E . HAMPSON, « Quadratic function Nodes ; Ici, yJ = ( )
sjk si x " E w k . Dans (A-1), la somme sur j se
use, structure and training », Neural Networks, vol . 3, 1990, 93- réduit donc à un seul terme, ~p k (M11, u). Posons gk(u) =
107 . bk (u )lp ( ), où b k (u) a été défini en (31) ; remarquons que
65 R. L . ATRO S, « Learning Algorithms for Connectionist g k (u) n'est autre que la probabilité conditionnelle de la
Networks : Applied Gradient Methods of Nonlinear Optimiza- classe k, p(w k /u) . L'expression (A-1) devient dans ce cas
tion », First IJCNN, San Diego, California, June 21-24, 1987,
vol . 11, 619-627 .
66 B . IDRO and R . INTER, « Neural Nets for Adaptive Filtering (A-2) r(oo) = $ p(uIl(
)cpu)Il 2 du-
and Adaptive Pattern Recognition », Computer, vol . 21, n' 3,
March 1988, 25-39 . K

67 B . mxow and M. A . LEHR, « 30 ears of Adaptive Neural -2 p(u) g k (u)cp k ( , u)du+s t ,


Networks », Proceedings of the IEEE, special issue on neural J k=l
networks, September 1990, 1415-1442 .
68 S . AKOwITZ and J . D . SPRAGINS, « On the Identifiability of où s 1 ne dépend pas des cp k . Minimiser s (x) revient donc
Finite Mixtures », Annals Math . Stat ., vol . 39, n' 1, 1968, 209- à minimiser
214 .
69 J . HERTZ, A . KROOH and R. G . PALMER, Introduction to the (A-3) s(oo)-s 2 = Jp(u)lIg(u)-cp( ,u)Il 2 du .
Theory of Neural Computation, Addison- esley, 1991 .
70 APNIK, Estimation of Dependences Based on Empirical Data,
Springer, 1982 . L'application cp construite approxime donc g (u ) . Autre-
71 S . GEMAN, E . BIENENSTOCK and R . DO RSAT, « Neural Networks ment dit, si 4 est un ensemble suffisamment large, trouver
and the Bias- ariance Dilemna », Neural Computation, vol. 4, la sortie <p k la plus élevée revient à trouver la sortie
n' 1, 1992, 1-58 . gk (ou b k ) la plus élevée . O
72 R . J. ILLIAMS and J . PENG, « An Efficient Gradient-Based
Algorithm for On-Line Training of Recurrent Network Trajec-
Démonstration du théorème II
tories », Neural Computation, vol . 2, n' 4, 1990, 490-501 .
'
73 M . L . MINSK and S . A . PAPERT, Perceptrons, MIT Press, 1969. Ici, y/ = K(i, k) si x ( E'1 k . D'après (A-1) nous avons
74 T. M . CovER, « Geometrical and Statistical Properties of donc
Systems of linear inequalities with Applications in Pattern
Recognition », IEEE Trans . Electronic Computers, 14, 1965,
326-334 .
(A-4) s(oo ) = f p(u)IIç(w,u)lI 2 du-

- 2
K K

JP(u/0 k ) Pk K(i,
f
k) cp ( , u) du + E3 ,
k=1 t=1
Annexes
O s 3 ne dépend pas des (p i . On pose cette fois G ; (u) =
• Démonstration des théorèmes I et II . B (u)/p (u), où B ; (u) est définie en (30) . La relation (A-4)
Les démonstrations des théorèmes I et II débutent de la devient alors
même façon, La définition de l'erreur donnée en (40) peut
s ecrire s(~)=JP(u)lIP( u)II2du-

R(N) = = p( , 2
.
k=t
Nk Nk x (n) E-k II In>
- ~ xln>)I1
-2 JP(u)G i ( u)P 1 ( , u) du + E4 .
i=1

404
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches

Minimiser s (oo) revient donc finalement à minimiser Et finalement

(A-5) r(oc) - e 5 = JP(u)IIG(u)- pp( , u)Il 2 du, ( A-12) e(N, oo) = J


f
P (v)ll( ( p, v) - 9(v)ll2 dv + E 2

ce qui montre que cp ( , u) approxime G (u) . Ici encore, si montre que la fonction (p ( , v) approxime la fonction
(D est suffisamment large, pour la plupart des u fixés les g(v), qui est elle-même une estimation de la fonction
applications G (u) et p ( , u) seront minimales pour la bayesienne g (v) = b (v)/p (v) définie en (31) . La conclusion
même composante k . 0 est similaire à celle du théorème I . O

• Démonstration des théorèmes III et I .


Démonstration du théorème I
Les théorèmes 111 et I résultent d'un lemme commun .
Le codage est défini maintenant par (42)
Écrivons l'erreur quadratique (45) sous la forme

yi(n) = K(i, k) pour x (n ) E w k .


e(N, R) =
Nk 1 1 R Ily(n~ 112 On garde la notation (A-10) et on pose G; (u)
X x (n) + Z(n, r) .

k= 1 N R G.r
= B i (u)/p (u ), avec
Nk x "' E -k
K

Posons à présent (A-13) Bi(x)= E K(i,J)pi (X/-j ) .

i=1
Nk
(A-6) Pk =N> Il vient alors d'après (A-9) que

(A-7) tk (u) = Il (" ) - p ( , u) Il' , pour x (n) E w k ,


e(N, oo)= J(v)IIp(v)(I
P 2 dv -
ce qui est possible car la sortie y (n) ne dépend que de k
lorsque x (n) E w k . Quand R tend vers l'infini, nous avons -2 I G (v)p(v)cp ( , v)dv+ e 3 .

- f p z (u)N +u) du .
e(N, oo)= ~, P J P ~, k(x (n)
k=1 k (n)
D'où finalement
X E -k

Soit après le changement de variable v = x (n) + u, et en (A-14) e(N, oc) = p(p


J(v)Il( , v)- - ( ) Il 2
posant
1 (n)
(A-8) P ( / k) = - 1 Pz(v - x ) , • Démonstration du lemme (65) .
Nk
x E irz> ~
k On peut trouver des résultats beaucoup plus généraux
dans 4b , mais dont la complexité de la démonstration est
nous obtenons sans comparaison à celle de ce petit lemme . Pour cette
raison, nous allons le démontrer . Les éléments diagonaux
(A-9) e (N, oo ) p wk~k (v)
E P J(v/) dv . O de i (r) vérifient une relation du type
k=1
(A-15) z (r) µ (r) u = z (r) - z (r + 1) .
Démonstration du théorème III Quant aux éléments extra-diagonaux, ils sont constants, et
Ici, y/(n) =
ôjk si x (n) E w k. On définit les quantités suivan- donc nuls si Z (0) = 0 . Par conséquent, les sommes
tes partielles
K
(A-10) P(v) = Pkp(v/wk) (A-16) S(r) = a E z(p) µ(p)
y,
k=1
P -1

et
sont bornées, puisqu'elles peuvent s'écrire S (r) = z (l) -
(A-11) 9k( )= PkP( /wk)/P( ) z (r + 1) d'après (A-15) . Or, puisque µ (r) tend vers zéro,
la suite z(r) est de signe constant à partir d'un certain
Alors l'expression (A-9) de l'erreur devient rang . Supposons par exemple z(r) -- 0 . Comme µ(r) est
aussi positive, la suite S(r) est par ailleurs croissante . Elle
J(v)IIP(v)Il 2 dv converge donc vers une limite finie . En conséquence,
e(N, oo) = p comme la série des µ (r) diverge, il est nécessaire que 0
soit valeur d'adhérence de z(r) pour que S(r) converge .
- 2 gk( )cpk( ,v)dv+e l . Enfin, z (r) = z (1) - S (r - 1) montre que z (r) est conver-
J k=1 gente . Donc z (r) converge vers 0 . O

405
Traitement du Signal volume 8 - n° 6
éseaux de neurones
- Classification supervisée par réseaux multicouches

• Démonstration du lemme (67) . z(r) ait atteint l'erreur résiduelle e . Alors e - clr°, ce qui
Le lemme (65) aurait montré que la suite (64) converge équivaut à r - c l1 ° Enfin, il est clair que la valeur
vers zéro si les termes en µ(r) 2 ne s'y trouvaient pas . propre imposant la convergence est la plus petite valeur
Considérons de nouveau la suite des éléments diagonaux propre non nulle . O
de Z (r) . Ils sont régis par une récurrence du type
• Obtention du biais (70) .
(A-17) z(r + 1) = z (r) - r (r) z(r) + vg(r) µ(r) , Puisque tous les vecteurs x (n) suivent la même loi, nous
avons d'après (32) :
où cr et v sont constantes, et où g (r) est bornée . Pour la
même raison que précédemment, on peut supposer
z(r) , 0, et le même raisonnement permet de conclure . (A-22) E {p x (N, u)} = h(N)M px(v) dv .
nM ( h(N) I
Plus précisément la somme
Notons - s (N, u) = E {px (N, u)} - p x (u) le biais . Après
(A-18) µ(r) 2 g(r) changement de variable, nous avons les écritures
r 1

étant finie puisque g(r) est bornée, la suite S(r) est e(N, u) = J K(z){px(u-h(N)z)-px(u)} dz
~M
croissante majorée, et donc converge . La série des
µ(r) étant divergente, on en déduit que 0 est valeur ou bien
d'adhérence de z (r) . Comme z (r) converge par ailleurs, 0
est sa limite . O (A-23) e (N, u)
1
• Démonstration du théorème .
- h (N)111 J ~M
K y
h(N) x()x(
) Pu d Pu) .
Il est clair d'après (63), que la convergence de la suite (64)
vers zéro entraîne la convergence de la suite (61) vers Comme px (x) est deux fois dérivable, elle admet le
X - . Il s'agit ici d'approximer la vitesse de cette conver- développement de Taylor- oung à l'ordre deux suivant :
gence . les éléments diagonaux de la suite Z (r) vérifient
(A-17), et si µ(r) = 1/r, nous avons M apx(x)
px (x-hz)=p x (x)-h z; +
ax ;
(A-19) z(r + 1) = z(r) 1 - or/r + vg(r) µ(r) .
2 M
a2 X
Montrons que cette suite est équivalente à r -' . On peut +(x - hz)2 p(h) .
2 .,~=1z'z.-a X ax )
toujours trouver une fonction C , notée n(x), positive et 1
décroissante sur l+, et coïncidant avec z(r) sur N
z (r) = Ç1(r), r e N* . Cherchons à approximer n (x ) . En reportant ce développement dans l'espression (A-23),
Nous adoptons la condition nous obtenons

(A-24) e (N, u) =
(A-20) n (x + 1) - fi (x) = - n (x) Q/x , x e R+ ,
a2 x
h M K(z) zi zJ Px ()
conforme à la définition de la suite z (r) . En appliquant le dz + O (h 3 )
2 ax z axe
théorème des accroissements finis, il vient que

n'(x) fl (x+ 1)-n (x) n'(x+ 1) En effet, le terme d'ordre 1 a disparu car, la fonction
K(u) étant radiale, tous ses moments d'ordre 1 sont nuls .
puis en tenant compte de la décroissance de n(x), nous L'expression du biais est finalement
avons
z
fi' (x)hn(x) . -Qlx n' (x + 1)ln(x) (A-25) e (N, x) > ' + 0(h')
n' (x + 1)/n(x + 1) . 22 , jM v'1 a pxaxl) .
O

Si nous intégrons maintenant entre 2 et n, nous obtenons • Obtention de la variance (71) .


fz(n)/fz(2) 2°ln° n(n+1)41(3), bneN* . Par ailleurs, repartant de la définition (32), nous avons
pour tout N fixé
D'où nous déduisons
2 1 1 M
(A-26) E {px (N, u ) } = 2 2M
(A-21) n(3) 2° 1 il (n) n(2) 2° 1. N h ;,
(n - 1)° n° u --
x; u x1
RM JRMK( h ) K( ) px(x„ x/ )dx dx/ .
La suite z ( n) est donc bien équivalente à n - '. La chute h
vient alors d'elle-même . Soit z(r) une composante diago-
nale quelconque, et X = u 2 la valeur propre correspon- Il est nécessaire de distinguer les cas i --A j et i = j afin de
dante dans la matrice S. . Supposons que r soit tel que prendre en compte l'indépendance statistique des x(n) .

406
Traitement du Signal volume 8 - n° 6
éseaux de neurones
-- Classification supervisée par réseaux multicouches

Après calcul, il vient que Lemme


Soit K le noyau défini par K (u)
(A-27) E {px (N, )2} = E {px (N, u)} 2 -
(2 a)-M/2 exp (- l1 u 11 2/2) . Alors
1 1
N h2M JnM
K
( u-v
h ) px( v ) dv 2
(A-32)
j' J
. .. AK (u) 2 du = 3 4 (2 )
-M
,
1 1 u-v où OK désigne le laplacien de K .
+ K2 % ) p,,(v)dv .
N 1M
h- RM h En effet, par définition de K (u ), il vient que
aK/au,(u) = - u ; K(u)
Après le changement de variable approprié, la variance
s'écrit simplement a 2K/au2(u) = (u7- 1) K(u) .

(A-28) var (N, x) - N ~f M K (z) px (x - hz) dz


1
2
+ L'intégrale (A-32) s'écrit donc

-M
+ 1 1
N hM e K2 (z) pX (x - hz) dz .
(2 Tr )
f -- . J
( u~- M) 2 exp(- ~~uil 2 ) du

En posant le changement de variable v = -,,F2 u, on obtient


Lorsque h (N )tend vers zéro, le premier terme est dominé
par le second, puisque les deux intégrales sont bornées . En fI = 2-M n - M/2
remplaçant p, (x - hz) par son développement de Taylor-
oung à l'ordre 1 dans le second terme nous obtenons
J J (Iv?/2 - M) 2 K(v) dv .

finalement En remarquant enfin que les v ; sont indépendantes d'une


part, et que les moments de K d'ordre 4 et 2 valent
(A-29) var (N, x ) = respectivement 3 et 1 d'autre part, on en déduit le résultat
1 1 escompté .
= N h
M px(x) ~ M K2 (z) dz + O O
1 m
(Nh ' Lemme

• Démonstration de (74)
(A-33) J .. .
J
Op (x) 2 dx = Q -M-4 3 4 (2 ) -M

La relation (72) montre qu'il est nécessaire que h(N)


tende vers zéro et que Nh (N) tende vers l'infini lorsque N Démontrons ce deuxième lemme . Nous avons d'après les
tend vers l'infini, pour que l'erreur e(N) tende vers zéro . définitions de p (u) et de K (u)
Nous nous plaçons donc dans ces conditions, et procédons
de la même manière que dans 7 . Cherchons les valeurs P (X) = Q -M K(x/v),
de e(N) stationnaires par rapport à h en dérivant (72) . donc aussi
Nous avons
ap/axi (x) = - or - M - ' x ; aK/au;(x/Q)

(A-30) h (N)'
J p8M
J (X)2 dx -
Nh
M t J pBM
K 2 (z) dz = 0 .
a 2p/axI(x) = Q -M-2 (x2- 1) a2K/au2(x/a) .

Il vient par conséquent que


Il est facile de vérifier que le seul réel positif satisfaisant
cette équation est celui défini par (74) . Or, d'après (72), (A-34) Op (x) = Q- M - 2 OK (xhr) .
e(N) est infinie en h = 0 et en h = co . Cet unique point
stationnaire admissible est donc bien un minimum . O Il suffit alors de faire le changement de variable x = Qy
pour pouvoir conclure .
Par le même raisonnement, on montrerait aussi que
• Démonstration de (79) .
Dans notre cas particulier où p (xlx e E (p)) est une
gaussienne centrée en w (p) et de variance (p)2 I, nous Lemme
avons en utilisant (73) et (74)
(A-35) .. . K(u)2 du = (2 Ç) -M .
2 (z) dz J J

(A-31) h(a(p)) pr 4 = M JuaM K


Il suffit à présent de remplacer dans (90) les intégrales par
Ap (x/x E E (p»2 dx leur valeur pour obtenir
M

(A-36) h(a(p))OP ° a(p)


où 0 désigne l'opérateur laplacien . Pour conclure, il est 3 M (p)- M -4
plus clair de montrer les trois lemmes suivants . d'où (79) découle . O

407
Traitement du Signal volume 8 - n° 6

Vous aimerez peut-être aussi