Decouverte Spy Analytiqye
Decouverte Spy Analytiqye
Decouverte Spy Analytiqye
Classification supervisée
par réseaux multicouches( ,)
Supervised Classification
b y Multilayer Networks
RÉS MÉ
Amont, département de Sophia Antipolis . Activités : théorie du signal,
algorithmique numérique adaptative, détection et localisation de
signaux sonar, réseaux de neurones. Il peut être joint par courier
électronique à l'adresse comonNmirsa .inria.fr.
Le Perceptron MultiCouche (PMC) est un des réseaux de neurones les estimateurs de densité, dont les propriétés remarquables sont résumées,
plus utilisés actuellement, pour la classification supervisée notamment . il est possible de construire un réseau de neurones stratifié réalisant la
On fait dans un premier temps une synthèse des résultats acquis en classification bayesienne . Cette technique de discrimination directe
matière de capacités de représentation dont jouit potentiellement semble être supérieure au PMC classique à tous points de vue en dépit de
l'architecture PMC, indépendamment de tout algorithme d'apprentis- la similarité des architectures .
sage . Puis on montre pourquoi la minimisation d'une erreur quadratique
sur la base d'apprentissage semble être un critère mal approprié, bien
que certaines propriétés asymptotiques soient aussi exhibées . Dans un MOTS CLÉS
second temps, l'approche bayesienne est analysée lorsqu'on ne dispose Neurone, perceptron, rétro-propagation, classification, Bayes, discrimi-
que d'une base d'apprentissage de taille finie . A l'aide de certains nation, apprentissage supervisé, représentation, noyau de probabilité .
ABSTRACT
The Multi-Layer Perceptron (PMC in French) is one of the neural phasized, it is possible to build a feed forward neural network implement-
networks the most widely used, particularly for supervised classification . ing the bayesian classification . This technique of direct discrimination
First, existing results on general representation capabilities enjoyed by the seems to perform better Chan the classical MLP in all respects despite of the
PMC architecture are surveyed, independently of any learning algorithm . similarities of the architectures .
Then it is shown why the minimization of a quadratic error over the
learning set seems an awkward optimization criterion, though some
asymptotic properties are also proved . In a second stage, the bayesian KE ORDS
approach is analyzed when leaming sets offinite size are at disposai. ith Neuron, perceptron, back-propagation, classification, Bayes, discrimi-
the help of certain density estimators whose basic properties are em- nation, supervised learning, representation, probability kernel .
387
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
f m Xm B f (w t x - 0 )
m=1 / =
388
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
E dans F 0, 1 K qui, à tout vecteur d'observation x, plus ou moins intuitives permettant d'anticiper les capaci-
associe le K-uplet des probabilités d'appartenance de x à tés du réseau PMC à représenter tel ou tel type d'applica-
chacune des classes k , notées p(x, k) . tion, notamment booléenne . n bon exemple de ce genre
Le problème de l'apprentissage supervisé consiste à identi- de présentation est l'article de Lippmann 37 où les
fier cette application à partir d'un ensemble d'exemples, arguments avancés sont de nature uniquement expérimen-
A (N) = {x (-n), y("), 1 s n - N } , appelé base d'apprentis- tale, tandis que 41 et 39 en sont de moins convaincants .
sage . Deux problèmes peuvent être abordés . Le premier Sur le plan théorique, le premier résultat susceptible de
est celui de la représentation exacte de l'application nous intéresser remonte à 1957 avec le théorème de
Kolmogorov .
(n) = (p(x(n)) n e {1, . . . . N} .
(4) y (6) Théorème de Kolmogorov 32 .
Ce problème est rarement rencontré en pratique (mémoi- Soit cp (x) une application réelle continue quelconque de
res associatives par exemple 2 ) : il consiste à représenter 0, 1 M dans 0, 11, et {f pq , 0--q--2M, 1 --p--M} des
sans erreur une application à l'aide de fonctions imposées applications continues bijectives sur 0, 1 , dépendant de
(c'est un codage sans perte d'information) . Pour ce faire le M (elles sont donc fixées lorsque M est fixé) . Alors il
réseau sera en général de grande taille (comparable à N) . existe des fonctions continues X q , dépendant de p, telles
Le deuxième problème est celui de l'approximation d'une que
application avec un niveau de tolérance donné et le
2M M
minimum de cellules
<p(X)= O Xq fpq(Xp)) .
Il existe aussi le problème dual du précédent, à savoir celui La difficulté d'utilisation de ce théorème vient du fait que
de la représentation la plus fidèle possible avec un nombre les fonctions X q dépendent de p, ce qui est contraire à
de cellules donné . Ces problèmes seront abordés de notre définition du neurone formel où les fonctions de
différentes façons dans cet article . transition sont fixées à l'avance . Ce théorème a été
sensiblement amélioré dans les années 60 avec le résultat
Dans le chapitre qui va suivre, on fera une synthèse des
résultats connus concernant les capacités de représentation suivant .
de l'architecture PMC à trois ou quatre couches, en ne
(7) Théorème de Sprecher 59 .
tenant compte que des contraintes imposées par les
définitions précédentes . Dans un troisième chapitre, on Soit p(x) une application réelle continue quelconque de
s'intéressera au choix du critère d'optimisation et aux 0, 1 M dans 0, 1 , X une constante et f une application
conséquences qu'il entraîne en classification . Dans le lipschitienne sur 0, 1 de rapport inférieur à 1, fixées à M
chapitre quatre, les performances de l'algorithme fixé. Alors il existe une fonction continue X, dépendant de
cp, et un nombre rationnel e tels que
d'apprentissage le plus répandu pour le PMC seront
analysées . ne alternative sera proposée dans le chapitre 2M M
cinq, avec une architecture légèrement différente, et un (P(X)= X Xp f(X,+eq)+q
algorithme d'apprentissage approprié . Enfin, un problème 9=~ P=~
de classification binaire construit à l'aide de simulations
sera traité par les deux méthodes à des fins d'illustration Ici, seule la fonction X dépend de la fonction p, ce qui est
dans une dernière partie . un mieux, mais rend le théorème malgré tout inapplicable .
De plus, ces deux théorèmes ne donnent aucune idée de
procédé constructif permettant de calculer les paramètres
intervenant dans la décomposition 24 . Ceci s'améliore un
peu avec le théorème suivant, dont la démonstration
utilise les propriétés de la transformée de Fourier .
2. Capacités ultimes de représentation de
(8) Théorème de Irie et Miyake 27 .
l'architecture PMC
Soient p(x) une application réelle continue quelconque de
R M dans 0, 11, et f une application fixée de R dans
On passe en revue dans cette partie les capacités qu'a le 0, 11, toutes deux absolument intégrables . Alors il existe
PMC à représenter des applications quelconques lorsque une fonction poids B (w, v) définie sur R' x R telle que
son nombre de cellules peut être arbitrairement grand .
C'est en cela qu'elles sont ultimes . ne architecture
v) dw
incapable de représenter une application p avec une
infinité de cellules le sera a fortiori avec un nombre fini .
(P (x) = J
f B (w, v) f (w x + dv .
389
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
h(x)= aj f(w~x+0 .), 2 .3. PROCÉD RES CONSTR CTI ES DANS LE CAS
BOOLÉEN
i=1
390
Traitement du Signal - volume 8 - n° 6
éseaux de neurones
d'hypercubes ; elle permet de construire n'importe quelle convexes (et même de pavés plus simplement) avec une
fonction booléenne donnée définie sur RM avec un nombre précision arbitraire e . Il suffit pour cela d'extraire un sous-
réduit de cellules . La fonction de transition f désigne dans recouvrement fini P d'un recouvrement de 1K par des
cette section la fonction échelon unité (donc croissante polyèdres convexes de diamètre £ . Or un moyen permet-
discontinue) . tant de construire un polyèdre quelconque avec un PMC à
Les résultats énoncés ci-dessous sont immédiats . Avec une trois couches a été décrit plus haut . En adjoignant
cellule, on peut réaliser simplement une couche supplémentaire réalisant l'opéra-
tion de réunion, on obtient le résultat escompté . Ce
(13) la synthèse d'une fonction indicatrice du demi espace
résultat s'applique à tout fermé borné de R M .
{w x + 6 , 0 } avec
Exemple
g : x€ M-->g(x)=f(w x+e) On se propose de montrer dans cet exemple comment
représenter la fonction indicatrice d'un tétragone non
(14) la synthèse de la complémentation grâce à la relation convexe, représenté sur la figure 4 . On construit les quatre
g (x) indicatrice d'un ensemble D r> hyperplans de la deuxième couche avec quatre cellules
/ n= .fy,-N+0,5/
n=1 „=1
N
est la fonction indicatrice de I n.
! D
n=1
Par conséquent, la fonction indicatrice de tout polyèdre
convexe peut être représentée exactement par un PMC à
trois couches, la couche cachée réalisant la synthèse des
hyperplans-frontière, et la troisième couche réalisant leur
intersection . Si le polyèdre a P côtés, alors P + 1 cellules
actives sont nécessaires dans la couche cachée .
Supposons maintenant que y,,, 1 n < N, désignent N 'igure 4. - n exemple de domaine dont on peut construire la fonction
variables booléennes . Alors toute fonction booléenne des indicatrice avec un PMC à quatre couches.
y,, peut se décomposer sous Forme Normale Conjonctive
(FNC)
(17) 9(y) = l { ~ t
P =I iEI(p) JeJ(p)
i91
T raitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
On cite parfois le « ou exclusif » (XOR) comme un 25 , 35 , 36 . Pour le codage (24), on définit la corres-
exemple pathologique . En réalité, cette opération boo- pondance
léenne ne présente aucune difficulté particulière, et n'est
X(n) E
qu'une application banale de la procédure décrite plus (25) wJ p yk"> = Sjk .
haut . Comme notre tétragone contient les points (0, 1) et
(1, 0) du plan R2, à toutes entrées a et b de {0, l} la sortie Lorsque les sorties sont les probabilités p (x, w k ), L'ensem-
délivrée sera a x b. L'exemple ci-dessus est donc une ble F est de cardinal infini et
façon de réaliser le XOR lorsque les entrées sont booléen-
nes . Mais il y a bien entendu une infinité de façons de (26) F 0, 1 K .
construire le ou exclusif avec cinq cellules actives (PMC à
Contrairement à ce que l'on pourrait croire au premier
quatre couches) en construisant la fonction indicatrice
abord, le choix de ce codage est absolument crucial pour
d'un cône contenant les points (1, 0) et (0, 1) et excluant
certains critères d'optimisation, et en particulier pour le
les points (0, 0) et (1, 1) .
critère MEQ qui va être analysé ci-après . Les théorèmes
de la section 3 .5 l'illustrent bien .
2 .4 . REMARQ ES
puisqu'apparemment une infinité de solutions existent? (27) D = Arg Min Il y (") - ~p( , X(n) )II 2 .
Faut-il chercher les fonctions les plus lisses possible, selon
un certain critère 50 ? Quelles sont les performances de Ce critère présente un inconvénient majeur . En effet, on
la solution la plus utilisée à l'heure actuelle pour l'appren- voudrait en réalité minimiser il y(n)-cp( , x(n )II pour
tissage du PMC ? Les sections qui vont suivre vont des observations y(n) qui n'appartiennent pas à la base
aborder ces questions . d'apprentissage, mais à une « base de généralisation »
inconnue, ce qui apparaît plus clairement dans une appro-
che statistique que dans (27) .
392
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
Autrement dit, puisque p (x) ne dépend pas de w i , on peut (37) e(N) E p ,(N, u) - px(u) 2 du }
de manière équivalente affecter x à la classe pour laquelle {JR M JJ
la quantité ci-dessous est la plus grande tend vers zéro quand N --> oo . On supposera dorénavant
que les conditions (33) à (36) sont satisfaites .
(31) b i (x) = P i p(x/w i ) .
C'est sous cette dernière forme que le critère bayesien est 3.5 . LIMITATIONS INTRINSÈQ ES D CRITÈRE
le plus souvent utilisé . Notons au passage que b i (x) n'est MEQ
autre que la probabilité conjointe p (x, wi ), probabilité
d'observer un vecteur d'entrée x issu de la classe Le but de cette section est de vérifier mathématiquement
wi . l'assertion
Pour définir un classifieur bayesien, il est donc nécessaire « Les sorties du PMC tendent vers les probabilités
(39)
d'estimer les densités conditionnelles p (x, wi ), qui sont en bayesiennes lorsque la taille de la base d'apprentis-
générai inconnues . L'objet de la section suivante est de sage tend vers l'infini . »
proposer des estimateurs dont les performances sont
remarquables pour des échantillons de taille limitée . Cette Ici encore, on analyse les limites « ultimes » du critère
section a également pour fonction d'introduire les nota- MEQ, c'est-à-dire dans le cas le plus favorable où l'algo-
bons nécessaires à l'étude asymptotique des performances rithme de minimisation MEQ atteint le minimum absolu
du PMC . de l'erreur. Les quatre théorèmes suivants (dont trois sont
originaux) ont été démontrés en annexe .
393
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
Posons alors
4. L'algorithme de Rétro-Propagation du Gradient
(RPG)
(44) A (N, R A r (N) .
4.1 . DÉFINITION DE L'ALGORITHME
Théorème III L'algorithme RPG a été découvert indépendamment par
Soit A 0 (N) = {x (n), y (n) , 1 n N} une base d'appren- plusieurs auteurs, le premier remontant semble-t-il à 1973 .
tissage de taille finie contenant N k exemples (N k ~ 0) dans Par ailleurs, il existe 5 de très fortes similarités entre
chacune des classes, et A (N, R) sa version étendue l'algorithme de RPG et l'algorithme de iterbi, utilisé
conformément à (44) . On suppose en outre que le codage pour l'identification des modèles de Markov cachés 51 ;
adopté est celui de (25) . Alors lorsque R tend vers l'infini, de plus, cet algorithme a été découvert quelques années
la solution p ( , .) obtenue en minimisant l'erreur eucli- plus tôt (vers 1966) . La présentation faite ci-après de
dienne l'algorithme de RPG est similaire à celle de 34 , et est à
notre avis la plus rationnelle ; la présentation de l'algo-
il y (n) rithme RPG de Rumelhart 57 est également à recomman-
(45) £ (N, R) - p (%, x (n) + z (n, r)) il 2 der.
Q -1
Considérons un réseau PMC à Q couches, Q > 2, et une
tend vers la meilleure approximation dans t de la solution base d'apprentissage A 0 (N) {x (n), y (n) , 1 n-N} .
bayesienne équipénalisée (31) construite à partir de l'esti- Notons m (q) le nombre de cellules dans la couche q, et
mateur nucléaire (32) de noyau p z (u) . s (n) (q) le vecteur de dimension m (q) délivré à la sortie de
la couche q . Avec ces notations, m (Q) = K, m (1) = M,
Théorème I et x (n ) = s n ) ( 1) . Conformément à (2), la structure du
réseau est telle que
Dans les mêmes conditions que le théorème ci-dessus, et
lorsque les sorties y (n ) sont définies par le codage (42), la
(50) s (n) (q + 1) = .Î ( (q) S(n)(q)) ,
solution obtenue en minimisant l'erreur £ (N, R) tend vers
la solution bayesienne générale (30) où les densités sont où on a supposé que toutes les couches avaient la même
394
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
fonction de transition pour simplifier (ce n'est nullement et pour 1 < q < Q
nécessaire sur le plan théorique), ici supposée dérivable .
Dans (50), la matrice (q) est de dimension m (q + 1) x
m (q ) . L'apprentissage du PMC peut être considéré m(q+1) m(q)
comme un problème d'optimisation sous contraintes .
X1' (n, q) wjr(q)f' w»(q) Sj(n) (q))
Supposons que l'on veuille minimiser la distance eucli-
dienne entre les sorties désirées et les sorties réellement
obtenues qui s'écrit d'après (53)
N
où les vecteurs X (n, q) sont de dimension m (q + 1) et à la fin de chaque cycle . L'équation (53) exprime
z (q) en fonction de A (q ), tandis que (56) exprime
désignent les multiplicateurs de Lagrange associés aux
contraintes (50) . ne condition nécessaire pour qu'un X (q - 1) à partir de z (q ) . Ces équations permettent donc
obtenir par récurrence descendante les quantités X (q) et
point soit minimum local de L est qu'il soit stationnaire
z (q) pour 1 q < Q, la première valeur . X (Q - 1), étant
selon toutes ses composantes (toutes celles figurant entre
accolades dans (51)), ce qui donne en plus de (50) deux donnée par (55) . La « rétro-propagation » de ces grandeurs
familles d'équations supplémentaires ; auxiliaires permet de modifier les poids conformément à
(57) puisque toutes les sorties s( f(017) ont été calculées
(52) pendant la propagation directe .
dq, r, j , 1 q<Q, 1 r m(q), 1 j -m(q+ l) En pratique, les exemples x (n ), y(n ) sont présentés au
aLlawj ,(q) = réseau séquentiellement, de sorte qu'il est aussi possible
de remettre à jour les matrices (q) à chaque fois que n
m 9) 1
- est incrémenté, sans attendre la fin du cycle . Dans ce cas,
X1(n, q) srn)(q),f' w»(q) si (n) (q)'
n=1 i =1
la remise à jour (57) prend la forme (que l'on peut
qualifier de gradient stochastique) suivante
Soit, en posant
(q) - (q) + µz (n) (q) s n ) (q) ,
m(q) l
( 53 ) zj(n) (q) X 1 (n, q) f' wji (q) si(n) (q) J pour chaque exemple de chaque cycle . On augmentera
=1 considérablement la vitesse de convergence de l'algorithme
en ajustant la valeur du pas µ (appelé parfois taux
on obtient le gradient d'apprentissage) à sa valeur optimale . Pour ce faire,
comme la fonctionnelle à minimiser n'est pas fonction
(54) aL/awjr (q) - zj( n ) (q) s, n) (q) ,
explicite de µ, on peut utiliser des méthodes de réduction
n=1 d'intervalles ou d'interpolation polynomiales 20 . ne
autre façon encore plus performante mais plus coûteuse
dj,q,r/1 q<Q, 1 j=m(q+1), 1 r- m(q) . est d'utiliser des algorithmes de type quasi-Newton 20 .
n excellent article en présente les avantages (rapidité) et
Par ailleurs l'annulation des dérivées partielles de L par inconvénients (coûts) dans le cadre du PMC 65 . Ces
rapport aux s, n) (q), n, j, 1 n< N, 1 r m (q), fournit méthodes sont parfois appelées méthodes du second ordre
pour q = Q 47 . Pour information, l'application de ce type d'algo-
rithme d'apprentissage a été récemment rapportée dans
(55 ) X(n,Q-1)=-2(s(n)(Q)-y(n)), 63 , 28 .
395
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
4 .2. ITESSE DE CON ERGENCE DES POIDS PO R où le terme g (N) (µ) est un polynôme de degré N - 2 en µ,
N RÉSEA LINÉAIRE dont on peut exprimer le premier terme
396
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
N J 2 (x) dx
et vaut
5. Discrimination bayesienne directe
(75) e(N)mini =( 4+ 1) 1 1 K 2 (z) dz .
hM J M
Quelques propriétés des réseaux de neurones en couches
ont été passées en revue dans les sections précédentes . On
La relation (74) donne la valeur de h(N) à choisir, à
a notamment vu pourquoi il est raisonnable (mais opti- condition de connaître J (x) et K (x) . La seconde constata-
miste) de croire que ces réseaux minimiseront la probabi-
tion que l'on peut faire est que l'ordre de grandeur de
lité totale d'erreurs de classification . Montrons à présent e(N) n'est pas affecté par la forme exacte de K(x) pourvu
comment la solution bayesienne, censée minimiser cette
que les conditions de la section 3 .4 soient respectées .
probabilité d'erreur par définition, peut elle aussi être Choisissons (arbitrairement) le noyau gaussien standar-
implantée (mais de façon approchée il est vrai) sur un disé
réseau de neurones en couches .
T )- M/2
(76) K(v) = (2 exp(- il vil 2/2) .
5 .1 . CHOIX OPTIMAL DE LA S ITE h(N)
L'estimateur (32) est alors un mélange gaussien, qui
Dans cette section, on propose une façon de choisir la permet de bien représenter la plupart des densités obser-
suite h(N), basée sur la minimisation de l'erreur quadrati- vées dans le monde réel 22 . La relation (74) devient dans
que (37) . Afin d'écrire explicitement cette erreur, il faut ce cas
reprendre en détail les calculs de Cacoullos, et en particu-
lier calculer le biais et la variance de l'estimateur (32) . (77) h(N) M2
- - ( ti ) M
pr+a
Sous les hypothèses énoncées dans la section 3 .4, et N Ç
Lxp (x )2 dx
lorsque N tend vers l'infini (et donc lorsque h tend vers J nM
zéro), les résultats asymptotiques suivants peuvent être
obtenus où Op désigne le laplacien de p .
2 M a2
E px(x )
(70) £ ( N x) = h v )
2 1 ax, axe + O (h 3
5 .2 . APPRENTISSAGE PRATIQ E D' NE DENSITÉ
pour le biais, et DE PROBABILITÉ
(71)
L'estimateur (32) est peu pratique si la base d'apprentis-
var (N, x) hMpx(x) K 2 (z) dz + O N i/ sage est de grande taille . Si l'on veut que la procédure
= N f~M hm proposée soit compétitive face au PMC, il est nécessaire
d'imposer une limite aux exigences mémoire de notre
pour la variance . Les démonstrations sont données en algorithme d'apprentissage . Or avec (32), il est nécessaire
annexe . Or l'erreur quadratique, puisqu'elle vérifie de mémoriser toute la base d'apprentissage, comme c'est
le cas dans 58 par exemple . Afin de rendre une telle
e(N) = var (N, u) + eN, u 2 du . solution réalisable, on peut effectuer une compression de
J fM données, par agglomération automatique de l'ensemble
{x (n), 1 n N } en P groupes, E (p), de centroïde
s'écrit par conséquent
w (p) et contenant chacun a (p) éléments . De plus, si la
vraie densité cherchée, pX (u) est effectivement un mélange
h(N)a
(72) e(N) = J(x)2 dx + gaussien, elle sera bien approximée par un estimateur du
M
type de (32) avec le noyau gaussien (76) pourvu que le
nombre de modes de la densité px (u) soit inférieur ou égal
+N MJ~
h M K 2 (z)dz+O(h s )+O~N
au nombre maximal de modes de l'estimateur . Supposons
hm 1 )
que les contraintes matérielles nous imposent un nombre P
397
Traitement du Signal volume 8 - n° 6
éseaux de neurones
(81) p(u) (2 ir) - M/2 1 1 x Similairement, si on avait défini un noyau radial à partir de
a(p) p=, h(a(P))M
la fonction sigmoïde
x a(p) exp(- il u - w(p)Il 2 1 2 h(a(p))2 ) ,
5 .4 . ALGORITHME D'AGGLOMÉRATION
398
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
P
- xll 2 Œ1,x= 0, 2 , Œ(, y = 0,2, m l ,, =0, y,=0 ;
£ Ilw(p)
P=1 -f(p) Œ2,x =0,2, Œ 2,y =0,2, nZ1,x= 0 , mi,y =2 ;
Œ3,x =0,2, Œ 3,y =1, m i , X =0,2, m
où E (p) est le groupe engendré par les w(p) à chaque
itération . Rien n'assure que le minimum atteint soit L'échantillon sur lequel on travaille est de taille 50 pour
absolu, mais cela n'a pas forcément une grosse importance . chacune des classes, et est représenté en figure 7 . Afin de
Cela veut simplement dire que l'on peut approximer plus
finement la base de données avec le même nombre de
groupes . La version récursive proposée peut se décrire
comme suit 10 .
(90) Algorithme des Nuées Récursives
• Les centroïdes w (p) sont initialement fixés à des valeurs
arbitraires, par exemple équiparties sur une grille .
• Les effectifs a(p) valent initialement 1, bien que les
groupes soient encore vides .
• On présente un nouveau vecteur x .
• On sélectionne le vecteur w(p {x} ) le plus proche de x .
• On remet à jour l'ensemble des centroïdes par la règle
d'évolution
Dans cet exemple, des individus caractérisés par les Figure 7 . - Échantillons de taille 50 générés par simulation et utilisés dans la
densités suivantes ont été générés . Pour les individus de la partie 6 ; (a) classe 1, (b) classe 2.
399
Traitement du Signal volume 8 - n° 6
éseaux de neurones
- Classification supervisée par réseaux multicouches
mesurer les performances de la classification réalisée on • Le facteur d'apprentissage µ a été pris égal à 0, 1
calcule l'ensemble des probabilités d'erreurs, que l'on initialement, puis
convient de ranger dans une matrice dite de confusion . En
accord avec (28), cette dernière est définie par : a été diminué exponentiellement si l'erreur augmen-
tait : µ .- µ/2 ; dans ce cas l'itération suivante n'a
C i1 = prob (choisir w i /x E wj ) . pas pris en compte la valeur de obtenue,
a été augmenté si l'erreur décroissait : µ F-- µ * 1,1,
Cette matrice est calculable exactement, puisque nous l'apprentissage s'arrêtait dès que le pas était inférieur
connaissons les vraies densités . Elle a pour expression, à 10 -7 .
pour un classifieur décidant w i sur un domaine D ;
• La fonction de transition utilisée est celle définie par
(85), avec un facteur de dilatation de 5, c'est-à-dire
(95) C (i , j) = p ( x/wj ) dx .
J f (x) = 1 + s - s exp (- sax) l2, avec s = sign (x) et
a=5 .
Si on convient de poser d i (u) la fonction indicatrice du • Dix exécutions complètes de l'algorithme ont été faites
domaine D i , l'expression (95) s'écrit à partir de dix valeurs initiales tirées aléatoirement, et
seule celle conduisant à la confusion la plus faible a été
conservée .
(96) C(i, j) = d i (x) p(x/wj ) dx .
Jt Pour le PMC (3, 9, 1), l'erreur est devenue stationnaire à
partir du 19-ième recyclage, et ce jusqu'à ce que le pas
Pour un classifieur binaire bayesien, on peut notamment atteigne µ - 10-7 au recyclage 40 . La matrice de confusion
écrire apparente obtenue sur l'ensemble d'apprentissage (en
effectuant un comptage simple non pondéré par les
1 densités) avait alors atteint la valeur
(97) di (x) sign {px (x) - p, (x)} + 1 ,
2
Apmc
0 , 97 0 , 13
(101) (s, 9, 1) =
où sign (z) E {+ 1, - 1 }, et où les p ; (x) approximent les 0,03 0,87 /
p (x/wi ) . En utilisant notre algorithme d'apprentissage
décrit dans la section 5, on obtient la matrice de confusion Les domaines de décision correspondants sont représentés
ci-dessous après 2 recyclages, il = 0, 99, et avec P = 6 figure 8 c . Pour le PMC (4, 5, 2, 1), l'apprentissage a été
groupes dans chaque classe : stoppé à l'itération 77 . La matrice de confusion apparente
sur l'ensemble d'apprentissage avait alors atteint la valeur
C - 0,916 0,160
(98)
eS 0,084 0,840 (101)
( 00,95 0,13)l
A pmc (4, 5, 2, 1) =
05 0,87/
Sur les 6 groupes, 4 seulement ont été retenus dans la
Les domaines de décision correspondants sont représentés
classe 1, les 2 groupes restants ayant des effectifs nuls au
terme de l'algorithme d'agglomération . La confusion (98) figure 8 d . Les matrices de confusion réelles pour ces deux
doit être comparée à la confusion ultime que l'on obtient classifieurs ont été estimées à (en utilisant les vraies
avec le classifieur bayesien idéal, i .e ., celle que l'on densités, qui sont connues dans le cas de simulations)
obtient en remplaçant p i (x) par p (x/wi ) dans (97) 0,775 0,266
(102) Cpmc (s, 9, 1) =
/0,864 0, 024 0,225 0,734
(99) Cideal =
0,136 0,976 0, 600 0,270)
Cpmc (4, 5, 2, D
= ( 0,400 0,730
La figure 6 donne une vue générale de l'ensemble du
réseau bayesien qui serait utilisé dans cet exemple . Les On a supposé que les exemples étaient bien classés en
figures 8 a et 8 b représentent les domaines de décision dehors du pavé - 2,5, 4 x - 2,5, 41, ce qui est évidem-
bayesiens idéaux, et bayesiens estimés à travers (81) et ment un peu optimiste, surtout pour le PMC ; les probabi-
(97), respectivement . lités d'occurrence des exemples sont par contre faibles à
l'extérieur de ce pavé, de sorte que le biais de la confusion
Ensuite, l'algorithme RPG a été appliqué d'une part à un
reste raisonnable .
PMC (3, 9, 1), ayant 3 cellules d'entrée, 9 cellules cachées
et 1 cellule de sortie, et d'autre part à un PMC (4, 5, 2, 1)
pour lequel l'entrée il x il 2 a été rajoutée . L'apprentissage a
été exécuté dans les conditions suivantes
(100) 7. Conclusions
• La valeur initiale des éléments des matrices (q) a été On retiendra que le PMC à 3 couches peut approcher
choisie aléatoirement dans l'intervalle - 1/5, 1/5 . n'importe quelle application, mais avec un nombre grand
• La version stochastique du RPG a été utilisée . de cellules, et pourvu que cette application soit connue .
400
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
(c) (d)
Figure 8 . - Domaines de décision obtenus sur une grille de 29 x 29 points ; la (c) Solution obtenue avec un PMC (3, 9, 1) . (d) Solution obtenue avec un
décision en faveur de la classe 2 est représentée par la zone noircie . (a) PMC (4, 5, 2, 1), en adjoignant aux 3 entrées précédentes l'entrée
Solution bayesienne idéale, obtenue avec les densités exactes . (b) Solution ~Ç x ÇÇ 2
bayesienne, obtenue avec les estimateurs de densité à noyau radial variable .
Lorsque l'application n'est connue qu'à travers N exem- grand nombre de recyclages bruités) la solution Baye-
ples, l'apprentissage du PMC par RPG nécessite du sienne (théorèmes I à I , section 3) . Pourtant, même la
doigté . Ses performances en classification sont sensibles à convergence de l'algorithme RPG vers un minimum local
la valeur initiale que l'on donne à l'ensemble des paramè- peut prendre un temps arbitrairement long (théorème ,
tres , comme nous l'avons montré dans la section 6 . De section 4) . Ces limitations de l'algorithme RPG ont motivé
plus, dans le cas favorable où la RPG converge vers le la recherche d'une autre procédure . La seconde procédure
minimum absolu du critère d'erreur, le PMC ne délivre d'apprentissage que nous avons proposée est basée sur
qu'asymptotiquement (pour de grandes bases ou pour un l'estimation des densités conditionnelles, et soulève moins
401
Traitement du Signal volume 8 - n° 6
éseaux de neurones
- Classification supervisée par réseaux multicouches
de difficultés pratiques (section 5) . En outre, la complexité Kaufmann, ainsi que dans les actes des International Joint
de sa mise en oeuvre est beaucoup plus faible pour des Conférences on Neural Networks, de 1988 à 1991, publiées
performances plutôt meilleures . par IEEE .
En conclusion, l'approche bayesienne, bien que plus Pour les problèmes de minimisation de risque empirique,
standard, semble à nos yeux plus maniable et pour un expert recommande le livre de apnik 70 . En ce qui
l'instant moins coûteuse en nombre d'opérations que la concerne les relations entre les réseaux de neurones et
RPG . De plus, cette approche peut être elle aussi implan- l'approche Bayesienne, les rapporteurs indiquent aussi
tée sur un réseau stratifié de cellules neuro-mimétiques . 71 et 72 .
Cette solution pourrait inspirer un certain nombre Enfin, l'approximation de fonctions booléennes est abor-
d'améliorations à apporter aux algorithmes d'apprentis- dée dès 1970 dans 73 , et les approximations polyédrales
sage pour les réseaux en couches dédiés à la classification . dans 74 .
Par ailleurs, un des problèmes encore ouvert est celui de
Manuscrit reçu le 7 septembre 1991 .
l'évaluation des performances de généralisation lorsque
seulement un nombre limité d'exemples est disponible .
Certains auteurs abordent différentes facettes de ce pro-
blème dans 21 , 18 , 33 . Ce problème ne s'est pas
imposé à nous dans ce travail puisqu'il s'agissait de
simulations (il était possible d'utiliser les vraies densités BIBLIOGRAPHIE
pour calculer les matrices de confusion) . L'expression (96)
suppose en effet que les densités p ( x/ ,) sont connues . 1 M . ABRAMO ITZ and I . A . STEG N, Handbook of Mathematical
Dans certains utilitaires informatiques actuellement dispo- Functions, Dover Publ . Inc ., New ork, 1965, 1972 .
nibles, notamment Soma 15b ou Neuroclass 8 , les 2 S . AMARI, « Mathematical Foundations of Neuro-Computing »,
performances sont estimées par tirage aléatoire de parti- Proceedings of the IEEE, special issue on neural networks,
tions dans l'ensemble des données : dans chaque tirage September 1990, 1443-1463 .
une partie sert pour l'apprentissage, l'autre pour l'estima- 3 E . B . BA M, « A Proposai for More Powerful Learning Algo-
tion des performances . Ce procédé n'est pas le meilleur, rithms », Neural Computation, 1, 1989, 201-207 .
mais a l'avantage d'être simple à mettre en oeuvre . 4 E . B . BA M, « The Perceptron Algorithm is Fast for Non
D'autres utilitaires incluent des procédés similaires, mais Malicious Distributions », Neural Computation, 2, 1990, 248-
260 .
aucun ne semble à l'heure actuelle totalement satisfaisant .
4b A . BEN ENISTE, M . MÉTI IER et P . PRIO RET, Algorithmes
Des recherches sont en cours autour de ce problème, qui
adaptatifs et approximations stochastiques, Masson, 1987 .
ne date pas d'aujourd'hui d'ailleurs, puisque l'obtention
4c A . BL MER et al ., « Learnability and the apnik-Chervonenkis
de résultats fiables ne peut se passer d'une prédiction de Dimension », Journal of the ACM, vol. 36, n'4, October 1989,
performances . 929-965 .
4d J. BRIDLE, « Probabilistic Interpretation of Feedforward Classi-
fication Network Outputs with relationships to Statistical Pat-
tern Recognition », Neurocomputing, Fogelman and Hérault
editors, NATO ASI series, vol . F68, 1990, Springer erlag,
227-236 .
8. Remarques 5 H . BO LARD and C . J . ELLEKENS, « Links between Markov
Models and Multilayer Perceptrons », Advances in Neural
Pendant la rédaction du présent article, nous avons Information Processing Systems 1, Morgan Kauffmann, 1989,
502-510.
remarqué la parution de deux communications dont le 6 P . B RRASCANO, « Learning ector Quantization for the Proba-
contenu rejoint certains de nos résultats . Dans 6 , un bilistic Neural Network », IEEE Trans . Neural Networks,
algorithme d'agglomération (quantification vectorielle) est vol . 2, n' 4, July 1991, 458-461 .
proposé en vue de rendre utilisable le réseau de classifica- 7 T . CACO LLOS, « Estimation of a Multivariate Density », Annals
tion probabiliste 58 ; cet algorithme est une alternative à of Inst. of Stat. Math ., 18, 1966, 178-189 .
notre algorithme 10 exposé en section 5 .5 . Dans 29 , la 8 J . G . CAILTON, F . ALLET et al., « Neuroclass, Manuel d'utilisa-
convergence de l'erreur quadratique vers les probabilités tion », version 1 .1 pour stations S N, Rapport Thomson LCR,
empiriques a été abordée, à première vue d'une façon 9 août 1990 .
sensiblement différente de la nôtre . 9 G . CELE X and D . DIEBOLT, « Identification of a densifies
mixture and classification », INRIA Report, 1984 .
Par ailleurs, les rapporteurs sur l'article ont suggéré
10 P . COMON, « Distributed bayesian classification », Revue Techni-
tardivement un certain nombre de références complémen- que Thomson CSF, numéro spécial Reconnaissance de Formes
taires que l'auteur n'a pas voulu passer sous silence, bien et Réseaux Neuronaux, vol . 22, n' 4, December 1990, 543-562 .
qu'elles lui soient peu familières pour la plupart . 11 P . CoMON, « Supervised Detection and Estimation », Esprit
Le livre 69 semble exceptionnellement clair et rigoureux, BRA. orkshop on Neural Networks and 4rtificial ision,
et serait une bonne sélection parmi la myriade de livres January 1991 .
disponibles sur le sujet. 12 G . C BENKO, « Approximation by Superpositions of Sigmoidal
Functions », Mathematics of Control, Signais and Systems, 2,
n certain nombre d'applications des réseaux de neurones n' 4, 1989 .
peut être trouvé dans la série Neural Information Proces- 13 M . COSNARD, « Neural Algorithms », Les entretiens de Lyon,
sing Systems, de 1989 à 1991, publiée par Morgan mars 1990 .
402
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
14 N . E. COTTER, « The Stone- eierstrass Theorem and its gie-Mellon niversity, Touretzky, Hinton and Sejnowski edi-
Application to Neural Networks », IEEE Trans . Neural tors, Morgan Kaufmann 1989 .
Networks, vol . 1, December 1990, 290-295 . 35 T. LEFEB RE et al., « Arachyde, Analyse et Reconnaissance
15 P . DELSARTE and . KAMP, « Low Rank Matrices with a given Acoustique par Systeme Hybride », Revue Thomson CSF,
Sign Pattern », SIAM Jour. Disc . Math ., vol. 2, n' 1, February numéro spécial Reconnaissances des Formes, tome 2, vol. 23,
1989, 51-63 . n' 1, mars 1991, 185-198 .
15b P. DEMARTINES et L . TETTONI, « SOMA » : Simulateur logiciel 36 D . LEGITIM S and L . SCH AB, « Natural nderwater Sounds
de modèles neuronaux adaptatifs », rapport interne LAMI Identification by Neural Networks and Classical techniques »,
(EPFL, Ecublens, CH1015 Lausanne), 1991 . Revue Thomson CSF, numéro spécial Reconnaissance des
16 E . DIDA et al ., Éléments d'Analyse de Données, Dunod, 1982 . Formes, tome 2, vol . 23, n' 1, mars 1991, 161-184 .
17 R . D RBIN and D. E . RuMELHART, « Product nits : A Computa- 37 R. P . LIPPMANN, « An Introduction to Computing with Neural
tionally Powerful and Biologically Plausible Rxtension to Back- Nets », IEEE ASSP Magazine, April 1987, 4-19 .
propagation Networks », Neural Computation, 1, 1989, 133- 38 Z . Q . Luc, « On the Convergence of the LMS Algorithm with
142 . Adaptive Learning Rate », Neural Computation, 3, 1991, 226-
18 K . F K NGA and D . L . KESSEL, « Estimation of Classification 245 .
Er or », IEEE Trans . Computers, vol . 20, n' 12, December 39 J . MAKHO L et al., « Classification Capabilities of two layer
1971, 1521-1527 . Neural Nets », ICASSP 89, 635-638 .
19 K . F NAHASASHI, « On the Approximate Realization of Conti- 40 G . MA RI and B . APOLLONI, « Computational Aspects of Lear-
nuous Mappings by Neural Networks », Neural Networks, ning in Neural Networks », Les entretiens de Lyon, mars 1990 .
vol . 2, n' 3, 1989, 183-192 . 41 G . MIRCHANDANI and . CAO, « On Hidden Nodes for Neural
20 P . E . GILL, . M RRA and M . H . RIGHT, Practical Optimiza- Nets », IEEE Trans . CAS, special issue, May 1989, vol . 26,
tion, Academic Press, 1981 . n' 5, 661-664 .
21 . GREBLECKI, « Asymptotically Optimal Pattern Recogni- 42 J. MooD and C . J . DARKEN, « Fast Learning in Networks of
tion . . . », IEEE Trans . Inf. Theory, 1978, 24, 250-251 . Locally-Tune Processing nits », Neural Computation, 1, 1989,
22 F . R. HAMPEL, « Robust Estimation : A Condensed Partial 281-294 .
Survey », ahrscheinlischskeits Theorie erw . Geb ., 27, 1973, 43 J . M . NICOLAS, A . LEMER et D . LEGITIM S, « Identification
87-104 . Automatique de Bruits Impulsifs en Acoustique Sous-Marine
23 D . J . HAND, Kernel Discriminant Analysis, 1982, RSP press . par Réseaux Multicouches », Neuro-Nimes, 13-16 novembre
24 R. HECHT-NIELSEN, « Kolmogorov's Mapping Neural Network 1989 .
Existence Theorem », First IEEE ICNN Conférence, 3, 1987, 44 J . M. NICOLAS, A . LEMER and J. C . DEL IGNE, « Automatic
11-14. Identification of Transient Biological Noises using Arborescent
25 R. HECHT-NIELSEN, «Theory of Backpropagation Neural avelets and Neural Networks », Colloque Ondelettes et Pre-
Networks », IEEE IJCNN, 1, 1989, 593-605 . mières Applications, Marseille, 29 mai-3 juin 1989 .
26 K . HORNIK, « Approximation Capabilities of Multilayer Feed- 45 OFTA ed., Les réseaux de Neurones, Masson, 1991 .
forward Networks », Neural Networks, vol. 4, n' 2, 1991, 251- 46 J . PARK and I . . SANDBERG, « niversal Approximation sing
258 . Radial-Basis Function Networks », Neural computation, 3,
1991, 246-257 .
27 B . IRIE and S . MI AKE, « Capabilities of Three-Layered Percep-
trons » . Second IEEE ICNN Conference, 1, 1988, 641-648 . 47 D . B . PARKER, « Optimal Algorithms for Adaptive Networks
28 R. A . JACOBS, « Increased Rates of Convergence through second Order Back-Propagation, Second Order Direct Propaga-
Learning Rate Adaptation », Neural Networks, vol . 1, n' 4, tion, and Second Order Hebbian Learning », First IJCNN, San
Diego, June 1987, vol . II, 593-600.
1988, 295-307 .
48 L . PERSONNAZ et al ., « Les Machines Neuronales », La Recher-
29 F . KANA A and S . MI AKE, « Bayes Statistical Behavior and
alid Generalization . . . », IEEE Trans . NN, vol . 2, July 1991, che, vol . 19, novembre 1988, 1362-1373 .
471-475 . 49 T . PoGGio, « On Optimal Non Linear Associative Recall »,
30 D . KAZAKOS, « Bayes Error Probability with Inaccurate Decision Biol . Cybernetics,
19, 1975, 201-209.
Threshold », Electronic Letters, vol . 25, n' 14, July 1989, 894- 50 T . Pocoio and F. GIROSI, « Networks for Approximation and
895 . Learnings », Proceedings of the IEEE, special issue on neural
30a S . KNERR, L . PERSONNAZ, G . DRE F S, «Single-layer Learning networks, September 1990, 1481-1497 .
Revisited : a Stepwise Procedure for Building and Training a 51 L . R . RABINER, « A Tutorial on Hidden Markov Models and
Neural Network », Neurocomputing, Fogelman and Herault Selected Applications in Speech Recognition », Proc . of the
editors, NATO ASI series, vol. F68, 1990, Springer erlag, 41- IEEE, vol . 77, n' 2, February 1989, 257-286 .
50 . 52 P. REFREGIER and J . M . IGNOLLE, « An Improved ersion of
31 T . KOHONEN, « The Self-Organizing Maps », Proceedings of the the Pseudo-Inverse Solution for Classification and Neural
Networks », June 1989, EurophysicsLetters, October 1989, 387-
IEEE, special issue on neural networks, September 1990, 1464-
392 .
1480.
32 A . N . KOLMOGORO , « On the Representation of Continuous 53 P. REFREGIER, A . JAFFRE and F . ALLET, « A Probabilistic
Approach for Multiclass Discrimination with Neural
Functions of Many ariables by Superposition of Continuous
Networks », Revue Technique Thomson CSF, numéro spécial
Functions of One ariable and Addition », American Math .
Reconnaissance de Formes et Réseaux Neuronaux, vol . 22,
Soc . Series Trans ., series 2, vol. 88, 1963, 55-59 (orig . : Dolk .
n' 4, December 1990, 563-572 .
Akad . Nauk. SSSR, 114, 1957, 953-956).
54 H . RITTER and K . SCH LTEN, « Convergence Properties of
33 A . KRZ ZAK, « On Exponential Bounds on the Bayes Risk of Kohonen's Topology Conserving Maps : Fluctuations, Stability
Kernel Classification Rule », IEEE Trans . Information Theory, and Dimension Selection », Biological Cybernetics, vol . 60,
vol. 37, n' 3, May 1991, 490-499 . 1988, 59-71 .
34 . LEC N, « A Theoretical Framework for Back-Propagation », 55 D. . R CK, S . K . ROGERS et al., « The Multilayer Perceptron
Proceedings of the 1988 Connectionist Summer School, Carne- as an Approximation to Bayes Optimal Discriminant Func-
403
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
tion », IEEE Trans . Neural Networks, vol . 1, December 1990, Faisons tendre les N k vers l'infini, nous obtenons
296-298 .
K
56 . RuDIN, Analyse Réelle et Complexe, Masson, 1978 . ( ) )112 du .
E (cc } Pk Jp(u/wk)II " -p( ,
57 D . E . R MELHART and J . L . MCCLELLAND, Parallel Distributed
k=1
Processing, vol . 1, 1986, MIT Press .
58 D . F . SPECHT, « Probabilistic Neural Networks », Neural Puis en utilisant la relation
Networks, vol . 3, n' 1, 1990, 109-118 . K
- 2
K K
JP(u/0 k ) Pk K(i,
f
k) cp ( , u) du + E3 ,
k=1 t=1
Annexes
O s 3 ne dépend pas des (p i . On pose cette fois G ; (u) =
• Démonstration des théorèmes I et II . B (u)/p (u), où B ; (u) est définie en (30) . La relation (A-4)
Les démonstrations des théorèmes I et II débutent de la devient alors
même façon, La définition de l'erreur donnée en (40) peut
s ecrire s(~)=JP(u)lIP( u)II2du-
R(N) = = p( , 2
.
k=t
Nk Nk x (n) E-k II In>
- ~ xln>)I1
-2 JP(u)G i ( u)P 1 ( , u) du + E4 .
i=1
404
Traitement du Signal volume 8 - n° 6
éseaux de neurones
Classification supervisée par réseaux multicouches
ce qui montre que cp ( , u) approxime G (u) . Ici encore, si montre que la fonction (p ( , v) approxime la fonction
(D est suffisamment large, pour la plupart des u fixés les g(v), qui est elle-même une estimation de la fonction
applications G (u) et p ( , u) seront minimales pour la bayesienne g (v) = b (v)/p (v) définie en (31) . La conclusion
même composante k . 0 est similaire à celle du théorème I . O
k= 1 N R G.r
= B i (u)/p (u ), avec
Nk x "' E -k
K
i=1
Nk
(A-6) Pk =N> Il vient alors d'après (A-9) que
- f p z (u)N +u) du .
e(N, oo)= ~, P J P ~, k(x (n)
k=1 k (n)
D'où finalement
X E -k
et
sont bornées, puisqu'elles peuvent s'écrire S (r) = z (l) -
(A-11) 9k( )= PkP( /wk)/P( ) z (r + 1) d'après (A-15) . Or, puisque µ (r) tend vers zéro,
la suite z(r) est de signe constant à partir d'un certain
Alors l'expression (A-9) de l'erreur devient rang . Supposons par exemple z(r) -- 0 . Comme µ(r) est
aussi positive, la suite S(r) est par ailleurs croissante . Elle
J(v)IIP(v)Il 2 dv converge donc vers une limite finie . En conséquence,
e(N, oo) = p comme la série des µ (r) diverge, il est nécessaire que 0
soit valeur d'adhérence de z(r) pour que S(r) converge .
- 2 gk( )cpk( ,v)dv+e l . Enfin, z (r) = z (1) - S (r - 1) montre que z (r) est conver-
J k=1 gente . Donc z (r) converge vers 0 . O
405
Traitement du Signal volume 8 - n° 6
éseaux de neurones
- Classification supervisée par réseaux multicouches
• Démonstration du lemme (67) . z(r) ait atteint l'erreur résiduelle e . Alors e - clr°, ce qui
Le lemme (65) aurait montré que la suite (64) converge équivaut à r - c l1 ° Enfin, il est clair que la valeur
vers zéro si les termes en µ(r) 2 ne s'y trouvaient pas . propre imposant la convergence est la plus petite valeur
Considérons de nouveau la suite des éléments diagonaux propre non nulle . O
de Z (r) . Ils sont régis par une récurrence du type
• Obtention du biais (70) .
(A-17) z(r + 1) = z (r) - r (r) z(r) + vg(r) µ(r) , Puisque tous les vecteurs x (n) suivent la même loi, nous
avons d'après (32) :
où cr et v sont constantes, et où g (r) est bornée . Pour la
même raison que précédemment, on peut supposer
z(r) , 0, et le même raisonnement permet de conclure . (A-22) E {p x (N, u)} = h(N)M px(v) dv .
nM ( h(N) I
Plus précisément la somme
Notons - s (N, u) = E {px (N, u)} - p x (u) le biais . Après
(A-18) µ(r) 2 g(r) changement de variable, nous avons les écritures
r 1
étant finie puisque g(r) est bornée, la suite S(r) est e(N, u) = J K(z){px(u-h(N)z)-px(u)} dz
~M
croissante majorée, et donc converge . La série des
µ(r) étant divergente, on en déduit que 0 est valeur ou bien
d'adhérence de z (r) . Comme z (r) converge par ailleurs, 0
est sa limite . O (A-23) e (N, u)
1
• Démonstration du théorème .
- h (N)111 J ~M
K y
h(N) x()x(
) Pu d Pu) .
Il est clair d'après (63), que la convergence de la suite (64)
vers zéro entraîne la convergence de la suite (61) vers Comme px (x) est deux fois dérivable, elle admet le
X - . Il s'agit ici d'approximer la vitesse de cette conver- développement de Taylor- oung à l'ordre deux suivant :
gence . les éléments diagonaux de la suite Z (r) vérifient
(A-17), et si µ(r) = 1/r, nous avons M apx(x)
px (x-hz)=p x (x)-h z; +
ax ;
(A-19) z(r + 1) = z(r) 1 - or/r + vg(r) µ(r) .
2 M
a2 X
Montrons que cette suite est équivalente à r -' . On peut +(x - hz)2 p(h) .
2 .,~=1z'z.-a X ax )
toujours trouver une fonction C , notée n(x), positive et 1
décroissante sur l+, et coïncidant avec z(r) sur N
z (r) = Ç1(r), r e N* . Cherchons à approximer n (x ) . En reportant ce développement dans l'espression (A-23),
Nous adoptons la condition nous obtenons
(A-24) e (N, u) =
(A-20) n (x + 1) - fi (x) = - n (x) Q/x , x e R+ ,
a2 x
h M K(z) zi zJ Px ()
conforme à la définition de la suite z (r) . En appliquant le dz + O (h 3 )
2 ax z axe
théorème des accroissements finis, il vient que
n'(x) fl (x+ 1)-n (x) n'(x+ 1) En effet, le terme d'ordre 1 a disparu car, la fonction
K(u) étant radiale, tous ses moments d'ordre 1 sont nuls .
puis en tenant compte de la décroissance de n(x), nous L'expression du biais est finalement
avons
z
fi' (x)hn(x) . -Qlx n' (x + 1)ln(x) (A-25) e (N, x) > ' + 0(h')
n' (x + 1)/n(x + 1) . 22 , jM v'1 a pxaxl) .
O
406
Traitement du Signal volume 8 - n° 6
éseaux de neurones
-- Classification supervisée par réseaux multicouches
-M
+ 1 1
N hM e K2 (z) pX (x - hz) dz .
(2 Tr )
f -- . J
( u~- M) 2 exp(- ~~uil 2 ) du
• Démonstration de (74)
(A-33) J .. .
J
Op (x) 2 dx = Q -M-4 3 4 (2 ) -M
(A-30) h (N)'
J p8M
J (X)2 dx -
Nh
M t J pBM
K 2 (z) dz = 0 .
a 2p/axI(x) = Q -M-2 (x2- 1) a2K/au2(x/a) .
407
Traitement du Signal volume 8 - n° 6