Mémoire

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 44

Faculté des Sciences Département de Mathématique

M ÉMOIRE PRÉSENTÉ EN VUE DE L’ OBTENTION DU


DIPLÔME DE M ASTER EN S TATISTIQUE À FINALITÉ
APPROFONDIE

Quantitative CLTS in deep neural


networks

Auteur : Jonathan Baram


Directeur du mémoire : Yvik Swan
Président du jury : Davy Paindaveine
Année académique 2023–2024

2
Table des matières

1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Revue de littérature . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Hypothèses et définitions . . . . . . . . . . . . . . . . . . . . . . 14
4 TCL quantitatif en dimension 1 . . . . . . . . . . . . . . . . . . . 17
5 TCL quantitatif en dimension finie . . . . . . . . . . . . . . . . . 31
6 Illustration du TCL quantitatif en dimension 1 . . . . . . . . . . . 34
7 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
8 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1
1 Introduction
Ce mémoire est un travail sur l’article « Quantitative CLTS in
deep neural networks »[1].

Lorsque l’on souhaite approximer une fonction inconnue prenant


des valeurs sur un jeu de données expérimental: {(𝑥 𝛼 , 𝑓 (𝑥 𝛼 )), 𝛼 =
1, 2, . . . , 𝑘 }, la méthode qui sera le sujet de ce mémoire est la suiv-
ante: fixer un réseau d’architecture neuronal (dont on explique le
concept ci-dessous), qui va déterminer une famille paramétrique de
réseau de neurones, et chercher dans cette famille une approxima-
tion de la fonction inconnue.

Un réseau d’architecture neuronal est un système dont la concep-


tion est à l’origine schématiquement inspirée du fonctionnement des
neurones biologiques. Dans sa forme la plus simple, il se représente
de la manière suivante:

Figure 1: Réseau d’architecture neuronal.

Ce réseau est composé de neurones artificiels organisés en couches


et interconnectés par des connexions pondérées. Chaque neurone
reçoit des entrées, effectue des calculs sur ces entrées, et transmet

2
une sortie à d’autres neurones. Ceci est représenté sur la figure
1, chaque cercle symbolisant un neurone, avec en vert la couche
d’entrée, en bleu la (les) couche(s) intermédiaire(s), et en jaune la
couche de sortie du réseau. Notons que la largeur de chaque couche,
concept-clé, est simplement le nombre de neurones associé à chaque
couche. Dans la figure 1, la largeur de la couche intermédiaire est
de 5.

Chaque couche est donc consituée de neurones, recevant chacun


des entrées (𝑥𝑖 ), pondérées par un poids (𝑤 𝑖 ) à laquelle un biais est
ajouté pour calculer une somme pondérée. Pour une couche donnée,
l’entrée totale est donc donnée par:
Í
𝑖 𝑤 𝑖 𝑥𝑖 + biais

La sortie de la couche est alors déterminée en en appliquant une


fonction d’activation à cette somme pondérée. Il peut s’agir par ex-
emple d’une fonction d’activation binaire qui fixe la sortie à 1 si la
valeur d’entrée (somme pondérée plus le biais) est supérieure à 0
et 0 sinon. La valeur de sortie de la couche sert alors d’entrée aux
neurones de la couche suivante jusqu’à arriver à la sortie du réseau.
Notons que le biais peut être vu comme une valeur seuil: dans le cas
d’une fonction d’activation binaire, une valeur 2 de biais nécessite
de dépasser ce seuil afin d’avoir la valeur 1 en sortie.

Appliquons ce concept à un exemple concret. Supposons que


nous devions décider d’aller ou non faire du surf, et que trois facteurs
influencent notre prise de décision:

• Les vagues sont-elles bonnes? (Oui : 1, Non : 0)


• La voie est-elle libre? (Oui : 1, Non : 0)
• Y-a-t’il eu récemment une attaque de requins ? (Oui : 0, Non :
1)

3
Supposons maintenant que nous observions les entrées suivantes:
𝑥1 = 1, car les vagues sont bonnes, 𝑥2 = 0, car il y a foule et 𝑥3 = 1,
car il n’y a pas eu d’attaque de requin récemment. Nous devons
ensuite attribuer des poids à chaque variable pour en déterminer
l’importance dans notre prise de décision: 𝑤 1 = 5, car il est rare
d’avoir des vagues, 𝑤 2 = 2, car nous sommes habitués à la foule,
𝑤 3 = 4, car nous avons peur des requins.

Enfin, supposons une valeur de seuil de 3, ce qui se traduit par un


biais de −3. Avec ces entrées, nous obtenons une valeur de calcul
avant sortie pour cette couche de 5 ∗ 1 + 2 ∗ 0 + 4 ∗ 1 − 3 = 6. Pour une
fonction d’activation binaire telle que décrite ci-dessus, la valeur de
sortie de la couche serait 1, et nous irions surfer. Cet exemple simple
montre comment un réseau de neurones peut prendre des décisions
de plus en plus complexes en fonction notamment des tailles des
couches précédantes.

4
De façon rigoureuse, le réseau le plus simple, le réseau neuronal
entièrement connecté, est défini de la manière suivante:
Definition 1.1 (Réseau neuronal entièrement connecté).
Fixons un entier positif L ainsi que L+2 entiers positifs 𝑛0 , . . . , 𝑛 𝐿+1
et une fonction 𝜎 : R → R. Un réseau neuronal entièrement con-
necté de profondeur L aux dimensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 ,
de largeurs de couches 𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité 𝜎 est une fonc-
tion 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 de la forme suivante:
 (1)
(ℓ) 𝑊 𝑥 𝛼 + 𝑏 (1) , ℓ=1
𝑧𝛼 =
𝑊 (ℓ) 𝜎(𝑧 𝛼(ℓ−1) ) + 𝑏 (ℓ) , ℓ = 2, . . . , 𝐿 + 1.
où 𝑧 𝛼(ℓ) ∈ R𝑛ℓ et 𝑏 (ℓ) ∈ R𝑛ℓ sont des vecteurs, 𝑊 (ℓ) ∈ R𝑛ℓ ×𝑛ℓ −1 des
matrices, et 𝜎 appliqué à un vecteur est 𝜎 appliqué à chaque com-
posante. Notons que 𝜎 sert de fonction d’activation non-linéaire.
Les paramètres d’un tel réseau de neurones sont les poids 𝑊𝑖(𝑙)
𝑗 et
les biais 𝑏𝑖(𝑙) associés à chaque couche. Le but étant, pour un jeu de
données, de trouver une combinaison de poids et de biais telle que
𝑧 𝛼(𝐿+1) ≈ 𝑓 (𝑥 𝛼 ) pour 𝑥 𝛼 appartenant au jeu de données ou non, avec
𝑓 la fonction que l’on essaie d’approximer (dans le cas de l’exemple
simple précédant, la fonction binaire qui renseigne sur le fait d’aller
surfer ou non). Une telle optimisation requiert typiquement deux
étapes:

(1) Choisir des poids et biais initiaux.


(2) Optimiser ces paramètres à l’aide d’une fonction de perte em-
pirique telle que les moindres carrés.

Une façon de choisir nos paramètres est de les supposer aléa-


toires, mais de loi connue. Ceci livre la définition suivante:

5
Definition 1.2 (Réseau neuronal aléatoire entièrement connecté).
Fixons un entier positif L ainsi que L+2 entiers positifs 𝑛0 , . . . , 𝑛 𝐿+1 ,
une fonction 𝜎 : R → R ainsi que deux constantes 𝐶𝑏 ≥ 0 et
𝐶𝑤 > 0. Un réseau neuronal aléatoire entièrement connecté
de profondeur L aux dimensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 , de
largeurs de couches 𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité 𝜎 est un réseau
neuronal de la forme donnée en (1.1) où les paramètres sont aléa-
toires, indépendants, mais de loi normale connue:

𝑊𝑖(𝑙) 𝐶𝑤 (𝑙)
𝑗 ∼ N (0, 𝑛𝑙−1 ), 𝑏 𝑖 ∼ N (0, 𝐶𝑏 )

Notons que le caractère aléatoire des paramètres est utile pour


différentes raisons, la principale est la diversité des paramètres qu’il
permet d’obtenir. En effet, en utilisant une distribution aléatoire,
chaque neurone dans le réseau peut commencer avec des poids dif-
férents. Cela permet d’explorer plus efficacement l’espace des paramètres
et peut conduire à une meilleure performance du modèle.

D’autre part, l’utilisation de la loi normale pour l’initialisation


des poids est courante pour plusieurs raisons:

1. Symétrie initiale. L’initialisation des poids avec une distribu-


tion normale centrée sur zéro peut aider à briser la symétrie
entre les différents neurones dans le réseau. Cela permet aux
neurones de commencer à apprendre des représentations dif-
férentes dès le début de l’entraînement. En effet, si tous les
poids sont identiques au départ, alors lors de la phase d’apprentissage,
tous les neurones de la couche cachée apprendraient exacte-
ment les mêmes caractéristiques, et le réseau ne serait pas en
mesure de capturer la diversité des informations contenues dans
les données d’entrée.
2. Diversité des poids. La distribution normale permet d’obtenir
une variété de valeurs de poids initiales, ce qui peut être béné-

6
fique pour couvrir un large éventail de valeurs possibles et aider
le réseau à explorer efficacement l’espace des paramètres.
3. Facilité d’utilisation. L’initialisation des poids avec une dis-
tribution normale est simple et facile à implémenter, ce qui en
fait un choix pratique dans de nombreux cadres d’apprentissage
automatique.

Enfin, définissons de manière plus précise ce à quoi nous faisons


référence lorsque nous parlons d’« apprentissage » du système neu-
ronal. Il s’agit simplement du processus d’ajustement des poids et
des biais du réseau afin qu’il puisse accomplir une tâche spécifique.
Ce processus consiste à exposer le réseau à un ensemble de don-
nées d’entraînement, à comparer les prédictions du réseau avec les
valeurs attendues, puis à ajuster les paramètres du réseau de manière
itérative afin de minimiser une fonction de perte ou d’erreur.

Avant d’énoncer un résultat clé, rappelons la définition d’un pro-


cessus Gaussien.
Definition 1.3 (Processus gaussien).
Si un processus stochastique {𝑋𝑡 : 0 ≤ 𝑡 < ∞} a la propriété
que pour toute suite finie 0 ≤ 𝑡 1 < 𝑡2 < . . . < 𝑡 𝑛 le vecteur
(𝑋𝑡1 , 𝑋𝑡2 , . . . , 𝑋𝑡 𝑛 ) a une distribution gaussienne multivariée, alors
𝑋𝑡 est un processus Gaussien.
Nous énonçons maintenant un résultat asymptotique concernant
la distribution d’un réseau de neurones lorsque les largeurs de couches
deviennent arbitrairement larges, i.e. 𝑛1 , . . . , 𝑛 𝐿 → ∞.
Theorem 1.4 (Réseaux infinis et processus Gaussiens).
Fixons 𝐿, 𝑛0 , 𝑛 𝐿+1 , 𝑟 ≥ 1 et une fonction 𝜎 : R → R bornée
jusqu’à l’ordre 𝑟 au sens de la définition qui suit (2.1). Lorsque
𝑛1 , . . . , 𝑛 𝐿 → ∞, le réseau aléatoire 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1
de la forme donnée en (1.2) converge faiblement en distribution, en

7
tant qu’élément de 𝐶 𝑟−1 (R𝑛0 , R𝑛 𝐿+1 ), vers un processus Gaussien de
(𝐿+1)
𝑛 𝐿+1 composantes iid centrées (𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑛 𝐿+1 ) avec pour
covariance limite
(𝐿+1) (𝐿+1) (𝐿+1)
𝐾𝛼𝛽 := lim𝑛1 ,...,𝑛 𝐿 →∞ Cov(𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 )

satisfaisant
( (𝑙) (𝑙)
(𝑙+1) 𝐶𝑏 + 𝐶𝑤 ⟨𝜎(𝑧𝑖;𝛼 ) , 𝜎(𝑧𝑖;𝛽 )⟩𝐾 (𝑙) 𝑙≥1
𝐾𝛼𝛽 =
𝐶𝑏 + 𝐶𝑛𝑤0 𝑥 𝛼 · 𝑥 𝛽 𝑙=0
(𝑙) (𝑙)
où pour 𝑔 : R2 → R nous écrivons ⟨𝑔(𝑧𝑖;𝛼 ) , 𝑔(𝑧𝑖;𝛽 )⟩𝐾 (𝑙) pour la
valeur moyenne de 𝑔 par rapport à la distribution
(𝑙) (𝑙)
!!
(𝑙) (𝑙) 𝐾 𝛼𝛼 𝐾
(𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 ) ∼ N 0, (𝑙) 𝛼𝛽 (𝑙)
𝐾𝛼𝛽 𝐾 𝛽𝛽

Notons que 𝑧𝑖,𝛼 représente la sortie du neurone 𝑖 dans la couche 𝑙


du réseau neuronal pour une donnée d’entrée 𝛼. Ces sorties sont des
variables aléatoires, qui dépendent des poids et des biais du réseau.
(ℓ)
Plus précisément, 𝑧𝑖;𝛼 est la sortie du neurone 𝑖 dans la couche ℓ pour
une donnée d’entrée 𝛼.

Illustrons ce théorème par un exemple simple: prenons un réseau


neuronal à une seule couche cachée à deux entrées et une sortie.
Nous avons donc 𝐿 = 1, 𝑛0 = 2 (deux entrées), et 𝑛 𝐿+1 = 𝑛2 = 1
(une sortie). Soit également 𝑛1 = 2 (deux neurones dans la couche
cachée). Supposons aussi que les constantes soient 𝐶𝑏 = 0 (pas de
biais), et 𝐶𝑤 = 1. Pour la fonction d’activation, utilisons la fonction
(2)
linéaire 𝜎(𝑥) = 𝑥. Si nous calculons la covariance limite 𝐾𝛼𝛽 entre
les sorties des neurones de la couche de sortie pour les entrées 𝛼 et
𝛽, nous obtenons, selon le théorème,
(2) (1) (1)
𝐾𝛼𝛽 = ⟨𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 ⟩𝐾 (1)

8
(2)
La covariance limite 𝐾𝛼𝛽 est donc simplement proportionnelle à
la covariance entre les sorties des neurones de la couche de sortie
pour les entrées 𝛼 et 𝛽. Si nous supposons en plus que les entrées
sont des variables aléatoires indépendantes, la covariance entre 𝑥 𝛼 et
(2)
𝑥 𝛽 est nulle. Dans ce cas, la covariance limite 𝐾𝛼𝛽 sera également
nulle.

Ceci nous amène à la question centrale du travail: A quel point un


réseau neuronal aléatoire de largeurs de couches finies est proche
du processus Gaussien décrit dans le théorème 1.1?

Cette question s’inscrit dans un contexte de recherche fondamen-


tale en apprentissage automatique et en théorie des réseaux neu-
ronaux. Dans la pratique, les réseaux neuronaux ont des couches
de largeurs finies en raison de contraintes computationnelles et de la
disponibilité limitée de données. Il s’agit donc d’examiner comment
cette convergence vers un processus Gaussien est affectée lorsque le
nombre de neurones par couche est limité. Ou, en d’autres termes,
dans quelle mesure les résultats théoriques sur la convergence des
réseaux neuronaux vers des processus Gaussiens sont applicables
dans des scénarios réalistes.

La question est également motivée par des travaux antérieurs sur


le réseau de neurones à noyau tangent (NTK). On appelle réseau
NTK un réseau neuronal dont les poids et les biais sont définis comme
en (1.2), 𝐿, 𝑛0 , 𝑛 𝐿+1 sont fixés et les largeurs de couches 𝑛1 , . . . , 𝑛 𝐿+1
tendent vers l’infini. Ce type de réseau neuronal particulier présente
deux propriétés remarquables:
• Le processus stochastique 𝑥 𝛼 ↦→ 𝑧 𝛼𝐿+1 converge en distribution
vers un processus Gaussien. (Théorème 1.1)
• En utilisant des petits taux d’apprentissage (les paramètres du
modèle sont mis à jour par une petite quantité après chaque

9
itération, rendant le processus d’apprentissage plus progressif),
et l’erreur quadratique moyenne comme fonction de perte, la
trajectoire d’optimisation correspond à celle obtenue en rem-
placant le réseau non-linéaire 𝑧 𝛼𝐿+1 par sa linéarisation autour
des paramètres aléatoires initiaux (poids et biais) du réseau.

Le second point assure que le minimum de la fonction de perte


ainsi trouvé ne sera pas un faux minimum, la fonction de perte (des
moindres carrés) étant convexe pour l’approximation du réseau par
sa linéarisation. En revanche, il convient de noter que la linéarisation
du réseau neuronal NTK se fait à un coût non-négligeable. En effet,
les réseaux neuronaux ont ceci de particulier qu’ils ne sont pas des
modèles linéaires, et il serait fallacieux de les étudier comme tels.
De plus, le réseau NTK est défini dans le régime asymptotique où le
nombre de neurones dans chaque couche tend vers l’infini. Dans des
scénarios pratiques, où les réseaux de neurones ont des tailles finies
en raison de contraintes computationnelles, cette approximation ne
s’applique pas. Le réseau NTK ne convient donc pas pour une étude
du comportement d’un réseau neuronal réaliste. Pour une étude des
effets non-linéaires d’un réseau neuronal, plusieurs modèles exis-
tent, et notre article considère les réseaux neuronaux de profondeurs
finies (mais potentiellement grandes), développant des outils proba-
bilistes pour étudier ces derniers.

Les résultats s’articulent selon trois axes:

1. Théorème central-limite quantitatif à une dimension. Il


s’agit ici de fixer un élément d’entrée 𝑥 𝛼 ∈ R𝑛0 et de considérer
(𝐿+1)
une unique composante d’un élément de sortie 𝑧𝑖;𝛼 . La ques-
tion qui se pose est alors de savoir à quel point la distribution de
(𝐿+1)
𝑧𝑖;𝛼 est proche de la distribution Gaussienne correspondante,
dans le sens qui sera précisé par la suite. En particulier, il sera
montré que la distance entre ces deux éléments est bornée par le
haut par une constante fois l’inverse de la profondeur du réseau.

10
2. Théorème central-limite quantitatif à dimension finie. Nous
considérons maintenant une collection finie d’éléments d’entrée
𝑥 𝛼 ∈ R𝑛0 , 𝛼 ∈ A et cherchons une borne supérieure sur la dis-
(𝐿+1)
tance convexe entre le vecteur (𝑧𝑖;𝛼 , 𝛼 ∈ A) et la Gaussienne
correspondante. Une borne supérieure de l’ordre de la racine
carrée de la taille des couches du réseau est trouvée.
3. Théorème central-limite quantitatif fonctionnel. Nous con-
sidérons ici 𝑧 𝛼(𝐿+1) vu comme élément d’un espace de Sobolev
et sa limite pour une profondeur de champ infinie. Des bornes
sont trouvées pour des distances spécifiques, proportionnelles
a l’inverse de la profondeur du champ considérée.

11
2 Revue de littérature
Avant la publication de l’article "Quantitative CLTs in deep neu-
ral networks" [1], la littérature existante avait établi les bases théoriques
de la convergence asymptotique des réseaux de neurones vers des
processus gaussiens, mais la vitesse exacte de cette convergence et
les conditions spécifiques n’étaient pas entièrement caractérisées.
Les recherches antérieures avaient montré que les réseaux de neu-
rones se comportent comme des processus gaussiens sous certaines
conditions asymptotiques, mais des questions restaient sur les taux
de convergence précis et les impacts des différentes structures de
réseau. L’article dont il est question ici apporte des contributions
importantes en quantifiant ces taux de convergence et en clarifiant
les conditions nécessaires pour une convergence précise.

Notons à titre d’exemple les résultats suivants au niveau de la


convergence asymptotique des réseaux neuronaux, antérieurs à la
publication de notre article:

1. Neural Networks as Gaussian Processes (Neal, 1996) [2] :


Un travail fondamental de Radford Neal a introduit l’idée que,
lorsque la largeur des couches d’un réseau de neurones tend
vers l’infini et avec certaines conditions sur la fonction d’activation,
le réseau de neurones se comporte comme un processus gaussien.
Ce résultat a jeté les bases de l’analyse de la convergence asymp-
totique des réseaux de neurones.
2. Gaussian Process Limits (Lee et al., 2018) [3] :
Lee et al. ont étudié les propriétés des limites gaussiennes des
réseaux de neurones, en mettant l’accent sur la convergence des
fonctions de covariance et sur les différences entre les réseaux
à largeur finie et infinie.
3. Empirical Results (Novak et al., 2018) [4] :

12
Novak et al. ont fourni des résultats empiriques illustrant que
même avec une largeur finie, les réseaux de neurones peuvent
approximativement se comporter comme des processus gaussiens,
en particulier pour des tâches de régression.
4. Convergence Rate Analysis (Chizat et al., 2020) [5] :
Chizat et al. ont examiné la vitesse à laquelle les réseaux de
neurones se rapprochent d’un processus gaussien lorsque la
largeur des couches augmente. Ils ont montré que la vitesse de
convergence peut dépendre fortement de la structure du réseau
et de ses paramètres.
5. Empirical Validation (Zhang et al., 2021) [6] :
Les études empiriques ont montré que pour des architectures
réelles et des tailles d’échantillons finies, les réseaux de neu-
rones peuvent se rapprocher d’un comportement gaussien, mais
avec des écarts que les théories asymptotiques ne capturent pas
toujours parfaitement.

Notre article représente une avancée significative en offrant des


résultats plus spécifiques et quantitatifs sur les taux de convergence,
enrichissant ainsi la compréhension théorique des réseaux de neu-
rones en relation avec les processus gaussiens.

13
3 Hypothèses et définitions
Les définitions et résultats suivants seront utilisés tout au long
du travail.
Definition 3.1 (Borne polynomiale d’ordre r).
Pour 𝑟 ≥ 1 fixé, une fonction 𝜎 : R → R est bornée polynomiale-
ment à l’ordre 𝑟 si, soit 𝜎 est 𝑟 fois continûment différentiable, soit
𝜎 est 𝑟 − 1 fois continûment différentiable et sa (𝑟 − 1)-ème dérivée
est une fonction linéaire continue par morceaux avec un nombre fini
de points de discontinuité pour sa dérivée. Dans les deux cas on
demande aussi que la r-ème dérivée soit bornée polynomialement:
𝑟
∃𝑘 ≥ 0 tel que (1 + |𝑥|) −𝑘 𝑑𝑥
𝑑
𝑟 𝜎(𝑥) 𝐿 ∞ (R)
<∞
et que pour tout 𝑥 𝛼 , 𝑥 𝛽 et 𝐼, 𝐽 tels que |𝐼 |, |𝐽 | = 𝑟, les dérivées par-
(𝑙)
tielles mixtes 𝐷 𝛼𝐽 𝐷 𝐼𝛽 Σ𝛼𝛽 soient bien définies et finies avec proba-
bilité 1, où Σ (𝑙) est défini selon la formule à venir (Lemme 2.1.),
et, pour un multi-index 𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑛0 ), |𝐽 | := 𝑗 1 + . . . + 𝑗 𝑛0 et
𝑗 𝑗𝑛
𝐷 𝛼𝐽 = 𝜕𝑥11 . . . 𝜕𝑥 𝑛00 .
𝑥=𝑥 𝛼 =(𝑥1 ,...,𝑥 𝑛0 )

Un exemple classique d’une telle fonction est la fonction sig-


moïde, définie comme
1
𝜎(𝑥) = 1+𝑒 − 𝑥

Elle est continûment différentiable sur tout R, et ses dérivées suc-


cessives sont également continues. De plus, la r-ème dérivée de la
fonction sigmoïde est bornée polynomialement, ce qui est démontré
par le fait que toutes ses dérivées sont des fonctions exponentielles
décroissantes multipliées par un polynôme. En effet,
𝑛
∑︁
𝑑𝑛 𝑒−𝑥
𝑑𝑥 𝑛 𝜎(𝑥) = (1+𝑒 −𝑥 ) 𝑛+1
(−1) 𝑘 𝑃(𝑛, 𝑘)(𝑛 − 𝑘)!
𝑘=0

où 𝑃(𝑛, 𝑘) est le nombre de Stirling de première espèce.

14
Definition 3.2 (Non-dégénérescence de la matrice de covariance).
Pour 𝑟 > 1 fixé et 𝜎 borné polynomialement à l’ordre 𝑟, et A un
ensemble fini indiçant des inputs distincts du réseau,
𝑥 A = {𝑥 𝛼 : 𝛼 ∈ A} ⊆ R𝑛0
et un ensemble fini d’opérateurs de dérivées directionnelles,
Í𝑛 0
𝑉 = {𝑉1 , . . . , 𝑉𝑝 }, 𝑉 𝑗 := 𝑖=1 𝑣 𝑖 𝑗 𝜕𝑥𝑖

La structure de covariance de profondeur infinie {𝐾 (𝑙) : 𝑙 =


1, . . . , 𝐿 + 1} définie au théorème 1.1 est non-dégénerée en 𝑥 A à
l’ordre 𝑞 ≤ 𝑟 par rapport à 𝑉 si, pour tout 𝑙 = 1, . . . , 𝐿 + 1, la ma-
trice de covariance de profondeur infinie
(𝑙),≤𝑞
𝐾A,𝑉 := (𝑉𝛼𝐽11𝑉𝛼𝐽22 𝐾𝛼(𝑙)1 𝛼2 , |𝐽1 |, |𝐽2 | ≤ 𝑞, 𝛼1 , 𝛼2 ∈ A)

est inversible, où pour chaque multi-index 𝐽𝑖 = ( 𝑗𝑖1 , . . . , 𝑗𝑖 𝑝 ) ∈


N 𝑝 d’ordre |𝐽𝑖 | = 𝑗𝑖1 + . . . + 𝑗𝑖 𝑝 nous écrivons
𝑗 𝑗
𝑉𝛼𝐽𝑖𝑖 := 𝑉1 𝑖1 . . . 𝑉𝑝𝑖 𝑝
𝑥=𝑥 𝛼𝑖

pour les opérateurs différentiels correspondants.


Cette condition spécifie que les dérivées directionnelles de la ma-
trice de covariance sont non-dégénérées jusqu’à un certain ordre
par rapport à l’ensemble d’inputs et à l’ensemble d’opérateurs de
dérivées directionnelles. Cela garantit que la matrice de covariance
capture efficacement les variations des données dans différentes di-
rections et qu’elle est bien conditionnée pour être utilisée dans des
calculs ultérieurs, tels que l’estimation des gradients ou l’optimisation
du réseau.

Nous finissons cette section par un lemme donné sans démonstra-


tion, et utilisé tout au long de l’article (d’autres définitions seront
ajoutées au fur et à mesure de leur usage).

15
Lemma 3.3. Conditionnellement à F (𝑙) , la sigma-algèbre générée
par les poids et biais des couches 1, . . . , 𝑙, le réseau neuronal aléa-
toire 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝑙+1) a des composantes gaussiennes centrées
indépendantes et identiquement distribuées de covariance condition-
nelle
(𝑙+1) (𝑙+1) (𝑙)
Cov(𝑧𝑖;𝛼 , 𝑧 𝑗;𝛽 |F (𝑙) ) = 𝛿𝑖 𝑗 Σ𝛼𝛽


(𝑙) Í𝑛 𝑙 (𝑙) (𝑙)
Σ𝛼𝛽 := 𝐶𝑏 + 𝐶𝑛𝑤𝑙 𝑗=1 𝜎(𝑧 𝑗;𝛼 )𝜎(𝑧 𝑗;𝛽 )

Ce lemme nous informe sur la distribution de chaque sortie du


champ de vecteurs. Plus précisément, il stipule que conditionnelle-
ment à la sigma-algèbre générée par les poids et biais de chaque
couche (c’est-à-dire si l’on se "donne l’information" sur chaque poids
et biais de chaque couche), les sorties du champ de vecteurs 𝑥 𝛼 ∈
R𝑛0 ↦→ 𝑧 𝛼(𝑙+1) suivent chacune une loi normale centrée et de (co)variances
connues.
Notons que bien que les lois des éléments de sortie soient des
gaussiennes indépendantes et identiquement distribuées, elles présen-
tent une covariance non nulle. Dans notre contexte, cela s’explique
par le fait que bien que les composantes de sorties soient statistique-
ment indépendantes (les valeurs prises par chaque composante n’est
pas liée aux valeurs prises par d’autres), les poids et les biais peuvent
être choisis de telle manière que les composantes de sortie présen-
tent une certaine corrélation. Leur covariance peut donc être non
nulle en raison de leur relation avec les poids et biais du réseau.

16
4 TCL quantitatif en dimension 1
Nous présentons dans cette section le premier résultat de l’article,
à savoir le TCL quantitatif en dimension 1.

Les résultats fournissent des théorèmes centraux-limite quanti-


tatifs pour des réseaux de neurones dans le contexte précisé par
l’hypothèse suivante:
Assumption 4.0 (Cadre des résultats).
Fixons des constantes 𝑐 1 , 𝑐 2 , des entiers 𝑟, 𝐿, 𝑛0 , 𝑛 𝐿+1 ≥ 1,
des scalaires 𝐶𝑏 , 𝐶𝑤 > 0, et une fonction 𝜎 : R → R bornée poly-
nomialement à l’ordre 𝑟 tel que dans la définition 2.1. Considérons
un réseau neuronal aléatoire entièrement connecté de profondeur 𝐿,
𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 tel que dans la définition 1.2, de di-
mensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 , de profondeurs de couches
𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité 𝜎. Supposons que pour un certain
𝑛 ≥ 1,
𝑐 2 𝑛 ≤ 𝑛1 , . . . , 𝑛 𝐿 ≤ 𝑐 1 𝑛
Par souci de concision, nous définissons l’espace de paramètres
P := {𝜎, 𝑐 1 , 𝑐 2 , 𝐿, 𝑛0 , 𝐶𝑏 , 𝐶𝑤 }
(notons que P ne contient pas 𝑟).
Les résultats fournissent des TCLs quantitatifs pour un tel champ
neuronal, montrant que lorsque 𝑛 est grand, le champ aléatoire 𝑧 𝛼(𝐿+1)
et ses dérivées
(𝐿+1) 𝑗 𝑗𝑛 (𝐿+1)
𝐷 𝛼𝐽 𝑧𝑖;𝛼 := 𝜕𝑥11 . . . 𝜕𝑥 𝑛00 𝑧𝑖;𝛼 , 𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑛 0 ) ∈ N𝑛 0
𝑥=𝑥 𝛼
sont proches (dans un sens qui sera précisé par la suite) de ceux d’un
processus Gaussien de 𝑛 𝐿+1 composantes indépendantes et identique-
ment distribuées.

17
Nous avons donc besoin d’une notion de distance. Nous utilis-
erons principalement la distance de Wasserstein définie de la façon
suivante:
Definition 4.1 (Distance de Wasserstein d’ordre p).
Soit (X, 𝑑) un espace polonais (i.e. un espace métrisable à base
dénombrable) muni de sa tribu borélienne. Soit 𝑝 ∈ [0, +∞[ et
𝜇, 𝜈 deux mesures de probabilité sur X. La distance de Wassertein
d’ordre 𝑝 entre 𝜇 et 𝜈 est:
 ∫  1/𝑝
W 𝑝 (𝜇, 𝜈) := inf 𝜋∈Π(𝜇,𝜈) X×X 𝑑 (𝑥, 𝑦) d𝜋(𝑥, 𝑦)
𝑝

où Π(𝜇, 𝜈) désigne l’ensemble des mesures de probabilités sur


X × X dont les lois marginales sont 𝜇 et 𝜈.
Une définition alternative est donnée par:
Definition 4.2 (Distance de Wasserstein d’ordre p - définition alter-
native).
Soit 𝐾 un espace de Hilbert séparable sur R, 𝑋 et 𝑌 deux éléments
aléatoires à valeurs sur 𝐾, et 𝑝 ≥ 1 fixé. La distance de Wasserstein
d’ordre p entre les distributions de 𝑋 et 𝑌 , est définie comme étant
la quantité:
𝑝  1/𝑝
W 𝑝 (𝑋, 𝑌 ) := inf (𝑇,𝑆) E[∥𝑇 − 𝑆∥ 𝐾 ]
loi
où l’infimum est pris sur les éléments (𝑇, 𝑆) tels que 𝑇 = 𝑋 et
loi
𝑆 = 𝑌.
La distance de Wasserstein est liée au problème du transport op-
timal, qui consiste à transformer une mesure finie 𝜇 sur un espace
X en une mesure 𝜈 sur ce même espace, moyennant une certaine
fonction de coût. Lorsque cette fonction de coût entre deux points
est simplement la distance entre ceux-ci, le coût optimal de trans-
formation des mesures nous donne la définition de la distance de

18
Wassertein (de premier ordre).

Une seconde mesure de distance que nous utiliserons est la dis-


tance en variation totale, dont nous rappelons la définition:
Definition 4.3 (Distance en variation totale).
Soient deux variables aléatoires 𝑋, 𝑌 à valeurs dans R. La dis-
tance en variation totale entre les distributions de 𝑋 et 𝑌 est la
quantité:
𝑑𝑇𝑉 (𝑋, 𝑌 ) := sup𝐵∈B (R) |P(𝑋 ∈ 𝐵) − P(𝑌 ∈ 𝐵)|
où B (R) dénote les ensembles Borel mesurables de R.
Le premier résultat, présenté ci-dessous (Theorem 3.4), mesure
les distances de variation totale et de Wasserstein d’ordre 1 entre le
résultat d’un réseau neuronal évalué pour une seule donnée d’entrée
𝑥 𝛼 et une variable aléatoire suivant une distribution normale.
Theorem 4.4 (Bornes uni-dimensionnelles).
Considérons un réseau neuronal aléatoire 𝑥 𝛼 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1
s’incrivant dans le cadre fourni par l’hypothèse 3.0, muni d’un paramètre
de non-linéarité 𝜎 borné polynomialement à l’ordre 𝑟 ≥ 1 tel que
dans la définition 2.1. Fixons une donnée d’entrée 𝑥 𝛼 ∈ R𝑛0 , ainsi
que des opérateurs de dérivées directionnelles 𝑉 = {𝑉1 , . . . , 𝑉𝑝 } tels
que dans la définition 2.2. Fixons également un multi-index 𝐽 ∈ N 𝑝
tel que |𝐽 | ≤ 𝑟, et soit 𝑍 une variable aléatoire de loi normale centrée
(𝐿+1)
avec variance 𝑉𝛼𝐽 𝑉𝛽𝐽 𝐾𝛼𝛽 où nous avons adopté la notation de
𝑥 𝛼 =𝑥 𝛽
la définition 2.2. Si la structure de covariance {𝐾 (ℓ) } évaluée au sin-
gleton {𝑥 𝛼 } est non-dégénérée (au sens de la définition 2.2) jusqu’à
l’ordre 𝑞 = |𝐽 | ≤ 𝑟, nous obtenons les résultats suivants:
1. Il existe 𝐶 > 0, dépendant de 𝑟, 𝑉, 𝐽, 𝑥 𝛼 , P, avec la propriété
suivante: pour tout 𝑖 = 1, . . . , 𝑛 𝐿+1 ,

19
n o
(𝐿+1) (𝐿+1)
max W1 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍), 𝑑𝑇𝑉 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍) ≤ 𝐶𝑛−1

et la constante 𝐶 peut être choisie uniformément lorsque ∥𝑥 𝛼 ∥ 2 /𝑛0


varie sur un ensemble compact.
2. la dépendance en 𝑛 en 1. est optimale lorsque 𝑞 = 0 dans le
sens suivant: soit 𝑍 ′ une variable aléatoire normale centrée de
(𝐿+1)
la même variance que 𝑧𝑖;𝛼 , il existe alors 𝐶0 , dépendant de 𝑥 0
et P, tel que pour tout 𝑖 = 1, . . . 𝑛 𝐿+1 ,
n o
(𝐿+1) (𝐿+1)
min W1 (𝑧𝑖;𝛼 , 𝑍 ), 𝑑𝑇𝑉 (𝑧𝑖;𝛼 , 𝑍 ) ≥ 𝐶0 𝑛−1
′ ′

Quelques remarques:

• Le point 1. fournit une borne décroissante en 𝑛, qui est la con-


trainte sur les dimensions des différentes couches du réseau
neuronal (𝑐 2 𝑛 ≤ 𝑛1 , . . . , 𝑛 𝐿 ≤ 𝑐 1 𝑛, où 𝑐 1 et 𝑐 2 sont des con-
stantes fixées: les dimensions des couches cachées croissent
linéairement avec 𝑛, avec des bornes fixées par 𝑐 1 et 𝑐 2 ).
• Le point 1. indique également que la constante 𝐶 peut être
choisie de manière à rester uniforme, peu importe comment la
2
quantité ∥𝑥𝑛𝛼0∥ varie sur un ensemble compact. Cela signifie que
la constante 𝐶 ne dépend pas spécifiquement des valeurs indi-
viduelles de 𝑥 𝛼 mais plutôt de la manière dont ces valeurs vari-
ent sur un ensemble compact. Ainsi, même si les valeurs de 𝑥 𝛼
changent dans cet ensemble compact, la constante 𝐶 reste sta-
ble et ne dépend que de la structure générale de cet ensemble.
Cette propriété permet d’avoir une certaine uniformité dans le
comportement du réseau neuronal sur cet ensemble de données
d’entrée.
• Le point 2. garantit l’existence d’une constante 𝐶0 telle que
la distance minimale entre la sortie du réseau neuronal et une

20
autre variable aléatoire normale centrée 𝑍 ′ soit au moins de
l’ordre de 𝑛−1 . Ce cas a lieu lorsque 𝑞 = 0, i.e. lorsque nous
considérons le cas où il n’y a pas de dépendance en direction
des dérivées pour la variable aléatoire en question. Autrement
dit, lorsque nous n’examinons pas la variation de la covari-
ance par rapport à différentes directions. Cette propriété assure
que, dans le cas considéré, la distance entre la sortie du réseau
neuronal et une variable aléatoire normale centrée décroît de
manière suffisamment rapide lorsque la taille du réseau neu-
ronal augmente.
Un exemple de situation où le théorème s’applique est le cas où
𝜎(𝑡) = 𝑅𝑒𝐿𝑈 (𝑡) = max{0, 𝑡}, 𝐶𝑏 = 0, 𝐶𝑤 = 2 et 𝑉 = {𝜕𝑥𝑖 } pour un
certain 𝑖. Pour une donnée d’entrée non-nulle 𝑥 𝛼 , un calcul simple
montre que
(ℓ) 2 2 (ℓ) 2
𝐾𝛼𝛼 = 𝑛0 ∥𝑥 𝛼 ∥ et 𝜕𝑥𝑖;𝛼 𝜕𝑥𝑖;𝛽 𝐾𝛼𝛽 = 𝑛0
𝛼=𝛽
La structure de covariance évaluée au singleton 𝑥 𝛼 est donc non-
dégénérée à l’ordre 0 à l’ordre 1 pour l’opérateur 𝑉.

Notons que 𝑉𝛼0 correspond à l’opérateur identité. Le théorème


dans le cas |𝐽 | = 0 fournit dès lors des théorèmes centraux-limites
(𝐿+1)
quantitatifs pour les variables aléatoires 𝑧𝑖;𝛼 .

Enfin, dans les approximations probabilistiques, une mesure typ-


ique de distance entre les distributions de deux variables aléatoires
𝑋, 𝑌 est la distance de Kolmogorov définie comme étant
𝑑 𝐾 (𝑋, 𝑌 ) := sup𝑡∈R |𝑃(𝑋 > 𝑡) − 𝑃(𝑌 > 𝑡)|
Nous observons l’inégalité suivante: 𝑑𝑇𝑉 > 𝑑 𝐾 . Le théorème
fournit donc également une borne sur la distance de Kolmogorov
(𝐿+1)
𝑑 𝐾 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍).

21
Nous donnons maintenant une preuve heuristique du résultat. Cette
preuve se basera sur les théorèmes et propositions suivants (le lecteur
intéressé par les détails des preuves peut se référer à [1]) :

Le premier théorème, pour lequel nous donnons une preuve heuris-


tique du résultat établit des bornes pour la variance et l’espèrance de
certaines quantités. Il montre en particulier que ces quantités devi-
ennent de plus en plus concentrées autour de leurs valeurs asympto-
tiques à mesure que le nombre de neurones augmente.
Theorem 4.5. (Thm 3.1, Corollaire 3.4, Equation (11.31) dans [12]).
Soit 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 un réseau neuronal aléatoire vérifi-
ant l’hypothèse 3.0 où, pour 𝑟 ≥ 1, 𝜎 est bornée polynomialement à
l’ordre 𝑟 au sens de la définition 2.1. Fixons également une collec-
tion d’entrées de réseau distinctes non nulles
𝑥 𝐴 := {𝑥 𝛼 , 𝛼 ∈ 𝐴}
et des opérateurs de dérivation directionnels {𝑉1 , . . . , 𝑉𝑝 } comme
dans (2.2). Supposons que soit 𝜎 est lisse, soit que la structure de
covariance à largeur infinie 𝐾 (ℓ) soit non dégénérée à l’ordre 𝑞 ≤ 𝑟
sur 𝑥 𝐴 par rapport à 𝑉, au sens de la définition 2.4. Alors nous
obtenons les relations asymptotiques suivantes :
1. Pour ℓ = 1, . . . , 𝐿, tous les multi-indices 𝐽1 , 𝐽2 d’ordre au plus
𝑞, et toutes les entrées de réseau 𝑥 𝛼1 , 𝑥 𝛼2 ∈ 𝑥 𝐴 , nous avons pour
tout 𝑛 ≥ 1
 
(ℓ) (ℓ) (ℓ+1)
max Var(𝑉𝐽1 𝛼1𝑉𝐽2 𝛼2 Σ𝛼1 𝛼2 ), 𝑉𝐽1 𝛼1𝑉𝐽2 𝛼2 E[Σ𝛼1 𝛼2 ] − 𝐾𝛼1 𝛼2 ≤ 𝐶𝑛−1 ,
(3.5.1)
où pour un multi-index 𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑝 ) nous avons utilisé la
notation (2.2) et adopté les conventions notationales
𝑉𝐽1 𝛼1𝑉𝐽2 𝛼1 Σ𝛼(ℓ)1 𝛼1 := 𝑉𝐽1 𝛼1𝑉𝐽2 𝛼2 Σ𝛼(ℓ)1 𝛼2 | 𝑥 𝛼1 =𝑥 𝛼2 ,
𝑉𝐽1 𝛼1𝑉𝐽2 𝛼1 E[Σ𝛼(ℓ)1 𝛼1 ] := 𝑉𝐽1 𝛼1𝑉𝐽2 𝛼2 E[Σ𝛼(ℓ)1 𝛼2 ]| 𝑥 𝛼1 =𝑥 𝛼2 ,
𝑉𝐽1 𝛼1𝑉𝐽2 𝛼1 𝐾𝛼(ℓ)1 𝛼1 := 𝑉𝐽1 𝛼1𝑉𝐽2 𝛼2 𝐾𝛼(ℓ)1 𝛼2 | 𝑥 𝛼1 =𝑥 𝛼2 .

22
La constante 𝐶 dépend de 𝛼1 , 𝛼2 , 𝐽1 , 𝐽2 , ℓ, 𝑟, 𝑞, 𝑃 mais est uni-
forme sur 𝛼1 , 𝛼2 lorsque les rapports ∥𝑥 𝛼1 ∥ 2 /𝑛0 , ∥𝑥 𝛼2 ∥ 2 /𝑛0 vari-
ent sur un ensemble compact.
2. Lorsque 𝑟 = 1 et 𝐴 = {𝛼} est un singleton, on a également que
(ℓ)
𝜅 3 (Σ𝛼𝛼 ) ≤ 𝐶1 𝑛−2 , (3.5.2)
(ℓ)
𝜅 4 (Σ𝛼𝛼 ) ≤ 𝐶2 𝑛−3 , (3.5.3)

où les constantes 𝐶1 , 𝐶2 dépendent de 𝛼, ℓ, 𝑃 et sont uniformes


sur 𝛼 lorsque le rapport ∥𝑥 𝛼 ∥ 2 /𝑛0 varie sur un ensemble com-
pact.
3. Encore lorsque 𝑟 = 1 et 𝐴 = {𝛼} est un singleton, il existe des
constantes strictement positives 𝐵1 , 𝐵2 et 𝐷 1 , 𝐷 2 (dépendant de
𝛼, ℓ, 𝑃 et uniformes sur 𝛼 lorsque le rapport ∥𝑥 𝛼 ∥ 2 /𝑛0 varie sur
un ensemble compact) telles que
(ℓ)
Var(Σ𝛼𝛼 ) − 𝐵1 𝑛−1 ≤ 𝐵2 𝑛−2 , (3.5.4)
(ℓ) (ℓ+1)
E[Σ𝛼𝛼 ] − 𝐾𝛼𝛼 − 𝐷 1 𝑛−1 ≤ 𝐷 2 𝑛−2 . (3.5.5)

Preuve. La preuve du théorème étant technique nous référons


le lecteur intéressé à [12] pour plus de détails. Nous donnons ci-
dessous une preuve heuristique du résultat.

Nous considérons d’abord 4 propriétés des champs neuronaux


aléatoires. A savoir:

• La séquence des champs 𝑧 𝛼(ℓ) est une chaîne de Markov par rap-
port à ℓ.
• Conditionnellement à l’algèbre sigma F (ℓ) définie par 𝑧 𝛼(ℓ) , le
champ 𝑧 𝛼(ℓ+1) est un champ gaussien avec des composantes in-
(ℓ+1)
dépendantes 𝑧𝑖;𝛼 .

23
(ℓ) (ℓ+1)
• La variance conditionnelle Σ𝛼𝛼 de chaque composante 𝑧𝑖;𝛼
dépend de 𝑧 𝛼(ℓ) uniquement à travers des variables aléatoires de
la forme 𝑛ℓ
(ℓ) 1 ∑︁ (ℓ)
𝑂 𝑓 := 𝑓 (𝑧𝑖;𝛼 ).
𝑛ℓ 𝑖=1

• Les moments centrés des observables collectives dépendent de


(ℓ)
𝑛 comme si les variables aléatoires 𝑓 (𝑧𝑖;𝛼 ) étaient indépen-
dantes :
h 𝑞i  𝑞 
(ℓ) (ℓ)
E 𝑂 𝑓 − E[𝑂 𝑓 ] = 𝑂 𝑛−⌈ 2 ⌉ , 𝑞 ≥ 0.

(ℓ)
Nous étudions à présent la moyenne et la variance de Σ𝛼𝛼 . En
particulier, grâce à un développement en séries de puissances, nous
trouvons des bornes en 1/𝑛 pour ces quantités.
Nous considérons dans un premier temps la fonction caractéris-
tique (𝜉 = (𝜉1 , . . . , 𝜉𝑚 ) sont des variables duales):
" 𝑚
!#
∑︁
(ℓ+1)
𝑝 (ℓ+1) (𝜉) := E exp −𝑖 𝜉𝑖 𝑧𝑖;𝛼
𝑖=1

En conditionnant sur 𝑧 𝛼(ℓ) et en utilisant le fait que, étant donné


𝑧 𝛼(ℓ) , les neurones à la couche ℓ + 1 suivent une distribution gaussi-
enne, nous obtenons:
  
1 (ℓ)
𝑝 (ℓ+1) (𝜉) := E exp − ∥𝜉 ∥ 2 Σ𝛼𝛼
2
Ensuite, en écrivant
h i h i
(ℓ) (ℓ) (ℓ) (ℓ) (ℓ)
𝜅 𝛼𝛼 := E Σ𝛼𝛼 , Δ𝛼𝛼 := Σ𝛼𝛼 − E Σ𝛼𝛼 ,

nous trouvons
    
1 (ℓ) 1 (ℓ)
𝑝 (ℓ+1) (𝜉) := E exp − ∥𝜉 ∥ 2 Δ𝛼𝛼 exp − ∥𝜉 ∥ 2 𝜅 𝛼𝛼 .
2 2
24
Où le second terme est précisément la fonction caractéristique
d’une Gaussienne centrée m-dimensionelle avec des composants i.i.d.
(ℓ)
de variance 𝜅 𝛼𝛼 . De plus, le premier terme peut s’écrire:

   i (−1) 𝑞
1 (ℓ)
∑︁ h
(ℓ) 𝑞
E exp − ∥𝜉 ∥ 2 Δ𝛼𝛼 = E (Δ𝛼𝛼 ) ∥𝜉 ∥ 2𝑞
2 𝑞≥0
2 𝑞!
𝑞

Enfin, puisque −∥𝜉 ∥ 2 représente le Laplacien dans les variables


(ℓ+1)
𝑧𝑖;𝛼 , nous avons, pour toute fonction test raisonnable 𝑓 , que


* 𝑚
h 
(ℓ+1)
i ∑︁ 1 h
(ℓ) 𝑞
i ∑︁ 
2
𝑞 
E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 = E (Δ 𝛼𝛼 ) 𝜕𝑧 ;𝛼 𝑓 𝑧 𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚
𝑞=0
2𝑞 𝑞! 𝑖=1
𝑖

Et la quatrième propriété annoncée en début de preuve, à savoir


h 𝑞i  𝑞 
(ℓ) (ℓ)
E 𝑂 𝑓 − E[𝑂 𝑓 ] = 𝑂 𝑛−⌈ 2 ⌉ , 𝑞 ≥ 0.

nous assure que notre expression est une série de puissance d’ordre
1/𝑛. En particulier,

h  i
(ℓ+1)  
E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 = E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 𝜅 (ℓ )
𝛼𝛼
h i
(ℓ) 2 *
E (Δ𝛼𝛼 ) 𝑚 
+
∑︁ 2
𝜕𝑧2𝑖 ;𝛼 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚

+
8 𝑖=1 (ℓ )
𝜅𝛼𝛼
 
+ 𝑂 𝑛−2 . □

Nous terminons avec une proposition qui nous sera utile:


Proposition 4.6. Soit 𝐹 une variable aléatoire centrée avec une vari-
ance finie 𝜎 2 > 0, et considérons 𝑍 ∼ 𝑁 (0, 𝜎 2 ). Supposons qu’il
existe une variable aléatoire auxiliaire intégrable 𝐴 ≥ 0 telle que,

25
conditionnellement à 𝐴, la variable aléatoire 𝐹 suive une distribu-
tion gaussienne centrée avec variance 𝐴. Alors, pour toutes fonc-
tions 𝑓 : R → R continûment différentiables et lipschitziennes et
toute 𝜑 : R+ → R bornée,

E[𝐹 𝑓 (𝐹)𝜑( 𝐴)] = E[ 𝐴 𝑓 ′ (𝐹)𝜑( 𝐴)], (3.6.1)

de sorte que, en particulier, 𝜎 2 = E( 𝐴). De plus, les deux propriétés


suivantes tiennent :
1. si 𝐴 est de carré intégrable, alors
8
𝑑𝑇𝑉 (𝐹, 𝑍) ≤ Var( 𝐴), (3.6.2)
𝜎4
4
𝑊1 (𝐹, 𝑍) ≤ 3 Var( 𝐴); (3.6.3)
𝜎

2. si E( 𝐴4 ) < ∞, alors
 
−𝜎 2 /2 1 1 2 3
min{2𝑑𝑇𝑉 (𝐹, 𝑍); 𝑊1 (𝐹, 𝑍)} ≥ 𝑒 Var( 𝐴) − E[( 𝐴 − 𝜎 ) ] + 𝑅 ,
8 48
(3.6.4)
1 𝜎 2 /2
où |𝑅| ≤ 384 𝑒 E[( 𝐴 − 𝜎 2 ) 4 ].
Preuve. Nous commencons avec la preuve de (3.6.1). Par hy-
pothèse, 𝐹 | 𝐴 ∼ 𝑁 (0, 𝐴), donc 𝐸 [𝐹 | 𝐴] = 0 et Var(𝐹 | 𝐴) = 𝐴.
Comme
√ 𝐹 conditionnellement à 𝐴 est gaussien, on peut écrire 𝐹 =
𝐴𝑍 où 𝑍 ∼ 𝑁 (0, 1) est indépendant de 𝐴. Considérons alors :
√ √
𝐸 [𝐹 𝑓 (𝐹)𝜑( 𝐴)] = 𝐸 [ 𝐴𝑍 𝑓 ( 𝐴𝑍)𝜑( 𝐴)].
Utilisant les propriétés des variables gaussiennes et la différenti-
ation sous l’espérance, nous avons 𝐸 [𝑍 𝑓 (𝑍)] = 𝐸 [ 𝑓 ′ (𝑍)]. Donc,

√ √ √ √ √
𝐸 [ 𝐴𝑍 𝑓 ( 𝐴𝑍)| 𝐴] = 𝐴𝐸 [𝑍 𝑓 ( 𝐴𝑍)| 𝐴] = 𝐴𝐸 [ 𝑓 ′ ( 𝐴𝑍)| 𝐴].

En prenant l’espérance par rapport à 𝐴, on obtient :

26
√ √ √
𝐸 [ 𝐴𝑍 𝑓 ( 𝐴𝑍)𝜑( 𝐴)] = 𝐸 [ 𝐴 𝑓 ′ ( 𝐴𝑍)𝜑( 𝐴)].

Comme 𝐴𝑍 a la même distribution que 𝐹, nous avons :

𝐸 [𝐹 𝑓 (𝐹)𝜑( 𝐴)] = 𝐸 [ 𝐴 𝑓 ′ (𝐹)𝜑( 𝐴)].


En particulier, en prenant 𝜑( 𝐴) = 1, on obtient 𝐸 [𝐹 𝑓 (𝐹)] =
𝐸 [ 𝐴 𝑓 ′ (𝐹)]. Pour 𝑓 (𝐹) = 𝐹, nous obtenons 𝐸 [𝐹 2 ] = 𝐸 [ 𝐴]. Comme
𝐸 [𝐹 2 ] = 𝜎 2 , il s’ensuit que 𝜎 2 = 𝐸 [ 𝐴].
Nous nous intéressons maintenant au point 1. En utilisant le
fait que la variable aléatoire 𝐹˜ := 𝐹/𝜎 vérifie les hypothèses avec
𝐴˜ := 𝐴/𝜎 2 , on voit qu’il suffit de considérer le cas où 𝜎 = 1. En
combinant la méthode de Stein avec le théorème de Lusin (voir [9,
p. 56]) comme dans [10, Lemme 3.1, Proposition 4.16 et Théorème
5.2], on obtient que

𝑑𝑇𝑉 (𝐹, 𝑍) ≤ sup |𝐸 [𝐹 𝑓 (𝐹) − 𝑓 ′ (𝐹)]|,


𝑓 :| 𝑓 |≤1,| 𝑓 ′ |≤2
où le supremum porte sur toutes les applications 𝑓 : R → R de
classe 𝐶 1 (R) telles que | 𝑓 | et | 𝑓 ′ | soient bornées par 1 et 2, respec-
tivement. De même, [11, Théorème 3.5.2] donne

𝑊1 (𝐹, 𝑍) ≤ sup |𝐸 [𝐹 𝑓 (𝐹) − 𝑓 ′ (𝐹)]|,


𝑓 :| 𝑓 ′ |≤1
où le supremum porte sur toutes les applications 𝑓 : R → R de
classe 𝐶 1 (R) telles que | 𝑓 ′ | soit borné par 1. En combinant (3.6.1)
avec les deux estimations ci-dessus et en prenant les espérances con-
ditionnelles, on obtient

𝑑𝑇𝑉 (𝐹, 𝑍) ≤ 2𝐸 [|𝐸 (1− 𝐴|𝐹)|] et 𝑊1 (𝐹, 𝑍) ≤ 𝐸 [|𝐸 (1− 𝐴|𝐹)|].


(dans cette partie de la preuve, 𝜎 2 = 1 par hypothèse). L’étape
clé (correspondant à une stratégie déjà exploitée dans [12, Section
3]) est maintenant d’observer que

27
𝐸 [|𝐸 (1 − 𝐴|𝐹)|] = 𝐸 [sgn(𝐸 (1 − 𝐴|𝐹))𝐸 (1 − 𝐴|𝐹)],

de sorte qu’en utilisant à nouveau le théorème de Lusin sous la


forme de [9, p. 56], on déduit que

𝐸 [|𝐸 (1 − 𝐴|𝐹)|] ≤ sup |𝐸 [𝑔(𝐹)(1 − 𝐴)]|,


𝑔∈𝐶
où le supremum porte sur la classe 𝐶 de toutes les fonctions con-
tinues 𝑔 : R → R à support compact et telles que |𝑔| ≤ 1. Fixons
𝑔 ∈ 𝐶. Puisque 𝐸 [ 𝐴] = 1, on a

𝐸 [𝑔(𝐹)(1 − 𝐴)] = 𝐸 [(𝑔(𝐹) − 𝐸 [𝑔(𝑍)])(1 − 𝐴)].


Pour estimer le côté droit de l’équation précédente, nous utilisons
le fait classique que, selon [12, Proposition 2.1], l’équation différen-
tielle

𝑔(𝑥) − 𝐸 [𝑔(𝑍)] = 𝑓 ′ (𝑥) − 𝑥 𝑓 (𝑥),


admet une solution unique bornée 𝑓𝑔 ∈ 𝐶 1 (R) telle que | 𝑓𝑔′ | ≤ 4.
En conséquence, on a

𝐸 [𝑔(𝐹)(1 − 𝐴)] = 𝐸 [ 𝑓𝑔′ (𝐹)(1 − 𝐴)] − 𝐸 [𝐹 𝑓𝑔 (𝐹)(1 − 𝐴)]

= 𝐸 [ 𝑓𝑔′ (𝐹)(1 − 𝐴)] − 𝐸 [ 𝑓𝑔′ (𝐹) 𝐴(1 − 𝐴)] = 𝐸 [ 𝑓𝑔′ (𝐹)(1 − 𝐴) 2 ],

où dans la deuxième égalité, nous avons utilisé le fait que 𝐸 [𝐹 𝑓𝑔 (𝐹)| 𝐴] =


𝐴𝐸 [ 𝑓𝑔′ (𝐹)| 𝐴], par (5.12). Cela implique que |𝐸 [𝑔(𝐹)(1 − 𝐴)]| ≤
4Var( 𝐴), et la preuve du Point (1) est complète.
Pour traiter le Point (2), considérons un 𝜎 2 > 0 générique et
observons que, selon [11, Proposition C.3.5],

28
2𝑑𝑇𝑉 (𝐹, 𝑍) = sup |𝐸 [ℎ(𝐹)] − 𝐸 [ℎ(𝑍)]|,
ℎ:|ℎ|≤1
où le supremum porte sur toutes les fonctions mesurables de Borel
ℎ dont la valeur absolue est bornée par 1. En vertu de (3.6), on a
donc que 2𝑑𝑇𝑉 (𝐹, 𝑍) et 𝑊1 (𝐹, 𝑍) sont bornés inférieurement par la
quantité
h i 2
−𝐴/2
|𝐸 [cos(𝐹)] − 𝐸 [cos(𝑍)]| = 𝐸 𝑒 − 𝑒 −𝜎 /2 .
La relation (3.6.4) découle maintenant de l’écriture du développe-
ment de Taylor

2 2 𝑒 −𝜎 2 /2 𝐴 2 3
 2
 −𝜎2 /2    
−𝜎 2 /2 −𝜎 2 /2𝐴 𝜎 𝑒 𝐴 𝜎 𝜎
𝑒 −𝐴/2 −𝑒 = −𝑒 − + − − − +𝑅0 ,
2 2 2 2 2 6 2 2
 4
1 𝐴 𝜎2
avec |𝑅0 | ≤ 24 2 − 2 , et en prenant les espérances des deux
côtés.

29
Remarque 4.7. Si 𝑍1 ∼ 𝑁 (0, 𝜎12 ) et 𝑍2 ∼ 𝑁 (0, 𝜎22 ), alors [8, Propo-
sition 3.6.1] implique que
2
𝑑𝑇𝑉 (𝑍1 , 𝑍2 ) ≤ 2 2
× |𝜎12 − 𝜎22 |. (3.7.1)
𝜎1 ∨ 𝜎2
De plus, en choisissant comme couplage 𝑇 = 𝜎1 · 𝑍 et 𝑆 = 𝜎2 · 𝑍,
avec 𝑍 ∼ 𝑁 (0, 1), on en déduit que

𝑊1 (𝑍1 , 𝑍2 ) ≤ |𝜎1 − 𝜎2 |. (3.7.2)

Preuve du Théorème 3.4


Fixons 𝐽 et 𝑥 𝛼 comme dans l’énoncé. Conditionnellement à 𝐹 (𝐿) , la
(𝐿+1)
variable aléatoire 𝑉𝛼𝐽 𝑧𝑖;𝛼 est centrée et gaussienne, avec une vari-
(𝐿)
ance 𝑉𝛼𝐽 𝑉𝛽𝐽 Σ𝛼𝛽 𝑥 𝛼 =𝑥 𝛽
:= 𝐴.
En écrivant 𝑑 pour 𝑑𝑇𝑉 ou 𝑊1 et en désignant par 𝑌 une variable
aléatoire gaussienne centrée avec une variance E( 𝐴), on en déduit
que
(𝐿+1) (𝐿+1)
𝑑 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍) ≤ 𝑑 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑌 ) + 𝑑 (𝑌 , 𝑍) := 𝑃 + 𝑄,

et la conclusion du Point (1) est obtenue en bornant 𝑃 et 𝑄 à l’aide de


(3.6.2)–(3.6.3) et (3.7.1)–(3.7.2), respectivement, puis en appliquant
(3.5.1) dans le cas 𝐽1 = 𝐽2 = 𝐽, ℓ = 𝐿 et 𝛼1 = 𝛼2 = 𝛼. Le Point
(𝐿)
(2) de l’énoncé découle de (3.6.4) dans le cas 𝐴 = Σ𝛼𝛼 et 𝜎 2 =
(𝐿)
E(Σ𝛼𝛼 ), qu’il faut combiner avec (3.5.4), et le fait que, dans cette
configuration spécifique et en vertu de (3.5.3),

|𝑅 + E[( 𝐴 − 𝜎 2 ) 3 ]| ≤ 𝑄𝑛−2 ,

pour une certaine constante 𝑄 indépendante de 𝑛. Nous observons


que, pour déduire cette dernière relation, nous avons utilisé les deux
identités élémentaires : E[( 𝐴 − 𝜎 2 ) 3 ] = 𝜅 3 ( 𝐴), et E[( 𝐴 − 𝜎 2 ) 4 ] =
𝜅 4 ( 𝐴) + 3𝜅 2 ( 𝐴) 2 .

30
5 TCL quantitatif en dimension finie
Le second résultat concerne le niveau fini-dimensionnel. Nous
commencons par rappeler la définition de distance convexe entre
deux distributions.
Definition 5.5 (Distance convexe).
Pour tout entier 𝑚 ≥ 1, la distance convexe entre les distribu-
tions de deux vecteurs aléatoires m-dimensionnels 𝑋, 𝑌 est

𝑑 𝑐 (𝑋, 𝑌 ) := sup𝐵 |𝑃(𝑋 ∈ 𝐵) − 𝑃(𝑌 ∈ 𝐵)|

où le supremum est pris sur tous les ensembles convexes 𝐵 ⊂ R𝑚 .


La distance convexe est une généralisation de la distance de Kol-
mogorov dans un contexte multivarié.
Rappelons également la définition d’un champ aléatoire:
Definition 5.6 (Champ aléatoire).
Soit un espace de probabilité (Ω, F , 𝑃). Un champ aléatoire est
une collection de variables aléatoires sur cet espace de probabilité
indexée par des éléments d’un espace topologique 𝑇. Un champ
aléatoire est donc une collection {𝐹𝑡 ; 𝑡 ∈ 𝑇 } où chaque 𝐹𝑡 est une
variable aléatoire.
Le champ aléatoire est dit gaussien lorsque les variables aléa-
toires sont distribuées selon une loi gaussienne.
Nous énonçons maintenant notre second résultat, qui fournit une
borne pour la distance convexe entre la sortie d’un réseau neuronal
au niveau fini-dimensionnel et une variable aléatoire normale de
même dimension. Ce résultat est donné sans preuve mais le lecteur
intéressé peut se référer à [1].
Theorem 5.7 (Bornes finies-dimensionnelles).
Soit 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 un réseau neuronal aléatoire
s’inscrivant dans le cadre fournit par l’hypothèse 3.0 avec un paramètre

31
de non-linéarité 𝜎 borné polynomialement jusqu’à l’ordre 𝑟 ≥ 1
au sens de la définition 2.1. Fixons 𝑚 ≥ 1, un ensemble A =
{𝛼1 , . . . , 𝛼𝑚 }, une collection finie d’entrées du réseau distinctes non-
nulles
{𝑥 𝛼 : 𝛼 ∈ A} ⊆ R𝑛0
et une collection de dérivées directionnelles 𝑉 = {𝑉1 , . . . , 𝑉𝑝 } telle
que dans la définition 2.1. Considérons également une famille B =
{(𝐽𝑘 , 𝛼𝑘 ) : 𝑘 = 1, . . . , 𝑀 } de paires distinctes tels que 𝑀 ≥ 2 et où
𝐽𝑘 ∈ N 𝑝 est un multi-index vérifiant |𝐽𝑘 | ≤ 𝑟 et 𝛼𝑙 ∈ A. Enfin, pour
tout multi-index 𝐽 = ( 𝑗1 , . . . , 𝑗 𝑝 ) ∈ N 𝑝 posons
 
𝐽 𝑘 (𝐿+1)
𝐺 := 𝑉𝛼𝑘 Γ𝑖;𝛼𝑘 ∈ R 𝑀×𝑛 𝐿+1
1≤𝑖≤𝑛 𝐿+1 ,(𝐽 𝑘 ,𝛼 𝑘 )∈B
(𝐿+1)
où R𝑛0 ∋ 𝑥 𝛼 ↦→ (Γ1;𝛼 , . . . , Γ𝑛(𝐿+1)
𝐿+1 ;𝛼
) est un champ aléatoire gaussien
avec covariance
 
(𝐿+1) (𝐿+1) (𝐿+1)
Cov Γ𝑖;𝛼 , Γ 𝑗;𝛽 = 𝛿𝑖 𝑗 𝐾𝛼𝛽

comme défini dans le théorème 1.1. Nous obtenons alors les résul-
tats suivants:

(1) Supposons que la structure de covariance en largeur infinie


{𝐾 (ℓ) : ℓ = 1, ..., 𝐿 + 1} soit non-dégénérée jusqu’à l’ordre 𝑟 sur
{𝑥 𝛼 : 𝛼 ∈ 𝐴} par rapport à 𝑉, au sens de la Définition 2.2. Alors, la
matrice de covariance de 𝐺 est inversible, et il existe une constante
𝐶0 > 0 dépendant de 𝜎, 𝑉, 𝑟, 𝐵, P telle que
n o (𝐽𝑘 ,𝛼𝑘 )∈𝐵 
(𝐿+1)
𝑑 𝑐 𝑉𝛼𝐽𝑘𝑘 𝑧𝑖;𝛼𝑘 , 𝐺 ≤ 𝐶0 𝑛−1/2 , (4.7.1)
1≤𝑖≤𝑛 𝐿+1

n o (𝐽𝑘 ,𝛼𝑘 )∈𝐵


𝐽 𝑘 (𝐿+1)
où nous avons implicitement considéré 𝑉𝛼𝑘 𝑧𝑖;𝛼𝑘 et 𝐺 comme
1≤𝑖≤𝑛 𝐿+1
des vecteurs aléatoires de dimension (𝑀 · 𝑛 𝐿+1 ).

32
(2) Supposons que la non-linéarité 𝜎 soit lisse (𝜎 ∈ 𝐶 ∞ (R)).
Alors, il existe une constante 𝐶1 > 0 dépendant de 𝜎, 𝑉, 𝑟, 𝐵, P
telle que n 
o (𝐽𝑘 ,𝛼𝑘 )∈𝐵
𝐽 𝑘 (𝐿+1)
𝑑 𝑐 𝑉𝛼𝑘 𝑧𝑖;𝛼𝑘 , 𝐺 ≤ 𝐶1 𝑛−1/2 ,

(4.7.2)
1≤𝑖≤𝑛 𝐿+1


(𝐽 𝑘 ,𝛼 𝑘 )∈𝐵
𝐺 ′ := 𝑉𝛼𝐽𝑘𝑘 Γ𝑖;𝛼


𝑘 1≤𝑖≤𝑛 𝐿+1
∈ R 𝑀×𝑛 𝐿+1 ,
′ , ..., Γ′
et R𝑛0 ∋ 𝑥 𝛼 ↦→ (Γ1;𝛼 𝑛 𝐿+1 ;𝛼 ) est le champ gaussien centré avec
covariance
′ (𝐿) (𝐿+1)
Cov(Γ𝑖;𝛼 , Γ′𝑗;𝛽 ) = 𝛿𝑖 𝑗 E[Σ𝛼𝛽 ] = 𝛿𝑖 𝑗 𝜅 𝛼𝛽

Le théorème établit que, sous certaines conditions (non-dégénérescence


de la structure de covariance et non-linéarité lisse), les dérivées di-
rectionnelles du réseau neuronal peuvent être approximées par un
champ gaussien avec une précision donnée par une borne en 𝑛−1/2 .
Cela signifie que pour des réseaux de grande taille, les propriétés
statistiques des dérivées directionnelles sont bien décrites par un
champ gaussien, facilitant l’analyse et la compréhension des réseaux
neuronaux profonds.

33
6 Illustration du TCL quantitatif en dimension 1
Dans cette section, nous utilisons un code R afin d’illustrer le
comportement des sorties d’un réseau de neurones simple avec une
largeur de couche finie en comparaison avec une distribution gaussi-
enne. Nous générons des échantillons de données i.i.d., entraînons
un réseau de neurones, et comparons ses sorties à celles d’une vari-
able gaussienne ayant la même moyenne et écart-type. Notons que
la taille d’échantillons et le nombre de couches du réseau varient
pour chaque réseau.
Nous utilisons des histogrammes pour visualiser la distribution
des sorties du réseau et des variables gaussiennes, et nous calculons
nos deux mesures clés pour quantifier la proximité entre ces deux
distributions :

1. Distance de Wasserstein : quantifie la "distance" entre les deux


distributions en termes de transport optimal.
2. Distance de Variation Totale : évalue la différence globale entre
les distributions en termes de variation totale des fréquences.

Nous utiliserons 3 tailles d’échantillons: 𝑛 = 500, 𝑛 = 1000 et


𝑛 = 2000.

34
Figure 2: Histogramme des sorties du réseau de neurones vs variables gaussi-
ennes, n=500.

Les distances de Variation Totale et de Wasserstein pour nos 3


tailles d’échantillons sont reprises dans le tableau suivant.
Nombre d’observations (𝑛) Distance de Wasserstein Distance de Variation Totale
500 0.0441 0.0980
1000 0.0491 0.1130
2000 0.0352 0.0760
Table 1: Distances pour différentes tailles d’échantillons.

Nous observons des distances relativement similaires pour les


échantillons de taille 𝑛 = 500 et 𝑛 = 1000, ce qui à première vue
peut sembler contre-intuitif (les distances augmentent même lorsque
l’on passe de 𝑛 = 500 à 𝑛 = 1000) et une diminution de ces dernières
pour notre plus grand échantillon (𝑛 = 2000). Les distances ne suiv-
ent donc pas une tendance strictement croissante ou décroissante
avec la taille de l’échantillon. Cependant, les plus grandes tailles
d’échantillons (𝑛 = 2000) tendent à réduire les divergences entre les

35
Figure 3: Histogramme des sorties du réseau de neurones vs variables gaussi-
ennes, n=1000.

Figure 4: Histogramme des sorties du réseau de neurones vs variables gaussi-


ennes, n=2000.

36
distributions.

Les variations des distances pour 𝑛 = 500 et 𝑛 = 1000 indiquent


en effet que la taille de l’échantillon seule ne garantit pas toujours
une meilleure correspondance. D’autres facteurs, comme la vari-
abilité aléatoire dans les données et les caractéristiques spécifiques
du modèle, jouent également un rôle important.

De façon générale, la simulation tend à confirmer le théorème


central-limite quantitatif en 1 dimension, une taille d’échantillon
plus grande permettant d’obtenir une meilleure correspondance en-
tre les sorties du réseau de neurones et les variables gaussiennes.

Nous complétons maintenant ces résultats avec un test de nor-


malité.

37
7 Annexe
Code R utilisé pour générer les histogrammes de la section 5.
1 # Installer et charger les packages necessaires
2 if (!requireNamespace("nnet", quietly = TRUE)) {
3 install.packages("nnet")
4 }
5 if (!requireNamespace("ggplot2", quietly = TRUE)) {
6 install.packages("ggplot2")
7 }
8 if (!requireNamespace("transport", quietly = TRUE)) {
9 install.packages("transport")
10 }
11 library(nnet)
12 library(ggplot2)
13 library(transport)
14

15 # Fonction pour executer l analyse et creer les histogrammes


16 run_analysis <- function(n_samples) {
17 # Parametres
18 n_features <- 30 # Nombre de variables i.i.d
19
20 # Determiner la taille de la couche du reseau neuronal en
fonction de la taille de l’echantillon
21 # Utiliser un seuil raisonnable pour la taille des couches
22 max_layer_size <- 20 # Taille maximale de la couche
23 layer_size <- min(n_samples / 50, max_layer_size) # Ajuster la
taille en fonction de l’echantillon
24

25 # Generer des donnees i.i.d.


26 set.seed(123)
27 X <- matrix(rnorm(n_samples * n_features), nrow = n_samples,
ncol = n_features)
28 Y <- rnorm(n_samples)
29

30 # Construire un reseau de neurones simple avec la taille de


reseau determinee (la fonction nnet ajuste les parametres
du reseau en utilisant un algorithme d optimisation pour
minimiser l erreur entre les sorties predites et les
valeurs cibles
31 model <- nnet(X, Y, size = layer_size, linout = TRUE, maxit =
100)
32
33 # Obtenir la sortie du modele (le modele ajuste est applique
aux nouvelles donnees pour generer des predictions)
34 outputs <- predict(model, X)
35

36 # Calculer les variables aleatoires gaussiennes

38
37 output_mean <- mean(outputs)
38 output_sd <- sd(outputs)
39 Z <- rnorm(n_samples, mean = output_mean, sd = output_sd)
40
41 # Determiner les breaks pour les histogrammes
42 breaks <- seq(min(c(outputs, Z)), max(c(outputs, Z)), length.
out = 31)
43
44 # Calculer les histogrammes
45 hist_nn <- hist(outputs, breaks = breaks, plot = FALSE)
46 hist_gaussian <- hist(Z, breaks = breaks, plot = FALSE)
47
48 # Normaliser les histogrammes
49 hist_nn_density <- hist_nn$counts / sum(hist_nn$counts)
50 hist_gaussian_density <- hist_gaussian$counts / sum(hist_
gaussian$counts)
51
52 # Fonction pour calculer la distance de variation totale
53 total_variation_distance <- function(hist1, hist2) {
54 0.5 * sum(abs(hist1 - hist2))
55 }
56
57 # Calculer la distance de Wasserstein
58 w1_distance <- wasserstein1d(as.vector(outputs), Z)
59

60 # Calculer la distance de variation totale


61 dT_distance <- total_variation_distance(hist_nn_density, hist_
gaussian_density)
62
63 # Tracer les histogrammes
64 df <- data.frame(
65 values = c(as.vector(outputs), Z),
66 type = rep(c("Neural Network Outputs", "Gaussian Variables")
, each = n_samples)
67 )
68

69 plot <- ggplot(df, aes(x = values, fill = type)) +


70 geom_histogram(position = "identity", alpha = 0.5, bins =
length(breaks) - 1) +
71 labs(title = sprintf("Histogramme des sorties du reseau de
neurones vs. Variables gaussiennes (n = %d)", n_samples),
72 x = "Valeur", y = "Frequence") +
73 theme_minimal()
74
75 return(list(plot = plot, w1_distance = w1_distance, dT_
distance = dT_distance))
76 }
77

78 # Executer l analyse pour differents nombres d observations

39
79 results_500 <- run_analysis(500)
80 results_1000 <- run_analysis(1000)
81 results_2000 <- run_analysis(2000)
82
83 # Afficher les histogrammes
84 print(results_500$plot)
85 print(results_1000$plot)
86 print(results_2000$plot)
87
88 # Sauvegarder les histogrammes dans des fichiers separes
89 ggsave("histogram_500.png", plot = results_500$plot, width = 8,
height = 6)
90 ggsave("histogram_1000.png", plot = results_1000$plot, width =
8, height = 6)
91 ggsave("histogram_2000.png", plot = results_2000$plot, width =
8, height = 6)
92
93 # Imprimer les distances
94 cat(sprintf("Pour n = 500:\n"))
95 cat(sprintf("Distance de Wasserstein: %.4f\n", results_500$w1_
distance))
96 cat(sprintf("Distance de variation totale: %.4f\n", results_500$
dT_distance))
97 cat(sprintf("Pour n = 1000:\n"))
98 cat(sprintf("Distance de Wasserstein: %.4f\n", results_1000$w1_
distance))
99 cat(sprintf("Distance de variation totale: %.4f\n", results_1000
$dT_distance))
100 cat(sprintf("Pour n = 2000:\n"))
101 cat(sprintf("Distance de Wasserstein: %.4f\n", results_2000$w1_
distance))
102 cat(sprintf("Distance de variation totale: %.4f\n", results_2000
$dT_distance))

40
8 Bibliographie
[1] Stefano Favaro, Boris Hanin, Domenico Marinucci, Ivan Nour-
din, Giovanni Peccati: “Quantitative CLTs in Deep Neural Net-
works”, 2023; arXiv:2307.06092.
[2] Neal, R. M., "Bayesian Learning for Neural Networks". PhD
Thesis, University of Toronto, 1996.
[3] Lee, J., Lin, H., "A Feature Space Perspective on the Conver-
gence of Deep Neural Networks", dans Proceedings of the 35th
International Conference on Machine Learning (Vol. 80, pp.
2921-2930), 2018.
[4] Novak, R., Poole, B., Bartlett, P., "Bayesian Convergence of
Neural Networks: Empirical Evidence", dans Proceedings of
the 35th International Conference on Machine Learning (Vol.
80, pp. 1005-1014), 2018.
[5] Chizat, L., Bach, F., Alaya, L., "The Convergence Rate of Neu-
ral Networks to Gaussian Processes", dans Proceedings of the
37th International Conference on Machine Learning (Vol. 119,
pp. 1727-1737), 2020.
[6] Zhang, Y., Han, Z., Lin, X., "Empirical Validation of Gaussian
Process Approximations in Neural Networks", dans Proceed-
ings of the 38th International Conference on Machine Learning
(Vol. 139, pp. 1596-1606), 2021.
[7] Boris Hanin: “Random fully connected neural networks as per-
turbatively solvable hierarchies”, 2022; arXiv:2204.01058.
[8] Ivan Nourdin, Giovanni Peccati: "The optimal fourth moment
theorem." Proceedings of the American Mathematical Society,
2015, 145(7):3123–3133.

41
[9] Walter Rudin: "Real and complex analysis", McGraw-Hill Book
Co., New York, third edition, 1987
[10] Ivan Nourdin: "Lectures on Gaussian approximations with Malli-
avin calculus", dans Séminaire de probabilités XLV, pages 3–89.
Cham: Springer, 2013.
[11] Ivan Nourdin and Giovanni Peccati, "Normal approximations
with Malliavin calculus: from Stein’s method to universality",
volume 192. Cambridge University Press, 2012.
[12] Ivan Nourdin and Giovanni Peccati: "The optimal fourth mo-
ment theorem", Proceedings of the American Mathematical So-
ciety, 145(7):3123–3133, 2015.

42

Vous aimerez peut-être aussi