Mémoire
Mémoire
Mémoire
2
Table des matières
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Revue de littérature . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Hypothèses et définitions . . . . . . . . . . . . . . . . . . . . . . 14
4 TCL quantitatif en dimension 1 . . . . . . . . . . . . . . . . . . . 17
5 TCL quantitatif en dimension finie . . . . . . . . . . . . . . . . . 31
6 Illustration du TCL quantitatif en dimension 1 . . . . . . . . . . . 34
7 Annexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
8 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
1
1 Introduction
Ce mémoire est un travail sur l’article « Quantitative CLTS in
deep neural networks »[1].
2
une sortie à d’autres neurones. Ceci est représenté sur la figure
1, chaque cercle symbolisant un neurone, avec en vert la couche
d’entrée, en bleu la (les) couche(s) intermédiaire(s), et en jaune la
couche de sortie du réseau. Notons que la largeur de chaque couche,
concept-clé, est simplement le nombre de neurones associé à chaque
couche. Dans la figure 1, la largeur de la couche intermédiaire est
de 5.
3
Supposons maintenant que nous observions les entrées suivantes:
𝑥1 = 1, car les vagues sont bonnes, 𝑥2 = 0, car il y a foule et 𝑥3 = 1,
car il n’y a pas eu d’attaque de requin récemment. Nous devons
ensuite attribuer des poids à chaque variable pour en déterminer
l’importance dans notre prise de décision: 𝑤 1 = 5, car il est rare
d’avoir des vagues, 𝑤 2 = 2, car nous sommes habitués à la foule,
𝑤 3 = 4, car nous avons peur des requins.
4
De façon rigoureuse, le réseau le plus simple, le réseau neuronal
entièrement connecté, est défini de la manière suivante:
Definition 1.1 (Réseau neuronal entièrement connecté).
Fixons un entier positif L ainsi que L+2 entiers positifs 𝑛0 , . . . , 𝑛 𝐿+1
et une fonction 𝜎 : R → R. Un réseau neuronal entièrement con-
necté de profondeur L aux dimensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 ,
de largeurs de couches 𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité 𝜎 est une fonc-
tion 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝐿+1) ∈ R𝑛 𝐿+1 de la forme suivante:
(1)
(ℓ) 𝑊 𝑥 𝛼 + 𝑏 (1) , ℓ=1
𝑧𝛼 =
𝑊 (ℓ) 𝜎(𝑧 𝛼(ℓ−1) ) + 𝑏 (ℓ) , ℓ = 2, . . . , 𝐿 + 1.
où 𝑧 𝛼(ℓ) ∈ R𝑛ℓ et 𝑏 (ℓ) ∈ R𝑛ℓ sont des vecteurs, 𝑊 (ℓ) ∈ R𝑛ℓ ×𝑛ℓ −1 des
matrices, et 𝜎 appliqué à un vecteur est 𝜎 appliqué à chaque com-
posante. Notons que 𝜎 sert de fonction d’activation non-linéaire.
Les paramètres d’un tel réseau de neurones sont les poids 𝑊𝑖(𝑙)
𝑗 et
les biais 𝑏𝑖(𝑙) associés à chaque couche. Le but étant, pour un jeu de
données, de trouver une combinaison de poids et de biais telle que
𝑧 𝛼(𝐿+1) ≈ 𝑓 (𝑥 𝛼 ) pour 𝑥 𝛼 appartenant au jeu de données ou non, avec
𝑓 la fonction que l’on essaie d’approximer (dans le cas de l’exemple
simple précédant, la fonction binaire qui renseigne sur le fait d’aller
surfer ou non). Une telle optimisation requiert typiquement deux
étapes:
5
Definition 1.2 (Réseau neuronal aléatoire entièrement connecté).
Fixons un entier positif L ainsi que L+2 entiers positifs 𝑛0 , . . . , 𝑛 𝐿+1 ,
une fonction 𝜎 : R → R ainsi que deux constantes 𝐶𝑏 ≥ 0 et
𝐶𝑤 > 0. Un réseau neuronal aléatoire entièrement connecté
de profondeur L aux dimensions d’entrée 𝑛0 et de sortie 𝑛 𝐿+1 , de
largeurs de couches 𝑛1 , . . . , 𝑛 𝐿 et de non-linéarité 𝜎 est un réseau
neuronal de la forme donnée en (1.1) où les paramètres sont aléa-
toires, indépendants, mais de loi normale connue:
𝑊𝑖(𝑙) 𝐶𝑤 (𝑙)
𝑗 ∼ N (0, 𝑛𝑙−1 ), 𝑏 𝑖 ∼ N (0, 𝐶𝑏 )
6
fique pour couvrir un large éventail de valeurs possibles et aider
le réseau à explorer efficacement l’espace des paramètres.
3. Facilité d’utilisation. L’initialisation des poids avec une dis-
tribution normale est simple et facile à implémenter, ce qui en
fait un choix pratique dans de nombreux cadres d’apprentissage
automatique.
7
tant qu’élément de 𝐶 𝑟−1 (R𝑛0 , R𝑛 𝐿+1 ), vers un processus Gaussien de
(𝐿+1)
𝑛 𝐿+1 composantes iid centrées (𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑛 𝐿+1 ) avec pour
covariance limite
(𝐿+1) (𝐿+1) (𝐿+1)
𝐾𝛼𝛽 := lim𝑛1 ,...,𝑛 𝐿 →∞ Cov(𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 )
satisfaisant
( (𝑙) (𝑙)
(𝑙+1) 𝐶𝑏 + 𝐶𝑤 ⟨𝜎(𝑧𝑖;𝛼 ) , 𝜎(𝑧𝑖;𝛽 )⟩𝐾 (𝑙) 𝑙≥1
𝐾𝛼𝛽 =
𝐶𝑏 + 𝐶𝑛𝑤0 𝑥 𝛼 · 𝑥 𝛽 𝑙=0
(𝑙) (𝑙)
où pour 𝑔 : R2 → R nous écrivons ⟨𝑔(𝑧𝑖;𝛼 ) , 𝑔(𝑧𝑖;𝛽 )⟩𝐾 (𝑙) pour la
valeur moyenne de 𝑔 par rapport à la distribution
(𝑙) (𝑙)
!!
(𝑙) (𝑙) 𝐾 𝛼𝛼 𝐾
(𝑧𝑖;𝛼 , 𝑧𝑖;𝛽 ) ∼ N 0, (𝑙) 𝛼𝛽 (𝑙)
𝐾𝛼𝛽 𝐾 𝛽𝛽
8
(2)
La covariance limite 𝐾𝛼𝛽 est donc simplement proportionnelle à
la covariance entre les sorties des neurones de la couche de sortie
pour les entrées 𝛼 et 𝛽. Si nous supposons en plus que les entrées
sont des variables aléatoires indépendantes, la covariance entre 𝑥 𝛼 et
(2)
𝑥 𝛽 est nulle. Dans ce cas, la covariance limite 𝐾𝛼𝛽 sera également
nulle.
9
itération, rendant le processus d’apprentissage plus progressif),
et l’erreur quadratique moyenne comme fonction de perte, la
trajectoire d’optimisation correspond à celle obtenue en rem-
placant le réseau non-linéaire 𝑧 𝛼𝐿+1 par sa linéarisation autour
des paramètres aléatoires initiaux (poids et biais) du réseau.
10
2. Théorème central-limite quantitatif à dimension finie. Nous
considérons maintenant une collection finie d’éléments d’entrée
𝑥 𝛼 ∈ R𝑛0 , 𝛼 ∈ A et cherchons une borne supérieure sur la dis-
(𝐿+1)
tance convexe entre le vecteur (𝑧𝑖;𝛼 , 𝛼 ∈ A) et la Gaussienne
correspondante. Une borne supérieure de l’ordre de la racine
carrée de la taille des couches du réseau est trouvée.
3. Théorème central-limite quantitatif fonctionnel. Nous con-
sidérons ici 𝑧 𝛼(𝐿+1) vu comme élément d’un espace de Sobolev
et sa limite pour une profondeur de champ infinie. Des bornes
sont trouvées pour des distances spécifiques, proportionnelles
a l’inverse de la profondeur du champ considérée.
11
2 Revue de littérature
Avant la publication de l’article "Quantitative CLTs in deep neu-
ral networks" [1], la littérature existante avait établi les bases théoriques
de la convergence asymptotique des réseaux de neurones vers des
processus gaussiens, mais la vitesse exacte de cette convergence et
les conditions spécifiques n’étaient pas entièrement caractérisées.
Les recherches antérieures avaient montré que les réseaux de neu-
rones se comportent comme des processus gaussiens sous certaines
conditions asymptotiques, mais des questions restaient sur les taux
de convergence précis et les impacts des différentes structures de
réseau. L’article dont il est question ici apporte des contributions
importantes en quantifiant ces taux de convergence et en clarifiant
les conditions nécessaires pour une convergence précise.
12
Novak et al. ont fourni des résultats empiriques illustrant que
même avec une largeur finie, les réseaux de neurones peuvent
approximativement se comporter comme des processus gaussiens,
en particulier pour des tâches de régression.
4. Convergence Rate Analysis (Chizat et al., 2020) [5] :
Chizat et al. ont examiné la vitesse à laquelle les réseaux de
neurones se rapprochent d’un processus gaussien lorsque la
largeur des couches augmente. Ils ont montré que la vitesse de
convergence peut dépendre fortement de la structure du réseau
et de ses paramètres.
5. Empirical Validation (Zhang et al., 2021) [6] :
Les études empiriques ont montré que pour des architectures
réelles et des tailles d’échantillons finies, les réseaux de neu-
rones peuvent se rapprocher d’un comportement gaussien, mais
avec des écarts que les théories asymptotiques ne capturent pas
toujours parfaitement.
13
3 Hypothèses et définitions
Les définitions et résultats suivants seront utilisés tout au long
du travail.
Definition 3.1 (Borne polynomiale d’ordre r).
Pour 𝑟 ≥ 1 fixé, une fonction 𝜎 : R → R est bornée polynomiale-
ment à l’ordre 𝑟 si, soit 𝜎 est 𝑟 fois continûment différentiable, soit
𝜎 est 𝑟 − 1 fois continûment différentiable et sa (𝑟 − 1)-ème dérivée
est une fonction linéaire continue par morceaux avec un nombre fini
de points de discontinuité pour sa dérivée. Dans les deux cas on
demande aussi que la r-ème dérivée soit bornée polynomialement:
𝑟
∃𝑘 ≥ 0 tel que (1 + |𝑥|) −𝑘 𝑑𝑥
𝑑
𝑟 𝜎(𝑥) 𝐿 ∞ (R)
<∞
et que pour tout 𝑥 𝛼 , 𝑥 𝛽 et 𝐼, 𝐽 tels que |𝐼 |, |𝐽 | = 𝑟, les dérivées par-
(𝑙)
tielles mixtes 𝐷 𝛼𝐽 𝐷 𝐼𝛽 Σ𝛼𝛽 soient bien définies et finies avec proba-
bilité 1, où Σ (𝑙) est défini selon la formule à venir (Lemme 2.1.),
et, pour un multi-index 𝐽 = ( 𝑗 1 , . . . , 𝑗 𝑛0 ), |𝐽 | := 𝑗 1 + . . . + 𝑗 𝑛0 et
𝑗 𝑗𝑛
𝐷 𝛼𝐽 = 𝜕𝑥11 . . . 𝜕𝑥 𝑛00 .
𝑥=𝑥 𝛼 =(𝑥1 ,...,𝑥 𝑛0 )
14
Definition 3.2 (Non-dégénérescence de la matrice de covariance).
Pour 𝑟 > 1 fixé et 𝜎 borné polynomialement à l’ordre 𝑟, et A un
ensemble fini indiçant des inputs distincts du réseau,
𝑥 A = {𝑥 𝛼 : 𝛼 ∈ A} ⊆ R𝑛0
et un ensemble fini d’opérateurs de dérivées directionnelles,
Í𝑛 0
𝑉 = {𝑉1 , . . . , 𝑉𝑝 }, 𝑉 𝑗 := 𝑖=1 𝑣 𝑖 𝑗 𝜕𝑥𝑖
15
Lemma 3.3. Conditionnellement à F (𝑙) , la sigma-algèbre générée
par les poids et biais des couches 1, . . . , 𝑙, le réseau neuronal aléa-
toire 𝑥 𝛼 ∈ R𝑛0 ↦→ 𝑧 𝛼(𝑙+1) a des composantes gaussiennes centrées
indépendantes et identiquement distribuées de covariance condition-
nelle
(𝑙+1) (𝑙+1) (𝑙)
Cov(𝑧𝑖;𝛼 , 𝑧 𝑗;𝛽 |F (𝑙) ) = 𝛿𝑖 𝑗 Σ𝛼𝛽
où
(𝑙) Í𝑛 𝑙 (𝑙) (𝑙)
Σ𝛼𝛽 := 𝐶𝑏 + 𝐶𝑛𝑤𝑙 𝑗=1 𝜎(𝑧 𝑗;𝛼 )𝜎(𝑧 𝑗;𝛽 )
16
4 TCL quantitatif en dimension 1
Nous présentons dans cette section le premier résultat de l’article,
à savoir le TCL quantitatif en dimension 1.
17
Nous avons donc besoin d’une notion de distance. Nous utilis-
erons principalement la distance de Wasserstein définie de la façon
suivante:
Definition 4.1 (Distance de Wasserstein d’ordre p).
Soit (X, 𝑑) un espace polonais (i.e. un espace métrisable à base
dénombrable) muni de sa tribu borélienne. Soit 𝑝 ∈ [0, +∞[ et
𝜇, 𝜈 deux mesures de probabilité sur X. La distance de Wassertein
d’ordre 𝑝 entre 𝜇 et 𝜈 est:
∫ 1/𝑝
W 𝑝 (𝜇, 𝜈) := inf 𝜋∈Π(𝜇,𝜈) X×X 𝑑 (𝑥, 𝑦) d𝜋(𝑥, 𝑦)
𝑝
18
Wassertein (de premier ordre).
19
n o
(𝐿+1) (𝐿+1)
max W1 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍), 𝑑𝑇𝑉 (𝑉𝛼𝐽 𝑧𝑖;𝛼 , 𝑍) ≤ 𝐶𝑛−1
Quelques remarques:
20
autre variable aléatoire normale centrée 𝑍 ′ soit au moins de
l’ordre de 𝑛−1 . Ce cas a lieu lorsque 𝑞 = 0, i.e. lorsque nous
considérons le cas où il n’y a pas de dépendance en direction
des dérivées pour la variable aléatoire en question. Autrement
dit, lorsque nous n’examinons pas la variation de la covari-
ance par rapport à différentes directions. Cette propriété assure
que, dans le cas considéré, la distance entre la sortie du réseau
neuronal et une variable aléatoire normale centrée décroît de
manière suffisamment rapide lorsque la taille du réseau neu-
ronal augmente.
Un exemple de situation où le théorème s’applique est le cas où
𝜎(𝑡) = 𝑅𝑒𝐿𝑈 (𝑡) = max{0, 𝑡}, 𝐶𝑏 = 0, 𝐶𝑤 = 2 et 𝑉 = {𝜕𝑥𝑖 } pour un
certain 𝑖. Pour une donnée d’entrée non-nulle 𝑥 𝛼 , un calcul simple
montre que
(ℓ) 2 2 (ℓ) 2
𝐾𝛼𝛼 = 𝑛0 ∥𝑥 𝛼 ∥ et 𝜕𝑥𝑖;𝛼 𝜕𝑥𝑖;𝛽 𝐾𝛼𝛽 = 𝑛0
𝛼=𝛽
La structure de covariance évaluée au singleton 𝑥 𝛼 est donc non-
dégénérée à l’ordre 0 à l’ordre 1 pour l’opérateur 𝑉.
21
Nous donnons maintenant une preuve heuristique du résultat. Cette
preuve se basera sur les théorèmes et propositions suivants (le lecteur
intéressé par les détails des preuves peut se référer à [1]) :
22
La constante 𝐶 dépend de 𝛼1 , 𝛼2 , 𝐽1 , 𝐽2 , ℓ, 𝑟, 𝑞, 𝑃 mais est uni-
forme sur 𝛼1 , 𝛼2 lorsque les rapports ∥𝑥 𝛼1 ∥ 2 /𝑛0 , ∥𝑥 𝛼2 ∥ 2 /𝑛0 vari-
ent sur un ensemble compact.
2. Lorsque 𝑟 = 1 et 𝐴 = {𝛼} est un singleton, on a également que
(ℓ)
𝜅 3 (Σ𝛼𝛼 ) ≤ 𝐶1 𝑛−2 , (3.5.2)
(ℓ)
𝜅 4 (Σ𝛼𝛼 ) ≤ 𝐶2 𝑛−3 , (3.5.3)
• La séquence des champs 𝑧 𝛼(ℓ) est une chaîne de Markov par rap-
port à ℓ.
• Conditionnellement à l’algèbre sigma F (ℓ) définie par 𝑧 𝛼(ℓ) , le
champ 𝑧 𝛼(ℓ+1) est un champ gaussien avec des composantes in-
(ℓ+1)
dépendantes 𝑧𝑖;𝛼 .
23
(ℓ) (ℓ+1)
• La variance conditionnelle Σ𝛼𝛼 de chaque composante 𝑧𝑖;𝛼
dépend de 𝑧 𝛼(ℓ) uniquement à travers des variables aléatoires de
la forme 𝑛ℓ
(ℓ) 1 ∑︁ (ℓ)
𝑂 𝑓 := 𝑓 (𝑧𝑖;𝛼 ).
𝑛ℓ 𝑖=1
(ℓ)
Nous étudions à présent la moyenne et la variance de Σ𝛼𝛼 . En
particulier, grâce à un développement en séries de puissances, nous
trouvons des bornes en 1/𝑛 pour ces quantités.
Nous considérons dans un premier temps la fonction caractéris-
tique (𝜉 = (𝜉1 , . . . , 𝜉𝑚 ) sont des variables duales):
" 𝑚
!#
∑︁
(ℓ+1)
𝑝 (ℓ+1) (𝜉) := E exp −𝑖 𝜉𝑖 𝑧𝑖;𝛼
𝑖=1
nous trouvons
1 (ℓ) 1 (ℓ)
𝑝 (ℓ+1) (𝜉) := E exp − ∥𝜉 ∥ 2 Δ𝛼𝛼 exp − ∥𝜉 ∥ 2 𝜅 𝛼𝛼 .
2 2
24
Où le second terme est précisément la fonction caractéristique
d’une Gaussienne centrée m-dimensionelle avec des composants i.i.d.
(ℓ)
de variance 𝜅 𝛼𝛼 . De plus, le premier terme peut s’écrire:
i (−1) 𝑞
1 (ℓ)
∑︁ h
(ℓ) 𝑞
E exp − ∥𝜉 ∥ 2 Δ𝛼𝛼 = E (Δ𝛼𝛼 ) ∥𝜉 ∥ 2𝑞
2 𝑞≥0
2 𝑞!
𝑞
∞
* 𝑚
h
(ℓ+1)
i ∑︁ 1 h
(ℓ) 𝑞
i ∑︁
2
𝑞
E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 = E (Δ 𝛼𝛼 ) 𝜕𝑧 ;𝛼 𝑓 𝑧 𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚
𝑞=0
2𝑞 𝑞! 𝑖=1
𝑖
nous assure que notre expression est une série de puissance d’ordre
1/𝑛. En particulier,
h i
(ℓ+1)
E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 = E 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚 𝜅 (ℓ )
𝛼𝛼
h i
(ℓ) 2 *
E (Δ𝛼𝛼 ) 𝑚
+
∑︁ 2
𝜕𝑧2𝑖 ;𝛼 𝑓 𝑧𝑖;𝛼 , 𝑖 = 1, . . . , 𝑚
+
8 𝑖=1 (ℓ )
𝜅𝛼𝛼
+ 𝑂 𝑛−2 . □
25
conditionnellement à 𝐴, la variable aléatoire 𝐹 suive une distribu-
tion gaussienne centrée avec variance 𝐴. Alors, pour toutes fonc-
tions 𝑓 : R → R continûment différentiables et lipschitziennes et
toute 𝜑 : R+ → R bornée,
2. si E( 𝐴4 ) < ∞, alors
−𝜎 2 /2 1 1 2 3
min{2𝑑𝑇𝑉 (𝐹, 𝑍); 𝑊1 (𝐹, 𝑍)} ≥ 𝑒 Var( 𝐴) − E[( 𝐴 − 𝜎 ) ] + 𝑅 ,
8 48
(3.6.4)
1 𝜎 2 /2
où |𝑅| ≤ 384 𝑒 E[( 𝐴 − 𝜎 2 ) 4 ].
Preuve. Nous commencons avec la preuve de (3.6.1). Par hy-
pothèse, 𝐹 | 𝐴 ∼ 𝑁 (0, 𝐴), donc 𝐸 [𝐹 | 𝐴] = 0 et Var(𝐹 | 𝐴) = 𝐴.
Comme
√ 𝐹 conditionnellement à 𝐴 est gaussien, on peut écrire 𝐹 =
𝐴𝑍 où 𝑍 ∼ 𝑁 (0, 1) est indépendant de 𝐴. Considérons alors :
√ √
𝐸 [𝐹 𝑓 (𝐹)𝜑( 𝐴)] = 𝐸 [ 𝐴𝑍 𝑓 ( 𝐴𝑍)𝜑( 𝐴)].
Utilisant les propriétés des variables gaussiennes et la différenti-
ation sous l’espérance, nous avons 𝐸 [𝑍 𝑓 (𝑍)] = 𝐸 [ 𝑓 ′ (𝑍)]. Donc,
√ √ √ √ √
𝐸 [ 𝐴𝑍 𝑓 ( 𝐴𝑍)| 𝐴] = 𝐴𝐸 [𝑍 𝑓 ( 𝐴𝑍)| 𝐴] = 𝐴𝐸 [ 𝑓 ′ ( 𝐴𝑍)| 𝐴].
26
√ √ √
𝐸 [ 𝐴𝑍 𝑓 ( 𝐴𝑍)𝜑( 𝐴)] = 𝐸 [ 𝐴 𝑓 ′ ( 𝐴𝑍)𝜑( 𝐴)].
√
Comme 𝐴𝑍 a la même distribution que 𝐹, nous avons :
27
𝐸 [|𝐸 (1 − 𝐴|𝐹)|] = 𝐸 [sgn(𝐸 (1 − 𝐴|𝐹))𝐸 (1 − 𝐴|𝐹)],
28
2𝑑𝑇𝑉 (𝐹, 𝑍) = sup |𝐸 [ℎ(𝐹)] − 𝐸 [ℎ(𝑍)]|,
ℎ:|ℎ|≤1
où le supremum porte sur toutes les fonctions mesurables de Borel
ℎ dont la valeur absolue est bornée par 1. En vertu de (3.6), on a
donc que 2𝑑𝑇𝑉 (𝐹, 𝑍) et 𝑊1 (𝐹, 𝑍) sont bornés inférieurement par la
quantité
h i 2
−𝐴/2
|𝐸 [cos(𝐹)] − 𝐸 [cos(𝑍)]| = 𝐸 𝑒 − 𝑒 −𝜎 /2 .
La relation (3.6.4) découle maintenant de l’écriture du développe-
ment de Taylor
2 2 𝑒 −𝜎 2 /2 𝐴 2 3
2
−𝜎2 /2
−𝜎 2 /2 −𝜎 2 /2𝐴 𝜎 𝑒 𝐴 𝜎 𝜎
𝑒 −𝐴/2 −𝑒 = −𝑒 − + − − − +𝑅0 ,
2 2 2 2 2 6 2 2
4
1 𝐴 𝜎2
avec |𝑅0 | ≤ 24 2 − 2 , et en prenant les espérances des deux
côtés.
29
Remarque 4.7. Si 𝑍1 ∼ 𝑁 (0, 𝜎12 ) et 𝑍2 ∼ 𝑁 (0, 𝜎22 ), alors [8, Propo-
sition 3.6.1] implique que
2
𝑑𝑇𝑉 (𝑍1 , 𝑍2 ) ≤ 2 2
× |𝜎12 − 𝜎22 |. (3.7.1)
𝜎1 ∨ 𝜎2
De plus, en choisissant comme couplage 𝑇 = 𝜎1 · 𝑍 et 𝑆 = 𝜎2 · 𝑍,
avec 𝑍 ∼ 𝑁 (0, 1), on en déduit que
|𝑅 + E[( 𝐴 − 𝜎 2 ) 3 ]| ≤ 𝑄𝑛−2 ,
30
5 TCL quantitatif en dimension finie
Le second résultat concerne le niveau fini-dimensionnel. Nous
commencons par rappeler la définition de distance convexe entre
deux distributions.
Definition 5.5 (Distance convexe).
Pour tout entier 𝑚 ≥ 1, la distance convexe entre les distribu-
tions de deux vecteurs aléatoires m-dimensionnels 𝑋, 𝑌 est
31
de non-linéarité 𝜎 borné polynomialement jusqu’à l’ordre 𝑟 ≥ 1
au sens de la définition 2.1. Fixons 𝑚 ≥ 1, un ensemble A =
{𝛼1 , . . . , 𝛼𝑚 }, une collection finie d’entrées du réseau distinctes non-
nulles
{𝑥 𝛼 : 𝛼 ∈ A} ⊆ R𝑛0
et une collection de dérivées directionnelles 𝑉 = {𝑉1 , . . . , 𝑉𝑝 } telle
que dans la définition 2.1. Considérons également une famille B =
{(𝐽𝑘 , 𝛼𝑘 ) : 𝑘 = 1, . . . , 𝑀 } de paires distinctes tels que 𝑀 ≥ 2 et où
𝐽𝑘 ∈ N 𝑝 est un multi-index vérifiant |𝐽𝑘 | ≤ 𝑟 et 𝛼𝑙 ∈ A. Enfin, pour
tout multi-index 𝐽 = ( 𝑗1 , . . . , 𝑗 𝑝 ) ∈ N 𝑝 posons
𝐽 𝑘 (𝐿+1)
𝐺 := 𝑉𝛼𝑘 Γ𝑖;𝛼𝑘 ∈ R 𝑀×𝑛 𝐿+1
1≤𝑖≤𝑛 𝐿+1 ,(𝐽 𝑘 ,𝛼 𝑘 )∈B
(𝐿+1)
où R𝑛0 ∋ 𝑥 𝛼 ↦→ (Γ1;𝛼 , . . . , Γ𝑛(𝐿+1)
𝐿+1 ;𝛼
) est un champ aléatoire gaussien
avec covariance
(𝐿+1) (𝐿+1) (𝐿+1)
Cov Γ𝑖;𝛼 , Γ 𝑗;𝛽 = 𝛿𝑖 𝑗 𝐾𝛼𝛽
comme défini dans le théorème 1.1. Nous obtenons alors les résul-
tats suivants:
32
(2) Supposons que la non-linéarité 𝜎 soit lisse (𝜎 ∈ 𝐶 ∞ (R)).
Alors, il existe une constante 𝐶1 > 0 dépendant de 𝜎, 𝑉, 𝑟, 𝐵, P
telle que n
o (𝐽𝑘 ,𝛼𝑘 )∈𝐵
𝐽 𝑘 (𝐿+1)
𝑑 𝑐 𝑉𝛼𝑘 𝑧𝑖;𝛼𝑘 , 𝐺 ≤ 𝐶1 𝑛−1/2 ,
′
(4.7.2)
1≤𝑖≤𝑛 𝐿+1
où
(𝐽 𝑘 ,𝛼 𝑘 )∈𝐵
𝐺 ′ := 𝑉𝛼𝐽𝑘𝑘 Γ𝑖;𝛼
′
𝑘 1≤𝑖≤𝑛 𝐿+1
∈ R 𝑀×𝑛 𝐿+1 ,
′ , ..., Γ′
et R𝑛0 ∋ 𝑥 𝛼 ↦→ (Γ1;𝛼 𝑛 𝐿+1 ;𝛼 ) est le champ gaussien centré avec
covariance
′ (𝐿) (𝐿+1)
Cov(Γ𝑖;𝛼 , Γ′𝑗;𝛽 ) = 𝛿𝑖 𝑗 E[Σ𝛼𝛽 ] = 𝛿𝑖 𝑗 𝜅 𝛼𝛽
33
6 Illustration du TCL quantitatif en dimension 1
Dans cette section, nous utilisons un code R afin d’illustrer le
comportement des sorties d’un réseau de neurones simple avec une
largeur de couche finie en comparaison avec une distribution gaussi-
enne. Nous générons des échantillons de données i.i.d., entraînons
un réseau de neurones, et comparons ses sorties à celles d’une vari-
able gaussienne ayant la même moyenne et écart-type. Notons que
la taille d’échantillons et le nombre de couches du réseau varient
pour chaque réseau.
Nous utilisons des histogrammes pour visualiser la distribution
des sorties du réseau et des variables gaussiennes, et nous calculons
nos deux mesures clés pour quantifier la proximité entre ces deux
distributions :
34
Figure 2: Histogramme des sorties du réseau de neurones vs variables gaussi-
ennes, n=500.
35
Figure 3: Histogramme des sorties du réseau de neurones vs variables gaussi-
ennes, n=1000.
36
distributions.
37
7 Annexe
Code R utilisé pour générer les histogrammes de la section 5.
1 # Installer et charger les packages necessaires
2 if (!requireNamespace("nnet", quietly = TRUE)) {
3 install.packages("nnet")
4 }
5 if (!requireNamespace("ggplot2", quietly = TRUE)) {
6 install.packages("ggplot2")
7 }
8 if (!requireNamespace("transport", quietly = TRUE)) {
9 install.packages("transport")
10 }
11 library(nnet)
12 library(ggplot2)
13 library(transport)
14
38
37 output_mean <- mean(outputs)
38 output_sd <- sd(outputs)
39 Z <- rnorm(n_samples, mean = output_mean, sd = output_sd)
40
41 # Determiner les breaks pour les histogrammes
42 breaks <- seq(min(c(outputs, Z)), max(c(outputs, Z)), length.
out = 31)
43
44 # Calculer les histogrammes
45 hist_nn <- hist(outputs, breaks = breaks, plot = FALSE)
46 hist_gaussian <- hist(Z, breaks = breaks, plot = FALSE)
47
48 # Normaliser les histogrammes
49 hist_nn_density <- hist_nn$counts / sum(hist_nn$counts)
50 hist_gaussian_density <- hist_gaussian$counts / sum(hist_
gaussian$counts)
51
52 # Fonction pour calculer la distance de variation totale
53 total_variation_distance <- function(hist1, hist2) {
54 0.5 * sum(abs(hist1 - hist2))
55 }
56
57 # Calculer la distance de Wasserstein
58 w1_distance <- wasserstein1d(as.vector(outputs), Z)
59
39
79 results_500 <- run_analysis(500)
80 results_1000 <- run_analysis(1000)
81 results_2000 <- run_analysis(2000)
82
83 # Afficher les histogrammes
84 print(results_500$plot)
85 print(results_1000$plot)
86 print(results_2000$plot)
87
88 # Sauvegarder les histogrammes dans des fichiers separes
89 ggsave("histogram_500.png", plot = results_500$plot, width = 8,
height = 6)
90 ggsave("histogram_1000.png", plot = results_1000$plot, width =
8, height = 6)
91 ggsave("histogram_2000.png", plot = results_2000$plot, width =
8, height = 6)
92
93 # Imprimer les distances
94 cat(sprintf("Pour n = 500:\n"))
95 cat(sprintf("Distance de Wasserstein: %.4f\n", results_500$w1_
distance))
96 cat(sprintf("Distance de variation totale: %.4f\n", results_500$
dT_distance))
97 cat(sprintf("Pour n = 1000:\n"))
98 cat(sprintf("Distance de Wasserstein: %.4f\n", results_1000$w1_
distance))
99 cat(sprintf("Distance de variation totale: %.4f\n", results_1000
$dT_distance))
100 cat(sprintf("Pour n = 2000:\n"))
101 cat(sprintf("Distance de Wasserstein: %.4f\n", results_2000$w1_
distance))
102 cat(sprintf("Distance de variation totale: %.4f\n", results_2000
$dT_distance))
40
8 Bibliographie
[1] Stefano Favaro, Boris Hanin, Domenico Marinucci, Ivan Nour-
din, Giovanni Peccati: “Quantitative CLTs in Deep Neural Net-
works”, 2023; arXiv:2307.06092.
[2] Neal, R. M., "Bayesian Learning for Neural Networks". PhD
Thesis, University of Toronto, 1996.
[3] Lee, J., Lin, H., "A Feature Space Perspective on the Conver-
gence of Deep Neural Networks", dans Proceedings of the 35th
International Conference on Machine Learning (Vol. 80, pp.
2921-2930), 2018.
[4] Novak, R., Poole, B., Bartlett, P., "Bayesian Convergence of
Neural Networks: Empirical Evidence", dans Proceedings of
the 35th International Conference on Machine Learning (Vol.
80, pp. 1005-1014), 2018.
[5] Chizat, L., Bach, F., Alaya, L., "The Convergence Rate of Neu-
ral Networks to Gaussian Processes", dans Proceedings of the
37th International Conference on Machine Learning (Vol. 119,
pp. 1727-1737), 2020.
[6] Zhang, Y., Han, Z., Lin, X., "Empirical Validation of Gaussian
Process Approximations in Neural Networks", dans Proceed-
ings of the 38th International Conference on Machine Learning
(Vol. 139, pp. 1596-1606), 2021.
[7] Boris Hanin: “Random fully connected neural networks as per-
turbatively solvable hierarchies”, 2022; arXiv:2204.01058.
[8] Ivan Nourdin, Giovanni Peccati: "The optimal fourth moment
theorem." Proceedings of the American Mathematical Society,
2015, 145(7):3123–3133.
41
[9] Walter Rudin: "Real and complex analysis", McGraw-Hill Book
Co., New York, third edition, 1987
[10] Ivan Nourdin: "Lectures on Gaussian approximations with Malli-
avin calculus", dans Séminaire de probabilités XLV, pages 3–89.
Cham: Springer, 2013.
[11] Ivan Nourdin and Giovanni Peccati, "Normal approximations
with Malliavin calculus: from Stein’s method to universality",
volume 192. Cambridge University Press, 2012.
[12] Ivan Nourdin and Giovanni Peccati: "The optimal fourth mo-
ment theorem", Proceedings of the American Mathematical So-
ciety, 145(7):3123–3133, 2015.
42