Poly

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 100

Nicolas Petit

Optimisation

Enseignement spécialisé

http://cas.ensmp.fr/∼petit/

MINES ParisTech
Année scolaire 2018-2019
TABLE DES MATIÈRES

1. Optimisation continue de dimension finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1


1.1. Notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.1. Existence d’un minimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.2. Conditions nécessaires d’optimalité sur un ouvert . . . . . . . . . . . . . . . . . . 2
1.1.3. Conditions suffisantes d’optimalité sur un ouvert . . . . . . . . . . . . . . . . . . 3
1.1.4. Importance de la convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.5. Notions avancées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.6. Vitesses de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2. Méthodes numériques de résolution sans contraintes . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Méthodes sans dérivées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.1. Méthode de dichotomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.2. Section dorée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1.3. Comparaison de l’effort numérique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2. Méthode utilisant la dérivée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2.1. Idée des méthodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.2.2. Gradient à pas optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3. Recherche linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3.1. Conditions de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3.2. Résultats de convergence numérique . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.4. Méthode utilisant le Hessien: méthode de Newton . . . . . . . . . . . . . . . . . . 9
1.2.5. Méthode de quasi-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.5.1. Approximation de la fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.5.2. Approximation optimale du Hessien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.5.3. Calcul itératif de l’inverse de l’approximation du Hessien . . . . . . 12
1.2.5.4. Mise en œuvre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.6. Méthode du gradient conjugué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.6.1. Fonctions quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.2.6.2. Application aux fonctions non linéaires . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3. Principes de l’optimisation sous contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2 TABLE DES MATIÈRES

1.3.1. Contraintes égalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18


1.3.1.1. Élimination des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1.2. Équations adjointes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1.3. Multiplicateurs de Lagrange . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4. Contraintes inégalités . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.1. Conditions de Karush-Kuhn-Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.1.1. Cas des contraintes affines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4.2. Dualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.4.3. Algorithme de minimisation sous contraintes utilisant la dualité . . . . 25
1.4.4. Méthode de contraintes actives pour les problèmes de programmation
quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2. Optimisation de trajectoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1. Calcul des variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1. Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.2. Notions fondamentales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.3. Conditions nécessaires d’extrémalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2. Optimisation de systèmes dynamiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1. Problème aux deux bouts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.2.2. Contraintes finales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2.3. Résolution numérique du problème aux deux bouts . . . . . . . . . . . . . . . . 35
2.2.3.1. Calcul du gradient par l’adjoint . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.4. Principe du minimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.3. Champs d’extrémales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3. Exercices 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.1. Fonction de Rosenbrock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2. Gradient et Hessien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3. Ensemble minimisant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4. Vitesse de convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.5. Conditions de Wolfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.6. Suite de Fibonacci . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.7. Moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4. Exercices 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1. Algorithme de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.2. Algorithme du gradient conjugué . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3. Formule SR1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.4. Invariance d’échelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.5. Calcul automatique du gradient par parcours de graphe [25] . . . . . . . . . . . . 48

5. Exercices 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1. Fonction de mérite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.2. Dual d’une programmation quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3. Méthode de sous-ensembles actifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.4. Pénalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
TABLE DES MATIÈRES 3

5.5. Plus courte distance à un hyperplan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50


5.6. Tente de cirque . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6. Exercices 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.1. Optimisation de plan de vol . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2. Forme d’une chaı̂ne pesante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3. Investissement optimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

7. Exercices et problèmes complémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55


7.1. Minimisation sous contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.2. Loi bi-tangente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7.3. Problème de Weber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.4. Une équation HJB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.5. Optimisation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.6. Programmation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7.7. Remplacement d’équipement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.8. Tarification de billets d’avions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.9. Forme d’une chaı̂ne pesante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.10. Équations d’Euler Lagrange pour les problèmes contraints à un temps
variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.11. Temps minimum pour traverser une rivière à courant parabolique . . . . 60
7.12. Calcul des variations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.13. Inégalité de Kantorovich . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.14. Dualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
7.15. Résultats sur la minimisation d’une fonction elliptique . . . . . . . . . . . . . . . . 63
7.16. Une inégalité fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
7.17. Unicité du temps minimum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
7.18. Construction d’une autoroute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
7.19. Programmation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.20. Sur un théorème de C. Berge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7.21. Optimisation sur un espace fonctionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
7.22. Meilleur antécédent par une matrice non inversible . . . . . . . . . . . . . . . . . . . . 70
7.23. Introduction aux méthodes de points intérieurs . . . . . . . . . . . . . . . . . . . . . . . . 70
7.24. Gestion thermique d’une batterie de véhicule hybride . . . . . . . . . . . . . . . . . . 72
7.25. Polygones inscrits du cercle de longueur maximale . . . . . . . . . . . . . . . . . . . . 73
7.26. Programmation dynamique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.27. Problème de Dido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.28. Calcul des variations avec saut de l’état . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.29. Parallélépipède maximal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.30. Rangement d’un câble . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.31. Investissement public . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.32. Convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.33. Projeté sur une parabole . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.34. Existence de minimums . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.35. Pénalité intérieure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4 TABLE DES MATIÈRES

7.36. PSA: profit sharing agreement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79


7.37. Convexité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
7.38. Polynôme de Rodrigues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.39. Solution d’un problème aux deux bouts par linéarisations successives . . 81
7.40. Commande optimale avec arc singulier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.41. Réservoir cylindrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
7.42. Unicité de la commande optimale en temps . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7.43. Convexité de l’image de petites boules par application régulière . . . . . . 84
7.44. Planification optimale linéaire quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.45. Résolution d’un problème aux deux bouts par inversion dynamique . . . . 88
7.46. Programmation linéaire robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
CHAPITRE 1

OPTIMISATION CONTINUE DE DIMENSION FINIE

1.1. Notions fondamentales


On se place dans Rn , n < ∞ considéré comme un espace vectoriel normé muni de
la norme euclidienne notée k.k. On considérera des fonctions différentiables ou deux
fois différentiables f : Rn 7→ R. On notera Ω un ouvert de Rn .
Définition 1. — Soit l’application Rn ⊃ Ω 3 x 7→ f (x) ∈ R. On dit que f présente
en x∗ ∈ Ω un minimum (optimum) local, si et seulement s’il existe un voisinage V
de x∗ tel que ∀x ∈ V ∩ Ω, f (x∗ ) ≤ f (x) (on dit que c’est un minimum strict si la
précédente inégalité est stricte). On dit que x est solution locale du problème
min f (x)
x∈Ω

On ne considérera que des problèmes de minimisation (calculs de minimum), les


problèmes de maximisation étant obtenus en considérant l’opposé de la fonction f .
Définition 2. — On dit que x∗ ∈ Ω est un minimum (optimum) global de la
fonction Rn ⊃ Ω 3 x 7→ f (x) ∈ R si ∀x ∈ Ω on a f (x∗ ) ≤ f (x). On dit que c’est un
minimum strict global si la précédente inégalité est stricte. On dit que x∗ est solution
globale du problème
min f (x)
x∈Ω
 
∂f ∂f ∂f
Définition 3. — On note (∇f (x))T = ∂x (x) = ∂x1 , ..., ∂xn (x), le gradient de f
où x = (x1 , ..., xn ).
Définition
 2  4. — On appelle Hessien de f la matrice symétrique de Mn (R) ∇2 f (x) =
∂ f
∂xi ∂xj (x), i = 1, ..., n, j = 1, ..., n.
 
∂g ∂gi
Définition 5. — On note ∂x (x) = ∂x j
(x), i = 1, ..., m, j = 1, ..., n, matrice de
T
M(m×n) (R), le Jacobien de g = (g1 (x), ..., gm (x)) .
Définition 6. — On dit que x∗ est un point stationnaire de f si ∇f (x∗ ) = 0.
2 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

1.1.1. Existence d’un minimum. — Le théorème suivant garantit l’existence


d’une solution au problème de recherche de minimum.

Théorème 1 (Weierstrass). — Si f est une fonction réelle continue sur un com-


pact K ⊂ Rn alors le problème de recherche de minimum global
min f (x)
x∈K

possède une solution x∗ ∈ K.

Démonstration. — Notons m = inf x∈K f (x) (éventuellement m = −∞). Par défini–


tion, ∀x ∈ K, f (x) ≥ m. Soit (xk )k∈N suite d’éléments de K telle que (f (xk ))k∈N
converge vers m. K est compact, on peut donc extraire une sous-suite (xl )l∈I⊂N
convergeant vers x∗ ∈ K. Par continuité de f , on a
m = lim f (xk ) = lim f (xl ) = f (x∗ )
k→+∞ l→+∞,l∈I

Or f (x∗ ) > −∞ car f est continue et K compact. En conclusion, il existe x∗ ∈ K tel


que f (x∗ ) = minx∈K f (x).

1.1.2. Conditions nécessaires d’optimalité sur un ouvert. —

Théorème 2. — Soit Ω un ouvert de Rn . Une condition nécessaire pour que x∗ soit


un optimum local de Rn 3 x 7→ f (x) ∈ R fonction deux fois différentiable est
∇f (x∗ ) = 0, ∇2 f (x∗ ) ≥ 0


Démonstration. — x∗ ∈ Ω ouvert, donc ∀h ∈ Rn , ∃η > 0 tel que (x∗ + δh) ∈ Ω pour


0 ≤ δ ≤ η. Pour η suffisamment petit on a alors f (x∗ + δh) ≥ f (x∗ ) par hypothèse.
f est différentiable, on peut utiliser un développement de Taylor
∂f ∗
f (x∗ ) + (x )δh + ◦(δ) ≥ f (x∗ )
∂x
d’où
∂f ∗
(x )h + ◦(δ)/δ ≥ 0
∂x
Par passage à la limite lorsque δ tend vers zéro on obtient
∂f ∗
(x )h ≥ 0 pour tout h ∈ Rn
∂x
∂f ∗
Nécessairement ∂x (x ) = 0. Utilisons maintenant un développement au deuxième
ordre
1
f (x∗ + δh) = f (x∗ ) + (δh)T ∇2 f (x∗ )δh + ◦(δ 2 )
2
Dans le même voisinage que précédemment f (x∗ +δh) ≥ f (x∗ ) implique après passage
à la limite que pour tout h ∈ Rn
hT ∇2 f (x∗ )h ≥ 0
et donc que ∇2 f (x∗ ) ≥ 0.
1.1. NOTIONS FONDAMENTALES 3

1.1.3. Conditions suffisantes d’optimalité sur un ouvert. —


Théorème 3. — Une condition suffisante pour que x∗ soit un optimum local de
Rn 3 x 7→ f (x) ∈ R fonction deux fois différentiable sur Ω ouvert de Rn est
∇f (x∗ ) = 0, ∇2 f (x∗ ) > 0


Démonstration. — évidente par le même développement de Taylor à l’ordre 2.

1.1.4. Importance de la convexité. —


Définition 7. — E ensemble de Rn est convexe si ∀(x, y) ∈ E × E, ∀λ ∈ [0, 1],
λx + (1 − λ)y ∈ E.
Définition 8. — Soit E convexe de Rn . On dit que l’application E 3 x 7→ f (x) ∈ R
est convexe si ∀(x, y) ∈ E × E, ∀λ ∈ [0, 1] on a
f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y)
Théorème 4. — Soit E convexe de Rn et E 3 x 7→ f (x) ∈ R application deux fois
différentiable. Les propositions suivantes sont équivalentes
1. f est convexe
2. ∀(x, y) ∈ E 2 , f (y) ≥ f (x) + (∇f (x))T (y − x)
3. ∀x ∈ E, ∇2 f (x) ≥ 0
Théorème 5. — Pour une application convexe définie sur un ensemble convexe, tout
minimum local est global.
Démonstration. — Soit x∗ minimum local de f . ∃ > 0 tel que ∀x tel que kx − x∗ k <
, f (x) ≥ f (x∗ ). Pour tout x ∈ E on peut construire, par convexité de E, E 3 xα =
(1 − α)x∗ + αx, avec α ∈]0, 1] tel que kxα − x∗ k < . On alors f (x∗ ) ≤ f (xα ). Or, par
convexité de la fonction f on a f (xα ) ≤ (1 − α)f (x∗ ) + αf (x). Après simplification,
il vient f (x∗ ) ≤ f (x).
Théorème 6. — Soit f une fonction convexe deux fois différentiable. Une condition
nécessaire et suffisante pour que x∗ ∈ Ω ⊂ Rn avec Ω convexe soit un optimum global
est que
∇f (x∗ ) = 0
Théorème 7. — Soit E ⊂ Rn convexe fermé. Soit E 3 x 7→ f (x) ∈ R continue
et convexe telle que pour toute suite (un )n∈N telle que limn→∞ kun k = +∞ on a
limn→∞ f (un ) = +∞. Il existe une solution au problème minx∈E f (x).

1.1.5. Notions avancées. — On introduit ici la notion de convexité forte qui per-
mettra de prouver la convergence de certains algorithmes de résolution de problèmes
d’optimisation.
Définition 9. — Soit E ⊂ Rn convexe. On dit que E 3 x 7→ f (x) ∈ R est fortement
convexe (α-convexe) si et seulement si ∃α > 0 tel que ∀(x, y) ∈ E × E
 
x+y f (x) + f (y) α 2
f ≤ − kx − yk
2 2 8
4 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

Théorème 8. — Soit f une application différentiable de Ω dans R, et α > 0. Les


propositions suivantes sont équivalentes
– f est α-convexe sur Ω
2
– ∀(x, y) ∈ Ω2 , f (y) ≥ f (x) + (∇f (x))T (y − x) + α2 kx − yk
 2
– ∀(x, y) ∈ Ω2 , (∇f (x))T − (∇f (y))T (x − y) ≥ α kx − yk
C’est souvent la dernière écriture qui est la plus utile dans les démonstrations.
Pour l’étude des propriétés des algorithmes on caractérise les vitesses de convergence
comme suit.

1.1.6. Vitesses de convergence. — Soit une suite de valeurs (xk )k∈N convergeant
vers x∗ . On dira que cette suite converge linéairement, si ∃r ∈]0, 1[ tel que pour k
suffisamment grand
kxk+1 − x∗ k ≤ r kxk − x∗ k
On dira que cette suite converge super linéairement, si pour k suffisamment grand
lim kxk+1 − x∗ k / kxk − x∗ k = 0
k→∞

On dira que cette suite converge de façon quadratique si ∃M > 0 tel que, pour k
suffisamment grand
2
kxk+1 − x∗ k ≤ M kxk − x∗ k

1.2. Méthodes numériques de résolution sans contraintes


1.2.1. Méthodes sans dérivées. — Il est possible de résoudre des problèmes (sim-
ples) d’optimisation avec peu de connaissance de la fonction. On propose ainsi une
méthode n’utilisant que la possibilité d’évaluer la fonction.
Définition 10. — On dit que f : R 7→ R est unimodale sur un intervalle [A, B] si
elle admet un minimum x∗ et si ∀x1 < x2 dans [A, B] on a
1. x2 ≤ x∗ implique f (x1 ) > f (x2 )
2. x1 ≥ x∗ implique f (x1 ) < f (x2 )
Autrement dit, f possède un minimum global unique mais n’est ni nécessairement
continue ni différentiable partout. Une conséquence de la propriété d’unimodalité est
que si on divise l’intervalle [A, B] en 4, il existe toujours un sous-intervalle qui ne
contient pas l’optimum.
1.2.1.1. Méthode de dichotomie. — Parmi les 4 intervalles précédents choisis de
longueur égales on peut toujours en supprimer 2. L’intervalle de recherche est alors
divisé par 2 à chaque itération.
1.2.1.2. Section dorée. — Au lieu de subdiviser en 4 intervalles, on utilise 3 inter-
valles. À chaque itération on peut exclure l’un des 3 intervalles. De manière à réutiliser
les calculs entre deux itérations, il faut choisir une méthode de découpage utilisant
le nombre d’or. On vérifie qu’il faut diviser l’intervalle de recherche à √l’itération i
[Ai , Bi ] suivant [Ai , Ai + (1 − τ )(Bi − Ai ), Ai + τ (Bi − Ai ), Bi ] où τ = ( 5 − 1)/2.
1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 5

1.2.1.3. Comparaison de l’effort numérique. — Les deux méthodes de division en


sous-intervalles convergent vers l’unique minimum x∗ quel que soit l’intervalle de
recherche de départ [A, B]. On peut s’intéresser à leur efficacité en terme de nombre
d’itérations. Pour obtenir un effort de réduction de l’intervalle de recherche initial de
10−2 , 10−3 , 10−6 , on doit faire le nombre d’appel à la fonction f suivant: 17, 23, 42
pour la méthode de dichotomie et 13, 18, 31 pour la méthode de la section dorée. La
méthode de la section dorée est plus efficace mais moins triviale à mettre en œuvre
que la méthode de dichotomie qui lui est souvent préférée.

1.2.2. Méthode utilisant la dérivée. — On suppose désormais pouvoir calculer


la valeur de la fonction ainsi que son gradient. Partant d’une valeur initiale x0 , on va
mettre à jour une estimation xk de l’optimum recherché x∗ .
1.2.2.1. Idée des méthodes de descente. — Entre deux itérations k et k + 1 on fait
évoluer l’estimée de l’optimum xk suivant la formule
xk+1 = xk + lk pk
où lk ∈ R est appelé pas et pk ∈ Rn est une direction. Si par exemple on choisit
pk = −∇f (xk ) on obtient alors pour une fonction différentiable
2
f (xk+1 ) = f (xk ) − lk ∇f (xk ) + ◦(lk )
On peut donc espérer une décroissance des valeurs de la fonction entre deux itérations,
d’où le nom de méthode de descente. On constate qu’une règle simple de pas constant
produit souvent une bonne décroissance au début des itérations suivi d’une relative
stagnation des valeurs de la fonction coût. En cherchant à améliorer la méthode, on
réalise rapidement qu’il est important de bien choisir lk .
1.2.2.2. Gradient à pas optimal. — L’algorithme suivant possède de très intéressantes
propriétés de convergence.

Algorithme 1. — À partir de x0 ∈ Rn quelconque, itérer


xk+1 = xk − lk ∇f (xk )
où lk = argminl∈R f (xk − l∇f (xk )).

Théorème 9. — Si f est α-convexe, différentiable et de gradient ∇f Lipschitzien


sur tout borné (c.-à-d. ∀M > 0, ∃CM > 0 tel que ∀(x, y) ∈ Rn × Rn , kxk + kyk ≤ M
implique k∇f (x) − ∇f (y)k ≤ CM kx − yk) alors l’algorithme 1 du gradient à pas
optimal converge vers l’unique solution x∗ du problème d’optimisation minx∈Rn f (x).

Démonstration. — La fonction R 3 l 7→ g(l) = f (xk − l∇f (xk )) est α-convexe


et dérivable sur R. On suppose qu’à l’itération k, ∇f (xk ) 6= 0. Le problème
d’optimisation minl∈R f (xk −l∇f (xk )) a une solution unique caractérisée par ∇g(l) =
0. Cette équation s’écrit
∇f (xk )T ∇f (xk − l∇f (xk )) = 0
6 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

On s’aperçoit ainsi que deux directions de descentes successives sont orthogonales.


Entre deux itérations on a donc
∇f (xk+1 )T (xk+1 − xk ) = 0
car lk 6= 0. On déduit alors de l’α-convexité de f
α k+1 2
f (xk ) ≥ f (xk+1 ) + x − xk
2
Donc
α k+1 2
(1) x − xk ≤ f (xk ) − f (xk+1 )
2
La suite de réels f (xk ) k∈N est décroissante, minorée par f (x∗ ), elle est donc con-


vergente. On en déduit que, par (1),


lim xk+1 − xk = 0
k→+∞

est décroissante, minorée par f (x∗ ), elle est bornée. Il existe



D’autre part, f (xk ) k∈N
donc M ∈ R tel que
α k 2
M ≥ f (xk ) ≥ f (x∗ ) + x − x∗
2

où la dernière inégalité provient de l’α-convexité de f . La suite xk k∈N est donc
bornée. Utilisons maintenant que le gradient ∇f est Lipschitzien sur tout borné.
∃CM > 0 tel que ∇f (xk ) − ∇f (xk+1 ) ≤ CM xk+1 − xk . Par l’orthogonalité
entre les directions de descente entre deux pas successifs, il vient alors
2 1/2
 2

∇f (xk ) + ∇f (xk+1 ) ≤ CM xk+1 − xk
Par passage à la limite on a alors
lim ∇f (xk ) = 0
k→+∞

Enfin, en utilisant une dernière fois l’α-convexité de f , on a


T 2
∇f (xk ) xk − x∗ ≥ ∇f (xk ) − ∇f (x∗ ) (xk − x∗ ) ≥ α xk − x∗
D’où
1
xk − x∗ ≤ ∇f (xk )
α
Par passage à la limite on a alors
lim xk = x∗
k→+∞

L’algorithme du gradient à pas optimal possède donc une intéressante propriété de


convergence mais comporte dans chaque itération une recherche de pas optimal. C’est
un problème mono-dimensionnel qui peut être traité par les méthodes de dichotomie
ou de section dorée. Cette résolution itérée peut être coûteuse en calculs et on lui
préférera souvent une des méthodes de recherche linéaire présentée dans la section
suivante.
1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 7

1.2.3. Recherche linéaire. — L’idée générale consiste à proposer une méthode de


sélection du pas lk qui permette de prouver la convergence
lim f (xk ) = 0,
k→+∞

d’avoir une bonne vitesse de convergence, et qui soit simple à implémenter.


1.2.3.1. Conditions de Wolfe. —

Définition 11. — On appelle condition d’Armijo (de paramètre c1 ) sur les itérations
(xk , pk , lk )k∈N l’inéquation
(2) f (xk + lk pk ) ≤ f (xk ) + c1 lk ∇f (xk )T pk

Définition 12. — On appelle condition de courbure (de paramètre c2 ) sur les itéra–
tions (xk , pk , lk )k∈N l’inéquation
(3) ∇f (xk + lk pk )T pk ≥ c2 ∇f (xk )T pk

Dans la suite on utilisera les deux conditions précédentes pour des paramètres
0 < c1 < c2 < 1. La première condition autorise des pas grands mais pas trop
(en pratique ceci évite les “rebonds” au cours des itérations). La deuxième condition
permet d’éviter les pas trop petits.

Définition 13. — On appelle conditions de Wolfe, les conditions (2) et (3) avec
0 < c1 < c2 < 1.

Théorème 10. — Soit Rn 3 x 7→ f (x) ∈ R différentiable. Soit pk direction de


descente en xk telle que f est bornée inférieurement sur la droite {xk + lpk , l > 0} ⊂
Rn . Il existe un intervalle [l1 , l2 ] tel que tout l ∈ [l1 , l2 ] satisfait les conditions de
Wolfe.

Démonstration. — La fonction R 3 l 7→ f (xk + lpk ) est bornée inférieurement donc


pour tout 0 < c1 < 1, l’ensemble {f (xk ) + lc1 ∇f (xk )T pk , l > 0} ⊂ R contient
f (xk + lpk ). Notons l0 > 0 la plus petite valeur de l telle que f (xk ) + lc1 ∇f (xk )T pk =
f (xk + lpk ). La condition d’Armijo (2) est toujours satisfaite pour l < l0 . Par le
théorème des accroissements finis appliqué à la fonction différentiable [0, l0 ] 3 l 7→
00 00
f (xk + lpk ) ∈ R, ∃l ∈ [0, l0 ] tel que f (xk + l0 pk ) − f (xk ) = l0 ∇f (xk + l pk )T pk . On
a alors
00
∇f (xk + l pk )T pk = c1 ∇f (xk )T pk > c2 ∇f (xk )T pk
00
Cette inégalité étant stricte, elle reste large dans un voisinage de l ce qui garantit
00
qu’il existe un intervalle non vide autour de l dans lequel l satisfait également la
condition de courbure (3).

On va maintenant chercher à prouver la convergence de l’algorithme de descente


utilisant la recherche linéaire qu’on vient de présenter. + cette fin, nous allons utiliser
le théorème suivant
8 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

Théorème 11 (Zoutendijk). — Soit une séquence (xk , pk , lk )k∈N vérifiant xk+1 =


xk + lk pk satisfaisant les conditions de Wolfe. On définit
−∇f (xk )T pk
cos θk = ≥0
k∇f (xk )k kpk k
(c.-à-d. le cosinus de l’angle entre la direction de recherche et la plus grande pente).
Si f (supposée différentiable) est bornée inférieurement et si ∇f est Lispchitzien alors
X 2
cos2 θk ∇f (xk ) < +∞
k∈N
2
En corollaire limk→∞ cos2 θk ∇f (xk ) = 0.
Démonstration. — D’après la condition de courbure, on a
∇f (xk+1 )T pk ≥ c2 ∇f (xk )T pk
et donc
(∇f (xk+1 ) − ∇f (xk ))T pk ≥ (c2 − 1)∇f (xk )T pk
Or x 7→ ∇f (x) est Lipschitz, donc ∃L > 0 tel que
∇f (xk+1 ) − ∇f (xk ) ≤ L xk+1 − xk
2
Il vient donc Llk pk ≥ (c2 − 1)∇f (xk )T pk et donc
(c2 − 1)∇f (xk )T pk
lk ≥ 2 ≥0
L kpk k
D’après la condition d’Armijo, on a alors
2
c1 (c2 − 1) ∇f (xk )T pk
f (xk + lk pk ) ≤ f (xk ) + 2
L kpk k
Une sommation terme à terme donne alors
L X  X 2
f (xk+1 ) − f (xk ) ≥ cos2 θk ∇f (xk )
c1 (c2 − 1)
k∈N k∈N
k

La suite de réels f (x ) k∈N est décroissante, bornée inférieurement, elle converge.
En conclusion X 2
cos2 θk ∇f (xk ) < ∞
k∈N

On utilise le théorème de Zoutendjik en choisissant pk = −∇f (xk ). On a alors, pour


tout k ∈ N, cos θk = 1. La série
X 2
∇f (xk )
k∈N
converge donc pour tout algorithme de gradient satisfaisant les conditions de Wolfe
et on a la convergence
lim ∇f (xk ) = 0
k→∞
1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 9

1.2.3.2. Résultats de convergence numérique. — Si on applique l’algorithme de gra-


dient avec règles de Wolfe à la fonction Rn 3 x 7→ 1/2xT Qx − bT x avec Q matrice de
Mn (R) symétrique définie positive et b ∈ Rn on peut montrer la convergence
 2
λn − λ1
(xk+1 − x∗ )T Q(xk+1 − x∗ ) ≤ (xk − x∗ )T Q(xk − x∗ )
λn + λ1
où λ1 et λn sont respectivement la plus petite et la plus grande des valeurs propres
de Q. Les performances se dégradent donc avec le conditionnement du problème.

1.2.4. Méthode utilisant le Hessien: méthode de Newton. — Autour de xk ,


une approximation de f supposée deux fois différentiable est
1
q(x) = f (xk ) + ∇f (xk )T (x − xk ) + (x − xk )T ∇2 f (xk )(x − xk )
2
Si ∇2 f (xk ) > 0 alors Rn 3 x 7→ q(x) ∈ R est strictement convexe. Son minimum est
donc atteint en un point x tel que ∇q(x) = 0 c.-à-d.
∇f (xk ) + ∇2 f (xk )(x − xk ) = 0
−1
qui donne x = xk − ∇2 f (xk ) ∇f (xk ) La méthode de Newton consiste à itérer
le calcul précédent. À chaque étape on doit effectuer 0(n3 ) calculs dont la majeure
partie est due à l’inversion du Hessien de f en xk .

Algorithme 2. — À partir de x0 ∈ Rn quelconque, itérer


−1
xk+1 = xk − ∇2 f (xk ) ∇f (xk )
Théorème 12. — Soit Rn 3 x 7→ f (x) ∈ R deux fois différentiable, possédant un
unique minimum global x∗ tel que ∇2 f (x∗ ) est définie positive (on note λ > 0 sa
plus petite valeur propre) et tel que Rn 3 x 7→ ∇2 f (x) ∈ Mn (R) est localement
Lipschitz au voisinage de x∗ (on note C sa constante Lipschitz). L’algorithme 2 de
Newton converge quadratiquement vers x∗ si on l’initialise en un point x0 tel que
x0 − x∗ ≤ 3C 2λ
.
Démonstration. — D’après la formule de Taylor avec reste intégral appliquée à la
fonction t 7→ ∇f (xk + t(x∗ − xk )), on a, en utilisant ∇f (x∗ ) = 0,
Z 1

k 2 k k
∇2 f (xk + t(x∗ − xk )) − ∇2 f (xk ) (x∗ − xk )dt

−∇f (x ) − ∇ f (x )(x − x ) =
0

D’autre part, si x est suffisamment proche de x∗ (c’est vrai pour k = 0 et le restera


k

par récurrence par l’équation (7)), la condition de Lipschitz donne qu’il existe C > 0
tel que
∇2 f (xk + t(x∗ − xk )) − ∇2 f (xk ) ≤ C x∗ − xk t
On peut donc déduire
C ∗ 2
(4) −∇f (xk ) − ∇2 f (xk )(x∗ − xk ) ≤ x − xk
2
10 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

L’itération de l’algorithme de Newton donne xk = xk+1 + ∇2 f (xk )−1 ∇f (xk ). Après


substitution et simplification dans (4) on a
C ∗ 2
∇2 f (xk )(x∗ − xk+1 ) ≤ x − xk
2
Il s’agit maintenant de faire apparaı̂tre ∇2 f (x∗ ) qui est la quantité sur laquelle porte
l’hypothèse. Une inégalité triangulaire donne
∇2 f (x∗ )(x∗ − xk+1 ) ≤ ∇2 f (xk )(x∗ − xk+1 )
+ (∇2 f (x∗ ) − ∇2 f (xk ))(x∗ − xk+1 )
À l’aide des majorations précédentes on a alors
C ∗ 2
(5) ∇2 f (x∗ )(x∗ − xk+1 ) ≤ x − xk + C x∗ − xk xk+1 − x∗
2
Notons maintenant λ > 0 la plus petite valeur propre de ∇2 f (x∗ ). L’inéquation (5)
donne alors
C ∗ 2
(6) λ x∗ − xk+1 ≤ x − xk + C x∗ − xk xk+1 − x∗
2
On a xk − x∗ ≤ 3C 2λ
. Pour tous les indices p > k suivants on encore kxp − x∗ k ≤ 3C

.
En effet on peut tirer de (6) que
C k 2
(λ − C xk − x∗ ) xk+1 − x∗ ≤ x − x∗
2
d’où xk+1 − x∗ ≤ 3C 2λ
. Finalement l’inéquation (6) donne donc la convergence
quadratique
3C k 2
(7) xk+1 − x∗ ≤ x − x∗

1.2.5. Méthode de quasi-Newton. — Cette méthode ne requiert que l’évaluation


de la fonction et de son gradient. Elle s’avère en pratique souvent aussi performante
que la méthode de Newton dans le calcul de la direction de descente. Au lieu de
calculer cette direction par la formule pk = −∇2 f (xk )−1 ∇f (xk ), on utilise une formule
−1
pk = − B k ∇f (xk )
où B k est une matrice symétrique définie positive qu’on va mettre à jour au cours des
itérations.
1.2.5.1. Approximation de la fonction coût. — À l’itération k on dispose d’une esti-
mation de l’optimum xk , et on forme la fonction
1
Rn 3 p 7→ mk (p) = f (xk ) + ∇f (xk )T p + pT B k p ∈ R
2
−1
Le minimum de cette fonction est atteint en pk = − B k ∇f (xk ) et peut permettre
de former une nouvelle estimée de l’optimum
xk+1 = xk + lk pk
1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 11

où lk peut être choisi par les conditions de Wolfe (par exemple).
On va chercher à introduire les modifications du gradient entre les itérations (cour-
bure) dans la mise à jour de B k . Le nouveau modèle autour de l’estimation xk+1
est
1
Rn 3 p 7→ mk+1 (p) = f (xk+1 ) + ∇f (xk+1 )T p + pT B k+1 p ∈ R
2
On va faire coı̈ncider le gradient de mk+1 avec celui de f qu’on a évalué aux itérations
xk et xk+1 . Par construction, ∇mk+1 (0) = ∇f (xk+1 ). D’autre part, l’autre gradient
recherché ∇mk+1 (−lk pk ) = ∇f (xk+1 ) − lk B k+1 pk . On utilise désormais les notations
sk = xk+1 − xk ,
y k = ∇f (xk+1 ) − ∇f (xk )
On a donc à résoudre
B k+1 sk = y k
Il n’est pas toujours possible de résoudre cette équation dont l’inconnue B k+1 est à
rechercher symétrique définie positive. Une condition nécessaire et suffisante pour que
cette équation possède une solution symétrique définie positive est que
(sk )T y k > 0
ce qui peut se réécrire (xk+1 − xk )T (∇f (xk+1 ) − ∇f (xk )) > 0. On pourra éventuelle-
ment chercher à imposer cette condition au moment de la recherche linéaire. Cette
condition sera toujours remplie si la fonction f est α-convexe. Les conditions de Wolfe
garantissent que cette condition est remplie. En effet on a
∇f (xk+1 )T sk ≥ c2 ∇f (xk )T sk
d’après la condition de courbure. Ceci implique bien (sk )T y k ≥ (c2 −1)lk ∇f (xk )T pk >
0 car on utilise un algorithme de descente.
1.2.5.2. Approximation optimale du Hessien. — Notre but était de définir B k+1 , on
sait qu’on peut toujours le faire par les conditions de Wolfe. On va maintenant rendre
ce choix unique. En l’état actuel on a n(n+1)
2 coefficients et n équations ainsi que n
inégalités (provenant de la contrainte que l’approximation doit être positive définie).
On peut montrer que ces inégalités possèdent des solutions. Pour définir de manière
unique notre solution, on va chercher à s’approcher le plus possible de B k au sens
d’une certaine norme. Introduisons à cet effet la définition suivante.
Définition 14 (Norme de Frobenius (pondérée)). — Soit A = (aij )i=1...n,j=1...n
une matrice de Mn (R) et W une matrice définie positive de Mn (R). On définit kAkW
la norme pondérée de Frobenius par l’égalité suivante
kAkW = W 1/2 AW 1/2
F
2
P
où kAkF = i=1...n,j=1...n aij

Dans notre cas, nous allons choisir W matrice de pondérations telle que W y k = sk ,
1
par exemple W −1 = 0 ∇2 f (xk + τ lk pk )dτ qui est la moyenne du Hessien le long du
R

chemin de la dernière itération.


12 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

En utilisant cette norme on résout le problème d’optimisation (d’inconnue B) suiv-


ant
(8) min B − Bk W
B = BT
Bsk = y k

Proposition 1. — Le problème d’optimisation (8) possède une unique solution B ∗


qui est
B ∗ = (I − γ k y k (sk )T )B k (I − γ k sk (y k )T ) + γ k y k (y k )T , où γ k = 1/((y k )T sk )

La précédente formule sera utilisée comme mise à jour du Hessien dans l’algorithme
DFP (Davidson, Fletcher, Powell).
1.2.5.3. Calcul itératif de l’inverse de l’approximation du Hessien. — La quantité que
nous utilisons dans les algorithmes de quasi-Newton est l’inverse du Hessien (B k )−1
et non le Hessien lui-même. Pour calculer cet inverse de manière efficace on peut
utiliser la formule issue de la proposition suivante

Proposition 2 (Formule de Sherman-Morrison-Woodbury)


Soient A une matrice de Mn (R) inversible, U et V deux matrices de Mn,p (R),
1 ≤ p ≤ n. On définit Ā = A + U V T . Si Ā est inversible alors
 (−1)
(9) Ā(−1) = A(−1) − A(−1) U I(p) + V T A(−1) U V T A(−1)

Lorsqu’on met à jour l’approximation du Hessien par la formule de la proposition 1


on a
(10) B k+1 = (I − γ k y k (sk )T )B k (I − γ k sk (y k )T ) + γ k y k (y k )T
Il lui correspond la mise à jour de l’inverse
(11)
−1 −1 1  −1 −1  1
B k+1 = Bk − −1 Bk y k (y k )T B k + T
sk (sk )T
(y k )T (B k ) yk (y k ) sk
L’équation (11) redonne bien (10). Cette dernière équation fait apparaı̂tre une
 forme
factorisée et un terme de mise à jour U V T en notant U = − a1 U1 , 1b U2 et V =
(U1 , U2 ) avec
U1 = (B k )−1 y k
U2 = sk
a = (y k )T (B k )−1 y k
b = (y k )T sk
En utilisant la formule de Sherman-Morrison-Woodbury (9), il vient alors
B k+1 = B k − B k U I(2) + V T B k U V T B k

1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 13

Après quelques lignes de développement, on obtient


B k+1 =B k + (γ k )2 y k (sk )T B k sk (y k )T
− γ k y k (sk )T B k − γ k B k sk (y k )T + y k (y k )T γ k
= I − γ k y k (sk )T B k I − γ k sk (y k )T + γ k y k (y k )T
 

qui est bien (10).


1.2.5.4. Mise en œuvre. — On retiendra deux formules possibles pour la mise à jour
de l’inverse de l’approximation du Hessien: la formule DFP (11) et la formule BFGS
(Broyden, Fletcher, Goldfarb, Shanno) suivante
(B k+1 )−1 = I − γ k sk (y k )T (B k )−1 I − γ k y k (sk )T + γ k sk (sk )T
 
(12)
qui correspond à la résolution du problème
min B −1 − (B k )−1 W
B −1 = B −T
B −1 y k = sk

où γ k = 1/((y k )T sk ).

Algorithme 3 (Algorithme de BFGS). — À partir de x0 ∈ Rn quelconque, et


de H 0 = I(n) (d’autres choix de matrice définie positive sont possibles) itérer
pk = −H k ∇f (xk )
xk+1 = xk + lk pk , lk satisfaisant les conditions de Wolfe
sk = xk+1 − xk
y k = ∇f (xk+1 ) − ∇f (xk )
(B k+1 )−1 = I − γ k sk (y k )T (B k )−1 I − γ k y k (sk )T + γ k sk (sk )T
 
−1
H k+1 = B k+1

Théorème 13. — Soit Rn 3 x 7→ f (x) ∈ R deux fois différentiable telle que la ligne
de niveau L = x/f (x) ≤ f (x0 ) est convexe et qu’il existe des constantes positives
m et M telles que ∀z ∈ Rn et ∀x ∈ L
2 2
m kzk ≤ z T ∇2 f (x)z ≤ M kzk
L’algorithme 3 de BFGS converge vers l’unique minimum x∗ de f .

Théorème 14. — Avec les hypothèses du théorème précédent, si de plus ∇2 f (x∗ )


est localement Lipschitz alors la convergence de l’algorithme 3 est superlinéaire.

1.2.6. Méthode du gradient conjugué. — L’algorithme que nous présentons


dans cette section possède deux intérèts. Il permet de résoudre des systèmes linéaires
strictement positifs de grande taille et il sert d’algorithme de base pour la résolution
itérée de problèmes d’optimisation non linéaire.
14 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

1.2.6.1. Fonctions quadratiques. — Résoudre le système linéaire Ax = b où A ∈


Mn (R) symétrique positive définie, x ∈ Rn , b ∈ Rn est équivalent à résoudre le prob-
lème de minimisation de φ(x) = 12 xT Ax − bT x. Ces deux problèmes ont effectivement
une même solution unique. En tout point x qui n’est pas cette solution, on note le
“reste” r(x) = Ax − b = ∇φ qui est non nul.
Considérons maintenant la définition suivante

Définition 15 (Directions conjuguées). — Un ensemble {p0 , p1 , ..., pl } de vecteurs


de Rn est dit A-conjugué si ∀i 6= j, (pi )T Apj = 0.

Une telle famille est libre. Un exemple d’une telle famille est donnée par une famille
de vecteurs propres orthogonaux de A.
1.2.6.1.1. Minimisation suivant les directions conjuguées. — Considérons une séquence

(13) xk+1 = xk + lk pk

où les suites (xk )k∈N et (pk )k∈N sont des suites de vecteurs de Rn et la suite (lk )k∈N
est une suite de vecteurs de R. On a alors
1 k 2 k T k
φ(xk+1 ) = φ(xk + lk pk ) = φ(xk ) + lk (xk )T Apk − bT pk lk + l (p ) Ap
2
Cette expression définit une fonction convexe de la variable lk . Son unique minimum
est obtenu pour
bT pk − (xk )T Apk (rk )T pk
(14) lk = = −
(pk )T Apk (pk )T Apk

où rk = r(xk ).

Théorème 15. — Quel que soit x0 ∈ Rn , la séquence générée par (13), où lk est
donné par (14) et où {p0 , p1 , ..., pn−1 } est une famille de n directions A-conjuguées,
avec A ∈ Mn (R) symétrique définie positive, atteint la solution x∗ de Ax = b en au
plus n étapes.

Démonstration. — Les directions p0 , p1 , ..., pn−1 sont linéairement indépendantes donc


elles engendrent Rn . Il existe donc n réels σ 0 , ..., σ n−1 tels que

x∗ − x0 = σ 0 p0 + ... + σ n−1 pn−1

En multipliant à gauche cette égalité par (pk )T A il vient, pour tout k = 0, ..., n − 1,

(pk )T A(x∗ − x0 )
σk =
(pk )T Apk

Nous allons maintenant montrer que σ k = lk . En k étapes on calcule

xk = x0 + l0 p0 + ... + lk−1 pk−1


1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 15

tel que (pk )T A(xk − x0 ) = 0. Il vient donc


(pk )T A(x∗ − x0 ) = (pk )T A(x∗ − x0 − xk + x0 )
= (pk )T A(x∗ − xk )
= (pk )T (b − Axk ) = −(pk )T rk
k T k
d’où σ k = − (p(pk ))T Ap
r
k = l
k
d’où xn = x∗ . Ceci prouve qu’on a trouvé la décomposition
de x∗ dans la base p0 , p1 , ..., pn−1 en minimisant successivement suivant les directions
conjuguées la fonction quadratique φ(x) = 12 xT Ax − bT x.
Théorème 16. — Quel que soit x0 ∈ Rn , la séquence générée par (13), où lk est
donné par (14) et où {p0 , p1 , ..., pn−1 } est une famille de n directions A-conjuguées
avec A ∈ Mn (R) symétrique définie positive, possède les propriétés suivantes
1. (rk )T pi = 0 pour tout k = 0, ..., n − 1, et tout i = 0, ..., k − 1
2. xk est le minimum global de Rn 3 x 7→ φ(x) sur l’espace affine {x = x0 +
Pk−1 j j 0 k−1
j=0 µ p , (µ , ..., µ ) ∈ Rk }.
Démonstration. — De manière générale, x̃ la combinaison linéaire
x̃ = x0 + α̃0 p0 + ... + α̃k−1 pk−1
procurant la plus petite valeur de Rn 3 x 7→ φ(x) est telle que
∇φ(x̃)T pi = 0
pour tout i = 0, ..., k − 1, c.-à-d. r(x̃)T pi = 0.
Prouvons maintenant le premier point du théorème. Le premier point x1 calculé
par la séquence k = 1 est obtenu en calculant
l0 = argminl φ(x0 + lp0 )
On a donc ∇φ(x1 )T p0 = 0. Raisonnons maintenant par récurrence. Supposons qu’on
ait établi pour un certain k > 1
(rk−1 )T pi = 0, ∀i = 0, ..., k − 2
Calculons maintenant (rk )T pi pour tout i = 0, ..., k − 1.
rk = Axk − b = A(xk−1 + lk−1 pk−1 ) − b = rk−1 + lk−1 Apk−1
d’où
(rk )T pk−1 = (rk−1 )T pk−1 + lk−1 (pk−1 )T Apk−1
k−1 T k−1
or lk−1 = − (p(rk−1 ))T Ap
p k T k−1
k−1 d’où (r ) p = 0. D’autre part, pour i = 0, ..., k − 2,

(rk )T pi = (rk−1 )T pi + lk−1 (pk−1 )T Api = 0


Ce qui achève de prouver le premier point du théorème.
Pour prouver le second point du théorème il suffit d’expliciter le gradient de
l’application Rk 3 l 7→ φ(x0 + l0 p0 + ... + lk−1 pk−1 ). Sa i-ème coordonnée vaut
∇φ(xk )T pi = (rk )T pi = 0 quel que soit i = 0, ...k − 1. Donc le deuxième point est
prouvé.
16 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

1.2.6.1.2. Calcul des directions conjuguées. — On peut construire une base de vecteurs
propres orthogonaux car A est symétrique. Ces vecteurs sont par construction A-
conjugués et constituent un choix possible de directions conjuguées. Mais le calcul
de ces vecteurs est en général très coûteux en temps de calculs. En fait on peut cal-
culer les directions conjuguées au fur et à mesure qu’on en a besoin par la récurrence
suivante
pk = −rk + β k pk−1
qui s’interprète comme l’opposé du gradient au nouveau point altéré par la direction
précédente. Pour que pk et pk−1 soient des directions A-conjuguées on choisit
(rk )T Apk−1
(15) βk =
(pk−1 )T Apk−1
La direction pk est également A-conjuguée avec les directions pi pour i = 0, .., k − 2.
Pour démontrer ce résultat on utilise la proposition suivante

Proposition 3. — Avec les notations précédentes, si xk 6= x∗ alors les propriétés


suivantes sont vérifiées
1. (rk )T ri = 0, pour tout i = 0, ..., k − 1
2. Vect(r0 , r1 , ..., rk ) = Vect(r0 , Ar0 , ..., Ak r0 ) (ce dernier sous espace est dénommé
sous-espace de Krylov)
3. Vect(p0 , p1 , ..., pk ) = Vect(r0 , Ar0 , ..., Ak r0 )
4. (pk )T Api = 0 pour tout i = 0, ..., k − 1

On peut calculer
(pi )T Apk = −(pi )T Ark + β k (pi )T Apk−1 = −(pi )T Ark

On sait d’après le théorème 16 que (rk )T pi = 0 pour tout i = 0, ..., k − 2. Or d’après


les points 2 et 3 de la proposition 3 on sait que
Api ∈ A.Vect(r0 , Ar0 , ..., Ai r0 ) = Vect(Ar0 , A2 r0 , ..., Ai+1 r0 ) ⊂ Vect(p0 , p1 , ..., pi+1 )

Donc il existe un vecteur (γ 0 , ..., γ i+1 ) ∈ Ri+2 tel que


i+1
X
(pi )T Ark = γ j (pj )T rk = 0
j=0

quel que soit i = 0, ..., k − 2. En conclusion, les directions {p0 , ..., pk } sont A-
conjuguées.
On peut en outre simplifier les expressions (14) et (15) en tirant partie des pro-
priétés de la famille (ri )i=0,...,k−1 avec rk . On obtient alors
(rk )T rk (rk+1 )T rk+1
(16) lk = k T k
, β k+1 =
(p ) Ap (rk )T rk
Une fois ces simplifications effectuées on aboutit à l’algorithme suivant
1.2. MÉTHODES NUMÉRIQUES DE RÉSOLUTION SANS CONTRAINTES 17

Algorithme 4 (Algorithme du gradient conjugué). — À partir de x0 ∈ Rn


quelconque calculer r0 = Ax0 − b et p0 = −r0 . Itérer
(rk )T rk
lk =
(pk )T Apk
xk+1 = xk + lk pk
rk+1 = rk + lk Apk
2
k+1 rk+1
β = 2
krk k
pk+1 = −rk+1 + β k+1 pk

On peut caractériser la vitesse de convergence de l’algorithme 4.

Proposition 4. — Soit A ∈ Mn (R) symétrique définie positive, K(A) = λλn1 le


rapport entre la plus petite et la plus grande des valeurs propres de A (aussi appelé
nombre de conditionnement). Les itérations de l’algorithme 4 du gradient conjugué
appliqué à Rn 3 x 7→ φ(x) = 21 xT Ax − bT x ∈ R avec b ∈ Rn , vérifient l’inégalité
p !2k
∗ K(A) − 1
k
x −x A
≤ p x0 − x∗ A
K(A) + 1

Il est possible d’améliorer cette vitesse de convergence par une technique de précon–
ditionnement utilisant un changement de variable linéaire, on se reportera à [25] pour
un exposé de ces techniques.
1.2.6.2. Application aux fonctions non linéaires. — Lorsque la fonction à minimiser
n’est pas quadratique, on ne peut pas calculer explicitement le pas optimal le long
d’une direction de descente et la notion de “résidu” n’a pas le même sens. On peut
néanmoins transposer les idées de l’algorithme du gradient conjugué de la manière
suivante

Algorithme 5 (Algorithme de Fletcher-Reeves). — À partir de x0 ∈ Rn quel-


conque calculer f 0 = f (x0 ), r0 = ∇f (x0 ) et p0 = −r0 . Itérer
1. Choisir lk par une recherche linéaire dans la direction pk

2.

xk+1 = xk + lk pk
rk+1 = ∇f (xk+1 )
2
rk+1
β k+1 = 2
krk k
pk+1 = −rk+1 + β k+1 pk
18 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

Tout comme l’algorithme de gradient conjugué, l’implémentation de cet algorithme


ne requiert que peu de calculs et peu de mémoire quelle que soit la taille du sys-
tème. Pour assurer la décroissance entre deux itérations, on utilisera dans la recherche
linéaire les conditions de Wolfe (voir définition 13) avec typiquement des paramètres
0 < c1 < c2 < 1/2.
Une amélioration pratique de cet algorithme est

Algorithme 6 (Algorithme de Polak-Ribière). — À partir de x0 ∈ Rn quel-


conque calculer f 0 = f (x0 ), r0 = ∇f (x0 ) et p0 = −r0 . Itérer choisir lk par une
recherche linéaire dans la direction pk

xk+1 = xk + lk pk
rk+1 = ∇f (xk+1 )
(rk+1 )T (rk+1 − rk )
β k+1 = 2
krk k
pk+1 = −rk+1 + β k+1 pk

Les conditions de Wolfe peuvent également être utilisées mais n’assurent pas la
décroissance.

Proposition 5. — Soit Rn 3 x 7→ f (x) ∈ R deux fois différentiable possédant un


unique minimum x∗ tel que ∇2 f (x) est défini positif. Les itérations des algorithmes 5
et 6 avec recherche linéaire exacte (c.-à-d. que lk minimise f (xk + lk pk ) à chaque
itération) satisfont
xk+n − x∗
lim =0
k→+∞ kxk − x∗ k

1.3. Principes de l’optimisation sous contraintes


1.3.1. Contraintes égalités. — On s’intéresse désormais au problème de la min-
imisation dans Rn+m , n + m < ∞ d’une fonction différentiable (fonction coût)
Rn+m 3 (x, u) 7→ f (x, u) ∈ R sous la contrainte c(x, u) = 0 définie par une fonc-
tion différentiable c : Rn+m 3 (x, u) 7→ c(x, u) ∈ Rn localement inversible par rapport
à la variable x. En d’autres termes x est localement déterminé par u par la relation
c(x, u) = 0:
(17) min f (x, u)
c(x,u)=0

Une condition suffisante par le théorème des fonctions implicites est que le Jacobien
∂c
partiel ∂x est inversible au voisinage des points tels que c(x, u) = 0. On supposera
cette condition réalisée.
Ce problème revient à chercher un minimum de f sur l’ensemble {(x, u) = c−1 (0)}
qui est un fermé de Rn+m . Cet ensemble ne contient pas de voisinage de tous ses
points. Ainsi, tout déplacement infinitésimal autour d’un des points de son bord ne
1.3. PRINCIPES DE L’OPTIMISATION SOUS CONTRAINTES 19

fournit pas nécessairement de point admissible. Les conditions d’optimalité en seront


donc modifiées.
1.3.1.1. Élimination des variables. — Dans cette approche on calcule la variation de
la fonction coût en préservant la contrainte. Une variation (δx, δu) ∈ Rn+m entraı̂ne
une variation
∂f ∂f
δf ≈ δx + δu
∂x ∂u
Maintenir la contrainte c(x + δx, u + δu) = 0 impose
∂c ∂c
0≈ δx + δu
∂x ∂u
∂c
Par hypothèse, ∂x est inversible. On peut donc établir
 −1 !
∂f ∂c ∂c ∂f
δf ≈ − + δu
∂x ∂x ∂u ∂u

et à la limite
   −1
∂f ∂f ∂c ∂c ∂f
(18) =− +
∂u c=0 ∂x ∂x ∂u ∂u
On remarquera que la variation de f en maintenant la contrainte est différente de la
variation de f sans maintenir la contrainte (dernier terme de la précédente équation).
On peut étendre la définition 6 à notre cas.

Définition 16. — On dit que (x∗, u∗) est un point stationnaire de f sous la con-
∂f
trainte égalité c si c(x∗ , u∗ ) = 0 et ∂u (x∗ , u∗ ) = 0.
c=0

∗ ∗
Définition 17. — On dit que (x , u ) ∈ Rn × Rm est un minimum (optimum) local
de f sous la contrainte c(x, u) = 0 si ∃ > 0 tel que f (x∗ , u∗ ) ≤ f (x, u), ∀(x, u) tel que
k(x, u) − (x∗ , u∗ )k ≤  et c(x, u) = 0 (on dit que c’est un minimum local strict si la
précédente inégalité est stricte). On dit que (x∗ , u∗ ) est solution locale du problème
min f (x, u)
c(x,u)=0

1.3.1.2. Équations adjointes. — Définissons le Lagrangien du problème (17) en ad-


joignant les contraintes à la fonction coût:
(19) R2n+m 3 (x, u, λ) 7→ L(x, u, λ) = f (x, u) + λT c(x, u) ∈ R
D’après la définition 6, un point stationnaire de L (sans contraintes) est caractérisé
par
∂L ∂L ∂L
= 0, = 0, =0
∂x ∂u ∂λ
Proposition 6. — Si (x∗ , u∗ , λ∗ ) ∈ R2n+m est un point stationnaire de L alors
(x∗ , u∗ ) est un point stationnaire de f sous la contrainte c.
20 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

Démonstration. — D’une part on a c(x∗ , u∗ ) = 0. On va montrer que pour toute


variation (δx, δu) ∈ Rn+m telle que (c(x∗ + δx, u∗ + δu) = 0 au premier ordre on a
f (x∗ +δx, u∗ +δu) = f (x∗ , u∗ ) au premier ordre. Le calcul suivant permet de conclure
∂f ∗ ∗ ∂f ∗ ∗
f (x∗ + δx, u∗ + δu) − f (x∗ , u∗ ) ≈ (x , u )δx)δx + (x , u )δu
∂x  ∂u 
∂c ∗ ∗ ∂c ∗ ∗
≈ −λ∗ (x , u )δx + (x , u )δu ≈ 0
∂x ∂u

1.3.1.3. Multiplicateurs de Lagrange. — Le vecteur λ dans l’équation (19) est appelé


vecteur des multiplicateurs de Lagrange. Les multiplicateurs de Lagrange apportent
beaucoup d’information sur le problème d’optimisation sous contraintes comme en
attestent les propriétés suivantes.

Proposition 7. — Si (x∗ , u∗ , λ∗ ) ∈ R2n+m est un point stationnaire de L, alors


T T T
(∇f ) (x∗ , u∗ ) = − (λ∗ ) (∇c) (x∗ , u∗ )

Cette proposition relie le gradient du coût et celui de la contrainte à un point


stationnaire.

Proposition 8. — Si (x∗ , u∗ , λ∗ ) ∈ R2n+m est un point stationnaire de L, alors en


ce point
(20)
!
∂2L ∂2L ∂c −1 ∂c
 −1   
T −

∇2 f (x, u) (x∗ , u∗ ) = ∂c T ∂c T ∂x2 ∂x∂u
− ∂u ∂x I ∂2L ∂2L
∂x ∂u
∂u∂x ∂u2
I

Cette dernière proposition permet souvent de lever l’ambiguı̈té sur la nature du


point stationnaire. Les multiplicateurs de Lagrange λ∗ interviennent dans la matrice
centrale du calcul du Hessien (20).
Définissons maintenant un problème proche du problème (17) en utilisant δc ∈ Rm .
(21) min f (x, u)
c(x,u)=δc

On suppose que (17) et (21) possèdent des solutions (x∗ , u∗ ) et (x̄, ū) respectivement.

On note ∂f ∗ ∗
∂c le vecteur composé des limites des valeurs (f (x̄, ū) − f (x , u ))/δci où
δci ∈ R correspond à la i-ème composante de δc.

Proposition 9 (coût marginal). — Si (x∗ , u∗ , λ∗ ) ∈ R2n+m est un point station-


naire de L, alors
∂f ∗ T
= (λ∗ )
∂c
Cette dernière propriété permet de quantifier le coût (marginal) d’une variation de
la contrainte (relâchement ou durcissement) sur la valeur de l’optimum.
1.4. CONTRAINTES INÉGALITÉS 21

1.4. Contraintes inégalités


On s’intéresse maintenant au problème de la minimisation dans Rn , n < ∞ d’une
fonction différentiable (fonction coût) Rn 3 x 7→ f (x) ∈ R sous la contrainte c(x) ≤ 0
définie par une fonction différentiable Rn 3 x 7→ c(x) ∈ Rm , m < ∞ (on ne spécifie
plus de variable par rapport à laquelle cette fonction sera inversible, et on ne fait pas
d’hypothèse sur les entiers n et m).
(22) min f (x)
c(x)≤0

Définition 18. — On dit que x∗ ∈ Rn est un minimum (optimum) local de f sous


la contrainte c(x) ≤ 0 si ∃ > 0 tel que f (x∗ ) ≤ f (x), ∀x tel que kx − x∗ k ≤  et
c(x) ≤ 0 (on dit que c’est un minimum local strict si ∃ > 0 tel que f (x∗ ) < f (x), ∀x
tel que kx − x∗ k ≤  et c(x) ≤ 0). On dit que (x∗ ) est solution locale du problème
min f (x)
c(x)≤0

1.4.1. Conditions de Karush-Kuhn-Tucker. —


1.4.1.1. Cas des contraintes affines. — Considérons dans un premier temps le cas
où le vecteur c(x) est constitué de contraintes affines Rn 3 x 7→ ci (x) ∈ R, pour
i = 1, .., m telles que c(x) ≤ 0 définit un ensemble d’intérieur non vide.

Définition 19. — On appelle cône convexe engendré par {vi , i = 1, ..., k} un ensem-
ble de vecteurs de Rn , l’ensemble des combinaisons linéaires à coefficients positifs ou
nuls de vecteurs de {vi , i = 1, ..., k}.

Les cônes convexes possèdent d’intéressantes propriétés. On peut établir le résultat


suivant

Lemme 1 (Farkas). — Soient {ai , i = 1, ..., k} une collection de vecteurs de Rn et


g un vecteur de Rn , les deux propositions suivantes sont équivalentes

1. Il n’existe pas p ∈ Rn tel que g T p < 0 et aTi p ≥ 0 pour tout i = 1, ..., k
2. g appartient au cône convexe C engendré par {ai , i = 1, ..., k}

Démonstration. — Démontrons que la seconde proposition entraı̂ne la première. Sup-


Pp seconde proposition vraie. Supposons qu’il existe λi ≥ 0, i = 1, ..., p tels
posons cette
que g = i=1 λi ai . S’il existe h ∈ Rn tel que aTi h ≥ 0 pour tout i = 1, .., p, alors on
a g T h ≥ 0 ce qui est une contradiction.
Démontrons maintenant que la première proposition entraı̂ne la seconde. Sup-
posons cette première proposition vraie. Supposons qu’il n’existe pas p ∈ Rn tel
que
g T p < 0 et aTi p ≥ 0 ∀i = 1, ..., p
Montrons que nécessairement g ∈ C. Supposons que ce soit faux. Définissons h la
projection de g sur C comme un vecteur h ∈ C qui minimise la distance au carré
2
f (h) = kh − gk . Un tel h existe car il est solution d’un problème de minimisation
d’une fonction continue α-convexe sur K convexe fermé. Il n’est pas à l’intérieur
22 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

de K car on aurait alors ∇f (h) = h − g 6= 0. Il est sur le bord du cône et on a


nécessairement hT (h − g) = 0. Posons p = h − g ∈ Rn . Un calcul donne
2
g T p = g T (h − g) = (g − h)T (h − g) = − kh − gk
Or par hypothèse g 6∈ C. Donc h 6= g et donc
gT p < 0
2
D’autre part, h ∈ C réalise le minimum global de f (h) = kh − gk . Donc, quel que
soit v ∈ C, on a pour tout α ∈ [0, 1]
2 2
kh − gk ≤ k(1 − α)h + αv − gk
2 2
≤ kh − gk + α2 kv − hk + 2α(h − g)T (v − h)
On en déduit que pour tout α ∈ [0, 1]
2
α2 kv − hk + 2α(h − g)T (v − h) ≥ 0
Nécessairement on a donc (h − g)T (v − h) ≥ 0. En conclusion, pour tout v ∈ C, on a
pT v ≥ 0. Cette inégalité est vraie pour le cas particulier des vecteurs ai , i = 1, ..., k.
On a donc trouvé p 6= 0 tel que g T p < 0 et pT ai ≥ 0, pour tout i = 1, ..., k. C’est en
contradiction avec l’hypothèse et conclut la preuve.

La notion de cône convexe est utilisée pour caractériser les solutions de notre prob-
lème d’optimisation.
Proposition 10. — Si x∗ est solution du problème (22) alors (sous les hypothèses du
paragraphe §1.4.1.1) ∇f (x∗ ) est dans le cône convexe engendré par {−∇ci (x∗ ), i ∈ I}
où I = {i = 1, .., m tel que ci (x∗ ) = 0} (famille des indices des contraintes actives).
Démonstration. — On va montrer que si ∇f (x∗ ) n’appartient pas au cône convexe
engendré par {−∇ci (x∗ ), i ∈ I} alors x∗ n’est pas minimum. D’après le lemme 1 de
Farkas, ∃h ∈ Rn tel que ∇f (x∗ )T h < 0 et −∇ci (x∗ )T h ≥ 0 pour tout i ∈ I. En
suivant cette direction pour δ ∈ R il vient
f (x∗ + hδ) = f (x∗ ) + ∇f (x∗ )hδ + ◦(δ 2 )
ci (x∗ + hδ) = ci (x∗ ) + ∇ci (x∗ )T hδ, ∀i ∈ I
Donc pour δ suffisamment petit
f (x∗ + hδ) < f (x∗ )
ci (x∗ + hδ) ≤ c(x∗ ) ≤ 0, ∀i = 1, ..., m
Tout voisinage de x∗ contient un meilleur point que x∗ qui n’est donc pas minimum.

Dans le cas où les contraintes Rn 3 x 7→ ci (x) ∈ R ne sont pas affines, il peut
ne pas exister de direction donnée par le lemme de Farkas utilisable pour trouver un
meilleur point que x∗ . La courbure des contraintes peut gêner une telle construction.
D’autre part, le cône convexe engendré par les contraintes actives peut dégénérer (la
frontière peut ressembler à un point de rebroussement).
1.4. CONTRAINTES INÉGALITÉS 23

Néanmoins, il est possible d’étendre le résultat précédent dans le cas général sous
une hypothèse supplémentaires souvent peu gênante en pratique.
Théorème 17. — [Conditions KKT] Considérons un point x∗ ∈ Rn . Notons la
famille des indices des contraintes actives en x∗ par I = {i ∈ {1, .., m tel que ci (x∗ ) = 0}}.
Supposons que x∗ est un point régulier pour ces contraintes, c.-à-d. que la famille
(∇ci (x∗ ))i∈I est une famille libre (on dit que les contraintes sont qualifiées). Sous ces
hypothèses, si x∗ est une solution du problème (22) alors ∇f (x∗ ) appartient au cône

convexe engendré
Pm par (−∇c i (x ))i∈I . En conséquence, ∃λi ≥ 0, i = 1, ..., m tels que
∇f (x ) = − i=1 λi ∇ci (x ) et λi ci (x∗ ) = 0 pour i = 1, .., n.
∗ ∗

Ce résultat (admis, voir [23]) est une condition nécessaire aux points réguliers
candidats pour être minimum. On calculera par les multiplicateurs de Lagrange la
combinaison linéaire qui permet d’exprimer le gradient du coût en fonction des gra-
dients des contraintes actives et on vérifiera que les multiplicateurs sont bien tous
positifs ou nuls.
En pratique on travaillera souvent avec des fonctions convexes et on exploitera le
résultat suivant
Proposition 11. — Soit le problème d’optimisation minc(x)≤0 f (x) où les fonctions
f et c sont différentiables et convexes. On suppose qu’il existe x ∈ Rn tel que c(x) < 0.
Les conditions KKT du théorème 17 sont nécessaires et suffisantes pour que x∗ soit
un minimum global.

1.4.2. Dualité. — Considérons le problème de la minimisation dans X sous en-


semble de Rn , n < ∞ d’une fonction différentiable (fonction coût) X 3 x 7→ f (x) ∈ R
sous la contrainte c(x) ≤ 0 définie par une fonction différentiable Rn 3 x 7→ c(x) ∈ Rm
(23) min f (x)
x∈X,c(x)≤0

Considérons alors le Lagrangien associé à ce problème


(24) X × L 3 (x, λ) 7→ L(x, λ) = f (x) + λT c(x) ∈ R
où L ⊂ Rm .
Définition 20. — On dit que (x∗ , λ∗ ) est un point selle de L si x∗ est un minimum
pour X 3 x 7→ L(x, λ∗ ) et λ∗ est un maximum pour L 3 λ 7→ L(x∗ , λ) ou encore si
(25) sup L(x∗ , λ) = L(x∗ , λ∗ ) = inf L(x, λ∗ )
λ∈L x∈X

On a aussi pour tout x ∈ X et pour tout λ ∈ L


L(x∗ , λ) ≤ L(x∗ , λ∗ ) ≤ L(x, λ∗ )
D’après le théorème suivant, on peut intervertir l’ordre de la maximisation et de
la minimisation
Théorème 18 (Théorème du point selle). — Si (x∗ , λ∗ ) est un point selle de L
sur X × L alors
sup inf L(x, λ) = L(x∗ , λ∗ ) = inf sup L(x, λ)
λ∈L x∈X x∈X λ∈L
24 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

Démonstration. — Par définition, on a


L(x, λ) ≤ sup L(x, λ)
λ∈L
et donc
inf L(x, λ) ≤ inf sup L(x, λ)
x∈X x∈X λ∈L
et finalement
sup inf L(x, λ) ≤ inf sup L(x, λ)
λ∈L x∈X x∈X λ∈L

Utilisons maintenant l’égalité du point selle (25) sur


inf sup L(x, λ) ≤ sup L(x∗ , λ) = L(x∗ , λ∗ )
x∈X λ∈L λ∈L
= inf L(x, λ∗ )
x∈X
≤ sup inf L(x, λ)
λ∈L x∈X
Finalement
sup inf L(x, λ) = L(x∗ , λ∗ ) = inf sup L(x, λ)
λ∈L x∈X x∈X λ∈L

Lorsque (x∗ , λ∗ ) n’est pas un point selle, l’égalité précédente n’est pas vraie, on n’a
que
sup inf L(x, λ) ≤ inf sup L(x, λ)
λ∈L x∈X x∈X λ∈L
on parle de “saut de dualité” lorsque les deux résultats sont différents.
On appelle problème primal le problème minx∈X maxλ∈L L(x, λ), et problème dual
maxλ∈L minx∈X L(x, λ).
Les deux théorèmes suivants permettent de relier notre problème d’optimisation
sous contraintes inégalités à l’existence d’un point selle.
Théorème 19 (Optimalité du point selle). — Si (x∗ , λ∗ ) est un point selle de
m
L sur X × (R+ ) , alors x∗ est solution du problème (22).
m
Démonstration. — Par définition, quel que soit λ ∈ (R+ ) on a
∗ ∗ ∗
L(x , λ) ≤ L(x , λ )
Ceci peut s’écrire
(26) (λ − λ∗ )T c(x∗ ) ≤ 0
En exprimant cette inéquation pour λ = 0 et λ = 2λ∗ il vient
T
(λ∗ ) c(x∗ ) = 0
Il vient aussi en exprimant le produit scalaire (26) composante par composante
c(x∗ ) ≤ 0
D’autre part, L(x∗ , λ∗ ) ≤ L(x, λ∗ ) pour tout x ∈ X. On a donc
T
f (x∗ ) ≤ f (x) + (λ∗ ) c(x)
1.4. CONTRAINTES INÉGALITÉS 25

Donc pour tout x ∈ X tel que c(x) ≤ 0 on a f (x∗ ) ≤ f (x) ce qui achève la démon-
stration.
Sans hypothèse sur la régularité des f et de c, on peut énoncer un théorème analogue
aux conditions KKT du théorème 17.
Théorème 20 (existence de point selle). — Supposons X 3 x → 7 f (x) ∈ R et
Rn 3 x 7→ c(x) ∈ Rm convexe. Soit x∗ solution du problème (22) tel que les con-
traintes actives en x∗ sont qualifiées, alors il existe un point selle (x∗ , λ∗ ) du La-
grangien (24).

1.4.3. Algorithme de minimisation sous contraintes utilisant la dualité. —


Les algorithmes de cette section sont des algorithmes de recherche de point selle
Algorithme 7 (Algorithme d’Uzawa). — À partir de x0 ∈ Rn , λ0 ∈ Rm , α ∈
m m
R+ quelconques, on note Rm 3 λ 7→ P (λ) ∈ (R+ ) la projection sur (R+ ) , itérer
résoudre minn L(x, λk ), on note xk+1 la solution
x∈R
k+1
= P λk + αc(xk+1 )

λ
La seconde partie de la boucle à itérer consiste à effectuer un gradient à pas constant
pour maximiser Rm 3 λ 7→ minx∈Rn L(x, λ). Une variante de cet algorithme est
Algorithme 8 (Algorithme d’Arrow-Hurwicz). — À partir de x0 ∈ Rn , λ0 ∈
m m
Rm quelconques, ε ∈ R+ on note Rm 3 λ 7→ P (λ) ∈ (R+ ) la projection sur (R+ ) ,
itérer
 
∂c k k
xk+1 = xk − ε ∇f (xk ) + (x )λ
∂x
k+1 k k+1

λ = P λ + αc(x )

1.4.4. Méthode de contraintes actives pour les problèmes de programma-


tion quadratique. — Nous allons maintenant présenter un algorithme efficace (y
compris lorsque les dimensions n et m sont grandes) de résolution de problèmes de
minimisation d’une fonction quadratique sous contraintes affines.
On va traiter le cas
1
f (x) = xT Gx + xT d
2
sous contraintes affines
c(x) = Ax − b ≤ 0
et on cherche à résoudre le problème de minimisation (22). On suppose que G est une
matrice symétrique définie positive de Mn (R) et A une matrice de M(m, n), avec
m > n. On notera ai la i-ème ligne de A et bi la i-ème composante de b ∈ Rm .
L’algorithme constitue et met à jour un ensemble de contraintes actives jusqu’à ce
que cet ensemble satisfasse les conditions de Karush-Kuhn-Tucker du théorème 17.
La mise à jour s’effectue en repérant des directions d’amélioration. On suit ces di-
rections jusqu’à atteindre une nouvelle contrainte bloquante. On élimine si besoin
les contraintes, pour pouvoir avancer, en vérifiant le signe de leur multiplicateur de
26 CHAPITRE 1. OPTIMISATION CONTINUE DE DIMENSION FINIE

Lagrange. À chaque étape k, on définit W k ensemble de travail (sous-ensemble) de


Akc ensemble des contraintes actives au point xk . On suppose que les gradients (ai )
des contraintes de W k sont linéairement indépendants.

Algorithme 9 (Algorithme de contraintes actives QP)


À partir de W 0 ensemble de travail de départ, x0 ∈ Rn point où les n contraintes
de A constituant W 0 sont actives, itérer
1. Vérifier si xk est un minimum de f (x) sous les contraintes aTi x − bi ≤ 0, i ∈ W k .
Si c’est le cas l’algorithme s’achève et xk est la solution recherchée. Sinon
continuer au point 2.
2. Résoudre minaTi x−bi ≤0,i∈W k f (x)
(a) Calculer une direction pk solution de minaTi p=0,i∈W k 21 pT Gp+(Gxk +d)T p
b −aT xk
 
(b) si pk 6= 0 noter αk = min 1, mini6∈W k ,aTi pk >0 i aT pi k
i
Si αk < 1 il existeSun unique j réalisant le précédent minimum. Mettre à
jour W k+1 = W k {j}.
(c) si pk = 0 calculer les multiplicateurs de Lagrange λi , i ∈ W k du problème
minaTi x−bi =0 f (x). Si tous ces multiplicateurs de Lagrange sont positifs
l’algorithme s’achève et xk est la solution recherchée. Dans le cas con-
traire éliminer de W k la contrainte ayant le plus grand multiplicateur de
Lagrange

Proposition 12. — Avec les notations précédentes, l’algorithme 9 de contraintes


actives possède les propriétés suivantes
1. On ne revisite jamais exactement l’ensemble W k .
2. La suite des directions (pk )k ∈ N revient n-périodiquement à la valeur pk = 0.

Démonstration. — La suite des valeurs (f (xk ))k ∈ N est décroissante. Elle est stricte-
ment décroissante aux indices tels que αk > 0. On ne revisite jamais exactement
l’ensemble W k car xk+1 est le minimum sous les contraintes d’indices éléments de
W k . La deuxième propriété découle du raisonnement suivant. Si pk 6= 0 le point
xk est mis à jour. Soit le pas αk utilisé dans cette mise à jour est égal à 1 et on a
obtenu un minimiseur donc pk+1 = 0, soit αk < 1 et on doit rajouter une contrainte
à l’ensemble W k . Au bout de l < n étapes, W k contient n contraintes linéairement
indépendantes. Le problème est complètement contraint et on a donc pk+l = 0.

Proposition 13. — Avec les notations précédentes, l’algorithme 9 de contraintes


actives converge en un nombre fini d’itérations vers l’unique minimum global du prob-
lème (22).

Démonstration. — Il existe un nombre fini de W k possibles. L’algorithme parcourt


cet ensemble jusqu’à obtenir l’optimum.

Cet algorithme est également très utilisé pour résoudre une successions de prob-
lèmes où une fonction coût non linéaire est approchée par son développement de
1.4. CONTRAINTES INÉGALITÉS 27

Taylor au deuxième ordre et où les contraintes sont approchées par leur développe-
ment de Taylor au premier ordre. De tels algorithmes SQP (successive quadratic
programming) sont détaillés dans [16, 15].
CHAPITRE 2

OPTIMISATION DE TRAJECTOIRES

2.1. Calcul des variations


2.1.1. Historique. — Au lieu d’un nombre fini de paramètres, on peut considérer
qu’il s’agit de l’optimisation d’un nombre infini de valeurs successives de la fonction
recherchée.
Ces problèmes sont très anciens. On pourra se référer à [32] pour un exposé complet
de leur historique. Le problème de Dido est le calcul du contour de périmètre donné
enfermant l’aire maximale. Il date du 9ème siècle avant JC. Galilée (1588) considéra
des problèmes célèbres, mais la réelle percée vint de Johann Bernoulli qui mit au défi
les plus illustres mathématiciens de son époque (son propre frère Jakob, Leibnitz,
Newton). Le problème en question était le Brachistochrone: le calcul de la courbe
permettant à un point matériel soumis à la gravité de rallier son point initial à un
point d’arrivée donné.
D’autres problèmes importants sont le calcul des géodésiques, les problèmes iso–
périmétriques, et de manière générale les problèmes avec contraintes.
Les “sciences naturelles” (mécanique, optique, ...) ont été profondément marquées
par le calcul des variations. De nombreuses lois ne la nature se déduisent de principes
variationnels, énoncant que parmi tous les mouvements possibles, celui qui se réalise
est un extremum. Cette vision de la nature, indiqua que les réalisations humaines
devaient elles aussi être des extrema: Brachistochrone ou problème de Newton.
Une citation célèbre d’Euler est:“il n’y a rien dans le monde qui ne se réalise sans
la volonté de minimiser ou maximiser quelque chose”.

2.1.2. Notions fondamentales. —

Définition 21 (Fonctionnelle). — Soit X un espace vectoriel normé. On appelle


fonctionnelle une application de X dans R.

Dans ce qui suit nous nous intéressons à l’espace vectoriel normé X = D des
fonctions continues à dérivées continues R ⊃ [t1 , t2 ] −→ Rn , n < ∞ muni de la
norme X 3 u 7→ kukD = maxt∈[t1 ,t2 ] ku(t)k + maxt∈[t1 ,t2 ] ku̇(t)k. On considère les
30 CHAPITRE 2. OPTIMISATION DE TRAJECTOIRES

fonctionnelles du type
Z t2
X 3 u 7→ J(u) = L(u(t), u̇(t), t)dt ∈ R
t1

où L est une fonction R2n+1 3 (u, v, t) 7→ L(u, v, t) ∈ R continue possédant des
dérivées partielles continues.
On cherchera à minimiser J sous certaines contraintes, en restreignant l’ensemble
des fonctions considérées à X ⊃ U = {u ∈ X, u(t1 ) = a, u(t2 ) = b} où a et b sont
des réels donnés. C’est un ensemble convexe. On cherchera à résoudre le problème
suivant

(27) min J(u)


u∈U

Définition 22. — On dit que u est un minimum (local) de J (c.-à-d. une solution
du problème (27) s’il existe un voisinage V(u∗ ) tel que J(u∗ ) ≤ J(u) pour tout u ∈
V(u∗ ).
Définition 23 (Variation admissible). — On dit que h ∈ X est une variation
admissible au point u ∈ U si (u + h) ∈ U .
Définition 24 (Différentielle de Gâteaux). — Soient J une fonctionnelle sur X
espace vectoriel normé, u∗ ∈ U et h ∈ X variation admissible. On appelle différentielle
de Gâteaux de J au point u∗ dans la direction h la limite
1
δJ(u∗ , h) = lim (J(u∗ + δh) − J(u∗ ))
δ−→0 δ

2.1.3. Conditions nécessaires d’extrémalité. — La notion de différentielle de


Gâteaux remplace pour les fonctionnelles la notion de différentielle pour les fonctions.
Une condition nécessaire pour que u∗ ∈ U soit un minimum est que la différentielle
de Gâteaux δJ(u∗ , h) doit être nulle pour toute variation admissible h. On va réécrire
cette proposition en une équation exploitable à l’aide du résultat suivant.
Lemme 2 (Lemme de duBois-Reymond). — Soit R ⊃ [t1 , t2 ] 3 t 7→ φ(t) ∈ R
une fonction continue. Si on a, pour tout R ⊃ [t1 , t2 ] 3 t 7→ h(t) ∈ R continue à
dérivée continue telle que h(t1 ) = h(t2 ) = 0,
Z t2
φ(t)h(t)dt = 0
t1
alors φ = 0.
Démonstration. — Supposons que les hypothèses du lemme sont valides et que φ 6= 0.
Sans perte de généralité on peut supposer qu’elle est strictement positive en un point
t ∈ [t1 , t2 ]. Par continuité, elle est donc strictement positive sur [t01 , t02 ] ⊂ [t1 , t2 ].
Définissons h comme
h(t) = (t − t01 )2 (t − t02 )2 I[t01 ,t02 ] (t)
Rt
Avec cette variation, on obtient t12 φ(t)h(t)dt > 0. D’où une contradiction et donc
φ = 0.
2.1. CALCUL DES VARIATIONS 31

L’équation δJ(u∗ , h) = 0 pour toute variation admissible se réécrit


Z t2  
∂L ∗ ∗ ∂L ∗ ∗
(u , u̇ , t)h(t) + (u , u̇ , t)ḣ(t) dt = 0
t1 ∂u ∂ u̇
Par intégration par parties il vient
Z t2    t2
∂L ∗ ∗ d ∂L ∗ ∗ ∂L ∗ ∗
(u , u̇ , t) − (u , u̇ , t) h(t)dt + (u , u̇ , t)h(t) =0
t1 ∂u dt ∂ u̇ ∂ u̇ t1

h est une variation admissible donc h(t1 ) = h(t2 ) = 0. La précédente équation se


simplifie
Z t2  
∂L ∗ ∗ d ∂L ∗ ∗
(u , u̇ , t) − (u , u̇ , t) h(t)dt = 0
t1 ∂u dt ∂ u̇
Cette équation doit être vraie pour toute variation admissible h, et le lemme 2 de
duBois-Reymond permet de conclure
∂L ∗ ∗ d ∂L ∗ ∗
(28) (u , u̇ , t) − (u , u̇ , t) = 0
∂u dt ∂ u̇
L’équation (28) est appelée équation d’Euler-Lagrange et est une condition nécessaire
qui doit être satisfaite par toute solution du problème (27).
Dans de nombreux cas pratique, le Lagrangien ne dépend pas explicitement de t.
On pourra alors utiliser la proposition suivante.
Proposition 14. — Lorsque L ne dépend pas explicitement de t, l’équation d’Euler-
Lagrange (28) implique
 
d ∂L
L − u̇ =0
dt ∂ u̇
Démonstration. — On calcule
   
d ∂L ∂L d ∂L
L − u̇ = u̇ − =0
dt ∂ u̇ ∂u dt ∂ u̇
en utilisant (28).
On peut étendre le calcul des variations aux fonctionnelles du type
Z t2
X 3 u 7→ J(u) = L(u(t), u̇(t), ..., u(n) , t)dt ∈ R
t1

(en utilisant un espace vectoriel normé X adapté) et on obtient l’équation d’Euler-


Poisson
∂L d ∂L d2 ∂L dn ∂L
− + 2 + ... + (−1)n n (n) = 0
∂u dt ∂ u̇ dt ∂ ü dt ∂u
On peut également appliquer les mêmes règles de calcul ainsi que la formule de Green
pour les fonctionnelles
Z t2  
∂ ∂
u 7→ J(u) = L u(x, y), u(x, y), u(x, y), x, y dx dy ∈ R
t1 ∂x ∂y
32 CHAPITRE 2. OPTIMISATION DE TRAJECTOIRES

pour obtenir l’équation d’Ostrogradski


! !
∂L ∂ ∂L ∂ ∂L
− ∂
u(x, y) − ∂
u(x, y) = 0
∂u ∂x ∂ ∂x u ∂y ∂ ∂y u

2.2. Optimisation de systèmes dynamiques


On s’intéresse désormais au problème de la minimisation d’une fonctionnelle X ×
U 3 (x, u) 7→ J(x, u) ∈ R où X × U est un espace vectoriel normé. Ici, X est l’espace
des fonctions continues à dérivées continues R ⊃ [t1 , t2 ] −→ Rn , n < ∞ muni de la
norme X 3 x 7→ kxkD = maxt∈[t1 ,t2 ] kx(t)k + maxt∈[t1 ,t2 ] kẋ(t)k. U est l’espace des
fonctions définies sur [t1 , t2 ] −→ Rm . Les fonctions x et u sont contraintes par une
équation différentielle
ẋ = f (x, u)
où Rn+m 3 (x, u) 7→ f (x, u) ∈ Rn est une fonction de classe C 1 . En outre on impose
la contrainte
(29) x(t1 ) = x0 ∈ Rn
On va chercher une caractérisation des solutions du problème
(30) min J(x, u)
ẋ = f (x, u)
x(t1 ) = x0
On considérera des fonctionnelles du type
Z t2
X × U 3 (x, u) 7→ J(x, u) = ϕ(x(t2 ), t2 ) + L(x(t), u(t), t)dt
t1

où Rn ×R 3 (x, t) 7→ ϕ(x, t) ∈ R est de classe C 1 et Rn ×Rm ×R 3 (x, t) 7→ L(x, u, t) ∈


R est de classe C 1 . Pour tenir compte de la condition initiale (29), on considère qu’une
variation admissible (δx, δu) ∈ X × U doit vérifier δx(t1 ) = 0. Comme dans le cas
de l’optimisation continue de dimension finie traité au chapitre 1, on va chercher à
résoudre le problème d’optimisation sous contrainte en adjoignant les contraintes à la
fonction coût.
On forme alors X × U × M 3 (x, u, λ) 7→ J(x,¯ u, λ) où M est l’espace des fonctions
n
R −→ R différentiable par
Z t2
¯
J(x, u, λ) = J(x, u) + λ(t)T (f (x, u, t) − ẋ)(t)dt
t1
En notant
(31) H(x(t), u(t), λ(t), t) = L(x(t), u(t), t) + λ(t)T f (x, u, t)
qu’on appellera Hamiltonien du problème (30), il vient
¯ u, λ) =ϕ(x(t2 ), t2 ) + λ(t1 )T x(t1 ) − λ(t2 )T x(t2 )
J(x,
(32) Z t2  
+ H(x(t), u(t), λ(t), t) + λ̇(t)T x(t) dt
t1
2.2. OPTIMISATION DE SYSTÈMES DYNAMIQUES 33

Proposition 15. — Si (x∗ , u∗ , λ∗ ) ∈ X ×U ×M est un point stationnaire de J¯ défini


par (32) alors (x∗ , u∗ ) est un point stationnaire de J sous les contraintes ẋ = f (x, u, t),
x(t1 ) = x0 .

Démonstration. — Nous allons montrer que, autour de (x∗ , u∗ ), pour toute variation
admissible du premier ordre [t1 , t2 ] 3 (δx, δu)(t) ∈ Rn ×Rm telle que k(δx, δu)kX×U =
◦(δ) satisfaisant la contrainte ẋ = f (x, u, t), la variation δJ de la fonctionnelle J est
du deuxième ordre, c.-à-d. δJ = ◦(δ).
La stationnarité de (x∗ , u∗ , λ∗ ) pour J¯ est caractérisée par 3 relations. La première
est

ϕ(x(t2 ), t2 )δx(t2 ) − λ(t2 )T δx(t2 )
∂x(t2 )
Z t2
∂ ∂
+ ( L(x, u, t)δx + λ(t)T f (x, u, t)δx + λ̇(t)T δx)dt = ◦(δ)
t1 ∂x ∂x

pour toute variation admissible R 3 t 7→ δx(t) ∈ Rn . Ce calcul des variations donne

∂ ∂
(33) L(x, u, t) + λ(t)T f (x, u, t) + λ̇(t)T = 0
∂x ∂x

(34) λT (t2 ) = ϕ(x(t2 ), t2 )
∂x(t2 )

On réécrira la condition (33) sous la forme λ̇T = − ∂H∂x . La seconde condition de


stationnarité est que pour toute variation R 3 t 7→ δu(t) ∈ Rm on doit avoir
Z t2  
∂ ∂
L(x, u, t) + λ(t)T f (x, u, t) δu(t) dt = ◦(δ)
t1 ∂u ∂u

Ce calcul des variations donne


∂ ∂
(35) L(x, u, t) + λ(t)T f (x, u, t) = ◦(δ)
∂u ∂u

On réécrira cette condition comme ∂u H = 0.
La dernière condition de stationnarité est
Z t2
δλ(t)T (f (x, u, t) − ẋ)dt = 0
t1

Elle redonne la contrainte

(36) ẋ = f (x, u, t)
34 CHAPITRE 2. OPTIMISATION DE TRAJECTOIRES

Supposons que les équations (33), (34), (35) et (36) soient vérifiées. Calculons la
variation de la fonctionnelle J.
Z t2  
∂ ∂ ∂
δJ = ϕ(x(t2 ), t2 )δx(t2 ) + L(x, u, t)δx + L(x, u, t)δu dt
∂x(t2 ) t1 ∂x ∂u

= ϕ(x(t2 ), t2 )δx(t2 )
∂x(t2 )
Z t2  
∂ ∂
+ −λ(t)T f (x, u, t)δx(t) − λ̇(t)T δx(t) − λ(t)T f (x, u, t)δu(t) dt
t1 ∂x ∂u

= ϕ(x(t2 ), t2 )δx(t2 ) − λ(t2 )T δx(t2 ) + λ(t1 )T δx(t1 )
∂x(t2 )
Z t2  
T ˙ ∂ ∂
+ λ(t) δx(t) − f (x, u, t)δx(t) − f (x, u, t)δu(t) dt
t1 ∂x ∂u
= ◦(δ)

2.2.1. Problème aux deux bouts. — Les conditions de stationnarité (33) (34)
de la proposition 15 forment, avec les contraintes (36) et (29), le problème “aux deux
bouts” suivant
ẋ = f (x, u)



x(t1 ) = x0






∂H


λ̇T = − (x, u, λ)


(37) ∂x
 ∂
λT (t2 ) = ϕ(x(t2 ), t2 )





 ∂x(t 2)
∂H


où u est solution de =0


∂u

Le long de l’extrémale on élimine u des équations en résolvant les équations ∂u H = 0.
Le problème aux deux bouts a pour seules inconnues les fonctions R ⊃ [t1 , t2 ] 3 t 7→
x(t) ∈ Rn et R ⊃ [t1 , t2 ] 3 t 7→ λ(t) ∈ Rn . Le système d’équations différentielles et de
conditions limites (37) ne définit pas un problème de Cauchy à cause de la séparation
des conditions de bords aux deux extrémités du domaine. En outre, la condition
portant sur λ dépend de l’inconnue x. C’est un problème difficile à résoudre en
général.
Proposition 16 (Conservation de l’Hamiltonien). — Lorsque L ne dépend pas
explicitement de t, les conditions de stationnarité constituant le système d’équations
différentielles aux deux bouts (37) impliquent
d
H=0
dt
Démonstration. — Un calcul direct donne
d ∂H ∂H ∂H ∂H
H= ẋ + 0 + λ̇ = f (x, u) − f (x, u) = 0
dt ∂x ∂λ ∂x ∂x
2.2. OPTIMISATION DE SYSTÈMES DYNAMIQUES 35

En pratique on se servira souvent de la conservation de l’Hamiltonien pour éliminer


une variable et essayer de résoudre le problème aux deux bouts.

2.2.2. Contraintes finales. — On cherche ici une caractérisation des solutions du


problème
(38) min J(x, u)
ẋ = f (x, u)
x(t1 ) = x0
ψ(x(t2 ), t2 ) = 0
où Rn × R 3 (x, t) 7→ ψ(x, t) ∈ Rq , 1 < q ≤ n est une fonction de classe C 1 . Ces
contraintes portent sur l’état final et le temps final du système qui est ici fixe, on les
nomme contraintes de “rendez-vous”.
On considérera des fonctionnelles du type
Z t2
X × U 3 (x, u) 7→ J(x, u) = ϕ(x(t2 ), t2 ) + L(x(t), u(t), t)dt
t1

où R × R 3 (x, t) 7→ ϕ(x, t) ∈ R est de classe C et Rn × Rm × R 3 (x, u, t) 7→


n 1

L(x, u, t) ∈ R est de classe C 1 .


Le problème aux deux bouts correspondant à ce problème d’optimisation est


 ẋ = f (x, u)

x(t1 ) = x0





∂H


λ̇T = −


 (x, u, λ)

 ∂x
(39) ∂ ∂ψ
 λT (t2 ) = ϕ(x(t2 ), t2 ) + ν T
∂x(t2 ) ∂x(t2 )








 ψ(x(t 2 ), t2 ) = 0


 ∂H
où u est solution de =0


∂u
où H(x, u, λ, t) = L(x, u, t) + λT f (x, u, t) et ν ∈ Rq . On obtient ce résultat en
adjoignant les contraintes ẋ = f (x, u, t) et ψ(x(t2 ), t2 ) = 0 à la fonctionnelle et en
explicitant le calcul des variations. On a ainsi
Z t2
(40) ¯
J(x, u, λ, ν) =J(x, u) + λ(t)T (f (x, u, t) − ẋ)(t)dt + ν T ψ(x(t2 ), t2 )
t1
On peut alors établir la proposition suivante
Proposition 17. — Si (x∗ , u∗ , λ∗ , ν ∗ ) ∈ X × U × M × Rq est un point stationnaire
de J¯ défini par (40) alors (x∗ , u∗ ) est un point stationnaire de J sous les contraintes
ẋ = f (x, u, t), x(t1 ) = x0 , ψ(x(t2 ), t2 ) = 0.

2.2.3. Résolution numérique du problème aux deux bouts. —


36 CHAPITRE 2. OPTIMISATION DE TRAJECTOIRES

2.2.3.1. Calcul du gradient par l’adjoint. — On va chercher à étendre les calculs


menés en dimension finie établissant la variation de la fonction coût par rapport aux
inconnues en satisfaisant les contraintes (18). Dans le cas présent, on revient au
problème
min J(x, u)
ẋ = f (x, u)
x(t1 ) = x0
On considérera des fonctionnelles du type
Z t2
X × U 3 (x, u) 7→ J(x, u) = ϕ(x(t2 ), t2 ) + L(x(t), u(t), t)dt
t1

où Rn ×R 3 (x, t) 7→ ϕ(x, t) ∈ R est de classe C 1 et Rn ×Rm ×R 3 (x, t) 7→ L(x, u, t) ∈


R est de classe C 1 .
On va chercher à calculer la variation de J lorsqu’on fait varier l’inconnue u tout
en maintenant la contrainte ẋ = f (x, u), x(t1 ) = x0 . On va noter δJ la variation de
la valeur de J engendrée par une telle variation δu. Il vient
Z t2  
∂ϕ ∂L ∂L
(41) δJ = (x(t2 ), t2 )δx(t2 ) + (x(t), u(t), t)δx(t) + δu(t) dt + ◦(δ)
∂x t1 ∂x ∂u
Dans cette équation δx est liée à δu par la satisfaction de la contrainte ẋ = f (x, u)
qui donne
∂f ∂f
δ̇x(t) = (x, u, t)δx(t) + (x, u, t)δu(t) + ◦(δ)
∂x ∂u
Il est possible d’intégrer cette équation linéaire en utilisant la matrice de passage M
d
définie par dt M (t, t1 ) = ∂f
∂x (x, u, t)M (t, t1 ), M (t1 , t1 ) = I ce qui donne alors
Z t
∂f
δx(t) = M (t, t1 )δx(t1 ) + M (t, τ ) (x, u, τ )δu(τ )dτ + ◦(δ)
t1 ∂u
On peut donc éliminer δx dans l’équation (41) et obtenir explicitement δJ en fonction
de la variation R ⊃ [t1 , t2 ] ∈ t 7→ u(t) ∈ Rm . Cette expression est très compliquée
à calculer car elle nécessite la résolution complète d’un système d’équations différen-
tielles. En fait, le lemme suivant va nous permettre de simplifier énormément les
calculs

Lemme 3 (Lemme de l’adjoint). — Les solutions du système d’équations diffé–


rentielles (
ẋ(t) = A(t)x(t) + B(t)u(t)
λ̇(t) = −AT (t)λ(t) + Γ(t)
où pour tout t ∈ [t1 , t2 ] ⊂ R, on a A(t) ∈ Mn (R), B(t) ∈ M(n×m) (R), Γ(t) ∈ Rn ,
satisfont l’égalité
Z t2
λT (t2 )x(t2 ) − λT (t1 )x(t1 ) = λT (t)B(t)u(t) + ΓT (t)x(t) dt

t1
2.2. OPTIMISATION DE SYSTÈMES DYNAMIQUES 37

Le système d’équations que nous devons résoudre dans le problème aux deux bouts
implique
∂f ∂f
δ̇x(t) = (x, u, t)δx(t) + (x, u, t)δu(t) + ◦(δ)
∂x ∂u
 T  T
∂f ∂L
λ̇(t) = − (x, u, t) λ(t) − (x, u, t)
∂x ∂x
 T

avec comme conditions limites δx(t1 ) = 0, λ(t2 ) = ∂x(t 2 ) ϕ(x(t 2 ), t2 ) . Le lemme 3
de l’adjoint donne

Z t2   Z t2
∂L T ∂f ∂H
δJ = (x, u, t) + λ (x, u, t) δu(t)dt+◦(δ) = (x, u, λ, t)δu(t)dt+◦(δ)
t1 ∂u ∂u t1 ∂u

Par abus de notation on retiendra la formule analogue à (18)


 
∂J ∂H
(42) =
∂u ẋ = f (x, u, t) ∂u
x(t1 ) = x0
Autrement dit, la variation de la valeur de J en satisfaisant les contraintes est calculée
T ∂f
en formant ∂H ∂L
∂u = ∂u (x, u, t) + λ ∂u (x, u, t), évaluée à partir des valeurs de x, u, et de
l’adjoint λ. La formule (42) est appelée formule du calcul du gradient par l’adjoint.
Algorithme 10 (Résolution du problème aux deux bouts par le calcul du
gradient par l’adjoint)
À partir de u0 fonction R ⊃ [t1 , t2 ] 7→ u0 (t) ∈ Rm quelconque, itérer
– Résoudre ẋk = f (xk , uk , t), xk (t1 ) = x0 pour t ∈ [t1 , t2 ]
 T T
– Résoudre λ̇k (t) = − ∂f ∂x (x k
, uk
, t) λ(t)− ∂L ∂x (x, u, t) avec comme condition
 T

limite λk (t2 ) = ∂x(t 2)
ϕ(xk (t2 ), t2 )
k
k T ∂f
– Calculer ∂H ∂L k k
 k k
∂u = ∂u (x , u , t) +  λk  ∂u (x , u , t)
– Mettre à jour uk+1 = uk − lk ∂H ∂u avec lk satisfaisant les règles de Wolfe (2)
et (3).
En pratique la fonction uk sera représentée par un vecteur (de coefficients représen-
tant une décomposition dans une base de fonctions) de dimension finie et le problème
sera ainsi résolu de manière approchée. Les étapes de résolution des équations dif-
férentielles satisfaites par x et λ (équation en temps rétrograde) seront effectuées de
manière numérique (par exemple par des schémas de Runge-Kutta [29]) avec une
précision finie. On peut adapter l’algorithme 10 pour tenir compte de contraintes
finales. Il suffit d’introduire les équations du problème aux deux bouts correspondant
et d’ajouter une étape de mise à jour des inconnues ν définies précédemment à la
section 2.2.2.
Afin d’obtenir une vitesse de convergence supérieure à celle de l’algorithme 10, on
peut utiliser l’algorithme suivant
38 CHAPITRE 2. OPTIMISATION DE TRAJECTOIRES

Algorithme 11 (Algorithme de tir). — À partir de λ0 (t1 ) ∈ R quelconque, itérer


– Calculer formellement uk+1 solution de ∂H∂u (x
k+1
, uk+1 , λk+1 , t) = 0 en fonction
k+1 k+1
de x ,λ , t.
– Résoudre le système
k+1
= f (xk+1 , uk+1 , t)

 ẋ

(43)  T
∂f ∂L k+1 k+1
λ̇k+1 (t) = − (xk+1 , uk+1 , t)λk+1 (t) −
 (x ,u , t)
∂x ∂x
pour t ∈ [t1 , t2 ] avec comme condition initiale xk (t1 ) = x0 , λk (t1 ) = λk (t1 ).
∂λ(t2 )
– Calculer la fonction de sensibilité F ∈ Mn (R) définie comme F = ∂λ(t 1)
  T 
– Mettre à jour λk+1 (t1 ) = λk (t1 ) − lk F −1 λ(t2 ) − ∂x(t∂
2)
ϕ(x(t2 ), t2 ) avec
lk satisfaisant les règles de Wolfe (2) et (3).
Cet algorithme a pour inconnue la seule valeur de l’état adjoint λ à l’instant
initial. La commande u est calculée à chaque itération. Une valeur λ(t1 ) satis-
fait les conditions de stationnarité si elle fournit par intégration une valeur λ(t2 ) =
 T

∂x(t2 ) ϕ(x(t2 ), t2 ) . Si ce n’est pas le cas, l’algorithme modifie la valeur candidate
de l’inconnue pour tenter de satisfaire cette contrainte. Par rapport à l’algorithme 10,
on constate en général une convergence plus rapide en pratique lorsque la valeur
λ0 (t1 ) ∈ R est proche de la valeur optimale. Si ce n’est pas le cas, l’algorithme 11
souffre souvent de l’instabilité numérique de la résolution simultanée des équations
différentielles (43) satisfaites par x et λ. Cette instabilité est liée à l’instabilité du
système linéarisé tangent. L’algorithme 11 peut être amélioré de nombreuses façons,
on pourra se reporter à [6, 30] pour un exposé sur les méthodes de tirs multiples.

2.2.4. Principe du minimum. — Les calculs des variations menés jusqu’à présent
ont consisté à calculer la variation de la valeur d’une fonctionnelle de deux variables
x, u lorsque u était libre et x était liée à u par une équation différentielle ẋ = f (x, u, t).
Maintenant nous allons considérer que la variable u n’est pas libre mais contrainte.
Nous regardons maintenant les problèmes de la forme

(44) min J(x, u)


ẋ = f (x, u)
x(t1 ) = x0
C(u, t) ≤ 0
où Rm ×R 3 (u, t) 7→ C(u, t) ∈ Rl , l ∈ N est une fonction de classe C 1 . On considérera
des fonctionnelles du type
Z t2
X × U 3 (x, u) 7→ J(x, u) = ϕ(x(t2 ), t2 ) + L(x(t), u(t), t)dt
t1

où Rn ×R 3 (x, t) 7→ ϕ(x, t) ∈ R est de classe C 1 et Rn ×Rm ×R 3 (x, t) 7→ L(x, u, t) ∈


R est de classe C 1 .
2.3. CHAMPS D’EXTRÉMALES 39

La preuve du résultat que nous allons énoncer est difficile. Nous nous contentons
d’en suggérer quelques grandes lignes. Comme nous l’avons vu, la variation de la
valeur de la fonctionnelle s’écrit en fonction d’une variation δu,
Z t2
∂H
(45) δJ = δu(t)dt
t1 ∂u

Autour d’un optimum (x∗ , u∗ ), il ne doit pas exister de variation admissible, com-
patible avec les contraintes C(u, t) ≤ 0 fournissant une variation négative δJ. En
reprenant le point de vue utilisé dans la présentation des conditions de Karush,
Kuhn et Tucker du théorème 17, on doit avoir que le gradient de chaque contri-
bution ponctuelle dans l’intégrale (45) doit être dans le cône convexe des contraintes
actives. Autrement dit, pour tout t ∈ [t1 , t2 ], il existe un vecteur R ⊃ [t1 , t2 ] 3 t 7→
µ(t) ∈ Rl dont les composantes vérifient µi (t) = 0 si Ci (x(t), u(t) < 0, µi (t) ≥ 0 si
Ci (x(t), u(t) = 0 tel que
∂H ∂C
= −µT
∂u ∂u
Plus formellement le principe du minimum s’énonce

Théorème 21 (Principe du minimum de Pontryagin [28])


Soient R ⊃ [t1 , t2 ] 3 t 7→ (x, u, λ)(t) ∈ Rn × Rm × Rn optimum du problème (44).
Pour tout t ∈ [t1 , t2 ], u(t) réalise le minimum de Rm 3 u 7→ H(x(t), u, λ(t), t) ∈ R
sous la contrainte C(u, t) ≤ 0.

2.3. Champs d’extrémales


Il est possible d’exhiber une structure reliant les trajectoires optimales de problèmes
d’optimisation voisins. Le but de cette section est de présenter cette structure au
travers de l’équation aux dérivées partielles de Hamilton-Jacobi-Bellman.
On considère une fois de plus le problème suivant (d’autres généralisations sont
possibles)

(46) min J(x, u)


ẋ = f (x, u)
x(t1 ) = x0
ψ(x(t2 ), t2 ))

où Rn × R 3 (x, t) 7→ ψ(x, t) ∈ Rq , 1 < q ≤ n est une fonction de classe C 1 . On


considérera des fonctionnelles du type
Z t2
X × U 3 (x, u) 7→ J(x, u) = ϕ(x(t2 ), t2 ) + L(x(t), u(t), t)dt
t1

où Rn × R 3 (x, t) 7→ ϕ(x, t) ∈ R est de classe C 1 et Rn × Rm × R 3 (x, u, t) 7→


L(x, u, t) ∈ R est de classe C 1 .
40 CHAPITRE 2. OPTIMISATION DE TRAJECTOIRES

Définition 25 (Extrémale). — Une extrémale est l’ensemble de Rn des points


(x(t), t), t ∈ [t1 , t2 ] où R ⊃ [t1 , t2 ] 3 t 7→ x(t) ∈ Rn est solution du problème
d’optimisation (46).

Définition 26. — Soit E une famille d’extrémales obtenue en faisant varier x0 , t1 .


Soit U un ensemble compact de Rn × R. On dit que E est un champs d’extrémales
pour U si E ⊃ U .

En conséquence, il existe une extrémale passant par tous les points de U .

Définition 27 (Fonction de retour optimal). — On appelle fonction de retour


optimal Rn ×R 3 (x0 , t1 ) 7→ J (x0 , t1 ) (à l’ensemble {(x, t) ∈ Rn ×R t.q. ψ(x, t) = 0}),
la fonction ayant pour valeur la valeur optimale pour le problème d’optimisation (46)
avec pour condition initiale (x0 , t1 ).

Les extrémales vérifient la propriété suivante.

Proposition 18 (Principe d’optimalité de Bellman). — Une suite de décisions


est optimale si, quel que soit l’état et l’instant considérés sur la trajectoire qui lui est
associée, les décisions ultérieures constituent une suite optimale de décisions pour le
sous problème dynamique ayant cet état et cet instant comme conditions initiales.

Grâce à cette propriété, il est possible d’établir une équation aux dérivées partielles
satisfaites par J . On suppose disposer d’un champs d’extrémales E pour le problème
d’optimisation (46). Considérons (x, t) ∈ E. Il correspond à la fonction de retour
optimal évaluée en ce point J 0 (x, t) une commande optimale R ⊃ [t, t2 ] 3 l 7→ u0 (l) ∈
Rm que nous supposerons (pour simplifier) unique. Pour toute commande u proche
de u0 on peut calculer une fonction coût à partir de la trajectoire R ⊃ [t1 , t2 ] 3 t 7→
x(t) ∈ Rn (proche de la trajectoire optimale) issue de x(t1 ) = x0 . Il vient
J(x, u) ≥ J (x0 , t1 )
avec
(47) min J(x, u) = J (x0 , t1 )
u

Choisissons comme candidat d’appliquer u une commande différente de la commande


optimale u0 pendant δt puis optimale sur [t1 + δt, t2 ]. On peut évaluer
Z t1 +δt
J(x, u) = L(x(t), u(t), t)dt + J (x(t1 + δt), t1 + δt)
t1

Un développement au premier ordre donne


∂J 0
J(x, u) =L(x0 , u(t1 ), t1 )δt + J (x0 , t1 ) + (x , t1 )f (x0 , u(t1 ), t1 )δt
∂x
∂J 0
+ (x , t1 )δt + ◦(δt)
∂t
2.3. CHAMPS D’EXTRÉMALES 41

L’équation (47) donne


J (x0 , t1 ) =J (x0 , t1 ) + ◦(δt)+
   
0 ∂J 0 0 ∂J 0
min L(x , u(t1 ), t1 ) + (x , t1 )f (x , u(t1 ), t1 ) + (x , t1 ) δt
u ∂x ∂t
Un passage à la limite lorsque δt → 0 donne
 
∂J ∂J
− = min L(x, u, t) + f (x, u, t)
∂t u ∂x
On reconnaı̂t ici l’Hamiltonien (31) et on écrit finalement l’équation de Hamilton-
Jacobi-Bellman
 
∂J ∂J
(48) − = min H(x, u, , t)
∂t u ∂x
Il s’agit d’une équation aux dérivées partielles hyperbolique dont la condition lim-
ite est donnée sur l’ensemble V = {(x, t) ∈ Rn × R t.q. ψ(x, t) = 0} par Rn × R 3
(x, t) 7→ J (x, t) = ϕ(x, t). On la résoudra en général par une propagation (rétro-
grade) depuis l’ensemble V. Cette résolution sera par exemple menée le long d’un
réseau quadrillant le plan (lorsque x est à valeur dans R2 ) par la méthode de la
programmation dynamique.
CHAPITRE 3

EXERCICES 1

3.1. Fonction de Rosenbrock


Calculer le gradient ∇f (x) et le Hessien ∇2 f (x) de la fonction de Rosenbrock

f (x) = 100(x2 − x21 )2 + (1 − x1 )2

Montrer que x∗ = (1, 1)T est l’unique minimum local de cette fonction et qu’à ce
point le Hessien est défini positif.

3.2. Gradient et Hessien


Soit a un vecteur de Rn et A une matrice n × n symétrique. Calculer le gradient
et le Hessien de f1 (x) = aT x et f2 (x) = xT Ax.

3.3. Ensemble minimisant


Soit f une fonction convexe. Montrer que l’ensemble des minimiseurs globaux de
f est convexe.

3.4. Vitesse de convergence


Soit la suite (xk )k∈N définie par
( k
1 2
4 , si k pair
xk =
(xk−1 )/k, si k impair

Cette suite est-elle convergente de type Q-superlinéaire? Est-elle Q-quadratique ou


R-quadratique.
k
Note: on pourra utiliser la suite majorante νk = ( 12 )2 .
44 CHAPITRE 3. EXERCICES 1

3.5. Conditions de Wolfe


Avec les notations du cours, montrer en utilisant la fonction f (x) = x2 et x0 = 1
que si 0 < c2 < c1 < 1 il peut ne pas exister de pas satisfaisant les conditions de
Wolfe.

3.6. Suite de Fibonacci


La méthode de dichotomie présentée en cours n’est pas optimale au sens où pour
un nombre fixé d’évaluations de la fonction à minimiser elle n’aboutit pas à l’intervalle
réduit de taille minimale. On propose ici une méthode optimale.
On note ∆k la taille de l’intervalle de recherche à l’itération k, que l’on note [ak , dk ].
On évalue la fonction à minimiser en deux points intermédiaires bk et ck ce qui nous
donne donc 4 valeurs. En utilisant l’unimodalité on peut éliminer un des deux sous-
intervalles [ak , bk ] ou [ck , dk ].
– Montrer que si on veut que la longueur de l’intervalle ∆k+1 soit indépendante des
valeurs de la fonction à minimiser on doit choisir bk et ck disposés symétrique-
ment par rapport au milieu de [ak , dk ].
– Montrer ∆k = ∆k+1 + ∆k+2 si on veut n’avoir à recalculer qu’une seule valeur
de la fonction à minimiser à chaque itération
– Soit ∆N −1 l’intervalle obtenu au bout de N calculs, définissons F0 ,F1 ,...,FN −1
par
∆k = FN −k ∆N −1
Montrer qu’on a alors
Fn = Fn−1 + Fn−2
pour n = 3, ..., N − 1 et F1 = 1.
– Montrer que
Fn+2 = nF2 + n − 1
et que F2 ≤ 2.
– Conclure alors que pour réduire le plus les intervalles en N calculs il faut choisir
F2 = 2
– La suite obtenue est la suite de Fibonacci. Pour l’utiliser on choisit d’abord un
rapport de réduction pour l’intervalle final et on détermine ainsi N . Montrer
que pour un rapport de réduction de 1000 il faut choisir N = 16. Montrer
comment procéder aux itérations en commençant par
∆1 /∆2 = FN −1 /FN −2

3.7. Moindres carrés


On admet les deux résultats suivants:
1. si A matrice p × n est de rang n alors AT A est inversible
2. une matrice M est symétrique définie positive si et seulement si elle se factorise
comme M = H T H avec H inversible.
3.7. MOINDRES CARRÉS 45

On cherche à résoudre le problème dit des “moindres carrés”


min kAx − bk
x∈Rn
où A est une matrice p × n, b ∈ Rp et en général p ≥ n.
– Montrer que ce problème est convexe
– On suppose que la norme considérée est la norme euclidienne kxk2 = xT x,
calculer le gradient de la fonction à minimiser.
– Quel est alors un point candidat pour être minimum? Calculer le Hessien en ce
point, conclure.
– Reprendre l’expression du minimum lorsque le problème est “pondéré” c’est à
dire kxk = xT Qx où Q est une matrice symétrique définie positive.
CHAPITRE 4

EXERCICES 2

4.1. Algorithme de Newton


On considère la fonction
R2 3 (x1 , x2 ) 7→ f (x1 , x2 ) = exp(x1 + x2 − 2) + (x1 − x2 )2
Calculer la première itération de l’algorithme de Newton en partant de (1, 1)T (réponse:
(0.5, 0.5)T ).

4.2. Algorithme du gradient conjugué


On considère la fonction quadratique
R2 3 (x1 , x2 ) 7→ q(x1 , x2 ) = x21 + 2x22 + x1 x2 − x1 − 2x2
Calculer les deux itérations de l’algorithme du gradient conjugué en partant de (0, 0)T
et montrer qu’on aboutit au minimum global (2/7, 3/7)T .

4.3. Formule SR1


Parmi les méthodes de quasi-Newton, la méthode SR1 est souvent retenue pour sa
simplicité et la bonne approximation du Hessien qu’elle procure. Avec les notations
du cours elle donne
(yk − Bk sk )(yk − Bk sk )T
Bk+1 = Bk +
(yk − Bk sk )T sk
Utiliser la formule de Sherman-Morrison-Woodbury pour montrer que la formule de
mise à jour de Hk = Bk−1 est

(sk − Hk yk )(sk − Hk yk )T
Hk+1 = Hk +
(sk − Hk yk )T yk
48 CHAPITRE 4. EXERCICES 2

4.4. Invariance d’échelle


Montrer que la formule SR1 précédente, ainsi que la formule de la méthode BFGS
sont invariantes par transformation x = Sz + s où S est une matrice inversible et s
un vecteur. Pour cela on pourra considérer la fonction f˜(z) = f (Sz + s), calculer son
gradient, son Hessien, et montrer que si on initialise l’approximation du Hessien par
S T B0 S et qu’on utilise un pas unitaire, on a xk = Szk + s à toutes les itérations.

4.5. Calcul automatique du gradient par parcours de graphe [25]


Soit la fonction
R2 × R∗ 3 (x1 , x2 , x3 ) 7→ (x1 x2 sin x3 + exp(x1 x2 )) /x3
En faisant intervenir les variables intermédiaires
x4 = x1 x2
x5 = sin x3
x6 = exp x4
x7 = x4 x5
x8 = x6 + x7
x9 = x8 /x3
construire un graphe binaire permettant d’évaluer f au point (x1 , x2 , x3 ) = (1, 2, π/2).
En utilisant le fait qu’à chaque étape les opérations ne font intervenir que deux
variables, montrer comment une propagation en avant puis en arrière des calculs
permet de calculer de manière automatique et efficace le gradient de la fonction sans en
calculer une expression littérale. C’est une méthode générale très utilisée en pratique
car très efficace.
CHAPITRE 5

EXERCICES 3

5.1. Fonction de mérite


Une méthode simple à mettre en oeuvre pour résoudre un problème de minimisation
sous contraintes égalités
min f (x)
c(x)=0

consiste à chercher les solutions de


∇f (x) + ∇c(x)T λ = 0, c(x) = 0
via la recherche du minimum de la fonction (dite de mérite)
M (x, λ) = k∇f (x) + ∇c(x)T λk2 + kc(x)k2
En pratique cette méthode permet d’utiliser un code prévu pour la minimisation sans
contraintes pour résoudre un problème avec contraintes.
Appliquer cette méthode à
1 3 1 2
min x + y
x+y=1 3 2
et montrer qu’en plus de l’unique minimum local on trouve un maximum local et un
autre point parasite (c’est la principale faiblesse connue de cette méthode).

5.2. Dual d’une programmation quadratique


Considérer le problème de programmation quadratique
1 T
min x Gx + xT d
Ax≥b 2
où G est symétrique définie positive. Montrer que le problème dual est
1 T
max x Gx + xT d − λT (Ax − b)
Gx+d−AT λ=0,λ≥0 2
50 CHAPITRE 5. EXERCICES 3

qui peut se simplifier en


1 1
max − λT (AG−1 AT )λ + λT (b + AG−1 d) − dT G−1 d
λ≥0 2 2

5.3. Méthode de sous-ensembles actifs


Résoudre par la méthode de sous-ensembles actifs le problème de programmation
quadratique min q(x), q(x) = (x1 − 1)2 + (x2 − 2.5)2 sous les contraintes
(49) −x1 + 2x2 ≤ 2
(50) x1 + 2x2 ≤ 6
(51) x1 − 2x2 ≤ 2
(52) −x1 ≤ 0
(53) −x2 ≤ 0
Utiliser comme point de départ x0 = (2, 0)T et W 0 = {3, 5}.

5.4. Pénalisation
Considérer le problème pénalisé à barrière logarithmique
(54) min x − µ log x − µ log(1 − x)
x∈]0,1[

provenant du problème
(55) min x
x≥0,x≤1

Résoudre (54), vérifier analytiquement que lorsque µ tend vers 0, x∗ (µ), l’optimum
obtenu, converge vers la solution de (55).

5.5. Plus courte distance à un hyperplan


La plus courte distance entre un point x0 et un hyperplan {x, Ax = b} où les
lignes de A sont linéairement indépendantes, peut s’écrire comme un problème de
programmation quadratique
1
min (x − x0 )T (x − x0 )
Ax=b 2
Montrer que le multiplicateur à l’optimum est
λ∗ = −(AAT )−1 (b − Ax0 )
et que la solution est
x∗ = x0 + AT (AAT )−1 (b − Ax0 )
Montrer que dans le cas où A est un vecteur ligne, la plus petite distance entre x0 et
l’hyperplan vaut
|b − Ax0 |
kAk
5.6. TENTE DE CIRQUE 51

5.6. Tente de cirque


Ce problème est issu de l’Optimization Toolbox de Matlab [22]. On considère
une tente de cirque comme une membrane élastique posée sur 5 mâts (le mât central
étant plus haut que les autres). La forme prise par cette toile de tente minimise
une énergie potentielle composée d’un terme de gravité auquel s’oppose un terme
d’élasticité. Après avoir utilisé un schéma aux différences pour le gradient de la
surface, on obtient un problème de programmation quadratique dont l’inconnue est
l’altitude des différents points de la toile. Si on représente la surface de la toile par
une grille de points, on désigne par x le vecteur constitué par les lignes de cette grilles
mises bout à bout. Ainsi une grille de taille 30 × 30 donne un vecteur de taille 900.
Les contraintes expriment que la toile repose sur les mâts.

Surface Initiale Solution


52 CHAPITRE 5. EXERCICES 3

Les multiplicateurs de Lagrange et les contraintes correspondantes sont représentés


par
0.2

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
0 100 200 300 400 500 600 700 800 900

Avec les paramètres choisis, on obtient un minimum de 0.44422, de combien faut-il


modifier la hauteur du mât central pour faire décroı̂tre cette valeur à 0.43767?
CHAPITRE 6

EXERCICES 4

6.1. Optimisation de plan de vol


Le pilote d’un avion dont la vitesse V est constante par rapport au vent (de vitesse
u) cherche à maximiser l’aire contenue dans la surface fermée tracée au sol par sa
trajectoire sur un intervalle [0, T ]. Les équations de la dynamique sont
ẋ = V cos θ + u,
ẏ = V sin θ
L’aire à maximiser est
Z T
A= y ẋdt.
0
Montrer que la courbe recherchée est une ellipse dont on précisera l’excentricité.

6.2. Forme d’une chaı̂ne pesante


Considérons une chaı̂ne de longueur 2L suspendue entre deux points de même
altitude situés à une distance 2l l’un de l’autre (l ≤ L). Utiliser le calcul des vari-
ations pour trouver la forme qui minimise l’énergie potentielle (g la gravité est une
constante).

6.3. Investissement optimal


Considérons un investisseur qui possède une somme S à la banque. N’ayant aucun
autre revenu que les intérêts qui lui sont versés, il cherche quelle est la meilleure façon
(au sens de son agrément) de dépenser son argent sur l’horizon√[0, T ].
On suppose que son agrément est pour tout temps E = 2 r. L’agrément futur
compte moins que le présent. La fonction qu’il va maximiser est donc
Z T
exp(−βt)E(t)dt.
0
54 CHAPITRE 6. EXERCICES 4

Dans le même temps, la banque lui verse des intérêts proportionnels à son capital
restant à la banque x(t). L’équation régissant ses économies est donc
ẋ(t) = αx(t) − r(t).
1. Montrer que le problème se ramène à trouver un point stationnaire de
Z T p
J(x) = exp(−βt)2 αx(t) − ẋ(t)dt
0
avec x(0) = S, x(T ) = 0.
2. Écrire l’équation de Euler-Lagrange equation correspondante et montrer que
αx(t) − ẋ(t) = r(0) exp(2(α − β)t).
3. Supposer que α > β > α/2. Résoudre l’équation précédente. Montrer que la
politique optimale de dépense est donnée par
1 − exp((α − 2β)(T − t))
x(t) = S exp(2(α − β)t) .
1 − exp((α − 2β)T )
4. Représenter graphiquement cette fonction. Commenter.
CHAPITRE 7

EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

7.1. Minimisation sous contraintes


En utilisant les conditions de Karush-Kuhn-Tucker, trouver le minimum de
y1
J(y1 , y2 ) = ( − a)2 + (y2 − b)2
2
sous les contraintes
y12 + y22 ≤ 1
y1 ≥ 0
y2 ≥ 0.
Traiter tous les cas possibles pour a et b.
Résoudre le même problème en rajoutant le contrainte y1 + y2 ≥ 21 .

7.2. Loi bi-tangente


Considérons une particule de masse m évoluant dans un plan sur laquelle agit une
force d’amplitude ma dont l’orientation (par rapport à l’axe x) est β(t). Les équations
de la dynamique sont
ẋ = u
u̇ = a cos β
ẏ = v
v̇ = a sin β
On suppose vouloir minimiser une fonction coût ne comportant qu’un terme final du
type ϕ(x(tf ), y(tf )). Montrer qu’alors la commande optimale est du type
a + bt
tan β = .
c + dt
56 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

Figure 1. Construction de Varignon: planche percée de trous par lesquels


passent des ficelles nouées en un point. On attache une masse à l’extrémité
libre de chaque ficelle.

7.3. Problème de Weber


Étant donné un ensemble de points dans un plan {y1 , ..., ym }, on cherche le point
dont la somme des distances pondérées est minimum. Le problème s’écrit
m
X
min3 mi k x − yi k
x∈R
i=1

où les poids mi sont des constantes positives.


1. Montrer qu’il existe un minimum global à ce problème et qu’on peut le construire
par le schéma représenté Figure 1.
2. Ce minimum est-il unique?

7.4. Une équation HJB


Considérons le côut
Z ∞
J= (x2 + u2 )dt
t0

sous la contrainte
ẋ = −x4 + u

Écrire l’équation HJB associée.


7.6. PROGRAMMATION DYNAMIQUE 57

Figure 2. Quadrilatère.

7.5. Optimisation géométrique


Considérons le quadrilatère représenté sur la Figure 2 avec les notations telles que
définies sur cette figure ((θ1 , θ2 ) ∈]0, π[2 , a > 0, b > 0, c > 0, d > 0). On cherche la
configuration (θ1 , θ2 ) fournissant l’aire maximale.
1. Montrer que le problème revient à trouver l’extremum de
(θ1 , θ2 ) 7→ ad sin θ1 + bc sin θ2
sous la contrainte
a2 + d2 − 2ad cos θ1 = b2 + c2 − 2bc cos θ2
2. Écrire le Lagrangien associé à ce problème et établir des conditions d’extrémalité.
3. Calculer les valeurs de (θ1 , θ2 ) extremum.
4. Quelle figure obtient-on
√ pour a = b = c = d = 1? Même question pour a = d = 1
et b = c = 2 + 3.

7.6. Programmation dynamique


On considère le maillage défini sur la Figure 3
À chaque segment du maillage est associé un coût. On cherche le meilleur chemin
(plus petit coût total) pour aller de A à B, ainsi que de A0 à B.
1. Calculer ces chemins par la méthode de la programmation dynamique. On
rappelle que cette méthode consiste à construire un champs d’extrémales issues
du point final de manière rétrograde.
2. Donner un champs d’extrémales.
3. On inverse maintenant le sens de parcours. Calculer le meilleur chemin de B à
A et de B à A0 . Quelle différence algorithmique constatez vous dans ce cas?
58 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

9 1
2 4 4
1

6 2 9 3
5 3
1 6 5 5 4
5 4 3
A A' B
4 3 1 2 4 4 3 3
3 3 1 3
2 2

7 5 3 8

3 1

Sens de déplacement

Figure 3. Chemins entre A et B.

7.7. Remplacement d’équipement


Vous devez rester à l’étranger pendant 3 années et vous avez besoin d’un véhicule
pour aller travailler. Un véhicule se détériore avec le temps et son coût d’usage est
une fonction croissante de son âge (entretien, pannes...). Chaque année vous pouvez
conserver votre véhicule ou en acheter un autre neuf et revendre l’ancien. À l’issue
des 3 années vous devez vous débarrasser de votre véhicule en le mettant à la casse
pour un prix dépendant de son état. On note
– c(i): côut d’usage d’un véhicule pendant 1 période, d’âge i au début de la
période,
– p = 50: prix d’un nouveau véhicule,
– t(i): valeur marchande d’un véhicule d’âge i au début de la période,
– s(i): valeur perçue lors de la mise à la casse d’un véhicule d’âge i.
1. À l’instant initial un ami vous donne une voiture qui a 2 ans d’âge. Quelle est
la suite de décisions optimale? Montrer le champs d’extrémales.
i 0 1 2 3 4
c(i) 10 13 20 40 70
t(i) 32 21 11 5
s(i) 25 17 8 0
2. On se place maintenant du point de vue du vendeur de voitures qui peut faire
les mêmes calculs de programmation dynamique que vous. Connaissant votre
7.8. TARIFICATION DE BILLETS D’AVIONS 59

situation, comment peut-il augmenter son profit sans que vous puissiez rien y
faire?

7.8. Tarification de billets d’avions


Lorsque vous achetez un billet d’avion aller retour, vous pouvez bénéficier d’une
importante réduction si vous acceptez de rester le samedi soir sur place. Dans cet
exercice on va étudier comment, dans un cas très simple, cette ristourne est calculée.
On considère deux populations: les touristes (avec les variables zn , αn ) et les
hommes d’affaires (avec les variables zb , αb ).
On note zn (resp. zb ) l’agrément de passer la nuit chez soi le samedi, pn (resp. pb )
le prix du billet, αn (resp. αp ) la pénibilité de payer le prix du billet, et t l’agrément
du séjour. On note pn le prix d’un billet aller retour avec séjour sur place le samedi,
et pb ≥ pn le prix d’un billet aller retour sans séjour sur place le samedi.
1. Expliquer le sens des hypothèses (qu’on admettra dans la suite)
0 = zn < zb , αn > αb ≥ 0
2. Expliquer pourquoi l’agrément total d’un individu s’exprime, suivant les cas,
comme
u = z − αp + t , où u = −αp + t
3. On souhaite donner l’envie aux touristes et aux hommes d’affaires de voyager.
On souhaite choisir une politique tarifaire telle que les touristes aient envie de
voyager en passant la nuit de samedi sur place et on souhaite encourager les
hommes d’affaire à prendre un billet sans séjour du samedi. Expliquer qu’on
aboutit aux relations
(56) −αn pn + t ≥ 0
(57) zb − αb pb + t ≥ 0
4. On souhaite que des deux types de voyages le plus intéressant pour les touristes
soit le voyage avec séjour du samedi, et que les hommes d’affaires privilégient
les séjours sans séjour du samedi. Montrer qu’on aboutit à
(58) −αn pn ≥ zn − αn pb
(59) zb − αb pb ≥ −αb pn
5. Étant donnés les flux supposés égaux d’hommes d’affaires et de touristes on
souhaite maximiser la fonction
pn /2 + pb /2
Les variables de décisions étant pn et pb (la politique tarifaire), écrire le problème
d’optimisation sous contraintes.
6. En utilisant les conditions de Karush-Kuhn-Tucker, combien y-a-t-il de cas à
considérer pour résoudre ce problème?
7. Montrer que les conditions (57) et (58) sont redondantes avec (56) et (59). Ré-
écrire le problème d’optimisation sous contraintes correspondant.
60 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

8. Résoudre ce problème d’optimisation et montrer calculer, à l’optimum, pb − pn .


Interpréter le résultat.
9. Reprendre l’étude si les flux de touristes et d’hommes d’affaires sont différents.
10. On suppose maintenant que la compagnie vend aussi des nuits d’hotel et que la
nuit du samedi soir est facturée c. Comment doit-on modifier l’étude précédente
pour maximiser le profit total?

7.9. Forme d’une chaı̂ne pesante


Considérons une chaı̂ne de longueur 2L suspendue entre deux points de même
altitude situés à une distance 2l l’un de l’autre (l ≤ L). Utiliser le calcul des vari-
ations pour trouver la forme qui minimise l’énergie potentielle (g la gravité est une
constante).

7.10. Équations d’Euler Lagrange pour les problèmes contraints à un temps


variable
Avec les notations utilisées en cours, déterminer les équations à résoudre pour
trouver un extremum du problème suivant
Z tf
min φ(x(tf ), tf ) + L(x(t), u(t), t)dt
t0

sous les contraintes


x(t0 ) = a (donné) , ẋ(t) = f (x(t), u(t), t), ψ(x(tf ), tf ) = 0
où tf est une inconnue.

7.11. Temps minimum pour traverser une rivière à courant parabolique


Le problème est de déterminer l’orientation θ(t) qu’un nageur doit choisir pour
minimiser le temps nécessaire pour traverser une rivière dont il connaı̂t le courant.
La rivière est définie comme {(x, y), −l ≤ y ≤ l}. θ est l’angle entre le vecteur vitesse
du nageur et l’axe x.
– Considérer le problème de traverser une rivière d’un point (x, y) = (0, −l) à un
point final donné (0, l) où le courant est selon la direction x avec la vitesse
y2
u = u0 (1 − )
h2
Expliquer comment on peut déterminer θ(t) et tf .
– Considérer le problème de traverser une rivière en partant de (x, y) = (0, −l)
pour arriver en y = l (la valeur finale de x est libre). Expliquer comment trouver
θ(t) et tf .
7.13. INÉGALITÉ DE KANTOROVICH 61

7.12. Calcul des variations


On considère le problème de minimisation de la fonctionnelle
Z 1
J(x) = (ẍ(t))2 dt
0

où x est une fonction deux fois dérivable définie sur [0, 1] telle que
x(0) = ẋ(0) = x(1) = 0, ẋ(1) = 1
1. Former l’équation d’Euler-Poisson correspondante.
2. Calculer x∗ extrémale du problème.
3. On veut montrer que x∗ fournit effectivement un minimum de la fonctionnelle.
Considérer
Z 1
J(x∗ + h) = (ẍ∗ (t) + ḧ(t))2 dt
0
où h est une variation admissible. En procédant à une double intégration par
partie, montrer que
J(x∗ + h) ≥ J(x∗ )
Conclure.

7.13. Inégalité de Kantorovich


On cherche à montrer le résultat suivant. Soit Q une matrice symétrique définie
positive de taille n × n. Quel que soit x, on a
(xT x)2 4aA
q(x) = T T −1

(x Qx)(x Q x) (a + A)2
où a et A sont, respectivement, la plus petite et la plus grande des valeurs propres de
Q.
1. Dans un premier temps, on considère que Q est une matrice diagonale dont les
termes sont
0 < a = λ1 ≤ λ2 ≤ ... ≤ λn = A
Montrer que
( i=1,...,n x2i )2
P
q(x) = P 1 2
( i=1,...,n λi x2i )( i=1,...,n
P
λ i xi )

2. Montrer que
1
q(x) =
f (λ1 , ...λn , x)g(λ1 , ...λn , x)
avec
X x2i X 1 x2i
f (λ1 , ...λn , x) = λi P 2, g(λ1 , ...λn , x) = P 2
i=1,...,n i=1,...,n xi λ
i=1,...,n i i=1,...,n xi
62 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

3. En interprétant f et g définis précédemment comme les coordonnées d’un barycen-


tre de points de coordonnées (λi , 1/λi ), représenter dans un plan l’ensemble des
points de coordonnées (f, g) lorsque x varie (les λi restant constants). Montrer,
pour λ1 , ..., λn fixés, qu’il existe α(x) ∈ [0, 1] tel que
f (λ1 , ...λn , x) = (1 − α(x))λ1 + α(x)λn
1 1
g(λ1 , ...λn , x) ≤ (1 − α(x)) + α(x)
λ1 λn
4. Déduire de ce qui précède que
(λ1 + λn )2
f (λ1 , ...λn , x)g(λ1 , ...λn , x) ≤
4λ1 λn
Conclure. Conclure dans le cas général où Q n’est pas diagonale.
5. On considère le problème de minimisation de la fonction quadratique
1
h(x) = xT Qx − bT x
2
où b est un vecteur colonne. Montrer que l’algorithme du gradient à pas optimal
engendre les itérations
(g k )T g k k
xk+1 = xk − g
(g k )T Qg k
avec g k = Qxk − b.
6. On note
1
E(x) = (x − x∗ )T Q(x − x∗ )
2
où x∗ est l’unique minimum de h. Calculer E(xk+1 ) en fonction de E(xk ) et
de g k . En utilisant l’inégalité de Kantorovich que vous venez d’établir, montrer
que
 2
A−a
E(xk+1 ) ≤ E(xk )
A+a
7. Que peut-on en déduire sur la convergence de cette méthode de descente en
fonction du conditionnement de la matrice Q?

7.14. Dualité
1. Considérer le problème (très simple)
min |x|
x∈R, x≥1

Quelle est sa solution? Former le Lagrangien du problème et considérer la


fonction duale
f (x) = sup λ(1 − x)
λ≥0
Expliciter les valeurs prises par cette fonction pour tout x. En déduire, par
dualité, quelle est la solution du problème.
7.15. RÉSULTATS SUR LA MINIMISATION D’UNE FONCTION ELLIPTIQUE 63

2. Considérer le problème
min cT x
n
x∈R ,
Ax = b,
x≥0
Montrer que son dual est
max −bT ν
(λ, ν)
AT ν − λ + c = 0
λ≥0
Préciser les dimensions de λ et ν. Peut-on simplifier cette formulation duale?
3. Soit A une matrice de taille m × n et b un vecteur colonne. On cherche x ∈ Rn
solution du problème
min cT x
Ax≤b

Former le Lagrangien du problème. Par dualité, montrer que ce problème revient



max −bT λ
AT λ + c = 0
λ≥0

7.15. Résultats sur la minimisation d’une fonction elliptique


On considère une fonction J : Rn → R qu’on suppose elliptique, c’est à dire qu’elle
est continûment différentiable, que son gradient ∇J est Lipschitzien avec comme
constante M , et qu’il existe α > 0 tel que
2
(∇J(v) − ∇J(u))T (v − u) ≥ α ku − vk
pour tout u et v. On s’intéresse à la minimisation de J sur le domaine
U = {u ∈ Rn tels que φi (u) ≤ 0, 1 ≤ i ≤ m}
où les fonctions φi : Rn → R sont convexes.
1. Établir, en utilisant la formule de Taylor avec reste intégral pour évaluer J(v) −
J(u), et le fait que J est elliptique, la double inégalité suivante:
α 2 M 2
∇J(u)T (v − u) + ku − vk ≤ J(v) − J(u) ≤ ∇J(u)T (v − u) + kv − uk
2 2
2. En faisant le lien avec la convexité forte, démontrer l’existence et l’unicité de la
solution du problème d’optimisation
min J(u)
u∈U

3. On définit le Lagrangien L(u, λ) = J(u) + λT φ(u). Montrer que si (u, λ) est


point selle du Lagrangien, alors u est solution du problème.
64 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

(
x si x ≥ 0
4. On note p : R → R+ tel que p(x) = , et P : Rm → Rm tel
0 sinon
 
p(x1 )
que P (x = (x1 , ..., xm )T ) =  ..
 l’opérateur de projection sur (R+ )m .
 
.
p(xm )
Établir, en utilisant les conditions Karush-Kuhn-Tucker, l’équivalence suivante
{λ = P (λ + ρφ(u)), ρ > 0 fixé}
λ ∈ (R+ )m

⇔ P T m
i φi (u)(µi − λi ) ≤ 0 pour tout µ = (µ1 , ..., µm ) ∈ (R+ )

5. En déduire (en utilisant certaines valeurs bien choisies de µi ) l’équivalence


{λ = P (λ + ρφ(u)), ρ > 0 fixé}
⇔ λ ∈ (R+ )m λT φ(u) = 0


6. Vérifier que si (u, λ) est point selle du Lagrangien, alors λ = P (λ + ρφ(u)) pour
un certain ρ, et que
L(u, λ) ≤ L(u + θ(v − u), λ)
pour tout v et pour tout θ ∈ [0, 1]. Faire le lien avec l’algorithme d’Uzawa.
7. En déduire, en utilisant un développement de Taylor que
∇J(u)T (v − u) + λT φ(v) ≥ 0
pour tout v.

7.16. Une inégalité fonctionnelle


On souhaite établir le résultat suivant. Soit y : [0, 1] → R une fonction régulière
telle que y(0) = 0. Pour tout k ∈ N, on a:
Z 1 Z 1
(y(x))2k dx ≤ C (y 0 (x))2k dx
0 0
1 2k π 2k

avec C = 2k−1 πsin 2k . Pour cette démonstration, on va utiliser une méthode
variationnelle.
1. Soit la fonctionnelle
Z 1
C(y 0 (x))2k − (y(x))2k dx

J(y) =
0
Ecrire l’équation d’Euler-Lagrange associée à l’extrémalité de J. Montrer en
particulier que
(2k − 1)C(y 0 (x))2k = C 0 − (y(x))2k , ∀x ∈ [0, 1]
avec C 0 une constante.
2. On s’intéresse désormais à l’extrémale Y telle que Y (0) = 0, Y (1) = 1.
7.17. UNICITÉ DU TEMPS MINIMUM 65

(a) montrer que


Z 1
1 dy
1 = ((2k − 1)C) 2k 1
0 (C 0 − y(x)2k ) 2k
(b) on rappelle
1
π −1
Z
dt π 
1 = sin
0 (1 − t2k ) 2k 2k 2k

En déduire la valeur de C 0 .
(c) montrer que Y 0 (1) = 0.
3. Parmi les extrémales, celle précédemment calculée, Y , réalise effectivement le
minimum de J.
(a) Montrer que J(Y ) = 0. On pourra pour cela utiliser une intégration par
parties en écrivant
Z 1
CY 0 (x)Y 0 (x)2k−1 − Y (x)2k dx

J(Y ) =
0

pour faire apparaı̂tre l’équation d’Euler-Lagrange.


(b) En déduire le résultat recherché.

7.17. Unicité du temps minimum


On considère le problème de transition en temps minimum entre deux points x0 ,
x1 pour un système linéaire scalaire (dans un premier temps) ẋ = ax + bu, avec a 6= 0,
b 6= 0 sous la contrainte u ∈ U où U est un sous ensemble convexe de R. On cherche
à démontrer que la commande réalisant le minimum est unique.
1. On suppose, sans perte de généralité, que x1 > x0 , a > 0, b > 0 et que U =
[− ab x1 − , − ab x0 + ], avec  > 0. En considérant la loi horaire

x0 , si t ≤ 0

x(t) = x0 + Tt (x1 − x0 ), si 0 < t < T

x1 si T ≤ t

où T > 0 est un paramètre à choisir, montrer que pour T suffisamment grand,
la commande u(t) = ẋ(t)−ax(t)
b appartient à U et permet de rallier x0 à x1 .
2. Déduire de ce qui précède que si T fournit une solution admissible, alors T 0 > T
fournit aussi une solution admissible.
3. Considérer un temps t1 candidat à l’optimalité. On veut montrer que si deux
lois horaires [0, t1 ] 3 t 7→ u1 (t) et [0, t1 ] 3 t 7→ u2 (t) sont optimales alors elles
coincident.
(a) montrer que pour toute loi commande u, on a
Z t
x(t) = x0 exp(at) + exp(a(t − τ ))bu(τ )dτ
0
66 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

(b) en déduire
Z t1 Z t1
exp(−at)bu1 (t)dt = exp(−at)bu2 (t)dt
0 0
(c) former l’Hamiltonien du problème (on notera λ l’état adjoint). Déduire
du principe du minimum de Pontryagin que la ou les solutions optimales
sont données par
arg min λ(t)bu(t)
(d) former l’équation différentielle adjointe satisfaite par λ.
(e) montrer, par le lemme de l’adjoint, que
Z t1 Z t1
λ(t)bu1 (t)dt = λ(t)bu2 (t)dt
0 0

(f) déduire du principe du minimum de Pontryagin que λ(t)u1 (t) ≤ λ(t)u2 (t)
et que, d’après l’égalité précédente on a alors
λ(t)u1 (t) = λ(t)u2 (t)
presque partout. En déduire sous quelle condition on peut conclure
u1 (t) = u2 (t)
presque partout.
(g) dans le cas où x est un vecteur et u un scalaire, proposer une généralisa-
tion.

7.18. Construction d’une autoroute


On considère le problème de construire une route à pente limitée sur un relief
constitué de collines. On représente le problème dans un plan vertical pour simplifier.
On repère [O, L] 3 l 7→ z(l) l’altitude du relief avant travaux, et [O, L] 3 l 7→ x(l)
l’altitude après les travaux. Les travaux consistent à creuser ou à remblayer le terrain
pour définir l’altitude x qui minimise le critère
Z L
(x(l) − z(l))2 dl
0
On souhaite que la route ait une pente limitée. On écrit cette contrainte sous la forme

ẋ = u, |u| ≤ a, a > 0 donnée.


1. Ecrire l’Hamiltonien de ce problème de commande optimale
2. Former le problème aux deux bouts. Montrer que la valeur finale de l’état
adjoint λ est λ(L) = 0.
3. En utilisant le principe de minimum de Pontryagin, montrer que
– si λ > 0, u = −a
– si λ = 0, u = ż
– si λ < 0, u = a
7.20. SUR UN THÉORÈME DE C. BERGE 67

4. En déduire que la solution optimale consiste en une succession de travaux sur


des intervalles [ti , ti+1 ] tels que
Z ti+1
(z(l) − x(l))dl = 0
ti
On ne cherchera pas à calculer les ti . Interpréter l’égalité précédente.

7.19. Programmation dynamique


On considère un problème de minimisation du coût de trajet entre une destination
et tous les points d’un graphe. Le graphe (non orienté) est représenté sur la figure 4.
Le coût de trajet entre 2 cases est précisé sur le segment les reliant. A tout instant, il
est possible de rester immobile sur une case, avec un coût 0 pendant l’arrêt. Construire

Destination

5
4 1
7 6
1 2 2
1 6
5 4

3 1
4

Figure 4. Graphe

un champ d’extrémales par la méthode de la programmation dynamique en partant


de la destination. On construira ainsi progressivement les chemins menant en 1, 2,
3, 4, étapes à la destination. D’après cette analyse, quel est le meilleur chemin pour
aller de la case 3 à la case 5?

7.20. Sur un théorème de C. Berge


On s’intéresse au problème de minimisation (globale)
(60) min f (x, θ)
x∈[a(θ);b(θ)]

où f est une fonction à valeurs dans R, continue par rapport à chacune de ses variables
et où a, b : R → R sont continues et vérifient en particulier la propriété suivante:
68 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

12

10

−2

−4
−1 −0.5 0 0.5 1 1.5 2 2.5 3

Figure 5. Graphe de la fonction f (x, θ) pour différentes valeurs de θ.

∀θ ∈ R, a(θ) < b(θ) (pour assurer la bonne définition de l’intervalle considéré dans
(60)). Le graphe d’une telle fonction f est représentée sur la figure 5.
On définit
(61) x? (θ) = argmin f (x, θ)
x∈[a(θ);b(θ)]

(62) f ? (θ) =f (x, θ) , x ∈ x? (θ)


Lorsque deux points donnent la même valeur minimale globale de f , alors l’ensemble
x∗ (θ) contient ces deux points. Le but de l’exercice est d’étudier la régularité de la
fonction f ? .
1. (a) Justifier que, pour tout θ ∈ R, l’ensemble x? (θ) est non-vide.
(b) Illustrer par un exemple (schéma) le fait que x? (θ) peut varier non con-
tinûment en θ.
2. Soit θ ∈ R. On considère une suite (θn ) convergente de limite θ et (xn ) avec
xn ∈ x? (θn ).
(a) Justifier que l’on puisse considérer une sous-suite convergente de (xn ),
dont on notera x la limite.
(b) Montrer par l’absurde que x ∈ x? (θ) (on pourra exhiber une suite con-
vergente de limite x̂ ∈ x? (θ), dont on justifiera l’existence).
(c) Conclure que f ? est continue en θ.

7.21. Optimisation sur un espace fonctionnel


Soit un intervalle [a, b], a < b. On considère l’espace de Hilbert H = L2 [a, b]
constitué des fonctions y : [a, b] → Rn de carré sommable
Z b
2 2
kyk =< y, y >= ky(t)k dt < +∞
a
7.21. OPTIMISATION SUR UN ESPACE FONCTIONNEL 69

où on a utilisé la norme Euclidienne de Rn sous l’intégrale.


On souhaite utiliser le théorème de projection suivant (voir Luenberger, Optimisa-
tion by vector spaces methods, Wiley-Interscience 1997): soit H un Hilbert et M un
sous espace fermé de H, alors, à tout x ∈ H il correspond un unique x0 ∈ V où V est
l’espace affine V = x + M tel que
kx0 k ≤ kvk , ∀v ∈ V
Ce point x0 est orthogonal à M , on note x ∈ M ⊥ .
0

x0

O
V=x+M
1. On considère {y1 , ..., yn } un ensemble de n vecteurs (fonctions) indépendants
de H et {c1 , ..., cn } n scalaires (constantes). On note M l’espace engendré
par {yi }i=1...n et on considère V = {x ∈ H / < x, yi >= ci , ∀i = 1...n}.
Caractériser M ⊥ et en déduire que V est un espace affine translaté de M ⊥ .
2. En appliquant le théorème de projection ci-dessus à V , montrer qu’il existe un
unique x0 ∈ V solution de
min kxk
x∈V
⊥ ⊥
Pn
3. En utilisant le fait que (M ) = M , montrer que x0 = i=1 βi yi où les βi sont
solutions du système linéaire
   
β1 c1
(< yi , yj >)i=1...n,j=1...n  ...  =  ... 
   

βn cn
4. Application. On considère le problème suivant
Z 1
min u2 (t)dt
u∈L2 [0,1] 0
sous les constraintes
ẋ1 = x2 , ẋ2 = −x2 + u, x1 (0) = x2 (0) = 0, x1 (1) = 1, x2 (1) = 0
R1
– par intégration, montrer que x2 (1) = 0 exp(t − 1)u(t)dt et que x1 (1) =
R1
0
(1 − exp(t − 1))u(t)dt
– écrire les contraintes du problème ci-dessus sous la forme < u, y1 >=
c1 , < u, y2 >= c2 .
– en déduire que la solution du problème est u(t) = β1 y1 (t) + β2 y2 (t) où β1
et β2 sont solutions d’un système d’équations linéaires qu’on précisera.
70 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

7.22. Meilleur antécédent par une matrice non inversible


On cherche le meilleur antécédent d’un vecteur b ∈ Rn par une matrice A de taille
n × n non inversible.
1. On considère le problème d’optimisation
min kAu − bk
u

où k·k désigne la norme Euclidienne. Montrer que ce problème est convexe. En
déduire que u réalise le minimum de la fonction objectif si et seulement si
AT Au = AT b
2. La matrice A étant non inversible, montrer que AT A ne l’est pas non plus.
3. Montrer que la matrice AT A est symétrique positive. On note λ1 , ..., λm ses m
valeurs propres non nulles, avec m < n. En déduire que
m
X
AT A = λi vi viT
i=1

où vi sont des vecteurs propres orthonormaux de AT A.


4. On considère la matrice
m
!
T
X 1 T
P =A A vi vi
λ
i=1 i

Montrer que rang P = m, P 2 = P , et que Im P = Im AT . En déduire que P


est la projection orthogonale sur Im AT .
5. En déduire que le vecteur suivant
m
!

X 1
u = v i v i AT b
T

i=1
λ i

réalise l’optimum recherché. Montrer que si A est inversible, i.e. m = n, alors


Au∗ = b.

7.23. Introduction aux méthodes de points intérieurs


On s’intéresse au problème de programmation quadratique (QP) suivant

 min 1 z T P z + f T z
(63) 2
M z ≤ b

où P est une matrice n × n symétrique définie positive, M une matrice m × n, f ∈ Rn ,


b ∈ Rm , avec m > n.
L’objet de cet exercice est d’exposer la construction d’un algorithme dit de “points
intérieurs”.
1. Montrer que le problème (63) admet une unique solution optimale.
7.23. INTRODUCTION AUX MÉTHODES DE POINTS INTÉRIEURS 71

2. On cherche à réécrire ce problème sous une forme canonique où les inégalités
sont juste des relations de positivité des inconnues. Pour cela, on introduit un
vecteur s de m inconnues positives ou nulles, et un vecteur y de 2n inconnues
positives ou nulles. Chaque composante i de z est exprimable sous la forme
zi = yi − yi+n , yi ≥ 0, yi+n ≥ 0
Montrer qu’on peut réécrire (63) sous la forme
1

 min xT Qx + cT x

 2
(64) Ax = b


−x≤0

avec
NT PN
   
y 02n×m
x= , Q= ,
s 0m×2n 0m×m

cT = fT N
 
01×m , A= MN Im
où N est une matrice qu’on explicitera.
3. Former le problème dual de (64) (on l’écrira comme un problème de maximisa-
tion sous contraintes). Pour cela, on formera le Lagrangien
1 T
L= x Qx + cT x + λT (b − Ax) − µT x
2
4. Montrer que les conditions de Karush-Kuhn-Tucker pour le problème général
(
min f (x)
d(x) = 0, e(x) ≤ 0

sont
 X X

∇f (x ) +

 λ∗i ∇di (x∗ ) + µ∗i ∇ei (x∗ ) = 0

d(x∗ ) = 0



(65) e(x∗ ) ≤ 0

µ∗ ≥ 0




 ∗
µi ci (x∗ ) = 0

5. Former les conditions (65) pour le problème (64).


6. On va pénaliser les contraintes −x ≤ 0 dans le côut en considérant le problème,
pour ε > 0,

 min 1 xT Qx + cT x − ε X ln(x )
i
(66) 2
Ax = b

Montrer que le problème (66) possède une unique solution.


72 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

7. Former le Lagrangien associé à (66) et montrer que les conditions de Karush-


Kuhn-Tucker sont

Ax = b



T

 − Qx + A λ + s = c



(67) xi si = ε

x i ≥ 0




si ≥ 0

8. Montrer comment résoudre les conditions (67) par une méthode de Newton avec
projection. Former pour cela le Jacobien de la fonction à annuler. Former la
première itération de cet algorithme en exhibant le calcul de la direction et la
procédure de projection.
9. Comment atteindre la solution de (65)?
xT s
10. Une méthode itérative consiste à considérer  = σ 2n+m , σ ∈]0, 1[.
Comment peut-on interpréter ce choix?

7.24. Gestion thermique d’une batterie de véhicule hybride


Dans un véhicule hybride, une question importante est celle du refroidissement de
la batterie qui perd de son efficacité (et de sa disponibilité) si elle est trop chaude.
On va chercher à établir une politique optimale de refroidissement sur un horizon de
temps donné T > 0 (et une route connue à l’avance). Soit θb la température interne
de la batterie, θ la température de son échangeur thermique, u son courant de sortie,
et ξ sa charge. En tenant compte des échanges thermiques, de la consommation et de
l’échauffement par effet Joule, on a les équations suivantes
d a d d
θb = u2 − bθ, θ = cu − kθ, ξ = D(t) − u
dt 2 dt dt
où a, b, c, k sont des coefficients positifs (connus) et D(t) est une fonction connue du
temps. Le système est initialisé au temps 0 aux valeurs
θb (0), θ(0), ξ(0)
1. On cherche à minimiser la température finale θb (T ) sous la contrainte de main-
tien de la charge ξ(T ) = ξ(0). Montrer qu’on peut formuler ce problème sous la
forme Z T
min L(θ, u)dt

d 0


 θ = cu − kθ
 dt




 d



ξ = D(t) − u



dt
ξ(T ) = ξ(0)









θ(0), ξ(0) donnés
où on précisera L(θ, u).
7.26. PROGRAMMATION DYNAMIQUE 73

2. Former l’Hamiltonien associé au problème et les équations différentielles du


problème aux deux bouts.
3. Intégrer, au moyen de deux constantes qu’on notera α et β les équations ad-
jointes.
4. Donner l’expression de la commande optimale au cours du temps en fonction de
α et β.
5. Expliciter une première relation entre α et β provenant de la contrainte ξ(T ) =
ξ(0).
6. Trouver la valeur optimale de α en utilisant la relation précédente et en invo-
quant la stationnarité de la fonction coût à l’optimum.

7.25. Polygones inscrits du cercle de longueur maximale


Soit f : I → R avec I intervalle de R. On suppose que f est convexe sur I, et on
considère {xi , i = 1, ...n} une famille d’éléments de I, n entier n > 1.
1. Montrer (par exemple par récurrence) que
x1 + ... + xn
f (x1 ) + ... + f (xn ) ≥ nf ( )
n
On a égalité si et seulement si tous les xi sont égaux.
2. En utilisant l’inégalité précédente pour f (x) = − sin x et I = [0, π], montrer
que parmi les polygones à n côtés inscrits dans un cercle donné, les polygones
réguliers ont le plus grand périmètre.

7.26. Programmation dynamique


On se donne une collection d’arcs orientés reliant des points P1 , P2 , P3 , P4 , P5 .
Tous les points ne sont pas connectés directement avec les autres. Les arcs sont
orientés, c’est à dire qu’on peut aller de P1 à P2 directement, mais que le retour
n’existe pas forcément. Les longueurs (coûts) des arcs sont rangés dans une matrice
 
0 3 7 +∞ −3
 +∞ 0 +∞ 1 6 
M1 = 
 
 +∞ 4 0 +∞ +∞ 

 3 +∞ −4 0 +∞ 
+∞ +∞ +∞ 5 0

Ainsi, l’arc reliant P1 à P2 a une longueur 3, alors qu’il n’y a pas d’arc (on note que
la longueur est infinie) reliant P1 à P4 .
On cherche à établir une carte des plus courts chemins entre chaque point du
graphe. Pour résoudre ce problème on va utiliser la programmation dynamique.
1. Dessiner tous les arcs du graphe reliant les points P1 , P2 , P3 , P4 , P5 . De combien
d’arc le graphe est-il ainsi constitué?
74 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

2. On note M k la matrice dont chaque coefficient Mi,j


k
vaut la longueur totale de la
séquence optimale de k arcs (ou moins) reliant Pi à Pj . En utilisant le principe
d’optimalité de Bellman, montrer que
k+1 1 k
Mi,j = min (Mi,p + Mp,j )
p=1,...,5

3. En déduire quel est le coût de la meilleure séquence pour aller de P1 à P3 .

7.27. Problème de Dido


On veut montrer que parmi les courbes fermées régulières du plan (simples: ne
faisant pas de boucles) de longueur donnée, celles qui ont une aire intérieure maximale
sont des cercles(1) .
On note C une courbe dans le plan, fermée simple et régulière, et on la suppose
paramétrée par son abscisse curviligne, en notant L sa longueur:
c : [0, L] 3 s 7→ c(s) ∈ R2
Cette courbe (dite de Jordan) sépare le plan en une partie intérieure I et une partie
extérieure.
1. La longueur L est solution de l’équation intégrale
Z L
dc
L= ds
0 ds
Vérifiez votre formule en calculant le périmètre d’un cercle de rayon r.
2. L’aire A de la zone I est
1 L
Z  
dc
A= det c(s), (s) ds
2 0 ds
Utiliser cette formule pour calculer l’aire d’un disque de rayon r.
3. On considère une variation autour de c, en utilisant ν(s) le vecteur normal
(extérieur) à la courbe C au point courant c(s), et f une fonction régulière
L-périodique à valeur dans R. Ceci permet de construire, pour tout t ∈ R,
v(t, s) = c(s) + tf (s)ν(s)
Faire un dessin représentant c et v, mettant en évidence que lorsque |t| est
suffisamment petit, s 7→ v(t, s) définit encore une courbe fermée simple.
4. On note Lf et Af la longueur et l’aire intérieure associées à s 7→ v(t, s). Montrer
Lf (t)2
que la dérivée à t = 0 de t 7→ Af (t) s’annule si et seulement si

d L d
Lf (0) = Af (0)
dt 2A dt

(1) c’est la solution du célèbre problème de Dido de l’Antiquité


7.29. PARALLÉLÉPIPÈDE MAXIMAL 75

5. Ré-écrire cette condition en utilisant le fait que


Z L Z L
d d
Lf (0) = − k(s)f (s)ds, Af (0) = − f (s)ds
dt 0 dt 0
où k désigne la courbure de C. On demande d’obtenir une condition que doit
2
vérifier k(s) pour que C réalise un extremum de LA .
6. Conclure par le lemme de duBois-Reymond que C est nécessairement un cercle.

7.28. Calcul des variations avec saut de l’état


On considère un problème de commande optimale où le coût à minimiser est
Z 1
J= L(x(t), u(t))dt + ϕ(x(1))
0
La particularité du problème est que x subit un saut en un instant τ ∈]0, 1[ défini
implicitement par la condition (on suppose τ unique)
φ(x(τ − )) = 0
A l’instant τ , l’état subit un saut de la forme
x(τ + ) = x(τ − ) − ∆
où ∆ est un vecteur de paramètres donné. Sur l’intervalle [0, τ [, l’état satisfait une
équation différentielle ẋ = f1 (x, u), et sur l’intervalle ]τ, 1], il satisfait ẋ = f2 (x, u).
La condition initiale x(0) = x0 est imposée.
1. On demande d’établir le problème aux deux bouts correspondant. Pour cela,
on pourra adjoindre les contraintes, et faire intervenir deux intégrales pour dis-
tinguer le saut. On montrera que l’état adjoint subit lui aussi un saut.
2. Sans détailler les calculs, expliquer comment ce formalisme permet de traiter le
problème suivant: lors de l’optimisation de trajectoire d’une fusée, on cherche
à se débarrasser des protections thermiques (la coiffe) lorsqu’en sortant de
l’atmosphère les frottements aérodynamiques deviennent suffisamment faibles.

7.29. Parallélépipède maximal


Soit un ellipsoide défini par l’équation
c(x, y, z) = x2 /a2 + y 2 /b2 + z 2 /c2 − 1 = 0
avec a, b, c des scalaires non nuls. On cherche le parallélépipède rectangle dont les
arêtes sont parallèles aux axes ayant un volume maximal en restant contenu dans
l’ellipsoÃŕde. On note x, y, z les demi-longueurs de ses arêtes, si bien que son volume
est
f (x, y, z) = 8xyz
1. Écrire les conditions de stationnarité pour ce problème sous contrainte. On
pourra noter λ le multiplicateur associé à la contrainte c.
76 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

2. En utilisant que le volume du parallélépipède solution est de volume non nul,


montrer que λ est non nul.
3. Montrer que le volume optimal s’exprime directement
√ en fonction de λ.
4. Éliminer λ des équations pour obtenir x = a/ 3. En déduire que le volume
optimal est 8abc
√ .
3 3

7.30. Rangement d’un câble


On dispose d’un câble semi-rigide de longueur L qu’on souhaite étaler sur le sol
entre 2 points à connecter situés à une distance L/2. Le câble est donc trop long.
Pour ne pas trop encombrer, on va chercher à trouver une disposition au sol qui
ne prend pas trop de place tout en respectant les contraintes mécaniques du câble.
Pour déterminer cette disposition, on va résoudre un problème d’optimisation de
trajectoires.
On considère l’axe x reliant le point de départ et le point d’arrivée. On complète
le repère avec un axe orthogonal y et on résoud le problème suivant

Z T
K
min (x(T ) − L/2)2 + y(τ )2 dτ
2 0

sous les contraintes

ẋ = cos θ
ẏ = sin θ
θ̇ = u
u ∈ [−α, α]
x(0) = 0, y(0) = 0, θ(0) = 0, y(T ) = 0, θ(T ) = 0

avec K et α des paramètres positifs.

1. Faire un schéma du problème et esquisser la solution.


2. Former le problème aux 2 bouts correspondant.
3. Comment doit-on choisir T pour prendre en compte la longueur donnée du
câble?
4. Quel paramètre du problème permet de prendre en compte la rigidité du câble?
5. Quel paramètre permet d’assurer que x(T ) ≈ L/2?
7.33. PROJETÉ SUR UNE PARABOLE 77

7.31. Investissement public


Lors d’un investissement public, deux options s’offrent en général aux décideurs:
1. investir dans un endroit possédant déja une forte activité économique
2. investir dans une zone défavorisée.
Considérant que chaque territoire du pays se voit attribuer un budget d’investissement
économique x(z) où z désigne le territoire, on note f (x) la rentabilité de l’investissement
(fonction supposée continue et différentiable avec f (0) = 0). Le décideur qui doit
prendre une mesure à l’échelle nationale cherche à maximiser la rentabilité totale
Z
f (x(z))dz
pays
Si on considère qu’un investissement est plus rentable sur un territoire pauvrement
doté, on décrit
f (x) ≥ f (y) implique f 0 (x) ≤ f 0 (y)
Montrer à cette hypothèse politique correspond au fait que f est concave et crois-
sante.

7.32. Convexité
Soit f : Rn → R une fonction quadratique strictement convexe. Soit x, y1 ,...,yn
des vecteurs de Rn .
Pn
1. Montrer que la fonction Rn 3 (λ1 , ..., λn ) 7→ f (x + i=1 λi yi ) est également
quadratique convexe.
2. Donner l’expression de son Hessien.
3. A quelle condition est-elle strictement convexe?

7.33. Projeté sur une parabole


Soit la parabole d’équation 5y = (x − 1)2 . On cherche le point de la parabole de
distance Euclidienne minimale avec le point de coordonnées (1, 2).
1. Définir un problème de minimisation sous contraintes correspondant.
78 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

2. Trouver les points satisfaisant les conditions de Lagrange.


3. Déterminer la solution.
4. Procéder par substitution directe de y en fonction de x et formuler un problème
de minimisation de la seule variable x. Retrouver ainsi le résultat de la question
précédente.

7.34. Existence de minimums


On considère les trois problèmes suivants. Expliquer lesquels possèdent des solu-
tions.
1
(68) min x1 + x2 sous les contraintes x21 + x22 = 1, 0 ≤ x1 ≤ , 0 ≤ x2
2
(69) min x1 + 2x2 sous les contraintes x21 + 2x22 ≤ 1, x1 + x2 = 10
(70) min x1 sous les contraintes x1 + x2 = 1

7.35. Pénalité intérieure


On s’intéresse ici à une classe de méthodes permettant de résoudre un problème
de minimisation sous contraintes comme limite d’une séquence de problèmes sans
contraintes. On note
min J(x), sous les contraintes gi (x) ≤ 0, i = 1...m
x
où on suppose que les fonctions J et gi sont régulières de Rn → R, et que les contraintes
définissent un ensemble compact non vide S, contenant une unique solution globale
x∗ , non isolée dans S. On veut résoudre le problème en résolvant une séquence de
problèmes sans contraintes dits “pénalisés” du type
m
X
minn J(x) +  γ(gi (x)),  > 0
x∈R
i=1

où γ est une fonction positive, régulière sur ] − ∞, 0[, telle que limx→0− γ(x) = +∞.
Par convention, γ(x) = +∞, pour x ≥ 0. On considère une suite strictement décrois-
sante (k ) de réels strictement positifs et on note, pour tout k
m
X
Jk (x) = J(x) + k p(x) , J(x) + k γ(gi (x))
i=1
On suppose que Jk admet un minimum sur Rn en un point unique noté xk .
1. Montrer que pour tout k, xk est dans l’intérieur de S.
2. Montrer que pour tout k on a
(71) Jk (xk ) ≤ Jk (xk+1 )
(72) Jk+1 (xk+1 ) ≤ Jk+1 (xk )
3. Déduire, par une combinaison linéaire des lignes qui précèdent, que
(73) J(xk+1 ) ≤ J(xk )
7.36. PSA: PROFIT SHARING AGREEMENT 79

4. Montrer, en utilisant (71) et la relation précédente que


p(xk ) ≤ p(xk+1 )
5. Montrer, en utilisant (72) que
(74) Jk+1 (xk+1 ) ≤ Jk (xk )
6. Montrer que pour tout δ > 0, il existe xδ ∈ S tel que J(xδ ) < J(x∗ ) + δ/2
7. On choisit un entier l tel que
l p(xδ ) < δ/2
Montrer, en utilisant (74), qu’on a, pour tout k > l
Jk (xk ) ≤ Jl (xδ )
8. En déduire que
J(x∗ ) ≤ J(xk ) < J(x∗ ) + δ
pour tout k > l et que donc
lim J(xk ) = J(x∗ )
k→∞

9. Montrer enfin que (xk ) converge vers x∗ .


La séquence des problèmes non contraints mais pénalisés génère une suite qui converge
donc vers la solution x∗ du problème contraint.

7.36. PSA: profit sharing agreement


Le PSA est un type de contrat fréquemment utilisé dans le domaine des ressources
naturelles, notamment dans l’industrie pétrolière. Un PSA définit pour la durée de
vie d’un réservoir (typiquement 25 ans) la part du pétrole produit qui va revenir, à
chaque instant (année), à l’exploitant du gisement et au pays propriétaire du gise-
ment, respectivement. Deux données importantes sont à prendre en compte dans le
cas d’un réservoir pétrolier: i) si on produit beaucoup au début, on risque de “fa-
tiguer” le réservoir, ce qui entraı̂nera un épuisement rapide des réserves ultérieures ii)
un exploitant cherchera naturellement à rentabiliser le plus vite possible les investisse-
ments lourds qu’il a réalisés lors de l’équipement du réservoir (forage, cimenterie du
puits, instrumentation, riser, etc...). Ces deux effets sont antagonistes.
On considère que le problème peut-être décrit au moyen de 2 variables d’état: r
les réserves exploitables dans le réservoir, p le profit cumulé de l’exploitant. Ces deux
variables satisfont les équations différentielles
ṙ = −uh(u)
ṗ = uv + p
où u ∈ [0, 1] désigne la production instantanée, h est une fonction d’épuisement pos-
itive croissante,  définit les intérêts du capital. Le contrat PSA définit la fonction
v(t) ∈ [0, 1] qui est la fraction de la production revenant à l’exploitant. Le reste
revient au pays propriétaire du gisement.
80 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

1. On considère le point de vue de l’exploitant. Il souhaite maximiser son profit


cumulé p(T ), où T = 25 ans. Le réservoir est initialement plein r(0) = 1. Il
est vide en fin d’exploitation r(T ) = 0. Le cumul du profit est initialement
nul p(0) = 0. Former le problème d’optimisation sous contraintes. Former
l’Hamiltonien du système.
2. On considère  = 0 et v constante. Montrer que les états adjoints sont con-
stants. Montrer, qu’il existe une production u constante satisfaisant le principe
du minimum de Pontryaguine. Interpréter ce résultat.
3. Former le problème aux deux bouts dans le cas général.
4. On considère maintenant le point de vue du pays propriétaire du gisement. Son
intérêt est de maximiser la quantité totale de pétrole qui lui revient produite
au cours de toute la durée de vie du réservoir (jusqu’à épuisement r(T ) = 0).
Montrer que le critère à minimiser est
Z T
u(t)(v(t) − 1)dt
0
5. Former le problème aux deux bouts correspondant.

1.4
reserves
profit cumulé
production
1.2
taux taxation

0.8

0.6

0.4

0.2

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

7.37. Convexité
1. Soit f une fonction convexe définie sur un ensemble convexe E. Montrer que
l’ensemble
Lt = {x ∈ E tel que f (x) ≤ t}
est un ensemble convexe.
7.39. LINÉARISATIONS SUCCESSIVES 81

2. Soit gi , i = 1, ..., k des fonctions convexes définies sur Rn . Montrer que l’ensemble
L = {x tel que gi (x) ≤ 0, i = 1, ..., k}
est un ensemble convexe.
3. Soit f et g deux fonctions convexes R → R. Montrer que h(x, y) = f (x) + g(y)
est convexe.

7.38. Polynôme de Rodrigues


On s’intéresse au polynôme de degré n − 1 approchant le mieux possible t 7→ tn .
On considère ainsi le problème de minimisation

n
!2
Z 1 X
n k−1
min f (x), f (x) = t − xk t dt
x=(x1 ,...,xn )∈Rn −1 k=1
1. Montrer que x 7→ f (x) est convexe.
2. Former la condition de stationnarité
R 1 de f .
3. On considère le produit scalaire −1 g(t)h(t)dt =< g, h > de l’espace L2 ([−1, 1]).
Montrer que les conditions précédentes impliquent qu’un certain polynôme est
orthogonal à toutes les puissances tk , k = 0, ..., n − 1.
4. Montrer que le polynôme recherché est (polynôme de Rodrigues)
n! dn 2
R(t) = tn − (t − 1)n
(2n)! dtn
(on remarquera que R est de degré n − 1).
5. Quel est le polynôme de Rodrigues pour t3 ?

7.39. Solution d’un problème aux deux bouts par linéarisations successives
On cherche (voir [3]) à résoudre des problèmes d’optimisation de trajectoires généraux
1 t2 T
Z
1 T
(75) min x (t2 )F x(t2 ) + (x Qx + uT Ru)dt
ẋ = f (x, u) 2 2 t1
x(t1 ) = x0
où f est une fonction régulière, F et Q des matrices symétriques positives, R une
matrice symétrique définie positive, x0 , t1 , t2 des paramètres donnés.
Pour cela, on propose une méthode d’approximation linéaire successive des équa-
tions de la dynamique, sous l’hypothèse (qu’on supposera vérifiée) que ẋ = f (x, u)
peut s’écrire
(76) ẋ = A(x)x + B(x)u
avec A et B des fonctions (matricielles) régulières.
1. Former l’Hamiltonien du problème (75) en utilisant l’écriture (76).
82 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

2. Montrer que le problème aux deux bouts est



ẋ = A(x)x + B(x)u, 


x(t1 ) = x0





−1 T
u = −R B(x) λ


λ̇ = −Qx + C(x, λ)λ,




λ(t2 ) = F x(t2 )

d d
avec C(x, λ) = − dx (A(x)x)T − uT dx B(x)T
3. On introduit la séquence fonctionnelle (x[i] , λ[i] )i∈N
x[0] (t) = x0 , λ[0] (t) = F x0
avec, pour i ≥ 1,
d [i]
x = A(x[i−1] )x[i] − B(x[i−1] )R−1 B(x[i−1] )T λ[i]
dt
x[i] (t1 ) = x0
d [i]
λ = −Qx[i] + C(x[i−1] , λ[i−1] )λ[i]
dt
λ[i] (t2 ) = F x[i−1] (t2 )
Ecrire ce système sous une forme
d [i]
(77) z = Ā(z [i−1] )z [i]
dt
avec
x[i]
 
[i]
z =
λ[i]
Préciser Ā.
4. L’équation (77) définit un système linéaire instationnaire de la forme
d
y(t) = M (t)y(t)
dt
On introduit un état adjoint
d
(78) µ(t) = −M (t)T µ(t)
dt
Montrer, en utilisant le lemme de l’adjoint, que
y T (t2 )µ(t2 ) = y T (t1 )µ(t1 )
T
5. Soit δk = (0 . . . 0 1 0 . . . 0) où le 1 est en position k avec n + 1 ≤ k ≤ 2n, avec
n = dim x.
Montrer que la (k − n)-ième composante de λ[i] (t2 ) vaut y T (t1 )µk (t1 ) où µk
est la solution de (78) avec la condition finale µk (t2 ) = δk .
7.41. RÉSERVOIR CYLINDRIQUE 83

6. Former la condition terminale du problème aux deux bouts et montrer qu’elle


est de la forme
 T
x (t1 )αn+1 (t1 ) + λT (t1 )βn+1 (t1 )

 xT (t1 )αn+2 (t1 ) + λT (t1 )βn+2 (t1 ) 
λ(t2 ) = 
 
.. 
 . 
xT (t1 )α2n (t1 ) + λT (t1 )β2n (t1 )
avec    
x α
y= , µ=
λ β
et que donc
T
−1 
(x0 )T αn+1 (t1 )
  
βn+1 (t1 )
T
 βn+2 (t1 )    (x0 )T αn+2 (t1 ) 
λ[i] (t1 ) = 
 [i−1]
F x (tf ) − 
   
..  .. 
 .    . 
T
β2n (t1 ) (x0 )T α2n (t1 )
7. En déduire que le problème aux deux bouts devient résoluble, avec le schéma
proposé, par la résolution successive de problèmes de Cauchy à préciser.

7.40. Commande optimale avec arc singulier


On considère le problème
Z t2
1
min x21 (t)dt
2 t1
pour le système dynamique
ẋ1 = x2 + u, ẋ2 = −u, x1 (t1 ) = a, x2 (t1 ) = b, x1 (t2 ) = x2 (t2 ) = 0
où a et b sont des vecteurs donnés, t2 > t1 des constantes.
1. Former l’Hamiltonien du problème.
2. Former les équations de l’état adjoint.
3. La condition ∂H ∂u = 0 n’est pas directement exploitable pour déterminer u.
Dériver cette condition autant de fois que nécessaire pour obtenir une expression
de u.
∂ d2 ∂H

4. Montrer que ∂u dt2 ∂u ≤ 0 (cette condition est appelée condition de Legendre-
Clebsch généralisée ou condition de Kelley).

7.41. Réservoir cylindrique


On souhaite concevoir un réservoir cylindrique de contenance maximale au moyen
d’une quantité limitée de matériau.
1. On note d le diamètre du disque de base du cylindre et h sa hauteur. Don-
ner l’expression du volume V contenu dans le cylindre, et l’expression de sa
surface S.
84 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

2. La surface du cylindre est constituée de plaques de tôle d’une épaisseur con-


stante (négligeable). Ainsi la grandeur S est contrainte. Former le problème
d’optimisation de la contenance sous contrainte S = S 0 et donner son Lagrang-
ien.
3. Former les conditions de stationnarité et
q montrer que la hauteur optimale et le
2S 0
diamètre optimal sont égaux et valent 3π .

7.42. Unicité de la commande optimale en temps


On considère (voir [20]) le problème
min t2 − t1
pour le système dynamique
ẋ = Ax + Bu, x ∈ Rn , u ∈ R, a ≤ u(t) ≤ b, x(t1 ) = α, x(t2 ) = β
où a < b et t1 sont des constantes, α 6= β des vecteurs donnés, et t2 > t1 est libre.
1. Énoncer le principe de minimum de Pontryagin pour ce système.
2. Montrer que si u1 et u2 sont deux commandes optimales, produisant le mÃlme
temps t2 − t1 , alors 21 (u1 + u2 ) est aussi admissible et optimale.
3. En déduire l’unicité de la commande optimale.

7.43. Convexité de l’image de petites boules par application régulière


L’objet de cet exercice est de démontrer que l’image par une fonction régulière
(à Jacobien inversible) d’une boule de taille suffisamment petite est convexe. Cette
propriété a été établie dans des espaces de Hilbert généraux et est utilisée notamment
dans l’étude des valeurs propres de matrices et d’opérateurs perturbés (voir [27]).
On établit d’abord un résultat préliminaire.
Soit une fonction P : Rn → Rm régulière. On cherche à résoudre l’équation
(79) P (x) = 0
au moyen d’une séquence
(80) xn+1 = xn − Qn (xn )
initialisée en x0 donné. On suppose que
(i) P 0 le Jacobien de P est Lipschitzien avec comme constante L > 0
(ii) la fonction Qn vérifie kP (x) − P 0 (x)Qn (x)k ≤ γ kP (x)k, avec 0 < γ < 1
(iii) kQn (x)k ≤ λ kP (x)k, pour un certain λ ≥ 0,
2
(iv) γ + Lλ 2 P (x0 ) < 1
On va montrer que la séquence (80) converge vers x∗ solution de (79). Dans la suite,
on utilise la norme Euclidienne et la norme induite.
1. Dans le cas où on cherche à résoudre un système linéaire Ax = b, avec P (x) =
Ax − b, et A inversible, montrer que les hypothèses ci-dessus sont vérifiées. On
précisera le choix retenu pour Qn , les valeurs de L, γ.
7.43. IMAGE CONVEXE 85

2. En utilisant le développement (formule de Taylor), et les propriétés (i-ii-iii),


Z 1
P (x + y) = P (x) + P 0 (x + ty)ydt
0
n n+1
entre les points x et x , montrer que
Lλ2 2
(81) P (xn+1 ) ≤ γ kP (xn )k + kP (xn )k
2
2
3. On note (δ n ) la suite de terme général γ + Lλ n
2 kP (x )k. Déduire de (81) et de
0 n 0
δ < 1 que δ ≤ δ pour tout n.
Lλ2 kP (x0 )k
4. On note c1 = 2γ . Montrer, en majorant kP (xn )k que
δ n ≤ γ exp (c1 (δ 0 )n )
5. En déduire que
 
c1
kP (xn )k ≤ P (x0 ) γ n exp
1 − δ0
6. Montrer, en utilisant (iii), que la suite xn est une suite de Cauchy. En déduire
qu’elle converge vers x∗ solution de (79).
7. On suppose désormais que P 0 est uniformément inversible si bien que il existe
m > 0 tel que quels que soient x (localement), et y on a
(82) kP 0 (x)yk ≥ m kyk
Soit z tel que P 0 (x)z = P (x), déduire de ce qui précède, avec Q(x) = αz, avec
0 < α < 2, que les hypothèses (ii) et (iii) sont vérifiées.
8. En déduire que si P (x0 ) est suffisamment petite, alors la séquence
(83) xn+1 = xn − αn z n , z n = P 0 (xn )−1 P (xn )
avec 0 < αn < 2 converge.
9. En déduire, sous l’hypothèse supplémentaire précédente, par passage à la limite,
l’existence d’une solution x∗ de (79) et que
x∗ − x0 ≤ m P (x0 )
On considère maintenant une fonction régulière f : Rn → Rm telle que son Jacobien
est Lipschitzien de constante L et inversible avec la constante m. On veut montrer
que l’ensemble F = {f (x) pour x ∈ B(a, )}, avec B(a, ) = {x tel que kx − ak ≤ }
est un ensemble convexe pour tout a, pour  suffisamment petit.
Soient deux points x1 , x2 de B(a, ) et y 1 , y 2 de F leurs images par f . Soit
y = 21 (y 1 +y 2 ). Pour montrer que F est convexe, il suffit de montrer que y 0 appartient
0

à F .
10. On note x0 = 21 (x1 + x2 ). Montrer que
y i = f (x0 ) + f 0 (x0 )(xi − x0 ) + i , i = 1, 2
avec
L 1 2
ki k ≤ x − x2
8
86 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

11. Montrer que


L 1 2
y 0 = f (x0 ) + 0 , 0 ≤ x − x2
8
12. La fonction x 7→ f (x)−y 0 est telle que son Jacobien est Lipschitzien de constante
L et inversible avec la constante m. En déduire, d’après la première partie de
l’exercice, que si  est suffisamment petit, alors il existe x∗ tel que f (x∗ ) = y 0
et tel que
x∗ − x0 ≤ m f (x0 ) − y 0
13. Montrer alors que pour  suffisamment petit, x∗ ∈ B(a, ).
14. Conclure que l’image par f de toute boule de taille  est convexe pour  suff-
isamment petit.
 
x1 x2 − x1
Application: On considère f (x) = .
x1 x2 + x2
15. Montrer que l’image par f de la boule B(0, ) est convexe pour  suffisamment
1
petit (un calcul plus avancé montre que  ≤ 2√ 2
est suffisant). La situation est
illustrée en figure 6.

0.6 ε=0.05
ε=0.15
ε=0.3
ε=0.45
0.4
ε=0.6

0.2

−0.2

−0.4

−0.6

−0.6 −0.4 −0.2 0 0.2 0.4 0.6

Figure 6. Image par f de la boule B(0, ) pour différentes valeur de .

7.44. Planification optimale linéaire quadratique


On s’intéresse ici à un système linéaire
ẋ(t) =A(t)x(t) + B(t)u
7.44. PLANIFICATION OPTIMALE LINÉAIRE QUADRATIQUE 87

où l’état x ∈ Rn et la commande u ∈ Rm . On considère le coût suivant avec pondéra-


tion
1 tf 
Z
x(t)T Rx(t) + u(t)T Qu(t) dt

(84) J(x, u) =
2 0
où R est symétrique positive et Q est symétrique définie positive.
On ajoute à l’objectif de minimiser ce critère quadratique une contrainte finale
x(tf ) =xf
On se propose de déterminer la loi de commande solution à ce problème par deux
méthodes différentes.
1. Formuler le problème aux deux bouts associé (où la commande n’apparaı̂t plus).
Justifier que ce problème a au plus une solution.
2. Méthode de balayage. Cette méthode consiste à ramener les conditions lim-
ites du poblème au même point. En notant ν le multiplicateur associé à la
contrainte finale, on se propose de chercher les adjoints et multiplicateurs sous
la forme
(85) λ(t) =S(t)x(t) + V (t)ν
(86) xf =V T (t)x(t) + H(t)ν
(a) Montrer que
(87) V (tf ) = I , H(tf ) = 0 et S(tf ) = 0
(b) Montrer que
(88) Ṡ(t) = − S(t)A(t) − AT (t)S(t) + S(t)B(t)Q−1 B T (t)S(t) − R
(89) V̇ (t) = − (AT (t) − S(t)B(t)Q−1 B T (t))V
(c) Montrer enfin que
(90) Ḣ(t) = V T (t)B(t)Q−1 B T (t)V (t)
(d) Exprimer la commande optimale en fonction de S, V et H.
3. Equation d’HJB. Il est possible ici de résoudre l’équation d’Hamilton-Jacobi-
Bellman en cherchant une solution sous une certaine forme quadratique.
(a) Expliciter l’équation HJB associée au problème considéré.
(b) On cherche la fonction de retour optimal sous la forme
1 1
I(x, t) = xT S(t)x + xT V (t)ν + ν T H(t)ν − xTf ν
2 2
Retrouver les équations (87)–(90) en résolvant l’équation précédente.
4. On considère maintenant un système dynamique de dimension n = 2
   
0 1 0
ẋ(t) = x(t) + u(t)
−1/2 0 1
On souhaite calculer une commande t ∈ [0, 3] 7→ u(t) transférant le système de
x0 = [−0.5 1]T à xf = [−1 0]T en minimisant le critère quadratique (84)
avec R = I. On résout numériquement les équations obtenues précédemment
88 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

1 1

0 0

-1 x1 -1 x1
x2 x2
u u
-2 -2
0 1 2 3 0 1 2 3
Time [s] Time [s]

Figure 7. Différents réglages de la commande LQR.

pour deux réglages : Q = 1 et Q = 1000. Associer ces réglages aux équations


de la Figure 7.

7.45. Résolution d’un problème aux deux bouts par inversion dynamique
On s’intéresse à la dynamique d’un véhicule équipé d’un moteur à courant continu
dont on cherche à le faire parcourir une distance D en un temps donné T en minimisant
l’énergie consommée, sous contraintes de vitesse initiale et finale nulles. Ce problème
de contrôle optimal s’écrit ainsi
Z T
(91) min (b1 u(t)v(t) + b2 u(t)2 )dt



ẋ = v 0


v̇ = a1 u − a2 v 2 − a0 − γ(x)









x(0) = 0, x(T ) = D

v(0) = v(T ) = 0

où x, v sont respectivement la position et vitesse du centre de masse du véhicule, u


est le pourcentage utilisé du couple maximal fourni par le moteur, ai , bi (i = 0, ..., 2)
sont des constantes positives et γ une fonction réelle telles que :
– b1 u(t)v(t) + b2 u(t)2 représente la puissance instantanée du moteur
– a1 u est le couple de traction des roues
– a2 v 2 le couple de frottement aérodynamique
– a0 représente le couple de roulement
– γ(x) la force de pesanteur, dépendant de la pente de la route et donc de la
position
1. Écrire les équations du problème aux deux correspondant (où la commande
n’intervient plus).
2. Montrer que v et u peuvent s’exprimer comme des fonctions de x, ẋ et ẍ.
3. En utilisant le fait que ∂H
∂u = 0 pour tout t ∈ [0, T ], montrer que les deux états
adjoints λ1 et λ2 s’écrivent également comme des fonctions de x, ẋ et ẍ.
7.46. PROGRAMMATION LINÉAIRE ROBUSTE 89

4. A partir de cette même condition de stationnarité, déduire que x satisfait


(92) Ax(4) + B(ẋ)x(3) + C(x, ẋ, ẍ)ẍ + D(x, ẋ, ẍ, x(3) )ẋ − a1 λ2 (x, ẋ, ẍ)γ̇(x) = 0
(93) x(0) = ẋ(0) = ẋ(T ) = 0 , x(T ) = D
5. On considère que la route est horizontale, auquel cas γ = 0, et que les effets
aérodynamiques sont négligeables, c.a.d. a2 = 0. Comment se simplifie la
dynamique (92) dans ce cas ? En déduire la commande optimale correspondante.

7.46. Programmation linéaire robuste


Un problème de programmation linéaire s’écrit (canoniquement) sous la forme
min cT x
x
(94)
t.q. aTi x ≤ bi , i = 1, ..., m
où c ∈ Rn , et pour i = 1, ..., m > n, ai ∈ Rn , bi ∈ R. On s’intéresse dans cet exercice
à un problème plus général, où chaque contrainte i est définie par des ensembles Ei
et Fi pour i = 1, ..., m > n,
min cT x
x
(95)
t.q. aTi x ≤ bi , ai ∈ Ei , bi ∈ Fi , i = 1, ..., m
Les ensembles Fi et Ei sont polyhédraux (supposés non vides), c.-à-d.
Ei = {a | Di a ≤ di } ⊂ Rn , Fi = [γi , µi ] ⊂ R
avec Di une matrice ki × n, et di ∈ Rki avec ki > 1 et γi < µi . On cherche à montrer
que le problème (95) est bien un problème du type (94) et à en trouver l’expression.
1. Montrer que pour tout i, l’ensemble Ei est convexe.
2. Montrer que (95) est équivalent au problème
min cT x
x
(96)
t.q. aTi x ≤ γi , ai ∈ Ei , i = 1, ..., m
3. Ré-écrire les contraintes de (96) en utilisant le problème auxiliaire
max aTi x
ai
(97)
t.q. Di ai ≤ di
4. On va considérer le problème dual de (97). Former le Lagrangien L(ai , λ) de
(97). Calculer supλ≥0 L, en distinguant le cas Di ai ≤ di et son complémentaire.
De même, calculer inf ai L. Utiliser l’égalité du point selle. En supposant que
inf et sup sont atteints, montrer que le problème dual de (97) s’écrit
min dTi λ
λ≥0
(98)
t.q. DiT λ = x
90 CHAPITRE 7. EXERCICES ET PROBLÈMES COMPLÉMENTAIRES

5. En utilisant cette formulation duale, montrer que la résolution de (96) revient


à la résolution de
min cT x
x 
(99)  min λTi di 
λi ≥0
≤ γi i = 1, ..., m
D T λ = x 
i i

6. Conclure que le problème (95) est équivalent au problème de programmation


linéaire suivant
min cT x
x,(λi )i=1,...,m
 T
(100) λi di ≤ γi ,
 i = 1, ..., m,
DiT λi = x i = 1, ..., m,

λi ≥ 0 i = 1, ..., m

BIBLIOGRAPHIE

[1] A. D. Aleksandrov, A. N. Kolmogorov, and M. A. Lavrent’ev. Mathematics. Its


contents, methods and meaning. The M. I. T. Press, 1969.
[2] G. Allaire. Analyse numérique et optimisation. cours de l’école polytechnique.
Technical report, École Polytechnique, 2004.
[3] S. P. Banks and K. Dinesh. Approximate optimal control and stability of non-
linear finite- and infinite-dimensional systems. Annals of Operations Research,
98(1):19–44, 2000.
[4] D. P. Bertsekas. Nonlinear programming. Athena Scientific, 2 edition, 1999.
[5] D. P. Bertsekas. Dynamic Programming and Optimal Control, volume 1, 2.
Athena Scientific, 2 edition, 2001.
[6] F. Bonnans. The shooting algorithm for optimal control problems: A re-
view of some theoretical and numerical aspects. Notes de cours, http://www-
rocq.inria.fr/sydoco/cours/tutorial.html, INRIA, 2002.
[7] S. Boyd and L. Vandenberghe. Convex optimization. Cambridge University Press,
2004.
[8] A. E. Bryson. Dynamic Optimization. Addison-Wesley, 1999.
[9] A. E. Bryson and Y. C. Ho. Applied Optimal Control. Ginn and Company, 1969.
[10] R. Courant and D. Hilbert. Methods of Mathematical Physics, volume 2. Inter-
science, 1962.
[11] J.-Ch. Culioli. Introduction à l’optimisation. Ellipses, 1994.
[12] S. E. Dreyfus and A. M. Law. The art and theory of dynamic programming.
Academic Press, 1977.
[13] A. R. Forsyth. Calculus of variations. Cambridge at the University Press, 1927.
92 BIBLIOGRAPHIE

[14] I. M. Gelfand and S. V. Fomin. Calculus of variations. Dover, 2000.


[15] P. E. Gill, W. Murray, and M. A. Saunders. Large-scale SQP Methods and their
Application in Trajectory Optimization, chapter 1. Birkhäuser Verlag, 1994.
[16] P. E. Gill, W. Murray, M. A. Saunders, and M. A. Wright. User’s Guide for
NPSOL 5.0: A Fortran Package for Nonlinear Programming. Systems Optimiza-
tion Laboratory, Stanford University, Stanford, CA 94305, 1998.
[17] J.-B. Hiriart-Urruty. Optimisation et analyse convexe. Presses Universitaires de
France, 1998.
[18] L. V. Kantorovich and V. I. Krylov. Approximate methods of higher analysis.
Interscience Publishers, Inc. - New York, 1964.
[19] L. P. Lebedev and M. J. Cloud. The calculus of variations and functional analysis,
volume 12 of Series on stability, vibration and control of systems. World Scientific
Publishing Co., 2003.
[20] J. R. Leigh. Functional analysis and linear control theory. Academic Press Inc.,
1980.
[21] D. G. Luenberger. Optimization by vector spaces methods. Wiley, 1969.
[22] Mathworks. Optimization toolbox. User’s guide, http://www.mathworks.com,
The Math Works Inc., 2002.
[23] M. Minoux. Programmation Mathématique. Théorie et algorithmes, volume 1, 2.
Dunod, 1983.
[24] J. J. Moré and S. J. Wright. Optimization Software guide. Frontiers in Applied
Mathematics. SIAM, 1993.
[25] J. Nocedal and S. J. Wright. Numerical Optimization. Springer Series in Opera-
tions Research. Springer, 1999.
[26] E. Polak. Optimization - Algorithms and Consistent Approximations. Springer-
Verlag, 1998.
[27] B. T. Polyak. Convexity of nonlinear image of a small ball with applications to
optimization. Set-Valued Analysis, 9(1-2):159–168, 2001.
[28] L. Pontryagin and et al. Théorie Mathématique de Processus Optimaux. Editions
Mir, Moscou, 1974.
[29] W. H. Press, B. P. Flanerry, S. A. Teukolsky, and W. T. Vetterling. Numerical
Recipes: The Art of Scientific Computing. New York:Cambridge University Press,
1986.
[30] S. M. Roberts and J. S. Shipman. Two-point boundary value problems: shooting
methods. American Elsevier, 1972.
BIBLIOGRAPHIE 93

[31] H. J. Sussmann and J. C. Willems. 300 years of optimal control: from the brachys-
tochrone to the maximum principle. IEEE Control Systems Magazine, pages 32–
44, 1997. disponible sur http://www.math.rutgers.edu/˜sussmann.

[32] V. M. Tikhomirov. Stories about Maxima and Minima. Mathematical World.


Volume 1. American Mathematical Society, 1990.
Notes. — On pourra se référer à [24] pour un exposé de certaines librairies et de
certains logiciels existants pour la résolution des problèmes d’optimisation. On pourra
se reporter à [4] pour tout détails portant sur le chapitre 1 du cours. En ce qui concerne
l’analyse et l’optimization convexe on pourra se reporter à [17] et [7]. On trouvera
de plus amples détails sur les algorithmes de descente en dimension finie dans [26].
Pour le chapitre 2 on pourra trouver tous les détails concernant l’optimisation de
fonctionnelles dans [21, 14] et les différentes conditions de stationnarité dans [9, 8,
13, 14, 18]. On trouvera les détails sur l’histoire du calcul des variations dans [31, 1].
Pour les équations variationnelles d’ordre élevé on pourra se reporter à [10]. Pour
une présentation en lien avec l’analyse fonctionnelle, on se reportera à [19]. Pour une
vue d’ensemble on pourra se reporter à [2]. Pour une présentation des techniques de
programmation dynamique on pourra consulter [5, 12]. L’ouvrage [11] contient une
présentation très complète de l’optimisation.

Vous aimerez peut-être aussi