CoursOptimisation CH2 (1371)

Chapitre 2
Optimisation sans contraintes : méthodes

locales
2.1 Dénitions
2.1.1 Dénition 1
Soit f (X) une fonction de < n
→ <n ; Le problème d'optimisation sans contraintes
s'écrit de la façon suivante :
minimiser la fonction f (X) avec X ∈ < . n
La fonction f (X) est souvent appelée : fonction coût, fonction objectif ou critère
d'optimisation.
2.1.2 Dénition 2
On dit que X est un point qui minimise la fonction f (X) sur l'ensemble < ssi :
∗ n
∀X ∈ <n , f (X∗ ) ≤ f (X)
2.2 Théorèmes d'existence de l'optimum

2.2.1 Théorème 1
Soit la fonction f (X) : < n
→< diérentiable sur < , on dit que f (X) à un optimum
n
au point X si :
∗
∇f (X∗ ) = 0
Remarques
X est appelé point stationnaire de la fonction f (X).
∗
La relation ∇f (X ) = 0 est aussi appelée équation d'

∗
Euler .
21
Ce théorème n'a aucun sens si la fonction n'est pas diérentiable (Exemple fonc-
tion en V).
2.2.2 Théorème 2
Soit la fonction f (X) : < → < convexe et continument diérentiable à l'ordre
n
deux sur < , on dit que f (X) à un minimum global au point X ssi :
n ∗
∇f (X∗ ) = 0
L'égalité précédente engendre un ensemble de n équations qui peuvent être, dans

certains cas, résolues analytiquement. Cependant, on a souvent recours à résoudre cet
ensemble d'équation numériquement et par des algorithmes itératifs. On construit ainsi,
une suite de solutions qui converge vers la solution optimale X , X , ..., X = X .
0 1 ∞
∗
2.3 Le développement en série de Taylor

Dans le cas unidimensionnel, la dérivée d'une fonction en un point, est comme suit :
f (x) − f (a) f (a + h) − f (a)
f 0 (a) = lim = lim
x→a x−a h→0 h
on peut faire l'approximation suivante :
f (x) − f (a) ≈ f 0 (a)(x − a)
soit :
f (x) ≈ f (a) + f 0 (a)(x − a)
ou encore
f (a + ∆x) ≈ f (a) + f 0 (a)∆x
pour plus de précision, on ajoute les termes :
1 1 (m)
f (x) ≈ f (a) + f 0 (a)(x − a) + f 00 (a)(x − a)2 + ... + f (a)(x − a)m
2 m!
(2.1)
m
X 1 (i)
= f (a)(x − a)i
i=0
i!
Cette dernière expression est appelée développement en série de d'ordre m au

voisinage du point a.
Taylor
22
Dans le cas multidimensionnel, le développement en série de du premier
ordre de la fonction f (X) au voisinage du vecteur A, est donné par :
Taylor
(2.2)
n
X ∂f (X)
f (A + ∆X) ≈ f (A) + ∇f (A)∆X = f (A) + (xi − ai )
i=1
∂x i

x i =ai
Le développement en série de Taylor du second ordre est :

1
f (A + ∆X) ≈ f (A) + ∇f (A)∆X + ∆X0 Hf (A)∆X
n 2! n
1 X ∂ 2 f (X)

X ∂f (X)
≈ f (A) + (xi − ai ) + xi =ai (xi − ai )(xj − aj )
∂x i

x =a 2! ∂x i ∂x j
(2.3)
i=1 i i i,j=1 x =a
j j
2.4 Problème d'optimisation à une seule variable

Certains problèmes d'optimisation à plusieurs variables, peuvent être amenés à un
problème équivalent à une seul variables uniquement. Dans cette partie nous allons
examiner certains problèmes de ce type. Mais avant cela, voici les étapes pour résoudre
ce type d'exercice.
1. Lire attentivement le problème
2. Faire des gures d'illustration
3. Identier les variables
4. Dénir la fonction à optimiser f (x, y, z, ...)
5. Reformuler la fonction suivant une seule variable f (x)
6. Résoudre l'équation = 0 df (x)
7. Réécrire la solution suivant les variables initiales.

dx
Exercice 8. Boite à volume maximal

.
En utilisant une feuil de dimensions L × H , on veut déterminer les dimensions corres-
pondantes d'une boite dont le volume est maximal.
a.Dessiner sur une feuil le croquis de cette boite.
b.Déterminer la fonction à minimiser correspondante à ce problème suivant la hau-
teur h.
23
c. Déterminer les dimension de la boite à volume maximal.
d. Donner le résultat pour une page de dimension A4 (21 × 29.7).
e. Trouver le même résultat en utilisant Matlab (dessiner la fonction de volume ainsi
que sa dérivée en fonction de la variable h.
Exercice 9. Aire maximale
.
La parabole d'équation y = − x + 8 coupe l'axe des abscisses en A et B. Le point
2 2
P (x; y) se déplace sur la parabole entre A et B . Soit A la projection du point P sur

9
0
la droite (AB).
a. Représenter graphiquement cet énoncé.
b. Déterminer les coordonnées du point P pour que l'aire du triangle rectangle A P B 0
soit maximale.
2.5 Les méthodes de descente

Les méthodes de descente sont des techniques itératives permettant de trouver le
minimum d'une fonction donnée. Le principe est de proposer un point initiale X ,
ensuite on cherche à trouver un autre point X qui vérie la condition f (X ) < f (X ).
0
Par la suite, X devient le point initiale pour la nouvelle itération et ainsi de suite
1 1 0
jusqu'à l'obtention du point minimale.

1
Le point X peut être mis sous la forme suivante :

1
X1 = X0 + ρ0 ∆X0
où ρ ∈ < est appelé le
∗+
et ∆X un vecteur de < appelé n
. Ainsi, à la première itération on doit trouver ρ et ∆X qui satisfont la

0 pas de descente 0 direction
condition f (X ) < f (X ). Et en générale, à la k itération, on a :

de descente 0 0
ième
1 0
X = X + ρ ∆X
k+1 k k k (2.4)
et on doit trouver ρ ∈ < et ∆X qui satisfont la condition f (X ) < f (X ).
k
∗+
k k+1 k
Remarque Le pas de descente ρ est déterminé soit analytiquement en minimisant la

fonction argminf (X + s∆X). Soit itérativement en minimisant la fonction f (X +
ρ∆X), suivant la variable ρ. L'algorithme correspondant dans ce cas est comme suit :
s≥0
Connaissant la direction ∆X et soit deux réelles 0 < α < 0.5 et 0 < β < 1.
ρ ← 1.
while f (X + ρ∆X) > f (X) + αρ∇f (X)∆X, ρ : = βρ.
24
Remarque en pratique, souvent, on prend α ∈ [0.01 , 0.3] et β ∈ [0.1 , 0.8].
2.6 Méthode du gradient
2.6.1 Principe
La méthode du gradient est une technique de descente (itérative) permettant de
trouver le minimum d'une fonction donnée. La façon la plus évidente de trouver une
direction est l'utilisation de la dérivée. Ainsi, pour trouver la direction de descente, on
utilise le sens inverse de la dérivée. A cet eet, on prend ∆X = −∇f (X) . La relation
0
itérative correspondante à la méthode du gradient est la suivante :

f (X ) ≈ f (X ) + ρ ∇f (X )∆X
k+1 k k k k (2.5)
Si ρ est constant, cette méthode est qualiée de méthode du gradient à pas xe.
Lorsque ρ varie, on parle de la méthode du gradient à pas variable.
k
k
2.6.2 Algorithme
connaissant la valeur initiale X ,
Répéter
0
1. ∆X ← −∇f (X) . 0
2. Choisir le pas ρ (s'il est xe on ignore cette étape).

3. Mettre à jours X ← X + ρ∆X.
Arrêter lorsque la condition de convergence est satisfaite.
La condition de convergence est souvent pris comme : k∇f (X)k ≤η avec η un
nombre petit et positif.
2
2.6.3 Exemple
Soit une fonction cout f (X) quadratique en < sous la forme :
2
f (X) = x2 + 3y 2 ,
avec X = [x, y]0. Il est évident que l'origine est le point minimisant cette fonction.
Résolution avec un pas xe
Dans ce cas on recherche un pas ρ optimale c'est celui qui minimise une certaine
fonction, on a :
∇f (X) = [ 2x , 6y]
ξ(ρ) = X − ρ∇f (X)0 = [(1 − 2ρ)x , (1 − 6ρ)y]0
25
Pour l'obtention du paramètre ρ, considérons la fonction g(ρ) qu'on doit mini-
miser suivant ρ :
g(ρ) = f (ξ(ρ))
= (1 − 2ρ)2 x2 + (1 − 6ρ)2 y 2 ,
g 0 (ρ) = −4(1 − 2ρ)x2 − 36(1 − 6ρ)y 2
la paramètre ρ qui minimise la fonction g(ρ) est celui qui satisfait g (ρ) = 0,
0
soit :
(2.6)
2 2
x + 9y
ρ= 2 2
2x + 54y
L'équation itérative de résolution de ce problème est donc :
X = [x , y] = [3 , 5] ,
0 0
Répéter
1. ∆X ← −[ 2x , 6y] . 0
2. ρ = x2 +9y 2
3. X ← X + ρ∆X.
2x2 +54y 2
Arrêter lorsque k∆Xk ≤ 10 . 2 −3
Résolution avec un pas itératif Lorsqu'on choisis un pas itératif alors, la

2
deuxième étape dans l'algorithme est remplacée par la boucle suivante :

soit α = 0.25 , β = 0.5 ρ = 1 alors
pour une direction donnée ∆X = −[2X(1) , 6X(2)] , 0
faire :
Y = X + ρ∆X,
f (Y) = Y(1)2 + 3Y(2)2 ,
∇f (X) = [2X(1) , 6X(2)],
si f (Y) < f (X) + αρ∇f (X)∆X

n
sinon
ρ = βρ
n
Exercice 10. 10 pts.
Soit la fonction réelle à deux variables :
f (x, y) = x(2 + x) + y 2 + 4
26
f(x,y)=x2+3y2
20
15
10
z
0
2
2
1 1
0 0
−1 −1
−2 −2
y x
Figure 2.1 Allure de la fonction f (x, y) = x2 + 3y2
f(x,y)=x2+3y2
5
0
y
−1
−2
−3
−4
−5
−5 −4 −3 −2 −1 0 1 2 3 4 5
x
Figure 2.2 vue de haut de la fonction f (x, y) = x2 + 3y2
27
1. Calculer le Jacobien,
2. Calculer le Hessien,
3. Déterminer l'équation caractéristique du Hessien,
4. Donner les valeurs propres de cette matrice,
5. Cette matrice est elle dénie positive, pourquoi?
6. Calculer le déterminant en utilisant les valeurs propres.
7. Trouver analytiquement l'optimum de cette fonction, quelle est sa nature?
8. Utiliser la méthode du gradient pour déterminer cet extremum.
9. Calculer le pas optimale.
10. Donner l'algorithme correspondant à cette fonction pour le calcul du pas de façon
itérative.
2.7 Méthode de Newton
2.7.1 Principe
La méthode de Newton fait partie des méthodes de descente. Cette technique
cherche à minimiser le développement en série de Fourier du second ordre de la fonction
f (X) ∈ C suivant la quantité ∆X :
2
1
f (X + ∆X) ≈ f (X) + ∇f (X)∆X + ∆X0 Hf (X)∆X
2!
le ∆X qui minimise la partie droite est comme suit :
∆X = −Hf (X)−1 ∇f (X)0
pour la convergence cette méthode on calcule la quantité positive ∇f (X) Hf (X)
1 0 −1
∇f (X)
et on vérie qu'elle est inférieur ou égale à une certaine précision.
2
2.7.2 Algorithme
connaissant la valeur initiale X , et la précision
Répéter
0
1. ∆X ← −Hf (X) ∇f (X) ,

−1 0
2. on arrêter si ∇f (X) Hf (X) ∇f (X) ≤ .

1 0 −1
3. Choisir le pas ρ (s'il est xe on ignore cette étape).

2
4. Mettre à jours X ← X + ρ∆X.

28
2.7.3 Exemple
Reprenant l'exemple de la section précédente, soit une fonction cout f (X) quadra-
tique en < :
2
f (X) = x2 + 3y 2 ,
avec X = [x, y]0.
Donner la forme quadratique correspondante, puis déterminer le minimum par la
méthode de Newton.
on a :
∇f (X)= [2x, 6y]
1

2 0 −1 2 0
Hf = −→ Hf
=
0 6 0 1
6
x
∆X = −Hf −1 ∇f (X) = −
y
1

1 0 −1 1

2 0 2x
2 ∇f (X) Hf (X) ∇f (X) = 2 2x 6y 0 1
6y
6
2.8 La méthode Quasi-Newton

Problème des matrices mal conditionnées
Soit les matrices A et B :

1.2644 1.8426 7725.7 −3533.8
A= −→ A−1 =
2.7640 4.0284 −5300.8 2424.9
B=

2645
1. 1.8426

−→ B −1
=

4358.5 −1993.6

2.7640 4.0284 −2990.4 1368.1

Nous remarquons que B ne dière de A que sur l'élément de position (1,1) et cette
diérence est de l'ordre de 10 .−4
Si on a les deux problèmes AX = [1 1] et BX = [1 1] , cela donne respectivement

0 0
les solutions suivantes :X = [4191.8 − 2.8759] et X = [2364.8 − 1622.3] .

0 0
On remarque que pour une petit erreur de 10 la solution varie énormément. La

−4
cause principale de cette diérence peut être expliqué par rapport aux valeurs propres
correspondantes des deux matrices A et B qui sont [0.0001 5.2927] et [0.0002 5.2927] ,0 0
respectivement.
On peut dire qu'il y a un certain déséquilibre entre les valeurs propres de ces ma-
trices. On dit qu'on a des matrices mal conditionnées.
29
2.8.1 Introduction
La méthode de Newton requière l'inversion du Hessien. L'inversion des matrices est
une opération qui est souvent lourde et peut être la cause d'une instabilité numérique
si la matrice est mal conditionnée. Dans ces conditions, on applique la méthode Quasi-
Newton.
2.8.2 Principe
Le principe de cette méthode est de remplacer la matrice inverse du Hessien Hf (X ) −1
par une matrice symétrique et semi-dénie positive qu'on appel Qf (X ) = Q . Le

k
Hessien peut être approximé par :

k k
Hf (Xk+1 ) (Xk+1 − Xk ) = ∇f (Xk+1 ) − ∇f (Xk )

Si on multiplie cette équation par l'inverse du Hessien, on s'aperçois que la matrice
Q k+1doit satisfaire la condition suivante :
Qk+1 (∇f (Xk+1 ) − ∇f (Xk )) = Xk+1 − Xk
De cette façon, on a éviter le passage par l'inversion d'une matrice. mais on a recours
à la résolution d'un système d'équations linéaires.
Remarques Cette technique est très utilisée dans beaucoup de problèmes, cependant,
elle nécessite un nombre d'itérations très important si le problème est mâle conditionné
ou si une mauvaise estimée initiale du Hessien est utilisée.
La première méthode quasi-Newton est appelée DFP, elle a été découverte en 1959
par Davidson, ensuite Fletcher et Powell ont exploité ces propriétés durant la décen-
nie suivante. Cette méthode exploite la variation du gradient entre deux itérations.
L'une des formes récursives les plus utilisées est celle nommée BFGS (Broyden, Flet-
cher, Goldfarb et Shanno) découverte en 1970. Dans cette méthode on ne cherche pas
à résoudre un système d'équations linéaires mais on utilise des formules algébriques
(multiplication de vecteurs et de matrices). alors on à :
0
Qk+1 = (I − ρk dXk Yk0 ) Qk (I − ρk dXk Yk0 ) + dXk ρk dX0k
dXk = Xk+1 − Xk
Yk = ∇f (Xk+1 ) − ∇f (Xk )
Lorsqu'on traite un problème de grande dimension, il n'est pas possible de sauve-

garder toutes les données à cet eet, il existe une version limitée en espace de cette
méthode dont le nom est L-BFGS (Limited-memory BFGS).
30
2.9 Méthodes du gradient conjugué
L'inconvénient de la méthode du gradient, c'est quelle eectue, souvent, beaucoup de
zigzags avant d'atteindre la solution souhaité. An d'éliminer ce problème, la méthode
du gradient conjugué, cherche une nouvelle direction à chaque itération.
2.9.1 Principe
A l'itération k, on cherche l'inverse du gradient et on lui ajoute une combinaison
linéaire des anciens vecteurs de direction, an d'obtenir un nouveau vecteur conjugué
de direction.
Figure 2.3 Problème de rapidité de convergence de la méthode du gradient
2.9.2 Problème introductif

Question : Comment résoudre l'équation à une seule variable ax − b = 0, en
utilisant les techniques de descente?
Indication La réponse passe par l'utilisation de l'équation ax − bx − c = 0
1 2
Réponse : Cette équation peut être vue comme étant un problème de minimi-
2
sation de la forme quadratique ax − bx − c = 0. Eectivement, la dérivée de

1 2
cette équation donne notre équation ax − b = 0.

2
2.9.3 Dénition
Deux vecteurs U et V dans < sont conjugués par rapport à une forme bilinéaire
n
de matrice symétrique dénie positive Q (on dit aussi qu'ils sont Q-orthogonaux), si :
U0 QV = 0
31
Remarques
1. Pour Q = I on retrouve la dénition classique de l'orthogonalité.
2. Un ensemble nie de vecteurs {U } est dit Q-Orthogonal si U QU
k
= 0 ∀i 6= j .
Ces vecteurs sont en plus linéairement indépendants.
i i=1 i j
2.9.4 Résolution d'un système d'équations linéaire

La résolution d'un système d'équation linéaire de la forme QX = B peut être vue
comme un problème d'optimisation (recherche du minimum) d'une fonction quadra-
tique de la forme :
min 2 X QX − B X

1 T T
On note que la solution optimale de ce problème d'optimisation n'est autre que la

solution du système d'équations linéaire.
Chaque solution peut être mis sous la forme d'une combinaison linéaire d'un en-
semble de vecteurs Q-orthogonal {U } , alors :n
i i=1
X ∗ = α1 U1 + α1 U1 + ... + αn Un
pour déterminer le coecient α , on multiplie à gauche par la quantité U Q. Cela nous

T
donne :
i i
T ∗ T
U QX i U B i
αi = =
UiT QUi UiT QUi
Cela montre que la solution X peut être obtenue par :
∗
n
∗
X UiT B
X = T QU i
U
i=1
Ui i
Suivant cette expression, on peut dire que la solution X peut être considérer comme
∗
le résultat d'un processus itératif de n étapes où à chaque étape on ajoute un terme

αU.
i i
2.9.5 Théorème des directions conjuguées

Soit l'ensemble {U } Q-orthogonale. Pour un vecteur X quelconque, la séquence
n−1
{X } générée suivant l'expression :

i i=0 0
i
Xk+1 = Xk + αk Uk
où gkT Uk
αk = −
UkT QUk
32
et
gk = QXk − B
converge vers la solution unique X de QX = B après n itérations (c-à-d X
∗
n = X∗ ).
2.9.6 Algorithme
1. Pour X donné, on prend U = −g = B − QX
0 0 0 0
2. α = −
k
gkT Uk
UkT QUk
3. X = X + α U
k+1 k k k
4. g = QX − B
k+1 k+1
5. β =
k
T
gk+1 QUk
UkT QUk
6. U = −g + β U
k+1 k+1 k k
La direction à l'itération k représente une combinaison linéaire des anciennes direc-

tions de descente.
2.10 Solutions des exercices
Solution Ex. 8.
1. La hauteur est donnée par la variable h. suivant la gure 2.4.
Figure 2.4 Croquis de la boite
33
2. Le volume de la boite est donné par la relation :
V =a×b×h
a = L − 2h
b = H − 2h
V (h) = (L − 2h)(H − 2h)h
V (h) = 4h3 − 2(L + H)h2 + LHh
3. La dérivation de V (h) donne :

dV (h)
= 12h2 − 4(L + H)h + LH
dh
Le maximum de cette fonction vérie la solution de l'équation = 0. dV (h)
Les solutions de cette équation sont h = 40.4mm et h = 128.58mm. Suivant le

dh
problème posé, la hauteur h ne peut pas être plus grande que min(H, L).
1 2
1
Les dimensions de la boites sont alors :

2
La hauteur h = 40.4 mm.

La longueur a = H − 2h = 216.2 mm.
La largeur b = L − 2h = 129.2 mm.
Le volume maximale correspondant est alors V = 1.1285 × 10 mm . 6 3
Sachant quen 1L = 1000cm le volume en litre vaut V = 1.128 L

3
Programme Matlab
La gure 2.5, présente le tracé de la fonction V (h) pour h allant de 0 à min(H, L).
1
Cette gure est le résultats du programme Matlab . . 2
L=210;
H=297;
1
a=min(H,L) /2;
2
h=0:a ;
4
V=4∗h.^3 − 2 ∗ (L+H) ∗h.^2+L∗H∗h;

5
figure , hold on
6
plot (h,V)
7
xlabel ( 'h(mm) ' )

8
ylabel ( 'V(mm^3) ' )

9
t i t l e ( ' Variation du volume en fonction de la auteur ' )

10
[V_max, i_max]=max(V) ;
11
h_max=h(i_max) ;
12
13
34
Figure 2.5 Volume en fonction de la hauteur
plot (h_max,V_max, ' ∗ r ' )
line ([h_max h_max] ,[0 V_max] , ' LineStyle ' , '−− ' , ' Color ' , ' r ' )
14
line ([0 h_max] ,[V_max V_max] , ' LineStyle ' , '−− ' , ' Color ' , ' r ' )
15
Vp=12∗h.^2 − 4 ∗ (L+H) ∗h+L∗H;

16
h_zero=find (abs(Vp)<1)
17
Vp_max= Vp(i_max) ;
18
subplot (2 ,1 ,2) , hold on , plot (h, Vp)

19
xlabel ( 'h(mm) ' ) , ylabel ( 'V' ' ' ) ,

20
t i t l e ( ' Variation de la derivee en fonction de la hauteur ' )

21
22
Solution Ex. 9.
1. l'Aire du triangle rectangle est égal à S(x, y) = ( AB + x) × y. Les coordonnées

1
des points A et B sont A(6, 0) et B(−6, 0) et suivant la fonction on obtient la

2
surface : 2 2 4
S = (− x2 + 8) × (6 + x) = − x3 − x2 + 8x + 48
9 9 3
La dérivé de la surface suivant la variable donne :
x
dS(x) 2 8
= − x2 − x + 8
dx 3 3
Le maximum de cette fonction est atteint pour x = 2. Les deux gures 2.6 et 2.7,
sont les résultats du programme Matlab ci-dessus. Suivant l'allure de la dérivée
gure 2.7, il est claire que le maximum est atteint au voisinage du point dont
l'abscisse est 2.
35
Figure 2.6 Dessin du triangle rectangle
figure , hold on
x= − 6:0.01:6;
1
y=−2∗x.^2/9+8;
2
plot (x ,y , 'k ' ) ;

3
xlabel ( 'x ' )

4
ylabel ( 'y ' )

5
t i t l e ( 'y=−2∗x.^2/9+8 ' )
6
x1=4;
8
y1=−2∗x1^2/9+8;
9
plot ([ x1 , x1 ] ,[0 y1 ] , 'b ' )

10
plot ([ − 6 x1 ] ,[0 y1 ] , 'b ' )

11
12
x2=4;
13
y2=−2∗x2^2/9+8;
14
f i l l ([ − 6 x2 x2 − 6] ,[0 0 y2 0] , 'b ' )

15
16
figure , hold on
17
S=−2∗x.^3/9 −4∗ x.^2/3+8 ∗ x+48;

18
Sp=−2∗x.^2/3 −8∗ x/3+8;

19
plot (x ,S, 'k ' )

20
plot (x ,Sp , ' r ' )

21
22
36
Figure 2.7 Allure de la surface ainsi que sa dérivée suivant x.
legend ( 'S(x) ' , 'S ' ' (x) ' )
grid on
23
xlabel ( 'x ' )

24
ylabel ( 'y ' )

25
26
Solution Ex. 10.

Soit la fonction réelle à deux variables :
f (x, y) = x2 + 2x + y 2 + 4
1. Calcule du Jacobien,  
∂f  
∂x 2x + 2
Jf = ∇f 0 =  =
   
∂f
∂y 2y
2. Le Hessien 2 0

Hf =
0 2
3. L'équation caractéristique du Hessien est donnée par :
det(H − λI) = 0 → (2 − λ)2 = 0
4. Les valeurs propres de la matrice H sont les solutions de l'équation caractéris-
tique de cette matrice, alors :
f
(2 − λ)2 = 0 → λ1 = λ2 = 2
37
5. La matrice est dénie positive, car les valeurs propres sont positives.
6. Le déterminant est donné par le produit des valeurs propres :
det(Hf ) = λ1 × λ2 = 4
7. L'optimum de cette fonction est obtenu analytiquement lorsqu'on résous le sys-

tème d'équations suivant :
 
∂f    
∂x 2x + 2 0 (1)
0
Jf = ∇f =  = =
   
∂f
∂y 2y 0 (2)
soit :
x = 1 et y = 0
l'optimum est f (−1, 0) = 3, et présente un minimum car on peut facilement
démonter l'une des propriétés suivantes :
det(H ) > 0 et H > 0
Toutes les valeurs propres sont positives
f 11
La matrice est dénie positive

8. Par la suite on déterminera la méthode de résolution à pas xe uniquement. Dans
ce cas on recherche un pas ρ optimale qui minimise une certaine fonction, on a :
∇f (X) = [ 2x + 2 , 2y]
 
x − 2ρ(x + 1)
ξ(ρ) = X − ρ∇f (X)0 =  
y − 2ρy
Pour l'obtention du paramètre ρ, considérons la fonction g(ρ) qu'on doit minimiser

suivant ρ :
g(ρ) = f (ξ(ρ))
= [x − 2ρ(x + 1)]2 + 2[x − 2ρ(x + 1)] + [y − 2ρy]2 + 4 (2.7)
g 0 (ρ) = −4(x + 1)[x − 2ρ(x + 1)] − 4(x + 1) − 4y[y − 2ρy]
la paramètre ρ qui minimise la fonction g(ρ) est celui qui satisfait g (ρ) = 0, soit : 0
(2.8)
2 2
1 x + 2x + y + 1 1
ρ= × = 2 2
2 (x + 1) + y 2
Ci-dessous, l'algorithme pour résoudre numériquement ce problème avec une pré-

cision de = 10 et en prenant comme point initial X = [3 , 5] :
−3
0
0
38
Initialisation
X = [x , y]0 = [3 , 5]0
ρ = 12
Répéter
(a) ∆X ← −[ 2x + 2 , 2y] . 0
(b) X ← X + ρ∆X.
(c) Arrêter lorsque k∆Xk = (2x + 2)
2
2
2
+ 4y 2 ≤ 10−3 .
39

CoursOptimisation CH2 (1371)

Transféré par

Droits d'auteur :

Formats disponibles

CoursOptimisation CH2 (1371)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CoursOptimisation CH2 (1371)

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2

Optimisation sans contraintes : méthodes

∀X ∈ <n , f (X∗ ) ≤ f (X)

2.2 Théorèmes d'existence de l'optimum

 La relation ∇f (X ) = 0 est aussi appelée équation d'

L'égalité précédente engendre un ensemble de n équations qui peuvent être, dans

2.3 Le développement en série de Taylor

Cette dernière expression est appelée développement en série de d'ordre m au

Le développement en série de Taylor du second ordre est :

2.4 Problème d'optimisation à une seule variable

7. Réécrire la solution suivant les variables initiales.

Exercice 8. Boite à volume maximal

P (x; y) se déplace sur la parabole entre A et B . Soit A la projection du point P sur

2.5 Les méthodes de descente

jusqu'à l'obtention du point minimale.

Le point X peut être mis sous la forme suivante :

. Ainsi, à la première itération on doit trouver ρ et ∆X qui satisfont la

condition f (X ) < f (X ). Et en générale, à la k itération, on a :

Remarque Le pas de descente ρ est déterminé soit analytiquement en minimisant la

itérative correspondante à la méthode du gradient est la suivante :

2. Choisir le pas ρ (s'il est xe on ignore cette étape).

 Arrêter lorsque k∆Xk ≤ 10 . 2 −3

 Résolution avec un pas itératif Lorsqu'on choisis un pas itératif alors, la

deuxième étape dans l'algorithme est remplacée par la boucle suivante :

 si f (Y) < f (X) + αρ∇f (X)∆X

Figure 2.1  Allure de la fonction f (x, y) = x2 + 3y2

Figure 2.2  vue de haut de la fonction f (x, y) = x2 + 3y2

1. ∆X ← −Hf (X) ∇f (X) ,

2. on arrêter si ∇f (X) Hf (X) ∇f (X) ≤ .

3. Choisir le pas ρ (s'il est xe on ignore cette étape).

4. Mettre à jours X ← X + ρ∆X.

2.8 La méthode Quasi-Newton

2.7640 4.0284 −2990.4 1368.1

Si on a les deux problèmes AX = [1 1] et BX = [1 1] , cela donne respectivement

les solutions suivantes :X = [4191.8 − 2.8759] et X = [2364.8 − 1622.3] .

On remarque que pour une petit erreur de 10 la solution varie énormément. La

par une matrice symétrique et semi-dénie positive qu'on appel Qf (X ) = Q . Le

Hessien peut être approximé par :

Hf (Xk+1 ) (Xk+1 − Xk ) = ∇f (Xk+1 ) − ∇f (Xk )

Lorsqu'on traite un problème de grande dimension, il n'est pas possible de sauve-

Figure 2.3  Problème de rapidité de convergence de la méthode du gradient

2.9.2 Problème introductif

sation de la forme quadratique ax − bx − c = 0. Eectivement, la dérivée de

cette équation donne notre équation ax − b = 0.

2.9.4 Résolution d'un système d'équations linéaire

On note que la solution optimale de ce problème d'optimisation n'est autre que la

pour déterminer le coecient α , on multiplie à gauche par la quantité U Q. Cela nous

le résultat d'un processus itératif de n étapes où à chaque étape on ajoute un terme

2.9.5 Théorème des directions conjuguées

{X } générée suivant l'expression :

La direction à l'itération k représente une combinaison linéaire des anciennes direc-

1. La hauteur est donnée par la variable h. suivant la gure 2.4.

Figure 2.4  Croquis de la boite

3. La dérivation de V (h) donne :

Les solutions de cette équation sont h = 40.4mm et h = 128.58mm. Suivant le

Les dimensions de la boites sont alors :

 La hauteur h = 40.4 mm.

Sachant quen 1L = 1000cm le volume en litre vaut V = 1.128 L

Cette gure est le résultats du programme Matlab . . 2

La relation ∇f (X ) = 0 est aussi appelée équation d'

2. Choisir le pas ρ (s'il est xe on ignore cette étape).

Arrêter lorsque k∆Xk ≤ 10 . 2 −3

Résolution avec un pas itératif Lorsqu'on choisis un pas itératif alors, la

si f (Y) < f (X) + αρ∇f (X)∆X

Figure 2.1 Allure de la fonction f (x, y) = x2 + 3y2

Figure 2.2 vue de haut de la fonction f (x, y) = x2 + 3y2

2. on arrêter si ∇f (X) Hf (X) ∇f (X) ≤ .

3. Choisir le pas ρ (s'il est xe on ignore cette étape).

par une matrice symétrique et semi-dénie positive qu'on appel Qf (X ) = Q . Le

Figure 2.3 Problème de rapidité de convergence de la méthode du gradient

sation de la forme quadratique ax − bx − c = 0. Eectivement, la dérivée de

pour déterminer le coecient α , on multiplie à gauche par la quantité U Q. Cela nous

1. La hauteur est donnée par la variable h. suivant la gure 2.4.

Figure 2.4 Croquis de la boite

La hauteur h = 40.4 mm.

Cette gure est le résultats du programme Matlab . . 2

La matrice est dénie positive