Ch1 Outil Optim ECC Sept22
Ch1 Outil Optim ECC Sept22
Ch1 Outil Optim ECC Sept22
convexe
ECC
Abdelilah Hakim
19/09/2022
Domaines d’applications
Optimisation des ressources : Gains, coùt dans l’industrie
x∗ ∈ K
(
(P) J (x ∗ ) = inf J(x )
x ∈K
Est-ce que inf J(x ) existe ? c.à.d. est-ce que J est bornée
x ∈K
inférieurement ?
Est-ce que l’infimum est atteint dans K ? c.à.d. est-ce qu’il existe
x ∗ ∈ K vérifiant J (x ∗ ) = min J(x )?
Est-ce que l’infimum est atteint dans K ? c.à.d. est-ce qu’il existe
x ∗ ∈ K vérifiant J (x + ) = minx ∈K J(x )?
Est-ce que x ∗ est unique ? Sinon, quelle est la taille de l’ensemble des
solutions ?
la classe des problemes d’optimisation continue est bien trop large pour
espérer obtenir une méthode de résolution générale efficiente. On va
restreindre cette classe de problèmes à des sous-classes,
K = {(x1 , x2 , . . . , xn ) ∈ U ⊂ Rn | φi (x1 , . . . , xn ) ⩽ 0, i = 1, . . . , p ,
| {z }
contraintes inégalitaires
ψj (x1 , . . . , xn ) = 0, j = 1, . . . , q }
| {z }
contraintes égalitaires
Programmation linéaire :
lorsque J, φ1 , . . . , φp , ψ1 , . . . , ψq sont des applications affines et,
U = Rn .
Programmation quadratique :
lorsque J est une application quadratique, φ1 , . . . , . . . φp , ψ1 , . . . , ψq
sont, des applications affines et, U = Rn .
Programmation convexe :
problème de minimisaticn lorscue J et φ1 , . . . , φp sont des
applications convexes, ψ1 , . . . , ψq sont des applications affines, et. U
est convexe.
b un vecteur de RN .
Résolution du problème :
inf (Ax , x )
x ∈Rn ,∥x ∥=1
Problèmes d’Entropie
On représente une image noir et blanc par une fonction définie sur un
domaine Ω du plan dont les valeurs indiquent un niveau de gris. Une
image acquise, par exemple par un appareil photographique, f (x ) est
entachée de "bruit" qui correspond à des défauts du capteur
Reduction du bruit : Technique de lissage et régularisation
Préservation des contours
Minimisation de la variation totale
La régularisation u(x ) de l’image originale f (x ) :
Z Z
2
inf J(u) = |∇u|dx + ℓ |f − u| dx ,
u(x ):Ω→R Ω Ω
Apprentissagemachine
On dispose d’un très grand nombre de données (xi )1≤i≤n (des images,
du texte, des mesures expérimentales, etc.)
Données caractérisées par des vecteurs xi ∈ Rd
Un label yi , très souvent un booléen (ici, −1 ou +1 ), qui donne un
type à la donnée xi
On introduit une fonction affine, dite de prédiction,
hw ,τ (x ) = w · x − τ
Calcul des minima d’une fonction dérivable J(x ) définie sur l’intervalle
[a, b] ⊂ R à valeurs réelles
Preuve
Si x0 ∈ [a, b[, on peut choisir x = x0 + h avec h > 0 petit et écrire
J(x ) ≥ J (x0 ), d’où J (x0 ) + hJ ′ (x0 ) + o(h) ≥ J (x0 ), ce qui donne
J ′ (x0 ) ≥ 0 en divisant par h et en faisant tendre h vers 0 .
Conclusion
La stratégie d’obtention des conditions de minimalité tient compte
des contraintes x ∈ [a, b]
f (x + h) = f (x ) + Df (x )h + o(∥h∥). (4)
f (x + h) − f (x ) − Df (x )h
lim = 0.
h→0 ∥h∥
alors
∥f (b) − f (a)∥ ⩽ g(b) − g(a).
Corollaire :
Soit [a, b] ⊂ R, g : [a, b] → R de dérivé positive en tout point. Alors g est
croissante.
Définition
Soit f une application de X × Y vers Z . On appelle dérivées partielles de f
en (x0 , y0 ), et on note ∂x f (x0 , y0 ) et ∂y f (x0 , y0 ), les dérivées, si elles
existent, des applications x → f (x , y0 ) en x0 et y → f (x0 , y ) en y0 .
Définition
soit f une application différentiable X → Y . Si l’application x → Df (x )
est dérivable pour un certain x ∈ X , on appelle dérivée seconde et on la
note D 2 f (x ). Par définition de la dérivée, on a donc
Df (x + h) = Df (x ) + D 2 f (x )h + o(∥h}
Lemme
Sous les hypothèses du lemme précédent on a
1
f (x0 + h) = f (x0 ) + Df (x0 ) h + D 2 f (x0 ) (h, h) + o ∥h∥2
2
∂v f (a) = da f (v ) = Df (a)v .
∂f1 ∂f1 ∂f1
∂x (a) ∂x2 (a) ... ∂xn (a)
∂f21 ∂f2 ∂f2
∂x1 (a) ∂x2 (a) ... ∂xn (a)
Df (a) = .. .. ..
. . .
∂fm ∂fm ∂fm
∂x1 (a) ∂x2 (a) . . . ∂xn (a)
∂f ∂f
Si m = 1, f : Ω → R , on a :Df (a) = ∂x1 (a) ··· ∂xn (a) .
Remarque
la réciproque est fausse, il existe des fonctions pour lesquelles toutes les
dérivées directionnelles existent et qui ne sont pas différentiables.
et
−∇f (a)
min ∂v f (a) = −∥∇f (a)∥2 et est atteint en v =
∥v ∥2 =1 ∥∇f (a)∥2
+∇f (a)
max ∂v f (a) = +∥∇f (a)∥2 et est atteint en v = .
∥v ∥2 =1 ∥∇f (a)∥2
da h = df (a) g ◦ da f
∂1 h1 (a) . . . ∂n h1 (a)
.. ..
=
. .
∂1 hp (a) . . . ∂n hp (a)
∂1 g1 (f (a)) . . . ∂m g1 (f (a)) ∂1 f1 (a) . . . ∂n f1 (a)
.. .. .. ..
. . . .
∂1 gp (f (a)) . . . ∂m gp (f (a)) ∂1 fm (a) . . . ∂n fm (a)
i=1
Proposition
Soit Ω un ouvert de Rn , f : Ω → R et a ∈ Ω et on suppose que
f ∈ C 2 (Ω, R). La différentielle d’ordre 2, da2 f est une forme bilinéaire
symétrique, dont la matrice s’écrit
∂11 f (a) ∂12 f (a) . . . ∂1nf f (a)
!
∂21 f (a) ∂22 f (a) . . . ∂2nf f (a)
∂2f
Hf (a) = .. .. .. = (a) .
. . .
∂xi ∂xj 1≤,i,n≤n
∂n1 f (a) ∂n2 f (a) . . . ∂nna f (a)
1
f (a + h) = f (a) + da f (h) + da2 f (h, h) + o ∥h∥2
2
1
= f (a) + (∇f (a))t h + ht Hf (a)h + o ∥h∥2 (h ∈ Rn ) .
2
Cas particulier : f : R2 → R, a = (a1 , a2 ) et h = (h1 , h2 ) :
∂f ∂f
f (a1 + h1 , a2 + h2 ) = f (a1 , a2 ) + f (a)h1 + f (a)h2
∂x1 ∂x2
1 ∂2f 2 1 ∂2f
+ (a)h 1 + (a)h22
2 ∂x1 2 2 ∂x2 2
∂2f
+ (a)h1 h2 + o h12 + h22 .
∂x1 ∂x2
Définition
Soit X un espace de Hilbert et f : X → R. Si f est G-dérivable en un
point x , on appelle gradient de f en x , et on note ∇f (x ), l’unique élément
de X telque
f (v ) = f (u) + f ′ (w ) · (v − u)
1
f (v ) = f (u) + f ′ (u) · (v − u) + f ′′ (u + θ(v − u)) · (v − u) · (v − u)
2
(FSTG) Outils Mathématiques en Optimisation differentielle convexe
19/09/2022 49 / 71
Formules de Taylor
Les formes linéaires f (u) = (c, u), où c est un vecteur donné dans X .
Alors f ′ (u) = ∇f (u) = c
Les fonctions f (u) = a(u, u), ou a est une forme bilinéaire continue
sur X . Alors f ′ (u).v = a(u, v ) + a(v , u), et si a est symétrique
f ′ (u) · v = 2a(u, v ).
Définition(Ensemble convexe
On dit que l’ensemble K ⊂ V est convexe si
Autrement dit, K est convexe s’il contient tout "segment" reliant deux
quelconques de ses points.
Exemples
Un intervalle [a, b] est convexe dans R
Une réunion disjointe d’intervalles de R n’est pas convexe.
J(x ) = (b, x ) + β,
αθ(1 − θ)
f (θu + (1 − θ)v ) ≤ θf (u) + (1 − θ)f (v ) − ∥u − v ∥2 .
2
Evidemment, les fonctions fortement convexes sont également strictement
convexes.
Dans la Définition il est possible de ne tester la forte convexité de f que
pour la valeur θ = 12 ,c.a.d si f est une fonction localement bornée sur un
ensemble convexe K et α > 0 tels que, pour tout u, v ∈ K ,
u+v f (u) + f (v ) α
f ≤ − ∥u − v ∥2 .
2 2 8
alors f est fortement ou α-convexe.
∀u, v ∈ V , J ′ (v ) − J ′ (u) · (v − u) ⩾ 0
J ′ (u + θw ) − J ′ (u) · w ⩾ 0
ce qui implique
(J ′ (u + θw ) − J ′ (u)) · w
⩾0
θ
Par définition de la différentiabilité de J ′
J ′′ (u)w + ε(θ)∥w ∥ · w ⩾ 0
J(v ) ≥ γ∥v ∥2 + η ∀v ∈ K .
pour tout v , u ∈ V .
2
Par conséquent,
Z 1
J(v ) − J(u) − J ′ (u), v − u ≤
′
J (u + t(v − u)) − J ′ (u)
∥v −u∥dt,
0
∀u ∈ V , 2a(w , w ) ⩾ α∥w ∥2
∀w ∈ V , (Aw , w ) ⩾ α∥w ∥2
(Aw , w ) ⩾ min di ∥Pw ∥2 = min di ∥w ∥2
1≤i≤n 1≤i≤n