Poly Algebre
Poly Algebre
Poly Algebre
Olivier Torrès
Université de Lille
Objectifs : ce cours a pour but de présenter les concepts et résultats de base en algèbre linéaire en ciblant les
plus utiles pour les applications en économie (représentations multivariées en micro- et macro-économie,
dynamiques linéaires, support pour l’optimisation de fonctions de plusieurs variables) et en économétrie
(modèle linéaire, méthodes de projection, maximisation de la vraisemblance). L’accent est mis sur ℝ𝑛 , ainsi
que sur le calcul matriciel.
2 Matrices
2.1 Matrice en tant que représentation d’un vecteur
2.1.1 Matrice des coordonnées d’un vecteur dans une base
2.1.2 Cas particulier important de 𝐸 = ℝ𝑛
2.2 Matrices particulières
2.3 Opérations. Manipulation par blocs
2.3.1 Addition de matrices
2.3.2 Multiplication de matrices
2.3.3 Multiplication d’une matrice par un réel
2.3.4 Transposition d’une matrice
2.3.5 Trace d’une matrice
2.3.6 Propriétés des opérations sur les matrices
2.3.7 Expression d’une matrice par blocs
2.4 Noyau et image d’une matrice
2.5 Inverse, déterminant, rang
2.5.1 Inverse
2.5.2 Inversion par blocs
2.5.3 Déterminant
2.5.4 Rang
2.6 Diagonalisation des matrices
2.6.1 Matrice diagonalisable
2.6.2 Conditions de diagonalisabilité
2.6.3 Quelques propriétés des matrices diagonalisables
2.6.4 Cas importants
2.6.4.1 Matrices symétriques
2.6.4.2 Matrices (semi) définies positives
2.6.4.3 Matrices idempotentes
3 Projections
3.1 Distance entre vecteurs
3.2 Orthogonalité
3.3 Projection orthogonale sur un sous-espace
2
3.3.1 Introduction et définition
3.3.2 Propriétés de la projection orthogonale
3.4 Propriétés des matrices de projection orthogonale
3.5 La projection orthogonale comme minimisation d’une distance
3
1 Espace vectoriel ℝ𝑛
sec:Rev
1.1 Ensemble ℝ𝑛 . Opérations sur ℝ𝑛
L’ensemble ℝ𝑛 est le produit cartésien de ℝ 𝑛 fois avec lui même. C’est donc l’ensemble de tous les 𝑛-uplets
de nombres réels :
ℝ𝑛 = {(𝑥1 , . . . , 𝑥𝑛 ) | 𝑥𝑖 ∈ ℝ, ∀𝑖 ∈ {1, . . . , 𝑛}}
Démonstration. Exercice
La propriété 1.1 permet de conclure que ℝ𝑛 muni des deux opérations + et · définies ci-dessus est un espace
vectoriel sur ℝ. C’est une propriété très importante de ℝ𝑛 , mais même s’il s’appuie intégralement dessus, ce
cours peut être assimilé sans (trop) la manipuler.
On appelle vecteurs les éléments de ℝ𝑛 ; on parle du vecteur 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ).
On peut faire plusieurs remarques sur la propriété 1.1
1. Ses deux premiers points impliquent qu’on peut manipuler des additions d’éléments de ℝ𝑛 contenant
plus de 2 termes, sans que le résultat de ces additions soit affecté par l’ordre dans lequel on les effectue.
1. Ce sont ici des définitions dans le sens où il n’est pas possible de déduire de quoi que ce soit que 𝑥® + 𝑦® est bien égal à
(𝑥1 + 𝑦1 , . . . , 𝑥𝑛 + 𝑦𝑛 ) et que 𝛼 · 𝑥® est bien égal à (𝛼 × 𝑥1 , . . . , 𝛼 × 𝑥𝑛 )
2. En toute rigueur le “+” de 𝑥® + 𝑦® et celui de 𝑥1 + 𝑦1 ne sont pas les mêmes puisqu’il n’opèrent pas de la même manière et devraient
donc être désignés par des symboles différents.
4
Ainsi pour tout entier 𝑚 ≥ 2,
(· · · ((( 𝑥®1 + 𝑥®2 ) + 𝑥®3 ) + · · · ) + 𝑥®𝑚−1 ) + 𝑥®𝑚 = (· · · ((( 𝑥®𝜎(1) + 𝑥®𝜎(2) ) + 𝑥®𝜎(3) ) + · · · ) + 𝑥®𝜎(𝑚−1) ) + 𝑥®𝜎(𝑚)
pour toute permutation 𝜎 de {1, . . . , 𝑛}. On notera simplement 𝑥®1 + 𝑥®2 + · · · + 𝑥®𝑚 le vecteur obtenu
comme le résultat de n’importe laquelle de ces additions.
2. Le point 3 fait apparaître le vecteur 0®𝑛 comme l’élément neutre pour l’addition de vecteurs. Cet élément
neutre permet aussi de définir la notion d’opposé d’un vecteur : tout vecteur 𝑥® admet un opposé, càd
un 𝑥®′ ∈ ℝ𝑛 tel que 𝑥® + 𝑥®′ = 0®𝑛 . On constate que 𝑥® est également l’opposé de 𝑥®′. On dit que 𝑥® et 𝑥®′ sont
opposés.
3. Le point 4 permet d’introduire une autre opération, qu’on note −, et qu’on définit de la manière suivante
𝑥® − 𝑦® ≔ 𝑥® + (−1) · 𝑦®
Cette opération est définie à partir de la soustraction sur ℝ de la même manière que l’addition de
vecteurs est définie à partir de l’addition de réels : la soustraction de vecteurs consiste à faire la
soustraction composante par composante. Plus précisément
® et 𝑥® − 𝑥® = 0®𝑛 .
4. Si on met ensemble les points 3 et 4, on voit qu’un opposé de 𝑥® est (−1) · 𝑥,
5. En complément du point 4, on peut démontrer que (−𝑥1 , . . . , −𝑥𝑛 ) est l’unique opposé de (𝑥1 , . . . , 𝑥𝑛 )
(voir exercices). Ceci permet de manipuler des équations du type 𝛼1 · 𝑥®1 +· · ·+𝛼𝑚 · 𝑥®𝑚 = 0®𝑛 en manupulant
les opérations +, − et · sur les éléments de ℝ𝑛 avec des règles semblables à celles s’appliquant aux réels.
En particulier, si on se donne l’équation 𝑥® + 𝑦® = 0®𝑛 , cela signifie que 𝑥® et 𝑦® sont l’unique opposé l’un de
l’autre. L’unicité de l’opposé implique les équivalences suivantes
def:sev Définition 1.1 [Sous-espace vectoriel]. On dit qu’une partie (sous-ensemble) non vide de 𝐸 de ℝ𝑛 est un sous-espace
vectoriel (sev en abrégé) de ℝ𝑛 si pour tous 𝑥® et 𝑦® dans 𝐸 et tout 𝛼 ∈ ℝ, on a
𝑥® + 𝑦® ∈ 𝐸 et 𝛼 · 𝑥® ∈ 𝐸
Exemples :
5
— Soit 𝑢® = (𝑎, 𝑏) ∈ ℝ2 , avec 𝑎𝑏 ≠ 0 ; l’ensemble 𝐸 = {(𝑥, 𝑦) ∈ ℝ2 | ∃𝜆 ∈ ℝ, (𝑥, 𝑦) = 𝜆 · (𝑎, 𝑏)} est un
sous-espace de ℝ2 (c’est une droite du plan).
— De manière générale, si 𝑢® = (𝑢1 , . . . , 𝑢𝑛 ) ∈ ℝ𝑛 , 𝑢® ≠ 0®𝑛 , alors {𝑥® ∈ ℝ𝑛 | ∃𝜆 ∈ ℝ, 𝑥® = 𝜆· 𝑢}
® est un sous-espace
de ℝ𝑛 ; un tel espace est appelé droite vectorielle de ℝ𝑛 .
Í
— 𝐸 ≔ {(𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ | 𝑥1 = · · · = 𝑥𝑛 } et 𝐸 ′ ≔ {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑛𝑖=1 𝑥𝑖 = 0} sont des sous-espaces
Í
vectoriels de ℝ𝑛 , mais 𝐸 ′′ ≔ {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑛𝑖=1 𝑥𝑖 = 1} ou 𝐸 ′′′ ≔ {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑥𝑖 ≥ 0, ∀𝑖 ∈
{1, . . . , 𝑛}} n’en sont pas.
Í𝑛
— Soient 𝛼1 . . . , 𝛼𝑛 des réels non tous nuls ; {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑖=1 𝛼𝑖 𝑥𝑖 = 0} est un sous-espace de ℝ𝑛 ;
un tel espace est appelé hyperplan de ℝ𝑛 .
On remarque que tout sous-espace vectoriel 𝐸 de ℝ𝑛 doit contenir 0®𝑛 , puisque pour 𝑥® ∈ 𝐸, on a 0®𝑛 = 0 · 𝑥,
® qui
appartient à 𝐸 d’après la définition. Autrement dit, toute partie non vide de ℝ𝑛 ne contenant pas 0®𝑛 ne peut
être un sev de ℝ𝑛 . C’est ainsi qu’on peut rapidement dire que 𝐸 ′′ dans l’exemple ci-dessus n’est pas un sev
de ℝ𝑛 puisque 0®𝑛 ∉ 𝐸 ′′.
𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚
pour des réels 𝛼1 , . . . , 𝛼𝑚 . Ces réels sont appelés coefficients de la combinaison linéaire 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚
Le vecteur 0®𝑛 est une combinaison linéaire de n’importe quels vecteurs 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑛 , et ceci quel que soit
𝑚 ≥ 1.
Dans le cas où 𝑚 = 1, un vecteur 𝑦® ≠ 0®𝑛 de ℝ𝑛 est une combinaison linéaire de 𝑥® ssi il s’écrit 𝑦® = 𝛼 · 𝑥® pour un
réel 𝛼. On remarque que dans ce cas, 𝑥® = 𝛼1 · 𝑦® et donc 𝑥® est également une combinaison linéaire de 𝑦®. Deux
vecteurs liés de cette manière sont dits colinéaires.
Si 𝑦® est une combinaison linéaire de 𝑥®1 , . . . , 𝑥®𝑚 , càd si
𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚
pour des réels 𝛼1 , . . . , 𝛼𝑚 , et si 𝑢®1 , . . . , 𝑢®𝑝 sont des vecteurs quelconques de ℝ𝑛 , alors 𝑦® est également une CL
de 𝑥®1 , . . . , 𝑥®𝑚 , 𝑢®1 , . . . , 𝑢®𝑝 . En effet, on a
6
expéditive : “une CL de CLs est une CL”. 3 Montrons qu’il est vrai. Si pour tout 𝑗 ∈ {1, . . . , 𝑝}, on a
pour des réels 𝛼1𝑗 , . . . , 𝛼𝑚𝑗 , alors pour n’importe quels réels 𝛽1 , . . . , 𝛽𝑝 , en utilisant la propriété 1.1, on a
𝛽1 · 𝑦®1 + · · · + 𝛽𝑝 · 𝑦®𝑝 = 𝛽1 · (𝛼11 · 𝑥®1 + · · · + 𝛼𝑚1 · 𝑥®𝑚 ) + · · · + 𝛽𝑝 · (𝛼1𝑝 · 𝑥®1 + · · · + 𝛼𝑚𝑝 · 𝑥®𝑚 )
= (𝛽1 × 𝛼11 + · · · + 𝛽𝑝 × 𝛼1𝑝 ) · 𝑥®1 + · · · + (𝛽1 × 𝛼𝑚1 + · · · + 𝛽𝑝 × 𝛼𝑚𝑝 ) · 𝑥®𝑚
= 𝛾1 · 𝑥®1 + · · · + 𝛾𝑚 · 𝑥®𝑚 (1) {eq:cl}
Définition 1.3 [Sous espace engendré par une famille de vecteurs]. Soient 𝑚 éléments 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑛 . Le
sous-espace vectoriel de ℝ𝑛 égal à l’ensemble de toutes les combinaisons linéaires de 𝑥®1 , . . . , 𝑥®𝑚 est appelé sous-espace
engendré par {𝑥®1 , . . . , 𝑥®𝑚 } ; on le note Vect{𝑥®1 , . . . , 𝑥®𝑚 }.
𝑥® ∈ 𝐸 ⇐⇒ ∃𝑥 ∈ ℝ, 𝑥® = (𝑥, 𝑥, . . . , 𝑥) ⇐⇒ ∃𝑥 ∈ ℝ, 𝑥® = 𝑥 · (1, 1, . . . , 1)
Définition 1.4. Soit 𝐸 un sev de ℝ𝑛 . On dit que 𝑚 vecteurs 𝑥®1 , . . . , 𝑥®𝑚 de 𝐸 forment une famille génératrice (FG en
abrégé) de 𝐸 (ou que {𝑥®1 , . . . , 𝑥®𝑚 } est une famille génératrice de 𝐸) si tout vecteur de 𝐸 est une CL de 𝑥®1 , . . . , 𝑥®𝑚 .
7
Ceci s’étend à n’importe quel sous-espace 𝐸 pouvant s’écrire sous la forme 𝐸 = VectF pour une famille F
de vecteurs de 𝐸.
Un autre exemple important est 𝐸 = ℝ𝑛 : la famille {® 𝑒1 , . . . , 𝑒®𝑛 } (où les 𝑒®𝑖 sont ceux définis plus haut) est une
FG de ℝ𝑛 . 4 En effet, tout vecteur 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 peut s’écrire sous la forme
𝑥® = 𝑥1 · 𝑒®1 + · · · + 𝑥𝑛 𝑒®𝑛
Propriété 1.2. Soit F une FG d’un sev 𝐸 de ℝ𝑛 . Si chacun des éléments de F est une CL des éléments d’une famille
F′ de 𝐸, alors F′ est une FG de 𝐸.
Démonstration. On utilise la remarque qui suit la définition 1.2 et qu’on a formulé par “une CL de CLs est
une CL”. Soit 𝑦® ∈ 𝐸. Comme F est une FG de 𝐸, 𝑦® est une CL des éléments de F. Mais chaque élément de F
est une CL des éléments de F′. Donc 𝑦® est une CL de CLs d’éléments de F′ ; et donc 𝑦® est une CL d’éléments
de F′. Ceci étant vrai pour tout 𝑦® ∈ 𝐸, on déduit que F′ est une FG de 𝐸.
On constate que si F′ = {𝑥®1 , . . . , 𝑥®𝑚 } est une FG de 𝐸, alors pour tout élément 𝑦® de 𝐸 on a
𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚
= 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 + 0 · 𝑥®
où 𝑥® est un élément quelconque de 𝐸, distinct des éléments de F. Autrement dit, si F′ est une FG de 𝐸, alors
la famille F obtenue en réunissant les éléments de F′ et des éléments de 𝐸 est une FG de 𝐸. Ceci permet
d’énoncer et montrer la propriété suivante.
pro:fgfg Propriété 1.3. Soit 𝐸 un sev. Une famille F est une FG de 𝐸 ssi elle contient une FG de 𝐸
Démonstration. Si F est une FG de 𝐸, elle se contient elle-même et donc contient une FG de 𝐸. Si F est une
famille de 𝐸 qui contient une famille F′ génératrice de 𝐸, alors F est obtenue en réunissant les éléments de
F′ et les éléments de F qui ne sont pas dans F′. D’après ce qu’on a noté ci-dessus, F est une FG de 𝐸
En revanche, si on enlève des éléments à une FG de 𝐸, elle peut ne plus être génératrice de 𝐸. Par exemple, la
® 0®𝑛 } est une famille génératrice de Vect{𝑥},
famille {𝑥, ® mais la famille {0®𝑛 } n’est est pas une. En général, une
famille obtenue en privant une FG de 𝐸 de certains de ses éléments n’est pas une FG de 𝐸.
8
Cela est notamment le cas si l’un des éléments de F est une CL des autres éléments. En effet, si F est une
FG de 𝐸, alors tout 𝑥® ∈ 𝐸 s’écrit comme une CL des éléments de F. Mais l’un de ces éléments est une CL
des autres, qui forment une famille F′ ⊂ F. Donc d’après la relation (1), 𝑥® ∈ 𝐸 sera également une CL des
éléments de F′.
Par exemple, soit 𝑢® ∈ ℝ𝑛 , 𝑢® ≠ 0®𝑛 et soit 𝐸 = {𝑥® ∈ ℝ𝑛 | ∃𝛼 ∈ ℝ, 𝑥® = 𝛼 · 𝑢}.
® Il est facile de voir que F = {𝑢,
® 𝑣® },
′
avec 𝑣® = 2 · 𝑢® est une famille génératrice de 𝐸, mais que F = {𝑢} ® ⊂ F en est également une.
On est donc naturellement conduit à rechercher de telles relations entre vecteurs d’une famille.
Définition 1.5 [Famille libre, famille liée. Indépendance linéaire]. On dit que des vecteurs forment une famille
libre (FL) si aucun des vecteurs de cette famille ne peut s’exprimer comme CL d’autres vecteurs de la famille. Une
famille est dite liée ssi elle n’est pas libre. On dit que les vecteurs d’une famille libre sont linéairement indépendants.
Des 𝑥®1 , . . . , 𝑥®𝑚 sont liés ssi au moins l’un d’entre peut s’exprimer comme CL des autres. Quitte à changer
la numérotation, on peut toujours supposer que 𝑥®1 , . . . , 𝑥®𝑚 sont liés ssi il existe des réels 𝛽2 , . . . , 𝛽𝑚 tels que
Í
𝑥®1 = 𝑚𝑘=2 𝛽𝑘 · 𝑥 ®𝑘 .
L’indépendance linéaire se caractérise facilement.
pro:libre Propriété 1.4. Soient 𝑚 vecteurs 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑚 . Ces vecteurs sont linéairement indépendants ssi ils vérifient
l’implication suivante
Õ 𝑚
𝛼𝑘 · 𝑥®𝑘 = 0®𝑛 =⇒ 𝛼1 = · · · = 𝛼𝑚 = 0
𝑘=1
Démonstration. Exercice
Remarquons que pour n’importe quels vecteurs 𝑥®1 , . . . , 𝑥®𝑚 , la condition 𝛼1 = · · · = 𝛼𝑚 = 0 implique que
Í𝑚
®𝑘 = 0®𝑛 , mais cela ne signifie pas que les vecteurs soient linéairement indépendants. Pour que
𝑘=1 𝛼𝑘 · 𝑥
ce soit le cas, il faut que l’implication réciproque soit vraie. Donc on peut dire que des vecteurs 𝑥®1 , . . . , 𝑥®𝑚
linéairement indépendant sont des vecteurs qui vérifient la condition suivante
Õ
𝑚
𝛼𝑘 · 𝑥®𝑘 = 0®𝑛 ⇐⇒ 𝛼1 = · · · = 𝛼𝑚 = 0
𝑘=1
Pour de tels vecteurs, la seule façon d’en former une CL égale au vecteur 0®𝑛 est de prendre la CL dont tous
les coefficients sont nuls.
pro:flfl Propriété 1.5. Si F est une famille libre, alors toute famille incluse dans F est libre.
On peut donc dire qu’une famille F est libre ssi elle est contenue dans une famille libre de 𝐸. En effet, si F
est libre, alors elle est contenue dans elle-même, càd dans une famille libre. Réciproquement, si F est incluse
dans une famille libre, alors la propriété précédente implique que F est libre.
Si on ajoute des vecteurs à une famille libre F, alors la famille ainsi formée en augmentant F peut être
également libre, mais elle peut également ne plus l’être. Le résultat suivant donne une condition suffisante
pour que la famille reste libre.
pro:flplusun Propriété 1.6. Soit F une FL de ℝ𝑛 . Si on élargit la famille F en une famille F + en ajoutant à F un élément de ℝ𝑛
qui n’est pas CL des éléments de F, alors F + est une FL
9
Démonstration. Soit F = {𝑥®1 , . . . , 𝑥®𝑚 } une FL de ℝ𝑛 et 𝑥® un vecteur de ℝ𝑛 qui n’est pas CL de 𝑥®1 , . . . , 𝑥®𝑚 . On
forme la famille F + = {𝑥®1 , . . . , 𝑥®𝑚 , 𝑥}.
® Soit 𝛼1 , . . . , 𝛼𝑚 , 𝛼 des réels pour lesquels
Si 𝛼 ≠ 0 alors on a 𝑥® = − 𝛼𝛼1 · 𝑥®1 − · · · − 𝛼𝛼𝑚 · 𝑥®𝑚 ; càd 𝑥® est une CL de 𝑥®1 , . . . , 𝑥®𝑚 , ce qu’on a exclut. Donc
𝛼 = 0. Dans ce cas on a 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 = 0®𝑛 , et comme 𝑥®1 , . . . , 𝑥®𝑚 sont linéairement indépendants, on a
𝛼1 = · · · = 𝛼𝑚 = 0. Donc en résumé, si 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 + 𝛼 · 𝑥® = 0®𝑛 alors on doit avoir 𝛼1 = · · · = 𝛼𝑚 = 𝛼 = 0.
Donc la famille F + est libre.
Par ailleurs, si une famille n’est pas libre, c’est que certain(s) de ses éléments s’écriv(en)t comme CL des
autres. Il se peut qu’en écartant ces éléments, la famille formée par les autres soit libre (dans l’exemple donné
au début de cette section, si de la famille {𝑢,
® 𝑣® } on écarte le vecteur 𝑣®, alors la famille {𝑢}
® est libre).
Définition 1.6 [Rang]. Soit F une famille de vecteurs de ℝ𝑛 . On appelle rang de F et on note rg(F) le nombre
maximal de vecteurs linéairement indépendants contenus dans F
Si F contient 𝑚 vecteurs et que F est libre, son rang est 𝑚. Sinon, on examine toutes les familles de 𝑚 − 1
éléments de F, si l’une est libre, alors le rang de F est 𝑚 − 1. Sinon on examine toutes les familles de 𝑚 − 2
éléments de F, etc
Si F = {𝑥®1 , . . . , 𝑥®𝑚 } est une base de 𝐸, alors elle permet d’engendrer 𝐸 : tout vecteur 𝑦® de 𝐸 s’écrit comme
une CL de 𝑥®1 , . . . , 𝑥®𝑚 : il existe des réels 𝛼1 , . . . , 𝛼𝑚 tels que e
𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚
Le fait qu’en plus d’être génératrice de 𝐸, la famille F soit libre implique que la manière d’écrire 𝑦® comme
CL de 𝑥®1 , . . . , 𝑥®𝑚 est unique. En effet si on a également
𝑦® = 𝛽1 · 𝑥®1 + · · · + 𝛽𝑚 · 𝑥®𝑚
Comme la famille F est libre, la propriété 1.4 permet de conclure que ceci équivaut à 𝛽𝑖 = 𝛼𝑖 , ∀𝑖 ∈ {1, . . . , 𝑚}.
Par exemple, si 𝐸 = ℝ𝑛 , alors B = {® 𝑒1 , . . . , 𝑒®𝑛 } est une base de ℝ𝑛 . On vérifie facilement que B est une FL
(exercice) et qu’elle est une FG de ℝ𝑛 puisque pour tout 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 , on a
𝑥® = 𝑥1 · 𝑒®1 + · · · + 𝑥𝑛 · 𝑒®𝑛
10
L’unicité des réels permettant d’écrire un élément de 𝐸 comme CL des éléments d’une base permet d’intro-
duire la définition suivante.
Définition 1.8 [Coordonnées dans une base]. Soit B une base d’un sev 𝐸 de ℝ𝑛 . Pour tout 𝑥® ∈ 𝐸 on appelle
coordonnées de 𝑥® dans la base B les uniques réels permettant d’écrire 𝑥® comme CL des éléménts de la base B.
Dans l’exemple précédent, les coordonnées de 𝑥® sont précisément les 𝑛 réels 𝑥1 , . . . , 𝑥𝑛 qui sont les compo-
santes de 𝑥.
® Ce n’est pas le cas pour toute base de ℝ𝑛 . Ceci est une particularité de base B = {® 𝑒1 , . . . , 𝑒®𝑛 } ; on
l’appelle base canonique de ℝ𝑛
On a vu que si on enlève des éléments à une FG de 𝐸, les vecteurs restant peuvent continuer à former une
FG de 𝐸, tout comme ils peuvent ne plus le faire. De même, on a vu que si on ajoute des éléments à une FL,
alors la nouvelle famille ainsi augmentée peut rester libre, ou bien ne plus l’être. Lorsque la famille qu’on
augmente ou qu’on diminue est une base, alors les opérations de retrait ou d’ajout de vecteur à la famille lui
font perdre son statut de base de 𝐸.
Plus précisément, on a le résultat suivant.
On énonce le résultat fondamental suivant, qu’on admettra (preuve disponible sur demande).
Théorème 1.1 [Théorème de la base incomplète]. Soit F une famille libre de 𝐸 et G une famille génératrice de 𝐸.
Alors on peut toujours construire une famille B en ajoutant à F des éléments de G de manière que B soit une base de
𝐸
Le corollaire est que de toute famille génératrice de 𝐸 ≠ {0®𝑛 } on peut extraire une base. En effet, si G est une
famille génératrice de 𝐸, alors elle contient un vecteur non nul 𝑥® et la famille F = {𝑥}
® est une famille libre de
𝐸. On peut donc la compléter à l’aide des éléments de G de manière à former une base B de 𝐸. La famille B
ainsi formée ne contient que des éléments de G.
On énonce un second résultat fondamental, également admis (preuve disponible sur demande).
th:fgfl Théorème 1.2. Soit 𝐸 un sev de ℝ𝑛 . Pour tout FL F de 𝐸 et toute FG G de 𝐸, on a CardF ≤ CardG
11
Une conséquence de ce résultat est que toute les bases de 𝐸 ont le même nombre d’éléments. En effet soient
B et B′ deux bases de 𝐸 et 𝑚 et 𝑚′ leur nombre d’éléments respectifs. Si 𝑚 < 𝑚′, alors la FL B′ a strictement
plus d’éléments que la FG B, ce qui est impossible au vu du théorème. Ceci complète le résultat de la
propriété 1.7.
On peut alors introduire la définition suivante.
Définition 1.9 [Dimension d’un sev]. Soit 𝐸 un sev de ℝ𝑛 . On appelle dimension de 𝐸 et on note dim(𝐸) le nombre
d’éléments qu’il y a dans toute base de 𝐸.
La dimension de 𝐸 est donc le nombre minimum de vecteurs qu’il faut pour l’engendrer. Avec cette définition,
le théorème 1.2 permet de déduire que si dim(𝐸) = 𝑚 alors toute famille libre de 𝐸 a au plus 𝑚 éléments et
toute famille génératrice de 𝐸 a au moins 𝑚 éléments. En effet, soit B une base de 𝐸 ; comme dim(𝐸) = 𝑚, la
famille B a 𝑚 éléments. C’est une famille libre, et donc si G est une FG de 𝐸, alors elle doit avoir au moins
𝑚 éléments. Mais B est aussi une famille génératrice de 𝐸, et donc si F est une FL de 𝐸, alors elle doit avoir
au plus 𝑚 éléments. On a donc le résultat suivant.
Propriété 1.8. Soit 𝐸 un sev de ℝ𝑛 et dim(𝐸) = 𝑚. Soit B une famille de 𝑚 éléments de 𝐸. Les trois énoncés suivants
sont équivalents :
— B est une base de 𝐸
— B est une FL de 𝐸
— B est une FG de 𝐸
Démonstration. On note 𝑝 le rang de F. Alors F contient une famille libre B à 𝑝 éléments. Donc tout élément
de F s’écrit comme une CL des éléments de B. En effet, si 𝑥® ∈ F alors soit 𝑥® ∈ B, soit 𝑥® ∈ F \ B. Dans le
premier cas, 𝑥® est évidemment une CL d’éléments de B. Dans le second cas également, puisque si ce n’était
pas le cas, alors d’après la propriété 1.6, la famille B ∪ {𝑥}
® serait libre, et donc F contiendrait la FL B ∪ {𝑥}
® à
𝑝 + 1 éléments, ce qui contredirait le fait que rg(F) = 𝑝. Maintenant, comme tout élément de 𝐸 s’écrit comme
une CL des éléments de F, on déduit que tout élément de 𝐸 s’écrit comme une CL d’une CL des éléments
de B càd comme une CL des éléments de B. Autrement dit B est une FG de 𝐸. Comme c’est aussi une FL,
c’est une base de 𝐸 et donc dim(𝐸) = 𝑝 = rg(F).
Démonstration. Puisque B est une base de 𝐸, c’est une FG de 𝐸 : tout élément de 𝐸 est une combinaison
linéaire des éléments de B. Soit 𝑥® une combinaison linéaire des éléments de B. Comme les éléments de B
sont dans 𝐸 et que 𝐸 est un sev, 𝑥® est dans 𝐸. Donc tout élément de 𝐸 est une CL des éléments de B et toute
CL des éléments de B est dans 𝐸 : 𝐸 est l’ensemble des CL des éléments de B.
La réciproque de ce résultat n’est pas vraie. Par exemple si 𝐸 = {𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑥1 = · · · = 𝑥𝑛 }, alors
en posant B = {𝜄𝑛 , 2 · 𝜄𝑛 }, on a bien 𝐸 = VectB, mais B n’est pas une FL de 𝐸, et donc n’est pas une base de 𝐸.
pro:dimsevev Propriété 1.11. Si 𝐹 est un sev de 𝐸, alors dim(𝐹) ≤ dim(𝐸). Si dim(𝐹) = dim(𝐸), alors 𝐹 = 𝐸.
12
1.7 Somme directe de sous-espaces de ℝ𝑛
section incomplète : parties non-rédigées
Définition 1.10. La somme de deux sous espaces 𝐸1 et 𝐸2 de ℝ𝑛 est l’ensemble noté 𝐸1 + 𝐸2 constitué de tous les
vecteurs 𝑥® de ℝ𝑛 pouvant s’écrire sous la forme 𝑥® = 𝑥®1 + 𝑥®2 avec 𝑥®1 ∈ 𝐸1 et 𝑥®2 ∈ 𝐸2 .
(Dans la vérification de cette propriété, on notera qu’il est important que 𝐸1 et 𝐸2 soient des sev de ℝ𝑛 ).
Définition 1.11. On dit que deux sous-espace 𝐸1 et 𝐸2 de ℝ𝑛 sont en somme directe si pour tout 𝑥® ∈ 𝐸1 + 𝐸2 , la
décomposition de 𝑥® en la somme d’un élément de 𝐸1 et d’un élément de 𝐸2 est unique.
XXXXX
CNS1 (intersection réduite à {0®𝑛 })
CNS2 : la réunion des bases est une base de la somme
Conséquence sur les dimensions
Dans le prolongement la CNS2 (utile pour la diagonalisation) :
On sait que la réunion de bases de sous-espaces en somme directe forme une base de l’espace somme. Cela
reste vrai pour des familles qui ne sont pas forcément des bases, mais qui sont libres. Plus précisément, on a
le résultat suivant.
É𝑛
pro:sommedlibre Propriété 1.13. Soient 𝑛 ≥ 2 un entier et 𝐸 un espace vectoriel s’exprimant comme une somme directe 𝐸 = 𝑖=1 𝐸𝑖
de 𝑛 sev 𝐸1 , . . . , 𝐸𝑛 . Soient F1 , . . . , F𝑛 des familles de 𝐸 telles que F𝑖 est une famille de 𝐸𝑖 pour tout 𝑖 ∈ {1, . . . , 𝑛}. La
Ð
famille F = 𝑛𝑖=1 F𝑖 est libre si et seulement si chacune des familles F1 , . . . , F𝑛 est libre.
Démonstration. Puisque toute partie d’une famille libre est libre, et que F𝑖 ⊂ F pour tout 𝑖 ∈ {1, . . . , 𝑛}, il est
évident que si F est libre, chacune des familles F1 , . . . , F𝑛 est libre.
On démontre maintenant la réciproque : la liberté de chacune des familles F1 , . . . , F𝑛 implique celle de F.
On utilise pour cela un raisonnement par récurrence sur 𝑛.
On montre d’abord que la propriété est vraie pour 𝑛 = 2. En effet, supposons que F = {𝑥®1 , . . . , 𝑥®𝑝 } soit
une famille libre de 𝐸1 et que G = {®
𝑦1 , . . . , 𝑦®𝑞 } soit une famille libre de 𝐸2 . Considérons la famille F ∪ G de
𝐸 = 𝐸1 ⊕ 𝐸2 . Soit des réels 𝑎 1 , . . . , 𝑎 𝑝 , 𝑏1 , . . . , 𝑏𝑞 tels que
13
Ð Ð𝑛
veut montrer que F = 𝑛+1 ′
𝑖=1 F𝑖 est une famille libre. Notons que F = F ∪ F𝑛+1 , où F ≔
′
𝑖=1 F𝑖 , et comme
on a supposé la propriété vraie au rang 𝑛, F′ est une famille libre de 𝐸 ′ = 𝐸1 ⊕ · · · ⊕ 𝐸𝑛 . Comme 𝐸 = 𝐸 ′ ⊕ 𝐸𝑛+1
et que les familles F′ de 𝐸 ′ et F𝑛+1 de 𝐸𝑛+1 sont libres, la propriété vraie au rang 𝑛 = 2 permet de conclure
que F = F′ ∪ F𝑛+1 est libre.
14
2 Matrices
La notion de matrice est liée à celle d’espace vectoriel. Lorsqu’on est en présence d’un espace vectoriel sur
ℝ, une matrice est un tableau de nombres réels.
Une matrice 𝐴 est un tableau de scalaires (nombres réels) ; on note 𝑙𝐴 et 𝑐𝐴 le nombre de lignes et le nombre
de colonnes de 𝐴 (ou tout simplement 𝑙 et 𝑐 lorsqu’il n’y a pas d’ambiguïté sur la matrice dont on parle). On
dit que 𝐴 est de format (𝑙𝐴 , 𝑐𝐴 ).
On note 𝑎 𝑖𝑗 le (𝑖, 𝑗) e élément de 𝐴 et on désigne parfois 𝐴 par 𝐴 = (𝑎 𝑖,𝑗 ) 𝑖=1,...,𝑙 . On note
𝑗=1,...,𝑐
© 11 ª
𝑎 𝑎 12 ··· 𝑎 1𝑗 ··· 𝑎 1𝑐
𝑎 21 𝑎 2𝑐 ®®
𝑎 22 ··· 𝑎 2𝑗 ···
. .. ®®
.. .. ..
··· ··· . ®
𝐴= ®
. .
𝑎 𝑖1 𝑎 𝑖𝑐 ®®
𝑎 𝑖2 ··· 𝑎 𝑖𝑗 ···
. .. ®®
.. .. ..
. ··· . ··· . ®
« 𝑎 𝑙1 𝑎 𝑙2 ··· 𝑎 𝑙𝑗 ··· 𝑎 𝑙𝑐 ¬
Il sera utile par la suite de voir une matrice 𝐴 de format (𝑙, 𝑐) comme une juxtaposition de 𝑐 matrices de
format (𝑙, 1) qu’on note 𝐴1 , . . . , 𝐴𝑐 . On écrit
© 1𝑗 ª
𝑎
𝑎 2𝑗 ®
®
. ®
.. ®
®
où 𝐴𝑗 = ®
𝑎 𝑖𝑗 ®
𝐴 = 𝐴1 𝐴2 ··· 𝐴𝑗 ··· 𝐴𝑐 ∀𝑗 ∈ {1, . . . , 𝑐}
®
. ®
.. ®
®
« 𝑎 𝑙𝑗 ¬
Les matrices permettent de représenter les vecteurs d’un espace vectoriel dans une base donnée. Si 𝐸 est un
ℝ-ev de dimension 𝑛 et si B = {𝑏®1 , . . . , 𝑏®𝑛 } est une base de 𝐸, alors tout élément 𝑥® de 𝐸 est caractérisé de
manière unique par ses 𝑛 coordonnées 𝛼1 , . . . , 𝛼𝑛 dans la base B : 𝑥® = 𝛼1 · 𝑏®1 + · · · + 𝛼𝑛 · 𝑏®𝑛 . Ces coordonnées
sont des réels et la matrice de 𝑥® dans la base B est le tableau à 1 colonne et 𝑛 lignes contenant ces réels. On
le note 𝑋B et on l’écrit sous la forme :
© 1ª
𝛼
.. ®
𝑋B = . ®
®
«𝛼𝑛 ¬
15
2.1.2 Cas particulier important de 𝐸 = ℝ𝑛
L’ev ℝ𝑛 est l’ensemble de tous les 𝑛-uplets de nombres réels, pour lesquels l’addition est définie élément par
élément et la multiplication par un réel est définie par la multiplication de tous les éléments du 𝑛-uplet par
ce réel (voir la section 1.1). Un élément (vecteur) 𝑥® de ℝ𝑛 est donc de la forme 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ). Parmi ces
𝑛-uplets on trouve les 𝑛-uplets 𝑒®𝑘 = (0, . . . , 0, 1, 0, . . . , 0) où le 1 est en 𝑘e position, 𝑘 ∈ {1, . . . , 𝑛}. On a déjà vu
Í
que 𝑥® = 𝑛𝑘=1 𝑥𝑘 · 𝑒®𝑘 et que E = {®
𝑒1 , . . . , 𝑒®𝑛 } est une FL de ℝ𝑛 ; c’est donc une base de ℝ𝑛 . Cette base a ceci de
particulier que les coordonnées de 𝑥® dans E sont précisément les réels qui composent le 𝑛-uplet, càd
© 1ª
𝑥
.. ®
𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ⇐⇒ 𝑋E = . ®
®
«𝑥𝑛 ¬
Ceci n’est pas nécessairement le cas dans toutes les bases de ℝ𝑛 . Par exemple si 𝐸 = ℝ2 , le vecteur 𝑥® = (𝑥1 , 𝑥2 )
a pour coordonnées 𝑥1 et 𝑥2 dans la base E = {(1, 0), (0, 1)}, mais a pour coordonnées 𝑥1 − 𝑥2 et 𝑥2 dans la
base B = {(1, 0), (1, 1)}. Donc ! !
𝑥1 𝑥1 − 𝑥2
𝑋E = et 𝑋B =
𝑥2 𝑥2
La base E est appelée base canonique de ℝ𝑛 . Dans cette base particulière, on notera de manière plus concise
𝑋 la matrice de 𝑥® : 𝑋 ≔ 𝑋E .
Comme pour tout 𝑥® ∈ ℝ𝑛 les éléments de la matrice 𝑋 = 𝑋E coïncident avec ceux de 𝑥,
® par abus de langage,
on parle indifféremment du vecteur 𝑥® ou du “vecteur 𝑋”. Toute matrice ayant une seule colonne peut être
vue comme un vecteur et réciproquement. On choisira donc par la suite de voir un vecteur comme une
matrice colonne. 5
Lorsqu’on travaille dans des sous-espaces de ℝ𝑛 et qu’on utilise les bases canoniques, la correspondance
entre opérations sur les vecteurs et opérations sur les matrices est particulièrement directe. Ainsi, une
combinaison linéaire de vecteurs s’écrit facilement à l’aide d’opérations matricielles : si 𝑦® = (𝑦1 , . . . , 𝑦𝑖 , . . . , 𝑦𝑛 )
et 𝑥®𝑘 = (𝑥1𝑘 , . . . , 𝑥𝑖𝑘 , . . . , 𝑥𝑛𝑘 ), alors
Õ
𝑛
𝑦® = 𝛼𝑘 · 𝑥®𝑘 ⇐⇒ 𝑦𝑖 = 𝛼1 × 𝑥𝑖1 + · · · + 𝛼𝑛 × 𝑥𝑖𝑛 , ∀𝑖 ∈ {1, . . . , 𝑛}
𝑘=1
⇐⇒ 𝑌 = 𝛼1 𝑋1 + · · · + 𝛼𝑛 𝑋𝑛
On verra que l’opération de multiplication des matrices permet d’exprimer 𝑌 simplement sous la forme
𝑌 = 𝑋𝛼 où 𝛼 est la matrice des coefficients de la combinaison linéaire, càd
© 1ª
𝛼
.. ®
𝛼= . ®
®
«𝛼𝑛 ¬
5. Dans certains calculs et manipulations, on pourra éventuellement réintroduire la distinction entre les deux objets 𝑋 et 𝑥® puisque
les opérations sur les matrices et les vecteurs ne sont pas les mêmes. Par exemple, on n’a pas d’opération sur les vecteurs permettant de
multiplier un vecteur par un autre, mais on verra que sous des conditions adéquates, on peut multiplier un tableau de nombres par un
autre. Autre exemple : on verra les matrices peuvent se transposer, alors que ce n’est pas le cas pour un vecteur.
16
et 𝑋 est la matrice formée en concaténant les 𝑛 matrices 𝑋1 , . . . , 𝑋𝑛 , où 𝑋𝑘 la matrice des coordonnées de 𝑥®𝑘
(dans la base canonique), càd
©𝑥11 𝑥12 · · · 𝑥1𝑛 ª
®
𝑥21 𝑥22 · · · 𝑥2𝑛 ®
𝑋 = (𝑋1 · · · 𝑋𝑛 ) = . .. ®®
.. . ®
..
®
. ···
« 𝑥 𝑙1 𝑥 𝑙2 · · · 𝑥 𝑙𝑛 ¬
On a donc l’équivalence des écritures suivantes pour exprimer une combinaison linéaire de vecteurs :
Õ
𝑛
𝑦® = 𝛼𝑘 · 𝑥®𝑘 ⇐⇒ 𝑌 = 𝑋𝛼 (2) {eq:mcl}
𝑘=1
Dans la suite du cours, on ne travaillera que sur l’espace vectoriel ℝ𝑛 muni de sa base canonique.
1. Matrice colonne, matrice ligne. Une matrice colonne 𝐴 est une matrice de format (𝑙, 1) tandis qu’une
matrice ligne 𝐵 est une matrice de format (1, 𝑐). Pour de telles matrices, il n’y a besoin que d’un seul
indice (un indice de ligne pour une matrice colonne, un indice de colonne pour une matrice ligne)
pour repérer leurs éléments ; on les note donc :
© 1ª
𝑎
.. ®
𝐴=.® et
®
𝐵 = 𝑏1 · · · 𝑏𝑐
« 𝑎𝑙 ¬
D’après les commentaires de la section précédente, on assimile une matrice colonne de format (𝑙, 1) à
un vecteur de ℝ𝑙 et un vecteur de ℝ𝑛 est assimilé à un matrice colonne de format (𝑛, 1).
Une matrice qui est à la fois une matrice ligne et une matrice colonne est une matrice qui n’a qu’un
seul élément : 𝐷 = 𝑑 .
2. Matrice carrée. Une matrice carrée est une matrice qui a autant de lignes que de colonnes. Parmi la
matrices carrées, certaines ont des formes particulières.
(a) Matrice symétrique. Une matrice symétrique est une matrice carrée 𝐴, de format (𝑚, 𝑚), telle que
𝑎 𝑖𝑗 = 𝑎 𝑗𝑖 , ∀𝑖, 𝑗 ∈ {1, . . . , 𝑚}
(b) Matrice diagonale. Une matrice diagonale est une matrice carrée 𝐴, de format (𝑚, 𝑚), telle que
tous ses éléments extra-diagonaux (càd les éléments 𝑎 𝑖𝑗 avec 𝑖 ≠ 𝑗) sont nuls.
© 11 ª
𝑎 0 0 ··· 0
0 0 ®®
𝑎 22 0 ···
®
𝐴 = 0 0 𝑎 33 ··· 0 ®
®
.. .. ®
. . ®®
.. .. ..
. . .
« 0 0 0 ··· 𝑎 𝑚𝑚 ¬
17
On la note 𝐴 = diag(𝑎 11 , . . . , 𝑎 𝑚𝑚 ) ou plus simplement 𝐴 = diag(𝑎 1 , . . . , 𝑎 𝑚 ), avec 𝑎 𝑖 = 𝑎 𝑖𝑖 , 𝑖 ∈
{1, . . . , 𝑚}
(c) Matrice identité. Parmi les matrices diagonales, la matrice identité est particulière. La matrice iden-
tité d’ordre 𝑚 est la matrice carrée de format (𝑚, 𝑚), notée Id𝑚 et définie par Id𝑚 = diag(1, 1, . . . , 1) :
©1 0 ··· 0ª
®
0 1 0®
Id𝑚 = . .. ®®
···
.. .®
.. ..
®
. .
«0 0 ··· 1¬
(d) Matrice triangulaire supérieure, matrice triangulaire inférieure. Une matrice carrée 𝐴 de format
(𝑚, 𝑚) est triangulaire supérieure si 𝑎 𝑖𝑗 = 0, ∀𝑖 ∈ {2, . . . , 𝑚}, ∀𝑗 ∈ {1, . . . , 𝑖 − 1} (càd 𝑎 𝑖𝑗 = 0 si 𝑗 < 𝑖).
Une telle matrice a la forme suivante
© 11 ª
𝑎 𝑎 12 𝑎 13 ··· 𝑎 1𝑚
0 𝑎 2𝑚 ®®
𝑎 22 𝑎 23 ···
®
𝐴 = 0 0 𝑎 33 ··· 𝑎 3𝑚 ®
®
.. .. ®
. . ®®
.. .. ..
. . .
« 0 0 0 ··· 𝑎 𝑚𝑚 ¬
C’est donc une matrice telle que tous les éléments situés au-dessous la diagonale sont nuls.
On définit de manière analogue un matrice triangulaire inférieure : c’est une matrice dont tous
les éléments situés au-dessus de la diagonale sont nuls.
Si 𝐴 et 𝐵 sont des matrices toutes deux de format (𝑙, 𝑐), on définit la matrice 𝑆 = 𝐴 + 𝐵 par
Si 𝐴 et 𝐵 sont deux matrices de formats respectifs (𝑙𝐴 , 𝑐𝐴 ) et (𝑙𝐵 , 𝑐𝐵 ) avec 𝑐𝐴 = 𝑙𝐵 , alors on définit la matrice
𝑃 = 𝐴𝐵 par
Õ
𝑐𝐴
𝑝𝑖𝑗 = 𝑎 𝑖𝑘 𝑏𝑘𝑗 , ∀𝑖 ∈ {1, . . . , 𝑙𝐴 }, ∀𝑗 ∈ {1, . . . , 𝑐𝐵 }
𝑘=1
18
Pour que le produit 𝐴𝐵 puisse être défini, il faut que le nombre de colonnes de la matrice de gauche (𝐴) soit
égal au nombre de lignes de la matrice de droite (𝐵). Donc même si 𝐴𝐵 est défini (càd si 𝑐𝐴 = 𝑙𝐵 ), il se peut
que 𝑐𝐵 ≠ 𝑙𝐴 et donc que le produit 𝐵𝐴 ne soit pas défini. Même si les produits 𝐴𝐵 et 𝐵𝐴 sont définis, en
général 𝐴𝐵 ≠ 𝐵𝐴. Pour le voir, 𝐴𝐵 est une matrice de format (𝑙𝐴 , 𝑐𝐵 ), alors que 𝐵𝐴 est une matrice de format
(𝑙𝐵 , 𝑐𝐴 ) ; il n’y aucune raison pour que les deux formats soient nécessairement les mêmes. Par exemple, si 𝐴
est de format (1, 𝑚) et 𝐵 de format (𝑚, 1), alors les produits 𝐴𝐵 et 𝐵𝐴 sont bien définis, mais 𝐴𝐵 est de format
(1, 1) alors que 𝐵𝐴 est de format (𝑚, 𝑚) ; Il est donc impossible que 𝐴𝐵 et 𝐵𝐴 soient des matrices égales.
La multiplication de matrices, lorsqu’elle est définie, est associative : si les produits 𝐴𝐵 et 𝐵𝐶 sont définis,
alors (𝐴𝐵)𝐶 = 𝐴(𝐵𝐶). On note simplement ce produit 𝐴𝐵𝐶. Attention : il arrive parfois qu’on écrive un
produit 𝐴𝐵𝐶 sans pour autant que les produits 𝐴𝐵 et 𝐵𝐶 soient définis tous les deux. Par exemple si 𝐴 est
de format (1, 𝑚), 𝐵 de format (𝑚, 1) et 𝐶 de format (𝑙, 𝑐), alors on écrit souvent le produit 𝐴𝐵𝐶, alors que
le produit 𝐵𝐶 n’est clairement pas défini. Ce cas d’écriture d’un produit (séquentiel) de matrices survient
lorsque dans la succession de produits, l’un des produits a pour résultat une matrice de format (1, 1) ; dans
l’exemple donné, c’est le cas du produit 𝐴𝐵. Dans un tel cas, cette matrice est considérée comme un nombre
réel et le produit (𝐴𝐵)𝐶 n’est pas considéré comme un produit de la matrice 𝐴𝐵 par la matrice 𝐶, mais
comme le produit du “réel” 𝐴𝐵 par la matrice 𝐶 (voir la section suivante).
De manière générale, lorsque 𝐴𝐵 est une matrice de format (1, 1), càd 𝐴𝐵 = 𝛼 , on considère cet objet
comme le réel 𝛼 et non comme la matrice 𝛼 .
Quelques propriétés du produit pour toute matrice carrée 𝐴 de format (𝑚, 𝑚) :
1. 𝐴 Id𝑚 = Id𝑚 𝐴 = 𝐴
2. 𝐴𝑛 = 𝐴𝐴 . . . 𝐴 est défini pour tout entier 𝑛 ≥ 0, avec par convention 𝐴0 = Id𝑚
3. Si 𝐴 = diag(𝑎 1 , . . . , 𝑎 𝑚 ) est diagonale, 𝐴𝑛 est diagonale et 𝐴𝑛 = diag(𝑎 1𝑛 , . . . , 𝑎 𝑚
𝑛)
Pour une matrice 𝐴 de format (𝑙, 𝑐) et un réel 𝛼, on définit la matrice 𝑄 = 𝛼𝐴, produit de 𝛼 par 𝐴, par
⊤
La matrice 𝑇 est donc de format (𝑐, 𝑙). On note plutôt cette matrice 𝐴 .
⊤ ⊤
Il est facile de vérifier que (𝐴 ) = 𝐴.
⊤
On voit également immédiatement qu’une matrice carrée 𝐴 est symétrique ssi 𝐴 = 𝐴
19
2.3.5 Trace d’une matrice
La trace d’une matrice n’est définie que pour des matrices carrées. Si 𝐴 est une matrice carrée de format
(𝑚, 𝑚), la trace de 𝐴 est le réel noté Tr(𝐴) et défini comme la somme des éléments diagonaux de 𝐴 :
Tr(𝐴) = 𝑎 11 + 𝑎 22 + · · · + 𝑎 𝑚𝑚
Lorsque les expressions ont un sens (càd si les dimensions des matrices permettent les opérations effectuées),
on a
1. (𝐴 + 𝐵)𝐶 = 𝐴𝐶 + 𝐵𝐶 et 𝐴(𝐵 + 𝐶) = 𝐴𝐵 + 𝐴𝐶
2. 𝛼(𝐴 + 𝐵) = 𝛼𝐴 + 𝛼𝐵
3. (𝛼 + 𝛽)𝐴 = 𝛼𝐴 + 𝛽𝐴
4. (𝛼𝐴)(𝛽𝐵) = (𝛼 × 𝛽)𝐴𝐵
⊤ ⊤
5. (𝛼𝐴) = 𝛼𝐴
⊤ ⊤ ⊤
6. (𝐴 + 𝐵) = 𝐴 + 𝐵
⊤ ⊤ ⊤
7. (𝐴𝐵) = 𝐵 𝐴
8. Tr(𝐴𝐵) = Tr(𝐵𝐴) lorsque 𝐴 et 𝐵 commutent (voir ci-dessous)
9. Tr(𝐴 + 𝐵) = Tr(𝐴) + Tr(𝐵)
10. Tr(𝛼𝐴) = 𝛼Tr(𝐴)
On mentionne également un résultat intéressant. On dit que deux matrices carrées 𝐴 et 𝐵 de même format
commutent si les produits 𝐴𝐵 et 𝐵𝐴 sont égaux. Si 𝐴 et 𝐵 sont deux matrices carrées qui commutent, alors
la formule du binôme reste valable pour 𝐴 et 𝐵 : pour tout entier 𝑛, on a
𝑛
Õ
𝑛 𝑛
(𝐴 + 𝐵) = 𝐴𝑖 𝐵 𝑛−𝑖
𝑖=0
𝑖
(ce résultat se démontre à l’aide d’un raisonnement par récurrence sur 𝑛).
Il est parfois intéressant de considérer une matrice 𝐴 comme étant composée de plusieurs blocs. De manière
générale, si 𝐴 est une matrice de format (𝑙, 𝑐), on peut voir 𝐴 comme constituée de blocs 𝐴𝑖𝑗 ayant 𝑙𝑖 lignes et
𝑐𝑗 colonnes, 𝑖 ∈ {1, . . . , ℎ}, 𝑗 ∈ {1, . . . , 𝑘}, de la manière suivante
©𝐴 𝐴 · · · 𝐴2𝑘 ª®
𝐴11 𝐴12 · · · 𝐴1𝑘
21 22
𝐴 = . .. ®® (3)
.. . ®
.. {eq:Apart}
. ···
« ℎ1 ℎ2
𝐴 𝐴 · · · 𝐴ℎ𝑘 ¬
20
On dit que 𝐴 a 𝑘 blocs-colonne et ℎ blocs-ligne.
On peut considérer chacun des 𝐴𝑖𝑗 en tant que matrice de format (𝑙𝑖 , 𝑐𝑗 ) ; dans ce cas on appelle ces matrices
des sous-matrices de 𝐴.
Les opérations sur les matrices peuvent alors se faire par blocs, càd en manipulant les blocs 𝐴𝑖𝑗 de 𝐴 au lieu
de manipuler les éléments 𝑎 𝑖𝑗 de 𝐴
1. Addition par blocs. Pour pouvoir additionner par blocs deux matrices 𝐴 et 𝐵, il faut que ces deux ma-
trices soient additionnables, càd qu’elles aient le même format, mais également que les décompositions
en blocs de 𝐴 et de 𝐵 soient faites à l’aide de blocs de tailles identiques : il doit y avoir autant de blocs
sur chaque ligne dans les deux matrices, et autant de blocs sur chaque colonne dans les deux matrices ;
chaque bloc 𝐴𝑖𝑗 a alors la même taille que le bloc 𝐵𝑖𝑗 pour tout 𝑖 ∈ {1, . . . , ℎ} et tout 𝑗 ∈ {1, . . . , 𝑘}. Donc
©𝐴 𝐴 · · · 𝐴2𝑘 ª® ©𝐵 𝐵 · · · 𝐵2𝑘 ª®
𝐴11 𝐴12 · · · 𝐴1𝑘 𝐵11 𝐵12 · · · 𝐵1𝑘
21 22 21 22
𝐴 = . .. ®® et 𝐵 = . .. ®®
.. . ® .. ··· . ®
.. ..
. ··· .
« 𝐴ℎ1 𝐴ℎ2 · · · 𝐴ℎ𝑘 ¬ « 𝐵ℎ1 𝐵ℎ2 · · · 𝐵ℎ𝑘 ¬
On a alors
©𝐴 +𝐵 𝐴 +𝐵 · · · 𝐴2𝑘 + 𝐵2𝑘 ª®
𝐴11 + 𝐵11 𝐴12 + 𝐵12 · · · 𝐴1𝑘 + 𝐵1𝑘
21
𝐴 + 𝐵 = ®
21 22 22
®
®
.. .. ..
. . ··· .
« 𝐴ℎ1 + 𝐵ℎ1 𝐴ℎ2 + 𝐵ℎ2 · · · 𝐴ℎ𝑘 + 𝐵ℎ𝑘 ¬
avec 𝐴𝑖𝑗 + 𝐵𝑖𝑗 obtenu comme la somme des matrices 𝐴𝑖𝑗 et 𝐵𝑖𝑗 .
2. Multiplication par blocs. On veut effectuer le produit 𝐴𝐵 (supposé possible) en manipulant des blocs
de ces deux matrices. Il faut pour cela que les blocs des matrices 𝐴 et 𝐵 soient de dimensions adéquates.
Ainsi si 𝐴 est partitionnée comme dans (3), càd avec 𝑘 blocs-colonnes, il faut que 𝐵 ait 𝑘 blocs-ligne ; de
plus, si on note 𝑠 le nombre de blocs-colonne de 𝐵, il faut que pour tout 𝑖 = 1, . . . , ℎ et tout 𝑟 = 1, . . . , 𝑠
on ait
nombre de colonnes de 𝐴𝑖𝑗 = nombre de lignes de 𝐵𝑗𝑟 , ∀𝑗 = 1, . . . , 𝑘
càd il faut que le produit 𝐴𝑖𝑗 𝐵𝑗𝑟 soit possible. Si c’est le cas, alors la matrice 𝐴𝐵 est une matrice 𝐶 qui a
ℎ blocs-lignes et 𝑠 blocs-colonne et le bloc 𝐶𝑖𝑟 de 𝐶 est
Õ
𝑘
𝐶𝑖𝑟 = 𝐴𝑖𝑗 𝐵𝑗𝑟
𝑗=1
21
Visuellement, on a
Í𝑘 Í𝑘 Í𝑘 Í𝑘
© 𝑗=1 𝐴1𝑗 𝐵𝑗1 𝑗=1 𝐴1𝑗 𝐵𝑗2 ··· 𝑗=1 𝐴1𝑗 𝐵𝑗𝑟 ··· 𝑗=1 𝐴1𝑗 𝐵𝑗𝑠 ª
Í Í𝑘 Í𝑘 Í𝑘 ®
𝑘 𝐴 𝐵 ®
𝑗=1 2𝑗 𝑗1 𝑗=1 𝐴2𝑗 𝐵𝑗2 ··· 𝑖=1 𝐴2𝑗 𝐵𝑗𝑟 ··· 𝑗=1 𝐴2𝑗 𝐵𝑗𝑠 ®
®
®
®
®
.. .. ..
= Í𝑘 ®
··· ···
Í𝑘 Í𝑘 Í𝑘
. . .
®
𝑗=1 𝑖𝑗 𝐵𝑗1
𝐴 𝐴 𝐵 ··· 𝐴 𝐵 ··· 𝑗=1 𝐴𝑖𝑗 𝐵𝑗𝑠 ®
®
𝑗=1 𝑖𝑗 𝑗2 𝑗=1 𝑖𝑗 𝑗𝑟
®
.. .. .. ®
··· ··· ®
Í𝑘 Í𝑘 Í𝑘 Í𝑘 ®
. . .
𝐴 ℎ𝑗 𝐵𝑗1 𝐴 𝐵 · · · 𝑗=1 ℎ𝑗 𝑗𝑟 · · ·
𝐴 𝐵 𝐴 𝐵
« 𝑗=1 𝑗=1 ℎ𝑗 𝑗2 𝑗=1 ℎ𝑗 𝑗𝑠
¬
Autrement dit, la multiplication par blocs revient à appliquer la règle de multiplication des matrices,
comme si chaque bloc était un réel.
Par exemple, on peut multiplier une matrice 𝐴 de format (𝑙, 𝑐) partitionnée en un seul bloc et une
matrice 𝐵 de format (𝑐, 𝑑) partitionnée en 𝑑 blocs de format (𝑐, 1) (les blocs sont les colonnes de 𝐵. On
a alors
𝐴𝐵 = 𝐴 𝐵1 𝐵2 · · · 𝐵𝑟 · · · 𝐵𝑑 = 𝐴𝐵1 𝐴𝐵2 · · · 𝐴𝐵𝑟 · · · 𝐴𝐵𝑑
On peut aussi multiplier une matrice 𝐴 avec un bloc-ligne et deux blocs-colonne par une matrice 𝐵
ayant deux blocs-lignes et un bloc-colonne :
𝐵1
𝐴𝐵 = 𝐴1 𝐴2 = 𝐴1 𝐵1 + 𝐴2 𝐵2
𝐵2
3. Transposition par blocs. Si une matrice 𝐴 est partionnée en ℎ blocs-ligne et 𝑘 blocs-colonnes, alors la
⊤ ⊤
matrice transposée 𝐴 est partitionnée en 𝑘 blocs-ligne et ℎ blocs-colonnes, et le (𝑖, 𝑗) e bloc de 𝐴 est
⊤
𝐴𝑗𝑖 . Visuellement si
©𝐴 𝐴 · · · 𝐴 ª
𝐴11 𝐴12 · · · 𝐴1𝑘
21 22 2𝑘 ®
𝐴 = . .. ®®
. . ®
. ..
. ···
« 𝐴ℎ1 𝐴ℎ2 · · · 𝐴ℎ𝑘 ¬
22
alors
© 𝐴11 𝐴21 · · · 𝐴ℎ1 ª
⊤ ⊤ ⊤
⊤ ⊤ ®
𝐴 𝐴⊤ · · · 𝐴ℎ2 ®®
12 22
𝐴 =
.. ®®
⊤
..
. . ®
..
⊤ ®
. ···
⊤ ⊤
« 1𝑘 2𝑘 ¬
𝐴 𝐴 · · · 𝐴ℎ𝑘
© 𝐴1 ª
⊤
⊤®
𝐴 ®
2®
· · · 𝐴𝑐 =⇒ 𝐴 = . ®
⊤
. ®
𝐴 = 𝐴1 𝐴2
. ®
⊤®
« 𝑐¬
𝐴
et
©𝐴 ª
𝐴1
2®
𝐴 = . ®® =⇒ 𝐴 = 𝐴⊤1 𝐴⊤2 · · · 𝐴⊤𝑙
⊤
.. ®
« 𝐴𝑙 ¬
⊤
Autrement dit, si les blocs de 𝐴 sont les colonnes de 𝐴, alors les blocs de 𝐴 sont des lignes ; la 𝑖 e est la
⊤
transposée de la 𝑖 e colonne de 𝐴. Si les blocs de 𝐴 sont les lignes de 𝐴, alors les blocs de 𝐴 sont des
colonnes ; la 𝑖 e est la transposée de la 𝑖 e ligne de 𝐴.
4. Matrices bloc-diagonales. Une matrice bloc diagonale 𝐴 est une matrice dont le nombre de blocs-ligne
est égal au nombre de blocs-colonne, et telle que 𝐴𝑖𝑗 est un bloc de 0 si 𝑖 ≠ 𝑗. Elle a l’allure suivante
𝐴11 0 ··· 0
© · · · 0 ª®
0 𝐴22
𝐴 = . ®®
. .. ®
.. .. ..
. .
« 0 0 · · · 𝐴𝑐𝑐 ¬
0 0
© 0 ª®
𝐴11 𝐵11 ···
0 ···
𝐴𝐵 = .. ®®
𝐴22 𝐵22
. ®
.. .. ..
. . .
« 0 0 · · · 𝐴𝑐𝑐 𝐵𝑐𝑐 ¬
En particulier, si tous les blocs de 𝐴 sont des blocs carrés (avec chacun autant de lignes que de colonnes),
23
alors 𝐴 est une matrice carrée, et pour tout 𝑛
𝑛
𝐴11 0 ··· 0
© ª
0 𝐴22
𝑛 ··· 0 ®
®
𝐴 =
𝑛
.. ®®
. . ®
.. .. ..
. .
« 0 0 ¬
· · · 𝐴𝑐𝑐𝑛
Définition 2.1 [Noyau, image]. Le noyau de 𝐴 est l’ensemble noté ker(𝐴) défini par ker(𝐴) = {𝑋 ∈ ℝ𝑐 | 𝐴𝑋 = 0𝑙 }.
L’image de 𝐴 est l’ensemble noté Im(𝐴) défini par Im(𝐴) = {𝑌 ∈ ℝ𝑙 | ∃𝑋 ∈ ℝ𝑐 , 𝑌 = 𝐴𝑋}
Le noyau d’une matrice 𝐴 n’est jamais vide puisqu’il contient toujours 0𝑐 (𝐴0𝑐 = 0𝑙 ).
Démonstration. Exercice
On a donc évidemment dim Im(𝐴) ≤ 𝑙 et dim ker(𝐴) ≤ 𝑐. D’après (2), on constate que 𝑌 ∈ Im(𝐴) ssi 𝑌 peut
s’écrire comme une CL des colonnes de 𝐴. Donc Im(𝐴) est le sev de ℝ𝑙 engendré par les 𝑐 vecteurs formant
les colonnes de 𝐴. Autrement dit Im(𝐴) = Vect{𝐴1 , . . . , 𝐴𝑐 }.
2.5.1 Inverse
Définition 2.2. Soit 𝐴 une matrice carrée de format (𝑚, 𝑚). On dit que 𝐴 est inversible s’il existe une matrice 𝐵 de
même format que 𝐴 telle que 𝐴𝐵 = Id𝑚 .
La condition d’inversibilité de 𝐴 est une égalité entre 2 matrices. Cette égalité peut être détaillée en 𝑚
égalités sur les colonnes des matrices des deux membres. Ainsi, on peut dire que 𝐴 est inversible s’il existe
une matrice 𝐵 dont les colonnes sont 𝐵1 , . . . , 𝐵𝑛 , telle que
Cela revient à dire que 𝐸𝑘 ∈ Im(𝐴), ∀𝑘 ∈ {1, . . . , 𝑚}, et donc ℝ𝑚 = Vect{𝐸1 , . . . , 𝐸𝑚 } ⊆ Im(𝐴). Comme on a
aussi Im(𝐴) ⊆ ℝ𝑚 , on doit avoir Im(𝐴) = ℝ𝑚 . Mais si Im(𝐴) = ℝ𝑚 , on a peut trouver des vecteurs 𝐵1 , . . . , 𝐵𝑚
tels que (4) est vrai et donc la matrice 𝐵 satisfait 𝐴𝐵 = Id𝑚 , càd 𝐴 est inversible. La condition d’inversibilité de
𝐴 est donc équivalente à Im(𝐴) = ℝ𝑚 et on peut alors en déduire facilement d’autres conditions équivalentes.
pro:inv Propriété 2.2. Soit une matrice carrée 𝐴 de format (𝑚, 𝑚). Les énoncés suivants sont équivalents
1. 𝐴 est inversible
2. Im(𝐴) = ℝ𝑚
3. dim Im(𝐴) = 𝑚
24
4. {𝐴1 , . . . , 𝐴𝑚 } est une base de ℝ𝑚
5. ker(𝐴) = {0𝑚 }
Démonstration. Exercice (on se sert de ce qui est dit juste avant l’énoncé de la propriété et de la propriété
1.11)
Propriété 2.3 [Unicité de l’inverse d’une matrice inversible]. Soit 𝐴 une matrice inversible de format (𝑚, 𝑚).
Alors il existe une et un seule matrice 𝐵 telle que 𝐴𝐵 = Id𝑚 . Cette matrice est appelée inverse de 𝐴 et on la note 𝐴−1 .
Démonstration. L’existence est assurée par la définition de l’inversibilité de 𝐴. Supposons qu’il existe deux
matrices 𝐵 et 𝐶 telles que 𝐴𝐵 = 𝐴𝐶 = Id𝑚 . On a alors 𝐴(𝐵 − 𝐶) = 0𝑚,𝑚 , ou encore 𝐴(𝐵𝑘 − 𝐶𝑘 ) = 0𝑚 ,
∀𝑘 ∈ {1, . . . , 𝑚}, où 𝐵𝑘 et 𝐶𝑘 désignent les 𝑘e colonnes de 𝐵 et de 𝐶. Donc 𝐵𝑘 − 𝐶𝑘 ∈ ker(𝐴), ∀𝑘 ∈ {1, . . . , 𝑚}.
Comme 𝐴 est inversible, ker(𝐴) = {0𝑚 }, et donc 𝐵𝑘 − 𝐶𝑘 = 0𝑚 , ∀𝑘 ∈ {1, . . . , 𝑚}. Ou encore 𝐵 = 𝐶.
Propriété 2.4. Si 𝐴 est inversible, alors sa matrice inverse 𝐴−1 est inversible et (𝐴−1 ) −1 = 𝐴.
Démonstration. Soit 𝑋 ∈ ker(𝐴−1 ), càd 𝐴−1 𝑋 = 0𝑚 . Alors on a aussi 𝐴𝐴−1 𝑋 = 0𝑚 . Mais 𝐴𝐴−1 = Id𝑚 et on doit
donc avoir 𝑋 = 0𝑚 . Donc ker(𝐴−1 ) = {0𝑚 } ce qui équivaut à 𝐴−1 inversible : il existe une unique matrice
(𝐴−1 ) −1 telle que 𝐴−1 (𝐴−1 ) −1 = Id𝑚 . Ceci implique que 𝐴𝐴−1 (𝐴−1 ) −1 = 𝐴 et puisque 𝐴𝐴−1 = Id𝑚 , ceci s’écrit
(𝐴−1 ) −1 = 𝐴.
Propriété 2.5 [Inverse du produit de matrices inversibles]. Soient 𝐴 et 𝐵 des matrices carrées de format (𝑚, 𝑚)
et inversibles, et soit 𝛼 un réel non nul. Alors
1. 𝛼𝐴 est inversible, d’inverse 𝛼1 𝐴−1 .
2. 𝐴𝐵 est inversible et on a (𝐴𝐵) −1 = 𝐵 −1 𝐴−1 .
Démonstration.
1. On vérifie directement : 𝛼𝐴 𝛼1 𝐴−1 = 𝛼 𝛼1 𝐴𝐴−1 = Id𝑚 .
2. On a 𝐴𝐵𝐵 −1 𝐴−1 = 𝐴Id𝑚 𝐴−1 = 𝐴𝐴−1 = Id𝑚 . Ceci montre que 𝐴𝐵 est inversible d’inverse 𝐵 −1 𝐴−1 .
Attention : il n’y a pas de résultat de ce type pour l’addition des matrices. En général (𝐴 + 𝐵) −1 ≠ 𝐴−1 + 𝐵 −1 .
Par exemple,si 𝐴 = 𝐵 = Id𝑚 , alors 𝐴−1 = 𝐵 −1 = Id𝑚 et donc 𝐴−1 + 𝐵 −1 = 2Id𝑚 = diag(2, . . . , 2) tandis que
(𝐴 + 𝐵) −1 = (2Id𝑚 ) −1 = 21 Id𝑚 = diag( 12 , . . . , 12 ).
⊤ ⊤ ⊤
pro:invAT Propriété 2.6. Si 𝐴 est une matrice inversible, alors 𝐴 est également inversible, et on a (𝐴 ) −1 = (𝐴−1 ) ; autrement
dit, l’inverse de la transposée est la transposée de l’inverse.
⊤ ⊤ ⊤ ⊤
Démonstration. Comme 𝐴 est inversible, on a 𝐴−1 𝐴 = Id𝑚 et donc (𝐴−1 𝐴) = Id𝑚 , càd 𝐴 (𝐴−1 ) = Id𝑚 . Ceci
⊤ ⊤ ⊤ ⊤
montre que 𝐴 est inversible d’inverse (𝐴−1 ) . Autrement dit (𝐴 ) −1 = (𝐴−1 ) .
Propriété 2.7. Soient 𝐴 une matrice de format (𝑙, 𝑐) et 𝐵 une matrice inversible de format (𝑙, 𝑙). Alors ker(𝐴) =
ker(𝐵𝐴)
25
Démonstration. 𝑋 ∈ ker(𝐴) ⇐⇒ 𝐴𝑋 = 0𝑙 ⇐⇒ 𝐵 −1 𝐵𝐴𝑋 = 0𝑙 ⇐⇒ 𝐵𝐴𝑋 ∈ ker(𝐵 −1 ) ⇐⇒ 𝐵𝐴𝑋 = 0𝑙 ⇐⇒
𝑋 ∈ ker(𝐵𝐴)
sec:invb
2.5.2 Inversion par blocs
On est parfois seulement intéressé par certains éléments de l’inverse d’une matrice 𝐴, et pour les trouver, on
souhaite éviter d’avoir à inverse complètement 𝐴.
Soit 𝐴 une matrice inversible de format (𝑚, 𝑚). On partitionne 𝐴 en
𝐴11 𝐴12
𝐴=
𝐴21 𝐴22
de sorte que 𝐴11 et 𝐴22 soient des matrices carrées inversibles, de formats respectifs (𝑚1 , 𝑚1 ) et (𝑚2 , 𝑚2 ),
avec évidemment 𝑚1 + 𝑚2 = 𝑚. On peut partitionner l’inverse de 𝐴 sous un format identique :
!
𝐴11 𝐴12
𝐴−1 =
𝐴21 𝐴22
On est intéressé uniquement par 𝐴11 . La propriété suivante donne l’expression de 𝐴11 en fonction des blocs
de 𝐴.
−1
𝐴11 = (𝐴11 − 𝐴12 𝐴22 𝐴21 ) −1
et !
© (𝐴11 − 𝐴12 𝐴22 𝐴21 ) ª
−1 −1 −1
−𝐴11 𝐴12 𝐴22
𝐴11 𝐴12
𝐴 −1
= = ®
21 22 −1 11 −1 −1 11 −1
« ¬
𝐴 𝐴 −𝐴22 𝐴21 𝐴 𝐴22 + 𝐴22 𝐴21 𝐴 𝐴12 𝐴22
Démonstration. On écrit la condition 𝐴𝐴−1 = Id𝑚 en effectuant le produit du membre de gauche à partir de
l’écriture par blocs de 𝐴 et de 𝐴−1 , et en partitionnant Id𝑚 de manière identique. Les blocs 𝐴11 , 𝐴12 , 𝐴21 et
𝐴22 de 𝐴−1 doivent donc satisfaire :
! !
𝐴11 𝐴12 𝐴11 𝐴12 Id𝑚1 0𝑚1 ,𝑚2
=
𝐴21 𝐴22 𝐴21 𝐴22 0𝑚2 ,𝑚1 Id𝑚2
ou encore
𝐴11 𝐴11 + 𝐴12 𝐴21 = Id𝑚1
𝐴11 𝐴12 + 𝐴12 𝐴22 = 0𝑚1 ,𝑚2
𝐴 𝐴11 + 𝐴 𝐴21
= 0𝑚2 ,𝑚1
21 22
𝐴21 𝐴 + 𝐴22 𝐴22
12 = Id𝑚2
26
Soit on résoud ce système (par substitution par exemple), soit on vérifie que les égalités sont satisfaites
lorsqu’on remplace 𝐴11 , 𝐴12 , 𝐴21 et 𝐴22 par les expressions données dans l’énoncé de la propriété.
Dans la propriété précédente, on a exprimé l’inverse de la matrice partitionnée 𝐴 en fonction de 𝐴11 , le bloc
NO de 𝐴−1 . Il est également possible d’en donner l’expression à partir du bloc SE 𝐴22 . On peut écrire
!
© 𝐴 + 𝐴11 𝐴12 𝐴 𝐴21 𝐴11 ª
−1 −1 22 −1 −1 𝐴 𝐴22
−𝐴11
𝐴11 𝐴12
= 11 ®
12
𝐴−1 = (5) {eq:invb2}
21 22 22 −1 −1 −1
« ¬
𝐴 𝐴 −𝐴 𝐴21 𝐴11 (𝐴22 − 𝐴21 𝐴11 𝐴12 )
Il est assez difficile de généraliser ce type de formule à des matrices ayant plus de 2 blocs dans chaque
dimension (ligne et colonne). Il y a cependant l’exception des matrices bloc-diagonales, càd des matrices de
la forme
𝐴1 0 · · · 0
© 0 𝐴 ··· 0 ª
®
𝐴 = . . ®
2
®
.. .. · · · .. ®
.
« 0 0 · · · 𝐴𝑘 ¬
Si les blocs diagonaux 𝐴𝑖𝑖 de 𝐴 sont tous des matrices carrées inversible, alors 𝐴 est inversible et on a
© 𝐴1 0 ª
−1 0 ···
®
0 · · · 0 ®®
𝐴2−1
=
.. ®®
𝐴−1
..
. . ®
..
®
. ···
« ¬
0 0 · · · 𝐴𝑘−1
−1 1
0 0 0
© 1 ª © 𝑎1 ª
𝑎 0 0 ··· 0 ···
0 0 ®® 0 0 ®®
1
𝑎2 0 ··· 0 ···
® 𝑎2
®
0 0® = 0
1
0®
® ®
0 𝑎3 ··· 0 ···
.. .. ® .. .. ®
𝑎3
. . ®® . . ®®
.. .. .. .. .. ..
. . . . . .
«0 𝑎𝑚 ¬ «0 𝑎𝑚 ¬
0 0 1
··· 0 0 ···
2.5.3 Déterminant
Le déterminant ne se calcule que pour les matrices carrées de format (𝑚, 𝑚) avec 𝑚 ≥ 2. Il se calcule de
manière récursive à partir du cas de matrices de format (2, 2).
def:det2 Définition 2.3 [Déterminant d’une matrice de format (2, 2)]. Pour une matrice carrée 𝐴 de format (2, 2), le dé-
27
terminant de 𝐴 est le réel noté |𝐴| ou encore det(𝐴), défini par
𝑎 11 𝑎 12
det(𝐴) = |𝐴| = = 𝑎 11 𝑎 22 − 𝑎 12 𝑎 22
𝑎 21 𝑎 22
Pour une matrice carrée 𝐴 de format (𝑚, 𝑚) avec 𝑚 ≥ 2, on définit le déterminant de 𝐴 de manière récursive
à partir du déterminant de matrices carrées formées à partir des éléments de 𝐴.
Définition 2.4 [Matrices mineures]. Soit 𝐴 une matrice de format (𝑚, 𝑚). Pour tout 𝑖, 𝑗 ∈ {1, . . . , 𝑚}, on appelle
matrice mineure de l’élément 𝑎 𝑖𝑗 , et on note 𝐴𝑖𝑗 , la matrice de format (𝑚 − 1, 𝑚 − 1) qu’on obtient en retirant de 𝐴 sa
𝑖 e ligne et sa 𝑗 e colonne.
def:det Définition 2.5 [Déterminant d’une matrice carrée]. Soit 𝐴 une matrice de format (𝑚, 𝑚). Le déterminant de 𝐴
est le réel noté |𝐴| ou encore det(𝐴), défini par
Õ
𝑚
det(𝐴) = |𝐴| = (−1) 𝑖+𝑗 𝑎 𝑖𝑗 det(𝐴𝑖𝑗 )
𝑗=1
Õ
𝑚
= (−1) 𝑖+𝑗 𝑎 𝑖𝑗 det(𝐴𝑖𝑗 )
𝑖=1
La définition fournit deux formules pour calculer det(𝐴). Dans la première, on se fixe une ligne quelconque
𝑖 de 𝐴, et l’indice de sommation parcourt les 𝑚 colonnes de 𝐴 ; on dit qu’on développe le déterminant de
𝐴 selon la 𝑖 e ligne de 𝐴. Dans la seconde, c’est la colonne 𝑗 qui est fixée et on développe le déterminant de
𝐴 selon cette 𝑗 e colonne puisque l’indice de sommation parcourt les 𝑚 lignes de 𝐴. Que l’on choisisse un
développement en ligne ou en colonne, le résultat obtenu reste le même. De plus, on note que lors d’un
développement selon une ligne ou d’une colonne, le résultat obtenu ne dépend pas de la ligne ou de la
colonne choisie.
La définition permet de déduire facilement det(Id𝑚 ) = 1 (on effectue par exemple un raisonnement par
récurrence sur 𝑚, voir exercices).
La propriété suivante sera admise. 6
pro:detf Propriété 2.9. Soit 𝐴 une matrice de format (𝑚, 𝑚). On a les résultats suivants.
pro:detf1 1. Si la 𝑗 e colonne de 𝐴 s’écrit 𝐴𝑗 = 𝜆′𝐶 ′ + 𝜆′′𝐶 ′′. Alors
où 𝐴′ et 𝐴′′ sont des matrices
dont toutes les colonnes sont identiques
à celles de 𝐴, sauf la 𝑗 e, égale à 𝐶 ′ pour 𝐴′ età
′′ ′′ ′ ′′
𝐶 pour 𝐴 , càd 𝐴 = 𝐴1 · · · 𝐴𝑗−1 𝐶 ′ 𝐴𝑗+1 · · · 𝐴𝑚 et 𝐴 = 𝐴1 · · · 𝐴𝑗−1 𝐶 ′′ 𝐴𝑗+1 · · · 𝐴𝑚 .
28
Ou encore si
𝐴 = 𝐴1 ··· 𝐴𝑗−1 𝜆′𝐶 ′ + 𝜆′′𝐶 ′′ 𝐴𝑗+1 ··· 𝐴𝑚
alors
det(𝐴) = 𝜆′ det(𝐴1 · · · 𝐴𝑗−1 𝐶 ′ 𝐴𝑗+1 · · · 𝐴𝑚 ) + 𝜆′′ det(𝐴1 · · · 𝐴𝑗−1 𝐶 ′′ 𝐴𝑗+1 · · · 𝐴𝑚 )
Cette propriété, ainsi que la définition 2.5, permetent de démontrer les propriétés suivantes du déterminant.
pro:det Propriété 2.10. Soit 𝐴 une matrice carrée de format (𝑚, 𝑚).
1. Toute matrice ayant une colonne de 0 a un déterminant nul.
it:deta 2. Soit 𝐵 une matrice de même format que 𝐴, telle que 𝐵𝑗 = 𝛼𝑗 𝐴𝑗 , 𝑗 ∈ {1, . . . , 𝑚} pour des réels 𝛼1 , . . . , 𝛼𝑚 . Alors
det(𝐵) = (𝛼1 × · · · × 𝛼𝑚 ) det(𝐴).
3. Si une matrice a deux colonnes identiques, alors son déterminant est nul.
it:detcl 4. Si 𝐵 est la matrice obtenue à partir de 𝐴 en ajoutant à une colonne de 𝐴 une combinaison linéaire des autres
colonnes de 𝐴, alors det(𝐵) = det(𝐴).
Démonstration.
1. Soit 𝑗 la colonne de 𝐴 qui ne contient que des 0. On utilise la définition 2.5 du déterminant en
développant selon la colonne 𝑗 : on a 𝑎 𝑖𝑗 = 0 pour tout 𝑖 ∈ {1, . . . , 𝑚} et donc det(𝐴) = 0.
On peut également utiliser le point 1 de la propriété 2.9. Soit 𝐴𝑗 la colonne de 𝐴 ne contenant que des 0.
Soit 𝐶 une matrice (𝑚, 1) quelconque. On a alors 𝐴𝑗 = 𝐶−𝐶. Soit 𝐴′ la matrice 𝐴1 · · · 𝐴𝑗−1 𝐶 𝐴𝑗+1 · · · 𝐴𝑚
et soit 𝐴′′ = 𝐴′. On utilise le point 1 de la propriété 2.9, avec 𝐶 ′ = 𝐶 ′′ = 𝐶, 𝐴′ = 𝐴′′ et 𝜆′ = 1, 𝜆′′ = −1 : on
a det(𝐴) = 𝜆′ det(𝐴′) + 𝜆′′ det(𝐴′′) = det(𝐴′) − det(𝐴′) = 0.
2. On utilise le point 1 de la propriété 2.9 (en répétant la démarche 𝑚 fois). Exercice
3. Soit 𝐴 une matrice dont les colonnes 𝑗 et 𝑘 sont identiques et soit 𝐴′ la matrice obtenue à partir de 𝐴
en permutant ces deux colonnes. On doit avoir det(𝐴′) = − det(𝐴) (point 2 de la propriété 2.9). Mais
comme 𝐴𝑗 = 𝐴𝑘 , on a 𝐴′ = 𝐴 et donc det(𝐴′) = det(𝐴). Donc on a nécessairement det(𝐴) = 0.
4. Soient 𝜆1 , . . . , 𝜆𝑚 des réels et soit 𝐵 la matrice obtenue à partir de 𝐴 en remplaçant sa 𝑗 e colonne par
Í
𝑚
𝐴𝑗 + 𝜆𝑖 𝐴𝑖 . On donc
𝑖=1
𝑖≠𝑗
!
Í
𝑚
𝐵 = 𝐴1 ··· 𝐴𝑗−1 𝐴𝑗 + 𝜆𝑖 𝐴𝑖 𝐴𝑗+1 ··· 𝐴𝑚
𝑖=1
𝑖≠𝑗
Õ
𝑚
det(𝐵) = det(𝐴) + 𝜆𝑖 det( 𝐴1 ··· 𝐴𝑗−1 𝐴𝑖 𝐴𝑗+1 ··· 𝐴𝑚 )
𝑖=1
𝑖≠𝑗
29
Si 𝑗 ≠ 𝑖, la matrice 𝐴1 · · · 𝐴𝑗−1 𝐴𝑖 𝐴𝑗+1 · · · 𝐴𝑚 a deux colonnes identiques. Donc pour tout
𝑗 ∈ {1, . . . , 𝑚}, 𝑗 ≠ 𝑖 det( 𝐴1 ··· 𝐴𝑗−1 𝐴𝑖 𝐴𝑗+1 ··· 𝐴𝑚 ) = 0 et donc det(𝐵) = det(𝐴).
Le déterminant possède une propriété permettant de calculer facilement le déterminant d’un produit.
Propriété 2.11. Soient 𝐴 et 𝐵 des matrices de format (𝑚, 𝑚). Alors det(𝐴𝐵) = det(𝐴) det(𝐵).
Corollaire 2.1. Soit 𝐴 une matrice de format (𝑚, 𝑚). Alors 𝐴 est inversible ssi det(𝐴) ≠ 0 ; et dans ce cas det(𝐴−1 ) =
1
det(𝐴)
.
Démonstration. 𝐴 n’est pas inversible signifie que l’une de ses colonnes est une combinaison linéaire des
autres. En procédant comme dans la preuve du point 4 de la propriété 2.10, on peut exprimer le déterminant
de 𝐴 comme une somme de déterminants de matrices ayant au moins deux colonnes identiques. Chacun de
ces déterminants est nul et donc celui de 𝐴 aussi.
Si 𝐴 est inversible, alors on a Id𝑚 = 𝐴𝐴−1 et donc det(Id𝑚 ) = 1 = det(𝐴𝐴−1 ) = det(𝐴) det(𝐴−1 ), ce qui serait
1
impossible si det(𝐴) = 0. On a donc dans ce cas det(𝐴) ≠ 0 et on en déduit donc det(𝐴−1 ) = det(𝐴) .
Attention, en général il n’y a pas de formule de la sorte pour le déterminant d’une somme.
⊤
Propriété 2.12. Soit 𝐴 une matrice (𝑚, 𝑚). On a det(𝐴) = det(𝐴 ).
⊤ ⊤
Démonstration. Pour 𝑖, 𝑗 quelconques dans {1, . . . , 𝑚}, (𝐴𝑖𝑗 ) est la matrice formée à partir de 𝐴 en lui enlevant
la 𝑖 e ligne et la 𝑗 e colonne. Cette ligne et cette colonne sont respectivement la 𝑗 e ligne et la 𝑖 e colonne de 𝐴.
⊤
Donc pour former (𝐴 )𝑖𝑗 on retire la 𝑗 e ligne et la 𝑖 e colonne de 𝐴 et on transpose cette matrice. Or cette
⊤ ⊤
matrice est 𝐴𝑗𝑖 et donc (𝐴 )𝑖𝑗 = 𝐴𝑗𝑖 . On peut alors démontrer la propriété en effectuant une récurrence sur 𝑚.
La propriété est vraie pour 𝑚 = 2 (cela se montre facilement à partir de la définition 2.3). Supposons qu’elle
⊤
le soit pour un entier 𝑚 ≥ 2 et considérons une matrice 𝐴 de format (𝑚 + 1, 𝑚 + 1). Si on note (𝑎 )𝑖𝑗 le (𝑖, 𝑗) e
⊤ ⊤ ⊤
élément de 𝐴 , on a (𝑎 )𝑖𝑗 = 𝑎 𝑗𝑖 , et on peut écrire det(𝐴 ) en faisant un développement selon la 1re ligne
⊤
Õ
𝑚+1
⊤ ⊤
Õ
𝑚+1
⊤
det(𝐴 ) = (−1) 𝑗+1 (𝑎 )1𝑗 det (𝐴 )1𝑗 ) = (−1) 𝑗+1 𝑎 𝑗1 det(𝐴𝑗1 )
𝑗=1 𝑗=1
⊤
Mais 𝐴𝑗1 est une matrice de format (𝑚, 𝑚) et par hypothèse, son déterminant est égal à celui de sa transposée :
⊤
det(𝐴𝑗1 ) = det(𝐴𝑗1 ) et donc
⊤
Õ
𝑚+1
det(𝐴 ) = (−1) 𝑗+1 𝑎 𝑗1 det(𝐴𝑗1 )
𝑗=1
⊤
Le mdd est le développement de det(𝐴) selon la 1re colonne. Donc det(𝐴 ) = det(𝐴).
Cette propriété a la conséquence suivante : dans toutes les propriétés concernant le déterminant d’une
matrice, on peut remplacer le mot “colonne” par le mot “ligne” et vice versa.
Reste à détailler :
* DETERMINANT ET MATRICES BLOC (DONC BLOC TRIANGULAIRE)
* DETERMINANT ET COMPLEMENT DE SCHUR
30
La propriété det(Id𝑚 ) = 1 et le point 2 de la propriété 2.10 permettent de déduire que
Ö
𝑚
det(diag(𝑎 1 , . . . , 𝑎 𝑚 )) = 𝑎𝑖 (6) {eq:detdiag}
𝑖=1
Cette formule se généralise à une matrice bloc-diagonale avec des blocs carrés
Propriété 2.13 [Formule pour le déterminant d’une matrice bloc diagonale]. Soit 𝐶 = diag(𝐴, 𝐵) une matrice
bloc-diagonale, avec 𝐴 et 𝐵 sont des matrices de format respectifs (𝑚, 𝑚) et (𝑛, 𝑛), Alors pour tout 𝑛, 𝑚, on a
Démonstration. On utilise une double récurrence sur la taille des deux blocs de 𝐶
— Initialisation : si les blocs NO et SE de 𝐶 sont de taille (1, 1) et (1, 1), la propriété est vraie d’après (6)
ci-dessus
— Hérédité
— Hérédité sur la taille du bloc NO. Supposons la propriété vraie pour des entiers non nuls 𝑚 − 1 et
𝑛 − 1 quelconques. Soit 𝐶 une matrice bloc diagonale, dont on note 𝐴 le bloc NO de format (𝑚, 𝑚)
et 𝐵 le bloc SE de format (𝑛 − 1, 𝑛 − 1) ; on a
𝐴 0
𝐶= ⊤
0 𝐵
où le 0 est de format (𝑚, 𝑛 − 1). Si on écrit le déterminant de 𝐶 en développant selon sa 1re colonne,
on a
Õ
𝑚+𝑛−1 Õ
𝑚
det(𝐶) = (−1) 𝑖+1 𝑐𝑖1 det(𝐶𝑖1 ) = (−1) 𝑖+1 𝑎 𝑖1 det(𝐶𝑖1 )
𝑖=1 𝑖=1
car (
𝑎 𝑖1 pour 𝑖 ∈ {1, . . . , 𝑚}
𝑐𝑖1 =
0 pour 𝑖 ∈ {𝑚 + 1, . . . , 𝑚 + 𝑛 − 1}
Pour 𝑖 ∈ {1, . . . , 𝑚}, la sous-matrice 𝐶𝑖1 est obtenue en enlevant la 𝑖 e ligne et la 1re colonne de 𝐶 qui
apparaissent grisées ci-dessous :
© 11 ª
𝑎 𝑎 12 ··· 𝑎 1𝑗 ··· 𝑎 1𝑚 0 ··· 0
.. ®
. ®
.. .. .. .. ..
. ··· . ··· . . ··· . ®
®
𝑎 𝑖1 0 0 ®
. ®
𝑎 𝑖2 ··· 𝑎 𝑖𝑗 ··· 𝑎 𝑖𝑚 ···
. ®
®
.. .. .. .. ..
𝐶= . . ··· . ··· . . ··· .
®
𝑎 ®
𝑚1 𝑎 𝑚2 ··· 𝑎 𝑚𝑗 ··· 𝑎 𝑚𝑚 0 ··· 0 ®
®
0 ®
®
0 ··· 0 ··· 0
.. ®
. ®
.. .. ..
. ··· . ··· . B ®
« 0 0 ··· 0 ··· 0 ¬
31
Donc 𝐶𝑖1 est bloc-diagonale, de la forme
𝐴𝑖1 0
𝐶𝑖1 = ⊤
0 𝐵
où 𝐴𝑖1 est la matrice obtenue en enlevant la 𝑖 e ligne et la 1re colonne de 𝐴, et 0 est une matrice de
format (𝑚 − 1, 𝑛 − 1). Comme on a supposé la propriété vraie pour les entiers 𝑚 − 1 et 𝑛 − 1, on a
et donc
Õ
𝑚 Õ
𝑚
det(𝐶) = (−1) 𝑖+1 𝑎 𝑖1 det(𝐴𝑖1 ) det(𝐵) = det(𝐵) (−1) 𝑖+1 𝑎 𝑖1 det(𝐴𝑖1 ) = det(𝐵) det(𝐴)
𝑖=1 𝑖=1
Donc la propriété est vraie lorsque le bloc NO est de format (𝑚, 𝑚) et le bloc SE de format
(𝑛 − 1, 𝑛 − 1).
— Hérédité sur la taille du bloc SE. On suppose que 𝐶 = diag(𝐴, 𝐵) avec 𝐴 de format (𝑚, 𝑚) et 𝐵 de
format (𝑛, 𝑛). On écrit son déterminant en développant selon sa dernière colonne
Õ
𝑚+𝑛 Õ
𝑚+𝑛
det(𝐶) = (−1) 𝑖+𝑚+𝑛 𝑐𝑖,𝑚+𝑛 det(𝐶𝑖,𝑚+𝑛 ) = (−1) 𝑖+𝑚+𝑛 𝑏𝑖−𝑚,𝑛 det(𝐶𝑖,𝑚+𝑛 )
𝑖=1 𝑖=𝑚+1
car (
0 si 𝑖 ∈ {1, . . . , 𝑚}
𝑐𝑖,𝑚+𝑛 =
𝑏𝑖−𝑚,𝑛 𝑖 ∈ {𝑚 + 1, . . . , 𝑚 + 𝑛}
De manière semblable ce qui a été fait dans le point précédent, lorsque 𝑖 ∈ {𝑚 + 1, . . . , 𝑚 + 𝑛}, la
matrice 𝐶𝑖,𝑚+𝑛 est la matrice bloc-diagonale 𝐶𝑖,𝑚+𝑛 = diag(𝐴, 𝐵𝑖−𝑚,𝑛−1 ) avec un bloc NO de format
(𝑚, 𝑚) et un bloc SE de format (𝑛 − 1, 𝑛 − 1). D’après le point précédent, on a det(𝐶𝑖,𝑚+𝑛 ) =
det(𝐴) det(𝐵𝑖−𝑚,𝑛−1 ) et donc
Õ
𝑚+𝑛
det(𝐶) = (−1) 𝑖+𝑚+𝑛 𝑏𝑖−𝑚,𝑛 det(𝐴) det(𝐵𝑖−𝑚,𝑛−1 )
𝑖=𝑚+1
Õ
𝑚+𝑛
= det(𝐴) (−1) 𝑖+𝑚+𝑛 𝑏𝑖−𝑚,𝑛 det(𝐵𝑖−𝑚,𝑛−1 )
𝑖=𝑚+1
Õ 𝑛
= det(𝐴) (−1) 𝑗+2𝑚+𝑛 𝑏𝑗,𝑛 det(𝐵𝑗,𝑛−1 )
𝑗=1
Õ
𝑛
= det(𝐴) (−1) 𝑗+𝑛 𝑏𝑗,𝑛 det(𝐵𝑗,𝑛−1 )
𝑗=1
= det(𝐴) det(𝐵)
Donc la propriété est vraie lorsque le bloc NO est de format (𝑚, 𝑚) et le bloc SE est de format
(𝑛, 𝑛).
On a donc montré que si la propriété det(diag(𝐴, 𝐵)) = det(𝐴) det(𝐵) est vraie lorsque les blocs 𝐴 et 𝐵
32
sont de format respectif (𝑚 − 1, 𝑚 − 1) et (𝑛 − 1, 𝑛 − 1), alors cela entraîne que cette propriété est vraie
pour des blocs de format (𝑚, 𝑚) et (𝑛, 𝑛).
La propriété a été initialisée et elle est héréditaire sur le nombre de lignes et de colonnes des blocs. Elle est
donc vraie pour toute les tailles de blocs.
2.5.4 Rang
Définition 2.6 [Rang d’une matrice]. Le rang d’une matrice 𝐴 de format (𝑙, 𝑐) est le rang de {𝐴1 , . . . , 𝐴𝑐 }, càd la
dimension de Im(𝐴). On le note rg(𝐴).
On a nécessairement rg(𝐴) ≤ 𝑐. Lorsque rg(𝐴) = 𝑐, on dit que 𝐴 est de plein rang. Ceci signifie aussi que si
pour un vecteur 𝑋 ∈ ℝ𝑐 on a 𝐴𝑋 = 0𝑙 , alors 𝑋 = 0𝑐 .
Dans le cas d’une matrice carrée 𝐴 de format (𝑐, 𝑐), la propriété 2.2 permet de déduire que 𝐴 est inversible
ssi rg(𝐴) = 𝑐.
On a le résultat suivant très important sur les propriétés des matrices.
Propriété 2.14 [Théorème du rang]. Soit 𝐴 est une matrice de format (𝑙, 𝑐) ; on note 𝑑 la dimension de ker(𝐴). On
a 𝑐 = rg(𝐴) + 𝑑
Démonstration. On montre que rg(𝐴) = 𝑐 − 𝑑. Soient 𝐾1 , . . . , 𝐾𝑑 des vecteurs formant une base de ker(𝐴). On
peut compléter ces vecteurs par 𝑟 ≔ 𝑐 − 𝑑 vecteurs 𝐺1 , . . . , 𝐺𝑟 de sorte que les 𝑐 vecteurs 𝐾1 , . . . , 𝐾𝑑 , 𝐺1 , . . . , 𝐺𝑟
Í
forment une base de ℝ𝑐 . Soit 𝑋 ∈ Im(𝐴) = Vect{𝐴1 , . . . , 𝐴𝑐 }, càd 𝑋 = 𝑐𝑖=1 𝐴𝑖 𝜇𝑖 pour des réels 𝜇1 , . . . , 𝜇𝑐 , ou
encore 𝑋 = 𝐴𝜇 (voir (2)). Mais 𝜇 peut être vu comme un élément de ℝ𝑐 qu’on peut donc écrire en fonction
des vecteurs de la base {𝐾1 , . . . , 𝐾𝑑 , 𝐺1 , . . . , 𝐺𝑟 } càd
Õ
𝑑 Õ
𝑟
𝜇= 𝛼𝑖 𝐾𝑖 + 𝛽𝑗 𝐺𝑗
𝑖=1 𝑗=1
Donc
Õ
𝑑 Õ
𝑟 Õ
𝑑 Õ
𝑟 Õ
𝑟
𝑋 = 𝐴𝜇 = 𝐴( 𝛼𝑖 𝐾𝑖 + 𝛽𝑗 𝐺𝑗 ) = 𝛼𝑖 𝐴𝐾𝑖 + 𝛽𝑗 𝐴𝐺𝑗 = 𝛽𝑗 𝐴𝐺𝑗
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑗=1
Í𝑟
puisque 𝐾1 , . . . , 𝐾𝑑 sont dans ker(𝐴). On peut donc écrire 𝑋 sous la forme 𝑋 = 𝑗=1 𝛽𝑗 𝐻𝑗 avec
Donc les vecteurs 𝐻1 , . . . , 𝐻𝑟 engendrent Im(𝐴). Ces vecteurs sont également linéairement indépendants. En
effet supposons qu’on ait
Õ
𝑟
𝛾𝑗 𝐻𝑗 = 0𝑙
𝑗=1
Í
pour certains réels 𝛾1 , . . . , 𝛾𝑟 . On aurait alors 𝑟𝑗=1 𝛾𝑗 𝐴𝐺𝑗 = 0𝑙 , par définition des 𝐻𝑗 (voir (7)), ou encore
Í Í
𝐴 𝑟𝑗=1 𝛾𝑗 𝐺𝑗 = 0𝑙 . Ceci signifie donc que 𝑟𝑗=1 𝛾𝑗 𝐺𝑗 ∈ ker(𝐴). Dans ce cas, ce vecteur s’écrit comme une CL de
33
Í𝑟 Í𝑑
𝐾1 , . . . , 𝐾𝑑 et donc 𝑗=1 𝛾𝑗 𝐺𝑗 = 𝑖=1 𝛿𝑖 𝐾𝑖 , ou encore (avec 𝜌𝑖 = −𝛿𝑖 ) :
Õ
𝑟 Õ
𝑑
𝛾𝑗 𝐺𝑗 + 𝜌𝑖 𝐾𝑖 = 0𝑐
𝑗=1 𝑖=1
Le théorème du rang peut donc s’énoncer : le rang d’une matrice est égal à son nombre de colonnes moins
la dimension de son noyau.
Propriété 2.15. Une matrice carrée 𝐴 de format (𝑐, 𝑐) est inversible ssi rg(𝐴) = 𝑐.
Démonstration. 𝐴 est inversible ssi ker(𝐴) = {0𝑐 } (voir propriété 2.2), càd ssi dim ker(𝐴) = 0 et d’après le
théorème du rang, ceci équivaut à rg(𝐴) = 𝑐 − dim(ker(𝐴)) = 𝑐.
pro:rgker Propriété 2.16. Deux matrices 𝐴 et 𝐵 ayant le même nombre de colonnes ont le même rang ssi leurs noyaux sont de
dimensions égales.
Propriété 2.17. On ne change pas la rang de 𝐴 en permutant ses colonnes ou en les multipliant par des réels tous
non-nuls
Démonstration. Peut se montrer en utilisant le théorème du rang, puisqu’avec ces opérations sur 𝐴, on ne
change ni le noyau, ni le nombre de colonnes
Le résultat suivant a son intérêt propre, mais il sert également à obtenir facilement d’autres résultats impor-
tants.
pro:rg Propriété 2.18. Soient 𝐴 une matrice de format (𝑙, 𝑐) et 𝑄 une matrice de format (𝑐, 𝑑) ; alors rg(𝐴𝑄) ≤ rg(𝐴)
⊤ ⊤
Démonstration. 𝑋 ∈ ker(𝐴) =⇒ 𝑋 ∈ ker(𝐴 𝐴), puisque 𝐴𝑋 = 0𝑙 =⇒ 𝐴 𝐴𝑋 = 0𝑐 . La réciproque est
⊤ ⊤ ⊤ ⊤
également vraie, puisque 𝐴 𝐴𝑋 = 0𝑐 =⇒ 𝑋 𝐴 𝐴𝑋 = 0. Mais en notant 𝑈 = 𝐴𝑋, ceci équivaut à 𝑈 𝑈 = 0
⊤
ou encore 𝑈 = 0𝑙 , càd 𝐴𝑋 = 0𝑙 . Les noyaux de 𝐴 et de 𝐴 𝐴 sont identiques, et ils sont donc de même
34
⊤
dimension. Comme 𝐴 et 𝐴 𝐴 ont le même nombre de colonnes, par le théorème du rang, elles ont le même
⊤ ⊤ ⊤ ⊤
rang : rg(𝐴) = rg(𝐴 𝐴). Mais d’après la propriété 2.18, on a rg(𝐴 𝐴) ≤ rg(𝐴 ), et donc rg(𝐴) ≤ rg(𝐴 ). On
⊤ ⊤ ⊤
applique ensuite le même raisonnement à la matrice 𝐵 ≔ 𝐴 et on obtient rg(𝐵) = rg(𝐵 𝐵) ≤ rg(𝐵 ), ou
⊤ ⊤ ⊤
encore en utilisant la définition de 𝐵 : rg(𝐴 ) = rg(𝐴𝐴 ) ≤ rg(𝐴), et donc rg(𝐴 ) ≤ rg(𝐴). On doit donc avoir
⊤
rg(𝐴 ) = rg(𝐴).
On voit donc que le rang de 𝐴 est aussi le nombre maximum de lignes de 𝐴 linéairement indépendantes
(voir aussi le corollaire 2.2).
pro:paq Propriété 2.20. Soit 𝐴 une matrice de format (𝑙, 𝑐) et soient 𝑃 de format (𝑙, 𝑙) et 𝑄 de format (𝑐, 𝑐), toutes deux
inversibles. Alors rg(𝑃𝐴𝑄) = rg(𝐴)
Démonstration.
1. On pose 𝐵 ≔ 𝐴𝑄. On a rg(𝐵) = rg(𝐴𝑄) ≤ rg(𝐴) d’après la propriété 2.18. Mais on a aussi 𝐴 = 𝐵𝑄−1
et donc rg(𝐴) = rg(𝐵𝑄−1 ) ≤ rg(𝐵) encore d’après la propriété 2.18. Donc rg(𝐵) = rg(𝐴), càd rg(𝐴𝑄) =
rg(𝐴).
2. Par ailleurs, 𝑋 ∈ ker(𝐴) ⇐⇒ 𝐴𝑋 = 0𝑐 =⇒ 𝑃𝐴𝑋 = 0𝑐 =⇒ 𝑋 ∈ ker(𝑃𝐴) ; réciproquement,
𝑋 ∈ ker(𝑃𝐴) ⇐⇒ 𝑃𝐴𝑋 = 0𝑐 =⇒ 𝑃 −1 𝑃𝐴𝑋
= 0𝑐 =⇒ 𝐴𝑋 = 0𝑐 =⇒ 𝑋 ∈ ker(𝑃𝐴). Donc ∀𝑋 ∈ ℝ𝑐 , on
a 𝑋 ∈ ker(𝐴) ⇐⇒ 𝑋 ∈ ker(𝑃𝐴), ce qui équivaut à ker(𝐴) = ker(𝑃𝐴). Comme 𝐴 et 𝑃𝐴 ont le même
nombre de colonnes, le théorème du rang permet de conclure que rg(𝑃𝐴) = rg(𝐴).
3. Finalement, en posant 𝐶 = 𝑃𝐴, on a
Remarque : sous les conditions de la propriété 2.20 on peut donner une preuve directe de rg(𝐴) = rg(𝐴𝑄)
qui ne s’appuie pas sur la propriété 2.18, mais qui établit que Im(𝐴) = Im(𝐴𝑄), ce qui entraîne donc
rg(𝐴) = rg(𝐴𝑄). Soit 𝑌 ∈ Im(𝐴), càd 𝑌 = 𝐴𝑋 pour un 𝑋 ∈ ℝ𝑐 . Alors on a aussi 𝑌 = 𝐴𝑄𝑄−1 𝑋 = 𝐴𝑄𝑍, avec
𝑍 = 𝑄−1 𝑋, càd 𝑌 ∈ Im(𝐴𝑄). Réciproquement, soit 𝑌 ∈ Im(𝐴𝑄), càd 𝑌 = 𝐴𝑄𝑋 pour un 𝑋 ∈ ℝ𝑐 . Alors 𝑌 = 𝐴𝑍
avec 𝑍 = 𝑄𝑋 càd 𝑌 ∈ Im(𝐴). Donc on a montré que ∀𝑌 ∈ ℝ𝑐 , on a 𝑌 ∈ Im(𝐴) ⇐⇒ 𝑌 ∈ Im(𝐴𝑄), ce qui
équivaut à Im(𝐴) = Im(𝐴𝑄).
cor:mindim Corollaire 2.2. rg(𝐴) ≤ min{𝑙, 𝑐}
Démonstration. On a rg(𝐴) ≤ 𝑐 d’après la définition de rg(𝐴). Soit 𝑃 une matrice de format (𝑙, 𝑙) inversible.
On a rg(𝐴) = rg(𝑃 −1 𝑃𝐴) ≤ rg(𝑃 −1 𝑃) = rg(𝐼𝑙 ) = 𝑙 où l’inégalité provient de la propriété 2.18.
⊤
Remarque : pour obtenir l’inégalité rg(𝐴) ≤ 𝑙, on peut aussi voir qu’en posant 𝐵 = 𝐴 , la propriété 2.19
permet d’écrire rg(𝐴) = rg(𝐵). Mais par définition, rg(𝐵) est inférieur ou égal au nombre de colonnes de 𝐵,
càd à 𝑙.
Propriété 2.21. rg(𝐴𝐵) ≤ min{rg(𝐴), rg(𝐵)}
⊤ ⊤ ⊤ ⊤
Démonstration. On sait déjà que rg(𝐴𝐵) ≤ rg(𝐴). On a aussi rg(𝐴𝐵) = rg((𝐴𝐵) ) = rg(𝐵 𝐴 ) ≤ rg(𝐵 ) =
rg(𝐵).
35
2.6 Diagonalisation des matrices
On dit que des matrices carrées 𝐴 et 𝐵 sont semblables s’il existe une matrice inversible 𝑉 telle que 𝐴 = 𝑉𝐵𝑉 −1 .
Des matrices semblables ont le même format (égal à celui de 𝑉), le le même rang (voir propriété 2.20) ; la
dimension de leur noyau est donc la même.
def:matd Définition 2.7 [Matrice diagonalisable]. On dit qu’une matrice carrée 𝐴, de format (𝑐, 𝑐) est diagonalisable dans
ℝ si elle est semblable à une matrice diagonale : il existe une matrice Λ = diag(𝜆1 , . . . , 𝜆𝑐 ), avec 𝜆𝑖 ∈ ℝ, ∀𝑖 ∈ {1, . . . , 𝑐},
et une matrice carrée inversible 𝑉 telle que 𝐴 = 𝑉Λ𝑉 −1
Ceci équivaut à 𝑉𝑖 ∈ ker(𝐴 − 𝜆𝑖 Id𝑐 ), ∀𝑖 ∈ {1, . . . , 𝑐}. Si ker(𝐴 − 𝜆𝑖 Id𝑐 ) était réduit à {0𝑐 }, càd si 𝐴 − 𝜆𝑖 Id𝑐 était
inversible, alors on aurait 𝑉𝑖 = 0𝑐 et dans ce cas 𝑉 ne serait pas inversible. Donc si 𝐴 est diagonalisable, il
n’est pas possible que 𝐴 − 𝜆𝑖 Id𝑐 soit inversible. Donc une condition nécessaire pour que 𝐴 soit diagonalisable
est qu’il existe des réels 𝜆1 , . . . , 𝜆𝑐 tels que det(𝐴 − 𝜆𝑖 Id𝑐 ) = 0.
Ce n’est pas une condition suffisante. En effet, supposons qu’on ait pu trouver 𝑐 réels 𝜆1 , . . . , 𝜆𝑐 tels que
det(𝐴 − 𝜆𝑖 Id𝑐 ) = 0, ∀𝑖 ∈ {1, . . . , 𝑐}. Dans ce cas, ker(𝐴 − 𝜆𝑖 Id𝑐 ) ≠ {0𝑐 } pour tout 𝑖 ∈ {1, . . . , 𝑐} et on peut trouver
𝑐 vecteurs 𝑉1 .. . , 𝑉𝑐 tous non nuls tels que 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 , ∀𝑖 ∈ {1, . . . , 𝑐}, càd 𝐴𝑉 = Λ𝑉, où Λ = diag(𝜆1 , . . . , 𝜆𝑐 ) et
𝑉 = 𝑉1 · · · 𝑉𝑐 . Cependant, rien n’assure que 𝑉 soit inversible. Donc la question de la diagonalisation de 𝐴
équivaut à la recherche de 𝑐 couples (𝜆𝑖 , 𝑉𝑖 ), avec 𝜆𝑖 ∈ ℝ et 𝑉𝑖 ∈ ℝ𝑐 , 𝑖 ∈ {1, . . . , 𝑐}, tels que
— 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 , ∀𝑖 ∈ {1, . . . , 𝑐}
— 𝑉1 , . . . , 𝑉𝑝 sont linéairement indépendants
Notons qu’on a toujours l’équivalence suivante pour tout réel 𝜆 :
det(𝐴 − 𝜆Id𝑐 ) = 0 ⇐⇒ ∃𝑋 ∈ ℝ𝑐 , 𝑋 ≠ 0𝑐 , 𝐴𝑋 = 𝜆𝑋
Définition 2.8 [Valeur propre. Vecteur propre]. Tout réel 𝜆 tel que det(𝐴 − 𝜆Id𝑐 ) = 0 est appelé valeur propre de
𝐴. Ceci équivaut à ker(𝐴 − 𝜆Id𝑐 ) ≠ {0𝑐 }. Tout vecteur 𝑋 ∈ ker(𝐴 − 𝜆Id𝑐 ) avec 𝑋 ≠ 0𝑐 est appelé vecteur propre de 𝐴
associé à la valeur propre 𝜆.
D’après la définition, pour que 𝐴 admette au moins une valeur propre, il faut que l’équation det(𝐴 −𝜆Id𝑐 ) = 0
admette au moins une solution dans ℝ. Ce n’est pas nécessairement le cas (voir plus loin) et donc il est possible
qu’une matrice ne possède pas de valeurs propres. Et dans ce cas elle ne possède pas de vecteurs propres
puisqu’on aura nécessairement det(𝐴 − 𝜆Id𝑐 ) ≠ 0 pour tout réel 𝜆, ce qui signifie la matrice 𝐴 − 𝜆Id𝑐 est
inversible pour tout 𝜆 ∈ ℝ. Dans ce cas, on a (𝐴 − 𝜆Id𝑐 )𝑋 = 0𝑐 ⇐⇒ 𝑋 = 0𝑐 , ou encore 𝐴𝑋 = 𝜆𝑋 ⇐⇒ 𝑋 = 0𝑐 .
La matrice 𝐴 ne peut donc avoir de vecteur propre.
36
On constate que pour une même valeur propre, il existe une infinité de vecteurs propres associés. En effet
si 𝜆 est une valeur propre de 𝐴, chaque élément de ker(𝐴 − 𝜆Id𝑐 ) est un vecteur propre de 𝐴. Cet ensemble
est un espace vectoriel non réduit à {0𝑐 }. Il contient donc une infinité d’éléments. Ceci montre en particulier
que si 𝑉1 , . . . , 𝑉𝑞 sont des vecteurs propres associés à 𝜆, alors toute combinaison linéaire non nulle de ces
vecteurs est également un vecteur propre associé à 𝜆. Cela peut aussi se vérifier directement :
En pratique, lorsqu’il s’agira de rechercher des vecteurs propres d’une matrice, on utilisera la convention de
ne chercher que des vecteurs propres de norme égale à 1, ce qui simplifie considérablement certains calculs.
De plus si on doit chercher des vecteurs propres associés à une valeur propre 𝜆, on choisira des éléments
d’une base de ker(𝐴 − 𝜆Id𝑐 ) (et donc linéairement indépendants).
Grâce au vocabulaire introduit dans la définition précédente, on peut énoncer une propriété qui résume les
commentaires qui suivent la définition 2.7.
pro:diagcns Propriété 2.22. 𝐴 est diagonalisable ssi il existe 𝑐 vecteurs propres de 𝐴 linéairement indépendants.
Démonstration. En effet, si 𝐴 est diagonalisable, les 𝑐 colonnes de 𝑉 sont des vecteurs propres et comme 𝑉
est inversible, ces vecteurs sont linéairement indépendants. Réciproquement, si 𝐴 admet 𝑐 vecteurs propres
𝑉1 , . . . , 𝑉𝑐 linéairement indépendants, en notant les valeurs propres 𝜆1 , . . . , 𝜆𝑐 qui leur sont associées (par
forcément deux à deux distinctes), alors on a
𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 𝑖 ∈ {1, . . . , 𝑐}
ou encore 𝐴𝑉 = 𝑉Λ où 𝑉 est la matrice dont les colonnes sont 𝑉1 , . . . , 𝑉𝑐 et Λ = diag(𝜆1 , . . . , 𝜆𝑐 ). Comme les
vecteurs propres sont linéairement indépendants, 𝑉 est inversible et donc l’égalité précédente équivaut à
𝐴 = 𝑉Λ𝑉 −1 .
On note 𝐸𝜆∗ l’ensemble des vecteurs propres de 𝐴 associés à la valeur propre 𝜆, càd 𝐸𝜆∗ ≔ {𝑋 ∈ ℝ𝑐 | 𝑋 ≠
0𝑐 , 𝐴𝑋 = 𝜆𝑋}, et on définit 𝐸𝜆 ≔ 𝐸𝜆∗ ∪ {0𝑐 }.
On peut démontrer la propriété suivante
Démonstration. Voir exercices pour les 2 premiers points. Le 3e point est une conséquence des deux premiers
et de la propriété 1.13.
37
— Le point 2 de la propriété se généralise à un nombre quelconque 𝑚 de valeurs propres distinctes de
𝐴. Cela signifie que les 𝑚 sous-espaces propres associés à 𝑚 valeurs propres distinctes sont en somme
directe.
— Si 𝐴 est une matrice de format (𝑐, 𝑐), elle a au plus 𝑐 valeurs propres distinctes. En effet, si ce n’était pas
le cas, on aurait plus de 𝑐 vecteurs de ℝ𝑐 linéairement indépendants, ce qui est impossible.
— Une autre conséquence est la propriété suivante
pro:ldi Propriété 2.24. Si 𝐴 admet 𝑐 valeurs propres deux à deux distinctes, alors 𝐴 est diagonalisable.
Démonstration. Si 𝐴 admet 𝑐 valeurs propres deux à deux distinctes 𝜆1 , . . . , 𝜆𝑐 , alors on peut trouver 𝑐 vecteurs
propres 𝑉1 , . . . , 𝑉𝑐 de 𝐴, avec 𝑉𝑘 ∈ 𝐸𝜆𝑘 , ∀𝑘 ∈ {1, . . . , 𝑐}. Or ces 𝑐 vecteurs propres étant associés à des valeurs
propres distinctes, ils sont linéairement indépendants. La propriété 2.22 permet de conclure.
Attention, la réciproque n’est pas vraie : il se peut que des matrices soient diagonalisables sans pour autant
avoir des valeurs propres distinctes. Par exemple la matrice identité 𝐴 = Id𝑐 est diagonalisable : il suffit de
prendre Λ = Id𝑐 et 𝑉 = Id𝑐 . Λ est bien diagonale, 𝑉 est bien inversible, et on a bien 𝐴 = 𝑉Λ𝑉 −1 . Cependant
les éléments diagonaux de Λ, qui sont les valeurs propres de 𝐴 ne sont pas distincts. De fait, toute valeur
propre de 𝐴 = Id𝑐 est égale à 1, puisque dans ce cas, det(𝐴 − 𝜆Id𝑐 ) est det(Id𝑐 − 𝜆Id𝑐 ) et on a
Commençons par envisager le cas d’une matrice 𝐴 qui est diagonalisable. Pour déterminer ses valeurs
propres, il faut résoudre l’équation det(𝐴 − 𝜆Id𝑐 ) = 0. Comme 𝐴 = 𝑉Λ𝑉 −1 , on a nécessairement 𝑉 −1 𝐴𝑉 = Λ.
Donc, comme det(𝑉 −1 ) det(𝑉) = 1, on peut écrire
Î𝑐
Mais Λ − 𝜆Id𝑐 = diag(𝜆1 − 𝜆, · · · , 𝜆𝑐 − 𝜆) et donc det(Λ − 𝜆Id𝑐 ) = 𝑘=1 (𝜆𝑖 − 𝜆). D’où
Ö
𝑐
det(𝐴 − 𝜆Id𝑐 ) = (𝜆𝑖 − 𝜆)
𝑘=1
Cette expression de det(𝐴 − 𝜆Id𝑐 ) montre 2 choses pour une matrice 𝐴 diagonalisable :
— det(𝐴 − 𝜆Id𝑐 ) est un polynôme de degré 𝑐 en 𝜆 ;
— les valeurs propres de 𝐴 sont les racines de ce polynôme.
On le note 𝑃𝐴 (𝜆) le polynôme det(𝐴 − 𝜆Id𝑐 ), et on l’appelle polynôme caractéristique de 𝐴. Toute racine de
𝑃𝐴 (𝜆) est une valeur propre de 𝐴.
38
Il se trouve que pour toute matrice carrée 𝐴 de format (𝑐, 𝑐), et pas seulement pour les matrices diagonali-
sables, det(𝐴 − 𝜆Id𝑐 ) est un polynôme de degré 𝑐, appelé également polynôme caractéristique (on admettra
ce résultat).
Comme tout polynôme à coefficients réels de degré 𝑐, 𝑃𝐴 (𝜆) a exactement 𝑐 racines complexes et peut
avoir des racines multiples. Pour que 𝐴 soit diagonalisable (dans ℝ), il faut que toutes les racines du
polynôme caractéristique soient réelles. Une condition nécessaire et suffisante pour cela est que le polynôme
caractéristique de 𝐴 s’écrive sous la forme de produits de polynômes de degré 1 à coefficients réels (on dit
que 𝑃𝐴 (𝜆) est scindé dans ℝ). En effet, si c’est le cas, on peut écrire 𝑃𝐴 (𝜆) sous la forme
Ö
𝑐
𝑃𝐴 (𝜆) = 𝑎 (𝜆 − 𝜆𝑖 )
𝑖=1
pour certains réels 𝑎 ≠ 0 et 𝜆1 , . . . , 𝜆𝑐 (ces réels ne sont pas nécessairement distincts deux à deux). Donc
ce polynôme a pour racines 𝜆1 , . . . , 𝜆𝑐 qui sont par définition des valeurs propres de 𝐴. Réciproquement,
si 𝜆1 , . . . , 𝜆𝑑 (avec 𝑑 ≤ 𝑐) sont les racines distinctes de 𝑃𝐴 (𝜆), alors on peut écrire ce polynôme comme
Î
𝑎 𝑑𝑖=1 (𝜆 − 𝜆𝑖 ) 𝑚𝑖 où 𝑚𝑖 est le degré de multiplicité de la racine 𝜆𝑖 .
Lorsque le polynôme 𝑃𝐴 (𝜆) est scindé dans ℝ, on doit s’intéresser à ses racines (valeurs propres de 𝐴) et
pour chacune, à son degré de multiplicité. On note 𝑑 (avec 1 ≤ 𝑑 ≤ 𝑐) le nombre de racines réelles distinctes,
𝜆1 , . . . , 𝜆𝑑 les racines, et 𝑚1 , . . . , 𝑚𝑑 leur degré de multiplicité, avec 𝑚1 + · · · + 𝑚𝑑 = 𝑐.
Une fois qu’on a obtenu les valeurs propres distinctes de 𝐴, on doit chercher 𝑐 vecteurs propres linéairement
indépendants, chacun de norme égale à 1, comme on l’a indiqué précédemment. Si les racines sont toutes
distinctes (𝑐 = 𝑑), alors c’est toujours possible (voir la propriété 2.24). Si ce n’est pas le cas, il faut qu’on
puisse trouver dans 𝐸𝜆𝑖 exactement 𝑚𝑖 vecteurs linéairement indépendants (ce qui requiert que 𝐸𝜆𝑖 soit de
dimension au moins égale à 𝑚𝑖 ) ; on notera ces vecteurs 𝑉1𝑖 , . . . , 𝑉𝑚𝑖 𝑖 . Si c’est possible pour tout 𝑖 = 1, . . . , 𝑑
alors les 𝑐 vecteurs propres
𝑉11 , . . . , 𝑉𝑚1 1 , 𝑉12 , . . . , 𝑉𝑚2 2 , . . . , 𝑉1𝑑 , . . . , 𝑉𝑚𝑑𝑑
sont linéairement indépendants (voir la propriété 2.23), il suffit de prendre comme matrice Λ et 𝑉 les matrices
suivantes :
𝑉 = 𝑉11 · · · 𝑉𝑚1 1 𝑉12 · · · 𝑉𝑚2 2 · · · 𝑉1𝑑 · · · 𝑉𝑚𝑑𝑑
et
Λ = diag(𝜆1 , . . . , 𝜆1 , 𝜆2 , . . . , 𝜆2 , . . . , 𝜆𝑑 , . . . , 𝜆𝑑 )
| {z } | {z } | {z }
𝑚1 fois 𝑚2 fois 𝑚𝑑 fois
On note au passage qu’une condition suffisante pour 𝐴 soit diagonalisable est que chaque sous-espace propre
soit de dimension au moins égale à 𝑚𝑖 , le degré de multiplicité de la 𝑖 e valeur propre distincte de 𝐴, et ceci
pour tout 𝑖 = 1, . . . , 𝑑. Mais si l’un de ces espaces a une dimension strictement supérieure à ce degré, cela
signifie qu’on peut trouver plus de 𝑚1 + · · · + 𝑚𝑑 = 𝑐 vecteurs linéairement indépendants de ℝ𝑐 , ce qui est
impossible. Donc si une matrice 𝐴 est diagonalisable, le degré de multiplicité de chaque valeur propre de 𝐴
est égal à la dimension du sous-espace propre associé. Cette condition, avec la propriété que 𝑃𝐴 (𝜆) est scindé
dans ℝ, est une condition nécessaire et suffisante pour que 𝐴 soit diagonalisable.
39
2.6.3 Quelques propriétés des matrices diagonalisables
Propriété 2.25. Soit 𝐴 une matrice diagonalisable. Alors la somme de ses valeurs propres est égale à sa trace ; le produit
de ses valeurs propres est égal à son déterminant.
Démonstration. Exercice
On peut en déduire qu’une matrice est non inversible ssi 0 est l’une de ses valeurs propres (Exercice)
On mentionne que la propriété précédente est vraie même si 𝐴 n’est pas diagonalisable (admis). 7
Propriété 2.26. Si 𝐴 est diagonalisable et qu’aucune de ses valeurs propres est nulle, 𝐴 est inversible. Son inverse est
diagonalisable et a pour valeurs propres les inverses des valeurs propres de 𝐴, et les vecteurs propres associés sont les
mêmes que ceux de 𝐴.
Démonstration. Si 𝐴 est diagonalisable, alors 𝐴 = 𝑉Λ𝑉 −1 . La matrice Λ est diagonale avec des éléments
diagonaux tous non nuls ; elle est donc inversible. Donc 𝑉Λ𝑉 −1 est un produit de matrices inversibles, donc
inversible, d’inverse 𝑉Λ−1 𝑉 −1 . D’où 𝐴 est inversible, d’inverse 𝐴−1 = 𝑉Λ−1 𝑉 −1 .
⊤
Propriété 2.27. 𝐴 et 𝐴 ont les même valeurs propres.
Démonstration. Par définition un réel 𝜆 est une valeur propre de 𝐴 ssi det(𝐴 − 𝜆Id𝑐 ) = 0. Or une matrice et sa
transposée ont le même déterminant et donc pour tout 𝜆 ∈ ℝ, on a
⊤ ⊤
det(𝐴 − 𝜆Id𝑐 ) = 0 ⇐⇒ det((𝐴 − 𝜆Id𝑐 ) ) = 0 ⇐⇒ det(𝐴 − 𝜆Id𝑐 ) = 0
⊤
Ceci montre qu’un réel est une valeur propre de 𝐴 ssi c’est une valeur propre de 𝐴 .
La propriété précédente se démontre encore plus facilement dans le cas d’une matrice diagonalisable. En
⊤ ⊤ ⊤ ⊤ ⊤
effet si 𝐴 est diagonalisable avec 𝐴 = 𝑉Λ𝑉 −1 , alors 𝐴 alors 𝐴 = 𝑉 −1 Λ 𝑉 . Mais comme Λ est diagonale,
⊤
Λ = Λ l’est aussi ; ceci montre que
⊤
— 𝐴 est diagonalisable,
⊤
— les valeurs propres de 𝐴 sont les mêmes que celles de 𝐴.
pro:dan Propriété 2.28. Pour tout 𝑛, les valeurs propres de 𝐴𝑛 sont les puissances 𝑛e des valeurs propres de 𝐴. Si 𝜆 est une
valeur propre de 𝐴 et 𝑋 est un vecteur propre associé, alors 𝑋 est également un vecteur propre associé à la valeur propre
𝜆𝑛 de 𝐴𝑛 . Donc si 𝐴 est diagonalisable, 𝐴𝑛 l’est aussi et 𝐴𝑛 = 𝑉Λ𝑛 𝑉 −1 , où 𝑉 est la matrice des vecteurs propres de 𝐴.
Démonstration. Soit 𝜆 une valeur propre de 𝐴. Il existe 𝑋 ∈ ℝ𝑐 , 𝑋 ≠ 0𝑐 tel que 𝐴𝑋 = 𝜆𝑋. On a alors
𝐴2 𝑋 = 𝜆 · 𝐴𝑋 = 𝜆2 𝑋. Ceci montre que 𝜆2 est une valeur propre de 𝐴2 et que 𝑋 est un vecteur propre
de 𝐴2 associé à 𝜆2 . Donc si 𝐴 est diagonalisable, les vecteurs propres de 𝐴, donc de 𝐴2 sont linéairement
indépendants et 𝐴2 est diagonalisable. À partir de là, un raisonnement par récurrence qui exploite le fait que
𝐴𝑛+1 = 𝐴𝑛 𝐴 permet de conclure.
7. Cela résulte du fait que même si 𝐴 n’est pas diagonalisable, on peut montrer qu’elle est semblable à une matrice triangulaire
inférieure dont la diagonale contient les 𝑐 valeurs propres de 𝐴. Autrement dit, il existe une matrice ∆ triangulaire inférieure et telle
que ∆𝑖𝑖 = 𝜆𝑖 , la 𝑖 e valeur propre de 𝐴 et une matrice 𝑉 inversible telle que 𝐴 = 𝑉∆𝑉 −1 . Dans ce cas, Tr(𝐴) = Tr(𝑉∆𝑉 −1 ) = Tr(∆𝑉 −1 𝑉) =
Í𝑐 1 Î𝑐
Tr(∆) = 𝜆𝑖 . Par ailleurs det(𝐴) = det(𝑉∆𝑉 −1 ) = det(𝑉) det(∆ det(𝑉 −1 ) = det(𝑉) det(∆) = det(∆) = 𝜆𝑖 , la dernière égalité
𝑖=1 det(𝑉) 𝑖=1
résultant des propriétés du déterminant pour les matrices triangulaires.
40
Le cas où 𝐴 est diagonalisable peut être traité directement puisque
Comme Λ2 est diagonale, cela démontre la propriété pour 𝑛 = 2. Le raisonnement par récurrence permet de
conclure.
Si 𝐴 est une matrice symétrique, alors 𝐴 est toujours diagonalisable. Cela signifie que toutes les valeurs
propres de 𝐴 (racines de 𝑃𝐴 (𝜆)) sont réelles et que les vecteurs propres associés à ces valeurs propres sont
linéairement indépendants.
Ce deuxième point résulte du fait que des vecteurs propres associés à des valeurs propres différentes d’une
matrice symétrique peuvent toujours être choisis de manière qu’ils soient deux à deux orthogonaux.
Pour le montrer, on considère des vecteurs propres distincts d’une matrice symétrique 𝐴, et selon qu’ils sont
associés à une même valeur propre de 𝐴 ou pas, on utilise un argument adapté.
Soit 𝐴 une matrice symétrique.
— Si on doit chercher des vecteurs propres de 𝐴 associés à une même valeur propre, on doit les prendre
dans le même sous-espace propre. Ces vecteurs peuvent toujours être choisis comme des éléments de
la base de ce sous-espace ; on peut alors les orthogonaliser au moyen de l’algorithme de Gram-Schmidt.
— Si on considère des vecteurs propres associés à deux valeurs propres distinctes 𝜆𝑖 et 𝜆𝑗 d’une matrice
symétrique 𝐴, notés respectivement 𝑉𝑖 et 𝑉𝑗 , alors ces deux vecteurs propres sont nécessairement
⊤ ⊤ ⊤
orthogonaux. On a 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 et 𝐴𝑉𝑗 = 𝜆𝑗 𝑉𝑗 . Donc 𝑉𝑖 𝐴 𝑉𝑗 = 𝜆𝑖 𝑉𝑖 𝑉𝑗 . Mais comme 𝐴 est symétrique,
⊤ ⊤ ⊤ ⊤ ⊤ ⊤
𝐴 𝑉𝑗 = 𝐴𝑉𝑗 , et donc 𝑉𝑖 𝐴𝑉𝑗 = 𝜆𝑖 𝑉𝑖 𝑉𝑗 , càd 𝜆𝑗 𝑉𝑖 𝑉𝑗 = 𝜆𝑖 𝑉𝑖 𝑉𝑗 , ou encore (𝜆𝑖 − 𝜆𝑗 )𝑉𝑖 𝑉𝑗 = 0. Comme les
⊤
valeurs propres sont distinctes, on doit nécessairement avoir 𝑉𝑖 𝑉𝑗 = 0.
Ainsi, on peut trouver 𝑐 vecteurs propres orthogonaux. Or n’importe quelle famille de vecteurs tous non
nuls et orthogonaux est libre. Donc les vecteurs propres associés aux différentes valeurs propres de 𝐴 sont
linéairement indépendants et 𝐴 est donc diagonalisable.
Par ailleurs, comme on l’a indiqué précédemment on peut toujours prendre les vecteurs propres de n’importe
quelle matrice de norme égale à 1. Cela signifie donc que si 𝐴 est une matrice symétrique, alors 𝐴 est
⊤ ⊤
diagonalisable et sa matrice de vecteurs propres 𝑉 est orthonormée : 𝑉 𝑉 = 𝑉𝑉 = Id𝑐 . Autrement dit 𝑉 est
égale à sa propre inverse.
def:sdp Définition 2.9. On dit que 𝐴 est semi-définie positive (sdp) lorsque pour tout 𝑋 ∈ ℝ𝑚 on a
⊤
𝑋 𝐴𝑋 ≥ 0
41
Une matrice sdp est une matrice symétrique. Donc elle est diagonalisable et sa matrice de vecteurs
propres est orhtonormée. On peut facilement obtenir le résultat suivant.
pro:symsdp Propriété 2.29. Soit 𝐴 une matrice symétrique. Alors 𝐴 est sdp ssi toutes ses valeurs propres sont positives ou
nulles.
⊤
Démonstration. Supposons que 𝐴 soit sdp. On peut écrire 𝐴 = 𝑉Λ𝑉 et pour tout 𝑋 ∈ ℝ𝑚 on a
⊤ ⊤
Õ
𝑚
0 ≤ 𝑋 𝐴𝑋 = 𝑌 Λ𝑌 = 𝑌𝑖2 𝜆𝑖
𝑖=1
⊤
où 𝑌 ≔ 𝑉 𝑋 et la dernière égalité résulte du fait que Λ est diagonale. Ceci étant vrai pour tout 𝑋 ∈ ℝ𝑚 ,
⊤
ceci est vrai pour 𝑋 tel que 𝑉 𝑋 = 𝐸1 (on peut toujours choisir 𝑋 de cette sorte puisque 𝑉 est inversible).
Í ⊤
On a alors 𝑌 = 𝐸1 et 𝑚 2
𝑖=1 𝑌𝑖 𝜆𝑖 = 𝜆1 . Donc 𝜆1 ≥ 0. On choisit ensuite 𝑋 tel que 𝑉 𝑋 = 𝐸2 , puis. . . puis
⊤
𝑉 𝑋 = 𝐸𝑚 .
Supposons que toutes les valeurs propres de 𝐴, symétrique donc diagonalisable, soient positives ou
⊤ Í
nulles. Soit 𝑋 ∈ ℝ𝑚 . En procédant comme précédemment, on a 𝑋 𝐴𝑋 = 𝑚 2
𝑖=1 𝑌𝑖 𝜆𝑖 , ce qui est toujours
positif ou nul.
⊤
pro:sqrtsdp Propriété 2.30. Soit 𝐴 une matrice symétrique. Alors 𝐴 est sdp ssi 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 de même format
que 𝐴
Démonstration. Soit 𝐴 une matrice symétrique. Supposons que 𝐴 est sdp, elle est diagonalisable et
⊤ ⊤ ⊤
toutes ses valeurs propres sont positives ou nulles. On peut donc l’écrire 𝐴 = 𝑉Λ𝑉 = 𝐵 𝐵 où 𝐵 ≔ Γ𝑉
√ √ ⊤
et Γ = diag( 𝜆1 , . . . , 𝜆𝑚 ), puisqu’ainsi définie, Γ Γ = Λ.
⊤
Réciproquement, si 𝐴 s’écrit 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 inversible, alors pour tout 𝑋 ∈ ℝ𝑚 , on a
⊤ ⊤ ⊤ ⊤ Í ⊤
𝑋 𝐴𝑋 = 𝑋 𝐵 𝐵𝑋 = 𝐶 𝐶 = 𝑛𝑖=1 𝐶𝑖2 , où 𝐶 ≔ 𝐵𝑋. Donc 𝑋 𝐴𝑋 ≥ 0 et 𝐴 est sdp.
En utilisant un procédé semblable, on peut montrer pour tout matrice symétrique 𝐴, 𝐴 est sdp ssi il
existe une matrice symétrique sdp 𝑄 telle que 𝐴 = 𝑄𝑄 (voir exercices)
2. Matrices définies positives. Soit 𝐴 une matrice symétrique, de format (𝑚, 𝑚)
def:dp Définition 2.10. On dit que 𝐴 est définie positive (dp) lorsque pour tout 𝑋 ∈ ℝ𝑚 , 𝑋 ≠ 0𝑚 on a
⊤
𝑋 𝐴𝑋 > 0
Si 𝐴 est dp, alors elle est sdp. Donc tous les résultats sur les matrices sdp restent vrais pour les matrices
dp, mais certains peuvent être enrichis.
⊤
On remarque que si 𝐴 est une matrice dp, alors 𝑋 𝐴𝑋 = 0 ⇐⇒ 𝑋 = 0𝑚 . On peut alors facilement
obtenir le résultat suivant.
⊤
Démonstration. Soit 𝑋 ∈ ℝ𝑚 tel que 𝐴𝑋 = 0𝑚 . On a alors 𝑋 𝐴𝑋 = 0𝑚 . Ceci équivaut à 𝑋 = 0𝑚 . Donc
𝐴𝑋 = 0𝑚 implique 𝑋 = 0𝑚 , càd 𝐴 est inversible.
42
La réciproque n’est pas vraie, puisque si 𝐴 est dp, alors 𝐴 est inversible et la matrice 𝐵 définie par
⊤ ⊤
𝐵 = −𝐴 est également inversible, mais 𝑋 𝐵𝑋 = −𝑋 𝐴𝑋 ≤ 0 pour tout 𝑋 ∈ ℝ𝑚 . Donc 𝐵 n’est pas dp.
pro:dpvalp Propriété 2.32. Soit 𝐴 une matrice symétrique. Alors 𝐴 est dp ssi toutes ses valeurs propres sont strictement
positives.
Démonstration. En effet, si 𝐴 est dp, alors elle est sdp et donc toutes ses valeurs propres sont ≥ 0 d’après
la seconde propriété. Si l’une d’elles est nulle, alors le déterminant de 𝐴 est nul et 𝐴 n’est pas inversible,
ce qui contredit la première des propriétés. Donc si 𝐴 est dp, toutes ses valeurs propres sont strictement
positives.
Supposons à présent que toutes les valeurs propres de 𝐴, symétrique donc diagonalisable, sont stricte-
⊤ ⊤ Í
ment positives. Elle peut donc s’écrire 𝐴 = 𝑉Λ𝑉 . Soit 𝑋 ∈ ℝ𝑚 tel que 𝑋 ≠ 0𝑚 . On a 𝑋 𝐴𝑋 = 𝑛𝑖=1 𝑌𝑖2 𝜆𝑖
⊤
où 𝑌 = 𝑉 𝑋. La somme est positive ou nulle et est strictement positive dès que l’un de ses termes
⊤
est non nul, càd dès que l’un des 𝑌𝑖 est non nul. Comme 𝑉 est inversible et que 𝑋 ≠ 0𝑚 , il n’est pas
⊤
possible que 𝑌 = 0𝑚 et donc il existe un 𝑌𝑖 > 0. Donc 𝑋 𝐴𝑋 > 0 pour tout 𝑋 ∈ ℝ𝑚 , 𝑋 ≠ 0𝑚 .
Démonstration. Si 𝐴 est symétrique et dp, elle est diagonalisable et toutes ses valeurs propres sont
⊤ ⊤ ⊤ √ √
strictement positives. On peut donc l’écrire 𝐴 = 𝑉Λ𝑉 = 𝐵 𝐵 où 𝐵 ≔ Γ𝑉 et Γ = diag( 𝜆1 , . . . , 𝜆𝑚 ),
⊤
puisqu’ainsi définie, Γ Γ = Λ. Comme aucun des éléments diagonaux de Γ n’est nul, Γ est inversible
est donc 𝐵, en tant que produit de matrices inversibles, est inversible.
⊤
Réciproquement, si 𝐴 s’écrit 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 inversible, alors pour tout 𝑋 ∈ ℝ𝑚 , 𝑋 ≠ 0𝑚 ,
⊤ ⊤ ⊤ ⊤ Í ⊤ ⊤
on a 𝑋 𝐴𝑋 = 𝑋 𝐵 𝐵𝑋 = 𝐶 𝐶 = 𝑛𝑖=1 𝐶𝑖2 , où 𝐶 ≔ 𝐵𝑋. Donc 𝑋 𝐴𝑋 ≥ 0 et on a 𝑋 𝐴𝑋 > 0 dès que l’un des
𝐶𝑖 est non nul, càd dès que 𝐶 ≠ 0𝑚 . Mais comme 𝑋 ≠ 0𝑚 et 𝐵 est inversible, il n’est pas possible que
𝑌 = 0𝑚 .
⊤
On déduit alors que l’inverse d’une matrice dp est également dp. En effet, si 𝐴 est dp, on a 𝐴 = 𝐵 𝐵
⊤ −1 ⊤ ⊤ ⊤
avec 𝐵 inversible. Donc 𝐴−1 = 𝐵 −1 𝐵 = 𝐵 −1 𝐵 −1 = 𝐶 𝐶 où 𝐶 ≔ 𝐵 −1 (la 2e égalité est la propriété 2.6).
D’après la propriété précédente, on conclut que 𝐴−1 est dp.
Finalement, on mentionne une version plus faible du résultat précédent.
⊤
Propriété 2.34. Si 𝐴 est une matrice s’écrivant 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 de plein rang colonne, alors 𝐴 est
dp.
⊤ ⊤
Démonstration. On note (𝑚, 𝑛) le format de 𝐵. Pour tout 𝑋 ∈ ℝ𝑛 \ {0𝑛 }, on a 𝑋 𝐴𝑋 = 𝑌 𝑌 ≥ 0, où
⊤
𝑌 ≔ 𝐵𝑋 ; donc 𝐴 est sdp. De plus 𝑌 𝑌 = 0 ssi 𝑌 = 𝐵𝑋 = 0𝑚 . Comme rg(𝐵) = 𝑛, les 𝑛 colonnes de 𝐵
⊤ ⊤
sont libres et dans 𝐵𝑋 = 0𝑚 =⇒ 𝑋 = 0𝑛 . Autrement dit 𝑋 𝐴𝑋 ≥ 0 et 𝑋 𝐴𝑋 = 0 ⇐⇒ 𝑋 = 0𝑛 . Donc 𝐴
est dp.
Définition 2.11. Soit 𝐴 une matrice carrée de format (𝑐, 𝑐). On dit que 𝐴 est idempotente lorsque 𝐴 = 𝐴2 .
43
Un raisonnement par récurrence montre que 𝐴 est idemptotente si 𝐴 = 𝐴𝑛 pour tout 𝑛 ∈ ℕ∗ .
Soit 𝜆 une valeur propre d’une matrice idemptotente 𝐴 et 𝑋 un vecteur propre associé à 𝜆. D’après la propriété
2.28, 𝜆2 est également une valeur propre de 𝐴 associée au même vecteur propre. Comme un vecteur propre
ne peut être associé à des valeurs propres distinctes (voir la propriété 2.23), on a donc nécessairement 𝜆 = 𝜆2
et donc 𝜆 = 0 ou 𝜆 = 1. On a donc le résultat suivant.
Propriété 2.35. Soit 𝐴 une matrice idempotente. Toute valeur propre de 𝐴 est égale soit à 0, soit à 1.
Remarquons que si l’une des valeurs propres de 𝐴 est nulle, pour le vecteur propre 𝑋 (non nul) associé à
cette valeur propre, on a 𝐴𝑋 = 0𝑐 avec 𝑋 non nul ; donc 𝐴 n’est pas inversible.
Par ailleurs, les valeurs propres d’une matrice idempotente 𝐴 sont toutes positives ou nulles. Donc 𝐴 est
également symétrique, elle est nécessairement sdp. Donc d’après la propriété 2.29, elle est nécessairement
sdp. Elle est dp ssi toutes ses valeurs propres sont égales à 1.
44
3 Projections
Dans cette section, on aborde la question de la projection orthogonale sur un sous-espace vectoriel. Intuiti-
vement, l’orthogonalité fait référence au caractère perpendiculaire de 2 objets, donc à l’angle droit. Lorsque
ces objets sont des vecteurs (ou des ensembles de vecteurs), il faut un moyen de mesurer les angles entre
vecteurs, ou au minimum, de caractériser ce qu’est un angle droit. De même, on verra qu’on peut aborder la
question de la projection orthogonale par un problème de recherche de la plus courte distance. On commence
donc par introduire ce dont nous aurons besoin pour parler de distance et d’angle (droit) entre vecteurs, ce
dont nous ne disposions pas jusqu’ici.
On voit que le nombre 𝑑(𝑋, 𝑌) est construit à partir du vecteur 𝑋 − 𝑌 : on peut écrire que
p
𝑑(𝑋, 𝑌) = (𝑋 − 𝑌)⊤ (𝑋 − 𝑌)
Si 𝑑 a vraiment l’interprétation d’une distance (on verra ci-dessous que c’est la cas), alors 𝑑(𝑋, 0𝑛 ) est la
distance entre 𝑋 et le “point d’origine” de ℝ𝑛 . On peut alors l’interpréter comme la longueur de 𝑋 et possède
une définition formelle.
Définition 3.2 [Norme]. On appelle norme d’un vecteur 𝑋 de ℝ𝑛 le réel noté k𝑋 k et défini par
v
t
Õ
𝑛
k𝑋 k = 𝑥𝑖2
𝑖=1
Avec cette nouvelle définition, on voit que 𝑑(𝑋, 𝑌) = k𝑋 − 𝑌 k : la distance entre 𝑋 et 𝑌 est la norme du vecteur
𝑋 − 𝑌, càd la longueur du vecteur obtenu en faisant la différence 𝑋 − 𝑌. On a donc
p ⊤
k𝑋 − 𝑌 k = (𝑋 − 𝑌)⊤ (𝑋 − 𝑌) et (𝑋 − 𝑌) (𝑋 − 𝑌) = k𝑋 − 𝑌 k 2
Il y a deux moyen de voir pourquoi dans l’égalité de la définition 3.1, le mdd est considéré comme une
distance.
— Le premier consiste à voir que dans le cas de ℝ2 (dans le plan), la formule de la définition est effective-
45
ment la distance entre les points 𝑋 (𝑥1 , 𝑥2 ) et 𝑌 (𝑦1 , 𝑦2 ). La définition est alors juste une généralisation à
ℝ𝑛 avec 𝑛 ≥ 2.
— Le second consiste à noter que la distance définie ainsi satisfait toutes les propriétés qu’on attache à
une distance dans le langage courant : (1) la distance de 𝑋 à 𝑌 doit être la même que celle de 𝑌 à 𝑋 ;
(2) une distance n’est jamais négative ; (3) la distance entre deux endroits 𝑋 et 𝑌 est nulle ssi ces deux
endroits sont le même ; (4) si on multiplie l’unité utilisée pour effectuer les mesures de distance par
une constante, alors la distance est multipliée par cette constante (la distance exprimée en mètres est
1000 fois supérieure à celle exprimée en kilomètres) ; (5) pour aller de 𝑋 à 𝑌, la distance est moindre
lorsqu’on y va directement que lorsqu’on passe par un point intermédiaire. On a de fait la propriété
suivante
pro:dist Propriété 3.1 [Propriétés de la distance]. La distance 𝑑 définie ci-dessus a les propriétés suivantes. Pour tout 𝑋, 𝑌
et 𝑍 dans ℝ𝑛 , et 𝛼 ∈ ℝ
1. 𝑑(𝑋, 𝑌) = 𝑑(𝑌, 𝑋)
2. 𝑑(𝑋, 𝑌) ≥ 0
pro:dist3 3. 𝑑(𝑋, 𝑌) = 0 ⇐⇒ 𝑋 = 𝑌
4. 𝑑(𝛼𝑋, 𝛼𝑌) = |𝛼|𝑑(𝑋, 𝑌)
5. 𝑑(𝑋, 𝑌) ≤ 𝑑(𝑋, 𝑍) + 𝑑(𝑍, 𝑌)
Démonstration. Exercice. Pour le dernier point, il est commode de faire appel à l’inégalité de Cauchy-Schwarz,
démontrée ci-dessous.
⊤
|𝑋 𝑌 | ≤ k𝑋 k × k𝑌 k
Démonstration. Si l’un des deux vecteurs est nul, alors les deux membres de l’inégalité sont nuls et l’inégalité
est vraie.
√
On considère alors le cas où 𝑋 et 𝑌 sont tous deux non nuls. Les réels 𝑎 et 𝑏 définis par 𝑎 = 𝑋⊤ 𝑋 et
√ ⊤
𝑏 = 𝑌 𝑌 sont alors non nuls. Considérerons le réel
1 1 ⊤ 1 1
( 𝑋 + 𝑌) ( 𝑋 + 𝑌)
𝑎 𝑏 𝑎 𝑏
1 ⊤
On peut montrer que ce réel s’écrit 2 + 2 𝑎𝑏 𝑋 𝑌. En effet si on développe le produit, on obtient
1 1 ⊤ 1 1 1 ⊤ 1 ⊤ 1 ⊤ 1 ⊤
( 𝑋 + 𝑌) ( 𝑋 + 𝑌) = 2 𝑋 𝑋 + 𝑌 𝑌 + 2 𝑋 𝑌 = 2 + 2 𝑋 𝑌
𝑎 𝑏 𝑎 𝑏 𝑎 𝑏 𝑎𝑏 𝑎𝑏
⊤
où la dernière égalité utilise la définition de 𝑎 et de 𝑏. Ce réel est nécessairement positif puisqu’il s’écrit 𝑍 𝑍
1 ⊤
où 𝑍 ≔ 𝑎1 𝑋 + 𝑏1 𝑌. Donc on a 2 + 2 𝑎𝑏 𝑋 𝑌 ≥ 0, càd
1 ⊤
𝑋 𝑌 ≥ −1
𝑎𝑏
46
On répète le même raisonnement, mais en considérant au départ le réel
1 1 ⊤ 1 1
( 𝑋 − 𝑌) ( 𝑋 − 𝑌)
𝑎 𝑏 𝑎 𝑏
On obtient alors
1 ⊤
𝑋 𝑌≤1
𝑎𝑏
1 ⊤
Donc en combinant cette inégalité et la précédente, on peut écrire −1 ≤ 𝑎𝑏 𝑋 𝑌 ≤ 1. Comme 𝑎 et 𝑏 sont
⊤ ⊤
strictement positifs, cela équivaut à −𝑎𝑏 ≤ 𝑋 𝑌 ≤ 𝑎𝑏, ce qui s’écrit aussi |𝑋 𝑌 | ≤ 𝑎𝑏. En réintroduisant la
définition de 𝑎 et de 𝑏, on aboutit à l’inégalité de l’énoncé.
Supposons que 𝑋 et 𝑌 soient colinéaires. Si l’un des vecteurs est nul il le sont nécessairement tous les deux
et l’inégalité de l’énoncé est une égalité. Si les deux vecteurs sont tous les deux non nuls, alors il existe un
réel 𝛼 non nul tel que 𝑋 = 𝛼𝑌. Donc
v
t v
t
Õ
𝑛 Õ
𝑛
k𝑋 k = k𝛼𝑌 k = 𝛼𝑖2 𝑦𝑖2 = |𝛼| 𝑦𝑖2 = |𝛼|k𝑌 k
𝑖=1 𝑖=1
⊤ ⊤ ⊤
Donc le mdg de l’inégalité est |𝛼𝑌 𝑌 | = |𝛼|𝑌 𝑌, et le mdd est k𝛼𝑌 k × k𝑌 k = |𝛼|k𝑌 k 2 = |𝛼|𝑌 𝑌. L’inégalité est
donc une égalité.
Supposons finalement que l’inégalité soit une égalité. Si l’un de ses membres est nul, alors l’autre aussi,
ce qui signifie que l’un des deux vecteurs est nul. Ils sont donc colinéaires. Supposons alors que les deux
1 ⊤
membres de l’égalité sont non nuls. Dans ce cas, 𝑎 = k𝑋 k ≠ 0 et 𝑏 = k𝑌 k ≠ 0, et on a 𝑎𝑏 |𝑋 𝑌 | = 1, càd
1 ⊤ 1 ⊤
𝑋 𝑌=1 ou 𝑋 𝑌 = −1
𝑎𝑏 𝑎𝑏
1 ⊤
Envisageons le cas 𝑎𝑏
𝑋 𝑌 = 1. En reprenant la démarche suivie pour démontrer l’inégalité, cela revient à
1 ⊤
2 − 2 𝑎𝑏 𝑋 𝑌 = 0, càd à
1 1 ⊤ 1 1
( 𝑋 − 𝑌) ( 𝑋 − 𝑌) = 0
𝑎 𝑏 𝑎 𝑏
1 1 1 ⊤
Ceci équivaut à 𝑎 𝑋 − 𝑏 𝑌 = 0𝑛 , càd à 𝑋 = 𝑎𝑏 𝑌 : 𝑋 et 𝑌 sont colinéaires. Le cas 𝑎𝑏
𝑋 𝑌 = −1 se traite de la même
manière
3.2 Orthogonalité
Dans le plan ℝ2 , l’orthogonalité de deux vecteurs 𝑋 et 𝑌 se traduit par le fait que 𝑋 et 𝑌 engendrent des
droites du plan qui se coupent à angle droit (droites perpendiculaires). En plus grande dimension (ℝ𝑛 , 𝑛 ≥ 3),
on ne peut plus aussi aisément définir ce qu’est un angle droit. Il est tout de même possible de prolonger la
notion d’orthogonalité à partir du résultat qui est établit par le théorème d’Al-Kashi (ou loi des cosinus) 8 :
⊤
ce résultat établit un lien entre le produit 𝑋 𝑌 et le cosinus de l’angle formé entre ces deux vecteurs : ce
⊤
𝑋 𝑌
cosinus peut s’écrire sous la forme . Si l’angle entre les deux vecteurs est droit (les deux vecteurs
k𝑋 k k𝑌 k
⊤
sont orthogonaux), alors son cosinus est nul et donc 𝑋 𝑌 aussi. Pour ℝ𝑛 , 𝑛 quelconque, on retient cette
8. La page Wikipedia sur le sujet est une bonne source.
47
manière de définir l’orthogonalité.
Définition 3.3.
⊤ ⊤ ⊤
— Deux vecteurs 𝑋 et 𝑌 de ℝ𝑛 sont orthogonaux si 𝑋 𝑌 = 0 ; on note 𝑋⊥𝑌. Comme 𝑋 𝑌 = 𝑌 𝑋, on a évidemment
𝑋⊥𝑌 ⇐⇒ 𝑌⊥𝑋
— Si 𝐸 est une partie de ℝ𝑛 , on dit que 𝑋 est orthogonal à 𝐸 si 𝑋⊥𝑌 pour tout 𝑌 ∈ 𝐸 ; on note 𝑋⊥𝐸
— Si 𝐸 et 𝐹 sont des parties de ℝ𝑛 , on dit que 𝐸 est orthogonal à 𝐹 si 𝑋⊥𝑌 pour tout 𝑋 ∈ 𝐹 et tout 𝑌 ∈ 𝐹 ; on note
𝐸⊥𝐹 ou 𝐹⊥𝐸
⊤
La propriété 𝑋 𝑋 = 0 ⇐⇒ 𝑋 = 0𝑛 pour tout 𝑋 ∈ ℝ𝑛 permet de déduire que 0𝑛 est le seul vecteur de ℝ𝑛
orthogonal à lui même.
Si 𝐸 = Vect{𝑋1 , . . . , 𝑋𝑝 }, alors 𝑋⊥𝐸 ⇐⇒ 𝑋⊥𝑋𝑖 , ∀𝑖 ∈ {1, . . . , 𝑝}. Cela résulte du fait que tout 𝑈 ∈ 𝐸 s’écrit
comme une CL de 𝑋1 , . . . , 𝑋𝑝 : 𝑈 = 𝛼1 𝑋1 + · · · + 𝛼𝑝 𝑋𝑝 . Donc
⊤ ⊤ ⊤
𝑋 𝑈 = 𝛼1 𝑋 𝑋1 + · · · + 𝛼𝑝 𝑋 𝑋𝑝
⊤
D’où si 𝑋⊥𝑋𝑖 , ∀𝑖 ∈ {1, . . . , 𝑝}, alors 𝑋 𝑈 = 0. De manière plus générale, si de plus 𝐹 = Vect{𝑌1 , . . . , 𝑌𝑞 }, alors
𝐸⊥𝐹 ⇐⇒ 𝑋𝑖 ⊥𝑌𝑗 , ∀𝑖 ∈ {1, . . . , 𝑝}, ∀𝑗 ∈ {1, . . . , 𝑞}.
Définition 3.4 [Orthogonal d’une partie de ℝ𝑛 ]. Pour une partie 𝐸 de ℝ𝑛 , on peut construire l’ensemble {𝑋 ∈
ℝ𝑛 | 𝑋⊥𝐸}. Cette ensemble est appelé orthogonal de 𝐸 dans ℝ𝑛 et on le note 𝐸 ⊥ .
pro:eqbotsev Propriété 3.3 [L’orthogonal est un sev de ℝ𝑛 ]. Si 𝐸 est une partie de ℝ𝑛 , alors 𝐸 ⊥ est un sev de ℝ𝑛 .
Démonstration. On vérifie facilement que 𝐸 ⊥ satisfait les 2 conditions de la définition d’un sev.
Le fait que 0𝑛 est le seul vecteur de ℝ𝑛 orthogonal à lui même permet de montrer que pour tout 𝐸 ⊂ ℝ𝑛 , on a
𝐸 ∩ 𝐸 ⊥ = {0𝑛 }. En effet, si 𝑋 ∈ 𝐸 ∩ 𝐸 ⊥ , alors en particulier 𝑋 ∈ 𝐸 ⊥ , alors 𝑋 doit être orthogonal à tout élément
de 𝐸. Mais comme on a aussi 𝑋 ∈ 𝐸, 𝑋 doit être orthogonal à lui même ; le seul élément de ℝ𝑛 ayant cette
propriété est 0𝑛 et on doit donc avoir 𝑋 = 0𝑛 .
On notera que la propriété 3.3 est vraie même si 𝐸 n’est pas un sev. Mais ce résultat est particulièrement
intéressant lorsque 𝐸 est un sev de ℝ𝑛 , et dans ce cas les deux sous-espaces 𝐸 et 𝐸 ⊥ permettent de faire
apparaître la notion très importante de projection orthogonale.
pro:orthemboit Propriété 3.4 [Orthogonaux de parties emboîtées de ℝ𝑛 ]. Soient 𝐹 ⊆ 𝐸 des parties emboîtées (l’une est incluse
dans l’autre) de ℝ𝑛 . Alors 𝐸 ⊥ ⊆ 𝐹 ⊥ .
Démonstration. Soit 𝑋 ∈ 𝐸 ⊥ . Pour tout 𝑌 ∈ 𝐹, on a aussi 𝑌 ∈ 𝐸 et donc 𝑋⊥𝑌. Ceci étant vrai pour tout 𝑌 ∈ 𝐹,
on a 𝑋⊥𝐹, càd 𝑋 ∈ 𝐹 ⊥ . Ceci étant vrai pour tout 𝑋 ∈ 𝐸 ⊥ , on a 𝐸 ⊥ ⊆ 𝐹 ⊥ .
sec:projorth
3.3 Projection orthogonale sur un sous-espace
Si 𝐸 est un sev de ℝ𝑛 alors tout 𝑌 ∈ ℝ𝑛 s’exprime de manière unique comme la somme d’un élément de 𝐸 et
d’un élément de 𝐸 ⊥ . Formellement, les deux conditions suivantes sont remplies pour n’importe quel 𝑌 ∈ ℝ𝑛 ,
48
1. il existe 𝑌𝐸 ∈ 𝐸 et 𝑌𝐸 ⊥ ∈ 𝐸 ⊥ tels que 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥
2. si de plus 𝑌 = 𝑈𝐸 + 𝑈𝐸 ⊥ avec 𝑈𝐸 ∈ 𝐸 et 𝑈𝐸 ⊥ ∈ 𝐸 ⊥ alors 𝑌𝐸 = 𝑈𝐸 et 𝑌𝐸 ⊥ = 𝑈𝐸 ⊥
Soit 𝑌 ∈ ℝ𝑛 . On montre d’abord le premier point. Pour cela, il suffit de trouver 𝑌𝐸 ∈ 𝐸 tel que 𝑌 − 𝑌𝐸 ∈ 𝐸 ⊥ .
Soit 𝐴1 , . . . , 𝐴𝑞 des vecteurs de ℝ𝑛 formant une base de 𝐸. Cela revient à chercher 𝐵 ∈ ℝ𝑛 tel que 𝑌𝐸 ≔ 𝐴𝐵 (𝑌𝐸
est une CL des colonnes de 𝐴, càd des éléments de la base de 𝐸) et tel que 𝑌 − 𝐴𝐵 ∈ 𝐸 ⊥ . Mais cette dernière
condition équivaut à
⊤
𝐴𝑖 (𝑌 − 𝐴𝐵) = 0, ∀𝑖 ∈ {1, . . . , 𝑞}
⊤ ⊤ ⊤ ⊤
càd à 𝐴 (𝑌 − 𝐴𝐵) = 0𝑞 ou encore 𝐴 𝐴𝐵 = 𝐴 𝑌. La matrice 𝐴 𝐴 est de format (𝑞, 𝑞). Comme les 𝑞 colonnes
⊤ ⊤
de 𝐴 forment une base de 𝐴, elles sont linéairement indépendantes ; donc rg(𝐴 𝐴) = rg(𝐴) = 𝑞, et 𝐴 𝐴 est
⊤ ⊤
inversible. Donc l’égalité précédente équivaut à 𝐵 = (𝐴 𝐴) −1 𝐴 𝑌. Donc le vecteur 𝑌𝐸 = 𝐴𝐵 est dans 𝐸 et par
construction, le vecteur 𝑌𝐸 ⊥ ≔ 𝑌 − 𝑌𝐸 = 𝑌 − 𝐴𝐵 est dans 𝐸 ⊥ . Et on a bien 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ .
On montre ensuite le second point. Supposons que 𝑌 = 𝑈𝐸 + 𝑈𝐸 ⊥ , avec 𝑈𝐸 ∈ 𝐸 et 𝑈𝐸 ⊥ ∈ 𝐸 ⊥ . Alors on doit
avoir 𝑌𝐸 + 𝑌𝐸 ⊥ = 𝑈𝐸 + 𝑈𝐸 ⊥ , càd 𝑌𝐸 − 𝑈𝐸 = 𝑈𝐸 ⊥ − 𝑌𝐸 ⊥ . Le mdg est un élément de 𝐸 et le mdd est dans 𝐸 ⊥
(puisque c’est un sev). Comme ils conïncident, ils sont à la fois dans 𝐸 et 𝐸 ⊥ , càd dans 𝐸 ∩ 𝐸 ⊥ . Mais comme
cette intersection ne contient que {0𝑛 }, on a 𝑌𝐸 − 𝑈𝐸 = 0𝑛 = 𝑈𝐸 ⊥ − 𝑌𝐸 ⊥ , càd le second point est vérifié.
On peut résumer formellement.
On peut alors dire que la projection orthogonale de 𝑌 sur 𝐸 est l’unique élément 𝑌𝐸 de ℝ𝑛 satisfaisant
simultanément les deux conditions
1. 𝑌𝐸 ∈ 𝐸
2. (𝑌 − 𝑌𝐸 ) ∈ 𝐸 ⊥
⊤ ⊤
et on a nécessairement 𝑌𝐸 = 𝑃𝐸 𝑌 = 𝐴(𝐴 𝐴) −1 𝐴 𝑌. Ceci est une caractérisation importante de la projection
orthogonale de 𝑌 sur 𝐸 ; elle est souvent utilisée pour établir des propriétés de la projection orthogonale,
ainsi qu’en pratique pour déterminer cette projection.
On peut alors montrer que dans la décomposition de 𝑌 en 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ , le second terme 𝑌𝐸 ⊥ est la projection
de 𝑌 sur 𝐸 ⊥ . En effet, on pose 𝐹 ≔ 𝐸 ⊥ , et d’après ce qu’on vient de dire, la projection orthogonale de 𝑌 sur
𝐹 est l’unique élément de 𝑌𝐹 de ℝ𝑛 tel que
1. 𝑌𝐹 ∈ 𝐹
2. 𝑌 − 𝑌𝐹 ∈ 𝐹 ⊥
49
On montre que 𝑌 − 𝑌𝐸 satisfait à ces deux conditions. On a bien 𝑌 − 𝑌𝐸 = 𝑌𝐸 ⊥ et donc 𝑌 − 𝑌𝐸 ∈ 𝐸 ⊥ , càd
𝑌 − 𝑌𝐸 ∈ 𝐹 ; donc 𝑌 − 𝑌𝐸 satisfait la première condition. D’autre part 𝑌 − 𝑌𝐸 ⊥ = 𝑌𝐸 . Or puisque 𝑌𝐸 ∈ 𝐸, on
a 𝑌𝐸 ⊥𝐸 ⊥ , càd 𝑌𝐸 ⊥𝐹, càd 𝑌𝐸 ∈ 𝐹 ⊥ . Autrement dit 𝑌 − 𝑌𝐸 ⊥ ∈ 𝐹 ⊥ , càd 𝑌𝐸 ⊥ satisfait la deuxième condition. Par
l’unicité de l’élément de ℝ𝑛 qui satisfait ces deux conditions, on conclut que 𝑌𝐸 ⊥ est la projection orthogonale
de 𝑌 sur 𝐸 ⊥ .
On remarque au passage qu’on a utilisé le fait que comme 𝑌𝐸 ∈ 𝐸, on a nécessairement 𝑌𝐸 ∈ (𝐸 ⊥ ) ⊥ . Ceci est
un cas particulier de la propriété 𝑈⊥𝐸 ⊥ , ou encore 𝑈 ∈ (𝐸 ⊥ ) ⊥ pour tout 𝑈 ∈ 𝐸, ce qui équivaut à 𝐸 ⊆ (𝐸 ⊥ ) ⊥ .
On peut montrer que 𝐸 = (𝐸 ⊥ ) ⊥ . On sait que ℝ𝑛 = 𝐸 ⊕ 𝐸 ⊥ . Donc 𝑛 = dim( ℝ𝑛 ) = dim(𝐸) + dim(𝐸 ⊥ ). Mais on
a aussi ℝ𝑛 = 𝐸 ⊥ ⊕ (𝐸 ⊥ ) ⊥ est donc 𝑛 = dim(𝐸 ⊥ ) + dim((𝐸 ⊥ ) ⊥ ). D’où dim(𝐸) = dim((𝐸 ⊥ ) ⊥ ). Mais comme on a
vu que 𝐸 ⊆ (𝐸 ⊥ ) ⊥ , cette égalité équivaut à 𝐸 = (𝐸 ⊥ ) ⊥ . Cette propriété permet également d’obtenir le résultat
précédent que 𝑌𝐸 ⊥ est la projection orthogonale de 𝑌 sur 𝐸 ⊥ .
Finalement, comme la projection orthogonale de 𝑌 ∈ ℝ𝑛 sur 𝐸 est définie de manière unique par un élément
de 𝐸, et que cela est possible pour tout 𝑌 ∈ ℝ𝑛 , on peut définir une application qui à chaque 𝑌 ∈ ℝ𝑛 associe
sa projection orthogonale sur 𝐸.
def:projr Définition 3.6 [Application projecteur orthogonal]. Soit 𝐸 un sev de ℝ𝑛 . On appelle projecteur orthogonal sur 𝐸
l’application notée proj𝐸 et définie par
proj𝐸 : ℝ𝑛 −→ 𝐸
𝑌 ↦−→ proj𝐸 (𝑌) = 𝑌𝐸
où 𝑌𝐸 est la projection orthogonale de 𝑌 sur 𝐸, càd l’unique élément 𝑌𝐸 de 𝐸 tel que 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ , avec 𝑌𝐸 ⊥ ∈ 𝐸 ⊥ . On
appelle donc proj𝐸 (𝑌) la projection orthogonale de 𝑌 sur 𝐸
On peut noter qu’il est possible de définir de manière semblable le projecteur orthogonal sur 𝐸 ⊥ . En termes
de projecteurs, la relation 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ pour tout 𝑌 ∈ ℝ𝑛 s’écrit alors Idℝ𝑛 = proj𝐸 + proj𝐸 ⊥ .
Démonstration.
1. Comme par définition proj𝐸 (𝑌) ∈ 𝐸, il est évident que si 𝑌 = proj𝐸 (𝑌), alors 𝑌 ∈ 𝐸. Si 𝑌 ∈ 𝐸, alors on
a 𝑌 = 𝑌 + 0𝑛 ; le membre de droite est l’unique décomposition de 𝑌 en la somme d’un élément de 𝐸 (ici
𝑌) et d’un élément de 𝐸 ⊥ (ici 0𝑛 ). Donc par définition 𝑌 = proj𝐸 (𝑌).
2. Il est évident que si proj𝐸 (𝑌) = 0𝑛 , alors 𝑌 = proj𝐸 ⊥ (𝑌) ∈ 𝐸 ⊥ . Pour montrer la réciproque, on raisonne
de la même manière que dans le point précédent. 9
3. Il est évident que 𝛼proj𝐸 (𝑋)+proj𝐸 (𝑌) ∈ 𝐸. De plus (𝛼𝑋+𝑌)−(𝛼proj𝐸 (𝑋)+proj𝐸 (𝑌)) = 𝛼(𝑋−proj𝐸 (𝑋))+
(𝑌 −proj𝐸 (𝑌)). Comme 𝑋 −proj𝐸 (𝑋) et 𝑌 −proj𝐸 (𝑌) sont dans 𝐸 ⊥ , alors 𝛼(𝑋 −proj𝐸 (𝑋)) + (𝑌 −proj𝐸 (𝑌))
l’est aussi, et donc 𝛼proj𝐸 (𝑋) + proj𝐸 (𝑌) est bien la projection orthogonale de 𝛼𝑋 + 𝑌 sur 𝐸.
9. En posant éventuellement 𝐹 = 𝐸 ⊥ comme ci-dessus pour aider le raisonnement.
50
On verra plus bas (section 3.5) que la projection orthogonale de 𝑌 sur 𝐸 est l’élément proj𝐸 (𝑌) de 𝐸 qui est
le plus proche de 𝑌. Si on sait cela, la premier point de la propriété 3.6 se déduit immédiatement (avec l’aide
de la propriété 3.1-3) : si 𝑌 ∈ 𝐸 l’unique élément de 𝐸 le plus proche de 𝑌 est 𝑌 lui même.
Remarquons aussi qu’en combinant les trois points de la propriété précédente, on peut déduire la relation
suivante : si 𝑌 ∈ ℝ𝑛 s’écrit 𝑍 = 𝑋 + 𝑌 et que 𝑋 ∈ 𝐸 et 𝑌 ∈ 𝐸 ⊥ , alors proj𝐸 (𝑍) = 𝑋. En effet, par linéarité (3e
point), on a proj𝐸 (𝑍) = proj𝐸 (𝑋) + proj𝐸 (𝑌). Mais le premier point implique proj𝐸 (𝑋) = 𝑋 et le second point
proj𝐸 (𝑌) = 0𝑛 .
pro:projemboit Propriété 3.7 [Projections orthogonales successives sur des espaces emboîtés]. Si 𝐹 ⊆ 𝐸 sont des sous es-
paces (emboîtés puisque l’un est inclus dans l’autre) de ℝ𝑛 , alors pour tout 𝑌 ∈ ℝ𝑛 , la projection orthogonale sur 𝐸
de la projection orthogonale de 𝑌 sur 𝐹 coïncide avec la projection orthogonale sur 𝐹 de la projection orthogonale de 𝑌
sur 𝐸, qui elle même coïncide avec la projection orthogonale de 𝑌 sur 𝐹 ; formellement :
Démonstration. Comme proj𝐹 (𝑌) est un élément de 𝐹, alors c’est un élément de 𝐸 et donc sa projection or-
thogonale sur 𝐸 coïncide avec lui-même : proj𝐸 (proj𝐹 (𝑌)) = proj𝐹 (𝑌). Ensuite, établir que proj𝐹 (proj𝐸 (𝑌)) =
proj𝐹 (𝑌) revient à établir que proj𝐹 (𝑌) − proj𝐹 (proj𝐸 (𝑌)) = 0𝑛 , ou encore par linéarité de la projection
orthogonale (voir propriété 3.6), que proj𝐹 (𝑌 − proj𝐸 (𝑌)) = 0𝑛 . Mais 𝑌 − proj𝐸 (𝑌) ∈ 𝐸 ⊥ , et puisque 𝐹 ⊆ 𝐸,
on a aussi 𝐸 ⊥ ⊆ 𝐹 ⊥ (voir propriété 3.4), et donc 𝑌 − proj𝐸 (𝑌) ∈ 𝐹 ⊥ . D’après la propriété 3.6, cela équivaut à
proj𝐹 (𝑌 − proj𝐸 (𝑌)) = 0𝑛 , ce qui est bien ce qu’on cherchait à obtenir.
pro:projadd Propriété 3.8 [Projection sur une somme d’espace orthogonaux]. Si 𝐸 est un sev de ℝ𝑛 qu’on peut écrire sous
la forme 𝐸 = 𝐹 + 𝐺 avec 𝐹⊥𝐺, alors pour tout 𝑌 ∈ ℝ𝑛
Remarquons que si 𝐸 = 𝐹 + 𝐺, mais que 𝐹 et 𝐺 ne sont pas orthogonaux, alors l’égalité de la propriété n’est en
général pas vraie (l’orthogonalité de 𝐹 et 𝐺 est explicitement utilisée pour obtenir la preuve de la propriété,
ci-dessous). Il faut donc se garder de confondre proj𝐹+𝐺 (𝑌) avec proj𝐹 (𝑌) + proj𝐺 (𝑌).
Démonstration. On part du constat que proj𝐹+𝐺 (𝑌) ∈ 𝐹 + 𝐺 et donc qu’il existe 𝑋 𝐹 ∈ 𝐹 et 𝑋 𝐺 ∈ 𝐺 tels que
(attention : rien ne permet de dire à ce stade du raisonnement que 𝑋 𝐹 et 𝑋 𝐺 sont des projection orthogonales).
Par linéarité de la projection orthogonale (propriété 3.6), on a proj𝐹+𝐺 proj𝐹 (𝑌) = proj𝐹 (𝑋 𝐹 ) + proj𝐹 (𝑋 𝐺 ).
Mais comme 𝑋 𝐺 ∈ 𝐺 et que 𝐹⊥𝐺, on a 𝑋 𝐺 ∈ 𝐹 ⊥ et donc nécessairement proj𝐹 (𝑋 𝐺 ) = 0𝑛 (propriété 3.6), et
donc proj𝐹+𝐺 proj𝐹 (𝑌) = proj𝐹 (𝑋 𝐹 ). Mais comme 𝑋 𝐹 ∈ 𝐹, on déduit (propriété 3.6) que 𝑋𝐹 coïncide avec sa
projection orthogonale sur 𝐹, càd proj𝐹 (𝑋 𝐹 ) = 𝑋 𝐹 ; donc
proj𝐹+𝐺 proj𝐹 (𝑌) = 𝑋 𝐹 (9) {eq:pad2}
51
Par ailleurs, 𝐹 ⊆ 𝐹 + 𝐺 ; donc d’après la propriété 3.7, on a
proj𝐹+𝐺 proj𝐹 (𝑌) = proj𝐹 (𝑌) (10) {eq:pad3}
Des égalités (9) et (10), on déduit que 𝑋 𝐹 = proj𝐹 (𝑌). Par un raisonnement tout à fait semblable, on obtient
aussi 𝑋 𝐺 = proj𝐺 (𝑌). Donc l’égalité (8) s’écrit proj𝐹+𝐺 (𝑌) = proj𝐹 (𝑌) + proj𝐺 (𝑌).
La propriété 3.8 est d’un grand intérêt pratique, puisque lorsqu’on arrive à écrire l’espace 𝐸 sur lequel on
projette comme la somme de deux sous espaces orthogonaux, il suffit d’additionner deux projections pour
obtenir la projection sur 𝐸. De plus, dans beaucoup d’applications, la décomposition de 𝐸 en la somme de
deux espaces orthogonaux a une interprétation intéressante ; de même que la décomposition (possible dans
ce cas) de la projection sur 𝐸 en la somme de deux projections.
Pour terminer cette section, on donne un autre résultat qui renforce l’intérêt de la propriété 3.8. Il se peut que
𝐸 se présente comme la somme de deux sous-espaces 𝐸 = 𝐹 + 𝐺, mais que 𝐹 et 𝐺 ne soient pas orthogonaux.
La propriété suivante montre qu’à partir de 𝐹 et de 𝐺, on peut construire deux autres sous-espaces 𝐹 ′ et
𝐺 ′ tel que 𝐸 = 𝐹 + 𝐺 = 𝐹 ′ + 𝐺 ′, avec de plus 𝐹 ′⊥𝐺 ′. Dans un tel cas, la propriété 3.8 permet de dire que
proj𝐹+𝐺 (𝑌) = proj𝐸 (𝑌) = proj𝐹 ′ (𝑌) + proj𝐺′ (𝑌).
pro:orthsum Propriété 3.9 [Procédé d’orthogonalisation d’une somme de sev]. Soit 𝐸 un sous-espace vectoriel de ℝ𝑛 tel que
𝐸 = 𝐹 + 𝐺 pour des sous-espaces 𝐹 et 𝐺 de ℝ𝑛 . On définit 𝐺 ′ comme l’ensemble de tous les vecteurs de ℝ𝑛 de la forme
𝑌 − proj𝐹 (𝑌), avec 𝑌 ∈ 𝐺, càd 𝐺 ′ = {𝑋 ∈ ℝ𝑛 | ∃𝑌 ∈ 𝐺, 𝑋 = 𝑌 − proj𝐹 (𝑌)}. Alors
1. 𝐺 ′ est un sev de ℝ𝑛
2. 𝐸 = 𝐹 + 𝐺 ′
3. 𝐹⊥𝐺 ′
Démonstration.
1. Soient 𝛼 ∈ ℝ et 𝑋1 et 𝑋2 dans 𝐺 ′, càd il existe 𝑌1 et 𝑌2 dans 𝐺 tels que 𝑋1 = 𝑌1 − proj𝐹 (𝑌1 ) et 𝑋2 =
𝑌2 − proj𝐹 (𝑌2 ). Alors par linéarité de la projection orthogonale 𝛼𝑋1 + 𝑋2 = (𝛼𝑌1 + 𝑌2 ) − proj𝐹 (𝛼𝑌1 + 𝑌2 ) =
𝑌 − proj𝐹 (𝑌) avec 𝑌 = 𝛼𝑌1 + 𝑌2 ∈ 𝐺. Donc 𝛼𝑋1 + 𝑋2 ∈ 𝐺 ′.
′ ′ ′
2. Supposons que 𝑌 ∈ 𝐹 + 𝐺 ′, càd ∃𝑌 𝐹 ∈ 𝐹, ∃𝑌 𝐺 ∈ 𝐺 ′ tels que 𝑌 = 𝑌 𝐹 + 𝑌 𝐺 . Comme 𝑌 𝐺 ∈ 𝐺 ′, il existe
′
𝑌 𝐺 ∈ 𝐺 tel que 𝑋 𝐺 = 𝑌 𝐺 − proj𝐹 (𝑌 𝐺 ), et donc 𝑌 = 𝑌 𝐹 − proj𝐹 (𝑌 𝐺 ) + 𝑌 𝐺 . Comme proj𝐹 (𝑌 𝐺 ) ∈ 𝐹, on a
𝑌 𝐹 − proj𝐹 (𝑌 𝐺 ) ∈ 𝐹 et donc 𝑌 est bien la somme d’un élément de 𝐹 et d’un élément de 𝐺, càd 𝑌 ∈ 𝐹 + 𝐺.
Ceci montre que 𝐹 + 𝐺 ′ ⊆ 𝐸 = 𝐹 + 𝐺.
Réciproquement, supposons que 𝑌 ∈ 𝐸 = 𝐹 + 𝐺, càd ∃𝑌 𝐹 ∈ 𝐹, ∃𝑌 𝐺 ∈ 𝐺 tq 𝑌 = 𝑌 𝐹 + 𝑌 𝐺 . On a donc
aussi 𝑌 = 𝑌 𝐹 + proj𝐹 (𝑌 𝐺 ) + 𝑌 𝐺 − proj𝐹 (𝑌 𝐺 ) . Mais comme proj𝐹 (𝑌 𝐺 ) ∈ 𝐹, on a 𝑌 𝐹 + proj𝐹 (𝑌 𝐺 ) ∈ 𝐹 ;
par ailleurs, par définition de 𝐺 ′, le vecteur 𝑌 𝐺 − proj𝐹 (𝑌 𝐺 ) est dans 𝐺 ′. Donc 𝑌 apparaît comme la
somme d’un élément de 𝐹 et d’un élément de 𝐺 ′ : 𝑌 ∈ 𝐹 + 𝐺 ′. Ceci montre que 𝐸 = 𝐹 + 𝐺 ⊆ 𝐹 + 𝐺 ′.
La double inclusion obtenue établit que 𝐸 = 𝐹 + 𝐺 = 𝐹 + 𝐺 ′.
3. Tout élément 𝑋 de 𝐺 ′ est de la forme 𝑋 = 𝑌 − proj𝐹 (𝑌). C’est donc un élément de 𝐹 ⊥ d’après la
caractérisation de la projection orthogonale sur 𝐹, et donc 𝑋⊥𝐹. Ceci est vrai pour tout 𝑋 ∈ 𝐺 ′.
52
La propriété 3.8 et 3.9 sont fréquemment utilisées en économétrie et donnent lieu au résultat connu sous
le nom de théorème de Frish-Waugh. Dans le contexte d’estimation d’un modèle de régression linéaire par
moindres carrés (ce qui revient à effectuer une projection orthogonale), la propriété 3.9 permet de transformer
les variables du modèle sans changer le modèle lui même, de manière à obtenir deux groupes de variables
orthogonales (cela revient à passer d’une répartition des variables en deux groupes, celles dans 𝐹 et celles
dans 𝐺, à une autre répartition, à savoir les variables dans 𝐹 et les variables dans 𝐺 ′. Ensuite, l’estimation
du modèle revenant à effectuer une projection orthogonale sur 𝐸 = 𝐹 + 𝐺, on utilise la propriété 3.9 (qui dit
que 𝐸 = 𝐹 + 𝐺 ′) pour dire que cela revient à projeter sur 𝐹 + 𝐺 ′, puis la propriété 3.8 pour dire que cette
projection peut aussi s’obtenir comme la somme d’une projection sur 𝐹 et d’une projection sur 𝐺 ′. L’intérêt
de cela est que si on voit 𝐸 comme 𝐹 + 𝐺, alors pour faire la projection sur 𝐸, on a besoin des deux groupes
de variables (celle de 𝐹 et celles de 𝐺). Tandis que si on voit 𝐸 comme 𝐹 + 𝐺 ′, alors on projette sur 𝐹 d’une
part et sur 𝐺 ′ d’autre part. L’intérêt est que pour faire la projection sur 𝐹, on n’a besoin que des variables
dans 𝐹, seulement. Par conséquent, si seules les variables qui sont dans 𝐹 sont d’un intérêt, alors on peut se
contenter de n’utiliser que ces variables.
⊤ ⊤ ⊤ ⊤
Tr(𝑃𝐸 ) = Tr(𝐴(𝐴 𝐴) −1 𝐴 ) = Tr((𝐴 𝐴) −1 𝐴 𝐴) = Tr(Id𝑞 ) = 𝑞 = dim(𝐸)
sec:projmindist
3.5 La projection orthogonale comme minimisation d’une distance
Soit 𝐸 un sous-espace de ℝ𝑛 et 𝑌 ∈ ℝ𝑛 . On cherche, s’il en existe, un élément de 𝐸 plus proche de 𝑌 que tout
autre élément de 𝐸. Cela revient à chercher un 𝑋ˆ ∈ 𝐸 tel que 𝑑(𝑌, 𝑋) ˆ ≤ 𝑑(𝑌, 𝑋) pour tout 𝑋 ∈ 𝐸, ou encore,
ˆ 2 ≤ 𝑑(𝑌, 𝑋) 2 pour tout 𝑋 ∈ 𝐸, car la fonction 𝑥2 est croissante sur ℝ∗+ et qu’une distance est
tel que 𝑑(𝑌, 𝑋)
toujours positive ou nulle.
Remarquons que pour tout 𝑋 ∈ 𝐸, on a
⊤ ⊤
𝑑(𝑌, 𝑋) 2 = (𝑌 − 𝑋) (𝑌 − 𝑋) = (𝑌 − 𝑃𝐸 𝑌 + 𝑃𝐸 𝑌 − 𝑋) (𝑌 − 𝑃𝐸 𝑌 + 𝑃𝐸 𝑌 − 𝑋)
où 𝑃𝐸 est la matrice projection orthogonale de 𝑌 sur 𝐸 (et donc 𝑃𝐸 𝑌 est la projection orthogonale de 𝑌 sur
53
𝐸). On peut développer le produit dans le mdd :
⊤ ⊤ ⊤
𝑑(𝑌, 𝑋) 2 = (𝑌 − 𝑃𝐸 𝑌) (𝑌 − 𝑃𝐸 𝑌) + (𝑃𝐸 𝑌 − 𝑋) (𝑃𝐸 𝑌 − 𝑋) + 2(𝑌 − 𝑃𝐸 𝑌) (𝑃𝐸 𝑌 − 𝑋)
⊤
= 𝑑(𝑌, 𝑃𝐸 𝑌) 2 + 𝑑(𝑃𝐸 𝑌, 𝑋) 2 + 2(𝑌 − 𝑃𝐸 𝑌) (𝑃𝐸 𝑌 − 𝑋)
Comme 𝑃𝐸 𝑌 ∈ 𝐸, alors 𝑃𝐸 𝑌 − 𝑋, ceci pour tout 𝑋 ∈ 𝐸. Et comme 𝑃𝐸 𝑌 est la projection orthogonale de 𝑌 sur 𝐸,
⊤
alors 𝑌 − 𝑃𝐸 𝑌 est orthogonal à tout vecteur de 𝐸, en particulier au vecteur 𝑃𝐸 𝑌 − 𝑋 : (𝑌 − 𝑃𝐸 𝑌) (𝑃𝐸 𝑌 − 𝑋) = 0.
D’où 𝑑(𝑌, 𝑋) 2 = 𝑑(𝑌, 𝑃𝐸 𝑌) 2 + 𝑑(𝑃𝐸 𝑌, 𝑋) 2 , càd
Comme 𝑑(𝑃𝐸 𝑌, 𝑋) 2 ≥ 0, on déduit 𝑑(𝑌, 𝑃𝐸 𝑌) 2 ≤ 𝑑(𝑌, 𝑋) 2 . Ceci étant vrai pour tout 𝑋 ∈ 𝐸, on a 𝑑(𝑌, 𝑃𝐸 𝑌) ≤
𝑑(𝑌, 𝑋), ∀𝑋 ∈ 𝐸.
On a donc une partie de la réponse à la question posée au début de la section : il existe au moins un élément
de 𝐸 pour lequel la distance à 𝑌 est minimale ; un tel élément est la projection orthogonale de 𝑌 sur 𝐸.
On peut maintenant se poser la question de savoir s’il existe d’autres éléments de 𝐸 ayant cette propriété. Pour
y répondre, on reprend l’égalité (11) obtenue précédemment : 𝑑(𝑌, proj𝐸 (𝑌)) 2 = 𝑑(𝑌, 𝑋) 2 − 𝑑(proj𝐸 (𝑌), 𝑋) 2 .
Pour tout 𝑋 de 𝐸 distinct de proj𝐸 (𝑌), le point 3 de la propriété 3.1 implique que 𝑑(proj𝐸 (𝑌), 𝑋) 2 > 0. Donc
en utilisant (11), on déduit que 𝑑(𝑌, proj𝐸 (𝑌)) 2 < 𝑑(𝑌, 𝑋) 2 pour tout 𝑋 ∈ 𝐸, 𝑋 ≠ proj𝐸 (𝑌).
On peut alors résumer tout cela par une propriété
Propriété 3.10. Soit 𝐸 un sev de ℝ𝑛 et 𝑌 ∈ ℝ𝑛 . L’unique élément de 𝐸 strictement plus proche de 𝑌 que tout autre
élément de 𝐸 est la projection orthogonale de 𝑌 sur 𝐸.
54