Poly Algebre

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 54

Master Économie appliquée — 2023-24 — Algèbre linéaire

Olivier Torrès
Université de Lille

Objectifs : ce cours a pour but de présenter les concepts et résultats de base en algèbre linéaire en ciblant les
plus utiles pour les applications en économie (représentations multivariées en micro- et macro-économie,
dynamiques linéaires, support pour l’optimisation de fonctions de plusieurs variables) et en économétrie
(modèle linéaire, méthodes de projection, maximisation de la vraisemblance). L’accent est mis sur ℝ𝑛 , ainsi
que sur le calcul matriciel.

Bibliographie : Cours de mathématiques pour économistes, Philippe Michel, Economica


Algèbre linéaire – Plan du cours
1 Espace vectoriel ℝ𝑛
1.1 Ensemble ℝ𝑛 . Opérations sur ℝ𝑛
1.2 Sous-espace vectoriel de ℝ𝑛
1.3 Combinaisons linéaires. Sous-espace engendré
1.4 Famille génératrice
1.5 Famille libre. Rang d’une famille
1.6 Base et coordonnées. Dimension
1.7 Somme directe de sous-espaces de ℝ𝑛

2 Matrices
2.1 Matrice en tant que représentation d’un vecteur
2.1.1 Matrice des coordonnées d’un vecteur dans une base
2.1.2 Cas particulier important de 𝐸 = ℝ𝑛
2.2 Matrices particulières
2.3 Opérations. Manipulation par blocs
2.3.1 Addition de matrices
2.3.2 Multiplication de matrices
2.3.3 Multiplication d’une matrice par un réel
2.3.4 Transposition d’une matrice
2.3.5 Trace d’une matrice
2.3.6 Propriétés des opérations sur les matrices
2.3.7 Expression d’une matrice par blocs
2.4 Noyau et image d’une matrice
2.5 Inverse, déterminant, rang
2.5.1 Inverse
2.5.2 Inversion par blocs
2.5.3 Déterminant
2.5.4 Rang
2.6 Diagonalisation des matrices
2.6.1 Matrice diagonalisable
2.6.2 Conditions de diagonalisabilité
2.6.3 Quelques propriétés des matrices diagonalisables
2.6.4 Cas importants
2.6.4.1 Matrices symétriques
2.6.4.2 Matrices (semi) définies positives
2.6.4.3 Matrices idempotentes

3 Projections
3.1 Distance entre vecteurs
3.2 Orthogonalité
3.3 Projection orthogonale sur un sous-espace

2
3.3.1 Introduction et définition
3.3.2 Propriétés de la projection orthogonale
3.4 Propriétés des matrices de projection orthogonale
3.5 La projection orthogonale comme minimisation d’une distance

3
1 Espace vectoriel ℝ𝑛

sec:Rev
1.1 Ensemble ℝ𝑛 . Opérations sur ℝ𝑛
L’ensemble ℝ𝑛 est le produit cartésien de ℝ 𝑛 fois avec lui même. C’est donc l’ensemble de tous les 𝑛-uplets
de nombres réels :
ℝ𝑛 = {(𝑥1 , . . . , 𝑥𝑛 ) | 𝑥𝑖 ∈ ℝ, ∀𝑖 ∈ {1, . . . , 𝑛}}

On note 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) un élément de ℝ𝑛 et on dit que 𝑥𝑖 est la 𝑖 e composante de 𝑥,


® 𝑖 ∈ {1, . . . , 𝑛}. Il existe
® ®
un élément particulier qu’on note 0𝑛 , défini par 0𝑛 = (0, . . . , 0).
Il faut noter que l’ordre dans lequel apparaissent les réels dans un 𝑛-uplet a de l’importance. Ainsi les deux
𝑛-uplets (1, 2, . . . , 𝑛 − 1, 𝑛) et (𝑛, 𝑛 − 1, . . . , 2, 1) sont distincts.
On définit 1 deux opérations
— l’addition de deux éléments de ℝ𝑛 : 𝑥® + 𝑦® ≔ (𝑥1 + 𝑦1 , . . . , 𝑥𝑛 + 𝑦𝑛 ) 2
— la multiplication d’un élément de ℝ𝑛 par un réel : 𝛼 · 𝑥® ≔ (𝛼 × 𝑥1 , . . . , 𝛼 × 𝑥𝑛 )
Ces deux opérations ont chacune pour résultat un 𝑛-uplet de réels, donc un élément de ℝ𝑛 .
On voit donc que les deux opérations sont entièrement définies à partir de l’addition et la multiplication des
réels. Elle en héritent certaines propriétés.

pro:Rnev ® 𝑦®, 𝑧® éléments de ℝ𝑛 et 𝛼, 𝛽 réels, on a :


Propriété 1.1 [Propriétés de + et ·]. Pour tous 𝑥,
1. 𝑥® + 𝑦® = 𝑦® + 𝑥®
2. ( 𝑥® + 𝑦®) + 𝑧® = 𝑥® + ( 𝑦® + 𝑧®)
3. 𝑥® + 0®𝑛 = 𝑥®
4. 𝑥® + 𝑥®′ = 0®𝑛 , où 𝑥®′ ≔ (−𝑥1 , . . . , −𝑥𝑛 )
5. 1 · 𝑥® = 𝑥®
® = (𝛼 × 𝛽) · 𝑥®
6. 𝛼 · (𝛽 · 𝑥)
7. 𝛼 · ( 𝑥® + 𝑦®) = 𝛼 · 𝑥® + 𝛼 · 𝑦®
8. (𝛼 + 𝛽) · 𝑥® = 𝛼 · 𝑥® + 𝛽 · 𝑥®

Démonstration. Exercice 

La propriété 1.1 permet de conclure que ℝ𝑛 muni des deux opérations + et · définies ci-dessus est un espace
vectoriel sur ℝ. C’est une propriété très importante de ℝ𝑛 , mais même s’il s’appuie intégralement dessus, ce
cours peut être assimilé sans (trop) la manipuler.
On appelle vecteurs les éléments de ℝ𝑛 ; on parle du vecteur 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ).
On peut faire plusieurs remarques sur la propriété 1.1

1. Ses deux premiers points impliquent qu’on peut manipuler des additions d’éléments de ℝ𝑛 contenant
plus de 2 termes, sans que le résultat de ces additions soit affecté par l’ordre dans lequel on les effectue.
1. Ce sont ici des définitions dans le sens où il n’est pas possible de déduire de quoi que ce soit que 𝑥® + 𝑦® est bien égal à
(𝑥1 + 𝑦1 , . . . , 𝑥𝑛 + 𝑦𝑛 ) et que 𝛼 · 𝑥® est bien égal à (𝛼 × 𝑥1 , . . . , 𝛼 × 𝑥𝑛 )
2. En toute rigueur le “+” de 𝑥® + 𝑦® et celui de 𝑥1 + 𝑦1 ne sont pas les mêmes puisqu’il n’opèrent pas de la même manière et devraient
donc être désignés par des symboles différents.

4
Ainsi pour tout entier 𝑚 ≥ 2,

(· · · ((( 𝑥®1 + 𝑥®2 ) + 𝑥®3 ) + · · · ) + 𝑥®𝑚−1 ) + 𝑥®𝑚 = (· · · ((( 𝑥®𝜎(1) + 𝑥®𝜎(2) ) + 𝑥®𝜎(3) ) + · · · ) + 𝑥®𝜎(𝑚−1) ) + 𝑥®𝜎(𝑚)

pour toute permutation 𝜎 de {1, . . . , 𝑛}. On notera simplement 𝑥®1 + 𝑥®2 + · · · + 𝑥®𝑚 le vecteur obtenu
comme le résultat de n’importe laquelle de ces additions.
2. Le point 3 fait apparaître le vecteur 0®𝑛 comme l’élément neutre pour l’addition de vecteurs. Cet élément
neutre permet aussi de définir la notion d’opposé d’un vecteur : tout vecteur 𝑥® admet un opposé, càd
un 𝑥®′ ∈ ℝ𝑛 tel que 𝑥® + 𝑥®′ = 0®𝑛 . On constate que 𝑥® est également l’opposé de 𝑥®′. On dit que 𝑥® et 𝑥®′ sont
opposés.
3. Le point 4 permet d’introduire une autre opération, qu’on note −, et qu’on définit de la manière suivante

𝑥® − 𝑦® ≔ 𝑥® + (−1) · 𝑦®

Cette opération est définie à partir de la soustraction sur ℝ de la même manière que l’addition de
vecteurs est définie à partir de l’addition de réels : la soustraction de vecteurs consiste à faire la
soustraction composante par composante. Plus précisément

𝑥® − 𝑦® = 𝑥® + (−1) · 𝑦® = (𝑥1 , . . . , 𝑥𝑛 ) + (−𝑦1 , . . . , −𝑦𝑛 ) = (𝑥1 − 𝑦1 , . . . , 𝑥𝑛 − 𝑦𝑛 )

® et 𝑥® − 𝑥® = 0®𝑛 .
4. Si on met ensemble les points 3 et 4, on voit qu’un opposé de 𝑥® est (−1) · 𝑥,
5. En complément du point 4, on peut démontrer que (−𝑥1 , . . . , −𝑥𝑛 ) est l’unique opposé de (𝑥1 , . . . , 𝑥𝑛 )
(voir exercices). Ceci permet de manipuler des équations du type 𝛼1 · 𝑥®1 +· · ·+𝛼𝑚 · 𝑥®𝑚 = 0®𝑛 en manupulant
les opérations +, − et · sur les éléments de ℝ𝑛 avec des règles semblables à celles s’appliquant aux réels.
En particulier, si on se donne l’équation 𝑥® + 𝑦® = 0®𝑛 , cela signifie que 𝑥® et 𝑦® sont l’unique opposé l’un de
l’autre. L’unicité de l’opposé implique les équivalences suivantes

𝑥® + 𝑦® = 0®𝑛 ⇐⇒ 𝑦® = (−1) · 𝑥® ⇐⇒ 𝑥® = (−1) · 𝑦®

Les 2e et 3e égalités s’exprimeront plus simplement 𝑦® = −𝑥® et 𝑥® = −®


𝑦.

1.2 Sous-espace vectoriel de ℝ𝑛


Parfois on ne s’interesse qu’à une partie des 𝑛-uplets de réels, càd à une partie 𝐸 de ℝ𝑛 (qui satisfont des
conditions particulières, par exemple). Il est important de savoir si les propriétés des opérations + et ·, nous
obligent à considérer des éléments hors de 𝐸 ou si au contraire, lorsqu’on applique ces opérations aux
éléments de 𝐸, leur résultat est également un élément de 𝐸.

def:sev Définition 1.1 [Sous-espace vectoriel]. On dit qu’une partie (sous-ensemble) non vide de 𝐸 de ℝ𝑛 est un sous-espace
vectoriel (sev en abrégé) de ℝ𝑛 si pour tous 𝑥® et 𝑦® dans 𝐸 et tout 𝛼 ∈ ℝ, on a

𝑥® + 𝑦® ∈ 𝐸 et 𝛼 · 𝑥® ∈ 𝐸

Exemples :

5
— Soit 𝑢® = (𝑎, 𝑏) ∈ ℝ2 , avec 𝑎𝑏 ≠ 0 ; l’ensemble 𝐸 = {(𝑥, 𝑦) ∈ ℝ2 | ∃𝜆 ∈ ℝ, (𝑥, 𝑦) = 𝜆 · (𝑎, 𝑏)} est un
sous-espace de ℝ2 (c’est une droite du plan).
— De manière générale, si 𝑢® = (𝑢1 , . . . , 𝑢𝑛 ) ∈ ℝ𝑛 , 𝑢® ≠ 0®𝑛 , alors {𝑥® ∈ ℝ𝑛 | ∃𝜆 ∈ ℝ, 𝑥® = 𝜆· 𝑢}
® est un sous-espace
de ℝ𝑛 ; un tel espace est appelé droite vectorielle de ℝ𝑛 .
Í
— 𝐸 ≔ {(𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ | 𝑥1 = · · · = 𝑥𝑛 } et 𝐸 ′ ≔ {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑛𝑖=1 𝑥𝑖 = 0} sont des sous-espaces
Í
vectoriels de ℝ𝑛 , mais 𝐸 ′′ ≔ {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑛𝑖=1 𝑥𝑖 = 1} ou 𝐸 ′′′ ≔ {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑥𝑖 ≥ 0, ∀𝑖 ∈
{1, . . . , 𝑛}} n’en sont pas.
Í𝑛
— Soient 𝛼1 . . . , 𝛼𝑛 des réels non tous nuls ; {(𝑥1 . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑖=1 𝛼𝑖 𝑥𝑖 = 0} est un sous-espace de ℝ𝑛 ;
un tel espace est appelé hyperplan de ℝ𝑛 .
On remarque que tout sous-espace vectoriel 𝐸 de ℝ𝑛 doit contenir 0®𝑛 , puisque pour 𝑥® ∈ 𝐸, on a 0®𝑛 = 0 · 𝑥,
® qui
appartient à 𝐸 d’après la définition. Autrement dit, toute partie non vide de ℝ𝑛 ne contenant pas 0®𝑛 ne peut
être un sev de ℝ𝑛 . C’est ainsi qu’on peut rapidement dire que 𝐸 ′′ dans l’exemple ci-dessus n’est pas un sev
de ℝ𝑛 puisque 0®𝑛 ∉ 𝐸 ′′.

1.3 Combinaisons linéaires. Sous-espace engendré


def:cl Définition 1.2 [Combinaison linéaire de vecteurs]. Soient un entier 𝑚 ≥ 1 et 𝑥®1 , . . . , 𝑥®𝑚 des éléments de ℝ𝑛 . On
appelle combinaison linéaire (CL en abrégé) de 𝑥®1 , . . . , 𝑥®𝑚 tout élément 𝑦® de ℝ𝑛 pouvant s’écrire sous la forme

𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚

pour des réels 𝛼1 , . . . , 𝛼𝑚 . Ces réels sont appelés coefficients de la combinaison linéaire 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚

Le vecteur 0®𝑛 est une combinaison linéaire de n’importe quels vecteurs 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑛 , et ceci quel que soit
𝑚 ≥ 1.
Dans le cas où 𝑚 = 1, un vecteur 𝑦® ≠ 0®𝑛 de ℝ𝑛 est une combinaison linéaire de 𝑥® ssi il s’écrit 𝑦® = 𝛼 · 𝑥® pour un
réel 𝛼. On remarque que dans ce cas, 𝑥® = 𝛼1 · 𝑦® et donc 𝑥® est également une combinaison linéaire de 𝑦®. Deux
vecteurs liés de cette manière sont dits colinéaires.
Si 𝑦® est une combinaison linéaire de 𝑥®1 , . . . , 𝑥®𝑚 , càd si

𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚

pour des réels 𝛼1 , . . . , 𝛼𝑚 , et si 𝑢®1 , . . . , 𝑢®𝑝 sont des vecteurs quelconques de ℝ𝑛 , alors 𝑦® est également une CL
de 𝑥®1 , . . . , 𝑥®𝑚 , 𝑢®1 , . . . , 𝑢®𝑝 . En effet, on a

𝑦® = 𝛽1 · 𝑥®1 + · · · + 𝛽𝑚 · 𝑥®𝑚 + 𝛾1 · 𝑢®1 + · · · + 𝛾𝑝 · 𝑢®𝑝

avec 𝛽𝑖 = 𝛼𝑖 , 𝑖 ∈ {1, . . . , 𝑚} et 𝛾𝑖 = 0, 𝑖 ∈ {1, . . . , 𝑝}


Notons que si 𝑦®1 , . . . , 𝑦®𝑝 sont chacun une combinaison linéaire de 𝑥®1 , . . . , 𝑥®𝑚 , alors toute combinaison linéaire
de 𝑦®1 , . . . , 𝑦®𝑝 est également une combinaison linéaire de 𝑥®1 , . . . , 𝑥®𝑚 . On peut désigner ce résultat par la formule

6
expéditive : “une CL de CLs est une CL”. 3 Montrons qu’il est vrai. Si pour tout 𝑗 ∈ {1, . . . , 𝑝}, on a

𝑦®𝑗 = 𝛼1𝑗 · 𝑥®1 + · · · + 𝛼𝑚𝑗 · 𝑥®𝑚

pour des réels 𝛼1𝑗 , . . . , 𝛼𝑚𝑗 , alors pour n’importe quels réels 𝛽1 , . . . , 𝛽𝑝 , en utilisant la propriété 1.1, on a

𝛽1 · 𝑦®1 + · · · + 𝛽𝑝 · 𝑦®𝑝 = 𝛽1 · (𝛼11 · 𝑥®1 + · · · + 𝛼𝑚1 · 𝑥®𝑚 ) + · · · + 𝛽𝑝 · (𝛼1𝑝 · 𝑥®1 + · · · + 𝛼𝑚𝑝 · 𝑥®𝑚 )
= (𝛽1 × 𝛼11 + · · · + 𝛽𝑝 × 𝛼1𝑝 ) · 𝑥®1 + · · · + (𝛽1 × 𝛼𝑚1 + · · · + 𝛽𝑝 × 𝛼𝑚𝑝 ) · 𝑥®𝑚
= 𝛾1 · 𝑥®1 + · · · + 𝛾𝑚 · 𝑥®𝑚 (1) {eq:cl}

où 𝛾𝑖 ≔ 𝛽1 × 𝛼𝑗1 + · · · + 𝛽𝑝 × 𝛼𝑗𝑝 , ∀𝑖 ∈ {1, . . . , 𝑚}.


Ceci montre qu’étant donné 𝑚 éléments 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑛 , l’ensemble de toutes les combinaisons linéaires
de ces 𝑚 éléments est un sous-espace vectoriel de ℝ𝑛 (Execice : justifier en détail comment cette conclusion
découle de ce qui précède). On le définit formellement.

Définition 1.3 [Sous espace engendré par une famille de vecteurs]. Soient 𝑚 éléments 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑛 . Le
sous-espace vectoriel de ℝ𝑛 égal à l’ensemble de toutes les combinaisons linéaires de 𝑥®1 , . . . , 𝑥®𝑚 est appelé sous-espace
engendré par {𝑥®1 , . . . , 𝑥®𝑚 } ; on le note Vect{𝑥®1 , . . . , 𝑥®𝑚 }.

Soit par exemple 𝐸 ≔ {𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑥1 = · · · = 𝑥𝑛 }. On a donc

𝑥® ∈ 𝐸 ⇐⇒ ∃𝑥 ∈ ℝ, 𝑥® = (𝑥, 𝑥, . . . , 𝑥) ⇐⇒ ∃𝑥 ∈ ℝ, 𝑥® = 𝑥 · (1, 1, . . . , 1)

Autrement, dit 𝑥® ∈ 𝐸 si 𝑥® est une CL de 𝑢® ≔ (1, 1, . . . , 1) et réciproquement, si 𝑥® est une CL de 𝑢,


® alors 𝑥® ∈ 𝐸.
Donc 𝐸 est l’ensemble de toutes les combinaisons linéaires de 𝑢® (ou encore l’ensemble de tous les vecteurs
de ℝ𝑛 colinéaires à 𝑢)
® et par conséquent 𝐸 = Vect{𝑢}. ®
On note que 𝑥®1 est une CL de 𝑥®1 , . . . , 𝑥®𝑚 ; il en est de même pour 𝑥®2 , . . . , 𝑥®𝑚 . Donc Vect{𝑥®1 , . . . , 𝑥®𝑚 } est un
sev qui contient chacun des vecteurs 𝑥®1 , . . . , 𝑥®𝑚 . Ce n’est évidemment pas le seul sev qui contient chacun de
ces 𝑚 vecteurs, mais c’est le plus petit d’entre eux, dans le sens où est il contenu dans tout sev qui contient
𝑥®1 , . . . , 𝑥®𝑚 .

1.4 Famille génératrice


Au lieu de se donner 𝑚 éléments de ℝ𝑛 et de chercher l’ensemble (sev) de toutes leurs combinaisons linéaires,
on peut se donner un sous-espace 𝐸 et chercher s’il existe dans 𝐸 des éléments tels que tout 𝑥® de 𝐸 est une
CL de ces éléments.

Définition 1.4. Soit 𝐸 un sev de ℝ𝑛 . On dit que 𝑚 vecteurs 𝑥®1 , . . . , 𝑥®𝑚 de 𝐸 forment une famille génératrice (FG en
abrégé) de 𝐸 (ou que {𝑥®1 , . . . , 𝑥®𝑚 } est une famille génératrice de 𝐸) si tout vecteur de 𝐸 est une CL de 𝑥®1 , . . . , 𝑥®𝑚 .

On reprend l’exemple de 𝐸 ≔ {𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ | 𝑥1 = · · · = 𝑥𝑛 }. On a vu que 𝐸 = Vect{𝑢} ® où


𝑢® = (1, 1, . . . , 1) et donc tout élément de 𝐸 est une CL de 𝑢.
® Donc {𝑢}
® est une famille génératrice de 𝐸.
3. Les formules expéditives sont intéressantes car elles permettent de raccourcir la formulation de raisonnements. Mais il faut
toujours les mobiliser en sachant précisément ce qu’elles signifient afin de les utiliser correctement, dans le bon contexte et de manière
adéquate. Ici, dans cette formule, il ne faut pas perdre de vue que les CLs dont il s’agit sont des CLs des mêmes vecteurs et que le
vecteur obtenu en faisant leur CL est une CL des mêmes vecteurs également.

7
Ceci s’étend à n’importe quel sous-espace 𝐸 pouvant s’écrire sous la forme 𝐸 = VectF pour une famille F
de vecteurs de 𝐸.
Un autre exemple important est 𝐸 = ℝ𝑛 : la famille {® 𝑒1 , . . . , 𝑒®𝑛 } (où les 𝑒®𝑖 sont ceux définis plus haut) est une
FG de ℝ𝑛 . 4 En effet, tout vecteur 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 peut s’écrire sous la forme

𝑥® = 𝑥1 · 𝑒®1 + · · · + 𝑥𝑛 𝑒®𝑛

Propriété 1.2. Soit F une FG d’un sev 𝐸 de ℝ𝑛 . Si chacun des éléments de F est une CL des éléments d’une famille
F′ de 𝐸, alors F′ est une FG de 𝐸.

Démonstration. On utilise la remarque qui suit la définition 1.2 et qu’on a formulé par “une CL de CLs est
une CL”. Soit 𝑦® ∈ 𝐸. Comme F est une FG de 𝐸, 𝑦® est une CL des éléments de F. Mais chaque élément de F
est une CL des éléments de F′. Donc 𝑦® est une CL de CLs d’éléments de F′ ; et donc 𝑦® est une CL d’éléments
de F′. Ceci étant vrai pour tout 𝑦® ∈ 𝐸, on déduit que F′ est une FG de 𝐸. 

On constate que si F′ = {𝑥®1 , . . . , 𝑥®𝑚 } est une FG de 𝐸, alors pour tout élément 𝑦® de 𝐸 on a

𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚
= 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 + 0 · 𝑥®

où 𝑥® est un élément quelconque de 𝐸, distinct des éléments de F. Autrement dit, si F′ est une FG de 𝐸, alors
la famille F obtenue en réunissant les éléments de F′ et des éléments de 𝐸 est une FG de 𝐸. Ceci permet
d’énoncer et montrer la propriété suivante.

pro:fgfg Propriété 1.3. Soit 𝐸 un sev. Une famille F est une FG de 𝐸 ssi elle contient une FG de 𝐸

Démonstration. Si F est une FG de 𝐸, elle se contient elle-même et donc contient une FG de 𝐸. Si F est une
famille de 𝐸 qui contient une famille F′ génératrice de 𝐸, alors F est obtenue en réunissant les éléments de
F′ et les éléments de F qui ne sont pas dans F′. D’après ce qu’on a noté ci-dessus, F est une FG de 𝐸 

En revanche, si on enlève des éléments à une FG de 𝐸, elle peut ne plus être génératrice de 𝐸. Par exemple, la
® 0®𝑛 } est une famille génératrice de Vect{𝑥},
famille {𝑥, ® mais la famille {0®𝑛 } n’est est pas une. En général, une
famille obtenue en privant une FG de 𝐸 de certains de ses éléments n’est pas une FG de 𝐸.

1.5 Famille libre. Rang d’une famille


Comme on vient de le voir, lorsqu’une famille de vecteurs F est génératrice d’un sev 𝐸, si on la prive de
certains de ses éléments, la famille obtenue n’est plus nécessairement génératrice de 𝐸. Cependant, si la
famille ainsi réduite F′ reste une famille génératrice de 𝐸, alors c’est qu’il y a une certaine “redondance”
dans la capacité de la famille de départ F à exprimer tout vecteur de 𝐸 : pour y parvenir il n’est pas nécessaire
d’utiliser tous les éléments de F.
4. On verra même que ℝ𝑛 = Vect{®
𝑒1 , . . . , 𝑒®𝑛 }.

8
Cela est notamment le cas si l’un des éléments de F est une CL des autres éléments. En effet, si F est une
FG de 𝐸, alors tout 𝑥® ∈ 𝐸 s’écrit comme une CL des éléments de F. Mais l’un de ces éléments est une CL
des autres, qui forment une famille F′ ⊂ F. Donc d’après la relation (1), 𝑥® ∈ 𝐸 sera également une CL des
éléments de F′.
Par exemple, soit 𝑢® ∈ ℝ𝑛 , 𝑢® ≠ 0®𝑛 et soit 𝐸 = {𝑥® ∈ ℝ𝑛 | ∃𝛼 ∈ ℝ, 𝑥® = 𝛼 · 𝑢}.
® Il est facile de voir que F = {𝑢,
® 𝑣® },

avec 𝑣® = 2 · 𝑢® est une famille génératrice de 𝐸, mais que F = {𝑢} ® ⊂ F en est également une.
On est donc naturellement conduit à rechercher de telles relations entre vecteurs d’une famille.

Définition 1.5 [Famille libre, famille liée. Indépendance linéaire]. On dit que des vecteurs forment une famille
libre (FL) si aucun des vecteurs de cette famille ne peut s’exprimer comme CL d’autres vecteurs de la famille. Une
famille est dite liée ssi elle n’est pas libre. On dit que les vecteurs d’une famille libre sont linéairement indépendants.

Des 𝑥®1 , . . . , 𝑥®𝑚 sont liés ssi au moins l’un d’entre peut s’exprimer comme CL des autres. Quitte à changer
la numérotation, on peut toujours supposer que 𝑥®1 , . . . , 𝑥®𝑚 sont liés ssi il existe des réels 𝛽2 , . . . , 𝛽𝑚 tels que
Í
𝑥®1 = 𝑚𝑘=2 𝛽𝑘 · 𝑥 ®𝑘 .
L’indépendance linéaire se caractérise facilement.

pro:libre Propriété 1.4. Soient 𝑚 vecteurs 𝑥®1 , . . . , 𝑥®𝑚 de ℝ𝑚 . Ces vecteurs sont linéairement indépendants ssi ils vérifient
l’implication suivante
Õ 𝑚
𝛼𝑘 · 𝑥®𝑘 = 0®𝑛 =⇒ 𝛼1 = · · · = 𝛼𝑚 = 0
𝑘=1

Démonstration. Exercice 

Remarquons que pour n’importe quels vecteurs 𝑥®1 , . . . , 𝑥®𝑚 , la condition 𝛼1 = · · · = 𝛼𝑚 = 0 implique que
Í𝑚
®𝑘 = 0®𝑛 , mais cela ne signifie pas que les vecteurs soient linéairement indépendants. Pour que
𝑘=1 𝛼𝑘 · 𝑥
ce soit le cas, il faut que l’implication réciproque soit vraie. Donc on peut dire que des vecteurs 𝑥®1 , . . . , 𝑥®𝑚
linéairement indépendant sont des vecteurs qui vérifient la condition suivante

Õ
𝑚
𝛼𝑘 · 𝑥®𝑘 = 0®𝑛 ⇐⇒ 𝛼1 = · · · = 𝛼𝑚 = 0
𝑘=1

Pour de tels vecteurs, la seule façon d’en former une CL égale au vecteur 0®𝑛 est de prendre la CL dont tous
les coefficients sont nuls.

pro:flfl Propriété 1.5. Si F est une famille libre, alors toute famille incluse dans F est libre.

On peut donc dire qu’une famille F est libre ssi elle est contenue dans une famille libre de 𝐸. En effet, si F
est libre, alors elle est contenue dans elle-même, càd dans une famille libre. Réciproquement, si F est incluse
dans une famille libre, alors la propriété précédente implique que F est libre.
Si on ajoute des vecteurs à une famille libre F, alors la famille ainsi formée en augmentant F peut être
également libre, mais elle peut également ne plus l’être. Le résultat suivant donne une condition suffisante
pour que la famille reste libre.

pro:flplusun Propriété 1.6. Soit F une FL de ℝ𝑛 . Si on élargit la famille F en une famille F + en ajoutant à F un élément de ℝ𝑛
qui n’est pas CL des éléments de F, alors F + est une FL

9
Démonstration. Soit F = {𝑥®1 , . . . , 𝑥®𝑚 } une FL de ℝ𝑛 et 𝑥® un vecteur de ℝ𝑛 qui n’est pas CL de 𝑥®1 , . . . , 𝑥®𝑚 . On
forme la famille F + = {𝑥®1 , . . . , 𝑥®𝑚 , 𝑥}.
® Soit 𝛼1 , . . . , 𝛼𝑚 , 𝛼 des réels pour lesquels

𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 + 𝛼 · 𝑥® = 0®𝑛

Si 𝛼 ≠ 0 alors on a 𝑥® = − 𝛼𝛼1 · 𝑥®1 − · · · − 𝛼𝛼𝑚 · 𝑥®𝑚 ; càd 𝑥® est une CL de 𝑥®1 , . . . , 𝑥®𝑚 , ce qu’on a exclut. Donc
𝛼 = 0. Dans ce cas on a 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 = 0®𝑛 , et comme 𝑥®1 , . . . , 𝑥®𝑚 sont linéairement indépendants, on a
𝛼1 = · · · = 𝛼𝑚 = 0. Donc en résumé, si 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚 + 𝛼 · 𝑥® = 0®𝑛 alors on doit avoir 𝛼1 = · · · = 𝛼𝑚 = 𝛼 = 0.
Donc la famille F + est libre. 

Par ailleurs, si une famille n’est pas libre, c’est que certain(s) de ses éléments s’écriv(en)t comme CL des
autres. Il se peut qu’en écartant ces éléments, la famille formée par les autres soit libre (dans l’exemple donné
au début de cette section, si de la famille {𝑢,
® 𝑣® } on écarte le vecteur 𝑣®, alors la famille {𝑢}
® est libre).

Définition 1.6 [Rang]. Soit F une famille de vecteurs de ℝ𝑛 . On appelle rang de F et on note rg(F) le nombre
maximal de vecteurs linéairement indépendants contenus dans F

Si F contient 𝑚 vecteurs et que F est libre, son rang est 𝑚. Sinon, on examine toutes les familles de 𝑚 − 1
éléments de F, si l’une est libre, alors le rang de F est 𝑚 − 1. Sinon on examine toutes les familles de 𝑚 − 2
éléments de F, etc

1.6 Base et coordonnées. Dimension


Définition 1.7. On dit qu’une famille F de vecteurs d’un sous-espace 𝐸 de ℝ𝑛 est une base de 𝐸 si la famille est libre
et génératrice de 𝐸.

Si F = {𝑥®1 , . . . , 𝑥®𝑚 } est une base de 𝐸, alors elle permet d’engendrer 𝐸 : tout vecteur 𝑦® de 𝐸 s’écrit comme
une CL de 𝑥®1 , . . . , 𝑥®𝑚 : il existe des réels 𝛼1 , . . . , 𝛼𝑚 tels que e

𝑦® = 𝛼1 · 𝑥®1 + · · · + 𝛼𝑚 · 𝑥®𝑚

Le fait qu’en plus d’être génératrice de 𝐸, la famille F soit libre implique que la manière d’écrire 𝑦® comme
CL de 𝑥®1 , . . . , 𝑥®𝑚 est unique. En effet si on a également

𝑦® = 𝛽1 · 𝑥®1 + · · · + 𝛽𝑚 · 𝑥®𝑚

pour des réels 𝛽1 , . . . , 𝛽𝑚 , alors

(𝛼1 − 𝛽1 ) · 𝑥®1 + · · · + (𝛼𝑚 − 𝛽𝑚 ) · 𝑥®𝑚 = 0®𝑛

Comme la famille F est libre, la propriété 1.4 permet de conclure que ceci équivaut à 𝛽𝑖 = 𝛼𝑖 , ∀𝑖 ∈ {1, . . . , 𝑚}.
Par exemple, si 𝐸 = ℝ𝑛 , alors B = {® 𝑒1 , . . . , 𝑒®𝑛 } est une base de ℝ𝑛 . On vérifie facilement que B est une FL
(exercice) et qu’elle est une FG de ℝ𝑛 puisque pour tout 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 , on a

𝑥® = 𝑥1 · 𝑒®1 + · · · + 𝑥𝑛 · 𝑒®𝑛

10
L’unicité des réels permettant d’écrire un élément de 𝐸 comme CL des éléments d’une base permet d’intro-
duire la définition suivante.

Définition 1.8 [Coordonnées dans une base]. Soit B une base d’un sev 𝐸 de ℝ𝑛 . Pour tout 𝑥® ∈ 𝐸 on appelle
coordonnées de 𝑥® dans la base B les uniques réels permettant d’écrire 𝑥® comme CL des éléménts de la base B.

Dans l’exemple précédent, les coordonnées de 𝑥® sont précisément les 𝑛 réels 𝑥1 , . . . , 𝑥𝑛 qui sont les compo-
santes de 𝑥.
® Ce n’est pas le cas pour toute base de ℝ𝑛 . Ceci est une particularité de base B = {® 𝑒1 , . . . , 𝑒®𝑛 } ; on
l’appelle base canonique de ℝ𝑛
On a vu que si on enlève des éléments à une FG de 𝐸, les vecteurs restant peuvent continuer à former une
FG de 𝐸, tout comme ils peuvent ne plus le faire. De même, on a vu que si on ajoute des éléments à une FL,
alors la nouvelle famille ainsi augmentée peut rester libre, ou bien ne plus l’être. Lorsque la famille qu’on
augmente ou qu’on diminue est une base, alors les opérations de retrait ou d’ajout de vecteur à la famille lui
font perdre son statut de base de 𝐸.
Plus précisément, on a le résultat suivant.

pro:basepm Propriété 1.7. Soit F une base de 𝐸.


— La famille F − formée à partir de F en lui enlevant des éléments n’est pas une FG de 𝐸.
— La famille F + formée à partir de F en lui ajoutant des éléments de ℝ𝑛 n’est pas une FL.
Donc si on ajoute ou on enlève des éléments à une base de 𝐸, ce n’est plus une base de 𝐸.

Démonstration. On écrira F = {𝑥®1 , . . . , 𝑥®𝑚 }. On suppose que F est une base de 𝐸.


— On enlève des vecteurs de F et on note F − la famille de vecteurs restants ; on a bien sûr F − ⊂ F.
Supposons que F − soit une FG de 𝐸. Soit 𝑥® l’un des éléments qui a été enlevé. Alors 𝑥® est une CL
d’éléments de F − , et donc une CL d’éléments de F autres que 𝑥.
® Comme F est libre, ceci n’est pas
possible. Donc F − ne peut être une FG de 𝐸.
— Soit F + la famille formée en rajoutant des vecteurs à F. Soit 𝑦® ∈ 𝐸 l’un des vecteurs rajoutés. Comme
Í
F est une FG de 𝐸, il existe des réels tels que 𝑦® = 𝑚 ®𝑖 . Cela signifie donc que 𝑦® ∈ F + s’écrit
𝑖=1 𝛼𝑖 · 𝑥
comme CL d’autres éléments de F + . Donc F + ne peut pas être une FL.


On énonce le résultat fondamental suivant, qu’on admettra (preuve disponible sur demande).

Théorème 1.1 [Théorème de la base incomplète]. Soit F une famille libre de 𝐸 et G une famille génératrice de 𝐸.
Alors on peut toujours construire une famille B en ajoutant à F des éléments de G de manière que B soit une base de
𝐸

Le corollaire est que de toute famille génératrice de 𝐸 ≠ {0®𝑛 } on peut extraire une base. En effet, si G est une
famille génératrice de 𝐸, alors elle contient un vecteur non nul 𝑥® et la famille F = {𝑥}
® est une famille libre de
𝐸. On peut donc la compléter à l’aide des éléments de G de manière à former une base B de 𝐸. La famille B
ainsi formée ne contient que des éléments de G.
On énonce un second résultat fondamental, également admis (preuve disponible sur demande).

th:fgfl Théorème 1.2. Soit 𝐸 un sev de ℝ𝑛 . Pour tout FL F de 𝐸 et toute FG G de 𝐸, on a CardF ≤ CardG

11
Une conséquence de ce résultat est que toute les bases de 𝐸 ont le même nombre d’éléments. En effet soient
B et B′ deux bases de 𝐸 et 𝑚 et 𝑚′ leur nombre d’éléments respectifs. Si 𝑚 < 𝑚′, alors la FL B′ a strictement
plus d’éléments que la FG B, ce qui est impossible au vu du théorème. Ceci complète le résultat de la
propriété 1.7.
On peut alors introduire la définition suivante.

Définition 1.9 [Dimension d’un sev]. Soit 𝐸 un sev de ℝ𝑛 . On appelle dimension de 𝐸 et on note dim(𝐸) le nombre
d’éléments qu’il y a dans toute base de 𝐸.

La dimension de 𝐸 est donc le nombre minimum de vecteurs qu’il faut pour l’engendrer. Avec cette définition,
le théorème 1.2 permet de déduire que si dim(𝐸) = 𝑚 alors toute famille libre de 𝐸 a au plus 𝑚 éléments et
toute famille génératrice de 𝐸 a au moins 𝑚 éléments. En effet, soit B une base de 𝐸 ; comme dim(𝐸) = 𝑚, la
famille B a 𝑚 éléments. C’est une famille libre, et donc si G est une FG de 𝐸, alors elle doit avoir au moins
𝑚 éléments. Mais B est aussi une famille génératrice de 𝐸, et donc si F est une FL de 𝐸, alors elle doit avoir
au plus 𝑚 éléments. On a donc le résultat suivant.

Propriété 1.8. Soit 𝐸 un sev de ℝ𝑛 et dim(𝐸) = 𝑚. Soit B une famille de 𝑚 éléments de 𝐸. Les trois énoncés suivants
sont équivalents :
— B est une base de 𝐸
— B est une FL de 𝐸
— B est une FG de 𝐸

Propriété 1.9. Si F est une famille de ℝ𝑛 et si 𝐸 = VectF, alors dim(𝐸) = rg(F).

Démonstration. On note 𝑝 le rang de F. Alors F contient une famille libre B à 𝑝 éléments. Donc tout élément
de F s’écrit comme une CL des éléments de B. En effet, si 𝑥® ∈ F alors soit 𝑥® ∈ B, soit 𝑥® ∈ F \ B. Dans le
premier cas, 𝑥® est évidemment une CL d’éléments de B. Dans le second cas également, puisque si ce n’était
pas le cas, alors d’après la propriété 1.6, la famille B ∪ {𝑥}
® serait libre, et donc F contiendrait la FL B ∪ {𝑥}
® à
𝑝 + 1 éléments, ce qui contredirait le fait que rg(F) = 𝑝. Maintenant, comme tout élément de 𝐸 s’écrit comme
une CL des éléments de F, on déduit que tout élément de 𝐸 s’écrit comme une CL d’une CL des éléments
de B càd comme une CL des éléments de B. Autrement dit B est une FG de 𝐸. Comme c’est aussi une FL,
c’est une base de 𝐸 et donc dim(𝐸) = 𝑝 = rg(F). 

Propriété 1.10. Si B est une base d’un sev 𝐸 de ℝ𝑛 , alors 𝐸 = VectB.

Démonstration. Puisque B est une base de 𝐸, c’est une FG de 𝐸 : tout élément de 𝐸 est une combinaison
linéaire des éléments de B. Soit 𝑥® une combinaison linéaire des éléments de B. Comme les éléments de B
sont dans 𝐸 et que 𝐸 est un sev, 𝑥® est dans 𝐸. Donc tout élément de 𝐸 est une CL des éléments de B et toute
CL des éléments de B est dans 𝐸 : 𝐸 est l’ensemble des CL des éléments de B. 

La réciproque de ce résultat n’est pas vraie. Par exemple si 𝐸 = {𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ∈ ℝ𝑛 | 𝑥1 = · · · = 𝑥𝑛 }, alors
en posant B = {𝜄𝑛 , 2 · 𝜄𝑛 }, on a bien 𝐸 = VectB, mais B n’est pas une FL de 𝐸, et donc n’est pas une base de 𝐸.

pro:dimsevev Propriété 1.11. Si 𝐹 est un sev de 𝐸, alors dim(𝐹) ≤ dim(𝐸). Si dim(𝐹) = dim(𝐸), alors 𝐹 = 𝐸.

12
1.7 Somme directe de sous-espaces de ℝ𝑛
section incomplète : parties non-rédigées

Définition 1.10. La somme de deux sous espaces 𝐸1 et 𝐸2 de ℝ𝑛 est l’ensemble noté 𝐸1 + 𝐸2 constitué de tous les
vecteurs 𝑥® de ℝ𝑛 pouvant s’écrire sous la forme 𝑥® = 𝑥®1 + 𝑥®2 avec 𝑥®1 ∈ 𝐸1 et 𝑥®2 ∈ 𝐸2 .

Il est facile de vérifier que :

Propriété 1.12. Si 𝐸1 et 𝐸2 sont des sous-espaces de ℝ𝑛 , alors l’ensemble 𝐸1 + 𝐸2 est un sous-espace de ℝ𝑛

(Dans la vérification de cette propriété, on notera qu’il est important que 𝐸1 et 𝐸2 soient des sev de ℝ𝑛 ).

Définition 1.11. On dit que deux sous-espace 𝐸1 et 𝐸2 de ℝ𝑛 sont en somme directe si pour tout 𝑥® ∈ 𝐸1 + 𝐸2 , la
décomposition de 𝑥® en la somme d’un élément de 𝐸1 et d’un élément de 𝐸2 est unique.

XXXXX
CNS1 (intersection réduite à {0®𝑛 })
CNS2 : la réunion des bases est une base de la somme
Conséquence sur les dimensions
Dans le prolongement la CNS2 (utile pour la diagonalisation) :
On sait que la réunion de bases de sous-espaces en somme directe forme une base de l’espace somme. Cela
reste vrai pour des familles qui ne sont pas forcément des bases, mais qui sont libres. Plus précisément, on a
le résultat suivant.
É𝑛
pro:sommedlibre Propriété 1.13. Soient 𝑛 ≥ 2 un entier et 𝐸 un espace vectoriel s’exprimant comme une somme directe 𝐸 = 𝑖=1 𝐸𝑖
de 𝑛 sev 𝐸1 , . . . , 𝐸𝑛 . Soient F1 , . . . , F𝑛 des familles de 𝐸 telles que F𝑖 est une famille de 𝐸𝑖 pour tout 𝑖 ∈ {1, . . . , 𝑛}. La
Ð
famille F = 𝑛𝑖=1 F𝑖 est libre si et seulement si chacune des familles F1 , . . . , F𝑛 est libre.

Démonstration. Puisque toute partie d’une famille libre est libre, et que F𝑖 ⊂ F pour tout 𝑖 ∈ {1, . . . , 𝑛}, il est
évident que si F est libre, chacune des familles F1 , . . . , F𝑛 est libre.
On démontre maintenant la réciproque : la liberté de chacune des familles F1 , . . . , F𝑛 implique celle de F.
On utilise pour cela un raisonnement par récurrence sur 𝑛.
On montre d’abord que la propriété est vraie pour 𝑛 = 2. En effet, supposons que F = {𝑥®1 , . . . , 𝑥®𝑝 } soit
une famille libre de 𝐸1 et que G = {®
𝑦1 , . . . , 𝑦®𝑞 } soit une famille libre de 𝐸2 . Considérons la famille F ∪ G de
𝐸 = 𝐸1 ⊕ 𝐸2 . Soit des réels 𝑎 1 , . . . , 𝑎 𝑝 , 𝑏1 , . . . , 𝑏𝑞 tels que

𝑎 1 · 𝑥®1 + · · · + 𝑎 𝑝 · 𝑥®𝑝 + 𝑏1 · 𝑦®1 + · · · + 𝑏𝑞 · 𝑦®𝑞 = 0®𝐸

Si on note 𝑥® ≔ 𝑎 1 · 𝑥®1 + · · · + 𝑎 𝑝 · 𝑥®𝑝 et 𝑦® ≔ 𝑏1 · 𝑦®1 + · · · + 𝑏𝑞 · 𝑦®𝑞 l’égalité s’écrit 𝑥® = −® 𝑦 . Mais comme F ⊂ 𝐸1


et G ⊂ 𝐸2 , cette égalité implique que {𝑥, ® 𝑦® } ∈ 𝐸1 ∩ 𝐸2 . Comme 𝐸 = 𝐸1 ⊕ 𝐸2 , on a 𝐸1 ∩ 𝐸2 = {0®𝐸 } et donc
𝑥® = 𝑦® = 0®𝐸 , càd 𝑎 1 · 𝑥®1 + · · · + 𝑎 𝑝 · 𝑥®𝑝 = 0®𝐸 et 𝑏1 · 𝑦®1 + · · · + 𝑏𝑞 · 𝑦®𝑞 = 0®𝐸 . Comme les familles F et G sont libres, on
a nécessairement 𝑎 1 = · · · = 𝑎 𝑝 = 𝑏1 = · · · = 𝑏𝑞 = 0. Autrement dit, la famille F ∪ G est libre. Autrement dit,
la propriété est vraie lorsque 𝑛 = 2.
On montre ensuite que cette propriété est héréditaire. Supposons-la vraie au rang 𝑛 pour un entier 𝑛 ≥ 2.
Soit 𝐸 = 𝐸1 ⊕ · · · ⊕ 𝐸𝑛 ⊕ 𝐸𝑛+1 et F1 , . . . , F𝑛 , F𝑛+1 des familles libres telles que F𝑖 ∈ 𝐸𝑖 , ∀𝑖 ∈ {1, . . . , 𝑛 + 1}. On

13
Ð Ð𝑛
veut montrer que F = 𝑛+1 ′
𝑖=1 F𝑖 est une famille libre. Notons que F = F ∪ F𝑛+1 , où F ≔

𝑖=1 F𝑖 , et comme
on a supposé la propriété vraie au rang 𝑛, F′ est une famille libre de 𝐸 ′ = 𝐸1 ⊕ · · · ⊕ 𝐸𝑛 . Comme 𝐸 = 𝐸 ′ ⊕ 𝐸𝑛+1
et que les familles F′ de 𝐸 ′ et F𝑛+1 de 𝐸𝑛+1 sont libres, la propriété vraie au rang 𝑛 = 2 permet de conclure
que F = F′ ∪ F𝑛+1 est libre.


14
2 Matrices
La notion de matrice est liée à celle d’espace vectoriel. Lorsqu’on est en présence d’un espace vectoriel sur
ℝ, une matrice est un tableau de nombres réels.
Une matrice 𝐴 est un tableau de scalaires (nombres réels) ; on note 𝑙𝐴 et 𝑐𝐴 le nombre de lignes et le nombre
de colonnes de 𝐴 (ou tout simplement 𝑙 et 𝑐 lorsqu’il n’y a pas d’ambiguïté sur la matrice dont on parle). On
dit que 𝐴 est de format (𝑙𝐴 , 𝑐𝐴 ).
On note 𝑎 𝑖𝑗 le (𝑖, 𝑗) e élément de 𝐴 et on désigne parfois 𝐴 par 𝐴 = (𝑎 𝑖,𝑗 ) 𝑖=1,...,𝑙 . On note
𝑗=1,...,𝑐

© 11 ª
𝑎 𝑎 12 ··· 𝑎 1𝑗 ··· 𝑎 1𝑐
­𝑎 21 𝑎 2𝑐 ®®
­ 𝑎 22 ··· 𝑎 2𝑗 ···
­ . .. ®®
­ .. .. ..
­ ··· ··· . ®
𝐴=­ ®
. .
­ 𝑎 𝑖1 𝑎 𝑖𝑐 ®®
­ 𝑎 𝑖2 ··· 𝑎 𝑖𝑗 ···
­ . .. ®®
­ .. .. ..
­ . ··· . ··· . ®
« 𝑎 𝑙1 𝑎 𝑙2 ··· 𝑎 𝑙𝑗 ··· 𝑎 𝑙𝑐 ¬

Il sera utile par la suite de voir une matrice 𝐴 de format (𝑙, 𝑐) comme une juxtaposition de 𝑐 matrices de
format (𝑙, 1) qu’on note 𝐴1 , . . . , 𝐴𝑐 . On écrit

© 1𝑗 ª
𝑎
­𝑎 2𝑗 ®
­ ®
­ . ®
  ­ .. ®
­ ®
où 𝐴𝑗 = ­ ®
­ 𝑎 𝑖𝑗 ®
𝐴 = 𝐴1 𝐴2 ··· 𝐴𝑗 ··· 𝐴𝑐 ∀𝑗 ∈ {1, . . . , 𝑐}
­ ®
­ . ®
­ .. ®
­ ®
« 𝑎 𝑙𝑗 ¬

Autrement dit, 𝐴1 , . . . , 𝐴𝑐 désignent les 𝑐 matrices formant les colonnes de 𝐴.

2.1 Matrice en tant que représentation d’un vecteur

2.1.1 Matrice des coordonnées d’un vecteur dans une base

Les matrices permettent de représenter les vecteurs d’un espace vectoriel dans une base donnée. Si 𝐸 est un
ℝ-ev de dimension 𝑛 et si B = {𝑏®1 , . . . , 𝑏®𝑛 } est une base de 𝐸, alors tout élément 𝑥® de 𝐸 est caractérisé de
manière unique par ses 𝑛 coordonnées 𝛼1 , . . . , 𝛼𝑛 dans la base B : 𝑥® = 𝛼1 · 𝑏®1 + · · · + 𝛼𝑛 · 𝑏®𝑛 . Ces coordonnées
sont des réels et la matrice de 𝑥® dans la base B est le tableau à 1 colonne et 𝑛 lignes contenant ces réels. On
le note 𝑋B et on l’écrit sous la forme :
© 1ª
𝛼
­ .. ®
𝑋B = ­ . ®
­ ®
«𝛼𝑛 ¬

15
2.1.2 Cas particulier important de 𝐸 = ℝ𝑛

L’ev ℝ𝑛 est l’ensemble de tous les 𝑛-uplets de nombres réels, pour lesquels l’addition est définie élément par
élément et la multiplication par un réel est définie par la multiplication de tous les éléments du 𝑛-uplet par
ce réel (voir la section 1.1). Un élément (vecteur) 𝑥® de ℝ𝑛 est donc de la forme 𝑥® = (𝑥1 , . . . , 𝑥𝑛 ). Parmi ces
𝑛-uplets on trouve les 𝑛-uplets 𝑒®𝑘 = (0, . . . , 0, 1, 0, . . . , 0) où le 1 est en 𝑘e position, 𝑘 ∈ {1, . . . , 𝑛}. On a déjà vu
Í
que 𝑥® = 𝑛𝑘=1 𝑥𝑘 · 𝑒®𝑘 et que E = {®
𝑒1 , . . . , 𝑒®𝑛 } est une FL de ℝ𝑛 ; c’est donc une base de ℝ𝑛 . Cette base a ceci de
particulier que les coordonnées de 𝑥® dans E sont précisément les réels qui composent le 𝑛-uplet, càd

© 1ª
𝑥
­ .. ®
𝑥® = (𝑥1 , . . . , 𝑥𝑛 ) ⇐⇒ 𝑋E = ­ . ®
­ ®
«𝑥𝑛 ¬

Ceci n’est pas nécessairement le cas dans toutes les bases de ℝ𝑛 . Par exemple si 𝐸 = ℝ2 , le vecteur 𝑥® = (𝑥1 , 𝑥2 )
a pour coordonnées 𝑥1 et 𝑥2 dans la base E = {(1, 0), (0, 1)}, mais a pour coordonnées 𝑥1 − 𝑥2 et 𝑥2 dans la
base B = {(1, 0), (1, 1)}. Donc ! !
𝑥1 𝑥1 − 𝑥2
𝑋E = et 𝑋B =
𝑥2 𝑥2

La base E est appelée base canonique de ℝ𝑛 . Dans cette base particulière, on notera de manière plus concise
𝑋 la matrice de 𝑥® : 𝑋 ≔ 𝑋E .
Comme pour tout 𝑥® ∈ ℝ𝑛 les éléments de la matrice 𝑋 = 𝑋E coïncident avec ceux de 𝑥,
® par abus de langage,
on parle indifféremment du vecteur 𝑥® ou du “vecteur 𝑋”. Toute matrice ayant une seule colonne peut être
vue comme un vecteur et réciproquement. On choisira donc par la suite de voir un vecteur comme une
matrice colonne. 5
Lorsqu’on travaille dans des sous-espaces de ℝ𝑛 et qu’on utilise les bases canoniques, la correspondance
entre opérations sur les vecteurs et opérations sur les matrices est particulièrement directe. Ainsi, une
combinaison linéaire de vecteurs s’écrit facilement à l’aide d’opérations matricielles : si 𝑦® = (𝑦1 , . . . , 𝑦𝑖 , . . . , 𝑦𝑛 )
et 𝑥®𝑘 = (𝑥1𝑘 , . . . , 𝑥𝑖𝑘 , . . . , 𝑥𝑛𝑘 ), alors

Õ
𝑛
𝑦® = 𝛼𝑘 · 𝑥®𝑘 ⇐⇒ 𝑦𝑖 = 𝛼1 × 𝑥𝑖1 + · · · + 𝛼𝑛 × 𝑥𝑖𝑛 , ∀𝑖 ∈ {1, . . . , 𝑛}
𝑘=1

⇐⇒ 𝑌 = 𝛼1 𝑋1 + · · · + 𝛼𝑛 𝑋𝑛

On verra que l’opération de multiplication des matrices permet d’exprimer 𝑌 simplement sous la forme
𝑌 = 𝑋𝛼 où 𝛼 est la matrice des coefficients de la combinaison linéaire, càd

© 1ª
𝛼
­ .. ®
𝛼=­ . ®
­ ®
«𝛼𝑛 ¬
5. Dans certains calculs et manipulations, on pourra éventuellement réintroduire la distinction entre les deux objets 𝑋 et 𝑥® puisque
les opérations sur les matrices et les vecteurs ne sont pas les mêmes. Par exemple, on n’a pas d’opération sur les vecteurs permettant de
multiplier un vecteur par un autre, mais on verra que sous des conditions adéquates, on peut multiplier un tableau de nombres par un
autre. Autre exemple : on verra les matrices peuvent se transposer, alors que ce n’est pas le cas pour un vecteur.

16
et 𝑋 est la matrice formée en concaténant les 𝑛 matrices 𝑋1 , . . . , 𝑋𝑛 , où 𝑋𝑘 la matrice des coordonnées de 𝑥®𝑘
(dans la base canonique), càd
©𝑥11 𝑥12 · · · 𝑥1𝑛 ª
­ ®
­𝑥21 𝑥22 · · · 𝑥2𝑛 ®
­
𝑋 = (𝑋1 · · · 𝑋𝑛 ) = ­ . .. ®®
­ .. . ®
..
­ ®
. ···
« 𝑥 𝑙1 𝑥 𝑙2 · · · 𝑥 𝑙𝑛 ¬
On a donc l’équivalence des écritures suivantes pour exprimer une combinaison linéaire de vecteurs :

Õ
𝑛
𝑦® = 𝛼𝑘 · 𝑥®𝑘 ⇐⇒ 𝑌 = 𝑋𝛼 (2) {eq:mcl}

𝑘=1

Dans la suite du cours, on ne travaillera que sur l’espace vectoriel ℝ𝑛 muni de sa base canonique.

2.2 Matrices particulières


Certaines matrices ont des formats ou des formes particulières.

1. Matrice colonne, matrice ligne. Une matrice colonne 𝐴 est une matrice de format (𝑙, 1) tandis qu’une
matrice ligne 𝐵 est une matrice de format (1, 𝑐). Pour de telles matrices, il n’y a besoin que d’un seul
indice (un indice de ligne pour une matrice colonne, un indice de colonne pour une matrice ligne)
pour repérer leurs éléments ; on les note donc :

© 1ª  
𝑎
­ .. ®
𝐴=­.® et
­ ®
𝐵 = 𝑏1 · · · 𝑏𝑐

« 𝑎𝑙 ¬

D’après les commentaires de la section précédente, on assimile une matrice colonne de format (𝑙, 1) à
un vecteur de ℝ𝑙 et un vecteur de ℝ𝑛 est assimilé à un matrice colonne de format (𝑛, 1).
Une matrice qui est à la fois une matrice ligne et une matrice colonne est une matrice qui n’a qu’un
seul élément : 𝐷 = 𝑑 .
2. Matrice carrée. Une matrice carrée est une matrice qui a autant de lignes que de colonnes. Parmi la
matrices carrées, certaines ont des formes particulières.

(a) Matrice symétrique. Une matrice symétrique est une matrice carrée 𝐴, de format (𝑚, 𝑚), telle que
𝑎 𝑖𝑗 = 𝑎 𝑗𝑖 , ∀𝑖, 𝑗 ∈ {1, . . . , 𝑚}
(b) Matrice diagonale. Une matrice diagonale est une matrice carrée 𝐴, de format (𝑚, 𝑚), telle que
tous ses éléments extra-diagonaux (càd les éléments 𝑎 𝑖𝑗 avec 𝑖 ≠ 𝑗) sont nuls.

© 11 ª
𝑎 0 0 ··· 0
­ 0 0 ®®
­ 𝑎 22 0 ···
­ ®
𝐴 = ­­ 0 0 𝑎 33 ··· 0 ®
®
­ .. .. ®
­ . . ®®
.. .. ..
­ . . .
« 0 0 0 ··· 𝑎 𝑚𝑚 ¬

17
On la note 𝐴 = diag(𝑎 11 , . . . , 𝑎 𝑚𝑚 ) ou plus simplement 𝐴 = diag(𝑎 1 , . . . , 𝑎 𝑚 ), avec 𝑎 𝑖 = 𝑎 𝑖𝑖 , 𝑖 ∈
{1, . . . , 𝑚}
(c) Matrice identité. Parmi les matrices diagonales, la matrice identité est particulière. La matrice iden-
tité d’ordre 𝑚 est la matrice carrée de format (𝑚, 𝑚), notée Id𝑚 et définie par Id𝑚 = diag(1, 1, . . . , 1) :

©1 0 ··· 0ª
­ ®
­0 1 0®
Id𝑚 = ­­ . .. ®®
···
­ .. .®
.. ..
­ ®
. .

«0 0 ··· 1¬

(d) Matrice triangulaire supérieure, matrice triangulaire inférieure. Une matrice carrée 𝐴 de format
(𝑚, 𝑚) est triangulaire supérieure si 𝑎 𝑖𝑗 = 0, ∀𝑖 ∈ {2, . . . , 𝑚}, ∀𝑗 ∈ {1, . . . , 𝑖 − 1} (càd 𝑎 𝑖𝑗 = 0 si 𝑗 < 𝑖).
Une telle matrice a la forme suivante

© 11 ª
𝑎 𝑎 12 𝑎 13 ··· 𝑎 1𝑚
­ 0 𝑎 2𝑚 ®®
­ 𝑎 22 𝑎 23 ···
­ ®
𝐴 = ­­ 0 0 𝑎 33 ··· 𝑎 3𝑚 ®
®
­ .. .. ®
­ . . ®®
.. .. ..
­ . . .
« 0 0 0 ··· 𝑎 𝑚𝑚 ¬

C’est donc une matrice telle que tous les éléments situés au-dessous la diagonale sont nuls.
On définit de manière analogue un matrice triangulaire inférieure : c’est une matrice dont tous
les éléments situés au-dessus de la diagonale sont nuls.

2.3 Opérations. Manipulation par blocs

2.3.1 Addition de matrices

Si 𝐴 et 𝐵 sont des matrices toutes deux de format (𝑙, 𝑐), on définit la matrice 𝑆 = 𝐴 + 𝐵 par

𝑠𝑖𝑗 = 𝑎 𝑖𝑗 + 𝑏𝑖𝑗 , ∀𝑖 ∈ {1, . . . , 𝑙}, ∀𝑗 ∈ {1, . . . , 𝑐}

La matrice somme 𝑆 est donc de même format que 𝐴 et que 𝐵.


L’addition de matrices est définie à partir de la seule addition de réels et il est facile de vérifier que 𝐴+𝐵 = 𝐵 +𝐴
et (𝐴 + 𝐵) + 𝐶 = 𝐴 + (𝐵 + 𝐶). L’addition n’est pas définie pour deux matrices n’ayant pas le même format.

2.3.2 Multiplication de matrices

Si 𝐴 et 𝐵 sont deux matrices de formats respectifs (𝑙𝐴 , 𝑐𝐴 ) et (𝑙𝐵 , 𝑐𝐵 ) avec 𝑐𝐴 = 𝑙𝐵 , alors on définit la matrice
𝑃 = 𝐴𝐵 par
Õ
𝑐𝐴
𝑝𝑖𝑗 = 𝑎 𝑖𝑘 𝑏𝑘𝑗 , ∀𝑖 ∈ {1, . . . , 𝑙𝐴 }, ∀𝑗 ∈ {1, . . . , 𝑐𝐵 }
𝑘=1

La matrice produit 𝑃 est donc de format (𝑙𝐴 , 𝑐𝐵 ).

18
Pour que le produit 𝐴𝐵 puisse être défini, il faut que le nombre de colonnes de la matrice de gauche (𝐴) soit
égal au nombre de lignes de la matrice de droite (𝐵). Donc même si 𝐴𝐵 est défini (càd si 𝑐𝐴 = 𝑙𝐵 ), il se peut
que 𝑐𝐵 ≠ 𝑙𝐴 et donc que le produit 𝐵𝐴 ne soit pas défini. Même si les produits 𝐴𝐵 et 𝐵𝐴 sont définis, en
général 𝐴𝐵 ≠ 𝐵𝐴. Pour le voir, 𝐴𝐵 est une matrice de format (𝑙𝐴 , 𝑐𝐵 ), alors que 𝐵𝐴 est une matrice de format
(𝑙𝐵 , 𝑐𝐴 ) ; il n’y aucune raison pour que les deux formats soient nécessairement les mêmes. Par exemple, si 𝐴
est de format (1, 𝑚) et 𝐵 de format (𝑚, 1), alors les produits 𝐴𝐵 et 𝐵𝐴 sont bien définis, mais 𝐴𝐵 est de format
(1, 1) alors que 𝐵𝐴 est de format (𝑚, 𝑚) ; Il est donc impossible que 𝐴𝐵 et 𝐵𝐴 soient des matrices égales.
La multiplication de matrices, lorsqu’elle est définie, est associative : si les produits 𝐴𝐵 et 𝐵𝐶 sont définis,
alors (𝐴𝐵)𝐶 = 𝐴(𝐵𝐶). On note simplement ce produit 𝐴𝐵𝐶. Attention : il arrive parfois qu’on écrive un
produit 𝐴𝐵𝐶 sans pour autant que les produits 𝐴𝐵 et 𝐵𝐶 soient définis tous les deux. Par exemple si 𝐴 est
de format (1, 𝑚), 𝐵 de format (𝑚, 1) et 𝐶 de format (𝑙, 𝑐), alors on écrit souvent le produit 𝐴𝐵𝐶, alors que
le produit 𝐵𝐶 n’est clairement pas défini. Ce cas d’écriture d’un produit (séquentiel) de matrices survient
lorsque dans la succession de produits, l’un des produits a pour résultat une matrice de format (1, 1) ; dans
l’exemple donné, c’est le cas du produit 𝐴𝐵. Dans un tel cas, cette matrice est considérée comme un nombre
réel et le produit (𝐴𝐵)𝐶 n’est pas considéré comme un produit de la matrice 𝐴𝐵 par la matrice 𝐶, mais
comme le produit du “réel” 𝐴𝐵 par la matrice 𝐶 (voir la section suivante).

De manière générale, lorsque 𝐴𝐵 est une matrice de format (1, 1), càd 𝐴𝐵 = 𝛼 , on considère cet objet

comme le réel 𝛼 et non comme la matrice 𝛼 .
Quelques propriétés du produit pour toute matrice carrée 𝐴 de format (𝑚, 𝑚) :
1. 𝐴 Id𝑚 = Id𝑚 𝐴 = 𝐴
2. 𝐴𝑛 = 𝐴𝐴 . . . 𝐴 est défini pour tout entier 𝑛 ≥ 0, avec par convention 𝐴0 = Id𝑚
3. Si 𝐴 = diag(𝑎 1 , . . . , 𝑎 𝑚 ) est diagonale, 𝐴𝑛 est diagonale et 𝐴𝑛 = diag(𝑎 1𝑛 , . . . , 𝑎 𝑚
𝑛)

2.3.3 Multiplication d’une matrice par un réel

Pour une matrice 𝐴 de format (𝑙, 𝑐) et un réel 𝛼, on définit la matrice 𝑄 = 𝛼𝐴, produit de 𝛼 par 𝐴, par

𝑞𝑖𝑗 = 𝛼 × 𝑎 𝑖𝑗 , ∀𝑖 ∈ {1, . . . , 𝑙}, ∀𝑗 ∈ {1, . . . , 𝑐}

La matrice 𝛼𝐴 est donc de même format que 𝐴. Comme on a aussi 𝛼 × 𝑎 𝑖𝑗 = 𝑎 𝑖𝑗 × 𝛼, on a 𝛼𝐴 = 𝐴𝛼.

2.3.4 Transposition d’une matrice

Pour une matrice 𝐴 de format (𝑙, 𝑐) on définit 𝑇 , la matrice transposée de 𝐴, par

𝑡𝑖𝑗 = 𝑎 𝑗𝑖 , ∀𝑖 ∈ {1, . . . , 𝑐}, ∀𝑗 ∈ {1, . . . , 𝑙}


La matrice 𝑇 est donc de format (𝑐, 𝑙). On note plutôt cette matrice 𝐴 .
⊤ ⊤
Il est facile de vérifier que (𝐴 ) = 𝐴.

On voit également immédiatement qu’une matrice carrée 𝐴 est symétrique ssi 𝐴 = 𝐴

19
2.3.5 Trace d’une matrice

La trace d’une matrice n’est définie que pour des matrices carrées. Si 𝐴 est une matrice carrée de format
(𝑚, 𝑚), la trace de 𝐴 est le réel noté Tr(𝐴) et défini comme la somme des éléments diagonaux de 𝐴 :

Tr(𝐴) = 𝑎 11 + 𝑎 22 + · · · + 𝑎 𝑚𝑚

2.3.6 Propriétés des opérations sur les matrices

Lorsque les expressions ont un sens (càd si les dimensions des matrices permettent les opérations effectuées),
on a
1. (𝐴 + 𝐵)𝐶 = 𝐴𝐶 + 𝐵𝐶 et 𝐴(𝐵 + 𝐶) = 𝐴𝐵 + 𝐴𝐶
2. 𝛼(𝐴 + 𝐵) = 𝛼𝐴 + 𝛼𝐵
3. (𝛼 + 𝛽)𝐴 = 𝛼𝐴 + 𝛽𝐴
4. (𝛼𝐴)(𝛽𝐵) = (𝛼 × 𝛽)𝐴𝐵
⊤ ⊤
5. (𝛼𝐴) = 𝛼𝐴
⊤ ⊤ ⊤
6. (𝐴 + 𝐵) = 𝐴 + 𝐵
⊤ ⊤ ⊤
7. (𝐴𝐵) = 𝐵 𝐴
8. Tr(𝐴𝐵) = Tr(𝐵𝐴) lorsque 𝐴 et 𝐵 commutent (voir ci-dessous)
9. Tr(𝐴 + 𝐵) = Tr(𝐴) + Tr(𝐵)
10. Tr(𝛼𝐴) = 𝛼Tr(𝐴)
On mentionne également un résultat intéressant. On dit que deux matrices carrées 𝐴 et 𝐵 de même format
commutent si les produits 𝐴𝐵 et 𝐵𝐴 sont égaux. Si 𝐴 et 𝐵 sont deux matrices carrées qui commutent, alors
la formule du binôme reste valable pour 𝐴 et 𝐵 : pour tout entier 𝑛, on a

𝑛  
Õ
𝑛 𝑛
(𝐴 + 𝐵) = 𝐴𝑖 𝐵 𝑛−𝑖
𝑖=0
𝑖

(ce résultat se démontre à l’aide d’un raisonnement par récurrence sur 𝑛).

2.3.7 Expression d’une matrice par blocs

Il est parfois intéressant de considérer une matrice 𝐴 comme étant composée de plusieurs blocs. De manière
générale, si 𝐴 est une matrice de format (𝑙, 𝑐), on peut voir 𝐴 comme constituée de blocs 𝐴𝑖𝑗 ayant 𝑙𝑖 lignes et
𝑐𝑗 colonnes, 𝑖 ∈ {1, . . . , ℎ}, 𝑗 ∈ {1, . . . , 𝑘}, de la manière suivante

©𝐴 𝐴 · · · 𝐴2𝑘 ª®
𝐴11 𝐴12 · · · 𝐴1𝑘
­ 21 22
𝐴 = ­­ . .. ®® (3)
­ .. . ®
.. {eq:Apart}

. ···
« ℎ1 ℎ2
𝐴 𝐴 · · · 𝐴ℎ𝑘 ¬

Évidemment, on doit avoir


𝑙1 + · · · + 𝑙ℎ = 𝑙 et 𝑐1 + · · · + 𝑐𝑘 = 𝑐

20
On dit que 𝐴 a 𝑘 blocs-colonne et ℎ blocs-ligne.
On peut considérer chacun des 𝐴𝑖𝑗 en tant que matrice de format (𝑙𝑖 , 𝑐𝑗 ) ; dans ce cas on appelle ces matrices
des sous-matrices de 𝐴.
Les opérations sur les matrices peuvent alors se faire par blocs, càd en manipulant les blocs 𝐴𝑖𝑗 de 𝐴 au lieu
de manipuler les éléments 𝑎 𝑖𝑗 de 𝐴

1. Addition par blocs. Pour pouvoir additionner par blocs deux matrices 𝐴 et 𝐵, il faut que ces deux ma-
trices soient additionnables, càd qu’elles aient le même format, mais également que les décompositions
en blocs de 𝐴 et de 𝐵 soient faites à l’aide de blocs de tailles identiques : il doit y avoir autant de blocs
sur chaque ligne dans les deux matrices, et autant de blocs sur chaque colonne dans les deux matrices ;
chaque bloc 𝐴𝑖𝑗 a alors la même taille que le bloc 𝐵𝑖𝑗 pour tout 𝑖 ∈ {1, . . . , ℎ} et tout 𝑗 ∈ {1, . . . , 𝑘}. Donc

©𝐴 𝐴 · · · 𝐴2𝑘 ª® ©𝐵 𝐵 · · · 𝐵2𝑘 ª®
𝐴11 𝐴12 · · · 𝐴1𝑘 𝐵11 𝐵12 · · · 𝐵1𝑘
­ 21 22 ­ 21 22
𝐴 = ­­ . .. ®® et 𝐵 = ­­ . .. ®®
­ .. . ® ­ .. ··· . ®
.. ..
. ··· .
« 𝐴ℎ1 𝐴ℎ2 · · · 𝐴ℎ𝑘 ¬ « 𝐵ℎ1 𝐵ℎ2 · · · 𝐵ℎ𝑘 ¬

On a alors
©𝐴 +𝐵 𝐴 +𝐵 · · · 𝐴2𝑘 + 𝐵2𝑘 ª®
𝐴11 + 𝐵11 𝐴12 + 𝐵12 · · · 𝐴1𝑘 + 𝐵1𝑘
­ 21
𝐴 + 𝐵 = ­­ ®
21 22 22
®
­ ®
.. .. ..
. . ··· .
« 𝐴ℎ1 + 𝐵ℎ1 𝐴ℎ2 + 𝐵ℎ2 · · · 𝐴ℎ𝑘 + 𝐵ℎ𝑘 ¬
avec 𝐴𝑖𝑗 + 𝐵𝑖𝑗 obtenu comme la somme des matrices 𝐴𝑖𝑗 et 𝐵𝑖𝑗 .
2. Multiplication par blocs. On veut effectuer le produit 𝐴𝐵 (supposé possible) en manipulant des blocs
de ces deux matrices. Il faut pour cela que les blocs des matrices 𝐴 et 𝐵 soient de dimensions adéquates.
Ainsi si 𝐴 est partitionnée comme dans (3), càd avec 𝑘 blocs-colonnes, il faut que 𝐵 ait 𝑘 blocs-ligne ; de
plus, si on note 𝑠 le nombre de blocs-colonne de 𝐵, il faut que pour tout 𝑖 = 1, . . . , ℎ et tout 𝑟 = 1, . . . , 𝑠
on ait
nombre de colonnes de 𝐴𝑖𝑗 = nombre de lignes de 𝐵𝑗𝑟 , ∀𝑗 = 1, . . . , 𝑘

càd il faut que le produit 𝐴𝑖𝑗 𝐵𝑗𝑟 soit possible. Si c’est le cas, alors la matrice 𝐴𝐵 est une matrice 𝐶 qui a
ℎ blocs-lignes et 𝑠 blocs-colonne et le bloc 𝐶𝑖𝑟 de 𝐶 est

Õ
𝑘
𝐶𝑖𝑟 = 𝐴𝑖𝑗 𝐵𝑗𝑟
𝑗=1

21
Visuellement, on a

𝐴11 𝐴12 · · · 𝐴1𝑗 · · · 𝐴1𝑘


© ª 𝐵11 𝐵12 · · · 𝐵1𝑟 · · · 𝐵1𝑠
­ 𝐴21 𝐴22 · · · 𝐴2𝑗 · · · 𝐴2𝑘 ®® ©­ 𝐵21 · · · 𝐵2𝑟 · · · 𝐵2𝑠 ª®
­ 𝐵22
­ . .. ®® ­­ .. . ®®
­ .
­ . . ®­ . · · · .. ®
.. ..
𝐶 = 𝐴𝐵 = ­ ®­ ®
. ··· ··· . ···
­ 𝐴𝑖1 𝐴𝑖2 · · · 𝐴𝑖𝑗 · · · 𝐴𝑖𝑘 ® ­ 𝐵𝑖1 · · · 𝐵𝑖𝑟 · · · 𝐵𝑖𝑠 ®
­ ®­ ®
𝐵𝑖2
­ . .. ®® ­­ .. .. ®
­ .. ··· . ®
..
­ . ® .
..
. ··· ··· . ···
« 𝐴ℎ1 𝐴ℎ2 · · · 𝐴ℎ𝑗 · · · 𝐴ℎ𝑘 ¬ « 𝐵𝑘1 𝐵𝑘2 · · · 𝐵𝑘𝑟 · · · 𝐵𝑘𝑠 ¬

Í𝑘 Í𝑘 Í𝑘 Í𝑘
© 𝑗=1 𝐴1𝑗 𝐵𝑗1 𝑗=1 𝐴1𝑗 𝐵𝑗2 ··· 𝑗=1 𝐴1𝑗 𝐵𝑗𝑟 ··· 𝑗=1 𝐴1𝑗 𝐵𝑗𝑠 ª
­Í Í𝑘 Í𝑘 Í𝑘 ®
­ 𝑘 𝐴 𝐵 ®
­ 𝑗=1 2𝑗 𝑗1 𝑗=1 𝐴2𝑗 𝐵𝑗2 ··· 𝑖=1 𝐴2𝑗 𝐵𝑗𝑟 ··· 𝑗=1 𝐴2𝑗 𝐵𝑗𝑠 ®
­ ®
­ ®
­ ®
­ ®
.. .. ..
= ­ Í𝑘 ®
··· ···
Í𝑘 Í𝑘 Í𝑘
. . .
­ ®
­ 𝑗=1 𝑖𝑗 𝐵𝑗1
𝐴 𝐴 𝐵 ··· 𝐴 𝐵 ··· 𝑗=1 𝐴𝑖𝑗 𝐵𝑗𝑠 ®
­ ®
𝑗=1 𝑖𝑗 𝑗2 𝑗=1 𝑖𝑗 𝑗𝑟
­ ®
­ .. .. .. ®
­ ··· ··· ®
­ Í𝑘 Í𝑘 Í𝑘 Í𝑘 ®
. . .
𝐴 ℎ𝑗 𝐵𝑗1 𝐴 𝐵 · · · 𝑗=1 ℎ𝑗 𝑗𝑟 · · ·
𝐴 𝐵 𝐴 𝐵
« 𝑗=1 𝑗=1 ℎ𝑗 𝑗2 𝑗=1 ℎ𝑗 𝑗𝑠
¬

Autrement dit, la multiplication par blocs revient à appliquer la règle de multiplication des matrices,
comme si chaque bloc était un réel.
Par exemple, on peut multiplier une matrice 𝐴 de format (𝑙, 𝑐) partitionnée en un seul bloc et une
matrice 𝐵 de format (𝑐, 𝑑) partitionnée en 𝑑 blocs de format (𝑐, 1) (les blocs sont les colonnes de 𝐵. On
a alors
 
𝐴𝐵 = 𝐴 𝐵1 𝐵2 · · · 𝐵𝑟 · · · 𝐵𝑑 = 𝐴𝐵1 𝐴𝐵2 · · · 𝐴𝐵𝑟 · · · 𝐴𝐵𝑑

On peut aussi multiplier une matrice 𝐴 avec un bloc-ligne et deux blocs-colonne par une matrice 𝐵
ayant deux blocs-lignes et un bloc-colonne :
   
 𝐵1
𝐴𝐵 = 𝐴1 𝐴2 = 𝐴1 𝐵1 + 𝐴2 𝐵2
𝐵2

à condition que les produits 𝐴𝑖 𝐵𝑖 soient faisables.


Finalement, sous réserve que les blocs des deux matrices aient les bons formats,
   
𝐴1  𝐴1 𝐵1 𝐴1 𝐵2
𝐵1 𝐵2 =
𝐴2 𝐴2 𝐵1 𝐴2 𝐵2

3. Transposition par blocs. Si une matrice 𝐴 est partionnée en ℎ blocs-ligne et 𝑘 blocs-colonnes, alors la
⊤ ⊤
matrice transposée 𝐴 est partitionnée en 𝑘 blocs-ligne et ℎ blocs-colonnes, et le (𝑖, 𝑗) e bloc de 𝐴 est

𝐴𝑗𝑖 . Visuellement si

©𝐴 𝐴 · · · 𝐴 ª
𝐴11 𝐴12 · · · 𝐴1𝑘
­ 21 22 2𝑘 ®
𝐴 = ­­ . .. ®®
­ . . ®
. ..
. ···
« 𝐴ℎ1 𝐴ℎ2 · · · 𝐴ℎ𝑘 ¬

22
alors
© 𝐴11 𝐴21 · · · 𝐴ℎ1 ª
⊤ ⊤ ⊤

­ ⊤ ⊤ ®
­ 𝐴 𝐴⊤ · · · 𝐴ℎ2 ®®
­ 12 22
𝐴 =­
.. ®®

­ ..
­ . . ®
..
­ ⊤ ®
. ···
⊤ ⊤
« 1𝑘 2𝑘 ¬
𝐴 𝐴 · · · 𝐴ℎ𝑘

On a par exemple les transposées suivantes

© 𝐴1 ª

­ ⊤®
 ­𝐴 ®
­ 2®
· · · 𝐴𝑐 =⇒ 𝐴 = ­ . ®

­ . ®
𝐴 = 𝐴1 𝐴2
­ . ®
­ ⊤®
« 𝑐¬
𝐴

et
©𝐴 ª
𝐴1
­ 2®  
𝐴 = ­­ . ®® =⇒ 𝐴 = 𝐴⊤1 𝐴⊤2 · · · 𝐴⊤𝑙

­ .. ®
« 𝐴𝑙 ¬

Autrement dit, si les blocs de 𝐴 sont les colonnes de 𝐴, alors les blocs de 𝐴 sont des lignes ; la 𝑖 e est la

transposée de la 𝑖 e colonne de 𝐴. Si les blocs de 𝐴 sont les lignes de 𝐴, alors les blocs de 𝐴 sont des
colonnes ; la 𝑖 e est la transposée de la 𝑖 e ligne de 𝐴.
4. Matrices bloc-diagonales. Une matrice bloc diagonale 𝐴 est une matrice dont le nombre de blocs-ligne
est égal au nombre de blocs-colonne, et telle que 𝐴𝑖𝑗 est un bloc de 0 si 𝑖 ≠ 𝑗. Elle a l’allure suivante

𝐴11 0 ··· 0
© · · · 0 ª®
­ 0 𝐴22
𝐴 = ­­ . ®®
­ . .. ®
.. .. ..
. .
« 0 0 · · · 𝐴𝑐𝑐 ¬

où les 0 sont des blocs de 0. On note 𝐴 = diag(𝐴11 , . . . , 𝐴𝑐𝑐 ).


De telle matrices sont très faciles à multiplier entre elles. Si 𝐵 est un autre matrice bloc-diagonales et si
les partitionnement en blocs de 𝐴 et de 𝐵 satisfont aux conditions de la multiplication par blocs, on a

0 0
© 0 ª®
𝐴11 𝐵11 ···
­ 0 ···
𝐴𝐵 = ­­ .. ®®
𝐴22 𝐵22
­ . ®
.. .. ..
. . .
« 0 0 · · · 𝐴𝑐𝑐 𝐵𝑐𝑐 ¬

En particulier, si tous les blocs de 𝐴 sont des blocs carrés (avec chacun autant de lignes que de colonnes),

23
alors 𝐴 est une matrice carrée, et pour tout 𝑛

𝑛
𝐴11 0 ··· 0
© ª
­ 0 𝐴22
𝑛 ··· 0 ®
­ ®
𝐴 =­
𝑛
.. ®®
­
­ . . ®
.. .. ..
. .
« 0 0 ¬
· · · 𝐴𝑐𝑐𝑛

2.4 Noyau et image d’une matrice


Soit 𝐴 une matrice de format (𝑙, 𝑐).

Définition 2.1 [Noyau, image]. Le noyau de 𝐴 est l’ensemble noté ker(𝐴) défini par ker(𝐴) = {𝑋 ∈ ℝ𝑐 | 𝐴𝑋 = 0𝑙 }.
L’image de 𝐴 est l’ensemble noté Im(𝐴) défini par Im(𝐴) = {𝑌 ∈ ℝ𝑙 | ∃𝑋 ∈ ℝ𝑐 , 𝑌 = 𝐴𝑋}

Le noyau d’une matrice 𝐴 n’est jamais vide puisqu’il contient toujours 0𝑐 (𝐴0𝑐 = 0𝑙 ).

Propriété 2.1. Im(𝐴) est un sev de ℝ𝑙 . ker(𝐴) est un sev de ℝ𝑐

Démonstration. Exercice 

On a donc évidemment dim Im(𝐴) ≤ 𝑙 et dim ker(𝐴) ≤ 𝑐. D’après (2), on constate que 𝑌 ∈ Im(𝐴) ssi 𝑌 peut
s’écrire comme une CL des colonnes de 𝐴. Donc Im(𝐴) est le sev de ℝ𝑙 engendré par les 𝑐 vecteurs formant
les colonnes de 𝐴. Autrement dit Im(𝐴) = Vect{𝐴1 , . . . , 𝐴𝑐 }.

2.5 Inverse, déterminant, rang

2.5.1 Inverse

Définition 2.2. Soit 𝐴 une matrice carrée de format (𝑚, 𝑚). On dit que 𝐴 est inversible s’il existe une matrice 𝐵 de
même format que 𝐴 telle que 𝐴𝐵 = Id𝑚 .

La condition d’inversibilité de 𝐴 est une égalité entre 2 matrices. Cette égalité peut être détaillée en 𝑚
égalités sur les colonnes des matrices des deux membres. Ainsi, on peut dire que 𝐴 est inversible s’il existe
une matrice 𝐵 dont les colonnes sont 𝐵1 , . . . , 𝐵𝑛 , telle que

𝐴𝐵𝑘 = 𝐸𝑘 ∀𝑘 ∈ {1, . . . , 𝑚} (4) {eq:invcolB}

Cela revient à dire que 𝐸𝑘 ∈ Im(𝐴), ∀𝑘 ∈ {1, . . . , 𝑚}, et donc ℝ𝑚 = Vect{𝐸1 , . . . , 𝐸𝑚 } ⊆ Im(𝐴). Comme on a
aussi Im(𝐴) ⊆ ℝ𝑚 , on doit avoir Im(𝐴) = ℝ𝑚 . Mais si Im(𝐴) = ℝ𝑚 , on a peut trouver des vecteurs 𝐵1 , . . . , 𝐵𝑚
tels que (4) est vrai et donc la matrice 𝐵 satisfait 𝐴𝐵 = Id𝑚 , càd 𝐴 est inversible. La condition d’inversibilité de
𝐴 est donc équivalente à Im(𝐴) = ℝ𝑚 et on peut alors en déduire facilement d’autres conditions équivalentes.

pro:inv Propriété 2.2. Soit une matrice carrée 𝐴 de format (𝑚, 𝑚). Les énoncés suivants sont équivalents
1. 𝐴 est inversible
2. Im(𝐴) = ℝ𝑚
3. dim Im(𝐴) = 𝑚

24
4. {𝐴1 , . . . , 𝐴𝑚 } est une base de ℝ𝑚
5. ker(𝐴) = {0𝑚 }

Démonstration. Exercice (on se sert de ce qui est dit juste avant l’énoncé de la propriété et de la propriété
1.11) 

Propriété 2.3 [Unicité de l’inverse d’une matrice inversible]. Soit 𝐴 une matrice inversible de format (𝑚, 𝑚).
Alors il existe une et un seule matrice 𝐵 telle que 𝐴𝐵 = Id𝑚 . Cette matrice est appelée inverse de 𝐴 et on la note 𝐴−1 .

Démonstration. L’existence est assurée par la définition de l’inversibilité de 𝐴. Supposons qu’il existe deux
matrices 𝐵 et 𝐶 telles que 𝐴𝐵 = 𝐴𝐶 = Id𝑚 . On a alors 𝐴(𝐵 − 𝐶) = 0𝑚,𝑚 , ou encore 𝐴(𝐵𝑘 − 𝐶𝑘 ) = 0𝑚 ,
∀𝑘 ∈ {1, . . . , 𝑚}, où 𝐵𝑘 et 𝐶𝑘 désignent les 𝑘e colonnes de 𝐵 et de 𝐶. Donc 𝐵𝑘 − 𝐶𝑘 ∈ ker(𝐴), ∀𝑘 ∈ {1, . . . , 𝑚}.
Comme 𝐴 est inversible, ker(𝐴) = {0𝑚 }, et donc 𝐵𝑘 − 𝐶𝑘 = 0𝑚 , ∀𝑘 ∈ {1, . . . , 𝑚}. Ou encore 𝐵 = 𝐶. 

La matrice Id𝑚 est inversible ; son inverse est elle-même.

Propriété 2.4. Si 𝐴 est inversible, alors sa matrice inverse 𝐴−1 est inversible et (𝐴−1 ) −1 = 𝐴.

Démonstration. Soit 𝑋 ∈ ker(𝐴−1 ), càd 𝐴−1 𝑋 = 0𝑚 . Alors on a aussi 𝐴𝐴−1 𝑋 = 0𝑚 . Mais 𝐴𝐴−1 = Id𝑚 et on doit
donc avoir 𝑋 = 0𝑚 . Donc ker(𝐴−1 ) = {0𝑚 } ce qui équivaut à 𝐴−1 inversible : il existe une unique matrice
(𝐴−1 ) −1 telle que 𝐴−1 (𝐴−1 ) −1 = Id𝑚 . Ceci implique que 𝐴𝐴−1 (𝐴−1 ) −1 = 𝐴 et puisque 𝐴𝐴−1 = Id𝑚 , ceci s’écrit
(𝐴−1 ) −1 = 𝐴. 

Remarque : d’après la définition de l’inverse de 𝐴 et la propriété précédente, on a 𝐴−1 𝐴 = 𝐴𝐴−1 = Id𝑚 .

Propriété 2.5 [Inverse du produit de matrices inversibles]. Soient 𝐴 et 𝐵 des matrices carrées de format (𝑚, 𝑚)
et inversibles, et soit 𝛼 un réel non nul. Alors
1. 𝛼𝐴 est inversible, d’inverse 𝛼1 𝐴−1 .
2. 𝐴𝐵 est inversible et on a (𝐴𝐵) −1 = 𝐵 −1 𝐴−1 .

Démonstration.
1. On vérifie directement : 𝛼𝐴 𝛼1 𝐴−1 = 𝛼 𝛼1 𝐴𝐴−1 = Id𝑚 .
2. On a 𝐴𝐵𝐵 −1 𝐴−1 = 𝐴Id𝑚 𝐴−1 = 𝐴𝐴−1 = Id𝑚 . Ceci montre que 𝐴𝐵 est inversible d’inverse 𝐵 −1 𝐴−1 .


Attention : il n’y a pas de résultat de ce type pour l’addition des matrices. En général (𝐴 + 𝐵) −1 ≠ 𝐴−1 + 𝐵 −1 .
Par exemple,si 𝐴 = 𝐵 = Id𝑚 , alors 𝐴−1 = 𝐵 −1 = Id𝑚 et donc 𝐴−1 + 𝐵 −1 = 2Id𝑚 = diag(2, . . . , 2) tandis que
(𝐴 + 𝐵) −1 = (2Id𝑚 ) −1 = 21 Id𝑚 = diag( 12 , . . . , 12 ).
⊤ ⊤ ⊤
pro:invAT Propriété 2.6. Si 𝐴 est une matrice inversible, alors 𝐴 est également inversible, et on a (𝐴 ) −1 = (𝐴−1 ) ; autrement
dit, l’inverse de la transposée est la transposée de l’inverse.
⊤ ⊤ ⊤ ⊤
Démonstration. Comme 𝐴 est inversible, on a 𝐴−1 𝐴 = Id𝑚 et donc (𝐴−1 𝐴) = Id𝑚 , càd 𝐴 (𝐴−1 ) = Id𝑚 . Ceci
⊤ ⊤ ⊤ ⊤
montre que 𝐴 est inversible d’inverse (𝐴−1 ) . Autrement dit (𝐴 ) −1 = (𝐴−1 ) . 

Propriété 2.7. Soient 𝐴 une matrice de format (𝑙, 𝑐) et 𝐵 une matrice inversible de format (𝑙, 𝑙). Alors ker(𝐴) =
ker(𝐵𝐴)

25
Démonstration. 𝑋 ∈ ker(𝐴) ⇐⇒ 𝐴𝑋 = 0𝑙 ⇐⇒ 𝐵 −1 𝐵𝐴𝑋 = 0𝑙 ⇐⇒ 𝐵𝐴𝑋 ∈ ker(𝐵 −1 ) ⇐⇒ 𝐵𝐴𝑋 = 0𝑙 ⇐⇒
𝑋 ∈ ker(𝐵𝐴) 

sec:invb
2.5.2 Inversion par blocs

On est parfois seulement intéressé par certains éléments de l’inverse d’une matrice 𝐴, et pour les trouver, on
souhaite éviter d’avoir à inverse complètement 𝐴.
Soit 𝐴 une matrice inversible de format (𝑚, 𝑚). On partitionne 𝐴 en
 
𝐴11 𝐴12
𝐴=
𝐴21 𝐴22

de sorte que 𝐴11 et 𝐴22 soient des matrices carrées inversibles, de formats respectifs (𝑚1 , 𝑚1 ) et (𝑚2 , 𝑚2 ),
avec évidemment 𝑚1 + 𝑚2 = 𝑚. On peut partitionner l’inverse de 𝐴 sous un format identique :
!
𝐴11 𝐴12
𝐴−1 =
𝐴21 𝐴22

On est intéressé uniquement par 𝐴11 . La propriété suivante donne l’expression de 𝐴11 en fonction des blocs
de 𝐴.

Propriété 2.8. Sous les conditions ci-dessus permettant de partitionner 𝐴 et 𝐴−1 , on a

−1
𝐴11 = (𝐴11 − 𝐴12 𝐴22 𝐴21 ) −1

et !
© (𝐴11 − 𝐴12 𝐴22 𝐴21 ) ª
−1 −1 −1
−𝐴11 𝐴12 𝐴22
𝐴11 𝐴12
𝐴 −1
= =­ ®
21 22 −1 11 −1 −1 11 −1
« ¬
𝐴 𝐴 −𝐴22 𝐴21 𝐴 𝐴22 + 𝐴22 𝐴21 𝐴 𝐴12 𝐴22

Démonstration. On écrit la condition 𝐴𝐴−1 = Id𝑚 en effectuant le produit du membre de gauche à partir de
l’écriture par blocs de 𝐴 et de 𝐴−1 , et en partitionnant Id𝑚 de manière identique. Les blocs 𝐴11 , 𝐴12 , 𝐴21 et
𝐴22 de 𝐴−1 doivent donc satisfaire :
  ! !
𝐴11 𝐴12 𝐴11 𝐴12 Id𝑚1 0𝑚1 ,𝑚2
=
𝐴21 𝐴22 𝐴21 𝐴22 0𝑚2 ,𝑚1 Id𝑚2

En effectuant le produit par blocs, on doit avoir


! !
𝐴11 𝐴11 + 𝐴12 𝐴21 𝐴11 𝐴12 + 𝐴12 𝐴22 Id𝑚1 0𝑚1 ,𝑚2
=
𝐴21 𝐴11 + 𝐴22 𝐴21 𝐴21 𝐴12 + 𝐴22 𝐴22 0𝑚2 ,𝑚1 Id𝑚2

ou encore





𝐴11 𝐴11 + 𝐴12 𝐴21 = Id𝑚1




 𝐴11 𝐴12 + 𝐴12 𝐴22 = 0𝑚1 ,𝑚2
 𝐴 𝐴11 + 𝐴 𝐴21



= 0𝑚2 ,𝑚1

21 22


 𝐴21 𝐴 + 𝐴22 𝐴22

12 = Id𝑚2

26
Soit on résoud ce système (par substitution par exemple), soit on vérifie que les égalités sont satisfaites
lorsqu’on remplace 𝐴11 , 𝐴12 , 𝐴21 et 𝐴22 par les expressions données dans l’énoncé de la propriété. 

Dans la propriété précédente, on a exprimé l’inverse de la matrice partitionnée 𝐴 en fonction de 𝐴11 , le bloc
NO de 𝐴−1 . Il est également possible d’en donner l’expression à partir du bloc SE 𝐴22 . On peut écrire
!
© 𝐴 + 𝐴11 𝐴12 𝐴 𝐴21 𝐴11 ª
−1 −1 22 −1 −1 𝐴 𝐴22
−𝐴11
𝐴11 𝐴12
= ­ 11 ®
12
𝐴−1 = (5) {eq:invb2}
21 22 22 −1 −1 −1
« ¬
𝐴 𝐴 −𝐴 𝐴21 𝐴11 (𝐴22 − 𝐴21 𝐴11 𝐴12 )

où 𝐴22 est le bloc SE de 𝐴−1 , càd 𝐴22 = (𝐴22 − 𝐴21 𝐴11


−1 𝐴 ) −1 .
12

Il est assez difficile de généraliser ce type de formule à des matrices ayant plus de 2 blocs dans chaque
dimension (ligne et colonne). Il y a cependant l’exception des matrices bloc-diagonales, càd des matrices de
la forme
𝐴1 0 · · · 0
© 0 𝐴 ··· 0 ª
­ ®
𝐴 = ­­ . . ®
2
®
­ .. .. · · · .. ®
.

« 0 0 · · · 𝐴𝑘 ¬

Si les blocs diagonaux 𝐴𝑖𝑖 de 𝐴 sont tous des matrices carrées inversible, alors 𝐴 est inversible et on a

© 𝐴1 0 ª
−1 0 ···
­ ®
­ 0 · · · 0 ®®
­ 𝐴2−1

.. ®®
𝐴−1
­ ..
­ . . ®
..
­ ®
. ···
« ¬
0 0 · · · 𝐴𝑘−1

càd diag(𝐴1 , . . . , 𝐴𝑘 ) −1 = diag(𝐴1−1 , . . . , 𝐴𝑘−1 ).


Cela se vérifie en calculant 𝐴𝐴−1 à l’aide d’un produit par blocs. Ce cas inclut le cas des matrices diagonales,
qu’on peut voir comme des matrices bloc-diagonales dans lesquelles chaque bloc est une matrice de format
(1, 1). On a alors de le résultat suivant

−1 1
0 0 0
© 1 ª © 𝑎1 ª
𝑎 0 0 ··· 0 ···
­0 0 ®® ­0 0 ®®
­ ­
1
𝑎2 0 ··· 0 ···
­ ® ­ 𝑎2
®
­0 0® = ­­ 0
1

­ ® ®
0 𝑎3 ··· 0 ···
­ .. .. ® ­ .. .. ®
𝑎3
­. . ®® ­. . ®®
.. .. .. .. .. ..
­ . . . ­ . . .
«0 𝑎𝑚 ¬ «0 𝑎𝑚 ¬
0 0 1
··· 0 0 ···

2.5.3 Déterminant

Le déterminant ne se calcule que pour les matrices carrées de format (𝑚, 𝑚) avec 𝑚 ≥ 2. Il se calcule de
manière récursive à partir du cas de matrices de format (2, 2).

def:det2 Définition 2.3 [Déterminant d’une matrice de format (2, 2)]. Pour une matrice carrée 𝐴 de format (2, 2), le dé-

27
terminant de 𝐴 est le réel noté |𝐴| ou encore det(𝐴), défini par

𝑎 11 𝑎 12
det(𝐴) = |𝐴| = = 𝑎 11 𝑎 22 − 𝑎 12 𝑎 22
𝑎 21 𝑎 22

Pour une matrice carrée 𝐴 de format (𝑚, 𝑚) avec 𝑚 ≥ 2, on définit le déterminant de 𝐴 de manière récursive
à partir du déterminant de matrices carrées formées à partir des éléments de 𝐴.

Définition 2.4 [Matrices mineures]. Soit 𝐴 une matrice de format (𝑚, 𝑚). Pour tout 𝑖, 𝑗 ∈ {1, . . . , 𝑚}, on appelle
matrice mineure de l’élément 𝑎 𝑖𝑗 , et on note 𝐴𝑖𝑗 , la matrice de format (𝑚 − 1, 𝑚 − 1) qu’on obtient en retirant de 𝐴 sa
𝑖 e ligne et sa 𝑗 e colonne.

def:det Définition 2.5 [Déterminant d’une matrice carrée]. Soit 𝐴 une matrice de format (𝑚, 𝑚). Le déterminant de 𝐴
est le réel noté |𝐴| ou encore det(𝐴), défini par

Õ
𝑚
det(𝐴) = |𝐴| = (−1) 𝑖+𝑗 𝑎 𝑖𝑗 det(𝐴𝑖𝑗 )
𝑗=1
Õ
𝑚
= (−1) 𝑖+𝑗 𝑎 𝑖𝑗 det(𝐴𝑖𝑗 )
𝑖=1

La définition fournit deux formules pour calculer det(𝐴). Dans la première, on se fixe une ligne quelconque
𝑖 de 𝐴, et l’indice de sommation parcourt les 𝑚 colonnes de 𝐴 ; on dit qu’on développe le déterminant de
𝐴 selon la 𝑖 e ligne de 𝐴. Dans la seconde, c’est la colonne 𝑗 qui est fixée et on développe le déterminant de
𝐴 selon cette 𝑗 e colonne puisque l’indice de sommation parcourt les 𝑚 lignes de 𝐴. Que l’on choisisse un
développement en ligne ou en colonne, le résultat obtenu reste le même. De plus, on note que lors d’un
développement selon une ligne ou d’une colonne, le résultat obtenu ne dépend pas de la ligne ou de la
colonne choisie.
La définition permet de déduire facilement det(Id𝑚 ) = 1 (on effectue par exemple un raisonnement par
récurrence sur 𝑚, voir exercices).
La propriété suivante sera admise. 6

pro:detf Propriété 2.9. Soit 𝐴 une matrice de format (𝑚, 𝑚). On a les résultats suivants.
pro:detf1 1. Si la 𝑗 e colonne de 𝐴 s’écrit 𝐴𝑗 = 𝜆′𝐶 ′ + 𝜆′′𝐶 ′′. Alors

det(𝐴) = 𝜆′ det(𝐴′) + 𝜆′′ det(𝐴′′)


où 𝐴′ et 𝐴′′ sont des matrices 
dont toutes les colonnes sont identiques 
à celles de 𝐴, sauf la 𝑗 e, égale à 𝐶 ′ pour 𝐴′ età
′′ ′′ ′ ′′
𝐶 pour 𝐴 , càd 𝐴 = 𝐴1 · · · 𝐴𝑗−1 𝐶 ′ 𝐴𝑗+1 · · · 𝐴𝑚 et 𝐴 = 𝐴1 · · · 𝐴𝑗−1 𝐶 ′′ 𝐴𝑗+1 · · · 𝐴𝑚 .

6. Elle se démontre en utilisant l’expression suivante du déterminant :


Õ Õ
𝑚
det(𝐴) = 𝜀(𝜎) 𝑎 𝜎(𝑗)𝑗
𝜎∈𝑆𝑚 𝑗=1

où 𝑆𝑚 est l’ensemble des permutation de {1, . . . , 𝑚} et 𝜀(𝜎) est la parité de la permutation 𝜎.

28
Ou encore si  
𝐴 = 𝐴1 ··· 𝐴𝑗−1 𝜆′𝐶 ′ + 𝜆′′𝐶 ′′ 𝐴𝑗+1 ··· 𝐴𝑚

alors
det(𝐴) = 𝜆′ det(𝐴1 · · · 𝐴𝑗−1 𝐶 ′ 𝐴𝑗+1 · · · 𝐴𝑚 ) + 𝜆′′ det(𝐴1 · · · 𝐴𝑗−1 𝐶 ′′ 𝐴𝑗+1 · · · 𝐴𝑚 )

On dit que le déterminant est linéaire en les colonnes de 𝐴.


pro:detf2 2. Si on forme une matrice 𝐵 en permutant deux colonnes de 𝐴 et en laissant les autres inchangées, alors det(𝐵) =
− det(𝐴).

Cette propriété, ainsi que la définition 2.5, permetent de démontrer les propriétés suivantes du déterminant.

pro:det Propriété 2.10. Soit 𝐴 une matrice carrée de format (𝑚, 𝑚).
1. Toute matrice ayant une colonne de 0 a un déterminant nul.
it:deta 2. Soit 𝐵 une matrice de même format que 𝐴, telle que 𝐵𝑗 = 𝛼𝑗 𝐴𝑗 , 𝑗 ∈ {1, . . . , 𝑚} pour des réels 𝛼1 , . . . , 𝛼𝑚 . Alors
det(𝐵) = (𝛼1 × · · · × 𝛼𝑚 ) det(𝐴).
3. Si une matrice a deux colonnes identiques, alors son déterminant est nul.
it:detcl 4. Si 𝐵 est la matrice obtenue à partir de 𝐴 en ajoutant à une colonne de 𝐴 une combinaison linéaire des autres
colonnes de 𝐴, alors det(𝐵) = det(𝐴).

Démonstration.
1. Soit 𝑗 la colonne de 𝐴 qui ne contient que des 0. On utilise la définition 2.5 du déterminant en
développant selon la colonne 𝑗 : on a 𝑎 𝑖𝑗 = 0 pour tout 𝑖 ∈ {1, . . . , 𝑚} et donc det(𝐴) = 0.
On peut également utiliser le point 1 de la propriété 2.9. Soit 𝐴𝑗 la colonne de 𝐴 ne contenant que des 0. 
Soit 𝐶 une matrice (𝑚, 1) quelconque. On a alors 𝐴𝑗 = 𝐶−𝐶. Soit 𝐴′ la matrice 𝐴1 · · · 𝐴𝑗−1 𝐶 𝐴𝑗+1 · · · 𝐴𝑚
et soit 𝐴′′ = 𝐴′. On utilise le point 1 de la propriété 2.9, avec 𝐶 ′ = 𝐶 ′′ = 𝐶, 𝐴′ = 𝐴′′ et 𝜆′ = 1, 𝜆′′ = −1 : on
a det(𝐴) = 𝜆′ det(𝐴′) + 𝜆′′ det(𝐴′′) = det(𝐴′) − det(𝐴′) = 0.
2. On utilise le point 1 de la propriété 2.9 (en répétant la démarche 𝑚 fois). Exercice
3. Soit 𝐴 une matrice dont les colonnes 𝑗 et 𝑘 sont identiques et soit 𝐴′ la matrice obtenue à partir de 𝐴
en permutant ces deux colonnes. On doit avoir det(𝐴′) = − det(𝐴) (point 2 de la propriété 2.9). Mais
comme 𝐴𝑗 = 𝐴𝑘 , on a 𝐴′ = 𝐴 et donc det(𝐴′) = det(𝐴). Donc on a nécessairement det(𝐴) = 0.
4. Soient 𝜆1 , . . . , 𝜆𝑚 des réels et soit 𝐵 la matrice obtenue à partir de 𝐴 en remplaçant sa 𝑗 e colonne par
Í
𝑚
𝐴𝑗 + 𝜆𝑖 𝐴𝑖 . On donc
𝑖=1
𝑖≠𝑗

!
Í
𝑚
𝐵 = 𝐴1 ··· 𝐴𝑗−1 𝐴𝑗 + 𝜆𝑖 𝐴𝑖 𝐴𝑗+1 ··· 𝐴𝑚
𝑖=1
𝑖≠𝑗

et en utilisant le point 1 de la propriété 2.9, on a

Õ
𝑚
det(𝐵) = det(𝐴) + 𝜆𝑖 det( 𝐴1 ··· 𝐴𝑗−1 𝐴𝑖 𝐴𝑗+1 ··· 𝐴𝑚 )
𝑖=1
𝑖≠𝑗

29
 
Si 𝑗 ≠ 𝑖, la matrice 𝐴1 · · · 𝐴𝑗−1 𝐴𝑖 𝐴𝑗+1 · · · 𝐴𝑚 a deux colonnes identiques. Donc pour tout
𝑗 ∈ {1, . . . , 𝑚}, 𝑗 ≠ 𝑖 det( 𝐴1 ··· 𝐴𝑗−1 𝐴𝑖 𝐴𝑗+1 ··· 𝐴𝑚 ) = 0 et donc det(𝐵) = det(𝐴).

Le déterminant possède une propriété permettant de calculer facilement le déterminant d’un produit.

Propriété 2.11. Soient 𝐴 et 𝐵 des matrices de format (𝑚, 𝑚). Alors det(𝐴𝐵) = det(𝐴) det(𝐵).

On admet ce résultat (preuve fournie sur demande). Il a un corollaire intéressant.

Corollaire 2.1. Soit 𝐴 une matrice de format (𝑚, 𝑚). Alors 𝐴 est inversible ssi det(𝐴) ≠ 0 ; et dans ce cas det(𝐴−1 ) =
1
det(𝐴)
.

Démonstration. 𝐴 n’est pas inversible signifie que l’une de ses colonnes est une combinaison linéaire des
autres. En procédant comme dans la preuve du point 4 de la propriété 2.10, on peut exprimer le déterminant
de 𝐴 comme une somme de déterminants de matrices ayant au moins deux colonnes identiques. Chacun de
ces déterminants est nul et donc celui de 𝐴 aussi.
Si 𝐴 est inversible, alors on a Id𝑚 = 𝐴𝐴−1 et donc det(Id𝑚 ) = 1 = det(𝐴𝐴−1 ) = det(𝐴) det(𝐴−1 ), ce qui serait
1
impossible si det(𝐴) = 0. On a donc dans ce cas det(𝐴) ≠ 0 et on en déduit donc det(𝐴−1 ) = det(𝐴) . 

Attention, en général il n’y a pas de formule de la sorte pour le déterminant d’une somme.

Propriété 2.12. Soit 𝐴 une matrice (𝑚, 𝑚). On a det(𝐴) = det(𝐴 ).
⊤ ⊤
Démonstration. Pour 𝑖, 𝑗 quelconques dans {1, . . . , 𝑚}, (𝐴𝑖𝑗 ) est la matrice formée à partir de 𝐴 en lui enlevant
la 𝑖 e ligne et la 𝑗 e colonne. Cette ligne et cette colonne sont respectivement la 𝑗 e ligne et la 𝑖 e colonne de 𝐴.

Donc pour former (𝐴 )𝑖𝑗 on retire la 𝑗 e ligne et la 𝑖 e colonne de 𝐴 et on transpose cette matrice. Or cette
⊤ ⊤
matrice est 𝐴𝑗𝑖 et donc (𝐴 )𝑖𝑗 = 𝐴𝑗𝑖 . On peut alors démontrer la propriété en effectuant une récurrence sur 𝑚.
La propriété est vraie pour 𝑚 = 2 (cela se montre facilement à partir de la définition 2.3). Supposons qu’elle

le soit pour un entier 𝑚 ≥ 2 et considérons une matrice 𝐴 de format (𝑚 + 1, 𝑚 + 1). Si on note (𝑎 )𝑖𝑗 le (𝑖, 𝑗) e
⊤ ⊤ ⊤
élément de 𝐴 , on a (𝑎 )𝑖𝑗 = 𝑎 𝑗𝑖 , et on peut écrire det(𝐴 ) en faisant un développement selon la 1re ligne


Õ
𝑚+1
⊤ ⊤
Õ
𝑚+1

det(𝐴 ) = (−1) 𝑗+1 (𝑎 )1𝑗 det (𝐴 )1𝑗 ) = (−1) 𝑗+1 𝑎 𝑗1 det(𝐴𝑗1 )
𝑗=1 𝑗=1


Mais 𝐴𝑗1 est une matrice de format (𝑚, 𝑚) et par hypothèse, son déterminant est égal à celui de sa transposée :

det(𝐴𝑗1 ) = det(𝐴𝑗1 ) et donc

Õ
𝑚+1
det(𝐴 ) = (−1) 𝑗+1 𝑎 𝑗1 det(𝐴𝑗1 )
𝑗=1

Le mdd est le développement de det(𝐴) selon la 1re colonne. Donc det(𝐴 ) = det(𝐴). 

Cette propriété a la conséquence suivante : dans toutes les propriétés concernant le déterminant d’une
matrice, on peut remplacer le mot “colonne” par le mot “ligne” et vice versa.
Reste à détailler :
* DETERMINANT ET MATRICES BLOC (DONC BLOC TRIANGULAIRE)
* DETERMINANT ET COMPLEMENT DE SCHUR

30
La propriété det(Id𝑚 ) = 1 et le point 2 de la propriété 2.10 permettent de déduire que

Ö
𝑚
det(diag(𝑎 1 , . . . , 𝑎 𝑚 )) = 𝑎𝑖 (6) {eq:detdiag}

𝑖=1

Cette formule se généralise à une matrice bloc-diagonale avec des blocs carrés

Propriété 2.13 [Formule pour le déterminant d’une matrice bloc diagonale]. Soit 𝐶 = diag(𝐴, 𝐵) une matrice
bloc-diagonale, avec 𝐴 et 𝐵 sont des matrices de format respectifs (𝑚, 𝑚) et (𝑛, 𝑛), Alors pour tout 𝑛, 𝑚, on a

det(𝐶) = det(𝐴) det(𝐵)

Démonstration. On utilise une double récurrence sur la taille des deux blocs de 𝐶
— Initialisation : si les blocs NO et SE de 𝐶 sont de taille (1, 1) et (1, 1), la propriété est vraie d’après (6)
ci-dessus
— Hérédité
— Hérédité sur la taille du bloc NO. Supposons la propriété vraie pour des entiers non nuls 𝑚 − 1 et
𝑛 − 1 quelconques. Soit 𝐶 une matrice bloc diagonale, dont on note 𝐴 le bloc NO de format (𝑚, 𝑚)
et 𝐵 le bloc SE de format (𝑛 − 1, 𝑛 − 1) ; on a
 
𝐴 0
𝐶= ⊤
0 𝐵

où le 0 est de format (𝑚, 𝑛 − 1). Si on écrit le déterminant de 𝐶 en développant selon sa 1re colonne,
on a
Õ
𝑚+𝑛−1 Õ
𝑚
det(𝐶) = (−1) 𝑖+1 𝑐𝑖1 det(𝐶𝑖1 ) = (−1) 𝑖+1 𝑎 𝑖1 det(𝐶𝑖1 )
𝑖=1 𝑖=1
car (
𝑎 𝑖1 pour 𝑖 ∈ {1, . . . , 𝑚}
𝑐𝑖1 =
0 pour 𝑖 ∈ {𝑚 + 1, . . . , 𝑚 + 𝑛 − 1}

Pour 𝑖 ∈ {1, . . . , 𝑚}, la sous-matrice 𝐶𝑖1 est obtenue en enlevant la 𝑖 e ligne et la 1re colonne de 𝐶 qui
apparaissent grisées ci-dessous :

© 11 ª
𝑎 𝑎 12 ··· 𝑎 1𝑗 ··· 𝑎 1𝑚 0 ··· 0
­ .. ®
­ . ®
.. .. .. .. ..
­ . ··· . ··· . . ··· . ®
­ ®
­ 𝑎 𝑖1 0 0 ®
­ . ®
𝑎 𝑖2 ··· 𝑎 𝑖𝑗 ··· 𝑎 𝑖𝑚 ···
­ . ®
­ ®
.. .. .. .. ..
𝐶=­ . . ··· . ··· . . ··· .
®
­ 𝑎 ®
­ 𝑚1 𝑎 𝑚2 ··· 𝑎 𝑚𝑗 ··· 𝑎 𝑚𝑚 0 ··· 0 ®
­ ®
­ 0 ®
­ ®
0 ··· 0 ··· 0
­ .. ®
­ . ®
.. .. ..
­ . ··· . ··· . B ®
« 0 0 ··· 0 ··· 0 ¬

31
Donc 𝐶𝑖1 est bloc-diagonale, de la forme
 
𝐴𝑖1 0
𝐶𝑖1 = ⊤
0 𝐵

où 𝐴𝑖1 est la matrice obtenue en enlevant la 𝑖 e ligne et la 1re colonne de 𝐴, et 0 est une matrice de
format (𝑚 − 1, 𝑛 − 1). Comme on a supposé la propriété vraie pour les entiers 𝑚 − 1 et 𝑛 − 1, on a

det(𝐶𝑖1 ) = det(𝐴𝑖1 ) det(𝐵)

et donc

Õ
𝑚 Õ
𝑚
det(𝐶) = (−1) 𝑖+1 𝑎 𝑖1 det(𝐴𝑖1 ) det(𝐵) = det(𝐵) (−1) 𝑖+1 𝑎 𝑖1 det(𝐴𝑖1 ) = det(𝐵) det(𝐴)
𝑖=1 𝑖=1

Donc la propriété est vraie lorsque le bloc NO est de format (𝑚, 𝑚) et le bloc SE de format
(𝑛 − 1, 𝑛 − 1).
— Hérédité sur la taille du bloc SE. On suppose que 𝐶 = diag(𝐴, 𝐵) avec 𝐴 de format (𝑚, 𝑚) et 𝐵 de
format (𝑛, 𝑛). On écrit son déterminant en développant selon sa dernière colonne

Õ
𝑚+𝑛 Õ
𝑚+𝑛
det(𝐶) = (−1) 𝑖+𝑚+𝑛 𝑐𝑖,𝑚+𝑛 det(𝐶𝑖,𝑚+𝑛 ) = (−1) 𝑖+𝑚+𝑛 𝑏𝑖−𝑚,𝑛 det(𝐶𝑖,𝑚+𝑛 )
𝑖=1 𝑖=𝑚+1

car (
0 si 𝑖 ∈ {1, . . . , 𝑚}
𝑐𝑖,𝑚+𝑛 =
𝑏𝑖−𝑚,𝑛 𝑖 ∈ {𝑚 + 1, . . . , 𝑚 + 𝑛}

De manière semblable ce qui a été fait dans le point précédent, lorsque 𝑖 ∈ {𝑚 + 1, . . . , 𝑚 + 𝑛}, la
matrice 𝐶𝑖,𝑚+𝑛 est la matrice bloc-diagonale 𝐶𝑖,𝑚+𝑛 = diag(𝐴, 𝐵𝑖−𝑚,𝑛−1 ) avec un bloc NO de format
(𝑚, 𝑚) et un bloc SE de format (𝑛 − 1, 𝑛 − 1). D’après le point précédent, on a det(𝐶𝑖,𝑚+𝑛 ) =
det(𝐴) det(𝐵𝑖−𝑚,𝑛−1 ) et donc

Õ
𝑚+𝑛
det(𝐶) = (−1) 𝑖+𝑚+𝑛 𝑏𝑖−𝑚,𝑛 det(𝐴) det(𝐵𝑖−𝑚,𝑛−1 )
𝑖=𝑚+1
Õ
𝑚+𝑛
= det(𝐴) (−1) 𝑖+𝑚+𝑛 𝑏𝑖−𝑚,𝑛 det(𝐵𝑖−𝑚,𝑛−1 )
𝑖=𝑚+1
Õ 𝑛
= det(𝐴) (−1) 𝑗+2𝑚+𝑛 𝑏𝑗,𝑛 det(𝐵𝑗,𝑛−1 )
𝑗=1
Õ
𝑛
= det(𝐴) (−1) 𝑗+𝑛 𝑏𝑗,𝑛 det(𝐵𝑗,𝑛−1 )
𝑗=1

= det(𝐴) det(𝐵)

Donc la propriété est vraie lorsque le bloc NO est de format (𝑚, 𝑚) et le bloc SE est de format
(𝑛, 𝑛).
On a donc montré que si la propriété det(diag(𝐴, 𝐵)) = det(𝐴) det(𝐵) est vraie lorsque les blocs 𝐴 et 𝐵

32
sont de format respectif (𝑚 − 1, 𝑚 − 1) et (𝑛 − 1, 𝑛 − 1), alors cela entraîne que cette propriété est vraie
pour des blocs de format (𝑚, 𝑚) et (𝑛, 𝑛).
La propriété a été initialisée et elle est héréditaire sur le nombre de lignes et de colonnes des blocs. Elle est
donc vraie pour toute les tailles de blocs. 

Si 𝐶 est bloc-diagonale avec plus de 2 blocs ...

2.5.4 Rang

Définition 2.6 [Rang d’une matrice]. Le rang d’une matrice 𝐴 de format (𝑙, 𝑐) est le rang de {𝐴1 , . . . , 𝐴𝑐 }, càd la
dimension de Im(𝐴). On le note rg(𝐴).

On a nécessairement rg(𝐴) ≤ 𝑐. Lorsque rg(𝐴) = 𝑐, on dit que 𝐴 est de plein rang. Ceci signifie aussi que si
pour un vecteur 𝑋 ∈ ℝ𝑐 on a 𝐴𝑋 = 0𝑙 , alors 𝑋 = 0𝑐 .
Dans le cas d’une matrice carrée 𝐴 de format (𝑐, 𝑐), la propriété 2.2 permet de déduire que 𝐴 est inversible
ssi rg(𝐴) = 𝑐.
On a le résultat suivant très important sur les propriétés des matrices.

Propriété 2.14 [Théorème du rang]. Soit 𝐴 est une matrice de format (𝑙, 𝑐) ; on note 𝑑 la dimension de ker(𝐴). On
a 𝑐 = rg(𝐴) + 𝑑

Démonstration. On montre que rg(𝐴) = 𝑐 − 𝑑. Soient 𝐾1 , . . . , 𝐾𝑑 des vecteurs formant une base de ker(𝐴). On
peut compléter ces vecteurs par 𝑟 ≔ 𝑐 − 𝑑 vecteurs 𝐺1 , . . . , 𝐺𝑟 de sorte que les 𝑐 vecteurs 𝐾1 , . . . , 𝐾𝑑 , 𝐺1 , . . . , 𝐺𝑟
Í
forment une base de ℝ𝑐 . Soit 𝑋 ∈ Im(𝐴) = Vect{𝐴1 , . . . , 𝐴𝑐 }, càd 𝑋 = 𝑐𝑖=1 𝐴𝑖 𝜇𝑖 pour des réels 𝜇1 , . . . , 𝜇𝑐 , ou
encore 𝑋 = 𝐴𝜇 (voir (2)). Mais 𝜇 peut être vu comme un élément de ℝ𝑐 qu’on peut donc écrire en fonction
des vecteurs de la base {𝐾1 , . . . , 𝐾𝑑 , 𝐺1 , . . . , 𝐺𝑟 } càd

Õ
𝑑 Õ
𝑟
𝜇= 𝛼𝑖 𝐾𝑖 + 𝛽𝑗 𝐺𝑗
𝑖=1 𝑗=1

Donc
Õ
𝑑 Õ
𝑟 Õ
𝑑 Õ
𝑟 Õ
𝑟
𝑋 = 𝐴𝜇 = 𝐴( 𝛼𝑖 𝐾𝑖 + 𝛽𝑗 𝐺𝑗 ) = 𝛼𝑖 𝐴𝐾𝑖 + 𝛽𝑗 𝐴𝐺𝑗 = 𝛽𝑗 𝐴𝐺𝑗
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑗=1
Í𝑟
puisque 𝐾1 , . . . , 𝐾𝑑 sont dans ker(𝐴). On peut donc écrire 𝑋 sous la forme 𝑋 = 𝑗=1 𝛽𝑗 𝐻𝑗 avec

𝐻𝑗 ≔ 𝐴𝐺𝑗 ∀𝑗 ∈ {1, . . . , 𝑟} (7) {eq:bl}

Donc les vecteurs 𝐻1 , . . . , 𝐻𝑟 engendrent Im(𝐴). Ces vecteurs sont également linéairement indépendants. En
effet supposons qu’on ait
Õ
𝑟
𝛾𝑗 𝐻𝑗 = 0𝑙
𝑗=1
Í
pour certains réels 𝛾1 , . . . , 𝛾𝑟 . On aurait alors 𝑟𝑗=1 𝛾𝑗 𝐴𝐺𝑗 = 0𝑙 , par définition des 𝐻𝑗 (voir (7)), ou encore
Í Í
𝐴 𝑟𝑗=1 𝛾𝑗 𝐺𝑗 = 0𝑙 . Ceci signifie donc que 𝑟𝑗=1 𝛾𝑗 𝐺𝑗 ∈ ker(𝐴). Dans ce cas, ce vecteur s’écrit comme une CL de

33
Í𝑟 Í𝑑
𝐾1 , . . . , 𝐾𝑑 et donc 𝑗=1 𝛾𝑗 𝐺𝑗 = 𝑖=1 𝛿𝑖 𝐾𝑖 , ou encore (avec 𝜌𝑖 = −𝛿𝑖 ) :

Õ
𝑟 Õ
𝑑
𝛾𝑗 𝐺𝑗 + 𝜌𝑖 𝐾𝑖 = 0𝑐
𝑗=1 𝑖=1

Mais comme {𝐾1 , . . . , 𝐾𝑑 , 𝐺1 , . . . , 𝐺𝑟 } est une base de ℝ𝑐 , on a nécessairement 𝜌𝑖 = 0 ∀𝑖 ∈ {1, . . . , 𝑑} et 𝛾𝑗 = 0


Í
∀𝑗 ∈ {1, . . . , 𝑟}. En résumé, si 𝑟𝑗=1 𝛾𝑗 𝐻𝑗 = 0𝑙 , alors 𝛾𝑗 = 0 ∀𝑗 ∈ {1, . . . , 𝑟}, ce qui équivaut à l’indépendance
linéaire de 𝐻1 , . . . , 𝐻𝑟 .
La famille {𝐻1 , . . . , 𝐻𝑟 } étant libre et génératrice de Im(𝐴), elle forme une base de Im(𝐴). Donc rg(𝐴) =
dim Im(𝐴) = 𝑟.
Comme 𝑟 était défini par 𝑟 = 𝑐 − 𝑑, on a bien rg(𝐴) = 𝑐 − 𝑑. 

Le théorème du rang peut donc s’énoncer : le rang d’une matrice est égal à son nombre de colonnes moins
la dimension de son noyau.

Propriété 2.15. Une matrice carrée 𝐴 de format (𝑐, 𝑐) est inversible ssi rg(𝐴) = 𝑐.

Démonstration. 𝐴 est inversible ssi ker(𝐴) = {0𝑐 } (voir propriété 2.2), càd ssi dim ker(𝐴) = 0 et d’après le
théorème du rang, ceci équivaut à rg(𝐴) = 𝑐 − dim(ker(𝐴)) = 𝑐. 

pro:rgker Propriété 2.16. Deux matrices 𝐴 et 𝐵 ayant le même nombre de colonnes ont le même rang ssi leurs noyaux sont de
dimensions égales.

Démonstration. Conséquence immédiate du théorème du rang 

Propriété 2.17. On ne change pas la rang de 𝐴 en permutant ses colonnes ou en les multipliant par des réels tous
non-nuls

Démonstration. Peut se montrer en utilisant le théorème du rang, puisqu’avec ces opérations sur 𝐴, on ne
change ni le noyau, ni le nombre de colonnes 

Le résultat suivant a son intérêt propre, mais il sert également à obtenir facilement d’autres résultats impor-
tants.

pro:rg Propriété 2.18. Soient 𝐴 une matrice de format (𝑙, 𝑐) et 𝑄 une matrice de format (𝑐, 𝑑) ; alors rg(𝐴𝑄) ≤ rg(𝐴)

Démonstration. Soient 𝐴1 , . . . , 𝐴𝑐 les colonnes de 𝐴 et 𝑄1 , . . . , 𝑄𝑑 celles de 𝑄. La 𝑗 e colonne de 𝐵 ≔ 𝐴𝑄 est 𝐵𝑗 =


Í
𝐴𝑄𝑗 = 𝑐𝑘=1 𝑞𝑘𝑗 𝐴𝑘 ; c’est donc une CL des colonnes de 𝐴. Donc Im(𝐵) ⊂ Im(𝐴) d’où dim Im(𝐵) ≤ dim Im(𝐴),
càd rg(𝐴𝑄) = rg(𝐵) ≤ rg(𝐴). 

On peut maintenant démontrer le résultat suivant.


⊤ ⊤ ⊤
pro:rgtransp Propriété 2.19. Pour toute matrice 𝐴, on a rg(𝐴) = rg(𝐴 𝐴) = rg(𝐴𝐴 ) = rg(𝐴 )

⊤ ⊤
Démonstration. 𝑋 ∈ ker(𝐴) =⇒ 𝑋 ∈ ker(𝐴 𝐴), puisque 𝐴𝑋 = 0𝑙 =⇒ 𝐴 𝐴𝑋 = 0𝑐 . La réciproque est
⊤ ⊤ ⊤ ⊤
également vraie, puisque 𝐴 𝐴𝑋 = 0𝑐 =⇒ 𝑋 𝐴 𝐴𝑋 = 0. Mais en notant 𝑈 = 𝐴𝑋, ceci équivaut à 𝑈 𝑈 = 0

ou encore 𝑈 = 0𝑙 , càd 𝐴𝑋 = 0𝑙 . Les noyaux de 𝐴 et de 𝐴 𝐴 sont identiques, et ils sont donc de même

34

dimension. Comme 𝐴 et 𝐴 𝐴 ont le même nombre de colonnes, par le théorème du rang, elles ont le même
⊤ ⊤ ⊤ ⊤
rang : rg(𝐴) = rg(𝐴 𝐴). Mais d’après la propriété 2.18, on a rg(𝐴 𝐴) ≤ rg(𝐴 ), et donc rg(𝐴) ≤ rg(𝐴 ). On
⊤ ⊤ ⊤
applique ensuite le même raisonnement à la matrice 𝐵 ≔ 𝐴 et on obtient rg(𝐵) = rg(𝐵 𝐵) ≤ rg(𝐵 ), ou
⊤ ⊤ ⊤
encore en utilisant la définition de 𝐵 : rg(𝐴 ) = rg(𝐴𝐴 ) ≤ rg(𝐴), et donc rg(𝐴 ) ≤ rg(𝐴). On doit donc avoir

rg(𝐴 ) = rg(𝐴). 

On voit donc que le rang de 𝐴 est aussi le nombre maximum de lignes de 𝐴 linéairement indépendantes
(voir aussi le corollaire 2.2).
pro:paq Propriété 2.20. Soit 𝐴 une matrice de format (𝑙, 𝑐) et soient 𝑃 de format (𝑙, 𝑙) et 𝑄 de format (𝑐, 𝑐), toutes deux
inversibles. Alors rg(𝑃𝐴𝑄) = rg(𝐴)

Démonstration.
1. On pose 𝐵 ≔ 𝐴𝑄. On a rg(𝐵) = rg(𝐴𝑄) ≤ rg(𝐴) d’après la propriété 2.18. Mais on a aussi 𝐴 = 𝐵𝑄−1
et donc rg(𝐴) = rg(𝐵𝑄−1 ) ≤ rg(𝐵) encore d’après la propriété 2.18. Donc rg(𝐵) = rg(𝐴), càd rg(𝐴𝑄) =
rg(𝐴).
2. Par ailleurs, 𝑋 ∈ ker(𝐴) ⇐⇒ 𝐴𝑋 = 0𝑐 =⇒ 𝑃𝐴𝑋 = 0𝑐 =⇒ 𝑋 ∈ ker(𝑃𝐴) ; réciproquement,
𝑋 ∈ ker(𝑃𝐴) ⇐⇒ 𝑃𝐴𝑋 = 0𝑐 =⇒ 𝑃 −1 𝑃𝐴𝑋
= 0𝑐 =⇒ 𝐴𝑋 = 0𝑐 =⇒ 𝑋 ∈ ker(𝑃𝐴). Donc ∀𝑋 ∈ ℝ𝑐 , on
a 𝑋 ∈ ker(𝐴) ⇐⇒ 𝑋 ∈ ker(𝑃𝐴), ce qui équivaut à ker(𝐴) = ker(𝑃𝐴). Comme 𝐴 et 𝑃𝐴 ont le même
nombre de colonnes, le théorème du rang permet de conclure que rg(𝑃𝐴) = rg(𝐴).
3. Finalement, en posant 𝐶 = 𝑃𝐴, on a

rg(𝑃𝐴𝑄) = rg(𝐶𝑄) = rg(𝐶) = rg(𝑃𝐴) = rg(𝐴)

où la deuxième égalité vient du point 1 (appliqué à 𝐶 et non à 𝐴) ci-dessus et la troisième du point 2.




Remarque : sous les conditions de la propriété 2.20 on peut donner une preuve directe de rg(𝐴) = rg(𝐴𝑄)
qui ne s’appuie pas sur la propriété 2.18, mais qui établit que Im(𝐴) = Im(𝐴𝑄), ce qui entraîne donc
rg(𝐴) = rg(𝐴𝑄). Soit 𝑌 ∈ Im(𝐴), càd 𝑌 = 𝐴𝑋 pour un 𝑋 ∈ ℝ𝑐 . Alors on a aussi 𝑌 = 𝐴𝑄𝑄−1 𝑋 = 𝐴𝑄𝑍, avec
𝑍 = 𝑄−1 𝑋, càd 𝑌 ∈ Im(𝐴𝑄). Réciproquement, soit 𝑌 ∈ Im(𝐴𝑄), càd 𝑌 = 𝐴𝑄𝑋 pour un 𝑋 ∈ ℝ𝑐 . Alors 𝑌 = 𝐴𝑍
avec 𝑍 = 𝑄𝑋 càd 𝑌 ∈ Im(𝐴). Donc on a montré que ∀𝑌 ∈ ℝ𝑐 , on a 𝑌 ∈ Im(𝐴) ⇐⇒ 𝑌 ∈ Im(𝐴𝑄), ce qui
équivaut à Im(𝐴) = Im(𝐴𝑄).
cor:mindim Corollaire 2.2. rg(𝐴) ≤ min{𝑙, 𝑐}

Démonstration. On a rg(𝐴) ≤ 𝑐 d’après la définition de rg(𝐴). Soit 𝑃 une matrice de format (𝑙, 𝑙) inversible.
On a rg(𝐴) = rg(𝑃 −1 𝑃𝐴) ≤ rg(𝑃 −1 𝑃) = rg(𝐼𝑙 ) = 𝑙 où l’inégalité provient de la propriété 2.18. 

Remarque : pour obtenir l’inégalité rg(𝐴) ≤ 𝑙, on peut aussi voir qu’en posant 𝐵 = 𝐴 , la propriété 2.19
permet d’écrire rg(𝐴) = rg(𝐵). Mais par définition, rg(𝐵) est inférieur ou égal au nombre de colonnes de 𝐵,
càd à 𝑙.
Propriété 2.21. rg(𝐴𝐵) ≤ min{rg(𝐴), rg(𝐵)}
⊤ ⊤ ⊤ ⊤
Démonstration. On sait déjà que rg(𝐴𝐵) ≤ rg(𝐴). On a aussi rg(𝐴𝐵) = rg((𝐴𝐵) ) = rg(𝐵 𝐴 ) ≤ rg(𝐵 ) =
rg(𝐵). 

35
2.6 Diagonalisation des matrices

2.6.1 Matrice diagonalisable

On dit que des matrices carrées 𝐴 et 𝐵 sont semblables s’il existe une matrice inversible 𝑉 telle que 𝐴 = 𝑉𝐵𝑉 −1 .
Des matrices semblables ont le même format (égal à celui de 𝑉), le le même rang (voir propriété 2.20) ; la
dimension de leur noyau est donc la même.

def:matd Définition 2.7 [Matrice diagonalisable]. On dit qu’une matrice carrée 𝐴, de format (𝑐, 𝑐) est diagonalisable dans
ℝ si elle est semblable à une matrice diagonale : il existe une matrice Λ = diag(𝜆1 , . . . , 𝜆𝑐 ), avec 𝜆𝑖 ∈ ℝ, ∀𝑖 ∈ {1, . . . , 𝑐},
et une matrice carrée inversible 𝑉 telle que 𝐴 = 𝑉Λ𝑉 −1

Lorsque 𝐴 est diagonalisable, on a 𝐴𝑉 = 𝑉Λ, et si on note 𝑉1 , . . . , 𝑉𝑐 les (vecteurs) colonnes de 𝑉, en tenant


compte de la structure diagonale de Λ𝑖 , ceci s’écrit 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 , 𝑖 ∈ {1, . . . , 𝑐} ou encore

(𝐴 − 𝜆𝑖 Id𝑐 )𝑉𝑖 = 0𝑐 𝑖 ∈ {1, . . . , 𝑐}

Ceci équivaut à 𝑉𝑖 ∈ ker(𝐴 − 𝜆𝑖 Id𝑐 ), ∀𝑖 ∈ {1, . . . , 𝑐}. Si ker(𝐴 − 𝜆𝑖 Id𝑐 ) était réduit à {0𝑐 }, càd si 𝐴 − 𝜆𝑖 Id𝑐 était
inversible, alors on aurait 𝑉𝑖 = 0𝑐 et dans ce cas 𝑉 ne serait pas inversible. Donc si 𝐴 est diagonalisable, il
n’est pas possible que 𝐴 − 𝜆𝑖 Id𝑐 soit inversible. Donc une condition nécessaire pour que 𝐴 soit diagonalisable
est qu’il existe des réels 𝜆1 , . . . , 𝜆𝑐 tels que det(𝐴 − 𝜆𝑖 Id𝑐 ) = 0.
Ce n’est pas une condition suffisante. En effet, supposons qu’on ait pu trouver 𝑐 réels 𝜆1 , . . . , 𝜆𝑐 tels que
det(𝐴 − 𝜆𝑖 Id𝑐 ) = 0, ∀𝑖 ∈ {1, . . . , 𝑐}. Dans ce cas, ker(𝐴 − 𝜆𝑖 Id𝑐 ) ≠ {0𝑐 } pour tout 𝑖 ∈ {1, . . . , 𝑐} et on peut trouver

𝑐 vecteurs 𝑉1 .. . , 𝑉𝑐 tous non nuls tels que 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 , ∀𝑖 ∈ {1, . . . , 𝑐}, càd 𝐴𝑉 = Λ𝑉, où Λ = diag(𝜆1 , . . . , 𝜆𝑐 ) et
𝑉 = 𝑉1 · · · 𝑉𝑐 . Cependant, rien n’assure que 𝑉 soit inversible. Donc la question de la diagonalisation de 𝐴
équivaut à la recherche de 𝑐 couples (𝜆𝑖 , 𝑉𝑖 ), avec 𝜆𝑖 ∈ ℝ et 𝑉𝑖 ∈ ℝ𝑐 , 𝑖 ∈ {1, . . . , 𝑐}, tels que
— 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 , ∀𝑖 ∈ {1, . . . , 𝑐}
— 𝑉1 , . . . , 𝑉𝑝 sont linéairement indépendants
Notons qu’on a toujours l’équivalence suivante pour tout réel 𝜆 :

det(𝐴 − 𝜆Id𝑐 ) = 0 ⇐⇒ ∃𝑋 ∈ ℝ𝑐 , 𝑋 ≠ 0𝑐 , 𝐴𝑋 = 𝜆𝑋

Ceci permet d’introduire la définition suivante.

Définition 2.8 [Valeur propre. Vecteur propre]. Tout réel 𝜆 tel que det(𝐴 − 𝜆Id𝑐 ) = 0 est appelé valeur propre de
𝐴. Ceci équivaut à ker(𝐴 − 𝜆Id𝑐 ) ≠ {0𝑐 }. Tout vecteur 𝑋 ∈ ker(𝐴 − 𝜆Id𝑐 ) avec 𝑋 ≠ 0𝑐 est appelé vecteur propre de 𝐴
associé à la valeur propre 𝜆.

D’après la définition, pour que 𝐴 admette au moins une valeur propre, il faut que l’équation det(𝐴 −𝜆Id𝑐 ) = 0
admette au moins une solution dans ℝ. Ce n’est pas nécessairement le cas (voir plus loin) et donc il est possible
qu’une matrice ne possède pas de valeurs propres. Et dans ce cas elle ne possède pas de vecteurs propres
puisqu’on aura nécessairement det(𝐴 − 𝜆Id𝑐 ) ≠ 0 pour tout réel 𝜆, ce qui signifie la matrice 𝐴 − 𝜆Id𝑐 est
inversible pour tout 𝜆 ∈ ℝ. Dans ce cas, on a (𝐴 − 𝜆Id𝑐 )𝑋 = 0𝑐 ⇐⇒ 𝑋 = 0𝑐 , ou encore 𝐴𝑋 = 𝜆𝑋 ⇐⇒ 𝑋 = 0𝑐 .
La matrice 𝐴 ne peut donc avoir de vecteur propre.

36
On constate que pour une même valeur propre, il existe une infinité de vecteurs propres associés. En effet
si 𝜆 est une valeur propre de 𝐴, chaque élément de ker(𝐴 − 𝜆Id𝑐 ) est un vecteur propre de 𝐴. Cet ensemble
est un espace vectoriel non réduit à {0𝑐 }. Il contient donc une infinité d’éléments. Ceci montre en particulier
que si 𝑉1 , . . . , 𝑉𝑞 sont des vecteurs propres associés à 𝜆, alors toute combinaison linéaire non nulle de ces
vecteurs est également un vecteur propre associé à 𝜆. Cela peut aussi se vérifier directement :

𝐴(𝛼1 𝑉1 + · · · + 𝛼𝑞 𝑉𝑞 ) = 𝛼1 𝐴𝑉1 + · · · + 𝛼𝑞 𝐴𝑉𝑞 = 𝛼1 𝜆𝑉1 + · · · + 𝛼𝑞 𝜆𝑉𝑞 = 𝜆(𝛼1 𝑉1 + · · · + 𝛼𝑞 𝑉𝑞 )

En pratique, lorsqu’il s’agira de rechercher des vecteurs propres d’une matrice, on utilisera la convention de
ne chercher que des vecteurs propres de norme égale à 1, ce qui simplifie considérablement certains calculs.
De plus si on doit chercher des vecteurs propres associés à une valeur propre 𝜆, on choisira des éléments
d’une base de ker(𝐴 − 𝜆Id𝑐 ) (et donc linéairement indépendants).
Grâce au vocabulaire introduit dans la définition précédente, on peut énoncer une propriété qui résume les
commentaires qui suivent la définition 2.7.

pro:diagcns Propriété 2.22. 𝐴 est diagonalisable ssi il existe 𝑐 vecteurs propres de 𝐴 linéairement indépendants.

Démonstration. En effet, si 𝐴 est diagonalisable, les 𝑐 colonnes de 𝑉 sont des vecteurs propres et comme 𝑉
est inversible, ces vecteurs sont linéairement indépendants. Réciproquement, si 𝐴 admet 𝑐 vecteurs propres
𝑉1 , . . . , 𝑉𝑐 linéairement indépendants, en notant les valeurs propres 𝜆1 , . . . , 𝜆𝑐 qui leur sont associées (par
forcément deux à deux distinctes), alors on a

𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 𝑖 ∈ {1, . . . , 𝑐}

ou encore 𝐴𝑉 = 𝑉Λ où 𝑉 est la matrice dont les colonnes sont 𝑉1 , . . . , 𝑉𝑐 et Λ = diag(𝜆1 , . . . , 𝜆𝑐 ). Comme les
vecteurs propres sont linéairement indépendants, 𝑉 est inversible et donc l’égalité précédente équivaut à
𝐴 = 𝑉Λ𝑉 −1 . 

On note 𝐸𝜆∗ l’ensemble des vecteurs propres de 𝐴 associés à la valeur propre 𝜆, càd 𝐸𝜆∗ ≔ {𝑋 ∈ ℝ𝑐 | 𝑋 ≠
0𝑐 , 𝐴𝑋 = 𝜆𝑋}, et on définit 𝐸𝜆 ≔ 𝐸𝜆∗ ∪ {0𝑐 }.
On peut démontrer la propriété suivante

pro:sevp Propriété 2.23.


1. Pour toute valeur propre 𝜆 de 𝐴, l’ensemble 𝐸𝜆 est un sev de ℝ𝑐 ; on l’appelle sous-espace propre de 𝐴 associé à
la valeur propre 𝜆.
2. Si 𝜆1 et 𝜆2 sont deux valeurs propres distinctes de 𝐴, alors 𝐸𝜆1 ∩ 𝐸𝜆2 = {0𝑐 }, et donc 𝐸𝜆∗1 ∩ 𝐸𝜆∗2 = ∅ : un vecteur
propre de 𝐴 ne peut être associé à deux valeurs propres distinctes
3. Les vecteurs propres associés à des valeurs propres distinctes sont linéairement indépendants

Démonstration. Voir exercices pour les 2 premiers points. Le 3e point est une conséquence des deux premiers
et de la propriété 1.13. 

Cette propriété a des conséquences très importantes :

37
— Le point 2 de la propriété se généralise à un nombre quelconque 𝑚 de valeurs propres distinctes de
𝐴. Cela signifie que les 𝑚 sous-espaces propres associés à 𝑚 valeurs propres distinctes sont en somme
directe.
— Si 𝐴 est une matrice de format (𝑐, 𝑐), elle a au plus 𝑐 valeurs propres distinctes. En effet, si ce n’était pas
le cas, on aurait plus de 𝑐 vecteurs de ℝ𝑐 linéairement indépendants, ce qui est impossible.
— Une autre conséquence est la propriété suivante

pro:ldi Propriété 2.24. Si 𝐴 admet 𝑐 valeurs propres deux à deux distinctes, alors 𝐴 est diagonalisable.

Démonstration. Si 𝐴 admet 𝑐 valeurs propres deux à deux distinctes 𝜆1 , . . . , 𝜆𝑐 , alors on peut trouver 𝑐 vecteurs
propres 𝑉1 , . . . , 𝑉𝑐 de 𝐴, avec 𝑉𝑘 ∈ 𝐸𝜆𝑘 , ∀𝑘 ∈ {1, . . . , 𝑐}. Or ces 𝑐 vecteurs propres étant associés à des valeurs
propres distinctes, ils sont linéairement indépendants. La propriété 2.22 permet de conclure.


Attention, la réciproque n’est pas vraie : il se peut que des matrices soient diagonalisables sans pour autant
avoir des valeurs propres distinctes. Par exemple la matrice identité 𝐴 = Id𝑐 est diagonalisable : il suffit de
prendre Λ = Id𝑐 et 𝑉 = Id𝑐 . Λ est bien diagonale, 𝑉 est bien inversible, et on a bien 𝐴 = 𝑉Λ𝑉 −1 . Cependant
les éléments diagonaux de Λ, qui sont les valeurs propres de 𝐴 ne sont pas distincts. De fait, toute valeur
propre de 𝐴 = Id𝑐 est égale à 1, puisque dans ce cas, det(𝐴 − 𝜆Id𝑐 ) est det(Id𝑐 − 𝜆Id𝑐 ) et on a

det(Id𝑐 − 𝜆Id𝑐 ) = det((1 − 𝜆)Id𝑐 ) = (1 − 𝜆) 𝑐 det(Id𝑐 ) = (1 − 𝜆) 𝑐

Donc ici det(𝐴 − 𝜆Id𝑐 ) = 0 ⇐⇒ 𝜆 = 1.

2.6.2 Conditions de diagonalisabilité

Commençons par envisager le cas d’une matrice 𝐴 qui est diagonalisable. Pour déterminer ses valeurs
propres, il faut résoudre l’équation det(𝐴 − 𝜆Id𝑐 ) = 0. Comme 𝐴 = 𝑉Λ𝑉 −1 , on a nécessairement 𝑉 −1 𝐴𝑉 = Λ.
Donc, comme det(𝑉 −1 ) det(𝑉) = 1, on peut écrire

det(𝐴 − 𝜆Id𝑐 ) = det(𝑉 −1 ) det(𝐴 − 𝜆Id𝑐 ) det(𝑉) = det(𝑉 −1 (𝐴 − 𝜆Id𝑐 )𝑉)


= det(𝑉 −1 𝐴𝑉 − 𝜆𝑉 −1 𝑉) = det(Λ − 𝜆Id𝑐 )

Î𝑐
Mais Λ − 𝜆Id𝑐 = diag(𝜆1 − 𝜆, · · · , 𝜆𝑐 − 𝜆) et donc det(Λ − 𝜆Id𝑐 ) = 𝑘=1 (𝜆𝑖 − 𝜆). D’où

Ö
𝑐
det(𝐴 − 𝜆Id𝑐 ) = (𝜆𝑖 − 𝜆)
𝑘=1

Cette expression de det(𝐴 − 𝜆Id𝑐 ) montre 2 choses pour une matrice 𝐴 diagonalisable :
— det(𝐴 − 𝜆Id𝑐 ) est un polynôme de degré 𝑐 en 𝜆 ;
— les valeurs propres de 𝐴 sont les racines de ce polynôme.
On le note 𝑃𝐴 (𝜆) le polynôme det(𝐴 − 𝜆Id𝑐 ), et on l’appelle polynôme caractéristique de 𝐴. Toute racine de
𝑃𝐴 (𝜆) est une valeur propre de 𝐴.

38
Il se trouve que pour toute matrice carrée 𝐴 de format (𝑐, 𝑐), et pas seulement pour les matrices diagonali-
sables, det(𝐴 − 𝜆Id𝑐 ) est un polynôme de degré 𝑐, appelé également polynôme caractéristique (on admettra
ce résultat).
Comme tout polynôme à coefficients réels de degré 𝑐, 𝑃𝐴 (𝜆) a exactement 𝑐 racines complexes et peut
avoir des racines multiples. Pour que 𝐴 soit diagonalisable (dans ℝ), il faut que toutes les racines du
polynôme caractéristique soient réelles. Une condition nécessaire et suffisante pour cela est que le polynôme
caractéristique de 𝐴 s’écrive sous la forme de produits de polynômes de degré 1 à coefficients réels (on dit
que 𝑃𝐴 (𝜆) est scindé dans ℝ). En effet, si c’est le cas, on peut écrire 𝑃𝐴 (𝜆) sous la forme

Ö
𝑐
𝑃𝐴 (𝜆) = 𝑎 (𝜆 − 𝜆𝑖 )
𝑖=1

pour certains réels 𝑎 ≠ 0 et 𝜆1 , . . . , 𝜆𝑐 (ces réels ne sont pas nécessairement distincts deux à deux). Donc
ce polynôme a pour racines 𝜆1 , . . . , 𝜆𝑐 qui sont par définition des valeurs propres de 𝐴. Réciproquement,
si 𝜆1 , . . . , 𝜆𝑑 (avec 𝑑 ≤ 𝑐) sont les racines distinctes de 𝑃𝐴 (𝜆), alors on peut écrire ce polynôme comme
Î
𝑎 𝑑𝑖=1 (𝜆 − 𝜆𝑖 ) 𝑚𝑖 où 𝑚𝑖 est le degré de multiplicité de la racine 𝜆𝑖 .
Lorsque le polynôme 𝑃𝐴 (𝜆) est scindé dans ℝ, on doit s’intéresser à ses racines (valeurs propres de 𝐴) et
pour chacune, à son degré de multiplicité. On note 𝑑 (avec 1 ≤ 𝑑 ≤ 𝑐) le nombre de racines réelles distinctes,
𝜆1 , . . . , 𝜆𝑑 les racines, et 𝑚1 , . . . , 𝑚𝑑 leur degré de multiplicité, avec 𝑚1 + · · · + 𝑚𝑑 = 𝑐.
Une fois qu’on a obtenu les valeurs propres distinctes de 𝐴, on doit chercher 𝑐 vecteurs propres linéairement
indépendants, chacun de norme égale à 1, comme on l’a indiqué précédemment. Si les racines sont toutes
distinctes (𝑐 = 𝑑), alors c’est toujours possible (voir la propriété 2.24). Si ce n’est pas le cas, il faut qu’on
puisse trouver dans 𝐸𝜆𝑖 exactement 𝑚𝑖 vecteurs linéairement indépendants (ce qui requiert que 𝐸𝜆𝑖 soit de
dimension au moins égale à 𝑚𝑖 ) ; on notera ces vecteurs 𝑉1𝑖 , . . . , 𝑉𝑚𝑖 𝑖 . Si c’est possible pour tout 𝑖 = 1, . . . , 𝑑
alors les 𝑐 vecteurs propres
𝑉11 , . . . , 𝑉𝑚1 1 , 𝑉12 , . . . , 𝑉𝑚2 2 , . . . , 𝑉1𝑑 , . . . , 𝑉𝑚𝑑𝑑

sont linéairement indépendants (voir la propriété 2.23), il suffit de prendre comme matrice Λ et 𝑉 les matrices
suivantes :  
𝑉 = 𝑉11 · · · 𝑉𝑚1 1 𝑉12 · · · 𝑉𝑚2 2 · · · 𝑉1𝑑 · · · 𝑉𝑚𝑑𝑑

et
Λ = diag(𝜆1 , . . . , 𝜆1 , 𝜆2 , . . . , 𝜆2 , . . . , 𝜆𝑑 , . . . , 𝜆𝑑 )
| {z } | {z } | {z }
𝑚1 fois 𝑚2 fois 𝑚𝑑 fois

On note au passage qu’une condition suffisante pour 𝐴 soit diagonalisable est que chaque sous-espace propre
soit de dimension au moins égale à 𝑚𝑖 , le degré de multiplicité de la 𝑖 e valeur propre distincte de 𝐴, et ceci
pour tout 𝑖 = 1, . . . , 𝑑. Mais si l’un de ces espaces a une dimension strictement supérieure à ce degré, cela
signifie qu’on peut trouver plus de 𝑚1 + · · · + 𝑚𝑑 = 𝑐 vecteurs linéairement indépendants de ℝ𝑐 , ce qui est
impossible. Donc si une matrice 𝐴 est diagonalisable, le degré de multiplicité de chaque valeur propre de 𝐴
est égal à la dimension du sous-espace propre associé. Cette condition, avec la propriété que 𝑃𝐴 (𝜆) est scindé
dans ℝ, est une condition nécessaire et suffisante pour que 𝐴 soit diagonalisable.

39
2.6.3 Quelques propriétés des matrices diagonalisables

Propriété 2.25. Soit 𝐴 une matrice diagonalisable. Alors la somme de ses valeurs propres est égale à sa trace ; le produit
de ses valeurs propres est égal à son déterminant.

Démonstration. Exercice 

On peut en déduire qu’une matrice est non inversible ssi 0 est l’une de ses valeurs propres (Exercice)
On mentionne que la propriété précédente est vraie même si 𝐴 n’est pas diagonalisable (admis). 7

Propriété 2.26. Si 𝐴 est diagonalisable et qu’aucune de ses valeurs propres est nulle, 𝐴 est inversible. Son inverse est
diagonalisable et a pour valeurs propres les inverses des valeurs propres de 𝐴, et les vecteurs propres associés sont les
mêmes que ceux de 𝐴.

Démonstration. Si 𝐴 est diagonalisable, alors 𝐴 = 𝑉Λ𝑉 −1 . La matrice Λ est diagonale avec des éléments
diagonaux tous non nuls ; elle est donc inversible. Donc 𝑉Λ𝑉 −1 est un produit de matrices inversibles, donc
inversible, d’inverse 𝑉Λ−1 𝑉 −1 . D’où 𝐴 est inversible, d’inverse 𝐴−1 = 𝑉Λ−1 𝑉 −1 . 

Propriété 2.27. 𝐴 et 𝐴 ont les même valeurs propres.

Démonstration. Par définition un réel 𝜆 est une valeur propre de 𝐴 ssi det(𝐴 − 𝜆Id𝑐 ) = 0. Or une matrice et sa
transposée ont le même déterminant et donc pour tout 𝜆 ∈ ℝ, on a

⊤ ⊤
det(𝐴 − 𝜆Id𝑐 ) = 0 ⇐⇒ det((𝐴 − 𝜆Id𝑐 ) ) = 0 ⇐⇒ det(𝐴 − 𝜆Id𝑐 ) = 0


Ceci montre qu’un réel est une valeur propre de 𝐴 ssi c’est une valeur propre de 𝐴 . 

La propriété précédente se démontre encore plus facilement dans le cas d’une matrice diagonalisable. En
⊤ ⊤ ⊤ ⊤ ⊤
effet si 𝐴 est diagonalisable avec 𝐴 = 𝑉Λ𝑉 −1 , alors 𝐴 alors 𝐴 = 𝑉 −1 Λ 𝑉 . Mais comme Λ est diagonale,

Λ = Λ l’est aussi ; ceci montre que

— 𝐴 est diagonalisable,

— les valeurs propres de 𝐴 sont les mêmes que celles de 𝐴.

pro:dan Propriété 2.28. Pour tout 𝑛, les valeurs propres de 𝐴𝑛 sont les puissances 𝑛e des valeurs propres de 𝐴. Si 𝜆 est une
valeur propre de 𝐴 et 𝑋 est un vecteur propre associé, alors 𝑋 est également un vecteur propre associé à la valeur propre
𝜆𝑛 de 𝐴𝑛 . Donc si 𝐴 est diagonalisable, 𝐴𝑛 l’est aussi et 𝐴𝑛 = 𝑉Λ𝑛 𝑉 −1 , où 𝑉 est la matrice des vecteurs propres de 𝐴.

Démonstration. Soit 𝜆 une valeur propre de 𝐴. Il existe 𝑋 ∈ ℝ𝑐 , 𝑋 ≠ 0𝑐 tel que 𝐴𝑋 = 𝜆𝑋. On a alors
𝐴2 𝑋 = 𝜆 · 𝐴𝑋 = 𝜆2 𝑋. Ceci montre que 𝜆2 est une valeur propre de 𝐴2 et que 𝑋 est un vecteur propre
de 𝐴2 associé à 𝜆2 . Donc si 𝐴 est diagonalisable, les vecteurs propres de 𝐴, donc de 𝐴2 sont linéairement
indépendants et 𝐴2 est diagonalisable. À partir de là, un raisonnement par récurrence qui exploite le fait que
𝐴𝑛+1 = 𝐴𝑛 𝐴 permet de conclure. 
7. Cela résulte du fait que même si 𝐴 n’est pas diagonalisable, on peut montrer qu’elle est semblable à une matrice triangulaire
inférieure dont la diagonale contient les 𝑐 valeurs propres de 𝐴. Autrement dit, il existe une matrice ∆ triangulaire inférieure et telle
que ∆𝑖𝑖 = 𝜆𝑖 , la 𝑖 e valeur propre de 𝐴 et une matrice 𝑉 inversible telle que 𝐴 = 𝑉∆𝑉 −1 . Dans ce cas, Tr(𝐴) = Tr(𝑉∆𝑉 −1 ) = Tr(∆𝑉 −1 𝑉) =
Í𝑐 1 Î𝑐
Tr(∆) = 𝜆𝑖 . Par ailleurs det(𝐴) = det(𝑉∆𝑉 −1 ) = det(𝑉) det(∆ det(𝑉 −1 ) = det(𝑉) det(∆) = det(∆) = 𝜆𝑖 , la dernière égalité
𝑖=1 det(𝑉) 𝑖=1
résultant des propriétés du déterminant pour les matrices triangulaires.

40
Le cas où 𝐴 est diagonalisable peut être traité directement puisque

𝐴 = 𝑉Λ𝑉 −1 =⇒ 𝐴2 = 𝑉Λ𝑉 −1 𝑉Λ𝑉 −1 = 𝑉Λ2 𝑉 −1

Comme Λ2 est diagonale, cela démontre la propriété pour 𝑛 = 2. Le raisonnement par récurrence permet de
conclure.

2.6.4 Cas importants


2.6.4.1 Matrices symétriques

Si 𝐴 est une matrice symétrique, alors 𝐴 est toujours diagonalisable. Cela signifie que toutes les valeurs
propres de 𝐴 (racines de 𝑃𝐴 (𝜆)) sont réelles et que les vecteurs propres associés à ces valeurs propres sont
linéairement indépendants.
Ce deuxième point résulte du fait que des vecteurs propres associés à des valeurs propres différentes d’une
matrice symétrique peuvent toujours être choisis de manière qu’ils soient deux à deux orthogonaux.
Pour le montrer, on considère des vecteurs propres distincts d’une matrice symétrique 𝐴, et selon qu’ils sont
associés à une même valeur propre de 𝐴 ou pas, on utilise un argument adapté.
Soit 𝐴 une matrice symétrique.

— Si on doit chercher des vecteurs propres de 𝐴 associés à une même valeur propre, on doit les prendre
dans le même sous-espace propre. Ces vecteurs peuvent toujours être choisis comme des éléments de
la base de ce sous-espace ; on peut alors les orthogonaliser au moyen de l’algorithme de Gram-Schmidt.
— Si on considère des vecteurs propres associés à deux valeurs propres distinctes 𝜆𝑖 et 𝜆𝑗 d’une matrice
symétrique 𝐴, notés respectivement 𝑉𝑖 et 𝑉𝑗 , alors ces deux vecteurs propres sont nécessairement
⊤ ⊤ ⊤
orthogonaux. On a 𝐴𝑉𝑖 = 𝜆𝑖 𝑉𝑖 et 𝐴𝑉𝑗 = 𝜆𝑗 𝑉𝑗 . Donc 𝑉𝑖 𝐴 𝑉𝑗 = 𝜆𝑖 𝑉𝑖 𝑉𝑗 . Mais comme 𝐴 est symétrique,
⊤ ⊤ ⊤ ⊤ ⊤ ⊤
𝐴 𝑉𝑗 = 𝐴𝑉𝑗 , et donc 𝑉𝑖 𝐴𝑉𝑗 = 𝜆𝑖 𝑉𝑖 𝑉𝑗 , càd 𝜆𝑗 𝑉𝑖 𝑉𝑗 = 𝜆𝑖 𝑉𝑖 𝑉𝑗 , ou encore (𝜆𝑖 − 𝜆𝑗 )𝑉𝑖 𝑉𝑗 = 0. Comme les

valeurs propres sont distinctes, on doit nécessairement avoir 𝑉𝑖 𝑉𝑗 = 0.

Ainsi, on peut trouver 𝑐 vecteurs propres orthogonaux. Or n’importe quelle famille de vecteurs tous non
nuls et orthogonaux est libre. Donc les vecteurs propres associés aux différentes valeurs propres de 𝐴 sont
linéairement indépendants et 𝐴 est donc diagonalisable.
Par ailleurs, comme on l’a indiqué précédemment on peut toujours prendre les vecteurs propres de n’importe
quelle matrice de norme égale à 1. Cela signifie donc que si 𝐴 est une matrice symétrique, alors 𝐴 est
⊤ ⊤
diagonalisable et sa matrice de vecteurs propres 𝑉 est orthonormée : 𝑉 𝑉 = 𝑉𝑉 = Id𝑐 . Autrement dit 𝑉 est
égale à sa propre inverse.

2.6.4.2 Matrices (semi) définies positives

1. Matrices semi-définies positives. Soit 𝐴 une matrice symétrique, de format (𝑚, 𝑚)

def:sdp Définition 2.9. On dit que 𝐴 est semi-définie positive (sdp) lorsque pour tout 𝑋 ∈ ℝ𝑚 on a


𝑋 𝐴𝑋 ≥ 0

41
Une matrice sdp est une matrice symétrique. Donc elle est diagonalisable et sa matrice de vecteurs
propres est orhtonormée. On peut facilement obtenir le résultat suivant.

pro:symsdp Propriété 2.29. Soit 𝐴 une matrice symétrique. Alors 𝐴 est sdp ssi toutes ses valeurs propres sont positives ou
nulles.


Démonstration. Supposons que 𝐴 soit sdp. On peut écrire 𝐴 = 𝑉Λ𝑉 et pour tout 𝑋 ∈ ℝ𝑚 on a

⊤ ⊤
Õ
𝑚
0 ≤ 𝑋 𝐴𝑋 = 𝑌 Λ𝑌 = 𝑌𝑖2 𝜆𝑖
𝑖=1


où 𝑌 ≔ 𝑉 𝑋 et la dernière égalité résulte du fait que Λ est diagonale. Ceci étant vrai pour tout 𝑋 ∈ ℝ𝑚 ,

ceci est vrai pour 𝑋 tel que 𝑉 𝑋 = 𝐸1 (on peut toujours choisir 𝑋 de cette sorte puisque 𝑉 est inversible).
Í ⊤
On a alors 𝑌 = 𝐸1 et 𝑚 2
𝑖=1 𝑌𝑖 𝜆𝑖 = 𝜆1 . Donc 𝜆1 ≥ 0. On choisit ensuite 𝑋 tel que 𝑉 𝑋 = 𝐸2 , puis. . . puis

𝑉 𝑋 = 𝐸𝑚 .
Supposons que toutes les valeurs propres de 𝐴, symétrique donc diagonalisable, soient positives ou
⊤ Í
nulles. Soit 𝑋 ∈ ℝ𝑚 . En procédant comme précédemment, on a 𝑋 𝐴𝑋 = 𝑚 2
𝑖=1 𝑌𝑖 𝜆𝑖 , ce qui est toujours
positif ou nul. 


pro:sqrtsdp Propriété 2.30. Soit 𝐴 une matrice symétrique. Alors 𝐴 est sdp ssi 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 de même format
que 𝐴

Démonstration. Soit 𝐴 une matrice symétrique. Supposons que 𝐴 est sdp, elle est diagonalisable et
⊤ ⊤ ⊤
toutes ses valeurs propres sont positives ou nulles. On peut donc l’écrire 𝐴 = 𝑉Λ𝑉 = 𝐵 𝐵 où 𝐵 ≔ Γ𝑉
√ √ ⊤
et Γ = diag( 𝜆1 , . . . , 𝜆𝑚 ), puisqu’ainsi définie, Γ Γ = Λ.

Réciproquement, si 𝐴 s’écrit 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 inversible, alors pour tout 𝑋 ∈ ℝ𝑚 , on a
⊤ ⊤ ⊤ ⊤ Í ⊤
𝑋 𝐴𝑋 = 𝑋 𝐵 𝐵𝑋 = 𝐶 𝐶 = 𝑛𝑖=1 𝐶𝑖2 , où 𝐶 ≔ 𝐵𝑋. Donc 𝑋 𝐴𝑋 ≥ 0 et 𝐴 est sdp. 

En utilisant un procédé semblable, on peut montrer pour tout matrice symétrique 𝐴, 𝐴 est sdp ssi il
existe une matrice symétrique sdp 𝑄 telle que 𝐴 = 𝑄𝑄 (voir exercices)
2. Matrices définies positives. Soit 𝐴 une matrice symétrique, de format (𝑚, 𝑚)

def:dp Définition 2.10. On dit que 𝐴 est définie positive (dp) lorsque pour tout 𝑋 ∈ ℝ𝑚 , 𝑋 ≠ 0𝑚 on a


𝑋 𝐴𝑋 > 0

Si 𝐴 est dp, alors elle est sdp. Donc tous les résultats sur les matrices sdp restent vrais pour les matrices
dp, mais certains peuvent être enrichis.

On remarque que si 𝐴 est une matrice dp, alors 𝑋 𝐴𝑋 = 0 ⇐⇒ 𝑋 = 0𝑚 . On peut alors facilement
obtenir le résultat suivant.

Propriété 2.31. Si 𝐴 est dp, alors 𝐴 est inversible


Démonstration. Soit 𝑋 ∈ ℝ𝑚 tel que 𝐴𝑋 = 0𝑚 . On a alors 𝑋 𝐴𝑋 = 0𝑚 . Ceci équivaut à 𝑋 = 0𝑚 . Donc
𝐴𝑋 = 0𝑚 implique 𝑋 = 0𝑚 , càd 𝐴 est inversible. 

42
La réciproque n’est pas vraie, puisque si 𝐴 est dp, alors 𝐴 est inversible et la matrice 𝐵 définie par
⊤ ⊤
𝐵 = −𝐴 est également inversible, mais 𝑋 𝐵𝑋 = −𝑋 𝐴𝑋 ≤ 0 pour tout 𝑋 ∈ ℝ𝑚 . Donc 𝐵 n’est pas dp.

pro:dpvalp Propriété 2.32. Soit 𝐴 une matrice symétrique. Alors 𝐴 est dp ssi toutes ses valeurs propres sont strictement
positives.

Démonstration. En effet, si 𝐴 est dp, alors elle est sdp et donc toutes ses valeurs propres sont ≥ 0 d’après
la seconde propriété. Si l’une d’elles est nulle, alors le déterminant de 𝐴 est nul et 𝐴 n’est pas inversible,
ce qui contredit la première des propriétés. Donc si 𝐴 est dp, toutes ses valeurs propres sont strictement
positives.
Supposons à présent que toutes les valeurs propres de 𝐴, symétrique donc diagonalisable, sont stricte-
⊤ ⊤ Í
ment positives. Elle peut donc s’écrire 𝐴 = 𝑉Λ𝑉 . Soit 𝑋 ∈ ℝ𝑚 tel que 𝑋 ≠ 0𝑚 . On a 𝑋 𝐴𝑋 = 𝑛𝑖=1 𝑌𝑖2 𝜆𝑖

où 𝑌 = 𝑉 𝑋. La somme est positive ou nulle et est strictement positive dès que l’un de ses termes

est non nul, càd dès que l’un des 𝑌𝑖 est non nul. Comme 𝑉 est inversible et que 𝑋 ≠ 0𝑚 , il n’est pas

possible que 𝑌 = 0𝑚 et donc il existe un 𝑌𝑖 > 0. Donc 𝑋 𝐴𝑋 > 0 pour tout 𝑋 ∈ ℝ𝑚 , 𝑋 ≠ 0𝑚 . 

Ce résultat admet à son tour un corollaire



pro:sqrtdp Propriété 2.33. Soit 𝐴 une matrice symétrique. Alors 𝐴 est dp ssi 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 inversible.

Démonstration. Si 𝐴 est symétrique et dp, elle est diagonalisable et toutes ses valeurs propres sont
⊤ ⊤ ⊤ √ √
strictement positives. On peut donc l’écrire 𝐴 = 𝑉Λ𝑉 = 𝐵 𝐵 où 𝐵 ≔ Γ𝑉 et Γ = diag( 𝜆1 , . . . , 𝜆𝑚 ),

puisqu’ainsi définie, Γ Γ = Λ. Comme aucun des éléments diagonaux de Γ n’est nul, Γ est inversible
est donc 𝐵, en tant que produit de matrices inversibles, est inversible.

Réciproquement, si 𝐴 s’écrit 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 inversible, alors pour tout 𝑋 ∈ ℝ𝑚 , 𝑋 ≠ 0𝑚 ,
⊤ ⊤ ⊤ ⊤ Í ⊤ ⊤
on a 𝑋 𝐴𝑋 = 𝑋 𝐵 𝐵𝑋 = 𝐶 𝐶 = 𝑛𝑖=1 𝐶𝑖2 , où 𝐶 ≔ 𝐵𝑋. Donc 𝑋 𝐴𝑋 ≥ 0 et on a 𝑋 𝐴𝑋 > 0 dès que l’un des
𝐶𝑖 est non nul, càd dès que 𝐶 ≠ 0𝑚 . Mais comme 𝑋 ≠ 0𝑚 et 𝐵 est inversible, il n’est pas possible que
𝑌 = 0𝑚 . 


On déduit alors que l’inverse d’une matrice dp est également dp. En effet, si 𝐴 est dp, on a 𝐴 = 𝐵 𝐵
⊤ −1 ⊤ ⊤ ⊤
avec 𝐵 inversible. Donc 𝐴−1 = 𝐵 −1 𝐵 = 𝐵 −1 𝐵 −1 = 𝐶 𝐶 où 𝐶 ≔ 𝐵 −1 (la 2e égalité est la propriété 2.6).
D’après la propriété précédente, on conclut que 𝐴−1 est dp.
Finalement, on mentionne une version plus faible du résultat précédent.

Propriété 2.34. Si 𝐴 est une matrice s’écrivant 𝐴 = 𝐵 𝐵 pour une matrice 𝐵 de plein rang colonne, alors 𝐴 est
dp.

⊤ ⊤
Démonstration. On note (𝑚, 𝑛) le format de 𝐵. Pour tout 𝑋 ∈ ℝ𝑛 \ {0𝑛 }, on a 𝑋 𝐴𝑋 = 𝑌 𝑌 ≥ 0, où

𝑌 ≔ 𝐵𝑋 ; donc 𝐴 est sdp. De plus 𝑌 𝑌 = 0 ssi 𝑌 = 𝐵𝑋 = 0𝑚 . Comme rg(𝐵) = 𝑛, les 𝑛 colonnes de 𝐵
⊤ ⊤
sont libres et dans 𝐵𝑋 = 0𝑚 =⇒ 𝑋 = 0𝑛 . Autrement dit 𝑋 𝐴𝑋 ≥ 0 et 𝑋 𝐴𝑋 = 0 ⇐⇒ 𝑋 = 0𝑛 . Donc 𝐴
est dp. 

2.6.4.3 Matrices idempotentes

Définition 2.11. Soit 𝐴 une matrice carrée de format (𝑐, 𝑐). On dit que 𝐴 est idempotente lorsque 𝐴 = 𝐴2 .

43
Un raisonnement par récurrence montre que 𝐴 est idemptotente si 𝐴 = 𝐴𝑛 pour tout 𝑛 ∈ ℕ∗ .
Soit 𝜆 une valeur propre d’une matrice idemptotente 𝐴 et 𝑋 un vecteur propre associé à 𝜆. D’après la propriété
2.28, 𝜆2 est également une valeur propre de 𝐴 associée au même vecteur propre. Comme un vecteur propre
ne peut être associé à des valeurs propres distinctes (voir la propriété 2.23), on a donc nécessairement 𝜆 = 𝜆2
et donc 𝜆 = 0 ou 𝜆 = 1. On a donc le résultat suivant.

Propriété 2.35. Soit 𝐴 une matrice idempotente. Toute valeur propre de 𝐴 est égale soit à 0, soit à 1.

Remarquons que si l’une des valeurs propres de 𝐴 est nulle, pour le vecteur propre 𝑋 (non nul) associé à
cette valeur propre, on a 𝐴𝑋 = 0𝑐 avec 𝑋 non nul ; donc 𝐴 n’est pas inversible.
Par ailleurs, les valeurs propres d’une matrice idempotente 𝐴 sont toutes positives ou nulles. Donc 𝐴 est
également symétrique, elle est nécessairement sdp. Donc d’après la propriété 2.29, elle est nécessairement
sdp. Elle est dp ssi toutes ses valeurs propres sont égales à 1.

44
3 Projections
Dans cette section, on aborde la question de la projection orthogonale sur un sous-espace vectoriel. Intuiti-
vement, l’orthogonalité fait référence au caractère perpendiculaire de 2 objets, donc à l’angle droit. Lorsque
ces objets sont des vecteurs (ou des ensembles de vecteurs), il faut un moyen de mesurer les angles entre
vecteurs, ou au minimum, de caractériser ce qu’est un angle droit. De même, on verra qu’on peut aborder la
question de la projection orthogonale par un problème de recherche de la plus courte distance. On commence
donc par introduire ce dont nous aurons besoin pour parler de distance et d’angle (droit) entre vecteurs, ce
dont nous ne disposions pas jusqu’ici.

3.1 Distance entre vecteurs


⊤ ⊤
def:dist Définition 3.1 [Distance]. Soient 𝑋 = (𝑥1 , . . . , 𝑥𝑛 ) et 𝑌 = (𝑦1 , . . . , 𝑦𝑛 ) deux vecteurs de ℝ𝑛 . La distance entre 𝑋
et 𝑌 est le nombre noté 𝑑(𝑋, 𝑌) défini par
v
t 𝑛
Õ
𝑑(𝑋, 𝑌) = (𝑥𝑖 − 𝑦𝑖 ) 2
𝑖=1

On voit que le nombre 𝑑(𝑋, 𝑌) est construit à partir du vecteur 𝑋 − 𝑌 : on peut écrire que
p
𝑑(𝑋, 𝑌) = (𝑋 − 𝑌)⊤ (𝑋 − 𝑌)

La distance entre 𝑋 et 0𝑛 est simplement


v
t 𝑛
Õ
𝑑(𝑋, 0𝑛 ) = 𝑥𝑖2
𝑖=1

Si 𝑑 a vraiment l’interprétation d’une distance (on verra ci-dessous que c’est la cas), alors 𝑑(𝑋, 0𝑛 ) est la
distance entre 𝑋 et le “point d’origine” de ℝ𝑛 . On peut alors l’interpréter comme la longueur de 𝑋 et possède
une définition formelle.

Définition 3.2 [Norme]. On appelle norme d’un vecteur 𝑋 de ℝ𝑛 le réel noté k𝑋 k et défini par
v
t
Õ
𝑛
k𝑋 k = 𝑥𝑖2
𝑖=1

Avec cette nouvelle définition, on voit que 𝑑(𝑋, 𝑌) = k𝑋 − 𝑌 k : la distance entre 𝑋 et 𝑌 est la norme du vecteur
𝑋 − 𝑌, càd la longueur du vecteur obtenu en faisant la différence 𝑋 − 𝑌. On a donc
p ⊤
k𝑋 − 𝑌 k = (𝑋 − 𝑌)⊤ (𝑋 − 𝑌) et (𝑋 − 𝑌) (𝑋 − 𝑌) = k𝑋 − 𝑌 k 2

Il y a deux moyen de voir pourquoi dans l’égalité de la définition 3.1, le mdd est considéré comme une
distance.
— Le premier consiste à voir que dans le cas de ℝ2 (dans le plan), la formule de la définition est effective-

45
ment la distance entre les points 𝑋 (𝑥1 , 𝑥2 ) et 𝑌 (𝑦1 , 𝑦2 ). La définition est alors juste une généralisation à
ℝ𝑛 avec 𝑛 ≥ 2.
— Le second consiste à noter que la distance définie ainsi satisfait toutes les propriétés qu’on attache à
une distance dans le langage courant : (1) la distance de 𝑋 à 𝑌 doit être la même que celle de 𝑌 à 𝑋 ;
(2) une distance n’est jamais négative ; (3) la distance entre deux endroits 𝑋 et 𝑌 est nulle ssi ces deux
endroits sont le même ; (4) si on multiplie l’unité utilisée pour effectuer les mesures de distance par
une constante, alors la distance est multipliée par cette constante (la distance exprimée en mètres est
1000 fois supérieure à celle exprimée en kilomètres) ; (5) pour aller de 𝑋 à 𝑌, la distance est moindre
lorsqu’on y va directement que lorsqu’on passe par un point intermédiaire. On a de fait la propriété
suivante

pro:dist Propriété 3.1 [Propriétés de la distance]. La distance 𝑑 définie ci-dessus a les propriétés suivantes. Pour tout 𝑋, 𝑌
et 𝑍 dans ℝ𝑛 , et 𝛼 ∈ ℝ
1. 𝑑(𝑋, 𝑌) = 𝑑(𝑌, 𝑋)
2. 𝑑(𝑋, 𝑌) ≥ 0
pro:dist3 3. 𝑑(𝑋, 𝑌) = 0 ⇐⇒ 𝑋 = 𝑌
4. 𝑑(𝛼𝑋, 𝛼𝑌) = |𝛼|𝑑(𝑋, 𝑌)
5. 𝑑(𝑋, 𝑌) ≤ 𝑑(𝑋, 𝑍) + 𝑑(𝑍, 𝑌)

Démonstration. Exercice. Pour le dernier point, il est commode de faire appel à l’inégalité de Cauchy-Schwarz,
démontrée ci-dessous. 

Propriété 3.2 [Inégalité de Cauchy-Schwarz]. Pour tous vecteurs 𝑋 et 𝑌 de ℝ𝑛 , on a


|𝑋 𝑌 | ≤ k𝑋 k × k𝑌 k

On a l’égalité ssi 𝑋 et 𝑌 sont colinéaires

Démonstration. Si l’un des deux vecteurs est nul, alors les deux membres de l’inégalité sont nuls et l’inégalité
est vraie.

On considère alors le cas où 𝑋 et 𝑌 sont tous deux non nuls. Les réels 𝑎 et 𝑏 définis par 𝑎 = 𝑋⊤ 𝑋 et
√ ⊤
𝑏 = 𝑌 𝑌 sont alors non nuls. Considérerons le réel

1 1 ⊤ 1 1
( 𝑋 + 𝑌) ( 𝑋 + 𝑌)
𝑎 𝑏 𝑎 𝑏
1 ⊤
On peut montrer que ce réel s’écrit 2 + 2 𝑎𝑏 𝑋 𝑌. En effet si on développe le produit, on obtient

1 1 ⊤ 1 1 1 ⊤ 1 ⊤ 1 ⊤ 1 ⊤
( 𝑋 + 𝑌) ( 𝑋 + 𝑌) = 2 𝑋 𝑋 + 𝑌 𝑌 + 2 𝑋 𝑌 = 2 + 2 𝑋 𝑌
𝑎 𝑏 𝑎 𝑏 𝑎 𝑏 𝑎𝑏 𝑎𝑏

où la dernière égalité utilise la définition de 𝑎 et de 𝑏. Ce réel est nécessairement positif puisqu’il s’écrit 𝑍 𝑍
1 ⊤
où 𝑍 ≔ 𝑎1 𝑋 + 𝑏1 𝑌. Donc on a 2 + 2 𝑎𝑏 𝑋 𝑌 ≥ 0, càd

1 ⊤
𝑋 𝑌 ≥ −1
𝑎𝑏

46
On répète le même raisonnement, mais en considérant au départ le réel

1 1 ⊤ 1 1
( 𝑋 − 𝑌) ( 𝑋 − 𝑌)
𝑎 𝑏 𝑎 𝑏

On obtient alors
1 ⊤
𝑋 𝑌≤1
𝑎𝑏
1 ⊤
Donc en combinant cette inégalité et la précédente, on peut écrire −1 ≤ 𝑎𝑏 𝑋 𝑌 ≤ 1. Comme 𝑎 et 𝑏 sont
⊤ ⊤
strictement positifs, cela équivaut à −𝑎𝑏 ≤ 𝑋 𝑌 ≤ 𝑎𝑏, ce qui s’écrit aussi |𝑋 𝑌 | ≤ 𝑎𝑏. En réintroduisant la
définition de 𝑎 et de 𝑏, on aboutit à l’inégalité de l’énoncé.
Supposons que 𝑋 et 𝑌 soient colinéaires. Si l’un des vecteurs est nul il le sont nécessairement tous les deux
et l’inégalité de l’énoncé est une égalité. Si les deux vecteurs sont tous les deux non nuls, alors il existe un
réel 𝛼 non nul tel que 𝑋 = 𝛼𝑌. Donc
v
t v
t
Õ
𝑛 Õ
𝑛
k𝑋 k = k𝛼𝑌 k = 𝛼𝑖2 𝑦𝑖2 = |𝛼| 𝑦𝑖2 = |𝛼|k𝑌 k
𝑖=1 𝑖=1

⊤ ⊤ ⊤
Donc le mdg de l’inégalité est |𝛼𝑌 𝑌 | = |𝛼|𝑌 𝑌, et le mdd est k𝛼𝑌 k × k𝑌 k = |𝛼|k𝑌 k 2 = |𝛼|𝑌 𝑌. L’inégalité est
donc une égalité.
Supposons finalement que l’inégalité soit une égalité. Si l’un de ses membres est nul, alors l’autre aussi,
ce qui signifie que l’un des deux vecteurs est nul. Ils sont donc colinéaires. Supposons alors que les deux
1 ⊤
membres de l’égalité sont non nuls. Dans ce cas, 𝑎 = k𝑋 k ≠ 0 et 𝑏 = k𝑌 k ≠ 0, et on a 𝑎𝑏 |𝑋 𝑌 | = 1, càd

1 ⊤ 1 ⊤
𝑋 𝑌=1 ou 𝑋 𝑌 = −1
𝑎𝑏 𝑎𝑏
1 ⊤
Envisageons le cas 𝑎𝑏
𝑋 𝑌 = 1. En reprenant la démarche suivie pour démontrer l’inégalité, cela revient à
1 ⊤
2 − 2 𝑎𝑏 𝑋 𝑌 = 0, càd à
1 1 ⊤ 1 1
( 𝑋 − 𝑌) ( 𝑋 − 𝑌) = 0
𝑎 𝑏 𝑎 𝑏
1 1 1 ⊤
Ceci équivaut à 𝑎 𝑋 − 𝑏 𝑌 = 0𝑛 , càd à 𝑋 = 𝑎𝑏 𝑌 : 𝑋 et 𝑌 sont colinéaires. Le cas 𝑎𝑏
𝑋 𝑌 = −1 se traite de la même
manière 

3.2 Orthogonalité
Dans le plan ℝ2 , l’orthogonalité de deux vecteurs 𝑋 et 𝑌 se traduit par le fait que 𝑋 et 𝑌 engendrent des
droites du plan qui se coupent à angle droit (droites perpendiculaires). En plus grande dimension (ℝ𝑛 , 𝑛 ≥ 3),
on ne peut plus aussi aisément définir ce qu’est un angle droit. Il est tout de même possible de prolonger la
notion d’orthogonalité à partir du résultat qui est établit par le théorème d’Al-Kashi (ou loi des cosinus) 8 :

ce résultat établit un lien entre le produit 𝑋 𝑌 et le cosinus de l’angle formé entre ces deux vecteurs : ce

𝑋 𝑌
cosinus peut s’écrire sous la forme . Si l’angle entre les deux vecteurs est droit (les deux vecteurs
k𝑋 k k𝑌 k

sont orthogonaux), alors son cosinus est nul et donc 𝑋 𝑌 aussi. Pour ℝ𝑛 , 𝑛 quelconque, on retient cette
8. La page Wikipedia sur le sujet est une bonne source.

47
manière de définir l’orthogonalité.

Définition 3.3.
⊤ ⊤ ⊤
— Deux vecteurs 𝑋 et 𝑌 de ℝ𝑛 sont orthogonaux si 𝑋 𝑌 = 0 ; on note 𝑋⊥𝑌. Comme 𝑋 𝑌 = 𝑌 𝑋, on a évidemment
𝑋⊥𝑌 ⇐⇒ 𝑌⊥𝑋
— Si 𝐸 est une partie de ℝ𝑛 , on dit que 𝑋 est orthogonal à 𝐸 si 𝑋⊥𝑌 pour tout 𝑌 ∈ 𝐸 ; on note 𝑋⊥𝐸
— Si 𝐸 et 𝐹 sont des parties de ℝ𝑛 , on dit que 𝐸 est orthogonal à 𝐹 si 𝑋⊥𝑌 pour tout 𝑋 ∈ 𝐹 et tout 𝑌 ∈ 𝐹 ; on note
𝐸⊥𝐹 ou 𝐹⊥𝐸

La propriété 𝑋 𝑋 = 0 ⇐⇒ 𝑋 = 0𝑛 pour tout 𝑋 ∈ ℝ𝑛 permet de déduire que 0𝑛 est le seul vecteur de ℝ𝑛
orthogonal à lui même.
Si 𝐸 = Vect{𝑋1 , . . . , 𝑋𝑝 }, alors 𝑋⊥𝐸 ⇐⇒ 𝑋⊥𝑋𝑖 , ∀𝑖 ∈ {1, . . . , 𝑝}. Cela résulte du fait que tout 𝑈 ∈ 𝐸 s’écrit
comme une CL de 𝑋1 , . . . , 𝑋𝑝 : 𝑈 = 𝛼1 𝑋1 + · · · + 𝛼𝑝 𝑋𝑝 . Donc

⊤ ⊤ ⊤
𝑋 𝑈 = 𝛼1 𝑋 𝑋1 + · · · + 𝛼𝑝 𝑋 𝑋𝑝


D’où si 𝑋⊥𝑋𝑖 , ∀𝑖 ∈ {1, . . . , 𝑝}, alors 𝑋 𝑈 = 0. De manière plus générale, si de plus 𝐹 = Vect{𝑌1 , . . . , 𝑌𝑞 }, alors
𝐸⊥𝐹 ⇐⇒ 𝑋𝑖 ⊥𝑌𝑗 , ∀𝑖 ∈ {1, . . . , 𝑝}, ∀𝑗 ∈ {1, . . . , 𝑞}.

Définition 3.4 [Orthogonal d’une partie de ℝ𝑛 ]. Pour une partie 𝐸 de ℝ𝑛 , on peut construire l’ensemble {𝑋 ∈
ℝ𝑛 | 𝑋⊥𝐸}. Cette ensemble est appelé orthogonal de 𝐸 dans ℝ𝑛 et on le note 𝐸 ⊥ .

pro:eqbotsev Propriété 3.3 [L’orthogonal est un sev de ℝ𝑛 ]. Si 𝐸 est une partie de ℝ𝑛 , alors 𝐸 ⊥ est un sev de ℝ𝑛 .

Démonstration. On vérifie facilement que 𝐸 ⊥ satisfait les 2 conditions de la définition d’un sev. 

Le fait que 0𝑛 est le seul vecteur de ℝ𝑛 orthogonal à lui même permet de montrer que pour tout 𝐸 ⊂ ℝ𝑛 , on a
𝐸 ∩ 𝐸 ⊥ = {0𝑛 }. En effet, si 𝑋 ∈ 𝐸 ∩ 𝐸 ⊥ , alors en particulier 𝑋 ∈ 𝐸 ⊥ , alors 𝑋 doit être orthogonal à tout élément
de 𝐸. Mais comme on a aussi 𝑋 ∈ 𝐸, 𝑋 doit être orthogonal à lui même ; le seul élément de ℝ𝑛 ayant cette
propriété est 0𝑛 et on doit donc avoir 𝑋 = 0𝑛 .
On notera que la propriété 3.3 est vraie même si 𝐸 n’est pas un sev. Mais ce résultat est particulièrement
intéressant lorsque 𝐸 est un sev de ℝ𝑛 , et dans ce cas les deux sous-espaces 𝐸 et 𝐸 ⊥ permettent de faire
apparaître la notion très importante de projection orthogonale.

pro:orthemboit Propriété 3.4 [Orthogonaux de parties emboîtées de ℝ𝑛 ]. Soient 𝐹 ⊆ 𝐸 des parties emboîtées (l’une est incluse
dans l’autre) de ℝ𝑛 . Alors 𝐸 ⊥ ⊆ 𝐹 ⊥ .

Démonstration. Soit 𝑋 ∈ 𝐸 ⊥ . Pour tout 𝑌 ∈ 𝐹, on a aussi 𝑌 ∈ 𝐸 et donc 𝑋⊥𝑌. Ceci étant vrai pour tout 𝑌 ∈ 𝐹,
on a 𝑋⊥𝐹, càd 𝑋 ∈ 𝐹 ⊥ . Ceci étant vrai pour tout 𝑋 ∈ 𝐸 ⊥ , on a 𝐸 ⊥ ⊆ 𝐹 ⊥ . 

sec:projorth
3.3 Projection orthogonale sur un sous-espace

3.3.1 Introduction et définition

Si 𝐸 est un sev de ℝ𝑛 alors tout 𝑌 ∈ ℝ𝑛 s’exprime de manière unique comme la somme d’un élément de 𝐸 et
d’un élément de 𝐸 ⊥ . Formellement, les deux conditions suivantes sont remplies pour n’importe quel 𝑌 ∈ ℝ𝑛 ,

48
1. il existe 𝑌𝐸 ∈ 𝐸 et 𝑌𝐸 ⊥ ∈ 𝐸 ⊥ tels que 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥
2. si de plus 𝑌 = 𝑈𝐸 + 𝑈𝐸 ⊥ avec 𝑈𝐸 ∈ 𝐸 et 𝑈𝐸 ⊥ ∈ 𝐸 ⊥ alors 𝑌𝐸 = 𝑈𝐸 et 𝑌𝐸 ⊥ = 𝑈𝐸 ⊥
Soit 𝑌 ∈ ℝ𝑛 . On montre d’abord le premier point. Pour cela, il suffit de trouver 𝑌𝐸 ∈ 𝐸 tel que 𝑌 − 𝑌𝐸 ∈ 𝐸 ⊥ .
Soit 𝐴1 , . . . , 𝐴𝑞 des vecteurs de ℝ𝑛 formant une base de 𝐸. Cela revient à chercher 𝐵 ∈ ℝ𝑛 tel que 𝑌𝐸 ≔ 𝐴𝐵 (𝑌𝐸
est une CL des colonnes de 𝐴, càd des éléments de la base de 𝐸) et tel que 𝑌 − 𝐴𝐵 ∈ 𝐸 ⊥ . Mais cette dernière
condition équivaut à

𝐴𝑖 (𝑌 − 𝐴𝐵) = 0, ∀𝑖 ∈ {1, . . . , 𝑞}
⊤ ⊤ ⊤ ⊤
càd à 𝐴 (𝑌 − 𝐴𝐵) = 0𝑞 ou encore 𝐴 𝐴𝐵 = 𝐴 𝑌. La matrice 𝐴 𝐴 est de format (𝑞, 𝑞). Comme les 𝑞 colonnes
⊤ ⊤
de 𝐴 forment une base de 𝐴, elles sont linéairement indépendantes ; donc rg(𝐴 𝐴) = rg(𝐴) = 𝑞, et 𝐴 𝐴 est
⊤ ⊤
inversible. Donc l’égalité précédente équivaut à 𝐵 = (𝐴 𝐴) −1 𝐴 𝑌. Donc le vecteur 𝑌𝐸 = 𝐴𝐵 est dans 𝐸 et par
construction, le vecteur 𝑌𝐸 ⊥ ≔ 𝑌 − 𝑌𝐸 = 𝑌 − 𝐴𝐵 est dans 𝐸 ⊥ . Et on a bien 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ .
On montre ensuite le second point. Supposons que 𝑌 = 𝑈𝐸 + 𝑈𝐸 ⊥ , avec 𝑈𝐸 ∈ 𝐸 et 𝑈𝐸 ⊥ ∈ 𝐸 ⊥ . Alors on doit
avoir 𝑌𝐸 + 𝑌𝐸 ⊥ = 𝑈𝐸 + 𝑈𝐸 ⊥ , càd 𝑌𝐸 − 𝑈𝐸 = 𝑈𝐸 ⊥ − 𝑌𝐸 ⊥ . Le mdg est un élément de 𝐸 et le mdd est dans 𝐸 ⊥
(puisque c’est un sev). Comme ils conïncident, ils sont à la fois dans 𝐸 et 𝐸 ⊥ , càd dans 𝐸 ∩ 𝐸 ⊥ . Mais comme
cette intersection ne contient que {0𝑛 }, on a 𝑌𝐸 − 𝑈𝐸 = 0𝑛 = 𝑈𝐸 ⊥ − 𝑌𝐸 ⊥ , càd le second point est vérifié.
On peut résumer formellement.

pro:REplusEbot Propriété 3.5. Soit 𝐸 un sev de ℝ𝑛 et 𝐸 ⊥ son orthogonal dans ℝ𝑛 .


1. On a ℝ𝑛 = 𝐸 ⊕ 𝐸 ⊥ , càd pour tout 𝑌 ∈ ℝ𝑛 , il existe un unique 𝑌𝐸 ∈ 𝐸 et un unique 𝑌𝐸 ⊥ ∈ 𝐸 ⊥ tels que
𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ .
⊤ ⊤
2. Si 𝐴 est une matrice dont les colonnes forment une base de 𝐸, alors 𝑌𝐸 = 𝐴(𝐴 𝐴) −1 𝐴 𝑌

def:projorth Définition 3.5 [Projection orthogonale]. Soit 𝐸 un sev de ℝ𝑛 et soit 𝑌 ∈ ℝ𝑛 .


1. Dans l’unique décomposition de 𝑌 en la somme 𝑌𝐸 + 𝑌𝐸 ⊥ , avec 𝑌𝐸 ∈ 𝐸 et 𝑌𝐸 ⊥ ∈ 𝐸 ⊥ , on appelle 𝑌𝐸 projection
orthogonale de 𝑌 sur 𝐸
⊤ ⊤
2. Si 𝐴 est une matrice dont les colonnes forment une base de 𝐸, on appelle la matrice 𝑃𝐸 ≔ 𝐴(𝐴 𝐴) −1 𝐴 matrice
de projection orthogonale sur 𝐸

On peut alors dire que la projection orthogonale de 𝑌 sur 𝐸 est l’unique élément 𝑌𝐸 de ℝ𝑛 satisfaisant
simultanément les deux conditions
1. 𝑌𝐸 ∈ 𝐸
2. (𝑌 − 𝑌𝐸 ) ∈ 𝐸 ⊥
⊤ ⊤
et on a nécessairement 𝑌𝐸 = 𝑃𝐸 𝑌 = 𝐴(𝐴 𝐴) −1 𝐴 𝑌. Ceci est une caractérisation importante de la projection
orthogonale de 𝑌 sur 𝐸 ; elle est souvent utilisée pour établir des propriétés de la projection orthogonale,
ainsi qu’en pratique pour déterminer cette projection.
On peut alors montrer que dans la décomposition de 𝑌 en 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ , le second terme 𝑌𝐸 ⊥ est la projection
de 𝑌 sur 𝐸 ⊥ . En effet, on pose 𝐹 ≔ 𝐸 ⊥ , et d’après ce qu’on vient de dire, la projection orthogonale de 𝑌 sur
𝐹 est l’unique élément de 𝑌𝐹 de ℝ𝑛 tel que
1. 𝑌𝐹 ∈ 𝐹
2. 𝑌 − 𝑌𝐹 ∈ 𝐹 ⊥

49
On montre que 𝑌 − 𝑌𝐸 satisfait à ces deux conditions. On a bien 𝑌 − 𝑌𝐸 = 𝑌𝐸 ⊥ et donc 𝑌 − 𝑌𝐸 ∈ 𝐸 ⊥ , càd
𝑌 − 𝑌𝐸 ∈ 𝐹 ; donc 𝑌 − 𝑌𝐸 satisfait la première condition. D’autre part 𝑌 − 𝑌𝐸 ⊥ = 𝑌𝐸 . Or puisque 𝑌𝐸 ∈ 𝐸, on
a 𝑌𝐸 ⊥𝐸 ⊥ , càd 𝑌𝐸 ⊥𝐹, càd 𝑌𝐸 ∈ 𝐹 ⊥ . Autrement dit 𝑌 − 𝑌𝐸 ⊥ ∈ 𝐹 ⊥ , càd 𝑌𝐸 ⊥ satisfait la deuxième condition. Par
l’unicité de l’élément de ℝ𝑛 qui satisfait ces deux conditions, on conclut que 𝑌𝐸 ⊥ est la projection orthogonale
de 𝑌 sur 𝐸 ⊥ .
On remarque au passage qu’on a utilisé le fait que comme 𝑌𝐸 ∈ 𝐸, on a nécessairement 𝑌𝐸 ∈ (𝐸 ⊥ ) ⊥ . Ceci est
un cas particulier de la propriété 𝑈⊥𝐸 ⊥ , ou encore 𝑈 ∈ (𝐸 ⊥ ) ⊥ pour tout 𝑈 ∈ 𝐸, ce qui équivaut à 𝐸 ⊆ (𝐸 ⊥ ) ⊥ .
On peut montrer que 𝐸 = (𝐸 ⊥ ) ⊥ . On sait que ℝ𝑛 = 𝐸 ⊕ 𝐸 ⊥ . Donc 𝑛 = dim( ℝ𝑛 ) = dim(𝐸) + dim(𝐸 ⊥ ). Mais on
a aussi ℝ𝑛 = 𝐸 ⊥ ⊕ (𝐸 ⊥ ) ⊥ est donc 𝑛 = dim(𝐸 ⊥ ) + dim((𝐸 ⊥ ) ⊥ ). D’où dim(𝐸) = dim((𝐸 ⊥ ) ⊥ ). Mais comme on a
vu que 𝐸 ⊆ (𝐸 ⊥ ) ⊥ , cette égalité équivaut à 𝐸 = (𝐸 ⊥ ) ⊥ . Cette propriété permet également d’obtenir le résultat
précédent que 𝑌𝐸 ⊥ est la projection orthogonale de 𝑌 sur 𝐸 ⊥ .
Finalement, comme la projection orthogonale de 𝑌 ∈ ℝ𝑛 sur 𝐸 est définie de manière unique par un élément
de 𝐸, et que cela est possible pour tout 𝑌 ∈ ℝ𝑛 , on peut définir une application qui à chaque 𝑌 ∈ ℝ𝑛 associe
sa projection orthogonale sur 𝐸.

def:projr Définition 3.6 [Application projecteur orthogonal]. Soit 𝐸 un sev de ℝ𝑛 . On appelle projecteur orthogonal sur 𝐸
l’application notée proj𝐸 et définie par

proj𝐸 : ℝ𝑛 −→ 𝐸
𝑌 ↦−→ proj𝐸 (𝑌) = 𝑌𝐸

où 𝑌𝐸 est la projection orthogonale de 𝑌 sur 𝐸, càd l’unique élément 𝑌𝐸 de 𝐸 tel que 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ , avec 𝑌𝐸 ⊥ ∈ 𝐸 ⊥ . On
appelle donc proj𝐸 (𝑌) la projection orthogonale de 𝑌 sur 𝐸

On peut noter qu’il est possible de définir de manière semblable le projecteur orthogonal sur 𝐸 ⊥ . En termes
de projecteurs, la relation 𝑌 = 𝑌𝐸 + 𝑌𝐸 ⊥ pour tout 𝑌 ∈ ℝ𝑛 s’écrit alors Idℝ𝑛 = proj𝐸 + proj𝐸 ⊥ .

3.3.2 Propriétés de la projection orthogonale

pro:proj Propriété 3.6. Soient 𝑋, 𝑌 ∈ ℝ𝑛 et 𝛼 ∈ ℝ ; soit 𝐸 un sev de ℝ𝑛 .


1. proj𝐸 (𝑌) = 𝑌 ⇐⇒ 𝑌 ∈ 𝐸
2. proj𝐸 (𝑌) = 0𝑛 ⇐⇒ 𝑌 ∈ 𝐸 ⊥
3. Le projecteur orthogonal sur 𝐸 est une application linéaire : proj𝐸 (𝛼𝑋 + 𝑌) = 𝛼 × proj𝐸 (𝑋) + proj𝐸 (𝑌)

Démonstration.
1. Comme par définition proj𝐸 (𝑌) ∈ 𝐸, il est évident que si 𝑌 = proj𝐸 (𝑌), alors 𝑌 ∈ 𝐸. Si 𝑌 ∈ 𝐸, alors on
a 𝑌 = 𝑌 + 0𝑛 ; le membre de droite est l’unique décomposition de 𝑌 en la somme d’un élément de 𝐸 (ici
𝑌) et d’un élément de 𝐸 ⊥ (ici 0𝑛 ). Donc par définition 𝑌 = proj𝐸 (𝑌).
2. Il est évident que si proj𝐸 (𝑌) = 0𝑛 , alors 𝑌 = proj𝐸 ⊥ (𝑌) ∈ 𝐸 ⊥ . Pour montrer la réciproque, on raisonne
de la même manière que dans le point précédent. 9
3. Il est évident que 𝛼proj𝐸 (𝑋)+proj𝐸 (𝑌) ∈ 𝐸. De plus (𝛼𝑋+𝑌)−(𝛼proj𝐸 (𝑋)+proj𝐸 (𝑌)) = 𝛼(𝑋−proj𝐸 (𝑋))+
(𝑌 −proj𝐸 (𝑌)). Comme 𝑋 −proj𝐸 (𝑋) et 𝑌 −proj𝐸 (𝑌) sont dans 𝐸 ⊥ , alors 𝛼(𝑋 −proj𝐸 (𝑋)) + (𝑌 −proj𝐸 (𝑌))
l’est aussi, et donc 𝛼proj𝐸 (𝑋) + proj𝐸 (𝑌) est bien la projection orthogonale de 𝛼𝑋 + 𝑌 sur 𝐸.
9. En posant éventuellement 𝐹 = 𝐸 ⊥ comme ci-dessus pour aider le raisonnement.

50


On verra plus bas (section 3.5) que la projection orthogonale de 𝑌 sur 𝐸 est l’élément proj𝐸 (𝑌) de 𝐸 qui est
le plus proche de 𝑌. Si on sait cela, la premier point de la propriété 3.6 se déduit immédiatement (avec l’aide
de la propriété 3.1-3) : si 𝑌 ∈ 𝐸 l’unique élément de 𝐸 le plus proche de 𝑌 est 𝑌 lui même.
Remarquons aussi qu’en combinant les trois points de la propriété précédente, on peut déduire la relation
suivante : si 𝑌 ∈ ℝ𝑛 s’écrit 𝑍 = 𝑋 + 𝑌 et que 𝑋 ∈ 𝐸 et 𝑌 ∈ 𝐸 ⊥ , alors proj𝐸 (𝑍) = 𝑋. En effet, par linéarité (3e
point), on a proj𝐸 (𝑍) = proj𝐸 (𝑋) + proj𝐸 (𝑌). Mais le premier point implique proj𝐸 (𝑋) = 𝑋 et le second point
proj𝐸 (𝑌) = 0𝑛 .

pro:projemboit Propriété 3.7 [Projections orthogonales successives sur des espaces emboîtés]. Si 𝐹 ⊆ 𝐸 sont des sous es-
paces (emboîtés puisque l’un est inclus dans l’autre) de ℝ𝑛 , alors pour tout 𝑌 ∈ ℝ𝑛 , la projection orthogonale sur 𝐸
de la projection orthogonale de 𝑌 sur 𝐹 coïncide avec la projection orthogonale sur 𝐹 de la projection orthogonale de 𝑌
sur 𝐸, qui elle même coïncide avec la projection orthogonale de 𝑌 sur 𝐹 ; formellement :

proj𝐹 (proj𝐸 (𝑌)) = proj𝐸 (proj𝐹 (𝑌)) = proj𝐹 (𝑌)

Démonstration. Comme proj𝐹 (𝑌) est un élément de 𝐹, alors c’est un élément de 𝐸 et donc sa projection or-
thogonale sur 𝐸 coïncide avec lui-même : proj𝐸 (proj𝐹 (𝑌)) = proj𝐹 (𝑌). Ensuite, établir que proj𝐹 (proj𝐸 (𝑌)) =
proj𝐹 (𝑌) revient à établir que proj𝐹 (𝑌) − proj𝐹 (proj𝐸 (𝑌)) = 0𝑛 , ou encore par linéarité de la projection
orthogonale (voir propriété 3.6), que proj𝐹 (𝑌 − proj𝐸 (𝑌)) = 0𝑛 . Mais 𝑌 − proj𝐸 (𝑌) ∈ 𝐸 ⊥ , et puisque 𝐹 ⊆ 𝐸,
on a aussi 𝐸 ⊥ ⊆ 𝐹 ⊥ (voir propriété 3.4), et donc 𝑌 − proj𝐸 (𝑌) ∈ 𝐹 ⊥ . D’après la propriété 3.6, cela équivaut à
proj𝐹 (𝑌 − proj𝐸 (𝑌)) = 0𝑛 , ce qui est bien ce qu’on cherchait à obtenir. 

pro:projadd Propriété 3.8 [Projection sur une somme d’espace orthogonaux]. Si 𝐸 est un sev de ℝ𝑛 qu’on peut écrire sous
la forme 𝐸 = 𝐹 + 𝐺 avec 𝐹⊥𝐺, alors pour tout 𝑌 ∈ ℝ𝑛

proj𝐸 (𝑌) = proj𝐹+𝐺 (𝑌) = proj𝐹 (𝑌) + proj𝐺 (𝑌)

Remarquons que si 𝐸 = 𝐹 + 𝐺, mais que 𝐹 et 𝐺 ne sont pas orthogonaux, alors l’égalité de la propriété n’est en
général pas vraie (l’orthogonalité de 𝐹 et 𝐺 est explicitement utilisée pour obtenir la preuve de la propriété,
ci-dessous). Il faut donc se garder de confondre proj𝐹+𝐺 (𝑌) avec proj𝐹 (𝑌) + proj𝐺 (𝑌).

Démonstration. On part du constat que proj𝐹+𝐺 (𝑌) ∈ 𝐹 + 𝐺 et donc qu’il existe 𝑋 𝐹 ∈ 𝐹 et 𝑋 𝐺 ∈ 𝐺 tels que

proj𝐹+𝐺 (𝑌) = 𝑋 𝐹 + 𝑋 𝐺 (8) {eq:pad1}

(attention : rien ne permet de dire à ce stade du raisonnement que 𝑋 𝐹 et 𝑋 𝐺 sont des projection orthogonales).

Par linéarité de la projection orthogonale (propriété 3.6), on a proj𝐹+𝐺 proj𝐹 (𝑌) = proj𝐹 (𝑋 𝐹 ) + proj𝐹 (𝑋 𝐺 ).
Mais comme 𝑋 𝐺 ∈ 𝐺 et que 𝐹⊥𝐺, on a 𝑋 𝐺 ∈ 𝐹 ⊥ et donc nécessairement proj𝐹 (𝑋 𝐺 ) = 0𝑛 (propriété 3.6), et

donc proj𝐹+𝐺 proj𝐹 (𝑌) = proj𝐹 (𝑋 𝐹 ). Mais comme 𝑋 𝐹 ∈ 𝐹, on déduit (propriété 3.6) que 𝑋𝐹 coïncide avec sa
projection orthogonale sur 𝐹, càd proj𝐹 (𝑋 𝐹 ) = 𝑋 𝐹 ; donc

proj𝐹+𝐺 proj𝐹 (𝑌) = 𝑋 𝐹 (9) {eq:pad2}

51
Par ailleurs, 𝐹 ⊆ 𝐹 + 𝐺 ; donc d’après la propriété 3.7, on a

proj𝐹+𝐺 proj𝐹 (𝑌) = proj𝐹 (𝑌) (10) {eq:pad3}

Des égalités (9) et (10), on déduit que 𝑋 𝐹 = proj𝐹 (𝑌). Par un raisonnement tout à fait semblable, on obtient
aussi 𝑋 𝐺 = proj𝐺 (𝑌). Donc l’égalité (8) s’écrit proj𝐹+𝐺 (𝑌) = proj𝐹 (𝑌) + proj𝐺 (𝑌). 

La propriété 3.8 est d’un grand intérêt pratique, puisque lorsqu’on arrive à écrire l’espace 𝐸 sur lequel on
projette comme la somme de deux sous espaces orthogonaux, il suffit d’additionner deux projections pour
obtenir la projection sur 𝐸. De plus, dans beaucoup d’applications, la décomposition de 𝐸 en la somme de
deux espaces orthogonaux a une interprétation intéressante ; de même que la décomposition (possible dans
ce cas) de la projection sur 𝐸 en la somme de deux projections.
Pour terminer cette section, on donne un autre résultat qui renforce l’intérêt de la propriété 3.8. Il se peut que
𝐸 se présente comme la somme de deux sous-espaces 𝐸 = 𝐹 + 𝐺, mais que 𝐹 et 𝐺 ne soient pas orthogonaux.
La propriété suivante montre qu’à partir de 𝐹 et de 𝐺, on peut construire deux autres sous-espaces 𝐹 ′ et
𝐺 ′ tel que 𝐸 = 𝐹 + 𝐺 = 𝐹 ′ + 𝐺 ′, avec de plus 𝐹 ′⊥𝐺 ′. Dans un tel cas, la propriété 3.8 permet de dire que
proj𝐹+𝐺 (𝑌) = proj𝐸 (𝑌) = proj𝐹 ′ (𝑌) + proj𝐺′ (𝑌).

pro:orthsum Propriété 3.9 [Procédé d’orthogonalisation d’une somme de sev]. Soit 𝐸 un sous-espace vectoriel de ℝ𝑛 tel que
𝐸 = 𝐹 + 𝐺 pour des sous-espaces 𝐹 et 𝐺 de ℝ𝑛 . On définit 𝐺 ′ comme l’ensemble de tous les vecteurs de ℝ𝑛 de la forme
𝑌 − proj𝐹 (𝑌), avec 𝑌 ∈ 𝐺, càd 𝐺 ′ = {𝑋 ∈ ℝ𝑛 | ∃𝑌 ∈ 𝐺, 𝑋 = 𝑌 − proj𝐹 (𝑌)}. Alors
1. 𝐺 ′ est un sev de ℝ𝑛
2. 𝐸 = 𝐹 + 𝐺 ′
3. 𝐹⊥𝐺 ′

Démonstration.
1. Soient 𝛼 ∈ ℝ et 𝑋1 et 𝑋2 dans 𝐺 ′, càd il existe 𝑌1 et 𝑌2 dans 𝐺 tels que 𝑋1 = 𝑌1 − proj𝐹 (𝑌1 ) et 𝑋2 =
𝑌2 − proj𝐹 (𝑌2 ). Alors par linéarité de la projection orthogonale 𝛼𝑋1 + 𝑋2 = (𝛼𝑌1 + 𝑌2 ) − proj𝐹 (𝛼𝑌1 + 𝑌2 ) =
𝑌 − proj𝐹 (𝑌) avec 𝑌 = 𝛼𝑌1 + 𝑌2 ∈ 𝐺. Donc 𝛼𝑋1 + 𝑋2 ∈ 𝐺 ′.
′ ′ ′
2. Supposons que 𝑌 ∈ 𝐹 + 𝐺 ′, càd ∃𝑌 𝐹 ∈ 𝐹, ∃𝑌 𝐺 ∈ 𝐺 ′ tels que 𝑌 = 𝑌 𝐹 + 𝑌 𝐺 . Comme 𝑌 𝐺 ∈ 𝐺 ′, il existe

𝑌 𝐺 ∈ 𝐺 tel que 𝑋 𝐺 = 𝑌 𝐺 − proj𝐹 (𝑌 𝐺 ), et donc 𝑌 = 𝑌 𝐹 − proj𝐹 (𝑌 𝐺 ) + 𝑌 𝐺 . Comme proj𝐹 (𝑌 𝐺 ) ∈ 𝐹, on a
𝑌 𝐹 − proj𝐹 (𝑌 𝐺 ) ∈ 𝐹 et donc 𝑌 est bien la somme d’un élément de 𝐹 et d’un élément de 𝐺, càd 𝑌 ∈ 𝐹 + 𝐺.
Ceci montre que 𝐹 + 𝐺 ′ ⊆ 𝐸 = 𝐹 + 𝐺.
Réciproquement, supposons que 𝑌 ∈ 𝐸 = 𝐹 + 𝐺, càd ∃𝑌 𝐹 ∈ 𝐹, ∃𝑌 𝐺 ∈ 𝐺 tq 𝑌 = 𝑌 𝐹 + 𝑌 𝐺 . On a donc
  
aussi 𝑌 = 𝑌 𝐹 + proj𝐹 (𝑌 𝐺 ) + 𝑌 𝐺 − proj𝐹 (𝑌 𝐺 ) . Mais comme proj𝐹 (𝑌 𝐺 ) ∈ 𝐹, on a 𝑌 𝐹 + proj𝐹 (𝑌 𝐺 ) ∈ 𝐹 ;

par ailleurs, par définition de 𝐺 ′, le vecteur 𝑌 𝐺 − proj𝐹 (𝑌 𝐺 ) est dans 𝐺 ′. Donc 𝑌 apparaît comme la
somme d’un élément de 𝐹 et d’un élément de 𝐺 ′ : 𝑌 ∈ 𝐹 + 𝐺 ′. Ceci montre que 𝐸 = 𝐹 + 𝐺 ⊆ 𝐹 + 𝐺 ′.
La double inclusion obtenue établit que 𝐸 = 𝐹 + 𝐺 = 𝐹 + 𝐺 ′.
3. Tout élément 𝑋 de 𝐺 ′ est de la forme 𝑋 = 𝑌 − proj𝐹 (𝑌). C’est donc un élément de 𝐹 ⊥ d’après la
caractérisation de la projection orthogonale sur 𝐹, et donc 𝑋⊥𝐹. Ceci est vrai pour tout 𝑋 ∈ 𝐺 ′.


52
La propriété 3.8 et 3.9 sont fréquemment utilisées en économétrie et donnent lieu au résultat connu sous
le nom de théorème de Frish-Waugh. Dans le contexte d’estimation d’un modèle de régression linéaire par
moindres carrés (ce qui revient à effectuer une projection orthogonale), la propriété 3.9 permet de transformer
les variables du modèle sans changer le modèle lui même, de manière à obtenir deux groupes de variables
orthogonales (cela revient à passer d’une répartition des variables en deux groupes, celles dans 𝐹 et celles
dans 𝐺, à une autre répartition, à savoir les variables dans 𝐹 et les variables dans 𝐺 ′. Ensuite, l’estimation
du modèle revenant à effectuer une projection orthogonale sur 𝐸 = 𝐹 + 𝐺, on utilise la propriété 3.9 (qui dit
que 𝐸 = 𝐹 + 𝐺 ′) pour dire que cela revient à projeter sur 𝐹 + 𝐺 ′, puis la propriété 3.8 pour dire que cette
projection peut aussi s’obtenir comme la somme d’une projection sur 𝐹 et d’une projection sur 𝐺 ′. L’intérêt
de cela est que si on voit 𝐸 comme 𝐹 + 𝐺, alors pour faire la projection sur 𝐸, on a besoin des deux groupes
de variables (celle de 𝐹 et celles de 𝐺). Tandis que si on voit 𝐸 comme 𝐹 + 𝐺 ′, alors on projette sur 𝐹 d’une
part et sur 𝐺 ′ d’autre part. L’intérêt est que pour faire la projection sur 𝐹, on n’a besoin que des variables
dans 𝐹, seulement. Par conséquent, si seules les variables qui sont dans 𝐹 sont d’un intérêt, alors on peut se
contenter de n’utiliser que ces variables.

3.4 Propriétés des matrices de projection orthogonale


Une matrice de projection orthogonale sur un sous-espace 𝐸 de ℝ𝑛 est symétrique, donc diagonalisable. Elle
idempotente, donc sdp. Ses valeurs propres sont 0 ou 1 ; le nombre de ses valeurs propres égales à 1 est égal
à la dimension de 𝐸.
La symétrie et l’idempotence se vérifient à partir de la définition 3.5. Le caractère sdp, résulte de l’idempo-
tence. Les valeurs propres possibles sont le résultat de l’idempotence. Pour déterminer le nombre de valeurs
propres non nulles, on peut utiliser le résultat sur la trace d’une matrice. La trace est la somme des valeurs
propres de 𝑃𝐸 , donc le nombre de valeurs propres non nulles (puisque 𝑃𝐸 étant idempotente, chacune de ces
valeurs propres est soit 0, soit 1). Mais en notant 𝑞 = dim(𝐸) et 𝐴 = (𝐴1 · · · 𝐴𝑞 ) la matrice dont les colonnes
forment une base de 𝐸, on a

⊤ ⊤ ⊤ ⊤
Tr(𝑃𝐸 ) = Tr(𝐴(𝐴 𝐴) −1 𝐴 ) = Tr((𝐴 𝐴) −1 𝐴 𝐴) = Tr(Id𝑞 ) = 𝑞 = dim(𝐸)

sec:projmindist
3.5 La projection orthogonale comme minimisation d’une distance
Soit 𝐸 un sous-espace de ℝ𝑛 et 𝑌 ∈ ℝ𝑛 . On cherche, s’il en existe, un élément de 𝐸 plus proche de 𝑌 que tout
autre élément de 𝐸. Cela revient à chercher un 𝑋ˆ ∈ 𝐸 tel que 𝑑(𝑌, 𝑋) ˆ ≤ 𝑑(𝑌, 𝑋) pour tout 𝑋 ∈ 𝐸, ou encore,
ˆ 2 ≤ 𝑑(𝑌, 𝑋) 2 pour tout 𝑋 ∈ 𝐸, car la fonction 𝑥2 est croissante sur ℝ∗+ et qu’une distance est
tel que 𝑑(𝑌, 𝑋)
toujours positive ou nulle.
Remarquons que pour tout 𝑋 ∈ 𝐸, on a

⊤ ⊤
𝑑(𝑌, 𝑋) 2 = (𝑌 − 𝑋) (𝑌 − 𝑋) = (𝑌 − 𝑃𝐸 𝑌 + 𝑃𝐸 𝑌 − 𝑋) (𝑌 − 𝑃𝐸 𝑌 + 𝑃𝐸 𝑌 − 𝑋)

où 𝑃𝐸 est la matrice projection orthogonale de 𝑌 sur 𝐸 (et donc 𝑃𝐸 𝑌 est la projection orthogonale de 𝑌 sur

53
𝐸). On peut développer le produit dans le mdd :

⊤ ⊤ ⊤
𝑑(𝑌, 𝑋) 2 = (𝑌 − 𝑃𝐸 𝑌) (𝑌 − 𝑃𝐸 𝑌) + (𝑃𝐸 𝑌 − 𝑋) (𝑃𝐸 𝑌 − 𝑋) + 2(𝑌 − 𝑃𝐸 𝑌) (𝑃𝐸 𝑌 − 𝑋)

= 𝑑(𝑌, 𝑃𝐸 𝑌) 2 + 𝑑(𝑃𝐸 𝑌, 𝑋) 2 + 2(𝑌 − 𝑃𝐸 𝑌) (𝑃𝐸 𝑌 − 𝑋)

Comme 𝑃𝐸 𝑌 ∈ 𝐸, alors 𝑃𝐸 𝑌 − 𝑋, ceci pour tout 𝑋 ∈ 𝐸. Et comme 𝑃𝐸 𝑌 est la projection orthogonale de 𝑌 sur 𝐸,

alors 𝑌 − 𝑃𝐸 𝑌 est orthogonal à tout vecteur de 𝐸, en particulier au vecteur 𝑃𝐸 𝑌 − 𝑋 : (𝑌 − 𝑃𝐸 𝑌) (𝑃𝐸 𝑌 − 𝑋) = 0.
D’où 𝑑(𝑌, 𝑋) 2 = 𝑑(𝑌, 𝑃𝐸 𝑌) 2 + 𝑑(𝑃𝐸 𝑌, 𝑋) 2 , càd

𝑑(𝑌, 𝑃𝐸 𝑌) 2 = 𝑑(𝑌, 𝑋) 2 − 𝑑(𝑃𝐸 𝑌, 𝑋) 2 (11) {eq:py}

Comme 𝑑(𝑃𝐸 𝑌, 𝑋) 2 ≥ 0, on déduit 𝑑(𝑌, 𝑃𝐸 𝑌) 2 ≤ 𝑑(𝑌, 𝑋) 2 . Ceci étant vrai pour tout 𝑋 ∈ 𝐸, on a 𝑑(𝑌, 𝑃𝐸 𝑌) ≤
𝑑(𝑌, 𝑋), ∀𝑋 ∈ 𝐸.
On a donc une partie de la réponse à la question posée au début de la section : il existe au moins un élément
de 𝐸 pour lequel la distance à 𝑌 est minimale ; un tel élément est la projection orthogonale de 𝑌 sur 𝐸.
On peut maintenant se poser la question de savoir s’il existe d’autres éléments de 𝐸 ayant cette propriété. Pour
y répondre, on reprend l’égalité (11) obtenue précédemment : 𝑑(𝑌, proj𝐸 (𝑌)) 2 = 𝑑(𝑌, 𝑋) 2 − 𝑑(proj𝐸 (𝑌), 𝑋) 2 .
Pour tout 𝑋 de 𝐸 distinct de proj𝐸 (𝑌), le point 3 de la propriété 3.1 implique que 𝑑(proj𝐸 (𝑌), 𝑋) 2 > 0. Donc
en utilisant (11), on déduit que 𝑑(𝑌, proj𝐸 (𝑌)) 2 < 𝑑(𝑌, 𝑋) 2 pour tout 𝑋 ∈ 𝐸, 𝑋 ≠ proj𝐸 (𝑌).
On peut alors résumer tout cela par une propriété

Propriété 3.10. Soit 𝐸 un sev de ℝ𝑛 et 𝑌 ∈ ℝ𝑛 . L’unique élément de 𝐸 strictement plus proche de 𝑌 que tout autre
élément de 𝐸 est la projection orthogonale de 𝑌 sur 𝐸.

54

Vous aimerez peut-être aussi