Cayley

MA–460: ALGEBRA LINEAL II
Joseph C. Várilly
Escuela de Matemática, Universidad de Costa Rica
II Ciclo Lectivo del 2007
Introducción
El álgebra lineal comprende el estudio de los espacios vectoriales y las aplicaciones lineales
entre ellos. La estructura de un espacio vectorial finitodimensional es sencilla: todos los
vectores son combinaciones de un número finito de vectores básicos. Dadas unas bases de dos
espacios vectoriales, una aplicación lineal del primero al segundo se manifiesta con la matriz
de sus coeficientes con respecto a estas dos bases. De este modo, se obtiene una estrecha
relación entre las propiedades estructurales de las aplicaciones lineales y los algoritmos para
manipular sus matrices.
Este es un segundo curso de álgebra lineal. En el curso anterior, los espacios vectoriales
y las matrices fueron introducidos en el contexto, clásico y fundamental, de la resolución de
sistemas de ecuaciones de primer grado en varias variables. También se adquirió familiaridad
con los conceptos esenciales de base y dimensión de un espacio vectorial, núcleo e imagen
de una aplicación lineal, espacio vectorial dual y el teorema de rango y nulidad.
El estudio del álgebra lineal comprende aspectos tanto estructurales como algorı́tmicos.
En este segundo curso, el énfasis recaerá sobre las estructuras, sean ellas de las aplicaciones
lineales, de los espacios vectoriales dotados de un producto escalar, o de las formas bilineales
y cuadráticos. Aun ası́, para entender bien esta teorı́a, hay que prestar la debida atención a su
presentación en algoritmos y a los métodos explı́citos de cálculo.
Inicialmente, se hará un breve repaso de los temas del curso anterior: vectores, aplica-
ciones lineales, matrices, determinantes. Luego, se abordará la búsqueda de los autovalores
y autovectores de una matriz (o bien de una aplicación lineal), con el objetivo de transformar
una matriz dada a una forma diagonal. Este meta no siempre puede realizarse; por ende,
se examinará en detalle la estructura de una aplicación lineal cualquiera, para obtener las
llamadas formas canónicas y normales de sus matrices.
Otro concepto fundamental es la de ortogonalidad. En presencia de un producto escalar
(o producto interno) sobre un espacio vectorial real o complejo, las aplicaciones lineales
se reparten en diversos clases: ortogonales o unitarios, simétricos o hermı́ticos, positivas.
Estas clasificaciones dan lugar a diversos factorizaciones de matrices, entre ellas la llamada
descomposición polar, cuyos factores admiten una descripción en términos de sus autovalores
y autoespacios mediante el teorema espectral.
Las formas bilineales sobre un espacio vectorial real o complejo se clasifican de otras
maneras. Las formas antisimétricas se caracterizan por su rango; las formas simétricas, por su
MA–460: Algebra Lineal II 2
rango y signatura. Una forma bilineal simétrica sobre un espacio vectorial sirve para construir
una estructura multiplicativa llamada álgebra de Clifford que la caracteriza, en términos de
matrices sobre escalares reales, complejos o cuaternionicos.
Estos apuntes van acompañados de diversos ejercicios, los cuales, además de ofrecer una
práctica rutinaria acerca de los tópicos discutidos, sirven para amplificar y complementar esos
temas. La evaluación del curso estará basado en estos ejercicios.
Programa de materias
1 Fundamentos del Algebra Lineal: Repaso
Espacios vectoriales, independencia lineal, bases, dimensión. Aplicaciones lineales, núcleo
e imagen, rango y nulidad, espacio dual. Ecuaciones lineales y matrices, operaciones de fila,
eliminación gaussiana. Determinantes y su evaluación, regla de Cramer.
2 Estructura de Aplicaciones Lineales

Autovalores de una aplicación lineal o matriz, autovectores. Aplicaciones cı́clicas y matrices
diagonalizables. Formas canónicas de una matriz. Polinomio caracterı́stico de una matriz, el
teorema de Cayley y Hamilton. Polinomio mı́nimo de una aplicación lineal. Forma normal
de Jordan de una matriz.
3 Ortogonalidad y Teorı́a Espectral

Productos escalares reales y complejos, bases ortonormales, el algoritmo de Gram y Schmidt.
Aplicaciones y matrices ortogonales y unitarias. Matrices simétricas y hermı́ticas. Aplica-
ciones y matrices positivas, descomposición polar. El teorema espectral.
4 Formas Bilineales
Formas bilineales simétricas, congruencia de matrices, rango y signatura. Formas cuadráticas
y sus signaturas. Formas bilineales alternantes, bases canónicas. Aplicaciones ortogonales y
simplécticas, estructuras complejas.
5 Algebras Exteriores y de Clifford

Producto tensorial de dos espacios vectoriales. Algebras tensorial, simétrica y exterior de un
espacio vectorial. Integral de Berezin, pfaffianos y gaussianos. Algebra de Clifford de una
forma cuadrática. Clasificación matricial de las álgebras de Clifford, el Octuple Sendero.
1 Fundamentos del Algebra Lineal

Antes de abordar el estudio de aplicaciones lineales en general, conviene hacer un breve
repaso de los conceptos fundamentales de los espacios vectoriales y las matrices, ya vistos en
el curso anterior a éste. El objeto de este resumen es fijar los conceptos y las notaciones que
serán usados más adelante. Por lo tanto, se dejan las proposiciones sin demostración en este
capı́tulo inicial.
1.1 Espacios vectoriales

En el álgebra lineal se emplean escalares, vectores y matrices. Los escalares forman un
cuerpo,1 es decir, un conjunto dotado con operaciones conmutativos de suma y producto,
en donde cada elemento a tiene un negativo −a; cada elemento no cero a tiene un inverso
multiplicativo a−1 = 1/a; y la ley distributiva a(b + c) = ab + ac se cumple. Cada cuerpo
contiene al menos dos elementos distintos: 0, el cero aditivo y 1, la unidad multiplicativa.
Tres cuerpos ya son bien conocidos: los números racionales Q, los números reales R y los
números complejos C. En lo sucesivo, Z denotará los números enteros y N = {0, 1, 2, 3, . . . } de-
notará los números enteros no negativos, a veces llamados “números naturales”.2 Obsérvese
que N y Z no son cuerpos.
Hay cuerpos con un número finito de elementos, entre ellos F p = Z/pZ, los residuos por
división por un entero primo p. Obsérvese que F2 = {0, 1} tiene la mı́nima cantidad posible
de elementos.
Notación. La letra F denotará un cuerpo cualquiera. Sus elementos se llamarán escalares.
Definición 1.1. Un espacio vectorial sobre un cuerpo F es un conjunto V, cuyos elementos

se llaman vectores, en donde se definen dos operaciones: suma de vectores y multiplicación
escalar. La suma es asociativa y conmutativa, el cero para la suma se escribe 0 ∈ V y la
multiplicación escalar cumple las identidades
1x = x; a(x + y) = ax + ay; (a + b)x = ax + bx; para a, b ∈ F, x, y ∈ V.
La totalidad de las “n-tuplas” x = (x1 , . . . , xn ), con cada xk ∈ F, es un espacio vectorial sobre

F denotado por Fn . Las sumas y los múltiplos escalares de n-tuplas se definen “entrada por
entrada”.
Ejemplo 1.2. La totalidad de polinomios con coeficientes en F se denota por F[t], en donde la
letra t es una indeterminada. Sus elementos son los p(t) = a0 + a1 t + a2 t2 + · · · + an tn con cada
ak ∈ F, an , 0. El número natural n es el grado del polinomio p(t). Con la suma de polinomios
y la multiplicación de polinomios por escalares, F[t] es un espacio vectorial sobre F.
1 Elnombre viene del alemán Körper, un término introducido por Richard Dedekind en 1871; se llama corps
en francés, cuerpo en español, corp en rumano, etc., pero en inglés se llama field. En español, no debe usarse la
traducción secundaria “campo”, reservada para campos vectoriales, campos magnéticos, etc.
2 Conviene incluir 0 como número natural, aunque este costumbre no tiene aceptación universal. Los autores
franceses lo siguen, empleando la notación N∗ = {1, 2, 3, . . . }. En cambio, los autores alemanes a veces escriben
N = {1, 2, 3, . . . } y N0 = {0, 1, 2, 3, . . . }, sin previo aviso. Caveat lector.
Definición 1.3. Sea V un espacio vectorial sobre F. Un subespacio de V es una parte W ⊆ V

tal que W sea también un espacio vectorial sobre F, con las mismas operaciones de suma y
multiplicación escalar. Dicho de otro modo, W es un subespacio de V si W ⊆ V y si para
x, y ∈ W, c ∈ F, valen x + y ∈ W, cx ∈ W.
Úsase la notación W ≤ V para significar que W es un subespacio de V.
Ejemplo 1.4. Si V = F[t], y si n ∈ N, sea Fn [t] la colección de polinomios de grado no mayor
que n. Los polinomios constantes a0 , de grado 0, pertenecen a Fn [t]. Es evidente que Fn [t] es
subespacio de F[t].
Definición 1.5. Sea V un espacio vectorial sobre F. Un vector en V de la forma
x = a1 x1 + a2 x2 + · · · + am xm , (1.1)
donde ak ∈ F, xk ∈ V para k = 1, 2, . . . , m, se llama una combinación lineal de los vectores
x1 , . . . , xm , con coeficientes a1 , . . . , am .
Se dice que la colección de vectores {x1 , . . . , xm } es linealmente dependiente si hay un
juego de coeficientes a1 , . . . , am , no todos cero, tal que
a1 x1 + a2 x2 + · · · + am xm = 0. (1.2)
En cambio, si el único juego de coeficientes que hace cumplir (1.2) es a1 = · · · = am = 0, se
dice que los vectores {x1 , . . . , xm } son linealmente independientes.
Un conjunto X ⊂ V, posiblemente infinito, se dice linealmente independiente si cada
parte finita de X es linealmente independiente; es decir, X es linealmente independiente
si la ecuación (1.2) admite solamente la solución trivial a1 = · · · = am = 0 toda vez que
x1 , . . . , xm ∈ X.
Definición 1.6. El subespacio generado por una colección de vectores {x1 , . . . , xm } en V es
el menor subespacio W ≤ V que incluye esta colección. Es evidente que W es la totalidad de
las combinaciones lineales posibles de la forma (1.1). Usaremos la notación
linhx1 , . . . , xm i := { a1 x1 + · · · + am xm : a1 , . . . , am ∈ F }
para denotar este subespacio.
Si X es una parte, posiblemente infinita, de V, el subespacio linhXi generado por X es el
menor subespacio de V que incluye X; esto es la totalidad de las combinaciones lineales de
vectores en X.
Definición 1.7. Si V es un espacio vectorial sobre F, una base de V es una parte B ⊂ V tal
que: (a) B es linealmente independiente; (b) B genera V, es decir, linhBi = V.
B = {x1 , . . . , xn } es una base para V si y sólo si cada vector x ∈ V puede expresarse como
una combinación lineal (1.1) de manera única. Para x ∈ V, los coeficientes c1 , . . . , cn ∈ F tales
que x = c1 x1 + · · · + cn xn forman un vector c = (c1 , . . . , cn ) ∈ Fn . Este vector
[x]B := c ∈ Fn (1.3)
es el representante de x ∈ V en el espacio Fn , con respecto a la base B.
La base estándar de Fn es E = {e1 , . . . , en }, donde

e1 := (1, 0, . . . , 0), e2 := (0, 1, . . . , 0), ..., en := (0, 0, . . . , 1). (1.4)
Fı́jese que [c]E = c, para todo c ∈ Fn .
El conjunto { 1, t, t2 , . . . , tn , . . . } es una base para el espacio vectorial F[t] de todos los poli-
nomios sobre F.
Definición 1.8. Sea {x1 , . . . , xn } una base para V y sean y1 , . . . , ym ∈ V. Si m > n, entonces
y1 , . . . , ym son linealmente dependientes. En consecuencia, si { y1 , . . . , ym } es otra base para V,
entonces m = n. Si V posee una base finita, el número n de sus elementos es la dimensión
del espacio vectorial V; en sı́mbolos, n = dim V. (Se dice que V es finitodimensional en este
caso.) En particular, es dim Fn = n.
Para construir una base de un espacio vectorial dado, es útil saber que siempre se puede
completar una base parcial, es decir, es posible prolongar una base para un subespacio en
una base para el espacio de marras, en vista de la siguiente Proposición.
Proposición 1.9. Sea V un espacio vectorial sobre F con dim V = n, y sea {x1 , . . . , xm } ⊂ V un
conjunto linealmente independiente de vectores, con m < n. Siempre es posible hallar otros
vectores xm+1 , . . . , xn ∈ V tales que {x1 , . . . , xm , xm+1 , . . . , xn } sea una base de V.
Definición 1.10. Sean V y W espacios vectoriales sobre el mismo cuerpo F. Su suma directa
V ⊕ W es el producto cartesiano de V y W, dotado de las siguientes operaciones de suma y
multiplicación escalar:
(x, y) + (x0 , y0 ) := (x + x0 , y + y0 ), para x, x0 ∈ V, y, y0 ∈ W,
c(x, y) := (cx, cy), para x ∈ V, y ∈ W, c ∈ F.
Si V y W son finitodimensionales, entonces dim(V ⊕ W) = dim V + dim W.
Definición 1.11. Sea V un espacio vectorial sobre F y sean U, W dos subespacios de V. Su
suma es el subespacio
U + W := { x + y : x ∈ U, y ∈ W } ≤ V.
En general, dim(U + W) ≤ dim U + dim W, con igualdad si y sólo si U ∩ W = {0}. En el caso
de que U ∩ W = {0}, se identifica esta suma U + W con la suma directa U ⊕ W, pues tienen la
misma dimensión.
El subespacio W es un suplemento de U en V si U ∩ W = {0} y U ⊕ W = V. En general,
cada subespacio de V posee muchos suplementos: si {x1 , . . . , xm } es una base de U que se
prolonga en una base {x1 , . . . , xn } de V, entonces linhxm+1 , . . . , xn i es un suplemento de U
en V.
Definición 1.12. Sea V un espacio vectorial sobre F y sea W un subespacio de V. El es-
pacio vectorial cociente V/W es el conjunto de los traslados x + W := { x + w : w ∈ W } del
subespacio W, dotado de las siguientes operaciones de suma y multiplicación escalar:
(x + W) + (y + W) := (x + y) + W, c(x + W) := (cx) + W,
para x, y ∈ V, c ∈ F. El cero de V/W es el propio W, considerado como traslado trivial del
subespacio W de V. Si {x1 , . . . , xn } es una base de V tal que {x1 , . . . , xk } sea una base de W,
entonces {xk+1 + W, . . . , xn + W} es una base de V/W. Por ende, dim(V/W) = dim V − dim W.
1.2 Aplicaciones lineales

Definición 1.13. Sean V y W dos espacios vectoriales sobre un mismo cuerpo F. Se dice que
una función T : V → W es una aplicación lineal (o bien, aplicación F-lineal) si T cumple
T (x + y) = T (x) + T (y), para x, y ∈ V,

T (cx) = cT (x), para x ∈ V, c ∈ F.
La totalidad de aplicaciones lineales T : V → W se denota por L(V, W). Este es también un

espacio vectorial sobre F, bajo las operaciones:
T + S : x 7→ T (x) + S (x),
cT : x 7→ c T (x).
Si Z es otro espacio vectorial sobre F, y si T ∈ L(V, W), S ∈ L(W, Z), su composición3 es la

aplicación lineal S T ∈ L(V, Z) dado por S T : x 7→ S (T (x)).
Para manejar las aplicaciones lineales de modo explı́cito, se usa la propiedad clave de que
una aplicación lineal es determinada por sus valores sobre los elementos de una base de su
dominio.
Proposición 1.14. Sean V y W dos espacios vectoriales sobre F, y sea {x1 , . . . , xn } una
base de V. Si y1 , . . . , yn son n vectores cualesquiera en W (no necesariamente distintos
ni independientes), hay una única aplicación lineal T ∈ L(V, W) tal que T (xk ) = yk para
k = 1, 2, . . . , n.
Definición 1.15. Sea V un espacio vectorial sobre un cuerpo F. Una forma lineal sobre V es
una aplicación lineal f : V → F. El espacio dual de V es el espacio vectorial V ∗ de todas las
formas lineales, vale decir, V ∗ := L(V, F). Si dim V es finito, entonces dim V ∗ = dim V.
Definición 1.16. Si {x1 , . . . , xn } es una base de V, la correspondiente base dual { f1 , . . . , fn }
de V ∗ se define por
fk (c1 x1 + c2 x2 + · · · + cn xn ) := ck , (1.5)
para k = 1, 2, . . . , n. Estas formas lineales fk cumplen fk (xk ) = 1 y fk (xr ) = 0 si k , r.
Definición 1.17 (Corchete de Iverson). Vale la pena introducir ahora un convenio de nota-
ción.4 Si R(x) es una relación lógica cualquiera que involucra un parámetro x, la notación
[[R(x)]] denota la siguiente función booleana:

 1, si R(x) es CIERTO;


[[R(x)]] := 
 0, si R(x) es FALSO.

3 La composición de las funciones T y S se suele denotar por S ◦ T . Sin embargo, es usual abreviarlo a S T
cuando se trata de aplicaciones lineales.
4 Esta notación fue introducido en 1962 por Kenneth E. Iverson. Para una evaluación de los usos y las
ventajas de esta notación, véase: Donald E. Knuth, Two Notes on Notation, American Mathematical Monthly
99 (1992), 403–422.
La conocida delta de Kronecker δi j , que es la función de dos ı́ndices i, j, que vale 1 cuando
i = j y vale 0 cuando i , j, resulta ser
δi j = [[i = j]].
De igual modo, la función indicatriz de un conjunto A es 1A (x) := [[x ∈ A]], y la función de

signo sobre R, que vale 1, 0 ó −1 cuando t es respectivamente positivo, cero o negativo, se
escribe como signo(t) := [[t > 0]] − [[t < 0]].
Con esta notación, la base dual de V ∗ queda determinada por fk (xr ) = [[k = r]].
Si V es finitodimensional, es dim(V ∗ )∗ = dim V ∗ = dim V. Cada vector x ∈ V da lugar a

una forma lineal sobre V ∗ , a saber, la evaluación f 7→ f (x). No se distinguirá entre el vector
x ∈ V y este miembro de V ∗∗ = (V ∗ )∗ ; de esta manera, V se identifica con un subespacio
del espacio bidual V ∗∗ ; por conteo de dimensiones, este subespacio es todo V ∗∗ . En otras
palabras, el espacio dual de V ∗ coincide con el espacio original V. Además, la base dual a
{ f1 , . . . , fn } es la base original {x1 , . . . , xn } de V. (Estas propiedades de reciprocidad entre V
y V ∗ justifican el empleo de la palabra “dual” para V ∗ .)
Definición 1.18. Sean V, W dos espacios vectoriales sobre F. La aplicación transpuesta de

T ∈ L(V, W) es la aplicación lineal T t ∈ L(W ∗ , V ∗ ) dada por
T t (g) := g ◦ T, para todo g ∈ W ∗ .
En otras palabras, si g ∈ W ∗ , x ∈ V, entonces T t (g) : x 7→ g(T (x)).

Si T ∈ L(V, W) y S ∈ L(W, Z), resulta que (S T )t = T t S t , porque
(T t S t )(h) = T t (S t (h)) = T t (h ◦ S ) = (h ◦ S ) ◦ T = h ◦ (S T ) = (S T )t (h), para h ∈ Z ∗ .
Definición 1.19. Sean V, W dos espacios vectoriales sobre F y sea T ∈ L(V, W). El núcleo
de T es el subespacio ker T de V dado por
ker T := { x ∈ V : T (x) = 0 } ≤ V.
La imagen de T es el subespacio T (V) de W:
T (V) := { T (x) : x ∈ V } ≤ W.
La nulidad de T es n(T ) := dim(ker T ). El rango de T es r(T ) := dim(T (V)). Obsérvese que

n(T ) ≤ dim V y r(T ) ≤ dim W.
Proposición 1.20. Sea T ∈ L(V, W); entonces
(a) T es inyectivo si y sólo si ker T = {0}, si y sólo si n(T ) = 0;
(b) T es sobreyectivo si y sólo si T (V) = W, si y sólo si r(T ) = dim W.

Definición 1.21. Sea V un espacio vectorial sobre F con dim V = n. Considérese dos subes-
pacios M ≤ V y N ≤ V ∗ . El anulador de M es el subespacio M ⊥ ≤ V ∗ dado por
M ⊥ := { f ∈ V ∗ : f (x) = 0 para todo x ∈ M }.
El anulado de N es el subespacio ⊥ N ≤ V dado por

⊥
N := { x ∈ V : f (x) = 0 para todo f ∈ N }.
Resulta que dim(M ⊥ ) = n − dim M y que dim(⊥ N) = n − dim N.

Proposición 1.22. Sean V, W dos espacios vectoriales sobre F y sea T ∈ L(V, W). Entonces
T (V)⊥ = ker T t y (ker T )⊥ = T t (W ∗ ).
Además ⊥ T t (W ∗ ) = ker T y ⊥ (ker T t ) = T (V).

Por lo tanto n(T t ) = dim W − r(T ) y además r(T t ) = dim V − n(T ).
Proposición 1.23 (Teorema de rango y nulidad). Para cualquier T ∈ L(V, W), valen:
(a) r(T ) = r(T t ),
(b) r(T ) + n(T ) = dim V.
1.3 Matrices
Definición 1.24. Una matriz m × n con entradas en un cuerpo F es un arreglo rectangular de
elementos de F, con m filas o renglones y n columnas. Para abreviar, se escribe A = [ai j ],
donde se sobreentiende que i = 1, 2, . . . , m y j = 1, 2, . . . , n.
La totalidad de matrices m × n con entradas en F es un espacio vectorial sobre F de di-
mensión mn. En el caso m = n, se habla de matrices cuadradas. Mn (F) denota el espacio
vectorial de matrices n × n con entradas en F. (Otra notación a veces vista es Fn×n = Mn (F).
Ası́, el espacio vectorial de matrices m × n puede denotarse por Fm×n .)
La transpuesta At de una matriz A ∈ Fm×n es una matriz n × m, cuya entrada (i, j) es la
entrada ( j, i) de A; en sı́mbolos, At = [a ji ]. Una matriz cuadrada A ∈ Mn (F) se llama simétrica
si At = A.
Una matriz cuadrada A ∈ Mn (F) es triangular inferior si ai j = 0 para i < j; triangular
superior si ai j = 0 para i > j; y diagonal si ai j = 0 para i , j.
Las columnas de una matriz A ∈ Fm×n pueden considerarse como vectores en Fm . Una
columna tı́pica es  
 a1 j 
 a2 j 
 
a j =  ..  .
 . 
am j
 
De este modo, A = [a1 , a2 , . . . , an ] es una lista ordenada de vectores de columna.

Además, las filas de A pueden considerarse como vectores en el espacio dual (Fn )∗ ' Fn .
Una fila tı́pica5 es h i
ai = ai1 ai2 . . . ain ,
de modo que A = [a1 , a2 , . . . , am ]t . (Para distinguir los vectores de fila de los vectores de
columna, conviene usar exponentes o “superı́ndices” para etiquetar aquellos.)
La fila ai corresponde a la forma lineal
x 7→ ai · x = ai1 x1 + ai2 x2 + · · · + ain xn ,
como miembro de (Fn )∗ . En general, la notación x · y denotará el producto punto de dos

vectores en Fn , esto es, x · y = x1 y1 + x2 y2 + · · · + xn yn .
Definición 1.25. Si A ∈ Fm×n y B ∈ Fn×r , el producto de matrices AB es la matriz C = AB ∈

Fm×r cuya entrada (i, j) es el producto punto de la fila i de A con la columna j de B; es decir,
n
X
ci j := a · b j =
i
aik bk j .
k=1
El producto matricial obedece las leyes algebraicas A(BC) = (AB)C; (A + D)B = AB+ DB;
A(B + E) = AB + AE; (AB)t = Bt At . Sin embargo, este producto no es conmutativo, porque
AB , BA en general.
Si A, B ∈ Mn (F), su producto AB también pertenece a Mn (F). Este producto es asociativo
y distributivo sobre la suma de matrices, en vista de las primeras tres igualdades del párrafo
anterior. En otras palabras, Mn (F) es a la vez un espacio vectorial sobre F y un anillo (no
conmutativo): se dice6 que Mn (F) es un álgebra sobre F.
Esta álgebra tiene un elemento unidad, la matriz identidad In ∈ Mn (F), que cumple AIn =
In A = A para todo A ∈ Mn (F). Concretamente, In = [δi j ], donde δi j = [[i = j]] es la “delta de
Kronecker”. Esta es una matriz diagonal:
1 0 . . . 0
 
0 1 . . . 0
 
In =  .. .. . . ..  .
 . . . . 
0 0 ... 1
 
En un contexto en donde el tamaño n es fijo, se suele abreviar I := In .
Definición 1.26. Un elemento A ∈ Mn (F) es una matriz inversible o matriz no singular si

hay otra matriz C ∈ Mn (F) tal que AC = CA = I. Si A es inversible, su matriz inversa C es
única y se denota C =: A−1 . Fı́jese que (AB)−1 = B−1 A−1 cuando A, B son matrices inversibles.
5 Algunos autores franceses usan la notación Fn en vez de (Fn )∗ para denotar el espacio dual de Fn .
6 Una F-álgebra es una estructura algebraica con tres operaciones compatibles: suma, producto y multipli-
cación escalar por elementos de F. Los polinomios F[t] dan otro ejemplo, conmutativo, de álgebra sobre F.
Definición 1.27. Sea T : V → W una aplicación lineal entre dos espacios vectoriales finitodi-
mensionales sobre F. Dadas dos bases, B = {x1 , . . . , xn } para V y C = {y1 , . . . , ym } para W, la
matriz de T con respecto a estas bases7 es la matriz A = [ai j ] ∈ Fm×n dada por
m
X
T (x j ) =: ai j yi . (1.6)
i=1
Para exhibir la dependencia de la matriz A tanto de T como de las bases B y C, se escribe
A = [ai j ] =: [T ]CB .
Si x = c1 x1 + · · · + cn xn ∈ V y si T (x) = b1 y1 + · · · + bm ym ∈ W, entonces
m
X n
X n
X n X
X m
bi yi = T (x) = T cj xj = c j T (x j ) = ai j c j yi ,
i=1 j=1 j=1 j=1 i=1
donde se ha usado la linealidad de la aplicación T . En vista de la independencia lineal de los

vectores y1 , . . . , ym , se concluye que
n
X
bi = ai j c j para cada i; o bien, b = Ac.
j=1
En otras palabras, [T (x)]C = A [x]B , o bien
[T (x)]C = [T ]CB [x]B . (1.7)
Fı́jese que T 7→ A = [T ]CB es un isomorfismo lineal, es decir, una aplicación lineal biyec-
tiva, entre los espacios vectoriales L(V, W) y Fm×n ; por ende
dim L(V, W) = dim Fm×n = mn = (dim W)(dim V).
En efecto, la Proposición 1.14 afirma que T 7→ A es inyectiva, y la aplicación inversa es

A 7→ T A , donde
T A (x) := Ax para todo x ∈ Fn .
Es fácil verificar que las biyecciones T 7→ A, A 7→ T A son lineales.
También es posible comprobar que la correspondencia T ↔ A = [T ]CB preserva las otras
operaciones algebraicas, como sigue.
(a) Si D es una base del espacio vectorial Z y si B = [S ]DC

es la matriz de una aplicación
lineal S ∈ L(W, Z), entonces la matriz de la composición S T es el producto matricial
BA, es decir,
[S T ]D D C
B = BA = [S ]C [T ]B .
7 Fı́jese bien en la forma “enrevesada” de combinar los ı́ndices al lado derecho de esta ecuación.
(b) Si [T ]CB = A y si T es biyectivo, entonces [T −1 ]B

C
= A−1 .
(c) Si B∗ = { f1 , . . . , fn } ⊂ V ∗ y C∗ = {g1 , . . . , gm } ⊂ W ∗ son las bases duales de B y C respec-

tivamente, la matriz correspondiente a la aplicación transpuesta T t ∈ L(W ∗ , V ∗ ) es la
matriz transpuesta At :
[T ]CB = A =⇒ [T t ]B
∗
C∗ = A .
t
Proposición 1.28. Si A ∈ Fm×n , la imagen de la aplicación correspondiente T A : Fn → Fm es

el subespacio de Fm generado por las columnas de la matriz A.
Demostración. Si x ∈ Fn , entonces T A (x) = Ax ∈ Fm . Escrı́base x = nj=1 x j e j , al desarrollar

P
el vector x en términos de la base estándar {e1 , . . . , en } de Fn . Es evidente que Ae j = a j para
j = 1, . . . , n. Por la linealidad de T A , se ve que
n
X
Ax = T A (x) = x j T A (e j ) = x1 a1 + x2 a2 + · · · + xn an . (1.8)
j=1
De ahı́ es evidente que cada vector Ax es una combinación lineal de las columnas a1 , . . . , an ,
e inversamente, que cada combinación lineal de estas columnas es de la forma Ax para algún
x ∈ Fn . En otras palabras, es T A (Fn ) = linha1 , . . . , an i ≤ Fm .
En general las columnas de A no son linealmente independientes; de hecho, son indepen-
dientes si y sólo si n = r(T A ). Esto motiva la siguiente definición.
Definición 1.29. Si A ∈ Fm×n , el rango de la matriz A se define como el rango de la aplicación

lineal T A , es decir, r(A) := r(T A ). Del mismo modo, la nulidad de A se define como la nulidad
de T A , esto es, n(A) := n(T A ).
Por lo tanto, r(A) es el máximo número de columnas linealmente independientes de entre
las columnas de A. Ahora la Proposición 1.23 implica que r(At ) = r(A). Por tanto, el rango
de A es también el máximo número de filas linealmente independientes de entre las filas de A.
(Fı́jese que las filas de A son las columnas de At .) En consecuencia, es r(A) ≤ min{m, n}.
I Dadas dos espacios vectoriales finitodimensionales V y W, sean B = {x1 , . . . , xn } y B0 =

{x01 , . . . , x0n } dos bases de V y sean C = {y1 , . . . , ym } y C0 = {y01 , . . . , y0m } dos bases de W. Una
aplicación lineal T ∈ L(V, W) tiene dos matrices A = [T ]CB y B = [T ]CB0 . La relación entre estas
0
matrices es
[T ]CB0 = [I]CC [T ]CB [I]B
0 0
B0 , o bien B = QAP,
donde P = [I]B y Q = [I]CC son las matrices de cambio de base en V, W respectivamente.

0
B0
Concretamente,
n
X m
X
x s =:
0
p js x j , yi =: qri y0r . (1.9)
j=1 r=1
Obsérvese que P, por ser la matriz de una aplicación identidad I respecto de ciertas bases, es
una matriz cuadrada inversible. La matriz Q es inversible por la misma razón.
Definición 1.30. Dos matrices A, B ∈ Fm×n se dicen equivalentes si hay un par de matrices
inversibles P ∈ Mn (F) y Q ∈ Mm (F) tales que B = QAP.
Si A y B representan una aplicación lineal T ∈ L(V, W) respecto de dos pares de bases

para V y W, entonces A y B son equivalentes. Inversamente, si A y B son equivalentes medi-
ante la relación B = QAP, y si se cambia las bases estándares en Fn y Fm por (1.9), entonces
B es la matriz de T A con respecto a las nuevas bases. En particular, es r(A) = r(T ) = r(B).
Los cambios de base de mayor interés ocurren cuando W = V y se toman C = B y C0 = B0 ,
es decir, yk = xk y y0r = x0r para k, r = 1, . . . , n. En este caso, por inspección de (1.9), o bien por
la reciprocidad entre P = [I]B y Q = [I]B
0
B0 B
, se ve que Q = P−1 en Mn (F).
Definición 1.31. Dos matrices cuadradas A, B ∈ Mn (F) se dicen semejantes si hay una
matriz inversible P ∈ Mn (F) tal que B = P−1 AP.
Si A y B representan una aplicación lineal T ∈ L(V, V) respecto de un par de bases para V,

entonces A y B son semejantes. Inversamente, si A y B son matrices semejantes mediante
B = P−1 AP, y si se cambio la base estándar E = {x1 , . . . , xn } en Fn a la base P = { p1 , . . . , pn }
mediante (1.9), entonces B = [T A ]P
P
es la matriz de T A con respecto de la nueva base P.
1.4 Ecuaciones lineales y eliminación gaussiana

Un sistema de ecuaciones lineales tiene la siguiente forma:
a11 x1 + a12 x2 + · · · + a1n xn = b1

a21 x1 + a22 x2 + · · · + a2n xn = b2
.
· · · · · · · · · · · · = ..
am1 x1 + am2 x2 + · · · + amn xn = bm (1.10)
donde los coeficientes ai j y bi pertenecen al cuerpo F.

Para la resolución de este sistema, se procede a eliminar x1 de la segunda ecuación y las
siguientes, al restar de la ecuación número i un múltiplo apropiado (por un factor −ai1 /a11 )
de la primera ecuación. En seguida, se elimina x2 de la tercera ecuación y las siguientes, al
restar de ellas ciertos múltiplos de la segunda; y ası́ sucesivamente. En el k-ésimo paso, es
posible seguir adelante si el coeficiente actual de xk en la ecuación número k no es cero. En
cambio, si este coeficiente fuera cero, habrı́a que intercambiar esta ecuación con otra más
abajo cuyo coeficiente de xk no es nula, antes de seguir con el proceso de eliminación.8
8 Este algoritmo recibe el nombre de eliminación gaussiana, en parte porque Carl Friedrich Gauß lo usó
para resolver un sistema 6 × 6 durante sus investigaciones sobre la órbita del planeta enano Pallas. Por supuesto,
el método es mucho más antiguo. Aparece en el manuscrito chino Jiuzhang Suanshu (Nueve Capı́tulos sobre el
Arte de Calcular), de autorı́a desconocido, de la época de la dinastı́a Han (∼150 a.C.). Su octavo capı́tulo, Fang
cheng (arreglo cuadrilongo), se dedica al método de eliminación.
Considérese el caso en donde m = n. Si el proceso de eliminación resulta exitoso, se

obtiene un sistema triangular de ecuaciones:
a11 x1 + a12 x2 + · · · + a1n xn = b1

a(2) (2)
22 x2 + · · · + a2n xn = b2
(2)
.
· · · · · · · · · · · · = ..
a(n) (n)
nn xn = bn
con a11 , 0, a(2) (n)

22 , 0, . . . , ann , 0. Entonces se puede despejar las variables xn , xn−1 , . . . , x1
por sustitución regresiva, para obtener una solución única del sistema. En cambio, si alguno
de los pivotes a(k)
kk
se anulara, habrá lugar para otras posibilidades, como la inexistencia de
soluciones o la existencia de más de una solución.
Al resumir la metodologı́a de manipular sistemas de ecuaciones, se ve que los cálculos
admisibles son combinaciones de las siguientes tres operaciones elementales:
(a) multiplicar una ecuación por una constante c , 0;
(b) sustraer de una ecuación un múltiplo de cualquier otra ecuación;
(c) intercambiar dos ecuaciones de la lista.
I El sistema de ecuaciones lineales (1.10) puede escribirse como una sola ecuación matricial:
Ax = b, con A ∈ Fm×n , b ∈ Fm .
Las incógnitas x1 , . . . , xn forman un vector (de columna) x ∈ Fn . Alternativamente, el sistema

puede expresarse como una sola ecuación vectorial en Fm :
x1 a1 + x2 a2 + · · · + xn an = b, (1.11)
en donde los vectores a j ∈ Fm son las columnas de la matriz A. Esta ecuación revela que un
sistema de ecuaciones lineales puede expresar un vector dado b como una combinación lineal
de otros vectores dados a j , y que los coeficientes desconocidos de esa combinación lineal
corresponden a la solución del sistema de ecuaciones. De (1.11) se ve que hay al menos una
solución x al sistema si y sólo si el vector b pertenece al subespacio linha1 , . . . , an i = T A (Fn ).
I La matriz aumentada de la ecuación Ax = b es la matriz [A | b] ∈ Fm×(n+1) , donde se
agrega b como columna suplementaria a la matriz A. Hay tres tipos de operaciones de fila
elementales sobre matrices aumentadas que corresponden a las operaciones elementales sobre
sistemas de ecuaciones:
(a) multiplicar una fila por una constante c , 0;
(b) sustraer de una fila un múltiplo de cualquier otra fila;
(c) intercambiar dos filas.

Si [A | b] es equivalente a [A0 | b0 ] por operaciones de fila, entonces Ax = b si y sólo si

A0 x = b0 , es decir, los sistemas de ecuaciones asociados tienen las mismas soluciones x.
Proposición 1.32. Las operaciones de fila no cambian el rango de una matriz.
Proposición 1.33. Cualquier operación de fila elemental sobre una matriz B ∈ Fm×n se
efectúa por premultiplicación9 B 7→ AB de esa matriz por una matriz cuadrada A ∈ Fm×m .
Demostración. Ad (a): Se multiplica la fila i de B por una constante c , 0 con B 7→ Mi (c)B,

donde
1 0 . . . 0 . . . 0
 
0 1 . . . 0 . . . 0
 .. .. . . .. .. 
 
. . . . . 
Mi (c) =   . (1.12a)
0 0 . . . c . . . 0
 .. .. .. . . .. 
 
 . . . . . 
0 0 ... 0 ... 1
 
Aquı́ Mi (c) es la matriz diagonal con entradas diagonales mii = c y m j j = 1 para j , i.

Ad (b): Se sustrae de la fila bk unas c veces la fila bi con B 7→ Rik (c)B, donde
... . . . 0 . . . 0
 
1 0
 . ... .... .. 
 .. . . . 
. . . 1 . . . 0 . . . 0

0
Rik (c) =  ... .. . . ..
. .
..  k > i.

. .  si (1.12b)
. . . −c . . . 1 . . . 0

0 
 . .. .. . . .. 
 .. . . . . 
... 0 ... 0 ... 1
 
0
Si k , i, Rik (c) tiene entradas rik = −c, r j j = 1 para todo j; sus otras entradas son ceros.
Ad (c): Se intercambian las filas i y k de con B 7→ Pik B, donde
. . . 0 . . . 0 . . . 0
 
1
 . . . .. .. .. 
 .. . . . . 
. . . 0 . . . 1 . . . 0

0
Pik =  ... .. . . ..
. .
..  .

. .  (1.12c)
. . . 1 . . . 0 . . . 0

0 
 . .. .. . . .. 
 .. . . . . 
... 0 ... 0 ... 1
 
0
Las entradas de Pik son: pik = pki = 1, p j j = 1 si j , i, j , k; sus otras entradas son ceros.
9 Como el producto de matrices no es conmutativa, hay que distinguir entre los procesos de premultiplicación
B 7→ AB y posmultiplicación C 7→ CA por una matriz A.

Todas estas matrices son inversibles: por cálculo directo, se ve que
Mi (c)−1 = Mi (1/c), Rik (c)−1 = Rik (−c), ik = Pik .

P−1
Por lo tanto, las operaciones de fila elementales pueden deshacerse por otras operaciones de
fila elementales, ejecutadas mediante premultiplicación por matrices de tipo (1.12).
Por ejemplo, la siguiente eliminación gaussiana:
       
1 3 −1 1  1 3 −1 1  1 3 −1 1  1 3 −1 1 
  
3 4 −4 7  7−→ 0 −5 −1 4  7−→ 0 −5 −1 4  7−→ 0 −5 −1 4 
    
3 6 2 −3 3 6 2 −3 0 −3 5 −6 0 0 28 42
5 −5
es equivalente a la composición de tres premultiplicaciones,
[A | b] 7−→ R23 ( 53 ) R13 (3) R12 (3) [A | b] =: [V | c],
en donde V es una matriz triangular superior. Para revertir el proceso, fı́jese que
−1
[A | b] = R23 ( 35 ) R13 (3) R12 (3) [V | c]
= R12 (−3) R13 (−3) R23 (− 35 )[V | c] =: L [V | c].
Esta matriz L es una matriz triangular inferior:

     
1 0 0 1 0 0 1 0 0 1 0 0
L = 3 1 0 0 1 0 0 1 0 = 3 1 0 .
     
 3   3 
0 0 1 3 0 1 0 5 1 3 5 1
 
El resultado que este proceso de “pivoteo”, en donde se ha empleado únicamente opera-

ciones de fila del segundo tipo,10 es una factorización de la matriz A como A = LV, donde L
es una matriz triangular inferior y V es una matriz triangular superior:
    
1 3 −1 1 0 0 1 3 −1
3 4 −4 = 3 1 0 0 −5 −1 .
    
3 6 2 3 35 1 0 0 28 5
Obsérvese también que las entradas subdiagonales de la matriz L son los múltiplos de filas
escogidos en el proceso de eliminación del sistema de ecuaciones Ax = b. Al guardar cuenta
de dichos múltiplos, se escribe la matriz triangular inferior L sin necesidad de más cálculos.
El sistema V x = c es el resultado de la fase de eliminación. En resumen, el proceso de elimi-
nación gaussiana no solo resuelve el sistema de ecuaciones, sino que además proporciona la
factorización A = LV.
10 Elverbo pivotear, aun no reconocido por la Real Academia Española, viene del francés pivoter: girar en
torno de un punto de apoyo (pivot). En la práctica de la programación lineal, un “pivote” es un elemento no cero
de una matriz que sirve de marcador para luego convertir las demás entradas de su columna en ceros mediante
operaciones de fila del segundo tipo.
La matriz triangular L es “unipotente”, es decir, todas sus entradas diagonales son iguales
a 1. Además, las entradas diagonales a(k)
kk
de V no son ceros. Por tanto, V puede factorizarse a
su vez en un producto V = DU, donde D es la matriz diagonal con dkk = a(k) kk
, y U es la matriz
triangular superior unipotente obtenida al dividir cada fila de V por su entrada diagonal.
De este modo se obtiene la factorización A = LDU, en donde D es diagonal y L, U son
triangulares unipotentes.
I Hay matrices que no admiten este tipo de factorización. La eliminación gaussiana de un
sistema Ax = b es simple si se reduce a un sistema triangular V x = c con operaciones de
fila del segundo tipo solamente. En tal caso, se obtiene A = LV donde L es el producto de
matrices de tipo Rik (−c) con i < k, c ∈ F y las entradas diagonales de V no son ceros.
En el caso contrario, se obtiene a(k)
kk
= 0 para algún k y es necesario intercambiar algunas
filas para continuar con la eliminación. Si (y sólo si) la matriz original A es inversible,
se llegará eventualmente al deseado sistema triangular V x = c. El algoritmo produce una
factorización más general de tipo A = PLV para matrices inversibles, donde P es un producto
de matrices de tipo Pik .
Para obtener esta factorización, se subdivide el algoritmo en pasos: el paso número k
consiste de operaciones de fila con el fin de reemplazar con ceros todas las entradas de la
columna k debajo de la diagonal. Si después de (k − 1) pasos, la entrada (k, k) también es
cero, se busca una fila j con j > k cuya entrada (k, j) no sea cero;11 luego, se intercambian
las filas j y k y se guarda cuenta de la matriz Pk j que registra el cambio de filas. El nuevo
elemento no cero en la posición (k, k) es el pivote a(k)
kk
, y se procede al paso número (k + 1).
El factor P de A es el producto ordenado, de derecha a izquierda,12 de todos los Pk j que
ocurren durante el proceso. Se puede mostrar que la matriz P−1 A admite una eliminación
gaussiana simple, de donde P−1 A = LV. En otras palabras, se puede empezar de nuevo con el
sistema Ax = b, ejecutando al inicio todos los intercambios de fila que serán eventualmente
necesarias, para obtener un sistema P−1 Ax = P−1 b; a partir de allı́, se puede continuar con
operaciones de fila del segundo tipo solamente.13
El algoritmo de eliminación termina sin éxito si en algún paso número k, la entrada dia-
gonal (k, k) es cero y todas las entradas debajo de ésta en la columna k también son ceros. Si
(y sólo si) esto ocurre, el rango de la matriz A es menor que n y por ende A no es inversible.
I En el caso general, en donde A es una matriz rectangular m × n, la existencia y unicidad de
soluciones es dado por la Proposición siguiente.
Proposición 1.34. Si A ∈ Fm×n , el conjunto de soluciones del sistema homogéneo de ecua-

ciones lineales Ax = 0 es el subespacio ker T A ≤ Fn , de dimensión n(A). Hay una solución
única (x = 0, por supuesto) si y sólo si n(A) = 0, si y sólo si r(A) = n.
11 Habrá al menos una fila j que cumple esta condición, si A es inversible. En la práctica, se aconseja elegir j
tal que el valor absoluto de la entrada (k, j) sea el mayor posible.
12 Cada P es su propio inverso, P−1 = P . Por tanto, P−1 es el producto ordenado de los P de izquierda a
kj kj kj kj
derecha. Por ejemplo, si P = P68 P35 P23 , entonces P = P23 P35 P68 .
−1
13 Para un análisis detallado del método de eliminación gaussiana, véase: Gilbert W. Stewart, Introduction to
Matrix Computations, Academic Press, New York, 1973.

El sistema inhomogéneo de ecuaciones lineales Ax = b, con b , 0, posee una solución si y

sólo si b ∈ T A (Fn ), si y sólo si el rango r([A | b]) de la matriz aumentada es igual a r(A). En ese
caso, su conjunto de soluciones { x : Ax = b } es el subespacio afı́n x0 + ker T A , donde x0 es al-
guna solución particular. Luego Ax = b posee solución única si y sólo si r([A | b]) = r(A) = n.
Definición 1.35. Se dice que una matriz A ∈ Fm×n , está en forma escalonada si:
(a) hay algunas columnas iguales a los vectores iniciales de la base estándar de Fm ; es
decir, a j1 = e1 , a j2 = e2 , . . . , a jk = ek para algún k;
(b) estas columnas aparecen en su orden natural: j1 < j2 < · · · < jk ;
(c) si j < j1 , entonces a j = 0; si jr < j < jr+1 , entonces los últimos (m − r) elementos de a j
son ceros; y si j > jk , entonces los últimos (m − k) elementos de a j son ceros.
Las columnas a j1 , . . . , a jk se llaman columnas básicas14 de A.
Una ejemplo de una matriz en forma escalonada es:

 
0 1 2 0 1 7
A = 0 0 0 1 5 2 .
 
0 0 0 0 0 0
 
Aquı́ m = 3, n = 6, k = 2, j1 = 2 y j2 = 4. La última fila consta de ceros. De hecho, es una

consecuencia de la Definición 1.35 que las últimas (m − k) filas son ceros, si k < m.
Proposición 1.36. Cualquier matriz A ∈ Fm×n puede transformarse en una única forma
escalonada mediante operaciones de fila.
Proposición 1.37. Si A ∈ Fm×n es una matriz en forma escalonada con k columnas básicas,
entonces T A (Fn ) = linhe1 , . . . , ek i y por ende r(A) = k.
Proposición 1.38. Dos matrices A, B ∈ Fm×n son equivalentes si y sólo si se puede transfor-
mar A en B por operaciones de fila y de columna, si y sólo si r(A) = r(B).
Proposición 1.39. Si A ∈ Fm×n es una matriz de rango k, hay matrices inversibles Q ∈ Mm (F),
P ∈ Mn (F) tales que " #
Ik O
QAP = ,
O O
en donde cada O es un bloque rectangular de ceros.
Demostración. La matriz A puede reducirse a su forma escalonada B, que contiene k colum-

nas básicas, mediante operaciones de fila solamente. La Proposición 1.33 muestra que hay
una matriz inversible Q tal que QA = B. En seguida, se puede intercambiar columnas para
14 Es evidente que estas columnas forman una base para el subespacio imagen T (Fn ) generado por todas las
A
columnas de A.
colocar las columnas básicas de B en las primeras k posiciones, manteniendo el orden relativo
de las columnas no básicas.
Una operación de columna sobre B puede hacerse como sigue: (i) transponer B 7→ Bt ;
(ii) hacer la correspondiente operación de fila sobre Bt por una premultiplicación Bt 7→ MBt
donde M es una matriz de tipo (1.12); (iii) transponer de nuevo, MBt 7→ BM t . En resumen,
una operación de columna elemental se efectúa al posmultiplicar B por cierta matriz in-
versible. Por tanto, una sucesión de operaciones de columna transforma B en BP0 , donde P0
es una matriz inversible. El resultado de mover las columnas básicas de B a la izquierda es
entonces " # " #
Ik F Ik O
QAP =0
, (QAP ) = t
0 t
,
O O F O
en donde F es un bloque k × (n − k). Si F , O, se aplica eliminación gaussiana simple a la
matriz (QAP0 )t : esto reduce el bloque F t a O. Esta eliminación se obtiene por una premulti-
plicación (QAP0 )t 7→ P00 (QAP0 )t con P00 inversible. Sea P := P0 (P00 )t ; entonces
" #
0 t t Ik O
QAP = (QAP )(P ) = P (QAP ) =
0 00 t 00
.
O O
1.5 Determinantes
# "
a b
El determinante de la matriz cuadrada A := ∈ M2 (F) se define por
c d

a b
det A := := ad − bc ∈ F.
c d
Este es un escalar que determina si la matriz es inversible o no: la matriz es inversible si su

determinante no es cero. En efecto, las identidades
" #" # " #" # " #
a b d −b d −b a b ad − bc 0
= =
c d −c a −c a c d 0 ad − bc
muestran que A es inversible en M2 (F) si y sólo si det A , 0, en cuyo caso

" #−1 " #
a b 1 d −b
= .
c d ad − bc −c a
El determinante de una matriz 3 × 3 puede definirse “por expansión según la primera fila”:

a11 a12 a13
a21 a22 a23 := a11 a22 a23 − a12 a21 a23 + a13 a21 a22
a32 a33 a31 a33 a31 a32
a31 a32 a33
= a11 a22 a23 + a12 a23 a31 + a13 a21 a32 − a11 a23 a32 − a12 a21 a33 − a13 a22 a31 . (1.13a)
Para una matriz cuadrada A =∈ Mn (F), se puede definir el determinante por inducción,
como sigue. Si n = 1, se define det [a11 ] := a11 ∈ F. Supóngase que se dispone de una
definición del determinante para matrices en Mn−1 (F). Si A ∈ Mn (F), sea Ai j —con A mayús-
cula— la submatriz de A obtenida al borrar la fila i y la columna j de A. Cada Ai j es una
matriz (n − 1) × (n − 1). Escrı́base
mi j := det Ai j .
Este escalar mi j se llama el menor de la matriz A correspondiente a la entrada ai j . Obsérvese
que la ecuación (1.13a) puede abreviarse con esta notación:
det A = a11 m11 − a12 m12 + a13 m13 . (1.13b)
Cuando n = 2, es m11 = a22 y m12 = a21 , ası́ que det A = a11 a22 − a12 a21 = a11 m11 − a12 m12 .
Definición 1.40. Si A ∈ Mn (F); se define det A ∈ F por expansión según la primera fila:
n
X
det A := a11 m11 − a12 m12 + · · · + (−1) a1n m1n =
1+n
(−1)1+ j a1 j m1 j , (1.14a)
j=1
o bien por expansión en según fila i:

n
X
det A := (−1) i+1
ai1 mi1 + (−1) i+2
ai2 mi2 + · · · + (−1) i+n
ain min = (−1)i+ j ai j mi j , (1.14b)
j=1
o bien por expansión según la columna j:

n
X
det A := (−1)1+ j a1 j m1 j + (−1)2+ j a2 j m2 j + · · · + (−1)n+ j an j mn j = (−1)i+ j ai j mi j . (1.14c)
i=1
La siguiente Proposición muestra que todas estas definiciones son compatibles, pues con-
ducen al mismo resultado.
Proposición 1.41. Si A ∈ Mn (F), entonces det A, definido por cualquiera de las fórmulas en
(1.14), es igual a
(−1)σ a1 j1 a2 j2 . . . an jn ,
X
det A = (1.15)
σ∈S n
donde la recorre todas las n! permutaciones σ = ( j1 , . . . , jn ) de (1, 2, . . . , n) y el

sumatoria15
σ
signo (−1) = ±1 es +1 ó −1 según la permutación σ sea par o impar.16
15 La fórmula (1.15) se debe a Gottfried Wilhelm Leibniz, quien consideró la condición necesaria para resolver
un sistema inhomogéneo de n ecuaciones de primer grado en (n − 1) variables. Esta condición es la anulación de
la suma alternante de productos que aparece en (1.15). Ası́ se expresó Leibniz en su carta del 28 de abril de 1693,
dirigido al Marquis de l’Hôpital: “Datis aequationibus quotcunque sufficientibus ad tollendas quantitates, quae
simplicem gradum non egrediuntur, pro aequatione prodeunte primo sumendae sunt omnes combinationes pos-
sibiles, quas ingreditur una tantum coefficiens uniuscunque aequationis; secundo eae combinationes opposita
habent signa, si in eodem prodeuntis aequationis latere ponantur, quae habent tot coefficentes communes, quot
sunt unitates in numero quantitatum tollendarum unitate minuto; caeterae habent eadem signa”. La notación
de sumatoria de productos tiende a clarificar esta descripción verbal.
16 Una permutación σ de (1, 2, . . . , n) es par si es el producto de un número par de transposiciones i ↔ j; σ es
impar en el caso contrario. Si σ es el producto de k transposiciones, entonces (−1)σ := (−1)k por definición.
Demostración. Según la fórmula (1.14a), es det A := nj1 =1 (−1)1+ j1 a1 j1 m1 j1 , y además m1 j1 =

P
det A1 j1 es una suma análoga de términos con ±a2 j2 multiplicado por menores correspon-
dientes de la submatriz A1 j1 . Al repetir este argumento (n − 1) veces, det A queda expre-
sado como suma de los productos que aparecen al lado derecho de (1.15), en donde cada
producto contiene un factor tomado de cada fila y de columnas distintas. Hay n términos
en (1.14a), (n − 1) términos en la expansión correspondiente a cada m1 j1 , etc., para un total de
n(n − 1)(n − 2) · · · 3 · 2 = n! términos en la expansión final. La suma de estos productos recorre
todas las permutaciones posibles de (1, 2, . . . , n).
Quedan por determinarse los signos en (1.15). En primer lugar, (−1)1+ j1 es el signo de la
transposición 1 ↔ j1 . Por inducción sobre n, se comprueba que el producto de los diversos ±1
que aparecen en la expansión iterativa de (1.14a) es efectivamente +1 si y sólo si ( j1 , . . . , jn )
es una permutación par de (1, 2, . . . , n).
El mismo argumento se aplica con cualquiera de las recetas (1.14b) ó (1.14c). (En estos
casos, la fila o columna de expansión se puede elegir arbitrariamente en cada iteración de la
expansión.) A lo sumo, podrı́a ocurrir que el resultado final difiere del lado derecho de (1.15)
por un múltiplo global de (±1), que serı́a independiente de la matriz A. Un cálculo explı́cito
muestra que todas las recetas en (1.14) dan +1 como el valor de det In , ası́ que el desarrollo
(1.15) es correcto.
Proposición 1.42. Si A, B ∈ Mn (F), entonces det (AB) = det A det B.
Demostración. Sea C := AB. Por (1.15), det C es una suma de productos ±c1 j1 c2 j2 · · · cn jn .
Cada ck jk es a su vez una suma de términos nik =1 akik bik jk y por ende
P
(−1)σ a1i1 a2i2 . . . anin bi1 j1 bi2 j2 . . . bin jn .

X
det (AB) = (1.16)
Esta suma extiende sobre las permutaciones σ = ( j1 , . . . , jn ) de (1, 2, . . . , n) y sobre toda posi-
bilidad para i1 , . . . , in . Cuando dos de los ik son iguales, la suma σ (−1)σ bi1 j1 bi2 j2 . . . bin jn se
P
anula por cancelación de términos, ası́ que aparecen en (1.16) solamente aquellos términos
en donde τ = (i1 , . . . , in ) es una permutación de (1, 2, . . . , n).
Sea ρ = (r1 , . . . , rn ) la permutación de (1, 2, . . . , n) que transforma cada ik en el jk corres-
pondiente. Entonces σ es la composición de las dos permutaciones τ y ρ, es decir, σ = ρ ◦ τ,
ası́ que (−1)σ = (−1)ρ (−1)τ . En conclusión,
X X
det (AB) = (−1)τ a1i1 a2i2 · · · anin (−1)ρ b1r1 b2r2 · · · bnrn = (det A)(det B).
τ ρ
Proposición 1.43. Las operaciones de fila elementales, aplicadas a una matriz A ∈ Mn (F),
cambian su determinante de las siguientes maneras:
(a) al multiplicar una fila de A por c , 0, se multiplica det A por c también;
(b) al sustraer de una fila de A un múltiplo de otra fila, det A no cambia;
(c) al intercambiar dos filas de A, det A cambia de signo.

Demostración. En vista de la Proposiciones 1.33 y 1.42, es suficiente verificar las igualdades:
det Mi (c) = c, det Rik (c) = 1, det Pik = −1,
donde Mi (c), Rik (c) y Pik son las matrices definidas por (1.12).
Al expandir det A en cualquier fila i de A que tenga 1 en la diagonal y 0 en las demás
entradas, la fórmula (1.14b) muestra que det A = (−1)i+i mii = mii . En consecuencia, se puede
eliminar la fila i y también la columna i de A sin cambiar el determinante.
En las tres matrices definidas en (1.12), se puede eliminar ası́ todas las filas y columnas
excepto aquellas numeradas i y k —para Mi (c), se puede tomar cualquier k con k , i. La
expansión según filas (1.14b) reduce el cálculo de estos determinantes al caso 2 × 2, en donde

1 0 1 0 0 1
det Mi (c) = = c, det Rik (c) = = 1, det Pik = = −1.
0 c −c 1 1 0
Proposición 1.44. Si A ∈ Mn (F), entonces det At = det A.

Demostración. La fórmula (1.15), aplicada a la transpuesta de A, da
(−1)σ a j1 1 a j2 2 . . . a jn n ;
X
det At =
σ∈S n
Sea π = (p1 , . . . , pn ) := σ−1 la permutación recı́proca que lleva cada jk en k. Si σ es el producto

de m transposiciones, π es el producto de las mismas m transposiciones en el orden inverso:
por lo tanto (−1)π = (−1)σ . Luego,
(−1)π a1p1 a2p2 . . . anpn = det A.

X
det A =
t

π∈S n
Proposición 1.45. Si A ∈ Mn (F) es una matriz triangular, entonces det A = a11 a22 . . . ann es el
producto de los elementos diagonales de A. En particular, det In = 1.
Demostración. Supóngase que A es una matriz triangular inferior. La expansión (1.14a)
según la primera fila da det A = a11 m11 . La submatriz A11 también es triangular inferior, y su
determinante es m11 = a22 m12,12 , donde m12,12 es el menor correspondiente a la entrada a22 .
Al repetir este argumento (n − 2) veces, se obtiene

an−1,n−1 0
det A = a11 a22 . . . an−2,n−2 = a11 a22 . . . ann .
an,n−1 ann
El mismo argumento es aplicable si A es triangular superior (o bien se puede apelar a la

Proposición anterior).
Proposición 1.46. Si A ∈ Mn (F) y si dos filas de A son iguales; o bien si dos columnas de A
son iguales; o bien si una fila o una columna de A es nula, entonces det A = 0.
Proposición 1.47. det A = 0 si y sólo si A es singular (es decir, no inversible).
Demostración. Si A es inversible, tenemos 1 = det In = (det A)(det A−1 ), ası́ que det A no
puede ser cero.
Considérese el efecto de aplicar a la matriz A unos k pasos del algoritmo de eliminación
gaussiana, con intercambio de filas cuando sea necesario, usando las operaciones de fila del
segundo y tercer tipos. El resultado de este proceso es una matriz de la forma
" 0
U X0
#
A =
0
, con U 0 ∈ Mk (F), Y 0 ∈ Mn−k (F),
O Y0
donde U 0 es triangular superior y sus elementos diagonales son los pivotes a11 , a(2) (k)
22 , . . . , akk ;
O es un bloque rectangular (n − k) × k de ceros; y X 0 es una matrix k × (n − k). La Proposición
1.43 muestra que det A0 = ± det A. Al expandir det A0 según la primera columna k veces, se
obtiene
det A0 = a11 a(2) (k)
22 . . . akk det Y .
0
Si A no es inversible, el algoritmo de eliminación gaussiana se detiene en algún paso

número k, con k ≤ n, porque a(k)kk
= 0. Entonces det A0 = 0 y por ende det A = 0.
Por otro lado, si A es inversible, se puede ejecutar n pasos de la eliminación, hasta llegar
al último pivote a(n)
nn , 0. Esto conduce a una importante fórmula para el determinante de una
matriz inversible:
det A = (−1)r a11 a(2) (n)
22 . . . ann , 0, (1.17)
donde r es el número de intercambios de filas que ocurren en la eliminación.
En términos de la factorización A = PLV discutido anteriormente, se puede notar que
det P = (−1)r , det L = 1 por ser L una matriz triangular unipotente, det V = a11 a(2) (n)
22 . . . ann por
ser V triangular superior con los pivotes en la diagonal.
I Las matrices rectangulares que no son cuadradas no tienen determinantes. Sin embargo, a
veces vale la pena considerar los determinantes de sus submatrices cuadradas.
Proposición 1.48. Sea A ∈ Fm×n . Su rango r(A) es el mayor entero k tal que A posee una
submatriz B de dimensiones k × k con det B , 0.
Demostración. Sea k = r(A). Entonces hay k columnas linealmente independientes en A

(aquéllas que se convierten en columnas básicas al aplicar operaciones de fila para reducir A
a su forma escalonada). Sea C la submatriz m × k de A que se obtiene al borrar las demás
columnas de A.
Ahora r(C t ) = r(C) = k; luego C tiene k filas linealmente independientes. Sea B la sub-
matriz k × k de C (y por ende de A) que se obtiene al borrar las demás filas de C. Entonces
B ∈ Mk (C) con r(B) = k, ası́ que B con det B , 0.
Si k < min{m, n}, sea D una submatriz (k + 1) × (k + 1) de A. Las columnas de D forman
parte de (k + 1) columnas de A, que cumplen una relación de dependencia lineal. Luego las
columnas de D cumplen una relación de dependencia lineal también (¿por qué?) ası́ que D
es singular y det D = 0.
I La solución de un sistema de ecuaciones lineales, cuyo número de incógnitas es igual al

número de ecuaciones, puede expresarse mediante determinantes. La fórmula correspon-
diente se llama la regla de Cramer.17 En la práctica, es un método ineficiente para sistemas
con más de tres variables; pero tiene importancia teórica. Por ejemplo, muestra que un sis-
tema de ecuaciones con coeficientes enteros tiene soluciones racionales.
Definición 1.49. Sea A ∈ Mn (F) una matriz cuadrada. El cofactor de su entrada ai j es

(−1)i+ j m ji , donde el menor m ji = det A ji es el determinante de la submatriz A ji obtenida
al remover la fila j y la columna i de A. Fı́jese que mi j = det ((At )i j ) es también un menor de
la matriz transpuesta At .
La matriz adj A ∈ Mn (F), cuya entrada (i, j) es el cofactor de ai j , es la matriz adjugada18
de A. Para obtenerla, es cuestión de (i) reemplazar cada elemento ai j de A por el menor mi j ;
(ii) multiplicar cada entrada por el signo (−1)i+ j que corresponde a su lugar en el “tablero de
ajedrez”; (iii) tomar la matriz transpuesta de ésta.
" # " #
a b d −b
Obsérvese, en particular, que adj = .
c d −c a
Proposición 1.50. Si A ∈ Mn (F), entonces
A (adj A) = (adj A) A = (det A) In . (1.18)
Demostración. Obsérvese primero que la fórmula (1.14b) corresponde al producto de la fila i

de A por la columna i de (adj A). Por otro lado, la fórmula (1.14c) representa el producto de
la fila j de (adj A) por la columna j de A. En conjunto, estas dos fórmulas expresan que todo
elemento diagonal de los productos A (adj A) y (adj A) A es igual a det A.
Al multiplicar la fila k de A por la columna i de (adj A), con k , i, se obtiene
n
X
(−1)i+1 ak1 mi1 + (−1)i+2 ak2 mi2 + · · · + (−1)i+n akn min = (−1)i+ j ak j mi j . (1.19)
j=1
Esta es el determinante de la matriz A0 obtenida al reemplazar la fila i de A por su fila k.

Entonces las filas i y k de A0 son iguales, ası́ que det A0 = 0 por la Proposición 1.46. Luego la
expresión (1.19) vale 0 cuando k , i. De igual modo, el producto punto de la fila l de A por
la columna j de (adj A), con l , j, se anula. Luego, la entrada (i, j) de A (adj A) o de (adj A) A
es (det A) [[i = j]]; lo cual comprueba (1.18).
17 Esta regla, aparentemente independiente del trabajo anterior de Leibniz, aparece por primera vez en:
Gabriel Cramer, Introduction à l’Analyse des Lignes Courbes Algébriques, Ginebra, 1750. El japonés Takakazu
Seki, contemporáneo de Leibniz, ya habı́a dado el caso 3 × 3, en 1683.
18 La matriz adj A a veces se llama la “matriz adjunta” de A. Sin embargo, cuando F = C, conviene reservar
ese término para el conjugado hermı́tico A∗ , que se verá en adelante. Algunos autores lo llaman el “adjunto
clásico” de A; véase, por ejemplo: Kenneth Hoffman y Ray Kunze, Algebra Lineal, Prentice-Hall Internacional,
Madrid, 1972. Aquı́ se adopta el convenio de usar la palabra adjugada, una mezcla inelegante de “adjunta” y
“conjugada”, con las disculpas apropiadas.
La fórmula (1.18) proporciona una fórmula para la matriz inversa de una matriz no sin-
gular A. Si det A , 0, entonces
1
A−1 = adj A.
det A
En el caso 2 × 2, esta relación es
" #−1 " #
a b 1 d −b
= .
c d ad − bc −c a
Proposición 1.51 (Regla de Cramer). Sean A ∈ Mn (F), b ∈ Fn . Para cada j = 1, . . . , n, sea

B j := [a1 . . . a j−1 b a j+1 . . . an ] la matriz obtenida de A al reemplazar su columna a j por b.
Entonces el sistema de ecuaciones Ax = b tiene solución única x ∈ Fn si y sólo si det A , 0,
en cuyo caso
det B j
xj = , para j = 1, . . . , n. (1.20)
det A
Demostración. Ya se sabe que Ax = b tiene solución única sólo si Ax = 0 tiene solución
única, sólo si ker T A = {0}, sólo si n(A) = 0, sólo si r(A) = n, sólo si A es inversible, sólo si
det A , 0. Por otro lado, si det A , 0, entonces x = A−1 b es la solución única.
Si det A , 0, al premultiplicar ambos lados de la ecuación Ax = b por (adj A), se obtiene
la ecuación
(det A) x = (adj A) b.
Para cada j, las coordenadas j de estos dos vectores de columna son
n
X
(det A)x j = (fila j de adj A) · b = (−1)i+ j mi j bi = det B j ,
i=1
al usar la expansión (1.14c) en la columna j para evaluar det B j . Al dividir esta relación por
det A, se obtiene (1.20).
1.6 Ejercicios sobre espacios vectoriales y matrices

Ejercicio 1.1. (a) Demostrar que los tres vectores (1, 1, 0), (1, 1, 1), (0, 1, −1) son linealmente
independientes en R3 . Expresar los vectores e1 , e2 , e3 de la base estándar como combina-
ciones lineales de ellos.
(b) Demostrar que los tres polinomios 12 t(t − 1), 1 − t2 , 12 t(t + 1) son linealmente indepen-
dientes en Q[t]. Expresar los monomios 1, t, t2 como combinaciones lineales de ellos.
Ejercicio 1.2. Si p, q, r, s ∈ R son distintos, demostrar que los cuatro vectores
(1, 1, 1, 1), (p, q, r, s), (p2 , q2 , r2 , s2 ), (p3 , q3 , r3 , s3 )
son linealmente independientes en R4 . [[ Indicación: El polinomio a0 + a1 t + a2 t2 + a3 t3 , si no

es el polinomio nulo, no puede tener más de tres raı́ces distintas. ]]
Ejercicio 1.3. Sea V = C[−π, π] el espacio vectorial de funciones continuas f : [−π, π] → R.

Para cada n ∈ N, defı́nase fn ∈ V por fn (x) := cos nx. Demostrar que Rel conjunto { fn : n ∈ N }
π
es linealmente independiente en V. [[ Indicación: Evaluar la integral −π cos mx cos nx dx. ]]
Ejercicio 1.4. Demostrar que {1, (t − 1), (t − 1)2 , . . . , (t − 1)n } es una base para el espacio vec-
torial Fn [t] de polinomios de grado no mayor que n.
Ejercicio 1.5. Un monomio en k variables t1 , . . . , tk es un producto c t1m1 t2m2 . . . tkmk ; su grado es

la suma m1 + · · · + mk de los exponentes. Un polinomio homogéneo de grado m es una suma
finita de monomios de grado m; ellos forman un espacio vectorial P(k) m . ¿Cuál es la dimensión
(k)
de Pm ?
Ejercicio 1.6. Sea V un espacio vectorial finitodimensional sobre F y sean M, N dos subes-
pacios de V. Demostrar que su intersección M ∩ N y su suma M + N son también subespacios
de V. Verificar la fórmula
dim(M + N) = dim M + dim N − dim(M ∩ N).
[[ Indicación: Elı́jase una base para M ∩ N y completarla de dos maneras para formar bases
de M y de N. Verificar que la unión de estas dos bases es una base para M + N. ]]
Ejercicio 1.7. Si L, M, N son tres subespacios de un espacio vectorial finitodimensional V,

comprobar que dim(L + M + N) es igual a
dim L + dim M + dim N − dim(L ∩ M) − dim(L ∩ N) − dim(M ∩ N) + dim(L ∩ M ∩ N).
Ejercicio 1.8. (a) Sean c0 , c1 , . . . , cn ∈ F escalares distintos y sean { πk : k = 0, 1, . . . , n } los

polinomios en Fn [t] dados por
(t − c0 ) . . . (t − ck−1 )(t − ck+1 ) . . . (t − cn )
πk (t) := .
(ck − c0 ) . . . (ck − ck−1 )(ck − ck+1 ) . . . (ck − cn )
Ellos son los polinomios interpolativos de Lagrange para los “nudos” c0 , c1 , . . . , cn . Verificar
que πk (c j ) = [[k = j]].
(b) Concluir que {π0 (t), π1 (t), . . . , πn (t)} es una base para Fn [t].
(c) Demostrar que la base dual de Fn [t]∗ consta de las evaluaciones f j : Fn [t] → F definidas
por f j (p(t)) := p(c j ).
Ejercicio 1.9. Encontrar los subespacios ker T y T (R3 ) y las dimensiones n(T ) y r(T ), si
T ∈ L(R3 , R3 ) y la matriz de T respecto de la base estándar {e1 , e2 , e3 } es
 
1 2 3
A := 2 4 6 .
 
3 6 9
 
Ejercicio 1.10. Si T ∈ L(V, W), S ∈ L(W, Z), demostrar las siguientes relaciones entre núcleos
e imágenes:
ker(S T ) ⊇ ker T, S T (V) ⊆ S (W),
ker((S T )t ) ⊇ ker(S t ), (S T )t (Z ∗ ) ⊆ T t (W ∗ ).
Concluir que r(S T ) ≤ r(S ) y que r(S T ) ≤ r(T ).
Ejercicio 1.11. (a) Si V, W son espacios vectoriales finitodimensionales con dim V > dim W,
y si T ∈ L(V, W), demostrar que T no es inyectivo.
(b) Sea C[a, b] := { f : [a, b] → R continua }. Defı́nase T : C[a, b] → C[a, b] por
Z x
(T f )(x) := f (y) dy.
a
Demostrar que T es lineal e inyectiva, pero no sobreyectiva. Concluir que C[a, b] es infini-
todimensional sobre R.
Ejercicio 1.12. Si A ∈ Mn (F) es una matriz inversible, demostrar que (At )−1 = (A−1 )t . Con-
cluir que A−1 es simétrica cuando A es simétrica.
Ejercicio 1.13. Calcular (por inducción sobre n) las potencias An , Bn , C n de las siguientes
matrices:
 
" # a 1 0 " #
a 1 1 a
A := , B := 0 a 1 , C := , donde a ∈ F.
 
0 a 0 1
0 0 a
 
Ejercicio 1.14. La base estándar para M2 (F) es E := {E11 , E12 , E21 , E22 }, donde
" # " # " # " #
1 0 0 1 0 0 0 0
E11 = , E12 = , E21 = , E22 = .
0 0 0 0 1 0 0 1
" #
a b
Si M = , defı́nase L M (A) := MA, R M (A) := AM y T (A) := At . Demostrar que L M , R M
c d
y T son aplicaciones lineales de M2 (F) en sı́ mismo y calcular sus matrices 4 × 4 con respecto
a la base estándar.
Ejercicio 1.15. Sea A una matriz triangular superior con ceros en la diagonal:
0 a12 a13 . . . a1n 
 
23 . . . a2n 
0 0 a 

A := 0 0 0 . . . a3n  ,
 
 .. .. .. . . . 
 . . . . .. 
0 ... 0

0 0
ası́ que ai j = 0 para i ≥ j. Demostrar que An = O. Concluir que In + A es inversible, con
(In + A)−1 = In − A + A2 − · · · + (−1)n−1 An−1 .
 
1 a b
Usar esta relación para calcular el inverso de la matriz 0 1 c.
 
0 0 1
 
Ejercicio 1.16. Resolver el sistema de ecuaciones
x1 + x2 + x3 = 0
3x1 + 3x2 + 4x3 = 2
x1 + 2x2 + x3 = −4
por el método de eliminación gaussiana con intercambio de filas. Escribir la factorización

A = PLV de la matriz de coeficientes.
Ejercicio 1.17. Resolver el sistema de ecuaciones Ax = b, con

   
2 1 0 0 2
1 2 1 0 1
A :=   , b :=   ,
0 1 2 1 4
 
0 0 1 2 8
por el método de eliminación gaussiana. Usar el resultado del cálculo para escribir explı́cita-
mente las matrices L, D, U de la factorización A = LDU.
Ejercicio 1.18. Convertir cada uno de estas matrices en la forma escalonada equivalente:
 
   2 −1 3 1 1 
 1 2 0 2 1  −1 0 −2 1 −3
A = −1 −2 1 1 0  , B =   .
 
1 2 −1 −4 3 
1 2 −3 −7 −2
  
 
3 2 −2 −3 −1
Ejercicio 1.19. Calcular r(A), encontrar una base para el espacio de soluciones de Ax = 0 y
describir el conjunto de soluciones de Ax = b, donde
 
 1 −1 2 0 3 −1
 0 2 1 3 1 −4
[A | b] :=   .
 −1 1 5 1 0 3 

−1 0 1 −1 −2 4
Ejercicio 1.20. Demostrar que cada matriz de rango k es una suma de k matrices de rango 1.
[[ Indicación: Usar la Proposición 1.39. ]]
Ejercicio 1.21. Verificar la identidad

x 1 0 0 0
4 x 2 0 0
0 = x(x2 − 4)(x2 − 16).

0 3 x 3

0 0 2 x 4
0 0 0 1 x

Ejercicio 1.22. Verificar el determinante de Vandermonde19
1 x x2 x3

1 y y2 y3
2 = (x − y)(x − z)(x − w)(y − z)(y − w)(z − w).
z3

1 z z
1 w w2 w3
[[ Indicación: Usar eliminación gaussiana. ]]

Ejercicio 1.23. Verificar (por eliminación gaussiana) que

1 1 1 1 1 1
1 1 1 −1 −1 −1

1 1 −1 −1 1 1 = −160.
1 −1 −1 1 −1 1
1 −1 1 −1 1 1

1 −1 −1 1 1 −1
Ejercicio 1.24. Si A ∈ Mm (F), B ∈ Fm×n , C ∈ Fn×m y D ∈ Mn (F), demostrar que

" # " #
A B A O
det = det = (det A)(det D),
O D C D
si en ambos casos O representa un rectángulo de ceros.
Ejercicio 1.25. Sea Un ∈ Mn (F) la matriz cuadrada cuyas entradas son todas iguales a 1.
Demostrar que
det (Un − In ) = (−1)n−1 (n − 1), det (Un + In ) = n + 1.
Ejercicio 1.26. Obtener el rango de la matriz

 
3 5 1 4
A := 2 −1 1 1
 
5 4 2 5
 
por (a) cálculo de menores; (b) cambio a forma escalonada.

Ejercicio 1.27. Se puede definir el determinante de una aplicación lineal T ∈ L(V, V) por
det T := det A, donde A la matriz de T respecto de alguna base de V. Comprobar que esta
definición es consistente: esto es, si B es la matriz de T respecto de otra base de V, verificar
que det B = det A.
19 En 1770, Alexandre Vandermonde escribió un ensayo sobre la solución general de una ecuación polinomial
de grado n. Sus ideas fueron generalizadas en el trabajo de Joseph-Louis Lagrange, “Réflexions sur la résolution
algébrique des équations”, Mémoirs de l’Academie Royale des Sciences et Belles-Lettres de Berlin, 1771.
Lagrange quiso expresar las soluciones como combinaciones de las raı́ces n-ésimas de 1 (llamados “resolventes
de Lagrange”) y para despejar los coeficientes usó un determinante cuyas columnas son potencias sucesivas de
la segunda columna. Posteriormente, la autorı́a de este determinante fue atribuido a Vandermonde.
Ejercicio 1.28. Calcular la matriz adjugada (adj A) y la matriz inversa A−1 para
 
 1 −1 2
A :=  0 2 3 .
 
−2 3 1
 
Ejercicio 1.29. (a) Si A ∈ Mn (F) con n ≥ 2, demostrar que det (adj A) = (det A)n−1 .
(b) Concluir que adj(adj A) = (det A)n−2 A si n ≥ 3.
[[ Indicación: Considerar el producto de matrices A (adj A) adj(adj A). ]]
" #
A b
n
Ejercicio 1.30. Si A ∈ Mn (F), b, c ∈ F y d ∈ F, sea t la matriz (n + 1) × (n + 1) formado
c d
al bordear A por la columna b, la fila ct y la entrada d. Demostrar que
" #
A b
det t = d det A − ct (adj A)b.
c d
Ejercicio 1.31. Resolver este sistema de ecuaciones por la regla de Cramer:
x1 + 4x2 − x3 = 1
x1 + x2 + x3 = 0
2x1 + 3x3 = 0 .
Ejercicio 1.32. (a) Sean (x, y) las coordenadas de un punto en R2 . Demostrar que la recta que
pasa por dos puntos (x1 , y1 ) y (x2 , y2 ) tiene la ecuación

1 x y
1 x1 y1 = 0.

1 x2 y2
(b) Demostrar que el cı́rculo que pasa por tres puntos (x1 , y1 ), (x2 , y2 ) y (x3 , y3 ) tiene la
ecuación
x y x2 + y2

1
x1 y1 x12 + y21
1
= 0.
x2 y2 x22 + y22

1
x3 y3 x32 + y23

1
[[ Indicación: Comprobar que esta ecuación representa un cı́rculo y luego que pasa por los
tres puntos dados. ]]
2 Estructura de Aplicaciones Lineales

El álgebra lineal consiste mayormente en el estudio de las propiedades de aplicaciones lin-
eales. En este capı́tulo se analizará la estructura de una aplicación lineal de un espacio vecto-
rial V en sı́ mismo. Mucho depende de si V posee alguna estructura extra, como por ejemplo
un producto escalar: el siguiente capı́tulo abordará ese caso. Por ahora, se considera la
situación en donde V es finitodimensional, sin usar un concepto de ortogonalidad. A cada
aplicación lineal se le asocia unos polinomios que sirven para revelar su estructura.
2.1 Autovalores y autovectores

Definición 2.1. Sea V un espacio vectorial sobre un cuerpo F. Un operador lineal sobre V es
una aplicación lineal T : V → V. El espacio vectorial L(V, V) de todos los operadores lineales
sobre V se denotará por EndF (V), o bien por End(V) cuando el cuerpo F es implı́cito del
contexto.1
El espacio vectorial End(V) es también un anillo, cuya operación multiplicativa es la
composición de operadores. En efecto, si R, S , T ∈ End(V), entonces R(S T ) = (RS )T (aso-
ciatividad); la aplicación identidad I : x 7→ x cumple IT = T I = T ; y las leyes distributivas
T (R + S ) = T R + T S y (R + S )T = RT + S T también se cumplen. Además, la composición
de operadores es compatible con la multiplicación escalar: c(S T ) = (cS )T = S (cT ) para
S , T ∈ End(V) y c ∈ F, ya que estas tres expresiones llevan x ∈ V en c S (T (x)) ∈ V. En otras
palabras, End(V) es un álgebra sobre F.
Definición 2.2. Sea V un espacio vectorial sobre F y sea T ∈ End(V). Un autovalor de T es

un escalar λ ∈ F tal que la ecuación
T (x) = λ x (2.1)
tenga una solución x , 0. Un vector no nulo2 x ∈ V que cumple (2.1) se llama un autovector
asociado al autovalor λ.
Algunos autores dicen valor propio en vez de “autovalor” y vector propio en vez de
“autovector”.3
Si B = {x1 , . . . , xn } es una base (ordenada) de V, la expansión x = c1 x1 + · · · + cn xn deter-

mina un isomorfismo lineal V → Fn : x 7→ c = [x]B dado por (1.3). A su vez, la fórmula (1.6)
1 Una aplicación lineal de V en sı́ mismo recibe el nombre de endomorfismo de V. Hay que advertir que este
término se vuelve ambiguo cuando el espacio vectorial V posee más estructura (un producto, por ejemplo), en
cuyo caso se podrı́a demandar que un endomorfismo de V en V preserva todas sus operaciones algebraicas. Para
evitar esa clase de discusiones, se emplea el término operador lineal en vez de “endomorfismo” en este texto.
2 La ecuación T (x) = λ x tiene la solución trivial x = 0 cualquiera que sea el coeficiente λ. Se descarta siempre
la solución trivial: el vector 0 nunca puede ser autovector de un operador lineal.

3 La terminologı́a viene en primera instancia del alemán, donde David Hilbert empleó la palabra Eigenwert
en 1904 en un artı́culo sobre ecuaciones integrales: Eigen = auto, wert = valor. (Huyan de las malas traduc-
ciones que hablan de “eigenvalores” y “eigenvectores”.) La usanza moderna aparece en: John von Neumann,
“Allgemeine Eigenwerttheorie Hermitescher Funktionaloperatoren”, Mathematische Annalen 102 (1929), 49–
131. Von Neumann declara: Ein Eigenwert ist eine Zahl λ, zu der es eine Funktion f , 0 mit R f = λ f gibt; f ist
dann Eigenfunktion.
es aplicable con la misma base en el dominio y el codominio de T , es decir,

n
A = [T ]B
X
T (x j ) =: ai j xi , B. (2.2)
i=1
Por la discusión después de la Definición 1.27, se sabe que [T (x)]B = A [x]B , de modo que
las correspondencias T ↔ A ↔ T A establecen isomorfismos lineales entre End(V), Mn (F)
y End(Fn ). Además, estas correspondencias convierten la composición de operadores en
multiplicación de matrices y viceversa, de modo que estas tres F-álgebras son isomorfos
como álgebras sobre F.
Ası́ las cosas, cada propiedad de aplicaciones lineales induce una propiedad paralela de
matrices. Por ejemplo, las matrices pueden poseer autovalores y autovectores.
Definición 2.3. Sea A ∈ Mn (F) una matriz cuadrada. Un autovalor de A es un autovalor de
T A , es decir, un escalar λ ∈ F tal que la ecuación
Ax = λ x
tenga una solución x , 0 en Fn . Un vector no nulo x ∈ Fn tal que Ax = λ x es un autovector
de A asociado al autovalor λ.
Lema 2.4. Sea V un espacio vectorial finitodimensional sobre F. Para un operador lineal
T ∈ End(V) y λ ∈ F, son equivalentes las siguientes condiciones:
(a) λ es un autovalor de T ;
(b) el operador lineal (T − λI) no es inversible en End(V);
(c) ker(T − λI) , {0}.
Demostración. (a) ⇐⇒ (b): Un escalar λ es un autovalor de T si y sólo si hay x ∈ V con
x , 0 y T (x) = λx, si y sólo si hay x , 0 tal que (T − λI)(x) = 0, si y sólo si (T − λI) no
es inyectivo, si y sólo si (T − λI) no es biyectivo. Esta última equivalencia se debe a que
n(T − λI) + r(T − λI) = dim V; por lo tanto, un operador lineal es inyectivo si y sólo si es
sobreyectivo.4
(b) ⇐⇒ (c): Hay un vector x , 0 tal que (T − λI)(x) = 0 si y sólo si hay x ∈ ker(T − λI)
con x , 0.
Lema 2.5. Para una matriz cuadrada A ∈ Mn (F) y λ ∈ F, son equivalentes las siguientes
condiciones:
(a) λ es un autovalor de A;
(b) la matriz (A − λIn ) no es inversible en Mn (F);
(c) det (A − λIn ) = 0.
4 Estaconclusión depende de la finitud de dim V, para que las igualdades n(T − λI) = 0 y r(T − λI) = dim V
sean equivalentes. Sobre espacios vectoriales de dimensión infinita, hay operadores lineales inyectivas pero no
sobreyectivas. Véase el Ejercicio 1.11, por ejemplo.
Demostración. La equivalencia (a) ⇐⇒ (b) sigue del lema anterior, para el caso T = T A . La
equivalencia (b) ⇐⇒ (c) sigue de la Proposición 1.47.
Corolario 2.6. Si A ∈ Mn (F) es una matriz triangular, sus autovalores son sus elementos
diagonales a11 , a22 , . . . , ann .
Demostración. Supóngase que A es triangular superior, es decir, ai j = 0 para i > j. Si λ es
un autovalor de A, entonces det (A − λIn ) = 0 o bien, lo que es lo mismo, det (λIn − A) = 0.
Explı́citamente,
λ − a11 −a12 . . . −a1n

0 λ − a22 . . . −a2n
det (λIn − A) = .. .. .. .. = (λ − a11 )(λ − a22 ) . . . (λ − ann ),
. . . .
0 0 . . . λ − ann

porque la matriz λIn − A también es triangular superior. Entonces λ es un autovalor de A si y

sólo si λ − akk = 0 para algún k, si y sólo si λ ∈ {a11 , a22 , . . . , ann }.
En el caso de que A sea una matriz triangular inferior, la demostración es similar.
Definición 2.7. Si A ∈ Mn (F) es una matriz cuadrada, el polinomio caracterı́stico de A se
define por
pA (t) := det (t In − A) = (−1)n det (A − t In ). (2.3)
Por ejemplo, si n = 4, el polinomio caracterı́stico de A viene dado por

t − a11 −a12 −a13 −a14 a11 − t a12 a13 a14

−a21 t − a22 −a23 −a24 a21 a22 − t a23 a24
pA (t) = = .
−a31 −a32 t − a33 −a34 a31 a32 a33 − t a34
−a41 −a42 −a43 t − a44 a41 a42 a43 a44 − t

Los procedimientos de cálculo de determinantes muestran que pA (t) es un polinomio de

grado n. Por ejemplo, la fórmula de Leibniz (1.15) muestra que
pA (t) = (t − a11 )(t − a22 ) . . . (t − ann ) + otros términos,
donde cada uno de los “otros términos” es un producto de (±1) por n entradas de la matriz
t In − A, de las cuales a lo sumo (n − 2) entradas pueden ser diagonales: esta parte forma un
polinomio de grado no mayor que (n − 2). Entonces se ve que
pA (t) = tn − (a11 + a22 + · · · + ann ) tn−1 + · · · .
[[ La Proposición 2.16, más adelante, ofrece fórmulas para todos los coeficientes de pA (t). ]]
El polinomio pA (t) es un polinomio mónico,5 es decir, su primer coeficiente no nulo es 1.
5 Algunos autores definen pA (t) := det (A − t In ). Bajo ese convenio, el primer coeficiente no nulo serı́a (−1)n .
No es mucha la diferencia; sin embargo, es más cómodo elegir el signo de manera que el polinomio caracterı́stico
sea mónico.
Lema 2.8. Si A, B ∈ Mn (F) son dos matrices semejantes, entonces det B = det A.
Demostración. Las matrices A y B son semejantes si y sólo si hay una matriz inversible P tal
que B = P−1 AP. Ahora det P−1 = 1/(det P) porque (det P−1 )(det P) = det (P−1 P) = det In = 1.
Entonces
det B = det (P−1 AP) = (det P−1 )(det A)(det P) = det A.
Corolario 2.9. Si A, B ∈ Mn (F) son matrices semejantes, entonces pB (t) = pA (t).
Definición 2.10. Si V es un espacio vectorial de dimensión finita sobre F y si T ∈ End(V),
su determinante det T ∈ F se define por det T := det [T ]B B
, donde B es una base cualquiera
de V.
El escalar det T está bien definida, porque si A = [T ]B
B
y B = [T ]CC son las matrices de T
con respecto a dos bases distintas B, C de V, entonces la matriz de cambio de base P = [I]B C
es inversible, con inverso P−1 = [I]CB ; por tanto,
B = [T ]CC = [I]CB [T ]B B
B [I]C = P AP
−1
(2.4)
y del Lema 2.8 se concluye que det B = det A.
Definición 2.11. Sea T ∈ End(V) un operador lineal sobre un espacio vectorial finitodimen-
sional V. El polinomio caracterı́stico de T es el polinomio pT (t) ∈ F[t] definido por
pT (t) := det (t I − T ) = (−1)dim V det (T − t I). (2.5)
Proposición 2.12. Si A ∈ Mn (F) es una matriz cuadrada, los autovalores de A son las raı́ces
de su polinomio caracterı́stico pA (t). Por lo tanto, A posee a lo sumo n autovalores distintos.
Demostración. El Lema 2.5 dice que λ es un autovalor de A si y sólo si pA (λ) = 0.
Ejemplo 2.13. Considérese la siguiente matriz J ∈ M2 (F):
" #
0 1
J= . (2.6)
−1 0

t −1 2
Su polinomio caracterı́stico es = t + 1. Ahora, si F = R ó Q, el polinomio t2 + 1 es
1 t
irreducible6 y no posee raı́ces en F. Este es un ejemplo de una matriz que no posee autovalor
alguno en F.
Por otro lado, si F = C, la factorización t2 + 1 = (t − i)(t + i) muestra que {i, −i} podrı́an ser
autovalores de J. Es fácil adivinar un par de autovectores en C2 , para verificar que i y −i son
en efecto autovalores de J; por ejemplo,
" #" # " # " # " #" # " # " #
0 1 1 i 1 0 1 1 −i 1
= =i , = = −i .
−1 0 i −1 i −1 0 −i −1 −i
6 En el caso F = F p := {0, 1, . . . , p − 1}, el cuerpo finito de residuos módulo división por un entero primo p,
la existencia de raı́ces de t2 + 1 en F p es un tema interesante de la teorı́a de números. Se sabe que −1 es un
cuadrado módulo p si y sólo si p = 2 o bien p = 4m + 1 para algún m ∈ N.
En general, la búsqueda de autovectores es un asunto be encontrar soluciones no triviales

de sistemas de ecuaciones lineales homogéneas.
Ejemplo 2.14. El polinomio caracterı́stico de la matriz
 
1 0 2 
A = 0 −1 −2
 
2 −2 0
 
se obtiene del cálculo

t − 1 0 −2
λ + 1 2

0 t + 1

pA (t) = det (tI3 − A) = 0 t + 1 2 = (t − 1)

− 2
2 t −2 2
−2 2 t
= (t − 1)(t2 + t − 4) − 2(2t + 2) = t3 − 9t
= t(t − 3)(t + 3).
Luego pA (t) = t3 − 3t, con raı́ces λ = 0, 3, −3; estos son los tres autovalores de A.
Ahora bien: para obtener los autovectores correspondientes, hay que resolver (por elimi-
nación gaussiana) los tres sistemas de ecuaciones de ecuaciones homogéneas (λI3 − A)x = 0
para λ = 0, 3, −3 respectivamente. En cada caso, se cambia la matriz aumentada [λI3 − A | 0]
a la forma [V | 0] con V triangular superior mediante operaciones de fila y se resuelve la
ecuación V x = 0 por “sustitución regresiva”. En cada caso, la última fila de [V | 0] es nula,
que corresponde a la ecuación trivial 0x3 = 0, con lo cual la variable x3 queda libre: el auto-
vector queda determinado hasta el múltiplo x3 . En detalle:
     
−1 0 −2 0 −1 0 −2 0 −1 0 −2 0
Caso λ = 0 :  0 1 2 0 7−→  0 1 2 0 7−→  0 1 2 0 ;
     
−2 2 0 0 0 2 4 0 0 0 0 0
en cuyo caso (leyendo las filas de abajo para arriba),
   
−2x3  −2
0x3 = 0, x2 + 2x3 = 0, −x1 − 2x3 = 0 =⇒ x = −2x3  = x3 −2 .
   
x3 1
   
Además,
     
 2 0 −2 0 2 0 −2 0 2 0 −2 0
Caso λ = 3 :

 0 4 2 0 −
7 → 0 4 2 0 − 7 → 0 4 2 0 ;
    
 
−2 2 3 0 0 2 1 0 0 0 0 0
 
cuya solución es
   
 x3  2
 1  1  
0x3 = 0, 4x2 + 2x3 = 0, 2x1 − 2x3 = 0 =⇒ x = − 2 x3  = 2 x3 −1 .
2
   
x3
Seguidamente,
     
−4 0 −2 0 −4 0 −2 0 −4 0 −2 0
Caso λ = −3 :  0 −2 2 0 7−→  0 −2 2 0 7−→  0 −2 2 0 ;

    
−2 2 −3 0 0 2 −2 0 0 0 0 0
cuya solución es
 1   
− 2 x3  −1
 1  
0x3 = 0, −2x2 + 2x3 = 0, −4x1 − 2x3 = 0 =⇒ x =  x3  = 2 x3  2  .

2
   
x3
Estos tres autovectores forman las columnas de una matriz
 
−2 2 −1
P = −2 −1 2  .
 
1 2 2
 
Esta matriz cuadrada P es inversible: es fácil calcular que det P = 27 y que

   
−6 −6 3 −2 −2 1
1 1
adj P =  6 −3 6 , P−1 = adj P =  2 −1 2 .
  
det P 9
−3 6 6 −1 2 2
  
Se ve por cálculo directo que AP = PD, donde D es una matriz diagonal. En efecto,
       
1 0 2  −2 2 −1 0 6 3  −2 2 −1 0 0 0 
AP = 0 −1 −2 −2 −1 2  = 0 −3 −6 = −2 −1 2  0 3 0  = PD.
       
2 −2 0 1 2 2 0 6 −6 1 2 2 0 0 −3
       
Las entradas diagonales de la matriz D son precisamente los tres autovalores 0, 3, −3 de la

matriz A, en el orden que corresponde al orden de las columnas de P. La ecuación AP = PD
también puede escribirse en la forma
P−1 AP = D. (2.7)
En otras palabras, la matriz A es semejante a una matriz diagonal D, mediante conjugación
A 7→ P−1 AP por una matriz inversible P cuyas columnas son los autovectores de A. Se dice
que la matriz A es diagonalizable. Más adelante se estudiará las condiciones y circunstancias
necesarias para que una determinada matriz cuadrada sea diagonalizable.
I Para obtener una fórmula para el polinomio caracterı́stico, conviene introducir un poco de
notación para submatrices.
Notación. Considérese dos juegos de ı́ndices I := {i1 , . . . , ik } ⊆ {1, . . . , m} y J := { j1 , . . . , jl } ⊆
{1, . . . , n}, numerados en orden creciente: i1 < i2 < · · · < ik y j1 < j2 < · · · < jl . Si A es una
matriz m × n, denótese por AI J la submatriz k × l de A formado por las entradas ai j con i ∈ I,
j ∈ J.
Sean I 0 := {1, . . . , m} \ I y también J 0 := {1, . . . , n} \ J. Se dice que la submatriz AI 0 J 0 es
complementaria a AI J .
Definición 2.15. Si A ∈ Mn (F) es una matriz cuadrada y si I = {i1 , . . . , ik } ⊆ {1, . . . , n}, entonces
AII ∈ Mk (F) se llama una submatriz principal de A. Su ndeterminante mII := det AII se llama
un menor principal de A. Para cada k = 1, . . . , n, hay k menores principales de A obtenidos
de submatrices k × k.
Proposición 2.16. Si A ∈ MN (F) es una matriz cuadrada, su polinomio caracterı́stico tiene
la forma
pA (t) = tn − τ1 (A) tn−1 + τ2 (A) tn−2 − · · · + (−1)n−1 τn−1 (A) t + (−1)n τn (A), (2.8a)
donde τ1 (A) = tr A := a11 + · · · + ann es la traza de A; τn (A) = det A; y en general

X
τk (A) = det AII para k = 1, . . . , n (2.8b)
|I|=k
es la suma de todos los menores principales k × k de la matriz A.

Demostración. En el desarrollo de Leibniz del determinante
t − a11 −a12 . . . −a1n

−a21 t − a22 . . . −a2n
pA (t) = det (t In − A) = .. .. .. .. ,
. . . .
−an1 −an2 . . . t − ann

el coeficiente de tn−k es la suma de todos los términos obtenidos de la siguiente forma: elı́janse
k ı́ndices I = {i1 , . . . , ik } ⊆ {1, . . . , n}; tómese el término t del binomio (t − all ) para l < I; fórmese
el producto de estos t con términos (−ai j ) de las filas I y las columnas I sin repetir filas ni
columnas; multiplı́quese por el signo de la permutación de filas contra columnas. De este
modo, el coeficiente de tn−k es
(−1)σ (−ai1 j1 ) . . . (−aik jk ),

XX
|I|=k σ
donde la suma recorre las permutaciones σ ∈ S n que dejan fijos los ı́ndices diagonales en I 0 ,
es decir, σ(ir ) = jr para r = 1, . . . , k; σ(l) = l para l < I. Entonces se puede escribir σ = τρII 0 ,
donde ρII 0 es la permutación de baraje7 que lleva (1, . . . , n) en (I, I 0 ) = (i1 , . . . , ik , i01 , . . . , i0n−k )
con i1 < · · · < ik y i01 < · · · < i0n−k ; y τ es una permutación de {1, . . . , k} que deja fijos k + 1, . . . , n.
Luego, el coeficiente de tn−k es
(−1)τ (−ai1 iτ(1) ) . . . (−aik iτ(k) ) = (−1)k (−1)τ ai1 iτ(1) . . . aik iτ(k) = (−1)k
XX XX X
det AII .
|I|=k τ |I|=k τ |I|=k
Por lo tanto, pA (t) = k=0 (−1) τk (A) t

Pn k n−k .
7 Barajar un naipe significa separar el naipe en dos partes y luego permutar las cartas de modo que se
conserve el orden relativo dentro de cada parte. Las permutaciones de baraje forman un tema importante en
la teorı́a combinatoria. Véase, por ejemplo: Richard Stanley, Enumerative Combinatorics, tomo 1, Cambridge
University Press, 1997.
Corolario 2.17. Las sumas de menores principales son invariantes bajo semejanza: si A ∈
Mn (F) y si P ∈ Mn (F) es inversible, entonces τk (A) = τk (P−1 AP) para k = 1, . . . , n.
Si A es una matriz triangular, con autovalores λ1 , . . . , λn en la diagonal, las submatrices

principales AII son también triangulares; en este caso, los menores principales k × k son
productos de k elementos diagonales. Del Corolario 2.6, se ve que
tr A = λ1 + λ2 + · · · + λn ,
τ2 (A) = λ1 λ2 + λ1 λ3 + · · · + λn−1 λn ,
τ3 (A) = λ1 λ2 λ3 + λ1 λ2 λ4 + · · · + λn−2 λn−1 λn ,
.. ..
. .
det A = λ1 λ2 . . . λn . (2.9)
De hecho, estas fórmulas valen para cualquier matriz A cuyos autovalores son λ1 , . . . , λn ,
como se verá más adelante.
I El argumento de la demostración anterior es aplicable al cálculo de determinantes. Hay una
generalización importante del desarrollo según una fila (o columna), que consiste en expandir
en varias filas (o columnas) a la vez. La fórmula siguiente se conoce como el desarrollo de
Laplace de un determinante.8
Proposición 2.18. Sea A ∈ Mn (F) una matriz cuadrada y sea I = {i1 , . . . , ik } un juego de ı́ndices
de las filas de A. Si J = { j1 , . . . , jk } es un juego de ı́ndices de k columnas cualesquiera, sea
s(I, J) := i1 + · · · + ik + j1 + · · · + jk . Entonces
X
det A = (−1) s(I,J) (det AI J ) (det AI 0J 0 ),
|J|=k
n
donde la sumatoria recorre las k posibilidades para J.
La demostración de esta fórmula se deja como ejercicio.
2.2 El teorema de Cayley y Hamilton

Antes de abordar la propiedad más famosa del polinomio caracterı́stico, es útil recordar cier-
tos propiedades elementales de los polinomios. Ya se sabe que F[t] es un álgebra conmutativa
sobre el cuerpo F. Esta álgebra es entera,9 es decir, no posee “divisores de cero”: si f (t) , 0
8 Pierre-Simon de Laplace, matemático y astrónomo francés, dio la regla de expansión en 1772, en uno de
sus primeros trabajos sobre las órbitas planetarias, en el cual tuvo que resolver algunos sistemas de ecuaciones
lineales.
9 La terminologı́a tiene una historia curiosa. Un anillo A (estructura con suma y producto compatibles) es
un anillo entero si para a, b ∈ A, la relación ab = 0 implica a = 0 o bien b = 0. Esta es una propiedad clave de
los números enteros Z. A veces A se llama “dominio entero” o, menos correctamente, “dominio de integridad”:
Kronecker empleó este término para distinguirlo de un cuerpo, que él llamó “dominio de racionalidad”.
y g(t) , 0, entonces f (t)g(t) , 0 también. Esto es evidente al recordar la ley de producto:

n
X m
X Xn X
m n+m
X X
aj tj bk tk = a j bk t j+k = a j bk t r ,
j=0 k=0 j=0 k=0 r=0 j+k=r
porque an , 0, bm , 0 implican an bn , 0. Los grados se suman: si gr f (t) = n, gr g(t) = m,

entonces gr( f (t)g(t)) = n + m.
Un polinomio g(t) es un factor de otro polinomio f (t) si f (t) = q(t) g(t) para algún poli-
nomio q(t). En este caso, se dice que g(t) divide f (t) y se escribe g(t) \ f (t). En el caso
contrario, donde g(t) no divide f (t), se puede ejecutar una división con residuo, según el lema
siguiente.10
Lema 2.19. Si f (t) y g(t) son dos polinomios en F[t] con g(t) , 0, entonces hay un único par
de polinomios q(t), r(t) tales que

gr r(t) < gr g(t),

f (t) = q(t)g(t) + r(t), con 

(2.10)
o bien r(t) = 0.

Demostración. Escrı́base f (t) = an tn + · · · + a1 t + a0 y g(t) = bm tm + · · · + b1 t + b0 . Si m > n,

tómese q(t) := 0, r(t) := f (t).
En cambio, si m ≤ n, entonces
an n−m
f1 (t) := f (t) − t g(t)
bm
es un polinomio con gr f1 (t) < n. Al invocar inducción sobre n, se puede suponer que f1 (t) =
q1 (t)g(t) + r(t), con gr r(t) < m o bien r(t) = 0. Entonces
a
n n−m
f (t) = t + q1 (t) g(t) + r(t),
bm
y el resultado (2.10) sigue por la inducción sobre n.
Para la unicidad de q(t) y r(t), obsérvese que si q(t)g(t) + r(t) = q̃(t)g(t) + r̃(t), entonces
q(t) − q̃(t) g(t) = r̃(t) − r(t). Si esta ecuación no es 0 = 0, entonces al lado izquierdo el grado

serı́a ≥ m, mientras al lado derecho el grado serı́a < m, lo cual es imposible. Por tanto r̃(t) =
r(t) y q(t) − q̃(t) g(t) = 0. Como F[t] es entero y g(t) , 0, se concluye que q(t) − q̃(t) = 0.

Lema 2.20 (“Teorema del residuo”). Si a ∈ F, el residuo de la división de un polinomio

f (t) ∈ F[t] por (t − a) es igual a f (a).
Demostración. Escrı́base f (t) = (t − a)q(t) + r(t), según (2.10). Entonces r(t) es un polinomio
constante r0 , porque si no es nulo su grado es menor que gr(t −a) = 1. Al evaluar esta ecuación
polinomial en a ∈ F, se obtiene f (a) = (a − a)q(a) + r(a) = r(a) = r0 .
10 El uso de la raya inclinada para denotar división se prefiere sobre la raya vertical g(t) | f (t), por recomen-
dación de libro: Ronald Graham, Donald Knuth y Oren Patashnik, Concrete Mathematics, Addison-Wesley,
Reading, MA, 1989.
Corolario 2.21 (“Teorema del factor”). Un polinomio f (t) tiene (t − a) como factor de primer
grado si y sólo si f (a) = 0.
Definición 2.22. Si f (t), g(t) son dos polinomios en F[t], su máximo común divisor k(t) =
mcd( f (t), g(t)) es el (único) polinomio tal que
(i) k(t) \ f (t), k(t) \ g(t);
(ii) si h(t) \ f (t) y h(t) \ g(t), entonces h(t) \ k(t);
(iii) k(t) es mónico, es decir, de la forma k(t) = tm + cm−1 tm−1 + · · · + c1 t + c0 .

Es fácil ver que el máximo común divisor de dos polinomios es único, si existe. Su
existencia puede comprobarse con el algoritmo euclidiano, en estricta analogı́a con el proceso
de encontrar el máximo común divisor de dos números enteros. El Lema 2.19 produce una
sucesión finita de divisiones con residuo:
f (t) = q1 (t)g(t) + r1 (t), g(t) = q2 (t)r1 (t) + r2 (t), r1 (t) = q3 (t)r2 (t) + r3 (t), . . .
r j−2 (t) = q j (t)r j−1 (t) + r j (t), r j−1 (t) = q j+1 (t)r j (t) + 0, (2.11)
donde los grados de los residuos decrecen hasta que algún residuo se anule. Si es el último
residuo no nulo es r j (t) = dm tm + · · · + d0 , no es difı́cil comprobar que k(t) := dm
−1 r (t) cumple
j
las tres propiedades de la Definición anterior.
Lema 2.23. Dados dos polinomios f (t), g(t) ∈ F[t], existen otros dos polinomios a(t), b(t)
tales que
a(t) f (t) + b(t) g(t) = mcd( f (t), g(t)).
Demostración. Fı́jese que r1 (t) = f (t) − q1 (t)g(t), a partir de (2.11). Además,
r2 (t) = g(t) − q2 (t)r1 (t)

= g(t) − q2 (t) f (t) − q1 (t)g(t)

= −q2 (t) f (t) + q1 (t)q2 (t) + 1 g(t).

Por sustitución repetida, se hallan ai (t), bi (t) ∈ F[t] tales que ri (t) = ai (t) f (t) + bi (t)g(t), para
i = 1, . . . , j. Al dividir la j-ésima de estas ecuaciones por el coeficiente inicial de r j (t), se
obtiene la relación deseada.
Corolario 2.24 (Identidad de Bézout). Dos polinomios f (t), g(t) son relativamente primos:
mcd( f (t), g(t)) = 1, si y sólo si hay polinomios a(t), b(t) ∈ F[t] tales que
a(t) f (t) + b(t) g(t) = 1.
I Un procedimiento muy útil, a veces llamado “cálculo funcional”, consiste en reemplazar

las potencias tn del indeterminado t por las potencias de un elemento de alguna F-álgebra. En
particular, podemos sustituir t por una matriz en Mn (F), o bien por una aplicación lineal en
End(V).
Definición 2.25. Sea A ∈ Mn (F) una matriz cuadrada. Si f (t) = cn tn + · · · + c1 t + c0 es un

polinomio en F[t], se define
f (A) := cn An + · · · + c1 A + c0 In ∈ Mn (F). (2.12a)
La aplicación f (t) 7→ f (A) : F[t] → Mn (F) es lineal y lleva productos de polinomios en pro-
ductos de matrices, es decir, es un homomorfismo de álgebras sobre F.
De igual manera, sea T ∈ End(V), donde V es un espacio vectorial sobre F. Defı́nase
f (T ) := cn T n + · · · + c1 T + c0 I ∈ End(V). (2.12b)
La aplicación f (t) 7→ f (T ) : F[t] → End(V) es lineal y lleva productos de polinomios en com-

posiciones de operadores: este es otro homomorfismo de F-álgebras.
Si A = [T ]B
B
es la matriz de T con respecto a una base B de V, entonces p(A) = [p(T )]B
B
.
Los homomorfismos de la Definición 2.25 no son sobreyectivos, porque las álgebras
Mn (F) y End(V) no son conmutativos. Tampoco son inyectivos, porque Mn (F) y End(V)
son finitodimensionales y F[t] es infinitodimensional. Entonces, dada una matriz A, debe de
haber polinomios no nulos f (t) tales que f (A) = 0. El siguiente teorema, debido a Hamilton11
y a Cayley,12 proporciona un polinomio especı́fico con esta propiedad, el cual de hecho es el
polinomio caracterı́stico de A.
Teorema 2.26 (Cayley–Hamilton). Sea A ∈ Mn (F) una matriz cuadrada y sea pA (t) ∈ F[t] su
polinomio caracterı́stico. Entonces pA (A) = O en Mn (F).
Demostración. La regla de Cramer demuestra que13
(t In − A) adj(t In − A) = det (t In − A) In = pA (t) In . (2.13)
Las entradas de la matriz adj(t In − A) son, salvo signo, menores (n − 1) × (n − 1) de la matriz

t In − A. Como tal, son polinomios de grado no mayor que (n − 1). Al combinar términos
según las potencias de t, se obtienen matrices B0 , B1 , . . . , Bn−1 ∈ Mn (F) tales que
adj(t In − A) = Bn−1 tn−1 + · · · + B1 t + B0 .

11 William Rowan Hamilton desarrolló la teorı́a de cuaterniones, que combinan escalares reales y vectores en
un espacio vectorial H = R⊕R3 , dotado de un producto no conmutativo. Las aplicaciones lineales en EndR (H) se
representan por matrices en M4 (R). Hamilton mostró que cada aplicación satisface su polinomio caracterı́stico,
en su libro Lectures on Quaternions, Dublin, 1852.
12 Arthur Cayley introdujo la definición moderna de matriz en su artı́culo “Memoir on the theory of matrices”,
Philosophical Transactions of the Royal Society of London 148 (1858), 17–37. Allı́ enunció el teorema para
matrices cuadradas en general, aunque sólo mostró los casos 2 × 2 y 3 × 3.
13 La regla de Cramer es válido para matrices con entradas escalares. Para justificar (2.13), se puede reem-
plazar t por λ ya que se verifica la ecuación correspondiente para todo λ ∈ F. Mejor aun, se ve que la fórmula
B adj B = (det B) In es una abreviatura para n2 identidades polinomiales en las entradas de B ∈ Mn (F), que sigue
válido cuando el cuerpo de escalares F queda reemplazada por el álgebra F[t].
Al escribir pA (t) = tn + cn−1 tn−1 + · · · + c1 t + c0 , la ecuación (2.13) queda en la forma14
(t In − A) (Bn−1 tn−1 + · · · + B1 t + B0 ) = (tn + cn−1 tn−1 + · · · + c1 t + c0 ) In .
Al igualar las potencias de t en ambos lados de esta ecuación, se obtiene las siguientes igual-
dades:
−AB0 = c0 In , B0 − AB1 = c1 In , . . . , Bn−2 − ABn−1 = cn−1 In , Bn−1 = In .
Al multiplicarlas por potencias sucesivas de A, se obtiene
−AB0 = c0 In ,
AB0 − A2 B1 = c1 A,
.. .
. = ..
An−1 Bn−2 − An Bn−1 = cn−1 An−1 ,
An Bn−1 = An .
Una suma telescópica de estas relaciones produce el resultado:
O = An + cn−1 An−1 + · · · + c1 A + c0 In = pA (A).
Corolario 2.27. Sea T ∈ End(V) un operador lineal sobre el espacio vectorial V y sea pT (t) ∈
F[t] su polinomio caracterı́stico. Entonces pT (T ) = 0 en End(V).
Proposición 2.28. Sea A ∈ Mn (F) una matriz cuadrada. Entre todos los polinomios mónicos
f (t) ∈ F[t] tales que f (A) = O, hay un único q(t) de mı́nimo grado. Este q(t) divide cualquier
f (t) tal que f (A) = O.
Demostración. Sea f (t) cualquier polinomio con f (A) = O y sea q(t) cualquier polinomio
mónico tal que q(A) = O en Mn (F). Por divisibilidad con residuo (2.10), se puede escribir
f (t) = s(t)q(t) + r(t),
para un único par de polinomios s(t), r(t), donde gr r(t) < gr q(t) si r(t) no es nulo.
Además, r(A) = f (A) − s(A)q(A) = O. Cuando m = gr q(t) tiene su menor valor posible, se
concluye que r(t) = 0. Por lo tanto, f (t) = s(t)q(t), es decir, q(t) \ f (t).
Si q̃(t) es otro polinomio mónico de grado m con q̃(A) = O, el mismo argumento muestra
que q̃(t) = u(t)q(t) para algún polinomio u(t). Por conteo de grados, se ve que gr u(t) = 0, es
decir, u(t) es constante. Como q(t) y q̃(t) son mónicos, es u(t) = 1; luego q̃(t) = q(t).
Corolario 2.29. Sea T ∈ End(V) un operador lineal. Entre todos los polinomios mónicos
f (t) ∈ F[t] tales que f (T ) = 0, hay un único q(t) de mı́nimo grado. Este q(t) divide cualquier
f (t) tal que f (T ) = 0.
14 Ya se sabe por (2.8) que ck = (−1)n−k τn−k (A), pero esta demostración no requiere la fórmula explı́cita.
Definición 2.30. Sea A ∈ Mn (F) una matriz cuadrada. El polinomio mónico qA (t) de mı́nimo
grado tal que qA (A) = O se llama el polinomio mı́nimo de A.
El teorema de Cayley y Hamilton muestra que pA (A) = O. Por lo tanto, gr qA (t) ≤ n.
La Proposición anterior muestra que qA (t) divide pA (t). En particular, todas las raı́ces de
qA (t) son autovalores de A. (La inversa también vale, como se verá más adelante, en el
Corolario 2.40: todo autovalor de A es una raı́z de su polinomio mı́nimo.)
De igual modo, si T ∈ End(V), el polinomio mónico qT (t) de mı́nimo grado tal que
qT (T ) = 0 se llama el polinomio mı́nimo de T . Además, qT (t) \ pT (t).
Ejemplo 2.31. Considérese la matriz
 
3 1 0 0
0 3 0 0
A =  .
0 0 2 0

0 0 0 2
Su polinomio caracterı́stico pA (t) es entonces

t − 3 −1 0 0

0 t − 3 0 0
pA (t) = = (t − 3)2 (t − 2)2 .
0 0 t − 2 0
0 0 0 t − 2

Son candidatos a priori para el polinomio mı́nimo los factores: (t − 3), (t − 2), (t − 3)2 , (t − 2)2 ,
(t − 3)(t − 2), (t − 3)2 (t − 2), (t − 3)(t − 2)2 y (t − 3)2 (t − 2)2 . Obsérvese que
    
0 1 0 0  1 1 0 0 0 1 0 0
0 0 0 0  0 1 0 0 0 0 0 0
(A − 3I4 )(A − 2I4 ) =     =   , O,
0 0 −1 0 
 

 0 0 0 0 
 

  0 0 0 0 

0 0 0 −1 0 0 0 0 0 0 0 0
pero que (A − 3I4 )2 (A − 2I4 ) = O, por cálculo directo. Se concluye que qA (t) = (t − 3)2 (t − 2).
[[ Moraleja: el polinomio mı́nimo no necesariamente tiene factores distintos. ]]
2.3 Matrices diagonalizables

Entre todas las matrices cuadradas que representan un operador lineal T , se busca una que
sea lo más sencilla posible. Hay varias posibilidades para [T ]CC porque hay varias maneras de
elegir la base C del espacio vectorial subyacente. En algunos casos (no siempre), se puede
elegir esta base tal que la matriz [T ]CC sea una matriz diagonal.
La búsqueda del representante diagonal se reduce a un problema de clasificar las matrices
cuadradas. En efecto, si A = [T ]B B
es una matriz cualquiera que representa T ∈ End(V), se
obtiene cualquier otro representante por cambio de base (de B a C, concretamente). Si P =
[I]BC
es la matriz de cambio de base, entonces se pasa de A = [T ]B B
a P−1 AP = [T ]CC , según la
fórmula (2.4). El problema matricial es el siguiente: dada una matriz A ∈ Mn (F), se busca
una matriz inversible P tal que P−1 AP sea una matriz diagonal.
Este problema admite una solución, en primera instancia, si la matriz A posee autovalores
distintos, en vista del siguiente resultado.
Proposición 2.32. Sea A ∈ Mn (F) una matriz cuadrada. Si {λ1 , . . . , λk } son autovalores distin-
tos de A y si {x1 , . . . , xk } son unos autovectores correspondientes, entonces los autovectores
x1 , . . . , xk son linealmente independientes.
Demostración. Por inducción sobre k, se puede asumir que cualquier colección de (k − 1)
autovectores para autovalores distintos son linealmente independientes. (Si k = 1, esto es
evidente, porque {x1 } es linealmente independiente ya que x1 , 0, pues x1 es un autovector.)
Si x1 , . . . , xk no fueran linealmente independientes, habrı́a una relación de dependencia
c1 x1 + c2 x2 + · · · + ck xk = 0, (2.14)
con c1 , . . . , ck no todos cero. Renumerando la lista si fuera necesario, puede suponerse que
c1 , 0. Luego, c2 , . . . , ck no son todos cero porque c1 x1 , 0. Al aplicar la matriz A a los dos
lados de esta ecuación, resulta
c1 λ1 x1 + c2 λ2 x2 + · · · + ck λk xk = 0.
Al restar λ1 veces (2.14) de esta relación, se obtiene
c2 (λ2 − λ1 )x2 + c3 (λ3 − λ1 )x3 + · · · + ck (λk − λ1 )xk = 0. (2.15)
Los coeficientes en la ecuación (2.15) no son todos cero porque los λ j son distintos y c2 , . . . , ck
no son todos cero. Pero entonces x2 , . . . , xk serı́an linealmente dependientes, contrario a la
hipótesis inductiva. Se concluye que x1 , . . . , xk deben ser linealmente independientes.
Corolario 2.33. Si A ∈ Mn (F) posee n autovalores distintos, entonces A es diagonalizable.
Demostración. Sea { p1 , . . . , pn } un juego de n autovectores que corresponde a los n autovalo-
res distintos {λ1 , . . . , λn } de A. Por la proposición anterior, B = { p1 , . . . , pn } es una base de Fn .
Con respecto a la base estándar E = {e1 , . . . , en }, cada ps puede desarrollarse ası́:
Xn
ps = p js e j = (la columna s de una matriz P).
j=1
Aquı́ P = [p js ] es la matriz [I]EB de cambio de base (de E a B). El producto de matrices AP

es entonces
AP = A [p1 p2 . . . pn ] = [Ap1 Ap2 . . . Apn ]
λ1 0 ...
 
0 
 0 λ2 ... 0 
 
= [λ1 p1 λ2 p2 . . . λn pn ] = [p1 p2 . . . pn ]  .. .. ... ..  = PD, (2.16)
 . . . 
0 0 . . . λn
 
donde D es la matriz diagonal con entradas diagonales λ1 , . . . , λn . (Es útil recordar que la
multiplicación a la derecha P 7→ PD efectúa un juego de operaciones de columna.)
La matriz P es inversible porque su rango es n, ya que tiene n columnas linealmente
independientes. Entonces AP = PD es equivalente a P−1 AP = D, con D diagonal.
Notación. La notación compacta

λ1 0 ...
 
0 
 0 λ2 ... 0 
 
diag[λ1 , λ2 , . . . , λn ] :=  .. .. .. ..  (2.17)
 . . . . 
0 0 . . . λn
 
denota la matriz diagonal con entradas diagonales λ1 , . . . , λn . Si B = {x1 , . . . , xn } es una

base de V tal que [T ]B = diag[λ1 , . . . , λn ], entonces T (x j ) = ni=1 λi [[i = j]] xi = λ j x j en vista
P
B
de (1.6). En otras palabras, cada x j es un autovector de T .
Proposición 2.34. Una matriz A ∈ Mn (F) es diagonalizable si y sólo si A tiene n autovectores
linealmente independientes, si y sólo si Fn posee una base formado por autovectores de A.
Demostración. Es evidente que la segunda condición es equivalente a la tercera, porque una
base de Fn no es más que una colección de n vectores linealmente independientes.
Si { p1 , . . . , pn } ⊂ Fn son n autovectores de A que son linealmente independientes, entonces
la matriz P = [ p1 p2 . . . pn ] tiene n columnas linealmente independientes, por lo tanto su
rango es n y la matriz P es inversible. Es Apk = λk pk para k = 1, . . . , n, donde λk es el autovalor
correspondiente al autovector pk . Si D := diag[λ1 , . . . , λn ] es la matriz diagonal cuyas entradas
diagonales son estos autovalores en el orden prescrito, entonces vale AP = PD, según (2.16).
Se concluye que P−1 AP = D, es decir, A es diagonalizable con forma diagonal D.
Por otro lado, si A es diagonalizable, hay una matriz inversible P y una matriz diagonal
D := diag[λ1 , . . . , λn ] tal que P−1 AP = D. Por ende, es AP = PD; al comparar la k-ésima
columna de ambos lados de esta igualdad matricial, se ve de (2.16) que Apk = λk pk para k =
1, . . . , n. En consecuencia, cada λk es un autovalor de A y cada columna pk es un autovector.
La matriz inversible P tiene rango n, es decir, sus columnas son linealmente independientes
y constituyen una base de Fn .
La proposición anterior no requiere que los autovalores de una matriz diagonalizable sean
distintos. De hecho, cualquier matriz diagonal D es ipso facto diagonalizable: sus autovalores
son sus entradas diagonales y su base de autovectores es la base estándar E = {e1 , . . . , en }.
Denótese por {ν1 , . . . , νr } los elementos distintos del juego de autovalores (λ1 , . . . , λn ). Si
ν1 ocurre k1 veces, ν2 ocurre k2 veces,. . . , νr ocurre kr veces, con k1 + k2 + · · · + kr = n, se
puede permutar los λi para obtener
(λ1 , . . . , λn ) = (ν|1 , {z
. . . , ν}1 , ν|2 , {z
. . . , ν}2 , . . . , |
νr , {z
. . . , ν}r ).
k1 veces k2 veces kr veces
Se dice que ki es la multiplicidad del autovalor νi . El polinomio caracterı́stico de la matriz

D = diag[λ1 , . . . , λn ] es entonces
pD (t) = (t − ν1 )k1 (t − ν2 )k2 . . . (t − νr )kr .
En el caso diagonal, el teorema de Cayley y Hamilton tiene una comprobación directa: en el
producto de matrices diagonales (D − ν1 In )k1 (D − ν2 In )k2 . . . (D − νr In )kr al menos uno de los
factores tiene una entrada diagonal 0 en cada fila.
El polinomio mı́nimo de esta matriz D es
qD (t) = (t − ν1 ) (t − ν2 ) . . . (t − νr ), (2.18)
con r factores distintos de primer grado. El producto (D − ν1 In ) (D − ν2 In ) . . . (D − νr In ) es la

matriz O porque cada entrada diagonal es un producto de r escalares que incluyen un cero.
Si se suprimiera uno de los factores (t − νi ), el producto de matrices con (D − νi In ) omitido
posee entradas diagonales no nulas.
Sucede que el resultado inverso también es válido: si el polinomio mı́nimo de una ma-
triz A se descompone en factores lineales distintos, entonces A es diagonalizable. Antes de
comprobarlo, conviene examinar otros aspectos estructurales de las operadores lineales en
general.
2.4 Descomposición primaria de un operador lineal

Definición 2.35. Sea V un espacio vectorial sobre F y sea T ∈ End(V) un operador lineal. se
dice que un subespacio W ≤ V es un subespacio invariante para T si T (W) ⊆ W.
Si W es un subespacio invariante para T ∈ End(V), con dim V = n y dim W = m ≤ n, sea
B = {x1 , . . . , xn } una base de V cuya porción inicial {x1 , . . . , xm } es una base de W. (Es cuestión
de elegir una base de W y luego completarla en una base de V.) En el desarrollo (2.2) del
operador T en esta base, la condición T (W) ⊆ W implica que ai j = 0 cuando j ≤ m pero i > m;
en otras palabras, la matriz [T ]B B
tiene la forma
" #
B A X
[T ]B = ,
O B
donde A ∈ Mm (F), B ∈ Mn−m (F), X ∈ Fm×(n−m) y donde O ∈ F(n−m)×m es un bloque de ceros.

Definición 2.36. Se dice que un subespacio invariante W ≤ V reduce el operador lineal T ∈
End(V) si hay otro subespacio invariante U ≤ V tal que V = W ⊕ U. Si ası́ fuera, existirı́a una
base B = {x1 , . . . , xn } de V tal que W = linhx1 , . . . , xm i y U = linhxm+1 , . . . , xn i, en cuyo caso la
esquina X de la matriz [T ]B B
es también un bloque de ceros:
" #
B A O
[T ]B = . (2.19)
O B
La matriz a la derecha de (2.19) se llama la suma directa de las matrices A y B.
Proposición 2.37. Si el polinomio caracterı́stico de un operador lineal T ∈ End(V) se fac-
toriza en pT (t) = h(t) k(t) con mcd(h(t), k(t)) = 1, entonces V = W ⊕ U, donde W = ker h(T ) y
U = ker k(T ) son subespacios invariantes para T .
Demostración. Por el Corolario 2.24, la condición mcd(h(t), k(t)) = 1 implica que existen dos
polinomios a(t), b(t) ∈ F[t] que cumplen la identidad de Bézout:
h(t) a(t) + k(t) b(t) = 1.

Luego h(T ) a(T ) + k(T ) b(T ) = I en End(V). Ahora defı́nase W := im k(T ) y U := im h(T ).
Ellos son subespacios invariantes para T , ya que T k(T )(x) = k(T ) T (x) y T h(T )(y) =

h(T ) T (y) . Además, para cada x ∈ V vale
x = h(T ) a(T )(x) + k(T ) b(T )(x) ∈ W + U,

ası́ que V = W + U.
Para ver que esta suma de subespacios es directa, tómese x ∈ W ∩ U. Entonces exis-
ten y, z ∈ V tales que x = k(T )(y) = h(T )(z). Del teorema de Cayley y Hamilton se obtiene
h(T )(x) = pT (T )(y) = 0 y k(T )(x) = pT (T )(z) = 0. La identidad de Bézout entonces muestra
que
x = a(T ) h(T )(x) + b(T ) k(T )(x) = a(T )(0) + b(T )(0) = 0.

Se concluye que W ∩ U = {0} y luego V = W ⊕ U.

Si x ∈ W, hay y ∈ V tal que x = k(T )(y). Entonces h(T )(x) = h(T )k(T )(y) = pT (T )(y) = 0.
Por tanto, es W ⊆ ker h(T ). Al contar dimensiones, el teorema de rango y nulidad implica que
dim W = n − dim U = n − r(h(T )) = n(T ) = dim(ker h(T )),
por tanto W = ker h(T ). De igual modo, se ve que U = ker k(T ).
Proposición 2.38. Sea T ∈ End(V) un operador lineal cuyo polinomio caracterı́stico escinde
en F[t].15 Supóngase que pT (t) = h(t) k(t) con mcd(h(t), k(t)) = 1. Entonces las restricciones
de T a los subespacios W = ker h(T ) y U = ker k(T ) tienen polinomios caracterı́sticos h(t) y
k(t), respectivamente.
Demostración. Obsérvese, por la demostración de la Proposición 2.37, que los subespacios

W y U reducen T : es T (W) ⊆ W y T (U) ⊆ U. Sean T 0 ∈ End(W) y T 00 ∈ End(U) las restric-
ciones de T a W y U, respectivamente. Sea B una base de W y C una base de U, ası́ que B ] C
es una base de W ⊕ U = V. Si A = [T 0 ]B
B
, B = [T 00 ]CC , la matriz de T para la base B ] C es
" #
B]C A O
[T ]B]C = . (2.20)
O B
Entonces, si r = dim W, s = dim U, el polinomio caracterı́stico de T es

" #
tIr − A O
pT (t) = det = det (tIr − A) det (tI s − B) = pA (t) pB (t).
O tI s − B
Si λ es una raı́z de pA (t), entonces hay y ∈ W no nulo tal que T (y) = T 0 (y) = λy. Luego
T (y) = λ2 y, T 3 (y) = λ3 y, etc., de modo que 0 = h(T )(y) = h(λ)y y por ende h(λ) = 0. Además,
2
k(λ) , 0 porque h(t) y k(t) no tienen una raı́z común.

15 Se dice que un polinomio f (t) ∈ F[t] escinde si f (t) = an (t − α1 )(t − α2 ) . . . (t − αn ), donde n = gr f (t) con
raı́ces α1 , . . . , αn ∈ F no necesariamente distintos. En el caso F = C, todo polinomio en C[t] escinde: esto es el
llamado Teorema Fundamental del Algebra.
Entonces, cada raı́z de pA (t) es una raı́z de h(t) pero no de k(t). De igual manera, cada
raı́z de pB (t) es una raı́z de k(t) pero no de h(t). Por lo tanto,
pT (t) = h(t) k(t) = pA (t) pB (t) =: (t − λ1 ) . . . (t − λn )
donde la repartición de los monomios (t − λi ) entre los primeros dos factorizaciones de pT (t)
obliga las igualdades pA (t) = h(t) y pB (t) = k(t).
En la última Proposición, la hipótesis de que pT (t) escinde en F[t] no es indispensable
(aunque fue usada en el último paso de la demostración). Es posible apelar a un teorema
de Kronecker, que dice que cada polinomio p(t) ∈ F[t] tiene una raı́z en algún cuerpo que
“extiende” F (es decir, que que incluye F como subcuerpo). Es posible, entonces, extender el
cuerpo original F a otro cuerpo K tal que pT (t) escinde en K[t]; las igualdades pA (t) = h(t)
y pB (t) = k(t) entonces se verifican en K[t] y de rebote también en F[t]. Este artificio es
particularmente útil en el caso en donde F = R, porque hay polinomios reales cuadráticas que
no escinden en R[t] pero sı́ en C[t].
Lema 2.39. Sea V = W ⊕ U, con W = ker h(T ) y U = ker k(T ), la descomposición de V

obtenida de una factorización pT (t) = h(t) k(t) —en factores relativamente primos— del poli-
nomio caracterı́stico de un operador lineal T ∈ End(V). Entonces hay una factorización co-
rrespondiente del polinomio mı́nimo qT (t) = r(t) s(t) en factores relativamente primos, donde
r(t) \ h(t), s(t) \ k(t), el operador r(T ) se anula en W y s(T ) se anula en U.
Demostración. Elı́jase una base de V = W ⊕ U tal que T tenga una matriz en bloques de la
forma (2.20). Entonces la relación qT (T ) = 0 conlleva la relación
" # " #! " #
qT (A) O A O O O
= qT = ,
O qT (B) O B O O
ası́ que qT (A) = O y qT (B) = O. Sean r(t) := mcd(qT (t), h(t)) y s(t) := mcd(qT (t), k(t)); debe de
ser claro que r(t) y s(t) son relativamente primos y que r(t)s(t) = mcd((qT (t), h(t)k(t)) = qT (t),
porque qT (t) divide pT (t) = h(t)k(t).
También es h(A) = pA (A) = O y el Lema 2.23 dice que r(t) = a(t)qT (t) + b(t)h(t) para
algunos polinomios a(t), b(t). Luego r(A) = O. En otras palabras, r(T 0 ) = 0 en End(W), si T 0
es la restricción de T a W. Del mismo modo, se obtiene s(B) = O y s(T 00 ) = 0 en End(U), si
T 00 es la restricción de T a U.
Corolario 2.40. Cada raı́z del polinomio caracterı́stico de un operador lineal T es también
una raı́z de su polinomio mı́nimo.
Demostración. Si λ es un autovalor de T , es pT (t) = (t − λ)m k(t) para algún m ∈ {1, 2, 3, . . . },

con k(λ) , 0. El Lema anterior muestra que qT (t) = (t − λ)l s(t), con l ≤ m, donde (T − λI)l
anula ker((T − λI)m ), que serı́a imposible si fuera l = 0. (Por el cálculo funcional de la
Definición 2.25, es T 0 := I cuando T es un operador no nulo.) Luego l ∈ {1, . . . , m} y por
ende λ es una raı́z de qT (t).
Proposición 2.41. Si el polinomio mı́nimo de un operador lineal T ∈ End(V) se factoriza

en qT (t) = r(t) s(t) con r(t), s(t) mónicos y mcd(r(t), s(t)) = 1, entonces V = W 0 ⊕ U 0 , donde
W 0 = ker r(T ) y U 0 = ker s(T ) son subespacios invariantes para T . Los polinomios mı́nimos
de las restricciones de T a W 0 y U 0 son r(t) y s(t), respectivamente.
Demostración. La demostración de la Proposición 2.37 se repite en forma casi idéntica, con
qT (t), r(t), s(t), W 0 , U 0 en los lugares respectivos de pT (t), h(t), k(t), W y U. En vez de
usar pT (T ) = O por el teorema de Cayley y Hamilton, se usa qT (T ) = O por la definición del
polinomio mı́nimo. Por tanto, es V = W 0 ⊕ U 0 con W 0 = ker r(T ) y U 0 = ker s(T ). Además,
esta demostración conlleva las igualdades W 0 = im s(T ) y U 0 = im r(T ).
Sea T 0 ∈ End(W 0 ) la restricción del operador T al subespacio invariante W 0 . Se ve que
r(T ) = 0 en End(W 0 ) porque r(T 0 )(y) = r(T )(y) = 0 para todo y ∈ W 0 ya que W 0 = ker r(T ).
0
Si f (t) ∈ F[t] es un polinomio tal que f (T 0 ) = 0 en End(W 0 ), entonces f (T )(y) = 0 para

todo y = s(T )(x) ∈ W 0 . Por tanto, f (T ) s(T )(x) = 0 para todo x ∈ V; esto es, f (T )s(T ) = 0

en End(V). Luego r(t)s(t) = qT (t) \ f (t)s(t); esto es, hay un polinomio g(t) tal que f (t)s(t) =
g(t)r(t)s(t) y por ende16 es f (t) = g(t)r(t). En resumen: si f (T 0 ) = 0, entonces r(t) \ f (t); esto
dice que r(t), el cual es mónico, es el polinomio mı́nimo del operador lineal T 0 .
De igual modo, s(t) es el polinomio mı́nimo de la restricción de T al subespacio U 0 .
Teorema 2.42 (Descomposición primaria). Si el polinomio mı́nimo de un operador lineal
T ∈ End(V) se factoriza como qT (t) = h1 (t) . . . hr (t) en factores mónicos relativamente primos
h1 (t), . . . , hr (t), entonces V = W1 ⊕ · · · ⊕ Wr , donde Wi = ker hi (T ) para i = 1, . . . , r. Además,
cada hi (t) es el polinomio mı́nimo de la restricción de T al subespacio invariante Wi .
Demostración. Por inducción sobre r. Sea k1 (t) := h2 (t) . . . hr (t), ası́ que qT (t) = h1 (t) k1 (t) con
mcd(h1 (t), k1 (t)) = 1. La Proposición 2.41 muestra que V = W1 ⊕ U1 , donde W1 := ker h1 (T )
y U1 := ker k1 (T ) = im h1 (T ).
Además, la Proposición 2.41 muestra que las restricciones de T a W1 y U1 tienen poli-
nomios mı́nimos respectivos h1 (t) y k1 (t).
Por inducción sobre r, se puede suponer que el resultado es válido para la restricción de T
al subespacio U1 , con polinomio mı́nimo k1 (t) = h2 (t) . . . hr (t). Se obtiene U1 = W2 ⊕ · · · ⊕ Wr ,
donde Wi = ker hi (T ), con polinomio mı́nimo hi (T ) en cada subespacio Wi , para i = 2, . . . , r.
El resultado ahora es evidente.
Corolario 2.43. Sea T ∈ End(V) un operador lineal cuyo polinomio caracterı́stico pT (t)
escinde en F[t]. Sea
pT (t) = (t − ν1 )k1 (t − ν2 )k2 . . . (t − νr )kr (2.21)
su factorización completa, con ν1 , . . . , νr ∈ F distintos. Entonces su polinomio mı́nimo es de
la forma
qT (t) = (t − ν1 )l1 (t − ν2 )l2 . . . (t − νr )lr , (2.22)
con l1 , . . . , lr ∈ N y 1 ≤ li ≤ ki para i = 1, . . . , r. Sea V = W1 ⊕ · · · ⊕ Wr la descomposición
primaria correspondiente, donde Wi := ker (T − νi I)lr . Entonces (t − νi )ki es el polinomio

caracterı́stico de la restricción de T al subespacio invariante Wi .
16 La cancelación del factor común s(t) es válida porque el álgebra F[t] no posee “divisores de cero”.
Demostración. Por inducción sobre r; el resultado es obvio si r = 1. Sea h(t) := (t − ν1 )k1 ,

k(t) := (t − ν2 )k2 . . . (t − νr )kr , de modo que V = W ⊕ U con W = ker h(T ) y U = ker k(T ), por
la Proposición 2.37. El Lema 2.39 muestra que qT (t) = r(t)s(t), donde r(t) = (t − ν1 )l1 y
s(t) = (t − ν2 )l2 . . . (t − νr )lr con li ≤ ki para cada i; además, r(T ) anula W y s(T ) anula U. El
Corolario 2.40 muestra que l1 ≥ 1.
Como r(t) divide h(t), es inmediato que W = ker h(T ) ⊆ ker r(T ) = W1 . Por otro lado, r(t) y
k(t) son relativamente primos, ası́ que a(t)r(t) + b(t)k(t) = 1 para ciertos polinomios a(t), b(t);
luego, si z ∈ W1 ∩ U, entonces
z = a(T ) r(T )(z) + b(T ) k(T )(z) = a(T )(0) + b(T )(0) = 0.

Cualquier x ∈ V es de la forma x = y + z con y ∈ W, z ∈ U. Si x ∈ W1 , entonces y ∈ W1 y

z = x − y queda también en W1 y por tanto z = 0 y x = y. Se ha mostrado que W1 = W.
Se concluye que W1 ⊕ (W2 ⊕ · · · ⊕ Wr ) es exactamente la descomposición de V que corre-
sponde a la factorización pT (t) = h(t) k(t) por la Proposición 2.37. La Proposición 2.38 ahora
muestra que el polinomio caracterı́stico de T restringido a W1 es h(t) = (t − ν1 )k1 . Además, el
polinomio caracterı́stico de T restringido a W2 ⊕ · · · ⊕ Wr es k(t) = (t − ν2 )k2 . . . (t − νr )kr , que
es lo que se requiere para poder aplicar la hipótesis inductiva.
I Ahora es posible ofrecer otro criterio de diagonalizabilidad.

Proposición 2.44. Una matriz A ∈ Mn (F) es diagonalizable si y sólo si su polinomio mı́nimo
qA (t) se descompone en factores distintos de primer grado.
Demostración. Si A = PDP−1 con D diagonal, entonces qA (t) = qD (t) es de la forma (2.18),
con factores distintos de primer grado.
Inversamente, si qA (t) = (t − ν1 )(t − ν2 ) . . . (t − νr ) con ν1 , . . . , νr distintos, el Teorema 2.42
muestra que Fn posee una descomposición primaria de la forma
Fn = W1 ⊕ W2 ⊕ · · · ⊕ Wr , donde cada Wk := ker(T A − νk I).
Sea Bk una base del subespacio ZA (νk ), de modo que su unión disjunta B := B1 ] · · · ] Br
es una base de Fn . Si x ∈ Bk , entonces Ax − νk x = (T A − νk I)(x) = 0, ası́ que Ax = νk x:
cada elemento de la base B es una autovector de A. La Proposición 2.34 muestra que A es
diagonalizable. Concretamente, el cambio de la base estándar E a la base B diagonaliza la
matriz A:
ν1 . . . 0
 

 . . .
 .. . . ..


 0 . . . ν1
 

ν2 . . . 0
 
.. . . ..
 
. . .
 
B 
P AP = [T A ]B = 
−1 

0 . . . ν2

 

 ... 


νr . . . 0 
 
.. . . . 

. . .. 


0 . . . νr
 
" #
0 1
Ejemplo 2.45. La matriz J = no es diagonalizable sobre R, pero sı́ es diagonalizable
−1 0
sobre C. En efecto, su polinomio caracterı́stico es p J (t) = t2 + 1, el cual es irreducible sobre R.
Como q J (t) \ p J (t), también es q J (t) = t2 + 1, que no posee factores de primer grado sobre R.
En cambio, si se toma F = C, la factorización p J (t) = (t − i)(t + i) muestra que q J (t) =
(t − i)(t + i), ya que las posibilidades q J (t) = t ± i quedan excluidas porque J ± iI , O. Luego
J es diagonalizable, con forma diagonal diag[i, −i], como ya se ha visto en el Ejemplo 2.13.
Ejemplo 2.46. Considérese la matriz triangular
λ 1
" #
A=
0 λ
con λ ∈ F cualquiera (y F un cuerpo cualquiera); esta matriz no es diagonalizable. En efecto,
es pA (t) = (t − λ)2 , ası́ que qA (t) = t − λ o bien qA (t) = (t − λ)2 . La posibilidad qA (t) = t − λ
queda excluida porque A − λI , O; por otro lado, es (A − λI)2 = O por el teorema de Cayley y
Hamilton o bien por un cálculo directo.
Luego este polinomio qA (t) = (t − λ)2 no es un producto de factores distintos de primer
grado.
2.5 La forma de Jordan de una matriz compleja

El Ejemplo 2.45 pone de manifiesto que la diagonalizabilidad de una matriz en Mn (F) de-
pende del cuerpo F. El cuerpo de números complejos posee una propiedad fundamental, a
veces llamado el Teorema Fundamental del Algebra:17 cualquier polinomio de grado n en
C[t] posee n raı́ces complejas (no necesariamente distintas), o lo que es lo mismo, cualquier
f (t) ∈ C[t] posee una factorización completa f (t) = an (t − α1 ) . . . (t − αn ), con α1 , . . . , αn ∈ C no
necesariamente distintos.
Para simplificar un poco la discusión, conviene suponer por ahora que F = C, de modo
que los polinomios pA (t) y qA (t) tengan factores irreducibles de primer grado solamente.
El Teorema 2.42 de la descomposición primaria y su Corolario 2.43 muestran que cual-
quier operador lineal posee una matriz en Mn (C) que es una suma directa de bloques diago-
nales:
A1 O . . . O 
 
O A2 . . . O 
 
B 
[T ]B =  .. .. . . .  . (2.23)
 . . . .. 
O O . . . Ar
 
Es cuestión de elegir bases B1 , . . . , Br para los subespacios W1 , . . . , Wr de la descomposición

primaria y tomar la base B de V como su unión disjunta: B = B1 ] · · · ] Br . Como cada
17 Hay varias demostraciones de este teorema; parece que la primera demostración rigurosa fue dada por
Argand en 1806. Una prueba corta emplea el teorema de Liouville, que dice que una función holomorfa acotada
definida en toda z ∈ C es necesariamente constante. Si f (t) ∈ C[t] no posee raı́z alguna, entonces z 7→ f (z) es
una función holomorfa acotada y por tanto constante, ası́ que gr f (t) = 0. Obsérvese que si gr f (t) ≥ 1, sólo hace
falta que f (t) tenga una raı́z α, porque se puede considerar el cociente f (t)/(t − α) para obtener otra raı́z, y ası́
sucesivamente.
subespacio Wi reduce T , los bloques no diagonales son rectángulos de ceros. Cada Ai es una
matriz con polinomio caracterı́stico (t − νi )ki .
Al restar νi Iki de cada bloque, se obtiene una matriz Ni := Ai − νi Iki . El teorema de Cayley
y Hamilton para la matriz Ai muestra que
Niki = (Ai − νi Iki )ki = O.
Definición 2.47. Un operador T ∈ End(V) es nilpotente si T k = 0 para algún k ∈ {1, 2, 3, . . . }.

Una matriz A ∈ Mn (F) es una matriz nilpotente si Ak = O para algún k ∈ {1, 2, 3, . . . }.
Si λ es un autovalor de un operador lineal nilpotente T , con un autovector x , 0, entonces

λk x = T k (x) = 0 y por tanto λk = 0, luego λ = 0. Es decir, 0 es el único autovalor de T . Los ele-
mentos no nulos de ker T son los autovectores correspondientes. El polinomio caracterı́stico
de T es pT (t) = tn . Si k ∈ N es el menor entero positivo tal que T k = 0, el polinomio mı́nimo
es qT (t) = tk .
Proposición 2.48. Cualquier matriz A ∈ Mn (C) es de la forma A = H + N, donde H es dia-

gonalizable, N es nilpotente y HN = NH.
Demostración. El polinomio caracterı́stico de A se descompone en factores de primer grado:
pA (t) = (t − ν1 )k1 (t − ν2 )k2 . . . (t − νr )kr ,
donde ν1 , . . . , νr ∈ C son distintos y k1 , . . . , kr son enteros positivos.

Después de una cambio de base A 7→ P−1 AP, según la descomposición primaria del ope-
rador T A , se obtiene una suma directa de bloques (2.23). Para simplificar, supóngase que la
matriz A ya tiene esta forma. Sea N la matriz de bloques
N1 O . . . O 
 
 O N2 . . . O 
 
N :=  .. .. . . .  , con Ni := Ai − νi Iki ; i = 1, . . . , r.
 . . . .. 
O O . . . Nr
 
Entonces para k := max{k1 , . . . , kr } es N k = O, o sea, N es nilpotente. Sea H la suma directa

de bloques diagonales νi Iki , la cual es una matriz diagonal con autovalores νi (repetidas con
multiplicidades ki ). Es obvio que A = H + N. En cada bloque, el producto HN se reduce al
producto de una matriz escalar νi Iki con una matriz Ni ∈ Mki (C), de donde sigue HN = NH.
En el caso general, se reemplazan H por P−1 HP y N por P−1 NP. Claramente, P−1 HP es
diagonalizable con forma diagonal H. La matriz P−1 NP es nilpotente, porque
(P−1 NP)k = P−1 NP P−1 NP . . . P−1 NP = P−1 N k P = P−1 OP = O.
También es evidente que (P−1 HP)(P−1 NP) = P−1 HNP = P−1 NHP = (P−1 NP)(P−1 HP).
Falta averiguar la estructura de una matriz nilpotente. Sea N ∈ Mn (C) una matriz tal que
Nk = O, N k−1 , O para k un entero positivo (que depende de N). Entonces hay al menos un
vector no nulo x ∈ Cn tal que N k−1 x , 0. Para cada l = 0, 1, . . . , k, considérese el subespacio
Vl := ker T N l = { x ∈ Cn : N l x = 0 }.
Entonces V0 = {0}, Vk = Cn y además Vl−1 ⊆ Vl para l = 1, . . . , k, porque N l−1 x = 0 implica que
N l x = N(N l−1 x) = N0 = 0. De este modo, los Vl forman una cadena de subespacios:
{0} = V0 ⊆ V1 ⊆ . . . ⊆ Vk−1 ⊆ Vk = Cn .
Sea ml := dim Vl , de modo que
0 = m0 ≤ m1 ≤ . . . ≤ mk−1 ≤ mk = n.
Hay que elegir una base conveniente para Cn , que será la unión creciente be bases para los Vl .
Se requiere un lema auxiliar, a continuación.
Lema 2.49. Sea V un espacio vectorial de dimensión n sobre F y sea W un subespacio de V,
con dim W = m. Se puede elegir vectores x1 , . . . , xn−m ∈ V que son linealmente independien-
tes sobre W, es decir,
c1 x1 + · · · + cn−m xn−m ∈ W sólo si c1 = · · · = cn−m = 0.
Demostración. El espacio cociente V/W tiene dimensión n − m. Sea {z1 , . . . , zn−m } una base
de V/W. Cada zi es una coclase de la forma zi = xi + W para algún xi ∈ V.
Una relación de la forma c1 x1 + · · · + cn−m xn−m ∈ W implica que
c1 z1 + · · · + cn−m zn−m = c1 (x1 + W) + · · · + cn−m (xn−m + W)
= (c1 x1 + · · · + cn−m xn−m ) + W = W.
Pero la coclase trivial W = 0 + W es el elemento nulo de V/W. Luego, la independencia lineal
de los zi en V/W conlleva c1 = · · · = cn−m = 0.
Proposición 2.50. Sea N ∈ Mn (C) una matriz nilpotente. Si k es el menor entero positivo tal
que N k = O, sea Vl := ker T N l para l = 0, 1, . . . , k. Entonces V posee una base B tal que
(a) B incluye una base de Vl , para cada l = 1, . . . , k;
(b) si x ∈ B, entonces N x ∈ B o bien N x = 0.
Demostración. Denótese r1 := mk − mk−1 . Por el Lema anterior, hay vectores x1 , . . . , xr1 ∈
Cn = Vk que son linealmente independientes sobre Vk−1 .
Los vectores N x1 , . . . , N xr1 quedan en Vk−1 , porque N k−1 (N x j ) = N k x j = 0 para cada j.
Resulta que estos vectores son linealmente independientes sobre Vk−2 . En efecto,
c1 N x1 + · · · + cr1 N xr1 ∈ Vk−2 =⇒ N(c1 x1 + · · · + cr1 xr1 ) ∈ Vk−2
=⇒ c1 x1 + · · · + cr1 xr1 ∈ Vk−1 ,
=⇒ c1 = · · · = cr1 = 0.
Por lo tanto, es mk−1 − mk−2 ≥ p1 . Escrı́base r2 := mk−1 − mk−2 .

Si r2 > r1 , en vista del Lema 2.49, se puede encontrar vectores xr1 +1 , . . . , xr2 tales que el
conjunto {N x1 , . . . , N xr1 , xr1 +1 , . . . , xr2 } ⊂ Vk−1 sea linealmente independiente sobre Vk−2 . Si
r2 = r1 , el conjunto {N x1 , . . . , N xr1 } juega el mismo papel.
Ahora los vectores N 2 x1 , . . . , N 2 xr1 , N xr1 +1 , . . . , N xr2 ∈ Vk−2 son linealmente independien-
tes sobre Vk−2 . De hecho,
b1 N 2 x1 + · · · + br1 N 2 xr1 + br1 +1 N xr1 +1 + · · · + br2 N xr2 ∈ Vk−3

=⇒ b1 N x1 + · · · + br1 N xr1 + br1 +1 xr1 +1 + · · · + br2 xr2 ∈ Vk−2
=⇒ b1 = · · · = br1 = br1 +1 = · · · = br2 = 0.
Se concluye que r3 := mk−2 − mk−2 cumple r3 ≥ r2 . En el caso de que r3 > r2 , hay vectores
xr2 +1 , . . . , xr3 tales que el conjunto {N 2 x1 , . . . , N 2 xr1 , N xr1 +1 , . . . , N xr2 , xr2 +1 , . . . , xr3 } ⊂ Vk−2
sea linealmente independiente sobre Vk−3 .
Ad (a): Al repetir este proceso k veces, se obtiene la siguiente tabla de vectores en Cn :
x1 , . . . , xr1 ,
N x1 , . . . , N xr1 , xr1 +1 , . . . , xr2 ,
N x1 , . . . , N xr1 , N xr1 +1 , . . . , N xr2 ,
2 2 xr2 +1 , . . . , xr3 ,
.. .. .. .. .. ..
. . . . . .
N k−1 x1 , . . . , N k−1 xr1 , N k−2 xr1 +1 , . . . , N k−2 xr2 , N k−3 xr2 +1 , . . . , N k−3 xr3 , . . . , xrk−1 +1 , . . . , xrk .
Aquı́ se ha escrito r j := mk− j+1 − mk− j para j = 1, . . . , k. Los vectores en esta tabla son lineal-
mente independientes, y las últimas l filas pertenecen a Vl para cada l. Ahora,
r1 + r2 + · · · + rk = (mk − mk−1 ) + (mk−1 − mk−2 ) + · · · + (m2 − m1 ) + m1 = n,
ası́ que todos estos vectores forman una base B de Cn . Además, para cada l las sumas
telescópicas r1 + · · · + rl = ml = dim Vl implican que las últimas l filas forman una base del
subespacio Vl .
Ad (b): Si y es un vector de la última fila, entonces y ∈ V1 = ker T N , ası́ que N y = 0. Si z
es un vector de cualquier otra fila, entonces N z es un miembro de la fila siguiente.
En la tabla anterior de vectores, cada columna genera un subespacio invariante para T N .
De hecho, este subespacio reduce T N porque las demás columnas generan un subespacio
suplementario, también invariante. Se puede entonces reordenar la base B, colocando las
columnas de izquierda a derecha y dentro de cada columna leyendo las columnas de abajo
hacia arriba:
B = {N k−1 x1 , . . . , N x1 , x1 , N k−1 x2 , . . . , N x2 , x2 , . . . , xr1 , N k−2 xr1 +1 , . . . , xr2 , N k−3 xr2 +1 , . . . , xrk }.
Las rk columnas de la tabla determinan rk subespacios que reducen T N . Luego la matriz

[T N ]B
B
(que es semejante a N, desde luego) es una suma directa de bloques: hay r1 bloques
k × k, seguido de r2 − r1 bloques de tamaño (k − 1) × (k − 1), etc., hasta rk−1 − rk−2 bloques
2 × 2. Las últimas rk − rk−1 columnas de la tabla están en V1 = ker T N y se combinan para

proporcionar un bloque de ceros en la esquina inferior derecha de esta matriz.
Cada uno de estos bloques tiene una estructura sencilla. Basta examinar el primer bloque,
que queda determinado por las igualdades
T N (N k− j x1 ) = N k− j+1 x1 , para j = 1, . . . , k.
Al escribir y j := N k− j x1 , de modo que y1 , . . . , yk es la base ordenada del primer subespacio

invariante de la lista, se obtiene
T N (y1 ) = 0, T N (y2 ) = y1 , T N (y3 ) = y2 , ... T N (yk ) = yk−1 ,
y la matriz correspondiente es el bloque
0 1 . . . 0 0 0
0
 
. . . 0 0 0
0 
 0 1
0 0 . . . 0 0 0
0
Jk (0) :=  ... .. ..
. . .. .. .. 

. . . . . .  (2.24)
0 0 . . . 0 1 0

0 
0 0 . . . 0 0 1
 
0
0 0 ... 0 0 0

0
es decir, una matriz triangular con ceros en la diagonal y unos en la subdiagonal superior:
a12 = a23 = · · · = ak−1,k = 1.
La matriz de T N es la base elegida es entonces la suma directa de r1 bloques Jk (0), (r2 −r1 )
bloques Jk−1 (0), etc., hasta (rk−1 − rk−2 ) bloques J2 (0), más un bloque cuadrado de ceros de
lado (rk − rk−1 ).
Definición 2.51. Sea k ∈ {2, 3, . . . } y sea λ ∈ C. El bloque de Jordan Jk (λ) es la matriz

triangular en Mk (C) dado por
λ 1 . . . 0 0 0
0
 
λ . . . 0 0 0
0 
 1
0 0 λ
. . . 0 0 0
Jk (λ) := λIk + Jk (0) =  ... .. ..
. . .. .. ..  .

. . . . . .  (2.25)
0 0 . . . λ 1 0

0 
0 0 . . . 0 λ 1
 
0
0 0 ... 0 0 λ

0
Conviene denotar J1 (λ) := [λ] ∈ M1 (C), como caso trivial.
Lema 2.52. El polinomio mı́nimo de un bloque de Jordan es igual que su polinomio carac-
terı́stico: si A = Jk (λ), entonces qA (t) = pA (t) = (t − λ)k .
Demostración. Si A = Jk (λ), es obvio que pA (t) = det Jk (t − λ) = (t − λ)k . Basta entonces

comprobar que (Jk (λ) − λIk )l , O cuando k ≥ 2 y l < k.
Ahora Jk (λ) − λIk = Jk (0) es la matriz triangular nilpotente (2.24). Al renombrarla B =
Jk (0), se ve que las únicas entradas no nulas de C = B2 son
c13 = b12 b23 = 1, c24 = b23 b34 = 1, ... ck−2,k = bk−2,k−1 bk−1,k = 1.
Por inducción sobre l, se ve que en R = Bl las únicas entradas no ceros son r1,l+1 = r2,l+2 =
· · · = rk−l,k = 1. Por ejemplo, para B = J4 (0) se ve que
     
0 1 0 0 0 0 1 0 0 0 0 1
0 0 1 0 0 0 0 1
3 0 0 0 0

B =  
 ,

 B = 
2 
,

 B =  .
0 0 0 1 0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0 0 0 0 0
En particular, Bl , O para l = 1, 2, . . . , k −1, pero Bl = O. Luego qB (t) = tk y qA (t) = (t −λ)k .
Teorema 2.53. Cualquier matriz A ∈ Mn (C) es semejante a una suma directa de bloques de
Jordan de la forma Jl (νi ), donde {ν1 , . . . , νr } son los autovalores distintos de A; para cada νi ,
el mayor lado l de los bloques Jl (νi ) en esta suma directa es el exponente li del factor (t − νi )li
en el polinomio mı́nimo qA (t) de la matriz A.
Demostración. El polinomio mı́nimo pA (t) escinde en C[t] y por ende es de la forma (2.21):
pA (t) = (t − ν1 )k1 (t − ν2 )k2 . . . (t − νr )kr ,
donde ν1 , . . . , νr ∈ C son distintos y k1 + · · · + kr = n. Su polinomio mı́nimo tiene la forma
(2.22):
qA (t) = (t − ν1 )l1 (t − ν2 )l2 . . . (t − νr )lr ,
donde 1 ≤ li ≤ ki en cada caso, en vista del Corolario 2.43.
Sea Cn = W1 ⊕ · · · ⊕ Wr la descomposición primaria debida a esta factorización de pA (t).
Elı́jase una base Bi para cada Wi , cuya unión disjunta B = Bi ] · · · ] Br es una base de Cn .
Al cambiar la base estándar E de Cn a esta base B, se obtiene que la matriz A es semejante
a una suma directa A = A1 ⊕ · · · ⊕ Ar , como en (2.23). Además, cada bloque Ai tiene la forma
Ai = νi Iki + Ni donde Ni es una matriz cuadrada nilpotente, con Nili = O en Mki (C).
Ahora, la matriz escalar νi Iki no sufre cambio alguno al reemplazar la base Bi por cual-
quier otra base de Wi . Se puede entonces suponer que Bi es aquélla que expresa T Ni como
suma directa de bloques de Jordan Jl (0), como en (2.24). Por la construcción de esta base, se
ve que l ≤ li en cada caso y que hay al menos un bloque de lado li . Al sumarles los bloques
escalares νi Il , se obtiene que cada Ai es una suma directa de bloques de Jordan Jl (νi ).
Con el Teorema anterior, se dispone de una descripción completa de la estructura de una
matriz cuadrada compleja, o bien la de un operador lineal sobre un espacio vectorial complejo
finitodimensional. De hecho, la descripción es aplicable a matrices u operadores con otros
cuerpos F de escalares, toda vez que sus polinomios caracterı́sticos escinden en F[t]. Hace
falta, sin embargo, un proceso algorı́tmico para hallar los polinomios mı́nimos.18
18 Tales procesos existen, pero quedan fuera del ámbito de este curso. Véase, por ejemplo, el libro de Anatoly
I. Maltsev, Fundamentos de Algebra Lineal, Mir, Moscú, 1972.
2.6 Ejercicios sobre operadores lineales y matrices

Ejercicio 2.1. Calcular los tres autovalores de la matriz
 
 1 −1 0 
A := −1 2 −1 .
 
0 −1 1
 
Ejercicio 2.2. Calcular los tres autovalores distintos λ1 , λ2 , λ3 de la matriz

 
3 2 2
A := 2 2 0 .
 
2 0 4
 
Resolver las ecuaciones (λ j I3 − A)x j = 0, j = 1, 2, 3, para obtener tres autovectores {x1 , x2 , x3 }

de A. Sea P := [x1 x2 x3 ]. Verificar que la matriz P−1 AP es diagonal y que sus elementos
diagonales son los autovalores de A.
Ejercicio 2.3. Calcular los autovalores de la matriz
 
2 −2 3 
A := 1 1 1  .
 
1 3 −1
 
Obtener una matriz inversible P cuyas columnas son autovectores de A y verificar que las
transpuestas de las filas de P−1 son autovectores de At .
Ejercicio 2.4. Un “cuadrado mágico” de lado n es una matriz n × n cuyas entradas son los
enteros 1, 2, . . . , n2 dispuestos de tal manera que la suma de las entradas de cada fila y de cada
columna es la misma. Verificar que 21 n(n2 + 1) es un autovalor de esta matriz.
Ejercicio 2.5. Calcular los polinomios caracterı́sticos y determinar los autovalores de las
matrices
 
1 1 1 
cos θ − sen θ
" # " #
cosh t senh t
A= , B= , C = 1 ω ω2  ,
 
sen θ cos θ senh t cosh t
1 ω2 ω
 
√
donde −π < θ ≤ π, t ∈ R, y ω = e2πi/3 = 21 (−1 + i 3).
Ejercicio 2.6. Calcular el polinomio caracterı́stico de la matriz
0 0 0 . . . 0 −a0 
 
1 0 0 . . . 0 −a1 
A = 0 1 0 . . . 0 −a2 
 
 .. .. .. . . .. .. 
 . . . . . . 
0 0 0 . . . 1 −an−1
 
y concluir que todo polinomio f (t) es el polinomio caracterı́stico de alguna matriz.

Ejercicio 2.7. (a) Si P−1 AP = D es una matriz diagonal, demostrar que Ak = PDk P−1 para
todo k ∈ N. " #
−5 3
(b) Calcular los dos autovalores de la matriz A = y obtener un par de autovectores
−6 4
correspondientes.
(c) Usar los resultados de las partes (a) y (b) para comprobar que
" #9 " #
−5 3 −1025 513
= .
−6 4 −1026 514
Ejercicio 2.8. Tómese F = R ó C. Las fórmulas Ak = PDk P−1 son casos particulares de la
receta
f (A) = P f (D)P−1 toda vez que D = P−1 AP,
la cual es válida para funciones f que pueden desarrollarse en series de potencias (con radio
de convergencia infinita, digamos), por aplicación de las fórmulas para Ak a cada potencia.
Si D = diag[λ1 , . . . , λn ] es diagonal, la matriz f (D) es también diagonal: de hecho, es f (D) =
diag[ f (λ1 ), . . . , f (λn )]. Al tomar f (t) := et = k≥0 (1/k!) tk , se define la exponencial de una
P
matriz A ∈ Mn (F) como exp A := k≥0 (1/k!) Ak . Comprobar el cálculo siguiente:
P
# " −2
2e − e e − e−2
" #
−5 3
exp = .
−6 4 2e−2 − 2e 2e − e−2
Ejercicio 2.9. Una cadena de Markov es un proceso probabilı́stico con un número finito n
de estados caracterizado por números reales no negativos ai j (que representa la probabilidad
de cambiar del estado i al estado j en un paso del proceso); se impone la condición de que
j=1 ai j = 1. Si A = [ai j ] ∈ Mn (R) es la llamada matriz de transición de la cadena de Markov,
Pn
resulta que la probabilidad de cambiar del estado i al estado j en k pasos es la entrada (i, j) de
la matriz Ak . Comprobar que
1 1 
 4 +
1 1 k+1 1 1 1 k+1 
 2 2 0  2 2 4 − 2 
  
A =  41 =⇒ =  .
1 1  k 1 1 1

A
 
 2 4    4 2 4 

1 1 1 k+1 1 k+1 

0 2 2
1
4− 2
1
2
1
4 + 2
Ejercicio 2.10. Sea A, B ∈ Mn (C) dos matrices cualesquiera. Demostrar que los polinomios
caracterı́sticos pAB (t) y pBA (t) coinciden.
[[ Indicación: Si det A , 0, es BA = A−1 (AB)A. Si det A = 0, demostrar que det (A−µIn ) , 0
para casi todo µ ∈ C y concluir que para cada λ fijo, la expresión
t 7→ det (λIn − (A − tIn )B) − det (λI − B(A − tIn ))
es un polinomio con más de n raı́ces. ]]

Ejercicio 2.11. Calcular los polinomios caracterı́stico y mı́nimo de las matrices:

 
  1 0 1 0
 3 2 2  0 1 0 1
A =  1 4 1  , B =   .
 
1 0 1 0 
−2 −4 −1
  
 
0 1 0 1
Ejercicio 2.12. Sea S ∈ End(M2 (F)) el operador de transposición, es decir S (A) := At (véase
el Ejercicio 1.14). Calcular los polinomios caracterı́stico y mı́nimo de S . Exhibir una base
de autovectores para el operador S .
Ejercicio 2.13. (a) Sea A ∈ Mn (F) una matriz con n autovalores λ1 , . . . , λn , no necesariamente
distintos. Si f (t) ∈ F[t] es un polinomio cualquiera, demostrar que los autovalores de la matriz
f (A) son f (λ1 ), . . . , f (λn ).
(b) Comprobar que la traza de Ak obedece tr(Ak ) = λk1 + · · · + λkn , para todo k ∈ N.
Ejercicio 2.14. Sea A ∈ Mn (F) una matriz inversible. Demostrar que el coeficiente de t en el
polinomio caracterı́stico pA (t) es (−1)n−1 det A tr(A−1 ).
Ejercicio 2.15. Decimos que una matriz B ∈ Mn (F) es idempotente si B2 = B. Comprobar

que la matriz (In − B) es también idempotente. Demostrar que los autovalores distintos de B
son {0, 1}, excepto si B = O ó B = I.
¿Qué puede afirmarse acerca de la forma de Jordan de una matriz idempotente B ?
Verificar que r(B) = tr B cuando B es idempotente.
Ejercicio 2.16. Una matriz A ∈ Mn (F), sobre un cuerpo F cualquiera, se llama semisimple si
su polinomio mı́nimo es un producto de factores irreducibles distintos. Comprobar que una
matriz compleja (el caso F = C) es semisimple si y sólo si es diagonalizable.
Exhibir una matriz B ∈ M4 (R) que es semisimple pero no diagonalizable.
Ejercicio 2.17. Si A ∈ Mn (R) la matriz simétrica con entradas ai j = [[i= j + 1]] + [[ j=i + 1]], es
decir, tiene entradas 1 en las dos subdiagonales principales, y las demás entradas cero. Para
n = 5, por ejemplo, es
 
0 1 0 0 0
1 0 1 0 0
 
A = 0 1 0 1 0 .
0 0 1 0 1
 
0 0 0 1 0
i jπ
Sea B ∈ Mn (R) la matriz con entradas bi j = sen . Verificar que las columnas de B son
n+1
autovectores de A. ¿Cuáles son los autovalores correspondientes? es la matriz A diagonali-
zable?
Ejercicio 2.18. Calcular los polinomios caracterı́stico y mı́nimo de la matriz

 
5 −1 0 0 0
6 0 −1 0 0
A = 0 0 0 0 0 .
 
0 0 0 3 1
 
0 0 0 −1 1
Ejercicio 2.19. Calcular la forma de Jordan de la matriz triangular siguiente:
 
1 −2 3 4 
0 1 −1 −2
A =   .
0 0 1 4 
0 0 0 −3
Para hallarla, se debe proceder ası́:
(a) Identificar un autovector y para el autovalor −3.
(b) Identificar los subespacios V1 , V2 , V3 anulados por (A − I4 ), (A − I4 )2 , (A − I4 )3 , respec-
tivamente.
(c) Hallar un vector x ∈ V3 \ V2 tal que {(A − I4 )2 x, (A − I4 )x, x, y} sea una base de F4 .
(d) Si P es la matriz cuyas columnas son los vectores de esta base, calcular P−1 .
(e) Verificar que la matriz P−1 AP es una suma directa de bloques de Jordan.
Ejercicio 2.20. Sea C(t) := Cr tr + Cr−1 tr−1 + · · · + C1 t + C0 ∈ Mn (F[t]) una matriz n × n con
entradas polinomiales, o lo que es lo mismo, un polinomio con coeficientes Ci en Mn (F).
Mostrar que hay otro polinomio matricial Q(t) tal que
C(t) = Q(t) (tIn − A) + C(A);
es decir, que es residuo de la “división a la derecha” de C(t) por (tIn − A) es la matriz
C(A) := Cr Ar + Cr−1 Ar−1 + · · · + C1 A + C0 .
Ejercicio 2.21. Sea A ∈ Mn (F) una matriz con polinomio caracterı́stico pA (t) y polinomio
mı́nimo qA (t). Sea dn−1 (t) el máximo común divisor de los menores (n − 1) × (n − 1) de A,
esto es, el máximo común divisor de las entradas de adj(tIn − A).
(a) Comprobar que dn−1 (t) divide pA (t). Si
pA (t)
q̃(t) := ,
dn−1 (t)
verificar que q̃(A) = O y como consecuencia, que qA (t) divide q̃(t). [[ Indicación: Usar el
ejercicio anterior. ]]
(b) Si q̃(t) = s(t) qA (t) en F[t], demostrar que s(t) ≡ 1 y concluir que qA (t) = pA (t)/dn−1 (t).19
19 Esteejercicio proporciona una fórmula para qA (t), haciendo constar que existe un proceso algorı́tmico para
obtener el polinomio mı́nimo. Véase la sección IV.6 del libro: Feliks Gantmacher, The Theory of Matrices,
Chelsea, New York, 1959.
3 Ortogonalidad y Teorı́a Espectral

Hasta ahora, el cuerpo subyacente a los espacios vectoriales y matrices ha sido arbitrario, y los
conceptos principales han sido la independencia lineal de vectores y la semejanza de matrices
cuadradas. (La única excepción a esta universalidad del cuerpo F de escalares ocurrió cuando
fue necesario suponer que los polinomios caracterı́sticos escinden en F[t] para obtener la
forma de Jordan, en cuyo caso se tomó F = C por comodidad.) De ahora en adelante, se
adoptará un punto de vista más estrecho, porque los conceptos de ortogonalidad y positividad
son más ligados al uso de escalares reales o complejos.
Ası́ pues, en este capı́tulo el cuerpo de base será R, el cuerpo de los números reales, o bien
C, el de los números complejos. Cuando una discusión se aplica en los dos casos, se usará la
letra F para denotar F = R ó F = C indiferentemente.
Si α ∈ C, α = s + it con s, t ∈ R, denótese por ᾱ = s − it su conjugado complejo; desde
luego, es ᾱ = α si y sólo si α ∈ R.
3.1 Productos escalares reales y complejos

Definición 3.1. Sea V un espacio vectorial sobre F = R ó C. Un producto escalar en V es una
operación que a cada par de vectores x, y ∈ V asocia un escalar hx, yi ∈ F, con las siguientes
propiedades; si x, y, z ∈ V y α ∈ F, entonces:
(a) hx, yi = hy, xi,
(b) hx, y + zi = hx, yi + hx, zi,
(c) hx, αyi = αhx, yi,
(d) hx, xi ≥ 0, con igualdad sólo si x = 0 en V.
Algunos libros emplean el término producto interno como sinónimo de producto escalar.1
Ejemplo 3.2. Si F = R y V = Rn , el producto punto de dos vectores (de columna) es
hx, yi ≡ x · y := x1 y1 + x2 y2 + · · · + xn yn .
Esto es un producto escalar real.

Si F = C y V = Cn , se define análogamente
hz, wi ≡ z̄ · w := z̄1 w1 + z̄2 w2 + · · · + z̄n wn .
Esto es un producto escalar complejo.

1 En
estos apuntes, se prefiere el término “producto escalar”; pero eso es cuestión de gustos, y bien se ha
dicho que de gustibus non est disputandum. De hecho, en la literatura matemática, abundan los productos
internos y externos, como también los productos interiores y exteriores. Para no complicar las cosas antes de
tiempo, es mejor evitar esta terminologı́a.
Definición 3.3. Una aplicación T : V → W entre dos espacios vectoriales complejas (en el
caso F = C) se llama semilineal (o bien antilineal) si
T (α x + β y) = ᾱ x + β̄ y para todo x, y ∈ V, α, β ∈ C.
Si V, W, Z son tres espacios vectoriales sobre un cuerpo F cualquiera, se dice que una
aplicación T : V × W → Z es bilineal si
• x 7→ T (x, y) queda en L(V, Z) para cada y ∈ W;
• y 7→ T (x, y) queda en L(W, Z) para cada x ∈ V.
Es decir, T es bilineal si es lineal en cada variable por separado.

Si V, W, Z son tres espacios vectoriales complejos, se dice que una aplicación T : V × W →
Z es sesquilineal si T es semilineal en una variable y lineal en la otra.2
Las propiedades (a), (b), (c) de la Definición 3.1 muestran que el producto escalar, con-
siderado como aplicación V × V → F, es bilineal en el caso real F = R pero sesquilineal en
el caso complejo F = C. (Fı́jese que (a) y (b) implican que hy + z, xi = hy, xi + hz, xi cuando
x, y, z ∈ V.)
Además, la sesquilinealidad, según la propiedad (c) arriba, dice que hx, yi es lineal en
la segunda variable, pero semilineal en la primera variable. Este convenio, establecido por
los trabajos de Dirac en los albores de la mecánica cuántica, tiene diversas ventajas.3 Sin
embargo, hay que advertir que la mayorı́a de los textos de matemática, en contraste con los
de fı́sica, adoptan el convenio opuesto, en donde el producto escalar es lineal en la primera
variable y semilineal en la segunda. Caveat lector.
Ejemplo 3.4. Si V = CR [a, b] es el espacio de funciones continuas f : [a, b] → R, defı́nase

Z b
h f, gi := f (t)g(t) dt.
a
Es fácil verificar que esta es un producto escalar real.

En el espacio vectorial complejo CC [a, b] de funciones continuas f : [a, b] → C, se puede
definir Z b
h f, gi := f (t)g(t) dt.
a
Rb
En particular, h f, f i = a | f (t)|2 dt ≥ 0, con igualdad si y sólo si la función continua f es
idénticamente cero en el intervalo [a, b].
2 Elprefijo sesqui- significa “1 12 veces”.
3 Paul Adrien Maurice Dirac (1902–1984), fı́sico inglés, obtuvo una ecuación que describe el compor-
tamiento relativista del electrón. En 1930, publicó su Principles of Quantum Mechanics, que sentó el for-
malismo básico de la fı́sica cuántica (e incluye sus convenios notacionales).
Los espacios vectoriales del ejemplo anterior son infinitodimensionales. Para evitar las
matices de análisis tales como la convergencia de integrales y series, en adelante se asumirá
que todos los espacios vectoriales son de dimensión finita. Sin embargo, buena parte de la
discusión que sigue es directamente extensible al caso infinitodimensional.
Ejemplo 3.5. Si V = Rm×n es el espacio vectorial de matrices m × n reales, defı́nase
hA, Bi := tr(At B).
Esta expresión es evidentemente lineal en A y en B. Para verificar su positividad, es cuestión

de notar que
n X
X m
tr(A A) =
t
a2i j ≥ 0,
j=1 i=1
con igualdad si y sólo si todo ai j = 0, es decir, A = O.

La positividad del producto escalar, en la propiedad (d) de la Definición 3.1, permite
introducir el concepto de longitud de un vector. En adelante, en este capı́tulo, V será un
espacio vectorial finitodimensional, real o complejo según el contexto, dotado de un producto
escalar h·, ·i fijo.
Definición 3.6. Se define la norma (o longitud) de un vector x ∈ V por
p
kxk := hx, xi. (3.1)
Proposición 3.7. Se verifica la desigualdad de Schwarz:

hx, yi ≤ kxk kyk para todo x, y ∈ V. (3.2)
con igualdad si y sólo si x, y son proporcionales.

Demostración. Es claro que (3.2) se cumple con igualdad si x = 0 o bien si y = 0 (el vector
0 es proporcional a cualquier vector x porque 0 = 0x). Supóngase entonces que x , 0, y , 0.
Supóngase además, en el caso F = C, que hx, yi ∈ R.
Para t ∈ R, colóquese f (t) := kx + tyk2 . Entonces
f (t) = hx + ty, x + tyi

= hx, xi + 2thx, yi + t2 hy, yi porque hy, xi = hx, yi ∈ R,
= kyk2 t2 + 2hx, yi t + kxk2 =: at2 + bt + c,
la cual es una función cuadrática real de t, con a > 0. Como f (t) ≥ 0 para todo t por hipótesis,
el discriminante de la ecuación cuadrática at2 + bt + c = 0 no puede ser positivo. De hecho,
si t1 , t2 fueran dos raı́ces distintas de esta ecuación, serı́a f (t) < 0 para t1 < t < t2 . Resulta
entonces que b2 − 4ac ≤ 0, es decir,
4hx, yi2 − 4kxk2 kyk2 ≤ 0,

o bien hx, yi2 ≤ kxk2 kyk2 . Al tomar la raı́z cuadrada positiva de ambos lados, se obtiene la
desigualdad deseada:
hx, yi ≤ kxk kyk,
con igualdad sólo si b2 − 4ac = 0, es decir, sólo si la ecuación cuadrática at2 + bt + c = 0 posee
una sola raı́z real t = t0 . Pero entonces f (t0 ) = kx + t0 yk2 = 0 y en consecuencia x + t0 y = 0
en V. Luego x = −t0 y para algún t0 ∈ R, es decir, los vectores x, y son proporcionales.
En el caso F = C, si hx, yi < R, entonces hx, yi = r eiθ con r > 0, θ ∈ R. Colóquese z := e−iθ y,
ası́ que hx, zi = r ∈ R. De (3.2), ya verificado para ese caso, se obtiene |hx, zi| ≤ kxk kzk; pero
kzk = |e−iθ | kyk = kyk, ası́ que

hx, yi = eiθ hx, zi = hx, zi ≤ kxk kzk = kxk kyk.
Corolario 3.8 (Desigualdad de Cauchy). Si x1 , . . . , xn , y1 , . . . , yn ∈ R, entonces
(x1 y1 + · · · + xn yn )2 ≤ (x12 + · · · + xn2 ) (y21 + · · · + y2n ).
Proposición 3.9. La norma de un vector tiene las siguientes propiedades; si x, y ∈ V, α ∈ F,

entonces:
(a) kαxk = |α| kxk (homogeneidad positiva),
(b) kx + yk ≤ kxk + kyk (desigualdad triangular),
(c) kxk ≥ 0, con igualdad sólo si x = 0 en V.

√
Demostración. Ad (a): Basta notar que kαxk2 = hαx, αxi = (ᾱα) kxk2 y que ᾱα = |α|.
Ad (b): Al usar la desigualdad de Schwarz (3.2), se obtiene
kx + yk2 = hx + y, x + yi2
= hx, xi2 + hx, yi + hy, xi + hy, yi2
≤ kxk2 + 2|hx, yi| + kyk2
≤ kxk2 + 2kxk kyk + kyk2 = kxk + kyk 2 .

Ad (c): Esto es inmediato de la propiedad (d) de la Definición 3.1.
Lema 3.10 (Ley del paralelogramo). Si V es un espacio vectorial con un producto escalar y
si x, yy ∈ V, entonces
kx + yk2 + kx − yk2 = 2kxk2 + 2kyk2 .
Demostración. Este es un cálculo sencillo:
kx + yk2 + kx − yk2 = hx + y, x + yi + hx − y, x − yi
= 2hx, xi + 2hy, yi = 2kxk2 + 2kyk2 .
Hay otras normas sobre Rn ó Cn , es decir, funciones x 7→ kxk que cumplen las propiedades
(a), (b), (c) de la Proposición 3.9. Dos ejemplos son
kxk1 := |x1 | + |x2 | + · · · + |xn |,
kxk∞ := max{ |x1 |, |x2 |, . . . , |xn | }. (3.3)
No es difı́cil chequear que estas normas no cumplen la ley del paralelogramo. De hecho, se
sabe que cualquier norma sobre Rn ó Cn que cumple esa ley determina un producto escalar
tal que hx, xi = kxk2 .
Lema 3.11 (Polarización). Si V es un espacio vectorial con un producto escalar, la norma
(3.1) determina el producto escalar por polarización:
Caso F = R : hx, yi = 14 kx + yk2 − 14 kx − yk2 .
Caso F = C : hx, yi = 14 kx + yk2 − 14 kx − yk2 + 4i kix + yk2 − 4i kix − yk2 .
Demostración. En ambos casos, se obtiene hx, yi al hacer una expansión directa del lado
derecho de la ecuación.
Definición 3.12. La longitud kx − yk se llama la distancia entre dos vectores x, y ∈ V.
En el caso F = R, si x , 0 y y , 0, la desigualdad de Schwarz implica que
hx, yi
−1 ≤ ≤ 1,
kxk kyk
ası́ que hay un único ángulo θ con 0 ≤ θ ≤ π tal que cos θ := hx, yi/kxk kyk. Se dice que θ es
el ángulo entre los vectores no nulos x, y. Se verifica la relación hx, yi = kxk kyk cos θ, pero es
tautológica.
Definición 3.13. Dos vectores x, y ∈ V son ortogonales si hx, yi = 0. Se escribe x ⊥ y para
significar que x, y son ortogonales.
Se dice que los vectores no nulos x1 , . . . , xm ∈ V forman un conjunto ortogonal si xi ⊥ x j
para i , j.
Lema 3.14. Un conjunto ortogonal de vectores es linealmente independiente.
Demostración. Sea {x1 , . . . , xm } un conjunto ortogonal de vectores. Sean c1 , . . . , cm ∈ F tales
que c1 x1 + · · · + cm xm = 0. Para cada ı́ndice j = 1, . . . , m, vale
0 = hx j , 0i = hx j , c1 x1 + · · · + cm xm i = hx j , c j x j i = c j kx j k2 ,
y por tanto c j = 0. Luego {x1 , . . . , xm } es linealmente independiente.
Definición 3.15. Si M es un subespacio de V, su complemento ortogonal M ⊥ es el subes-
pacio de V definido por
M ⊥ := { y ∈ V : hy, xi = 0 para todo x ∈ M }.
Obsérvese que M ⊥ es un subespacio de V porque, si y, z ∈ M ⊥ , α ∈ F y si x ∈ M, entonces
hy + z, xi = hy, xi + hz, xi = 0 + 0 = 0,
hαy, xi = ᾱhy, xi = ᾱ0 = 0.
3.2 Bases ortonormales

Definición 3.16. Se dice que una base {e1 , . . . , en } de V es una base ortonormal si se verifica
las siguientes dos propiedades:
(a) he j , ek i = 0 cuando j , k;
(b) hek , ek i = 1 para k = 1, . . . , n.

Alternativamente, estas dos condiciones pueden combinarse en una:
he j , ek i = [[ j = k]] para todo j, k = 1, . . . , n. (3.4)
En otras palabras, {e1 , . . . , en } es una base ortonormal de V si es un conjunto ortogonal de n

vectores tales que kek k = 1 para todo k.
Si V posee una base ortonormal {e1 , . . . , en }, sean x = nj=1 x j e j , y = nk=1 yk ek las expre-
P P
siones de dos vectores x, y ∈ V en términos de esta base. Entonces
n
X n
X Xn X
n
hx, yi = x je j, yk ek = hx j e j , yk ek i
j=1 k=1 j=1 k=1
n X
X n n
X
= x̄ j yk he j , ek i = x̄k yk = x̄1 y1 + x̄2 y2 + · · · + x̄n yn ,
j=1 k=1 k=1
porque los términos de la doble suma con j , k se anulan. De este modo, se recupera la forma
explı́cita del Ejemplo 3.2 para el producto escalar al usar coordenadas respecto de una base
ortonormal.
I Una base ortonormal permite identificar el espacio vectorial dual V ∗ con el espacio vec-
torial original V. En efecto, sea E = {e1 , . . . , en } una base ortonormal de V; defı́nase un juego
de formas lineales F := { f1 , . . . , fn } ⊂ V ∗ por
fk (x) := hek , xi para todo k = 1, . . . , n.
Si x = nj=1 x j e j , entonces fk (x) = xk , ası́ que F es la base de V ∗ dual a la base E de V.

P
Defı́nase una aplicación semilineal J : V → V ∗ por J nk=1 yk ek := nk=1 ȳk fk . Por un

P P
análogo de la Proposición 1.14, la aplicación semilineal J queda determinado por sus valores
sobre una base de V, es decir, basta saber que J(ek ) := fk para k = 1, 2, . . . , n. Entonces
n
X n
X n
X
J(y) = ȳk fk , J(y)(x) = ȳk fk (x) = ȳk xk = hy, xi. (3.5)
k=1 k=1 k=1
Resulta, entonces, que J(y) es la forma lineal x 7→ hy, xi. El resultado de este cálculo aclara
que J tiene una descripción que no depende de la base ortonormal especı́fica E de V. De este
modo, la aplicación J proporciona una identificación “canónica” de V ∗ con V, en presencia
de un producto escalar.
Lema 3.17. Bajo la identificación (3.5) de V ∗ con V, el complemento ortogonal M ⊥ de un

subespacio M ⊆ V coincide con el anulador M ⊥ ≤ V ∗ de la Definición 1.21.
En consecuencia, dim(M ⊥ ) = dim V − dim M.
Demostración. Es cuestión de notar que
J(y) ∈ M ⊥ (anulador) ⇐⇒ J(y)(x) = 0 para todo x ∈ M

⇐⇒ hy, xi = 0 para todo x ∈ M
⇐⇒ y ∈ M ⊥ (complemento ortogonal).
I Para comprobar la existencia de una base ortonormal para un espacio vectorial con pro-
ducto escalar, hay un algoritmo que la construye a partir de una base cualquiera. Se trata de
un proceso iterativo que toma cada vector de la base original y lo proyecta sobre una recta que
es ortogonal a cada uno de los vectores anteriores. Este proceso se conoce como el algoritmo
de Gram y Schmidt.4
Proposición 3.18. Sea V un espacio vectorial de dimensión n con un producto escalar, y sea
B = {x1 , . . . , xn } una base de V. Sea e1 := x1 /kx1 k; enseguida defı́nase, para k ≤ n,
y2 := x2 − he1 , x2 i e1 , e2 := y2 /ky2 k;
y3 := x3 − he1 , x3 i e1 − he2 , x3 i e2 , e3 := y3 /ky3 k;
.. ..
. .
yk := xk − he1 , xk i e1 − he2 , xk i e2 − · · · − hek−1 , xk i ek−1 , ek := yk /kyk k. (3.6)
Entonces { e1 , . . . , ek } es una base ortonormal del subespacio linhx1 , . . . , xk i; en particular,

E := {e1 , . . . , en } es una base ortonormal de V.
Demostración. Por inducción sobre k. Fı́jese que x1 , 0 (por la independencia lineal de B),
ası́ que kx1 k , 0. Luego {e1 } es una base ortonormal de linhx1 i = { αx1 : α ∈ F }. En efecto, e1
es un múltiplo de x1 tal que ke1 k = 1.
Supóngase entonces que e1 , . . . , ek−1 han sido elegidos por el procedimiento indicado, y
que forman una base ortonormal de linhx1 , . . . , xk−1 i. Para que {e1 , . . . , ek } sea base ortonormal
de linhx1 , . . . , xk i, basta comprobar que ek ⊥ e j para j < k y que kek k = 1. Si j < k, entonces
k−1
X k−1
X
he j , yk i = e j , xk − hei , xk i ei = he j , xk i − hei , xk i he j , ei i
i=1 i=1
k−1
X
= he j , xk i − hei , xk i [[ j=i]] = he j , xk i − he j , xk i = 0.
i=1
4 Este algoritmo aparece en un libro de Laplace, Théorie Analytique des Probabilités (Paris, 1816) y una
versión modificada aparece en un trabajo de Jørgen Pedersen Gram en 1883. La versión moderna del algoritmo
se debe a Erhard Schmidt, estudiante de Hilbert y autor de notables trabajos sobre las ecuaciones integrales, en:
Zur Theorie der linearen und nichtlinearen Integralgleichungen, I: Entwicklung willkürlicher Funktionen nach
Systemen vorgeschriebener, Mathematische Annalen 63 (1907), 433–476.
En consecuencia, cualquier múltiplo de yk es también ortogonal a e j cuando j < k. Basta

entonces comprobar que yk , 0, para que se pueda dividir yk por el número positivo kyk k y
ası́ definir ek como un múltiplo de yk que cumple kek k = 1.
Ahora, si yk fuera 0, por (3.6) xk serı́a una combinación lineal de e1 , . . . , ek−1 , los cuales
son a su vez combinaciones lineales de x1 , . . . , xk−1 . Luego x1 , . . . , xk serı́an linealmente de-
pendientes, que es falso porque {x1 , . . . , xn } es una base de V. Se concluye que yk , 0. Luego
ek está bien definida, tiene norma 1 y es ortogonal a linhe1 , . . . , ek−1 i.
Corolario 3.19. Una base ortonormal {e1 , . . . , em } para un subespacio W de V puede com-
pletarse para obtener una base ortonormal de V.
Demostración. Los vectores e1 , . . . , em son linealmente independientes y generan el subes-

pacio W. Luego, por la Proposición 1.9, es posible hallar otros vectores xm+1 , . . . , xn ∈ V
tales que {e1 , . . . , em , xm+1 , . . . , xn } sea una base de V (no necesariamente ortonormal). Ahora
aplı́quese el algoritmo de Gram y Schmidt a esta base: los primeros m vectores no sufren
cambio alguno y el resultado es una base ortonormal {e1 , . . . , en } de V cuyos primeros m ele-
mentos son e1 , . . . , em originales.
3.3 Matrices ortogonales, unitarias y positivas

La transpuesta de una aplicación lineal T ∈ L(V, W) es, según la Definición 1.18, la aplicación
lineal T t ∈ L(W ∗ , V ∗ ) dada por T t (g) := g ◦ T , para todo g ∈ W ∗ . Si V y W son espacios vec-
toriales reales, dotados con productos escalares, las identificaciones canónicas JV : V → V ∗
y JW : W → W ∗ son R-lineales permiten reemplazar T t : W ∗ → V ∗ por una aplicación lineal
de W en V. En efecto, si y ∈ W y x ∈ V, se ve que
hJV−1 T t JW (y), xiV = T t JW (y)(x)

= JW (y) T (x) = hy, T (x)iW .

En este cálculo se ha etiquetado las productos escalares y las identificaciones J con subı́ndices
V y W, para énfasis; pero es usual omitir estos subı́ndices por comodidad.
Definición 3.20. En la presencia de productos escalares para los espacios vectoriales V y W

sobre R, se identifica la aplicación T t : W ∗ → V ∗ con la aplicación J −1 T t J : W → V. Ası́, se
puede redefinir la transpuesta de T : V → W como el operador T t : W → V determinado por
la fórmula
hT t (y), xi := hy, T (x)i.
Para el caso V = Rn , W = Rm , es más cómodo usar la notación del producto punto en vez
de los corchetes angulares para denotar los productos escalares. Los vectores en el espacio
vectorial “original” Rn son vectores de columna, considerados como matrices n × 1. El es-
pacio vectorial dual (Rn )∗ se identifica con los vectores de fila,5 es decir, los matrices 1 × n.
De ahora en adelante, se escribirá xt para denotar el vector de fila que es la transpuesta del
5 Algunos textos franceses escriben Rn , en lugar de (Rn )∗ , para denotar el espacio dual de Rn .
vector de columna x. El producto escalar se convierte en xt y = x · y. La simetrı́a del producto

escalar dice que
xt y = x · y = y · x = yt x.
La base estándar de Rn es una base ortonormal, con respecto al producto punto de Rn . Si
A ∈ Rm×n es la matriz de T ∈ L(Rn , Rm ) con respecto a las bases estándares, la fórmula que
define la aplicación transpuesta es entonces equivalente a la fórmula matricial:
x · At y = xt At y = (At y)t x = yt Ax = y · Ax. (3.7)
I Para espacios vectoriales complejos (es decir, cuando F = C), hay que tomar en cuenta que
las identificaciones canónicas JV : V → V ∗ y JW : W → W ∗ no son C-lineales, sino semilin-
eales. Esta circunstancia obliga a un cambio de notación.
Definición 3.21. Sean V y W espacios vectoriales sobre C. Si T ∈ L(V, W), se define la
aplicación adjunta T ∗ ∈ L(W, V) por
T ∗ := JV−1 T t JW ∈ L(W, V). (3.8)
(Fı́jese que la composición de dos aplicaciones semilineales es una aplicación lineal.) Si

y ∈ W y x ∈ V, se ve que
hJV−1 T t JW (y), xiV = T t JW (y)(x) = JW (y) T (x) = hy, T (x)iW ,

al igual que en el caso real. La aplicación adjunta T ∗ ∈ L(W, V) queda determinada por la
fórmula
hT ∗ (y), xi := hy, T (x)i, (3.9)
en donde se suprimen los ı́ndices de los productos escalares.
En cálculos prácticos, se puede mover una aplicación lineal de un lado a otro de un pro-
ducto escalar, reemplazándola por su aplicación adjunta al otro lado.
Sean E = {e1 , . . . , en } y U = {u1 , . . . , um } unas bases ortonormales para V y W, respecti-
vamente. Sean A = [T ]U E
y B = [T ∗ ]EU las matrices correspondientes. De acuerdo con la
fórmula (1.6), se ve que
m
X
T (e j ) = ai j ui , ası́ que ai j = hui , T (e j )i,
i=1
Xn
T ∗ (u s ) = brs er , ası́ que brs = her , T ∗ (u s )i,
r=1
para todo j = 1, . . . , m y s = 1, . . . , n. Por lo tanto,
brs := her , T ∗ (u s )i = hT (er ), u s i = hu s , T (er )i = ā sr .
Es decir, además de transponer la matriz A hay que tomar el conjugado complejo de cada uno
de sus elementos.
Definición 3.22. Sea A = [ai j ] ∈ Cm×n una matriz compleja m × n. Se denota por A := [āi j ]
su matriz conjugada, obtenida de A al tomar el conjugado complejo de cada uno de sus
elementos. Obsérvese que A = A si y sólo si todas las entradas de A son reales.
Se denota por A∗ := [ā ji ] ∈ Cn×m la matriz adjunta de A, la cual es la matriz transpuesta
de A o equivalentemente, la matriz conjugada de At :
A∗ := (A)t = At .
Fı́jese que las aplicaciones A 7→ A y A 7→ A∗ son semilineales. La primera conserva el orden

de multiplicación: AB = A B, mientras la segunda revierte el orden: (AB)∗ = B∗ A∗ en general.
Definición 3.23. Sea A ∈ Mn (F) una matriz cuadrada sobre un cuerpo cualquiera. se dice que
A es una matriz simétrica si At = A.
En el caso complejo, se dice que una matriz cuadrada A ∈ Mn (C) es una matriz hermı́tica
si A∗ = A. Una matriz simétrica real es también hermı́tica.6
Ejemplo 3.24. Si A ∈ Rm×n , las matrices cuadradas At A ∈ Mn (R) y AAt ∈ Mm (R) son simétri-
cas. En efecto,
(At A)t = At Att = At A, (AAt )t = Att At = AAt .
De igual modo, si B ∈ Cm×n , la matrices cuadradas B∗ B ∈ Mn (C) y BB∗ ∈ Mm (C) son hermı́ti-
cas. De hecho,
(B∗ B)∗ = B∗ B∗∗ = B∗ B, (BB∗ )∗ = B∗∗ B∗ = BB∗ .
Para las matrices hermı́ticas, en particular para las matrices reales simétricas, los auto-
vectores linealmente independientes que corresponden a autovalores distintos son de hecho
ortogonales.
Proposición 3.25. Sea A ∈ Mn (R) una matriz real simétrica, o bien sea A ∈ Mn (C) una matriz
hermı́tica. Entonces sus autovalores son todos reales. Además, si x1 , x2 son autovectores
de A que corresponden a autovalores distintos, entonces hx1 , x2 i = 0.
Si A posee n autovalores distintos {λ1 , . . . , λn }, sean {x1 , . . . , xn } unos autovectores de A
tales que Ax j = λ j x j y además kx j k = 1, para j = 1, . . . , n. Estos autovectores {x1 , . . . , xn }
entonces forman una base ortonormal de Rn ó Cn .
Demostración. Es suficiente considerar el caso F = C, en donde la matriz A cumple A∗ = A.
En términos del producto escalar estándar en Cn , vale hAy, xi = hy, Axi para todo x, yy ∈ Cn .
Si x ∈ Cn es un autovector para el autovalor λ de A, entonces
λkxk2 = λhx, xi = hx, λxi

= hx, Axi = hAx, xi
= hλx, xi = λ̄hx, xi = λ̄kxk2 ,
ası́ que λ̄ = λ porque x , 0. En otras palabras, vale λ ∈ R.

6 Esta es una de varios términos matemáticos nombrado por el francés Charles Hermite (1822–1901).
Ahora sean Ax1 = λ1 x1 , Ax2 = λ2 x2 con λ1 , λ2 . Entonces
λ2 hx1 , x2 i = hx1 , λ2 x2 i = hx1 , Ax2 i

= hAx1 , x2 i = hλ1 x1 , x2 i = λ1 hx1 , x2 i, ya que λ1 ∈ R.
Como λ2 , λ1 , se concluye que hx1 , x2 i = 0.

Si A posee n autovalores distintos, sean x1 , . . . , xn unos autovectores tales que Ax j = λ j x j
para j = 1, . . . , n. Estos son vectores no nulos y además ortogonales entre sı́, por el párrafo
anterior. Al multiplicar cada x j por un escalar positiva si fuera necesario, se puede también
suponer que kx j k = 1, para cada j. Entonces {x1 , . . . , xn } consta de n vectores mutuamente
ortogonales de norma 1, es decir, es una base ortonormal de Cn .
Proposición 3.26. Cada matriz hermı́tica A = A∗ ∈ MN (C) es diagonalizable. De hecho, A

posee una base ortonormal de autovectores.
Demostración. Para ver que A sea diagonalizable, basta comprobar que su polinomio mı́nimo
no tiene factores repetidos. En vista de la descomposición primaria de Cn correspondiente al
operador T A , basta considerar un autovalor λ de A y un vector x , 0 tal que (A − λIn )k x = 0
para algún k ≥ 2 y mostrar que x es un autovector de A. (De lo contrario, podrı́a haber un
bloque de Jordan Jk (λ) en la forma de Jordan de A.)
m
Si 2m−1 < k < 2m , entonces (A − λIn )k x = 0 implica que (A − λIn )2 x = 0. Luego, se puede
asumir que k = 2m para algún m = 1, 2, . . . . Ahora, la matriz (A − λIn ) es hermı́tica porque
λ ∈ R, ası́ que
m m−1 m−1 m−1 2
0 = hx, 0i = x, (A − λIn )2 x = (A − λIn )2 x, (A − λIn )2 x = (A − λIn )2 x .

m−1
Se concluye que (A − λIn )2 x = 0 en Cn . Al repetir este argumento m veces, se obtiene
(A − λIn )x = 0, es decir, x es un autovector para el autovector λ.
Ası́ las cosas, si ν1 , . . . , νr son los autovalores distintos de A, entonces la descomposición
primaria para T A es Cn = W1 ⊕ W2 ⊕ · · · ⊕ Wr , donde cada Wi = ker(T A − νi I) consta de todos
los autovectores para el autovalor νi (más el vector nulo). Estos subespacios son mutuamente
ortogonales: hxi , x j i = 0 para xi ∈ Wi , x j ∈ W j con i , j. Ejı́jase una base ortonormal en cada
subespacio Wi (si es necesario, una base preexistente puede modificarse con el algoritmo de
gram y Schmidt). Su unión es una base ortonormal de Cn , formado por autovectores de A.
I La ubicuidad de bases ortonormales en la teorı́a de las matrices simétricas reales y las

matrices hermı́ticas complejas justifica la introducción de las siguientes dos clases de matri-
ces. Se generan gran cantidad de ejemplos por el algoritmo de Gram y Schmidt, como será
evidente en los Ejercicios al final de este capı́tulo.
Definición 3.27. (a) Una matriz cuadrada Q ∈ Mn (R) es una matriz ortogonal si sus colum-
nas forman una base ortonormal de Rn .
(b) Una matriz cuadrada U ∈ Mn (C) es una matriz unitaria si sus columnas forman una
base ortonormal de Cn .
Proposición 3.28. (a) Una matriz cuadrada Q ∈ Mn (R) es ortogonal si y sólo si Qt Q = In .

(b) Una matriz cuadrada U ∈ Mn (C) es unitaria si y sólo si U ∗ U = In .
Demostración. Es suficiente demostrar la parte (b), porque una matriz real es ortogonal si y
sólo si es unitaria.
Sean u1 , . . . , un las columnas de la matriz U ∈ Mn (C). Por definición, U es unitaria si y
sólo si hui , u j i = [[i= j]] para i, j = 1, . . . , n.
La entrada (i, j) de la matriz M = U ∗ U cumple
n
X
mi j = ūki uk j = hui , u j i,
k=1
ası́ que U es unitaria si y sólo si mi j = [[i= j]] para todo i, j, si y sólo si M = In .

Corolario 3.29. (a) Una matriz cuadrada Q ∈ Mn (R) es ortogonal si y sólo si es inversible,
con Q−1 = Qt .
(b) Una matriz cuadrada U ∈ Mn (C) es unitaria si y sólo si es inversible, con U −1 = U ∗ .
Demostración. Si Q ∈ Mn (R) es ortogonal, entonces r(Q) = n porque sus n columnas son
linealmente independientes. Por tanto, Q es inversible. La fórmula Qt Q = In dice que Q−1 es
necesariamente igual a Qt ; en otras palabras, vale QQt = In también.
Este argumento se aplica, mutatis mutandis, al caso unitario: vale UU ∗ = In también.
I Las matrices de la forma At A (en el caso F = R) o bien A∗ A (en el caso F = C) son de gran
importancia en el álgebra lineal. En primer lugar, los rangos de A, A∗ , A∗ A y AA∗ coinciden,
como se demuestra a continuación.
Es parte del teorema de rango y nulidad (Proposición 1.23) que r(T ) = r(T t ) para una
aplicación lineal T cualquiera. Bajo la identificación (3.8) de la transpuesta abstracta T t ∈
L(W ∗ , V ∗ ) y la aplicación adjunta T ∗ ∈ L(W, V), se obtiene r(T ) = r(T ∗ ). La correspondencia
A ↔ T A entre matrices y operadores conlleva las igualdades
r(A) = r(A∗ ) para A ∈ Cm×n , r(B) = r(Bt ) para B ∈ Rm×n .
Lema 3.30. Si A ∈ Cm×n , entonces r(A) = r(A) = r(A∗ ) = r(At ).

Demostración. Cualquier relación de dependencia lineal entre las columnas de A:
c1 ā1 + c2 ā2 + · · · + cn ān = 0
es el conjugado complejo de otra relación de dependencia lineal entre las columnas de A:
c̄1 a1 + c̄2 a2 + · · · + c̄n an = 0.
De ahı́ se ve que r(A) = r(A).

La igualdad r(A) = r(A∗ ) viene del teorema de rango y nulidad. Además, como A∗ = At
en Cn×m , el argumento del párrafo anterior muestra que r(A∗ ) = r(At ).
Proposición 3.31. Si A ∈ Cm×n , entonces r(A∗ A) = r(A).
Demostración. Si x ∈ Cn , entonces Ax = 0 =⇒ A∗ Ax = 0; además,
A∗ Ax = 0 =⇒ hx, A∗ Axi = 0 =⇒ hAx, Axi = 0 =⇒ Ax = 0.
De ahı́ se concluye que Ax = 0 en Cm si y sólo si A∗ Ax = 0 en Cn . Por lo tanto, los subespacios

ker T A y ker T A∗ A de Cn coinciden. Luego n(A) = n(A∗ A).
Del teorema de rango y nulidad, se obtiene r(A∗ A) = n − n(A∗ A) = n − n(A) = r(A).
Corolario 3.32. Si A ∈ Rm×n , entonces r(At A) = r(A).
Corolario 3.33. Si A ∈ Cm×n , entonces r(AA∗ ) = r(A).
Demostración. Al aplicar la Proposición 3.31 a la matriz compleja A∗ en vez de A, se obtiene

r(AA∗ ) = r(A∗ ). Por el Lema 3.30, se concluye que r(AA∗ ) = r(A∗ ) = r(A).
Lema 3.34. Una matriz hermı́tica A ∈ Mn (C) es nula, A = O, si y sólo si hx, Axi = 0 para
todo x ∈ Cn .
Demostración. Fı́jese primero que cualquier A ∈ Mn (C) es nula si y sólo si hy, Axi = 0 para
todo x, y ∈ Cn . En efecto, si se cumple esta condición, se puede tomar y = Ax para que Ax = 0
en Cn para todo x ∈ Cn , esto es, T A = 0 en End(Cn ), lo cual implica que A = O.
Ahora sea A una matriz hermı́tica y supóngase que hx, Axi = 0 para todo x ∈ Cn . Entonces,
para todo x, y ∈ Cn , vale
hy, Axi + hx, Ayi = h(x + y), A(x − y)i − hx, Axi − hy, Ayi = 0
y por tanto 2<hy, Axi = hy, Axi + hAx, yi = hy, Axi + hx, Ayi = 0 porque A = A∗ .
Si hy, Axi = reiθ ∈ C, entonces |hy, Axi| = r = e−iθ hy, Axi = heiθ y, Axi. Del párrafo anterior,
con eiθ y en lugar de y, se concluye que |hy, Axi| = 0 y por ende hy, Axi = 0 para dos vectores
x, y cualesquiera. Luego A = O.
Lema 3.35. Una matriz cuadrada A ∈ Mn (C) es hermı́tica si y sólo si hx, Axi ∈ R para todo
x ∈ Cn .
Demostración. Si A = A∗ , entonces para cada x ∈ Cn vale
hx, Axi = hA∗ x, xi = hAx, xi = hx, Axi,
ası́ que hx, Axi es real.

Por otro lado, si hx, Axi ∈ R para todo x ∈ Cn , entonces
hx, (A − A∗ )xi = hx, Axi − hx, A∗ xi = hx, Axi − hAx, xi = 0 para todo x ∈ Cn .
Por el Lema anterior, se concluye que A − A∗ = O en Mn (C).

Definición 3.36. Una matriz cuadrada A ∈ Mn (C) es una matriz positiva si es hermı́tica y si
además
hx, Axi ≥ 0 para todo x ∈ Cn . (3.10)
En particular, una matriz cuadrática real A ∈ Mn (R) es positiva si y sólo si es simétrica y
cumple (3.10), es decir, si y sólo si xt Ax ≥ 0 para todo x ∈ Rn .
Se dice que una matriz positiva A ∈ Mn (C) es definida positiva7 si la desigualdad en
(3.10) es estricta para vectores no nulos: hx, Axi > 0 para todo x , 0 en Cn .
Ejemplo 3.37. Si A = B∗ B para alguna matriz B ∈ Mn (C), entonces A es una matriz positiva.
En efecto,
hx, Axi = hx, B∗ Bxi = hBx, Bxi = kBxk2 ≥ 0
para x ∈ Cn . (Resulta que este ejemplo es universal: para cada matriz positiva A, se puede
mostrar la existencia de una matriz B tal que A = B∗ B. Esto se verificará más adelante.)
Del mismo modo, cada matriz de la forma A = CC ∗ es positiva: tómese B := C ∗ .
Proposición 3.38. Una matriz cuadrada A ∈ Mn (C) es definida positiva si y sólo si es positiva
e inversible.
Demostración. Como A es hermı́tica, Cn posee una base ortonormal {u1 , . . . , un } formado por
autovectores de A. Sean λ1 , . . . , λn los autovalores correspondientes. La matriz A es inversible
si y sólo si su forma diagonal diag[λ1 , . . . , λn ] es inversible, si y sólo si λi , 0 para i = 1, . . . , n.
Entonces, si A no es inversible, hay al menos un autovalor nulo λi = 0. En este caso, el
autovector ui cumple hui , Aui i = hui , 0i = 0, ası́ que A no es definida positiva.
Supóngase que A es positiva e inversible, ası́ que λi , 0 para i = 1, . . . , n. De hecho, los
autovalores son números positivos: λi = hui , Aui i > 0. Obsérvese que si x = c1 u1 + · · · + cn un ,
entonces
Ax = c1 λ1 u1 + · · · + cn λn un ; hx, Axi = |c1 |2 λ1 + · · · + |cn |2 λn ,
de modo que hx, Axi = 0 si y sólo si cada ci = 0, si y sólo si x = 0. Por tanto, A es definida
positiva.
I Cada matriz real simétrica es una matriz hermı́tica, de oficio. Por tanto, la Proposición
anterior proporciona un criterio para detectar si una matriz (real, simétrica) dada, A, sea
definida positiva o no. Para que ese criterio sea eficaz, hay que determinar si A es inversible
(por ejemplo, al evaluar det A); también hay que comprobar las relaciones de positividad
(3.10). La eliminación gaussiana simple (sin intercambios de filas) permite resolver todas
estas inquietudes simultáneamente.
Proposición 3.39. Una matriz A ∈ Mn (R) es definida positiva si y sólo si es simétrica y los
pivotes sucesivos a(k)
kk
en la eliminación gaussiana simple son todos positivos.
7 Una consecuencia desafortunada de esta terminologı́a es que la matriz nula O es positiva, aunque no definida
positiva. Por razones históricas, el término matriz no negativa ha sido reservado para otra noción: una matriz
real (no necesariamente simétrica) es “no negativa” si todas sus entradas son números reales no negativas. Hay
matrices reales simétricas que son “no negativas” pero no son positivas en el sentido de la Definición 3.36; hay
otras que son positivas pero no son “no negativos”.
Demostración. La eliminación gaussiana simple, cuando es aplicable con éxito a una matriz
cuadrada inversible, produce una factorización A = LDU, en donde D es una matriz diagonal,
L es triangular inferior unipotente y U es triangular superior unipotente; ésta descomposición
es única. Obsérvese que At = U t DLt es la descomposición correspondiente de la matriz
transpuesta At . Por tanto, es U = Lt cuando A es simétrica.
Dicha eliminación gaussiana simple funciona cuando se puede garantizar que ningún piv-
ote a(k)
kk
se anulará durante el proceso. Si A es definida positiva, entonces
a(1)
11 = a11 = he1 , A e1 i > 0.
(k)
Para k > 1, akk es el elemento (k, k) de una matriz Mk A, donde la premultiplicación A 7→
Mk A ejecuta las operaciones de fila, del tipo (b), que colocan ceros debajo de la diagonal
en las primeras (k − 1) columnas de A. La postmultiplicación Mk A 7→ Mk AMkt ejecutarı́a las
operaciones de columna correspondientes; y estas operaciones de columna no cambian el
(k)
elemento (k, k) de las matrices intermedios, porque en cada paso se efectúa akk 7→ a(k)
kk
+ 0.
(k) t
Entonces akk es el elemento (k, k) de la matriz simétrica Mk AMk , ası́ que
a(k)
kk
= hek , Mk AMkt ek i = hMkt ek , AMkt ek i > 0
por ser A definida positiva. Fı́jese que Mkt ek , 0 porque hMkt ek , ek i = hek , Mk ek i = 1: al aplicar
las mismas operaciones de fila a la matriz identidad, no cambian la entrada 1 en la posición
(k, k) de la matriz In . Por tanto, una matriz definida positiva tiene la factorización A = LDLt
sin necesidad de hacer intercambios de filas. El factor diagonal es
0 . . . 0 
 
a11 0
(2)
 0 a22 0 . . . 0 
 
D :=  0 0 a(3)
33 . . . 0  .
 
 . .. .. . . .. 
 .. . . . . 
0 . . . a(n)
 
0 0 nn
Por otro lado, sea A una matriz simétrica e inversible que admite factorización A = LDLt
por eliminación gaussiana simple. Sea√ D =: [d √ i j ]. Si dkk > 0 para k = 1, . . . , n, entonces
D = D D , al definir D := diag[ d11 , . . . dnn ]. Entonces
1/2 1/2 1/2
A = LDLt = LD1/2 D1/2 Lt = Bt B, donde B := D1/2 Lt .

Luego A es inversible y positiva; por la Proposición 3.38, A es definida positiva.
Definición 3.40. Sea A ∈ Mn (R) una matriz definida positiva y sea A = LDLt su factorización
por eliminación gaussiana; sea C := LD1/2 , la cual es una matriz triangular inferior; entonces
A = CC t se llama la factorización de Cholesky de A.
La idea de esta factorización es la siguiente: si A = BBt para alguna matriz B, hay diversas
posibilidades para B; por ejemplo, se puede reemplazar B por (−B). Entre estas posibilidades,
hay una, B = C, que es triangular inferior, con entradas positivas en la diagonal. Se obtiene
el factor C por una variante de la eliminación gaussiana.
3.4 Operadores sobre espacios hilbertianos

En esta sección, V denotará un espacio vectorial sobre C, de dimensión finita n, dotado de
un producto escalar h·, ·i. definido en V. La incómoda frase “espacio vectorial complejo con
producto escalar” se puede abreviar por el término espacio hilbertiano, o bien “espacio de
Hilbert”.8 Un espacio vectorial sobre R con un producto escalar recibe el nombre de espacio
euclidiano.9
En vista de la fórmula (3.9), el adjunto de un operador lineal T ∈ End(V) es el operador
lineal T ∗ ∈ End(V) determinado por
hT ∗ (y), xi = hy, T (x)i, para todo x, y ∈ V. (3.11)
Más generalmente, si T ∈ L(V, W), esta fórmula define T ∗ ∈ L(W, V).
Proposición 3.41. Sean V, W son dos espacios hilbertianos y sea T ∈ L(V, W). Entonces
ker T ∗ es el complemento ortogonal T (V)⊥ de la imagen de T , y ker T es el complemento
ortogonal T ∗ (W)⊥ de la imagen de T ∗ .
En consecuencia, T ∗ es uno-a-uno si y sólo si T es sobreyectivo y viceversa.
Demostración. Obsérvese que T (V)⊥ ≤ W y que T ∗ (W)⊥ ≤ V.

Para un vector y ∈ W, vale
y ∈ ker T ∗ ⇐⇒ T ∗ (y) = 0
⇐⇒ hT ∗ (y), xi = 0 para todo x ∈ V
⇐⇒ hy, T (x)i = 0 para todo T (x) ∈ T (V)
⇐⇒ y ∈ T (V)⊥ .
De igual manera, para un vector x ∈ V, vale
x ∈ ker T ⇐⇒ T (x) = 0
⇐⇒ hy, T (x)i = 0 para todo y ∈ W
⇐⇒ hT ∗ (y), xi = 0 para todo T ∗ (y) ∈ T ∗ (W)
⇐⇒ x ∈ T ∗ (W)⊥ .
Definición 3.42. Un operador lineal T ∈ End(V) es autoadjunto si T ∗ = T .

Si A = [T ]EE ∈ Mn (C) es la matriz de T con respecto a una base ortonormal E de V, entonces
A es hermı́tica, es decir, A∗ = A en Mn (C).
8 Los trabajos de David Hilbert sobre ecuaciones integrales, que condujeron al estudio de espacios de fun-
ciones de cuadrado integrable, cobraron nueva relevancia con la formulación de la mecánica cuántica en los años
1925–30. El término “espacio de Hilbert” fue introducido por su estudiante John von Neumann (un húngaro,
cuyo nombre original fue Neyman János) en 1929, para describir espacios vectoriales infinitodimensionales
(completos) con producto escalar. Hoy en dı́a, se usa ese término para al caso finitodimensional también.
9 Algunos autores emplean el término espacio unitario para denotar un espacio finitodimensional complejo
con producto escalar, en vez de “espacio hilbertiano”. Es preferible limitar el adjetivo “unitario” a los operadores
unitarios.
Lema 3.43. Todo T ∈ End(V) puede escribirse, de forma única, como T = T 1 + iT 2 donde
T 1 y T 2 son operadores autoadjuntos.
Demostración. Si T = T 1 + iT 2 con T 1 , T 2 autoadjuntos, entonces T ∗ = T 1∗ − iT 2∗ = T 1 − iT 2

por la semilinealidad de la correspondencia T 7→ T ∗ . Por lo tanto, vale
T 1 = 21 (T ∗ + T ), T 2 = 2i (T ∗ − T ). (3.12)
Estas fórmulas establecen la unicidad de la “parte real” T 1 y de la “parte imaginaria” T 2 del

operador T .
Por otro lado, (3.12) permite definir T 1 y T 2 por T 1 := 12 (T ∗ + T ), T 2 := 2i (T ∗ − T ). Queda
claro que T 1∗ = 21 (T + T ∗ ) = T 1 y T 2∗ = − 2i (T − T ∗ ) = T 2 . Esto establece la existencia de la
descomposición deseada.
Lema 3.44. Si T ∈ End(V) es autoadjunto, sus autovalores son reales.
Demostración. Es cuestión de adaptar la demostración de la Proposición 3.25. Si T ∗ = T , si

λ ∈ C es un autovalor de T y si x , 0 es un autovector correspondiente, entonces
λhx, xi = hx, λxi = hx, T (x)i = hT (x), xi = hλx, xi = λ̄hx, xi,
ası́ que λ̄ = λ, es decir, λ ∈ R.

Obsérvese también que si T ∗ = T , entonces hx, T (x)i ∈ R para cada x ∈ V, porque
hx, T (x)i = hT (x), xi = hT ∗ (x), xi = hx, T (x)i.
Definición 3.45. Un operador lineal T ∈ End(V) en un espacio vectorial cualquiera se llama

idempotente si T 2 = T . Fı́jese que T k = T también, para k = 3, 4, . . . .
Un operador lineal P ∈ End(V) en un espacio hilbertiano es un proyector ortogonal, o
simplemente un proyector,10 si P es idempotente y autoadjunto, es decir, si P2 = P = P∗ .
Sea P ∈ End(V) un proyector ortogonal. La restricción de P a su imagen P(V) es el

operador identidad sobre P(V), porque P(P(x)) = P(x) para todo x ∈ V. Por otro lado, es
P(V)⊥ = ker P∗ = ker P por la Proposición 3.41, ası́ que la restricción de P al complemento
ortogonal de su imagen es el operador cero.
Los proyectores abundan en End(V), porque están en correspondencia biunı́voca con los
subespacios de V, en vista del resultado siguiente.
Proposición 3.46. Si M es un subespacio de V, hay un único proyector ortogonal P M en

End(V) tal que P M (V) = M.
10 Cualquier operador idempotente T ∈ End(V) se restringe al operador identidad sobre su imagen T (V), pero
su núcleo ker T no es necesariamente ortogonal a T (V). Si W = T (V), la aplicación sobreyectiva x 7→ T (x) de
V en W se llama la proyección de V sobre W a lo largo de ker T . Conviene distinguir las palabras “proyección”
(aplicación sobreyectiva) y “proyector” (elemento de la ∗-álgebra End(V) que cumple P2 = P = P∗ ), aunque
muchos autores las confunden. Caveat lector.
Demostración. Es evidente que M ∩ M ⊥ = {0}, porque x ∈ M ∩ M ⊥ =⇒ hx, xi = 0 =⇒ x = 0.

Si {e1 , . . . , em } es una base ortonormal del subespacio M, hay vectores {em+1 , . . . , en } tales
que la unión E = {e1 , . . . , en } sea una base ortonormal de V, por el Corolario 3.19. Es fácil
comprobar que {em+1 , . . . , en } es una base ortonormal de M ⊥ . Luego dim M + dim(M ⊥ ) =
dim V. Se concluye que V = M ⊕ M ⊥ como suma directa de espacios vectoriales complejos.
Defı́nase P M ∈ End(V) por
P M (x) := he1 , xi e1 + · · · + hem , xi em .
Queda claro que P M (V) = M y que P2M = P M .

Si x, y ∈ V, entonces
n
X m
X n X
X m
hy, P M (x)i = he j , yi e j , hei , xi ei = he j , yi hei , xi he j , ei i
j=1 i=1 j=1 i=1
m
X m
X X n
= hei , yi hei , xi = he j , yi e j , hei , xi ei = hP M (y), xi,
i=1 j=1 i=1
ası́ que P∗M = P M . Ahora es evidente que la matriz de P M , respecto de la base ortonormal E,
es la matriz de bloques
" #
E Im O
[P M ]E = = diag[1, . . . ,}1, 0, . . . ,}0].
O O | {z | {z
m n−m
Para la unicidad, obsérvese que cualquier proyector ortogonal P con P(V) = M cumple
P(z) = z para z ∈ M y P(y) = 0 para y ∈ M ⊥ . Como V = M ⊕ M ⊥ , cualquier x ∈ V puede
escribirse de manera única como
x = z + y, con z ∈ M, y ∈ M ⊥ .
Luego P(x) = z. Por otro lado, vale P M (x) = P M (z) + P M (y) = z + 0 = z. Se ha mostrado que
P(x) = P M (x) para todo x ∈ V, ası́ que P = P M .
Lema 3.47. Dos subespacios M y N de V son ortogonales, es decir, hz, xi = 0 para x ∈ M y

z ∈ N, si y sólo si P M PN = 0 en End(V).
Demostración. Si x ∈ M y z ∈ N, entonces
hz, xi = hPN z, P M xi = hP∗M PN z, xi = hP M PN z, xi.
Luego P M PN = 0 implica que hz, xi = 0 para x ∈ M, z ∈ N, es decir, que M ⊥ N.

Por otro lado, si M ⊥ N, entonces N ⊆ M ⊥ . Si y ∈ V, entonces PN (y) ∈ N y por ende
PN (y) ∈ M ⊥ , por lo tanto P M (PN (y)) = 0. Como y es arbitrario, esto dice que P M PN = 0.
I En un espacio hilbertiano, la semejanza de matrices A ∼ P−1 AP no es la clasificación más

natural, pues P podrı́a ser una matriz inversible cualquiera sin tomar en cuenta el producto
escalar. Las matrices cuadradas en Mn (C) se clasifican mejor por semejanza unitaria, es
decir, por la relación A ∼ U −1 AU donde U es una matriz unitaria. La siguiente Proposición
muestra que cualquier matriz en Mn (C) es unitariamente semejante a una matriz triangular,
es decir, es trigonalizable por una semejanza unitaria.
Proposición 3.48. Si T ∈ End(V), entonces hay una cadena de subespacios
{0} ≤ R1 ≤ · · · ≤ Rn−1 ≤ Rn = V
tal que dim Rk = k y T (Rk ) ⊆ Rk para k = 1, . . . , n.
En consecuencia, hay una base ortonormal en V respecto del cual T posee una matriz
triangular.
Demostración. Por inducción sobre n = dim V; el resultado es evidente si dim V = 1. Supón-
gase que la Proposición sea válida para espacios de dimensión (n − 1).
Sea µ ∈ C un autovalor11 de T ∗ y y ∈ V un autovector con T ∗ (y) = µy. El subespacio
unidimensional linhyi = { αy : α ∈ C } es invariante bajo T ∗ . Defı́nase Rn−1 := linhyi⊥ . Si
x ∈ Rn−1 , entonces
hT (x), yi = hx, T ∗ (y)i = µhx, yi = 0,
ası́ que T (x) ∈ Rn−1 . Además, es dim Rn−1 = n − dim(linhyi) = n − 1.
Sea S ∈ End(Rn−1 ) la restricción de T a este subespacio: es S (x) := T (x) ∈ Rn−1 para
x ∈ Rn−1 . Al reemplazar V por Rn−1 y T por S , la hipótesis inductiva muestra que hay una
cadena de subespacios {0} ≤ R1 ≤ · · · ≤ Rn−1 con dim Rk = k y S (Rk ) ⊂ Rk para k = 1, . . . , n − 1.
Como S (x) = T (x) para cada x ∈ Rk , el resultado queda demostrado para dim V = n.
Elı́jase una base ortonormal U = {u1 , . . . , un } de V como sigue. Tómese u1 ∈ R1 tal que
ku1 k = 1; tómese u2 ∈ R2 ∩R⊥ 1 tal que ku2 k = 1, etc. Después de elegir {u1 , . . . , uk } ⊂ Rk , tómese
uk+1 ∈ Rk+1 ∩ R⊥ k tal que ku k+1 k = 1. La existencia del vector uk+1 está garantizado por el
Corolario 3.19 (compleción de una base ortonormal parcial). Como dim Rk = k para cada k,
es claro que {u1 , . . . , uk } es una base ortonormal para Rk , con k = 1, . . . , n. La invariancia
T (Rk ) ⊆ Rk significa que T (uk ) = ki=1 aik ui para k = 1, . . . , n. En otras palabras, la matriz de
P
T respecto de esta base es triangular:
a11 a12 a13 . . . a1n 
 
 0 a22 a23 . . . a2n 
[T ]U  .. .. .. . . ..  .
 
=
U  . . . . . 
 0 0 0 . . . an−1,n 
 
0 . . . ann

0 0
Corolario 3.49. Sea A ∈ Mn (C). Entonces hay una matriz unitaria U tal que la matriz
U ∗ AU = U −1 AU sea triangular.
11 Esta Proposición no tiene un análogo en el caso real F = R, porque no siempre puede garantizarse la exis-
tencia de autovalores para operadores en un espacio euclidiano. Podrı́a suceder que el polinomio caracterı́stico
de T t no tenga factores irreducibles de primer grado.
Demostración. Sea E = {e1 , . . . , en } la base estándar de Cn , de modo que A = [T A ]EE . Además,

sea U = {u1 , . . . , un } la base ortonormal de Cn construida en la demostración de la Proposición
anterior para el operador T A ∈ End(Cn ). La matriz de cambio de base dada por (1.9) es
U := [I]EU = [u1 u2 . . . un ], (3.13)
la cual es unitaria porque sus columnas forman una base ortonormal de Cn . Ahora
U ∗ AU = U −1 AU = [I]U E E U
E [T A ]E [I]U = [T A ]U
es una matriz triangular.
3.5 El teorema espectral y sus consecuencias

Cualquier operador lineal sobre un espacio hilbertiano tiene una matriz triangular respecto de
alguna base ortonormal; en consecuencia, cualquier matriz A ∈ Mn (C) es trigonalizable por
cambio de base ortonormal. Es importante obtener un criterio para que una matriz cuadrada
sea más bien diagonalizable. Se busca una condición sobre una matriz A que garantice que
U ∗ AU = D sea una matriz diagonal para alguna matriz unitaria U.
El caso más importante es el de las matrices hermı́ticas, que corresponden a operadores
autoadjuntos. Se sabe, por la Proposición 3.26, que una matriz hermı́tica tiene una base
ortonormal de autovectores U = {u1 , . . . , un }. La matriz U de (3.13) cuyas columnas son estos
autovectores cumple AU = UD, donde D = diag[λ1 , . . . , λn ] es la matriz diagonal que recoge
los autovalores de A. Por lo tanto, en este caso la diagonalización U ∗ AU = D es factible.
Resulta muy útil reformular esta diagonalización en términos de una colección de proyec-
tores ortogonales. De hecho, es oportuno expresar el resultado en términos de la estructura
abstracta de operadores autoadjuntos, mediante el teorema espectral, que se demuestra a
continuación.
Teorema 3.50 (Teorema Espectral). Sea V un espacio hilbertiano, y sea T = T ∗ ∈ End(V) un
operador autoadjunto. Entonces se puede escribir
T = µ1 P1 + · · · + µr Pr , (3.14)
donde los µ j ∈ R son los autovalores distintos de T , los P j son proyectores ortogonales no
nulos tales que
Pi P j = 0 si i , j; P1 + · · · + Pr = I.
Demostración. Sea U = {u1 , . . . , un } una base ortonormal de V respecto de la cual T tenga una
matriz triangular A = [T ]U U
, en vista de la Proposición 3.48: es ai j = 0 para i > j. La matriz de
∗ ∗ ∗ U
T es A = [T ]U . La condición T ∗ = T , conlleva A∗ = A, ası́ que ai j = 0 para i < j también:
la matriz A es diagonal. Sus elementos diagonales akk cumplen ākk = akk , es decir, son reales.
Estos elementos diagonales son autovalores de la matriz A y también del operador T . Sean
µ1 , . . . , µr los elementos distintos de la lista (a11 , . . . , ann ). Denótese por M j := ker(T − µ j I) el
subespacio generado por los uk tales que akk = µ j . Sea P j el proyector ortogonal tal que
P j (V) = M j , dado por la Proposición 3.46.
Si i , j en {1, . . . , r}, los subespacios Mi y M j son ortogonales, ya que son generados por
dos partes disjuntas de la base ortonormal U. El Lema 3.47 dice que Pi P j = 0.
En consecuencia, la suma P1 + · · · + Pr es también un proyector ortogonal: de hecho, esta
suma es autoadjunto, y vale
X
(P1 + · · · + Pr )2 = (P21 + · · · + P2r ) + (Pi P j + P j Pi ) = P1 + · · · + Pr .
i< j
Cada uk pertenece a un sólo subespacio M j , ası́ que (P1 + · · · + Pr )(uk ) = P j (uk ) = uk . Por lo
tanto, vale P1 + · · · + Pr = I en End(V).
Para cada k = 1, . . . , n, vale
r
X r
X
(µ1 P1 + · · · + µr Pr )(uk ) = µ j P j (uk ) = µ j [[uk ∈ M j ]] uk
j=1 j=1
Xr
= µ j [[µ j = akk ]] uk = akk uk = T (uk ),
j=1
porque µ j = akk para un solo ı́ndice j. Luego T = µ1 P1 + · · · + µr Pr .

Obsérvese que en la demostración anterior, no se aprovechó la Proposición 3.26, que
construyó una base ortonormal de autovectores para una matriz hermı́tica a partir de una
forma normal de Jordan. El procedimiento actual es más directo y sencillo: dada una matriz
A con A = A∗ , se trigonaliza A por cambio de base ortonormal (Corolario 3.49) y se observe
que la matriz resultante es de hecho diagonal, por ser simultáneamente triangular y hermı́tica.
Conviene declarar esa consecuencia como corolario del teorema espectral.
Corolario 3.51. Una matriz hermı́tica A = A∗ ∈ Mn (C) es diagonalizable, mediante conju-

gación A 7→ U ∗ AU por una matriz unitaria U.
Definición 3.52. El conjunto de autovalores distintos {µ1 , . . . , µr } de un operador lineal T ∈

End(V) [respectivamente, de una matriz cuadrada A ∈ Mn (C)] se llama el espectro de T
[o bien de A].12
La descomposición T = µ1 P1 + · · · + µr Pr de T [respectivamente, la suma directa de ma-
trices U ∗ AU = µ1 Im1 ⊕ · · · ⊕ µr Imr ] dados por el Teorema 3.50 y el Corolario 3.51 se llaman
descomposiciones espectrales.
12 La palabra espectro (literalmente, un fantasma) fue introducido por Isaac Newton en 1674 para denotar la
banda de colores en que la luz blanca se divide en el arco iris, o bajo la separación por un prisma de vidrio.
En un famoso experimento, Newton logró esa separación al proyectar la banda de colores como una aparición
fantasmagórica en la pared de su cuarto oscuro. Resulta que el espectro óptico solar no es continuo, sino que
es una superposición de lı́neas delgadas correspondientes a distintas frecuencias (es decir, colores) de la luz. A
partir de los trabajos de Max Born y Werner Heisenberg en 1925–26, la energı́a de los fotones de un determinado
color, que es proporcional a su frecuencia, viene dado por un autovalor de cierto operador lineal autoadjunto
sobre un espacio de Hilbert. De ahı́ viene la costumbre de llamar “espectro” al conjunto de autovalores (o de
autovalores generalizados, en el caso infinitodimensional) de un operador lineal cualquiera.
I En general, la búsqueda de una base ortonormal de autovectores para una determinada

matriz hermı́tica brinda poca información, porque la base depende de esa matriz. Dadas dos
matrices hermı́ticas distintas, la base ortonormal que diagonaliza la primera no diagonaliza
la segunda. Serı́a bueno tener un criterio para poder elegir una sola base ortonormal respecto
del cual las dos matrices tengan forma diagonal. Resulta que esto es posible si y sólo si las
dos matrices conmutan.
Proposición 3.53. Dos matrices hermı́ticas A, B ∈ Mn (C) son simultáneamente diagonali-
zables, es decir, hay una matriz unitaria U tal que tanto U ∗ AU como U ∗ BU son matrices
diagonales, si y sólo si AB = BA.
Demostración. Dos matrices diagonales C = diag[κ1 , . . . , κn ] y D = diag[λ1 , . . . , λn ] conmutan,
porque CD = diag[κ1 λ1 , . . . , κn λn ] = DC. Ahora, si U es una matriz unitaria tal que U ∗ AU y
U ∗ BU son diagonales, entonces
U ∗ ABU = (U ∗ AU)(U ∗ BU) = (U ∗ BU)(U ∗ AU) = U ∗ BAU,
ası́ que AB = U(U ∗ ABU)U ∗ = U(U ∗ BAU)U ∗ = BA.
Por otro lado, si A = B∗ , B = B∗ y además AB = BA, sea T A = µ1 P1 + · · · + µr Pr la descom-
posición espectral de T A . Sea M j = P j (Cn ) = ker(T A − µ j I), de manera que Cn = M1 ⊕ · · · ⊕ Mr
es la descomposición primaria de Cn para el operador T A . Si x ∈ M j , entonces
ABx = BAx = B(µ j x) = µ j Bx,
lo cual dice que el vector Bx pertenece al subespacio LM j ; por tanto, es T B (M j ) ⊆ M j . De
hecho, el subespacio M j reduce T B , porque M ⊥j = i, j Mi es también un subespacio in-
variante para T B . Si {ũ1 , . . . , ũn } es una base ortonormal de autovectores de A formado por
concatenar bases ortonormales de los subespacios M1 , . . . , Mr , y si U e := [ũ1 ũ2 . . . ũr ] es la
∗
matriz unitaria correspondiente, entonces U AU es diagonal y además U
e e e∗ BU e = B1 ⊕ · · · ⊕ Br
es una suma directa de bloques. Cada bloque B j es una matriz hermı́tica en Mm j (C), donde
m j = dim M j .
Por un cambio de base ortonormal en cada subespacio M j por separado, se puede dia-
gonalizar cada B j . Luego, hay una matriz unitaria de la forma V = V1 ⊕ · · · ⊕ Vr tal que
V ∗ (U
e∗ BU)V
e sea diagonal. Sea U := UV e y nótese que U es unitaria por ser el producto de
dos matrices unitarias. Cada V j conmuta con el bloque escalar µ j Im j de la matriz diagonal
e∗ AU,
U e ası́ que U ∗ AU = V(U e∗ AU)Ve =U e∗ AU.e Luego U ∗ BU y U ∗ AU ambas son matrices
diagonales.
Corolario 3.54. Dos operadores autoadjuntos sobre un espacio hilbertiano S , T ∈ End(V)
poseen matrices diagonales respecto de una misma base ortonormal si y sólo si S T = T S .
I El teorema espectral sigue válido para una clase de operadores lineales más amplia que los
operadores autoadjuntos. Considérese un operador T ∈ End(V) que posee una base ortonor-
mal de autovectores con autovalores distintos µ1 , . . . , µr ∈ C que no son necesariamente reales.
Entonces se puede escribir:
T = µ1 P1 + · · · + µr Pr , T ∗ = µ̄1 P1 + · · · + µ̄r Pr .
Si algún µ j < R, entonces T no es autoadjunto, pero se cumple la relación
T ∗ T = |µ1 |2 P1 + · · · + |µr |2 Pr = T T ∗ .
Definición 3.55. Un operador lineal sobre un espacio hilbertiano T ∈ End(V) es un operador

normal si y sólo si T ∗ T = T T ∗ .
Una matriz cuadrada compleja A ∈ Mn (C) es una matriz normal si y solo si A∗ A = AA∗ .
En particular, los operadores unitarios o autoadjuntos [respectivamente, las matrices uni-
tarias o hermı́ticas] son normales.
Proposición 3.56 (Teorema Espectral II). Sea V un espacio hilbertiano, y sea T ∈ End(V) un
operador normal. Entonces se puede escribir T = µ1 P1 + · · · + µr Pr como en (3.14), donde los
µ j ∈ C son los autovalores distintos de T , los P j son proyectores ortogonales no nulos tales
que Pi P j = 0 para i , j, y además P1 + · · · + Pr = I.
Hay dos maneras alternativas de comprobar este resultado.

Demostración 1. Por el Lema 3.43, vale T = T 1 + iT 2 donde T 1 y T 2 son operadores auto-
adjuntos. Queda claro que T ∗ = T 1 − iT 2 . Luego T es normal si y sólo si sus partes real
e imaginaria conmutan, es decir, T 1 T 2 = T 2 T 1 .
Por el Corolario 3.54, T es normal si y sólo si hay una base ortonormal U para V, para
la cual las matrices [T 1 ]U
U
y [T 2 ]U
U
tienen diagonales; luego la matriz [T ]U
U
= [T 1 ]U
U
+ i [T 2 ]U
U
es también diagonal. Sean µ1 , . . . , µr los autovalores distintos de T y sea P j ∈ End(V) el
proyector ortogonal cuyo imagen es M j := ker(T − µ j I). Las propiedades enunciadas de los
proyectores Pi se verifican al igual que en la demostración del Teorema 3.50.
Demostración 2. Obsérvese que la hipótesis T = T ∗ fue utilizado en la demostración del Teo-
rema 3.50 únicamente para mostrar que la matriz triangular de T es necesariamente diagonal.
La Proposición 3.48 construye, para cualquier T ∈ End(V), una base ortonormal U de V
tal que A := [T ]U
U
sea una matriz triangular superior: es ai j = 0 para i > j. Entonces A∗ = [T ∗ ]U
U
es una matriz triangular inferior. Las entradas diagonales de las matrices A∗ A y AA∗ son
X X X X
(A∗ A)kk = āik aik = |aik |2 , (AA∗ )kk = ak j āk j = |ak j |2 . (3.15)
i≤k i≤k j≥k j≥k
Si T es normal, entonces A∗ A = AA∗ . En particular, el caso k = 1 de (3.15) da
|a11 |2 = |a11 |2 + |a12 |2 + |a13 |2 + . . . + |a1n |2 ,
por ende a12 = a13 = · · · = a1n = 0. El caso k = 2 es entonces
0 + |a22 |2 = |a22 |2 + |a23 |2 + . . . + |a2n |2 ,
luego a23 = a24 = · · · = a2n = 0. Al repetir este argumento para k = 3, . . . , n, se comprueba

que ak j = 0 toda vez que j > k; se concluye que la matriz A es diagonal. El resto de la
demostración del Teorema 3.50 es aplicable sin otro cambio.
I Para cualquier matriz normal A ∈ Mn (C), sea T A = µ1 P1 + · · · + µr Pr la descomposición

espectral del operador T A : x 7→ Ax. Si E es la base estándar de Cn , sea E j := [P j ]EE la matriz
del proyector ortogonal P j , para j = 1, . . . , r. Estas matrices cumplen E 2j = E j = E ∗j en Mn (C).
La fórmula
E 2j = E j = E ∗j , para j = 1, . . . , r,





A = µ1 E1 + · · · + µr Er , con  Ei E j = O

(3.16)


 si i , j,
E1 + · · · + Er = In


es la descomposición espectral de la matriz normal A.

El teorema espectral proporciona información valiosa acerca de las matrices positivas en
Mn (C) —y también, por restricción, en Mn (R).
Proposición 3.57. Una matriz A ∈ Mn (C) es positiva si y sólo si A es hermı́tica y todas sus
autovalores son números no negativos. La matriz A es definida positiva si y sólo si A es
hermı́tica y todas sus autovalores son números positivos.
Demostración. Si A es una matriz positiva, entonces A es hermı́tica por definición. Sea
A = µ1 E1 + · · · + µr Er su descomposición espectral, con µ1 , . . . , µr ∈ R.
Si x ∈ Cn y si j ∈ {1, . . . , r}, entonces
hx, E j xi = hx, E 2j xi = hx, E ∗j E j xi = hE j x, E j xi = kE j xk2
y en consecuencia
r
X r
X
hx, Axi = µ j hx, E j xi = µ j kE j xk2 . (3.17)
j=1 j=1
Ahora, si µ j ≥ 0 para cada j, esta relación (3.17) muestra que A es una matriz positiva. Por
otro lado, si x j ∈ M j = P j (Cn ) = { x ∈ Cn : E j x = x }, entonces hx j , Ax j i = µ j kx j k2 . Luego, la
positividad de A implica que µ j ≥ 0 para cada j.
Si x , 0 en Cn , la relación x = E1 x + · · · + Er x implica que E j x , 0 para al menos un
valor de j. De (3.17) se ve que hx, Axi > 0 para todo x , 0 si y sólo si µ j > 0 para cada
j = 1, . . . , r.
Proposición 3.58. Para una matriz A ∈ Mn (C), son equivalentes las siguientes condiciones:
(a) A es una matriz positiva: A = A∗ y hx, Axi ≥ 0 para todo x ∈ Cn .
(b) A es normal y sus autovalores son números no negativos;
(c) A = B∗ B para alguna matriz B ∈ Mn (C);
(d) A = C 2 para alguna matriz hermı́tica C ∈ Mn (C);

Además, si A es positiva, hay una única matriz positiva R ∈ Mn (C) tal que A = R2 .
Esta matriz R se llama la raı́z cuadrada positiva de A y se denota A1/2 := R.
Demostración. La equivalencia (a) ⇐⇒ (b) es la Proposición anterior. Las implicaciones

(d) =⇒ (c) =⇒ (a) son evidentes.
Ad (b) =⇒ (d): Sea A = µ1 E1 + · · · + µr Er la descomposición espectral de A con cada
µ j ≥ 0, y defı́nase
√ √ √
R := µ1 E1 + µ2 E2 + · · · + µr Er .
La matriz R cumple la condición (b) y por tanto es una matriz positiva (en particular, R es
hermı́tica). Además,
r
X X√ r
X
R2 = µ j E 2j + µi µ j (Ei E j + E j Ei ) = µ j E j = A.
j=1 i, j j=1
Para ver la unicidad de R, sea S otra matriz positiva con S 2 = A. Si S = ν1 F1 + · · · + ν s F s es

la descomposición espectral de S , entonces
ν12 F1 + · · · + ν2s F s = S 2 = A = µ1 E1 + · · · + µr Er ,
ası́ que s = r es el número de autovalores distintos de A; los conjuntos {ν12 , . . . , νr2 } y {µ1 , . . . , µr }
coinciden porque ellos son los autovalores de A. Después de una permutación de este con-
√
junto, se puede suponer que ν2j = µ j para j = 1, . . . , r, ası́ que ν j = µ j para cada j. Finalmente,
los autovectores de S y de A corresponden:
{ x ∈ Cn : F j x = x } = ker(T S − ν j I) = ker(T A − µ j I) = { x ∈ Cn : E j x = x },
ası́ que F j = E j para cada j. Por lo tanto, es S = R.
Definición 3.59. Un operador lineal T ∈ End(V) sobre un espacio hilbertiano es un operador

positivo si T es autoadjunto y si hx, T (x)i ≥ 0 para todo x ∈ V.
Un operador positivo T es un definido positivo si hx, T (x)i > 0 para todo x , 0 en V.
Por la Proposición anterior, aplicada a la matriz de T en cualquier base ortonormal de V,

un operador T es [definido] positivos si y sólo si T = T ∗ y todos sus autovalores son no
negativos [resp., positivos]; si y sólo si T = S ∗ S para algún operador S ∈ End(V); si y sólo si
T = Q2 para algún operador autojunto Q ∈ End(V); si y sólo si T = R2 para algún operador
positivo R ∈ End(V).
√ √
Esta raı́z cuadrada positiva R =: T 1/2 es única, y vale R = µ1 P1 + · · · + µr Pr si la
descomposición espectral de T es T = µ1 P1 + · · · + µr Pr .
Proposición 3.60. Una matriz U ∈ Mn (C) es unitaria si y sólo si U es normal y cada autovalor
λ de U cumple |λ| = 1.
Demostración. Si U es unitaria, entonces U ∗ U = In = UU ∗ , ası́ que U es una matriz normal.

Por lo tanto, U posee una descomposición espectral U = α1 E1 + · · · + αr Er con α1 , . . . , αr ∈ C.
La matriz adjunta es U ∗ = ᾱ1 E1 + · · · + ᾱr Er . Luego
|α1 |2 E1 + · · · + |αr |2 Er = U ∗ U = In = E1 + · · · + Er .
Puesto que Ei E j = O para i , j, se obtiene |αi |2 Ei = Ei al premultiplicar ambos lados de la

igualdad anterior por la matriz Ei . Si x es un autovector de U para el autovalor αi , entonces
Ei x = x y por ende |αi |2 x = |αi |2 Ei x = Ei x = x con x , 0. Luego |αi | = 1 para i = 1, . . . , r.
Por otro lado, si U es una matriz normal con autovalores complejos de valor absoluto 1,
entonces U es de la forma U = α1 E1 + · · · + αr Er con cada |α j | = 1. Por tanto, vale
U ∗ U = UU ∗ = |α1 |2 E1 + · · · + |αr |2 Er = E1 + · · · + Er = In ,
lo cual muestra que U es unitaria.

Definición 3.61. Un operador lineal U ∈ End(V) es una isometrı́a parcial si UU ∗ U = U.
Cada operador unitario es una isometrı́a parcial, pero una isometrı́a parcial con ker U , {0}
no es unitaria.13 Como U = UU ∗ U implica U ∗ = (UU ∗ U)∗ = U ∗ UU ∗ , se ve que el operador
adjunto U ∗ es también unitario.
Obsérvese que los operadores UU ∗ y U ∗ U son proyectores ortogonales. Es fácil compro-
bar que UU ∗ es el proyector cuya imagen es U(V), mientras que U ∗ U es el proyector cuya
imagen es U ∗ (V) = (ker U)⊥ .
Notación. Si T ∈ End(V) es un operador lineal cualquiera, el operador T ∗ T es positivo.
Escrı́base
|T | := (T ∗ T )1/2
para denotar la raı́z cuadrada positiva de T ∗ T . El operador positivo |T | se llama el módulo
del operador T . Fı́jese que |T | = T si y sólo si T es un operador positivo.14
Resulta que cualquier operador lineal es el producto de una isometrı́a parcial y un opera-
dor positivo (su módulo).
Teorema 3.62 (Descomposición Polar). Sea V un espacio hilbertiano y sea T ∈ End(V).
Entonces hay una única isometrı́a parcial U ∈ End(V) tal que ker U = ker T y T = U|T |.
El operador T es inversible si y sólo si U es unitaria y |T | es definido positivo.
Demostración. Para todo x ∈ V, vale
h|T |(x), |T |(x)i = hx, |T |2 (x)i = hx, T ∗ T (x)i = hT (x), T (x)i. (3.18)
Por lo tanto, la correspondencia |T |(x) 7→ T (x) define una aplicación lineal biyectiva de |T |(V)
en T (V).
La ecuación (3.18) también muestra que ker |T | = ker T . De la Proposición 3.41, se obtiene
|T |(V)⊥ = ker(|T |∗ ) = ker |T |, ası́ que |T |(V)⊥ = ker T .
13 Sobre un espacio de Hilbert infinitodimensional, un operador U se llama una isometrı́a si U ∗ U = I. Esto es
equivalente a la condición de que kU(x)k = kxk para cada vector x, porque kU(x)k2 = hU x, U(x)i = hx, U ∗ U(x)i.
En particular, una isometrı́a es un operador inyectivo. En el contexto infinitodimensional, hay isometrı́as que
no son sobreyectivos, luego no son inversibles; pero en espacios hilbertianos finitodimensionales, cualquier
isometrı́a es unitaria.
14 En el caso unidimensional V = C, cualquier elemento de End(C) es de la forma w 7→ zw para algún z ∈ C.
√
El módulo se obtiene al reemplazar z por su valor absoluto |z| = z̄z.
Defı́nase U ∈ End(V) por


T (x),

 si y = |T |(x),
U(y) :=  (3.19)
0,
 si y ∈ ker T.
Como V = |T |(V) ⊕ |T |(V)⊥ = |T |(V) ⊕ ker T , el operador U queda bien definido por esta
fórmula. Es inmediato de esta definición que U|T | = T .
Como T (x) = 0 si y sólo si |T |(x) = 0, se ve que U(y) = 0 si y sólo si y ∈ ker T . Por lo
tanto, es ker U = ker |T | = ker T .
Si x, y ∈ V, hay z ∈ V, w ∈ ker T tales que x = |T |(z) + w. Entonces
hx, U ∗ U(|T |(y))i = hU|T |(z) + U(w), U|T |(y)i = hU|T |(z), U|T |(y)i
= hT (z), T (y)i = hz, T ∗ T (y)i = h|T |(z), |T |(y)i
= h|T |(z) + w, |T |(y)i = hx, |T |(y)i.
Luego U ∗ U(|T |(y)) = |T |(y) para todo y ∈ V. Por tanto, |T |(V) es un subespacio invariante
para el operador U ∗ U y que la restricción de U ∗ U a este subespacio es la identidad. Además,
UU ∗ U(x) = UU ∗ U(|T |(z) + w) = U(|T |(z) + U ∗ U(w)) = U(|T |(z)) = U(|T |(z) + w) = U(x).
Se concluye que UU ∗ U = U, es decir, U es una isometrı́a parcial.
Si T = W|T | para cualquier isometrı́a parcial con ker W = ker T , entonces W(|T |(x)) = T (x)
para x ∈ V y W(y) = 0 para y ∈ ker T , ası́ que W = U.
Finalmente, T es inversible si y sólo si T ∗ T es inversible y ker T = {0}, si y sólo si T ∗ T es
definido positivo y ker U = {0}, si y sólo si |T | es definido positivo y la isometrı́a parcial U es
unitaria.
Corolario 3.63. Si T ∈ End(V), hay una única isometrı́a parcial W ∈ End(V) que cumple
W(V) = T (V) y T = |T ∗ |W.
Demostración. Si T ∗ = U1 |T ∗ | es la descomposición polar de T ∗ , tómese W := U1∗ . Entonces
T = (T ∗ )∗ = |T ∗ |∗ U1∗ = |T ∗ |W porque el operador positivo |T ∗ | es autoadjunto. Además, vale
W(V) = (ker U1 )⊥ = (ker T ∗ )⊥ = T (V).
La unicidad de la factorización T = |T ∗ |W es consecuencia de la unicidad de la descom-
posición polar T ∗ = W ∗ |T ∗ |.
Es inmediato de la fórmula (3.19) que U(V) = T (V) cuando T = U|T | es una descom-
posición polar.
Proposición 3.64. Un operador lineal T ∈ End(V) es normal si y sólo si |T ∗ | = |T | si y sólo si
los factores de su descomposición polar conmutan: T = U|T | = |T |U.
Se deja la demostración como un ejercicio.
I El teorema espectral no proporciona información directa acerca de las matrices ortogo-
nales en Mn (R), porque en el caso real no se puede asegurar la existencia de autovalores y
autovectores a priori. Sin embargo, la diagonalizabilidad de las matrices unitarias con auto-
valores de valor absoluto 1 (véase la Proposición 3.60) posee una contraparte real, si en lugar
de una matriz diagonal se acepta una suma directa de bloques 2 × 2.
Proposición 3.65. Dada una matriz ortogonal Q ∈ Mn (R), hay una colección de ángulos
θ1 , . . . , θt ∈ (0, π) y números r, s ∈ N tales que 2t + r + s = n, amén de una matriz ortogonal P
tal que
P−1 QP = Pt QP = Rθ1 ⊕ · · · ⊕ Rθt ⊕ (−Ir ) ⊕ I s (3.20)
donde cada Rθ j es una rotación de la forma
cos θ sen θ
" #
Rθ := . (3.21)
− sen θ cos θ
Demostración. La matriz ortogonal Q cumple Qt Q = QQt = In en Mn (R). Al consider Q
como elemento de Mn (C) con entradas reales, Q es también unitaria en Mn (C). Por la
Proposicion 3.56 y 3.60, hay una base ortonormal U de Cn para la cual [T Q ]U U
es una ma-
triz diagonal con autovalores λi ∈ C que cumplen |λi | = 1. Si la descomposición espectral de
T Q es T Q = µ1 P1 + . . . + µl Pl , entonces cada λi pertenece a {µ1 , . . . , µl }.
Los polinomios caracterı́sticos de Q y de Qt coinciden, ası́ que los autovalores de Q∗ = Qt
son también µ1 , . . . , µl . Un autovalor real es necesariamente ±1. Los otros autovalores son
números complejos de valor absoluto 1, que forman pares conjugados (λk , λ̄k ) = (eiθk , e−iθk )
con 0 < θk < π.
Si z ∈ Cn es un autovector de Q para un autovalor ±1, sea z =: x + iy con x, y ∈ Rn . Si
y = 0, es z = x ∈ Rn ; si x = 0, entonces (−i)z = y es un autovector real para Q; y si x , 0,
y , 0, entonces linhx, yi es un subespacio de autovectores de Q de dimensión 2 (sobre R). En
todo caso, los subespacios ker(T Q + I) ⊆ Rn y ker(T Q − I) ⊆ Rn poseen bases ortonormales de
autovectores reales para los autovalores respectivos ∓1. Sean r := n(T Q + I), s := n(T Q − I)
sus respectivas dimensiones.
n
√ sea z ∈ C un autovector para el autovalor
Ahora complejo eiθ con 0 < θ < π, con longitud
kzk = 2. Escrı́base z =: x + iy con x, y ∈ Rn y nótese que z̄ = x − iy es un autovector para el
autovalor e−iθ porque Qz = eiθ z conlleva Qz̄ = e−iθ z̄. Ahora
eiθ hz̄, zi = hz̄, Qzi = hQ∗ z̄, zi = hQ−1 z̄, zi = heiθ z̄, zi = e−iθ hz̄, zi,
ası́ que hz̄, zi = 0 porque eiθ , e−iθ . Por tanto, vale
0 = hz̄, zi = hx − iy, x + iyi = hx, xi − hy, yi + 2ihx, yi
y además hx, xi + hy, yi = hz, zi = 2. Se concluye que kxk = kyk = 1 y hx, yi = 0. En resumen,
{x, y} es una base ortonormal por el subespacio bidimensional real generado por z y z̄. Al
tomar partes reales e imaginarios de ecuación Qz = eiθ z, se obtiene
Qx = (cos θ) x − (sen θ) y,
Qy = (sen θ) x + (cos θ) y.
Luego linhx, yi es un subespacio invariante para Q, en donde la restricción de T Q posee la
matriz Rθ de (3.21).
Por una permutación de la base U de Cn , los autovalores no reales de Q pueden ordenarse
como (eiθ1 , e−iθ1 , . . . , eiθt , e−iθt ) donde 2t = n − r − s. Al repetir el proceso anterior para cada
pareja (eiθk , e−iθk ), se construye una nueva base ortonormal V de Rn para la cual la matriz de
T Q es el lado derecho de (3.20). La matriz de cambio de bases P := [I]EV es ortogonal.
3.6 Ejercicios sobre ortogonalidad y teorı́a espectral

Ejercicio 3.1. Encontrar el complemento ortogonal M ⊥ ⊂ R3 del subespacio M = linhx1 , x2 i
de R3 generado por    
1 1
x1 := 1 , x2 := 2 .
   
2 3
   
[[ Indicación: Sea A ∈ R2×3 la matriz cuyas filas son xt1 y xt2 ; resolver la ecuación Ax = 0. ]]
Ejercicio 3.2. Encontrar una base ortonormal para el subespacio W = linhx1 , x2 , x3 , x4 i de

R5 , donde        
1  2   0   2 
0 −1  1   1 
       
x1 := 0 , x2 :=  0  , x3 :=  0  , x4 :=  1  .
0 −1 −1 −1
       
1 1 0 −1
Ejercicio 3.3. Sea W := linhx1 , x2 , x3 i el subespacio de R4 generado por los vectores

     
1  2  4
2  1  2
x :=   ,

 
 y :=   ,

 
 z :=   .
3
  −1
  3
4 1 1
Encontrar un vector w ∈ W tal que hw, xi = hw, yi = 0.
Ejercicio 3.4. En el espacio vectorial R[t] de polinomios reales, considérese el producto

escalar Z 1
h f (t), g(t)i := f (x)g(x) dx.
−1
El algoritmo de Gram y Schmidt, aplicado a la base {1, t, t2 , t3 , . . . } de R[t], produce una fa-
milia ortonormal de polinomios {p0 (t), p1 (t), p2 (t), . . . }, donde cada pk (t) es un polinomio de
grado k. Verificar que
√ √ √
1 3 5 2 7
p0 (t) = √ , p1 (t) = √ t, p2 (t) = √ (3t − 1), p3 (t) = √ (5t3 − 3t).
2 2 2 2 2 2
Calcular el polinomio p4 (t). Explicar por qué estos “polinomios de Legendre” son alternada-
mente funciones pares e impares de t.
Ejercicio 3.5. Usualmente, se define el polinomio de Legendre de grado n por la fórmula

de Rodrigues:
1 dn 2
(t − 1)n .

Pn (t) := n n
2 n! dt
Con el mismo producto escalar del Ejercicio anterior, verificar que

2
hPm (t), Pn (t)i = 0 si m , n; hPn (t), Pn (t)i = .
2n + 1
[[ Indicación: Integración por partes. ]]
Comprobar que linhP0 (t), P1 (t), . . . , Pn (t)i = linh1, t, . . . , tn i para n√∈ N, por inducción so-
bre n. Concluir que los pn (t) del Ejercicio anterior cumplen pn (t) = (2n + 1)/2 Pn (t).
Ejercicio 3.6. En el espacio vectorial R[t], considérese otro producto escalar
Z 1
f (x)g(x)
hh f (t), g(t)ii := √ dx.
−1 1 − x2
El polinomio de Chebyshev T n (t) es aquél polinomio de grado n que verifica la identidad
T n (cos θ) ≡ cos(nθ).
Demostrar que estos polinomios son ortogonales con respecto al producto escalar hh·, ·ii.
Ejercicio 3.7. Encontrar una tercera columna de modo que la siguiente matriz A sea una
matriz ortogonal:  1
√1

 √ ?
 3 2 
 √1
A =  3 0 ?  .


 √1 − √1 ?
3 2
Ejercicio 3.8. Decidir (con razonamiento) si la siguiente matriz es ortogonal o no:
1 1 1 1 
 2 2 2 2 

 1 1 − 1 − 1 
2 2 2 2 
A =  1 .
 − 1 − 1 1 
 2 2 2 2 

1 1 1 1
2 − 2 2 − 2
Ejercicio 3.9. Demostrar que la siguiente matriz es una matriz ortogonal:

sen θ sen φ sen θ cos φ cos θ cos φ − cos θ sen φ
 
sen θ cos φ − sen θ sen φ cos θ sen φ cos θ cos φ 
A =  .
cos θ sen φ cos θ cos φ − sen θ cos φ sen θ sen φ 
cos θ cos φ − cos θ sen φ − sen θ sen φ − sen θ cos φ
Ejercicio 3.10. (a) Si x, y ∈ Rn son vectores de columna no nulos, demostrar que xyt es una
matriz en Mn (R) cuyo rango es 1.
(b) Sea x ∈ Rn con kxk = 1. La matriz de Householder determinado por x es
H x := In − 2xxt .
Demostrar que H x es simétrica y ortogonal, y que H x2 = In . [[ Indicación: Es xt x = kxk2 . ]]
Ejercicio 3.11. (a) Si U y V son matrices unitarias en Mn (C), demostrar que el producto UV
es también unitaria.
(b) Si U ∈ MN (C) es una matriz unitaria, demostrar que U es inversible y que U −1 es
también unitaria.15
(c) Demostrar que A ∈ Mn (C) es unitaria si y sólo si kAxk = kxk para todo x ∈ Cn .
Ejercicio 3.12. (a) Calcular los autovalores de la matriz
 
 5 −6 2 
A := −6 4 −4 .
 
2 −4 0
 
Encontrar una matriz ortogonal P cuyas columnas sean autovectores de A, de modo que
Pt AP = P−1 AP sea diagonal.
(b) Calcular A5 , usando esta forma diagonal D = Pt AP.
" #
a b
Ejercicio 3.13. (a) Sea A := una matriz simétrica en M2 (R). Demostrar que es posible
b c
factorizar A = LDLt , con L triangular inferior unipotente y D diagonal inversible, si y sólo si
a , 0 y c , b2 /a.
(b) Concluir que A es definida positiva si y sólo si a > 0, c > 0 y ac − b2 > 0.
" #
4 12
(c) Obtener la factorización A = LDL para A :=
t . Usar esta factorización para
12 45
hx i
comprobar que xt Ax = (2x1 + 6x2 )2 + (3x2 )2 si x = x12 ∈ R2 .
Ejercicio 3.14. Si J = { j1 , j2 , . . . , jr } ⊂ {1, 2, . . . , n}, el menor m JJ := det A JJ se llama un menor
principal de la matriz A ∈ Mn (F). Si Jk = {1, 2, . . . , k}, los menores principales Dk := m Jk ,Jk
para k = 1, . . . , n, se llaman los menores principales delanteras de la matriz cuadrada A:

a11 a12 a13
a a
D1 = a11 , D2 = 11 12 , D3 = a21 a22 a23 , . . . , Dn = det A.

a21 a22
a31 a32 a33
(a) Si A ∈ Mn (R) es definida positiva, demostrar que todos sus menores principales de-
lanteras son números positivos.
(b) Inversamente, si A ∈ Mn (R) es tal que Dk > 0 para k = 1, 2, . . . , n, demostrar que A es
definida positiva. [[ Indicación: Eliminación gaussiana simple. ]]
Ejercicio 3.15. Determinar si cada una de las matrices
     
1 1 1 1 1 1  9 −6 2 
A := 1 1 1 , B := 1 2 2 , C := −6 8 −4
     
1 1 1 1 2 3 2 −4 4
     
es (a) positiva; (b) definida positiva.

15 Las partes (a) y (b) dicen que la totalidad de matrices unitarias n × n es un grupo, llamado U(n).
Ejercicio 3.16. Considérese la siguiente matriz A ∈ M8 (R):

 
 b 0 −1 0 0 0 0 1
 0 b 0 −1 0 0 −1 0

−1 0 c 0 0 −1 0 0


 0 −1 0 c 1 0 0 0

A :=  . (3.22)
 0 0 0 1 b 0 1 0
 0 0 −1 0 0 b 0 1
 
 0 −1 0 0 1 0 c 0

 
1 0 0 0 0 1 0 c
Demostrar que esta matriz es definida positiva si y sólo si b > 0, c > 0 y bc > 4. [[ Esta matriz
apareció en un problema de la mecánica cuántica.16 ]]
Ejercicio 3.17. Dadas m vectores x1 , . . . , xm ∈ Rn , su determinante de Gram es
x1 · x1 x1 · x2 . . . x1 · xm

x2 · x1 x2 · x2 . . . x2 · xm
det A = .. .. .. ..
. . . .
xm · x1 xm · x2 . . . xm · xm

el cual es el determinante de la matriz A = [ai j ] tal que ai j = xi · x j . Demostrar que det A = 0

si y sólo si {x1 , . . . , xm } es linealmente dependiente, y que det A > 0 cuando {x1 , . . . , xm } es
linealmente independiente.
[[ Indicación: Encontrar una matriz B tal que A = Bt B. ]]
Ejercicio 3.18. Sea ζ := e2πi/n una raı́z n-ésima de 1 y sea F ∈ Mn (C) la matriz con entrada
fi j := ζ (i−1)( j−1) :
...
 
1 1 1 1 
1 ζ ζ2 . . . ζ n−1 
 
1 
F := √ 1 ζ ζ4 . . . ζ 2(n−1)  .
2 
n  .. .. .. ..
.
.. 
 . . . . 
2
1 ζ n−1 ζ 2(n−1) . . . ζ (n−1)
 
La matriz F se llama la transformación de Fourier finita (TFF) de orden n.

(a) Escribir F explı́citamente en los casos n = 2, 3, 4.
(b) Demostrar que F ∗ F = In y concluir que la matriz F es unitaria.
(c) Calcula la matriz F 2 y mostrar que F 4 = In . Concluir que los únicos autovalores
posibles17 para F son λ = 1, −1, i, −i.
16 Referencia: Ileana Castillo Arias, Productos cuánticos en espacios de funciones analı́ticas, tesis de licen-
ciatura, UCR, 1988.
17 La multiplicidad de cada uno de estos autovalores, para n cualquiera, es “aproximadamente 1 n”. La deter-
4
minación exacta de las multiplicidades es un problema de la teorı́a de números. Por ejemplo, si n = 4m + 1 con
m ∈ N, se sabe que λ = 1 ocurre (m + 1) veces, y que λ = −1, i, −i ocurren m veces cada uno.
Ejercicio 3.19. (a) Sea V un espacio hilbertiano. Si S ∈ End(V) es un operador autoadjunto

tal que hx, S (x)i = 0 para todo x ∈ V, demostrar que S = 0.
(b) Si además T ∈ End(V) es un operador lineal cualquiera, demostrar que T = T ∗ si y
sólo si hx, T (x)i ∈ R para todo x ∈ V. [[ Indicación: Considerar S := i(T ∗ − T ). ]]
Ejercicio 3.20. (a) Sea S ∈ End(V) un operador autoadjunto. Demostrar que hay dos opera-
dores positivos S + , S − ∈ End(V) tales que S + S − = S − S + = 0 y S = S + − S − .
(b) Concluir que cualquier operador lineal T ∈ End(V) es una combinación lineal de la
forma T = T 1 − T 2 + iT 3 − iT 4 donde T 1 , T 2 , T 3 , T 4 son operadores positivos.
Ejercicio 3.21. (a) Si T ∈ End(V) es un operador normal, demostrar que hay un polinomio
f (t) ∈ C[t] tal que f (T ) = T ∗ .
[[ Indicación: Buscar un polinomio que cumple f (µ j ) = µ̄ j para cada autovalor µ j de T . ]]
(b) Si S ∈ End(V) es otro operador lineal (no necesariamente normal) tal que S T = T S ,
demostrar que S ∗ T = T S ∗ .
(c) Si S , T ∈ End(V) son operadores normales, concluir que el producto S T es también un
operador normal.
Ejercicio 3.22. (a) Si T ∈ End(V) es un operador positivo, demostrar que hay un polinomio
g(t) ∈ R[t] tal que g(T ) = T 1/2 .
√
[[ Indicación: Buscar un polinomio que cumple g(µ j ) = µ j para cada autovalor µ j de T . ]]
(b) Si S ∈ End(V) es otro operador positivo tal que S T = T S , demostrar que los operadores
S + T y S T son también positivos.
(c) Si P, Q ∈ End(V) son operadores positivos que no conmutan, demostrar que P + Q es
positivo pero que PQ no es necesariamente positivo.
[[ Indicación: Dar un contraejemplo de dos matrices positivas cuyo producto no es una
matriz positiva. ]]
Ejercicio 3.23. Sea A ∈ Mn (C) y sean λ1 , . . . , λn los autovalores de A, repetidos según su

multiplicidad. Demostrar la desigualdad:
tr(A∗ A) ≥ |λ1 |2 + · · · + |λn |2 ,
con igualdad si y sólo si A es una matriz normal.
Ejercicio 3.24. (a) Demostrar que un operador lineal U ∈ End(V) es unitario si y sólo si
kU(x)k = kxk para todo x ∈ V.
(b) Demostrar que un operador lineal T ∈ End(V) es normal si y sólo si kT (x)k = kT ∗ (x)k
para todo x ∈ V.
" #
−1 −2
Ejercicio 3.25. Obtener la descomposición polar U|A| de la matriz A = ∈ M2 (C).
2 1
4 Formas Bilineales
Las aplicaciones lineales entre dos espacios vectoriales no son los únicos objetos que pueden
representarse por matrices. En este capı́tulo se examinará otra clase de funciones, las formas
bilineales (o sesquilineales) sobre un espacio vectorial, que son una generalización del con-
cepto de producto escalar. A cada forma bilineal se le asocia una matriz que la representa con
respecto a una base particular.
Se distinguen tres clases importantes de estas formas: (a) las formas bilineales simétricas,
(b) las formas bilineales alternadas o antisimétricas, y (c) las formas sesquilineales hermı́ticas
(en el caso complejo). A cada forma se le asocia una matriz cuadrada, respectivamente
simétrica, antisimétrica, o hermı́tica. Se busca una clasificación de estas formas hasta iso-
morfismo, o lo que es equivalente, la identificación de ciertos tipos de matrices que permiten
distinguir entre formas inequivalentes.
4.1 Formas bilineales y sus matrices

Definición 4.1. Sea V un espacio vectorial finitodimensional sobre un cuerpo F cualquiera.
Se dice que una aplicación f : V × V → F es una forma bilineal si las aplicaciones parciales
x 7→ f (x, y) y y 7→ f (x, y) son formas lineales sobre F; en otras palabras,
f (x + z, y) = f (x, y) + f (z, y),

f (x, y + w) = f (x, y) + f (x, w),
f (cx, y) = f (x, cy) = c f (x, y),
para todo x, y, z, w ∈ V, c ∈ F. En consecuencia,

n
X n
X Xn X
n
f ci xi , djxj = ci d j f (xi , x j ). (4.1)
i=1 j=1 i=1 j=1
Ejemplo 4.2. El producto punto de vectores f (x, y) := xt y = x1 y1 + · · · + xn yn es una forma

bilineal sobre Fn .
Más generalmente, si A ∈ Mn (F) es una matriz cuadrada cualquiera, la receta
f (x, y) := xt Ay
define una forma bilineal sobre Fn .

Definición 4.3. Es evidente de (4.1) que f queda determinada por los valores f (xi , x j ) en una
base B = {x1 , . . . , xn } del espacio vectorial V. Denótese estos coeficientes de f por
ai j := f (xi , x j ), para todo i, j = 1, . . . , n. (4.2)
Entonces f i ci xi , j d j x j = i, j ci ai j d j . Los escalares ai j son entradas de una matriz

P P P
cuadrada [ f ]B
B
:= A ∈ Mn (F): esta es la matriz de la forma bilineal f con respecto a la
base B.
Para cada vector fijo y ∈ V, la aplicación x 7→ f (x, y) es una forma lineal sobre V, es decir,
un elemento f y del espacio dual V ∗ . Por (4.1), si y = nj=1 d j x j entonces f y (x) = nj=1 d j f x j (x)
P P
para todo x ∈ V, y por ende F : y 7→ f y es una aplicación lineal en L(V, V ∗ ). Obsérvese que
ai j = f x j (xi ) por (4.2).
Si B∗ := { f1 , . . . , fn } es la base (1.5) de V ∗ que es dual a la base B = {x1 , . . . , xn } de V,
entonces la matriz (1.6) de F, con respecto a estas bases de V y V ∗ , se obtiene de
n
X n
X
F(x j ) = f x j = f x j (xi ) fi = ai j fi .
i=1 i=1
Luego [ f ]B
B
B∗
= A = [F]B . En otras palabras, la matriz de la forma bilineal f con respecto a la
base B coincide con la matriz de la aplicación lineal F ∈ L(V, V ∗ ), con respecto a B y su base
dual.
De esta manera, se ve que las formas bilineales sobre V conforman un espacio vectorial,
isomorfo al espacio vectorial L(V, V ∗ ). Su dimensión es (dim V)(dim V ∗ ) = (dim V)2 = n2 =
dim(Mn (F)).
Proposición 4.4. Sea f : V × V → F es una forma bilineal y sean B = {x1 , . . . , xn } y B0 =
{x01 , . . . , x0n } dos bases de V. Sea P la matriz de cambio de base (1.9), dado por x0s =:
B B0
j=1 p js x j . Entonces las matrices respectivas A = [ f ]B y B = [ f ]B0 de la forma bilineal f
Pn
cumplen
B = Pt AP.
Demostración. La matriz A viene de (4.2) y las entradas de B obedecen brs := f (x0r , x0s ). En
vista de (4.1), vale
Xn n
X Xn X
n n X
X n
brs = f pir xi , p js x j = pir f (xi , x j ) p js = pir ai j p js ,
i=1 j=1 i=1 j=1 i=1 j=1
y se reconoce el lado derecho como la entrada (r, s) de la matriz Pt AP.

Definición 4.5. Dos matrices cuadradas A, B ∈ Mn (F) son matrices congruentes, escrito
A l B, si hay una matriz inversible P ∈ Mn (F) tal que B = Pt AP.
La igualdad (P−1 )t = (Pt )−1 implica que la congruencia de matrices es una relación de
equivalencia.1 En efecto, esta relación es reflexiva, porque A = Int AIn ; es antisimétrica, porque
B = Pt AP implica A = (P−1 )t BP−1 ; y es transitiva, porque B = Pt AP y C = Qt BQ implican
C = (PQ)t A(PQ). La Proposición 4.4 dice que dos matrices que representan la misma forma
bilineal respecto de dos bases distintas son congruentes, mediante la matriz P de cambio de
base.
Obsérvese que dos matrices congruentes tienen el mismo rango: se sabe que el rango es
invariante bajo cambios A 7→ QAP con Q, P inversibles; al tomar Q = Pt , se ve que r(A) = r(B)
cuando A l B. En consecuencia, el rango de la matriz de una forma bilineal no depende de la
base B de V: se puede hablar del rango de la forma bilineal f .
1 Unaminorı́a de autores escriben A−t para denotar la matriz (A−1 )t = (At )−1 , por un abuso de las leyes de
exponentes. Fı́jese que (AB)−t = A−t B−t si A, B son inversibles. A−t se llama la matriz contragrediente de A.
Definición 4.6. Una forma bilineal f : V × V → F es no degenerada si f (x, y) = 0 para todo

x ∈ V implica y = 0.
Lema 4.7. Para una forma bilineal f : V × V → F, las siguientes condiciones son equiva-
lentes:
(a) f es una forma bilineal no degenerada;
(b) f y = 0 en V ∗ implica que y = 0 en V;
(c) la aplicación lineal asociada F ∈ L(V, V ∗ ) es inyectiva;
(d) la aplicación lineal asociada F ∈ L(V, V ∗ ) es sobreyectiva;
(e) si B es una base de V, la matriz A = [ f ]B
B
es inversible.
Demostración. Las equivalencias (a) ⇐⇒ (b) ⇐⇒ (c) son consecuencias directas de las
definiciones de f y y F. Para (c) ⇐⇒ (d), fı́jese que F es inyectiva si y sólo si es sobreyectiva,
porque dim V = dim V ∗ . La equivalencia (d) ⇐⇒ (e) se debe a que [ f ]B = [F]B
∗
B B
.
La sobreyectividad F(V) = V ∗ , es decir, { f y : y ∈ V } = V ∗ , dice que una forma bilineal f
es no degenerada si y sólo si cualquier elemento de V ∗ es dada por x 7→ f (x, y) para algún
y ∈ V.
4.2 Formas bilineales simétricas

Definición 4.8. Una forma bilineal d : V × V → F es simétrica si d(x, y) = d(y, x) para todo
x, y ∈ V.
Una forma bilineal s : V × V → F es alternada o bien antisimétrica si s(x, y) = −s(y, x)
para todo x, y ∈ V.
Es evidente de (4.2) que una forma bilineal d es simétrica si y sólo si su matriz A = [d]B
B
cumple At = A; y que una forma bilineal s es alternada si y sólo si su matriz B = [s]BB
cumple
Bt = −B.
Lema 4.9. Cada forma bilineal f : V × V → F es la suma, de manera única, de una forma
bilineal simétrica y una forma bilineal alternada.
Demostración. Escrı́base
1
f (x, y) + f (y, x) 1
f (x, y) − f (y, x) .

d(x, y) := 2 y s(x, y) := 2
Es evidente que d es simétrica y s es alternada —aunque cualquiera de las dos podrı́a ser
idénticamente nula— y que f (x, y) = d(x, y) + s(x, y).
Para la unicidad de d y s, es suficiente observar que si f = d0 + s0 es otra suma similar,
entonces d − d0 = s0 − s; esta es una igualdad entre una forma simétrica y otra alternada, lo
cual solo es posible2 si ambas formas son nulas: d − d0 = s0 − s ≡ 0; luego, d0 = d y s0 = s.
2 Hay una excepción a esta afirmación, si en el cuerpo de escalares F vale −1 = +1, o equivalentemente, si
1 + 1 = 0. El ejemplo más conocido es el cuerpo de dos elementos F2 = {0, 1} que es la base de la aritmética
binaria. En tales casos, la distinción entre simétrica y antisimétrica carece de sentido. Para evitar esta excepción,
en este capı́tulo se asume implı́citamente que 1 + 1 , 0 en F.
Definición 4.10. Sea d : V × V → F una forma bilineal simétrica. A cada subespacio M ≤ V

le corresponde un subespacio ortogonal con respecto a d:
M ⊥ = { x ∈ V : d(x, y) = 0 para todo y ∈ M }
= { y ∈ V : d(x, y) = 0 para todo x ∈ M }. (4.3)
Es claro que N ≤ M ≤ V implica M ⊥ ≤ N ⊥ y que {0}⊥ = V.
El subespacio V ⊥ = { y ∈ V : d y = 0 } = ker D es el núcleo de la forma bilineal d. (Aquı́ D
es la aplicación en L(V, V ∗ ) asociada con la forma d.) Fı́jese que d es no degenerada si y sólo
si V ⊥ = {0}.
Proposición 4.11. Si d es una forma bilineal simétrica no degenerada sobre V, y si M es un
subespacio de V tal que M ∩ M ⊥ = {0}, entonces M ⊕ M ⊥ = V.
Demostración. Al considerar los valores d(x, y) con x ∈ M solamente, y ∈ V cualquiera, se ve
que x 7→ d(x, y) es un elemento d0y de M ∗ y que y 7→ d0y es una aplicación lineal D M ∈ L(V, M ∗ ).
De (4.3) se ve que M ⊥ = { y ∈ V : d0y = 0 } = ker D M .
Por otro lado, si {g1 , . . . , gm } es una base de M ∗ y {x1 , . . . , xm } es la base dual de M, se
puede completar ésta a una base B = {x1 , . . . , xn } de V y obtener la base dual B∗ = { f1 , . . . , fn }
de V ∗ . Para j = 1, . . . , m la regla f j (xk ) = [[ j=k]] implica que f j (x) = g j (x) para todo x ∈ M.
Del Lema 4.7 se obtiene f j = d y j para algún y j ∈ V y por ende g j = d0y j = D M (y j ). Se
concluye que la imagen de D M es todo M ∗ . Del teorema de rango y nulidad se concluye que
dim V = n(D M ) + r(D M ) = dim M ⊥ + dim M ∗ = dim M ⊥ + dim M.
La condición x ∈ M ∩ M ⊥ = {0} ahora implica dim V = dim(M ⊕ M ⊥ ), ası́ que M ⊕ M ⊥ = V.
Definición 4.12. Sea d : V × V → F una forma bilineal simétrica. La forma cuadrática
asociada con d es la función q : V → F dada por q(x) := d(x, x).
Ejemplo 4.13. Una forma cuadrática sobre Fn es dado por q(x) = ni, j=1 ai j xi x j , donde A ∈
P
Mn (F) es una matriz de coeficientes. Al reemplazar ai j por 21 (ai j + a ji ) si fuera necesario,

se puede suponer que At = A. Entonces q(x) = d(x, x), donde d(x, y) = ni, j=1 ai j xi y j es una
P
forma bilineal simétrica.
Ejemplo 4.14. Una superficie cuádrica en F3 , centrada en el origen, tiene una ecuación de
la forma q(x, y, z) = 1, donde
  
x y z a h g   x
q(x, y, z) := ax2 + 2hxy + by2 + 2gxz + 2 f yz + cz2 = h b f  y .
   
g f c z
Proposición 4.15. Una forma bilineal simétrica d es determinada por su forma cuadrática
asociada, por polarización:
d(x, y) = 21 q(x + y) − q(x) − q(y) .

(4.4)
Demostración. Por cálculo directo, vale
q(x + y) − q(x) − q(y) = d(x + y, x + y) − d(x, x) − d(y, y)
= d(x, y) + d(y, x) = 2 d(x, y).
I La clasificación de las formas cuadráticas, o lo que es o mismo, la clasificación de las

formas bilineales simétricas, procede por convertir una matriz A en cierta matriz diagonal
congruente con A. En contraste con la diagonalización por semejanza de una matriz real
simétrica (mediante el teorema espectral), que requiere averiguar los autovalores de la matriz,
la diagonalización por congruencia es más sencilla.
Proposición 4.16. Sea d : V × V → F una forma bilineal simétrica, de rango k. Entonces hay
una base B = {x1 , . . . , xk , z1 , . . . , zn−k } para la cual la matriz de d es diagonal:
b1 0 ... 0
 

 0 b2
 . ... 0 
.. .. ..

 .. . . .


[d]B

=  0 0 . . . bk  .

B 
 0 . . . 0
.. . . .. 

. . . 


0 ... 0

Demostración. Si A = O y k = 0 por ser d ≡ 0, tómese una base {z1 , . . . , zn } cualquiera. Si

d . 0, entonces por (4.4) hay un vector x1 ∈ V con q(x1 ) , 0; colóquese b1 := q(x1 ).
Supóngase, para argumentar por inducción, que ya se haya elegido r vectores linealmente
independientes x1 , . . . , xr ∈ V tales que d(xi , x j ) = bi [[i= j]] con bi , 0, para i, j = 1, . . . , r. En-
tonces la restricción de d al subespacio Mr := linhx1 , . . . , xr i posee una matriz inversible y por
ende esta restricción es no degenerada. En consecuencia, vale Mr ∩ Mr⊥ = {0}.
Si d fuera no degenerada (es decir, si k = n), la Proposición 4.11 permitirı́a concluir que
V = Mr ⊕ Mr⊥ . Resulta que esta relación es válida aun para k < n. Para x ∈ V, colóquese
r
X d(x, xi )
y := x − xi .
i=1
bi
Entonces
r
X d(x, xi )
d(y, x j ) = d(x, x j ) − bi [[i= j]] = d(x, x j ) − d(x, x j ) = 0 para j = 1, . . . , r,
i=1
bi
ası́ que y ∈ Mr⊥ . Por tanto,

r
X
x= i d(x, xi )xi + y ∈ Mr ⊕ Mr .
b−1 ⊥
i=1
Como x es arbitrario, se concluye que V = Mr ⊕ Mr⊥ .

" La matriz
# de d con respecto a esta descomposición de V es evidentemente de la forma
Br O
, donde Br = diag[b1 , . . . , br ] y Cn−r ∈ Mn−r (F).
O Cn−r
Si Cn−r , 0 y por ende r < k, la restricción de d al subespacio Mr⊥ no es nula y existe

xr+1 ∈ Mr⊥ tal que br+1 := q(xr+1 ) , 0. Ahora {x1 , . . . , xr+1 } es la base de un subespacio Mr+1
de V y la restricción de d a Mr+1 tiene matriz diagonal Br+1 := diag[b1 , . . . , br+1 ] con entradas
diagonales no ceros.
Este proceso se repite hasta llegar al Bk , en cuyo caso Cn−k = O porque cada matriz de d
tiene rango k. Al elegir una base cualquiera {z1 , . . . , zn−k } para Mk⊥ , se obtiene la base deseada
{x1 , . . . , xk , z1 , . . . , zn−k } de V.
Corolario 4.17. Una forma cuadrática sobre V de rango k puede escribirse como
q(x) = b1 f1 (x)2 + b2 f2 (x)2 + · · · + bk fk (x)2 , (4.5)
con formas lineales f1 , . . . , fk ∈ V ∗ linealmente independientes y coeficientes b1 , . . . , bk ∈ F.
Demostración. Por la demostración de la Proposición 4.16, es q(x) = b1 ξ12 + . . . + bk ξk2 , con

respecto a una base apropiada B de V. Sea B∗ = { f1 , . . . , fn } la base dual de V, ası́ que
ξ j = f j (x) para todo x ∈ V. De ahı́ resulta que q(x) = kj=1 b j f j (x)2 .
P

Corolario 4.18. Cualquier polinomio cuadrático homogéneo en F[t1 , . . . , tn ] puede expre-

sarse como una combinación lineal de cuadrados de polinomios de primer grado sin términos
constantes.
Demostración. Un polinomio cuadrático homogéneo es una expresión del tipo

n
X
q(t1 , . . . , tn ) := ai j ti t j con cada ai j ∈ F.
i, j=1
Las sustituciones t j 7→ x j logran la evaluación de q en un vector x = (x1 , . . . , xn ) ∈ Fn cual-

quiera. De este modo se obtiene una forma cuadrática q sobre Fn .
La fórmula (4.5) expresa q en términos de un juego de formas lineales f1 , . . . , fk ∈ (Fn )∗ .
Cada fi es explı́citamente fi (x) =: nj=1 ci j x j .
P
Defı́nanse unos polinomios de primer grado en n variables, sin términos constantes,
también denotados fi , por fi (t1 , . . . , tn ) := nj=1 ci j t j . Entonces
P
q(t1 , . . . , tn ) = b1 f1 (t1 , . . . , tn )2 + · · · + bk fk (t1 , . . . , tn )2 .
Fı́jese que estos polinomios de primer grado pueden elegirse de modo que el polinomio
fi depende solamente de las variables ti , . . . , tn . Esto es consecuencia de la demostración
algorı́tmica de la Proposición 4.16: la forma lineal fr+1 del Corolario 4.17 es el primer el-
emento de la base dual de la base {xr+1 , . . . } del subespacio Mr⊥ , ası́ que no depende de las
coordenadas x1 , . . . , xr del subespacio Mr .
Ejemplo 4.19. Considérese la siguiente forma cuadrática sobre Q:
q(x) := x12 − 4x1 x2 + 2x1 x3 − 2x1 x4 + 3x22 − 6x2 x3 + 8x2 x4 + 2x3 x4 + 2x42 .
La forma bilineal asociada es
d(x, y) = x1 y1 − 2x1 y2 + x1 y3 − x1 y4 − 2x2 y1 + 3x2 y2 − 3x2 y3 + 4x2 y4

+ x3 y1 − 3x3 y2 + x3 y4 − x4 y1 + 4x4 y2 + x4 y3 + 2x4 y4 .
1 d(x, e1 ) = x1 − 2x2 + x3 − x4 . Se
Con e1 = (1, 0, 0, 0), es b1 = q(e1 ) = 1. Defı́nase f1 (x) := b−1
ve que
q(x) − b1 f1 (x)2 = −x22 − x32 + x42 − 2x2 x3 + 4x2 x4 + 4x3 x4 =: q0 (x),
Esta es una nueva forma cuadrática q0 que no incluye la coordenada x1 . Hasta ahora se ha
identificado M1 = linhe1 i, M1⊥ = linhe2 , e3 , e4 i.
Con e2 = (0, 1, 0, 0), es b2 = q0 (e2 ) = −1. Defı́nase f2 (x) := b−1 2 d (x, e2 ) = x2 + x3 − 2x4 .
0
Ahora
q(x) − b1 f1 (x)2 − b2 f2 (x)2 = 5x42 =: q00 (x),
con M1 = linhe1 , e2 i, M1⊥ = linhe3 , e4 i. Ahora se toma x3 := e4 = (0, 0, 0, 1), b3 = q00 (e4 ) = 5,
para obtener, finalmente:
q(x) = (x1 − 2x2 + x3 − x4 )2 − (x2 + x3 − 2x4 )2 + 5x42 .
La identificación de unas formas lineales f1 , . . . , fk que satisfacen la fórmula (4.5) puede

hacerse en forma algorı́tmica, mediante un proceso conocido como la reducción de La-
grange, detallado a continuación.
Proposición 4.20. La forma cuadrática sobre Fn dada por q(x) = xt Ax = ni, j=1 ai j xi x j con
P
una matriz simétrica A = At ∈ Mn (F) puede expresarse en el formato de (4.5) mediante el

siguiente algoritmo.
(a) Si akk , 0 para algún k, reordenar las variables para que a11 , 0. Entonces
n 2
1 X
q(x) = a1 j x j + q1 (x),
a11 j=1
donde q1 (x) depende solamente de (x2 , . . . , xn ).
(b) Si todo akk = 0, reordenar las variables para que a12 , 0. Entonces
n 2 n 2
1 X 1 X
q(x) = (a1 j + a2 j )x j − (a1 j − a2 j )x j + q2 (x),
2a12 j=1 2a12 j=1
donde q2 (x) depende solamente de (x3 , . . . , xn ).
(c) Repı́tase los pasos (a) y (b) con la nueva forma cuadrática q1 ó q2 , hasta llegar a una
forma cuadrática residual nula.
Demostración. Un cálculo directo verifica que q1 (x) no depende de x1 y que q2 (x) no de-
pende de x1 ni de x2 . La fórmula (4.5) es evidente, ya que el paso (a) construye b1 y f1 (x), o
bien en su defecto el paso (b) construye b1 , b2 y f1 (x), f2 (x); los demás términos se obtienen
al repetir el proceso hasta agotar las variables xi .
La independencia lineal de las formas lineales f1 , . . . , fk se deja como ejercicio.
La forma diagonal de la Proposición 4.16 no es única, porque hay cierta flexibilidad en
la elección de los coeficientes b j . Si, por ejemplo, b j = c j a2j con a j , 0, se puede sustituir
b j 7→ c j y x j 7→ a−1
j x j , ya que
i xi , a j x j ) = ai a j b j [[i= j]] = c j [[i= j]].

d(a−1 −1 −1 −1
Por tanto, la matriz de d en la nueva base es diag[c1 , . . . , ck , 0, . . . , 0]. Es posible (y deseable),

entonces, “normalizar” los coeficientes diagonales no ceros al dividirlos por cuadrados con-
venientes.
Si F = C, cualquier número complejo no cero posee una raı́z cuadrada compleja.3 Sin
embargo, cuando F = R, solamente los números positivos (el cero se excluye) poseen una
raı́z cuadrada real. Estas consideraciones bastan para demostrar el siguiente teorema de
Sylvester.4
Teorema 4.21 (Ley de Inercia de Sylvester). Sea V un espacio vectorial sobre F = R o C y

sea d : V × V → F una forma bilineal simétrica de rango k.
(a) Si F = C, entonces hay una base B de V para la cual la matriz de d es
[d]B
B = diag[1, . . . , 1, 0, . . . , 0] = Ik ⊕ On−k ,
con k entradas diagonales iguales a 1.
(b) Si F = R, entonces hay una base B de V para la cual la matriz de d es
[d]B
B = diag[1, . . . , 1, −1, . . . , −1, 0, . . . , 0] = I p ⊕ −Iq ⊕ On−p−q ,
con p entradas diagonales iguales a 1 y q entradas diagonales iguales a (−1), donde

p + q = k.
Demostración. Sea {x1 , . . . , xk , z1 , . . . , zn−k } una base de V para la cual la matriz de d es

diag[b1 , . . . , bk , 0, . . . , 0], donde cada b j , 0.
Ad (a): Si F = C, sea a j una de las dos raı́ces cuadradas de b j , para j = 1, . . . , k. Defı́nase
j x j ; la matriz de d para la base B := {y1 , . . . , yk , z1 , . . . , zn−k } es Ik ⊕ On−k .
y j := a−1
3 De hecho, tiene dos raı́ces cuadradas, pues (−α)2 = α2 .
4 James Joseph Sylvester se considera, junto con su compatriota Arthur Cayley, como los padres fundadores
del álgebra abstracta, hasta el punto de inventar buena parte de su terminologı́a: el “discriminante” de un
polinomio, la “función tociente” de Euler, y la “ley de inercia” para formas cuadráticas, fueron vocablos intro-
ducidos por Sylvester.
Ad (b): Si F = R, sea p el número de los b j que son positivos y sea q el número de los b j
que son negativos. Es p + q = k. Por una permutación de los vectores x j , si fuera necesario,
puede suponerse que b j > 0ppara j = 1, . . . , p y que b j < 0 para j = p + 1, . . . , k.
Ahora colóquese a j := |b j | para j = 1, . . . , k y defı́nase y j := a−1 j x j ; entonces la matriz
de d respecto de la base B := {y1 , . . . , yk , z1 , . . . , zn−k } es I p ⊕ −Iq ⊕ On−p−q .
Definición 4.22. Sea A = At ∈ Mn (R) una matriz simétrica real. Si p es el número de autovalo-
res positivos de A (repetidas según su multiplicidad) y si q = r(A)− p el número de autovalores
negativos de A, la diferencia5 s(A) := p − q es la signatura de la matriz A.
Proposición 4.23. Dos matrices simétricas reales A, B ∈ Mn (R) son congruentes si y sólo si
tienen el mismo rango y la misma signatura.
Demostración. Si A l B, ya se sabe que A y B tienen el mismo rango. Denótese k := r(A) =
r(B) en ese caso.
Por el Teorema 4.21, hay enteros p, p0 , q, q0 ∈ N con p + q = p0 + q0 = k tales que A l
I p ⊕ −Iq ⊕ On−k mientras B l I p0 ⊕ −Iq0 ⊕ On−k . Basta verificar, entonces, en el caso k = n, que
las matrices diagonales I p ⊕ −Iq e I p0 ⊕ −Iq0 son congruentes si y sólo si p = p0 .
Supongamos que k = n y considérese la forma bilineal simétrica sobre Rn dada por
d(x, y) := x1 y1 + · · · + x p y p − x p+1 y p+1 − · · · − x p+q y p+q . (4.6)
Entonces la matriz de d en la base estándar E = {e1 , . . . , en } de Rn es [d]EE = I p ⊕ −Iq . Sea

U := {u1 , . . . , un } otra base de Rn tal que [d]U = I p0 ⊕ −Iq0 . Explı́citamente, con x = nj=1 x0j u j ,
P
U
y = nj=1 y0j u j , supóngase que vale
P
d(x, y) = x10 y01 + · · · + x0p0 y0p0 − x0p0 +1 y0p0 +1 − · · · − x0p0 +q0 y0p0 +q0 .
Considérese los subespacios M := linhe1 , . . . , e p i y N 0 := linhu p0 +1 , . . . , u p0 +q0 i. Es claro que
d(y, y) > 0 si y ∈ M, y , 0, mientras d(z, z) < 0 si z ∈ N 0 , z , 0.
Por lo tanto, es M ∩ N 0 = {0} y luego M + N 0 = M ⊕ N 0 . Al contar dimensiones, se ve que

p + q0 = dim(M ⊕ N 0 ) ≤ n = p + q, ası́ que q0 ≤ q.
Del mismo modo, los subespacios M 0 := linhu1 , . . . , u p0 i y N := linhe p+1 , . . . , e p+q i tienen
intersección nula, lo cual implica que p0 + q = dim(M 0 ⊕ N) ≤ n = p + q y por ende p0 ≤ p.
Pero p0 + q0 = n = p + q, de donde p0 = p y q0 = q necesariamente.
Corolario 4.24. La signatura de una matriz de una forma bilineal simétrica real es indepen-
diente de la base elegida.
Definición 4.25. Si d : V × V → R es una forma bilineal simétrica sobre un espacio vectorial,
la signatura de d es la signatura s := p − q ∈ Z de cualquiera de sus matrices [d]B
B
. También
se dice que s es la signatura de la forma cuadrática real asociada con d.
5 Algunos autores llaman signatura al par ordenado (p, q); a la diferencia p − q la llaman el ı́ndice de la forma
bilineal simétrica d(x, y) = xt Ay.
Definición 4.26. Una forma bilineal simétrica real d es positiva si d(x, x) ≥ 0 para todo x ∈ V.
Una forma cuadrática real q es positiva si q(x) ≥ 0] para todo x ∈ V.
Si estas desigualdades son estrictas para todo x , 0, se dice que d [respectivamente, q] es
definida positiva.
Es evidente que d es positiva si y sólo si su rango y signatura coinciden (porque q = 0 si y
sólo si s = k). Además, d es definida positiva si es positiva y no degenerada (el caso s = k = n).
Fı́jese que un producto escalar real no es más que una forma bilineal simétrica real que
es definida positiva. La teorı́a de espacios vectoriales euclidianos admite una generalización
que consiste en reemplazar el producto escalar por usar formas bilineal simétrica indefinida.
Por ejemplo, se podrı́a reemplazar el producto punto en Rn por la forma (4.6).
Con respecto de estas formas indefinidas (es decir, cuando p > 0 y q > 0, o bien cuando
−n < s < n), es posible definir bases ortonormales, matrices “pseudo-ortogonales”, etcétera,
en analogı́a con el caso euclidiano. Un caso de particular interés es p = 3, q = 1, la forma
bilineal “lorentziana”:
d(x, y) = −x0 y0 + x1 y1 + x2 y2 + x3 y3 , para x, y ∈ R4
subyace la teorı́a “especial” de la relatividad einsteiniana.6
4.3 Formas hermı́ticas

Las formas bilineales simétricas complejas tienen menos estructura que las formas reales
análogas, ya que su clasificación depende solamente de su rango y no de su signatura. Esto
se debe a que la simetrı́a de una forma bilineal compleja no es muy apropiada, porque ignora
la conjugación compleja de las escalares en C. Para incorporar la conjugación compleja, es
oportuno sustituir la noción de forma bilineal por la de forma sesquilineal; dichas formas se
clasificarán, como luego se verá, por su rango y signatura.
Definición 4.27. Sea V un espacio vectorial finitodimensional sobre el cuerpo C. Una apli-
cación h : V × V → C es una forma sesquilineal si la aplicación parcial w 7→ h(z, w) es una
forma lineal sobre V y la aplicación parcial z 7→ h(z, w) es semilineal; en otras palabras,
h(z + z0 , w) = h(z, w) + h(z0 , w), h(z, αw) = α h(z, w),

h(z, w + w0 ) = h(z, w) + h(z, w0 ), h(αz, w) = ᾱ h(z, w),
para todo z, z0 , w, w0 ∈ V, α ∈ C.
Una forma sesquilineal h es hermı́tica si h(z, w) = h(w, z) para z, w ∈ V.
Con respecto a una base B = {z1 , . . . , zn } de V, la fórmula ai j := h(zi , z j ) determina la ma-
triz A = [h]B B
de una forma sesquilineal. Es evidente que una forma sesquilineal es hermı́tica
si y sólo si su matriz cumple A∗ = A.
6 El principio de la relatividad fue formulado por Galileo Galilei,en: Dialogo sopra i due massimi sistemi del
mondo, Firenze, 1632. Las ecuaciones de Maxwell para movimiento en campos electromagnéticos incumplen
este principio, pero Einstein logró recuperar la relatividad al precio de postular que la velocidad de la luz es
constante.
Si B0 = {z0 1 , . . . , z0 n } es otra base de V, y si P es la matriz de cambio de base (1.9),

entonces las matrices respectivas A = [h]B , B = [h]B
0
B B0
de la forma sesquilineal h para estas
bases cumplen
B = P∗ AP.
Para demostrar esta fórmula, sólo hay que modificar la demostración de la Proposición 4.4,
lo cual se deja como ejercicio.
La relación de equivalencia A P∗ AP, con P inversible, a veces se llama “congruencia
hermı́tica”. Dos matrices hermı́ticamente congruentes tienen el mismo rango: este es el caso
de A 7→ QAP con Q = P∗ . El rango de la matriz [h]B B
de una forma sesquilineal no depende
de la base B elegida, y se llama el rango de la forma sesquilineal h.
Si h : V × V → C es una forma hermı́tica y si M es un subespacio de V, su subespacio
ortogonal con respecto a h es
M ⊥ = { z ∈ V : h(z, w) = 0 para todo w ∈ M }

= { w ∈ V : h(z, w) = 0 para todo z ∈ M }.
Ejemplo 4.28. Si V es un espacio hilbertiano (complejo), su producto escalar h(z, w) := hz, wi

es una forma sesquilineal y hermı́tica, que además es definida positiva, es decir, es h(z, z) > 0
para z , 0 en V. Por tanto, una forma hermı́tica es una generalización de la noción de producto
escalar, donde se omite el requisito de positividad.
Ejemplo 4.29. Si p, q ∈ N con p + q = k ≤ n, la forma sesquilineal siguiente sobre Cn es

hermı́tica:
h(z, w) := z̄1 w1 + · · · + z̄ p w p − z̄ p+1 w p+1 − · · · − z̄ p+q w p+q .
Su matriz (respecto de la base estándar E) es
[h]EE = diag[1, . . . , 1, −1, . . . , −1, 0, . . . , 0] = I p ⊕ −Iq ⊕ On−p−q .
El ejemplo anterior es tı́pico: el siguiente teorema es una versión de la ley de inercia

de Sylvester para formas hermı́ticas. Dichas formas se clasifican por su rango p + q y su
signatura s := p − q.
Proposición 4.30. Sea V un espacio vectorial sobre C con dim V = n. Sea h : V × V → C una
forma hermı́tica, de rango k. Entonces hay una base B de V tal que [h]B B
= I p ⊕ −Iq ⊕ On−k ,
B0
donde p + q = k. Además, si hay otra base B de V tal que [h]B0 = I p0 ⊕ −Iq0 ⊕ On−k , entonces
0
p0 = p y q0 = q.
Demostración. Las demostraciones de las Proposiciones 4.16 y 4.23 y del Teorema 4.21(b)
se adaptan directamente al caso hermı́tico: se deja los detalles como un ejercicio.
(Fı́jese que los b j obtenidos de la Proposición 4.16 son reales, porque h(z, z) ∈ R para todo
z ∈ V; y que además h(α−1 z, α−1 z) = |α|−2 h(z, z) para todo α ∈ C.)
4.4 Formas bilineales alternadas

Las formas bilineales alternadas tienen una estructura más sencilla que las formas bilineales
simétricas, pero no son menos importantes. En esta sección F denota un cuerpo cualquiera
(en el cual 1 + 1 , 0). El ejemplo primordial de una forma bilineal alternada es la aplicación
s0 : F2 × F2 → F dada por
s0 (x, y) := x1 y2 − x2 y1 .
Su matriz con respecto a la base estándar {e1 , e2 } de F2 es la siguiente matriz antisimétrica:
" #
0 1
J2 := .
−1 0
En adelante se verá que cualquier matriz antisimétrica es congruente con una suma directa de
varias copias de esta J2 .
Una forma bilineal alternada no degenerada s : V × V → F se llama forma simpléctica
sobre V.
Definición 4.31. Si s : V × V → F es una forma bilineal alternada, y si M es un subespacio

de V, su complemento simpléctico con respecto a s se define por analogı́a con (4.3):
M ⊥ = { x ∈ V : s(x, y) = 0 para todo y ∈ M }

= { y ∈ V : s(x, y) = 0 para todo x ∈ M }.
Los complementos simplécticos presentan un fuerte contraste con los complementos or-
togonales determinados por formas simétricas o hermı́ticas. Respecto de s, cualquier vector
x ∈ V cumple s(x, x) = 0 por antisimetrı́a. En consecuencia, si N := linhxi = { cx : c ∈ F } es el
subespacio unidimensional generado por x, entonces N ⊆ N ⊥ .
Un subespacio M ≤ V tal que M ⊆ M ⊥ se llama un subespacio isotrópico de V.
Proposición 4.32. Sea s : V × V → F una forma bilineal alternada, de rango k. Entonces k es

un número entero par; al escribir k =: 2m, hay una base B = {x1 , y1 , . . . , xm , ym , z1 , . . . , zn−2m }
para la cual la matriz de s es de la forma
 J2 O . . . O 
 
 O J2 . . . O 
" #  
J2m O
[s]B = , con J2m :=  .. .. . . .  = J2 ⊕ · · · ⊕ J2 . (4.7)
B O On−2m  . . . ..  | {z }
m veces
O O . . . J2
 
Demostración. Obsérvese primero que la matriz de s es del tipo indicado si y sólo si
s(x j , y j ) = −s(y j , x j ) = 1
y además s(z, w) = 0 para cualquier otro par de vectores básicos z, w ∈ B. Si s ≡ 0, se

puede usar una base arbitaria B = {z1 , . . . , zn } de V, porque [s]B
B
= O. En cambio, si s no
es idénticamente nula, hay dos vectores x1 , y1 ∈ V con s(x1 , y1 ) =: c1 , 0. Ahora x1 , y01 son
0 0
linealmente independientes porque s(x1 , y01 ) serı́a cero por antisimetrı́a si x1 , y01 fueran pro-
porcionales. Colóquese y1 := c−1 1 y1 , de modo que s(x1 , y1 ) = 1 y s(y1 , x1 ) = −1.
0
Supóngase, para argumentar por inducción, que ya se haya elegido 2r vectores lineal-
mente independientes {x1 , y1 , . . . , xr , yr } en V con
s(xi , y j ) = −s(y j , xi ) = [[i= j]], s(xi , x j ) = s(yi , y j ) = 0,
para i, j = 1, . . . , r. Entonces la restricción de s al subespacio M2r := linhx1 , y1 , . . . , xr , yr i es
no degenerada, y además M2r ∩ M2r ⊥ = {0}.
Si s es no degenerada (este el caso k = n), entonces V = M2r ⊕ M2r ⊥ por la Proposición 4.11.
(Fı́jese que la demostración de esta Proposición sigue válida sin cambio alguno para formas
bilineales alternadas en vez de simétricas). Resulta que esta relación es válida aun para k < n.
Para x ∈ V, colóquese
X r r
X
z := x − s(x, yi )xi + s(x, xi )yi .
i=1 i=1
Entonces, para j = 1, . . . , r, vale
s(z, x j ) = s(x, x j ) + s(x, x j )s(y j , x j ) = 0,
s(z, y j ) = s(x, y j ) − s(x, y j )s(x j , y j ) = 0,
⊥ . Por tanto,
ası́ que z ∈ M2r
r
X r
X
x= s(x, yi )xi − s(x, xi )yi + z ∈ M2r ⊕ M2r
⊥
.
i=1 i=1
Como x es arbitrario, se concluye que V = M2r ⊕ M2r ⊥.
" La matriz # de s con respecto a esta descomposición de V es evidentemente de la forma

J2r O
, donde Cn−2r ∈ Mn−2r (F).
O Cn−2r
Si Cn−2r = O, entonces 2r = k y se puede elegir una base {z1 , . . . , zn−2r } para M2r ⊥ cuya
unión con la base {x1 , . . . , xr , y1 , . . . , yr } de M2r es la base B deseada.

Si Cn−2r , 0 y por ende 2r < k, la restricción de s al subespacio M2r ⊥ no es nula y existen
dos vectores no proporcionales xr+1 , yr+1 ∈ M2r tales que s(xr+1 , yr+1 ) = −s(yr+1 , xr+1 ) = 1.
⊥
Ahora {x1 , y1 , . . . , xr , yr , xr+1 , yr+1 } es la base de un subespacio M2r+2 ≤ V y la restricción de s

a este subespacio tiene la matriz J2r+2 .
Este proceso se repite hasta llegar a J2m , donde 2m + 2 > k. Si fuera k = 2m + 1, serı́a
imposible elegir dos vectores no proporcionales en M2m ⊥ en los cuales s no se anula. Luego
es k = 2m y Cn−2m = O. Al elegir una base cualquiera {z1 , . . . , zn−2m } para M2m ⊥ , se obtiene la
base deseada de V.
A veces conviene permutar los vectores de la base B obtenida en la Proposición anterior
para cambiarla a B0 = {x1 , . . . , xm , y1 , . . . , ym , z1 , . . . , zn−2m }, para la cual la matriz de s tiene el
formato:  
 O Ir O 
[s]B
0
B0 = −Ir O O  .
 
O O On−2m

Corolario 4.33. El rango de una matriz antisimétrica A = −At ∈ Mn (F) es par. Dos matrices
antisimétricas reales A, B ∈ Mn (F) son congruentes si y sólo si tienen el mismo rango.
Demostración. Defı́nase la forma bilineal s sobre Fn por sA (x, y) := xt Ay. Si A = −At , en-
tonces s es una forma alternada. La Proposición anterior dice que hay una matriz de cambio
de base P = [I]B
E
tal que Pt AP = J2m ⊕ On−2m , para algún m ∈ N con 2m ≤ n. El rango de A es
r(A) = r(Pt AP) = 2m.
Si A = −At , B = −Bt y r(A) = r(B) = 2m, entonces la Proposición anterior, aplicada a las
formas alternadas sA y sB , muestra que A l J2m ⊕ On−2m l B.
Corolario 4.34. Una forma simpléctica sobre V existe sólo si dim V es par: n = 2m.
Sea A ∈ Mn (F) una matriz antisimétrica inversible. Entonces sA (x, y) := xt Ay es una forma
simpléctica sobre Fn , y n = 2m es necesariamente par. La Proposición 4.32 dice que A l J2r :
hay una matriz inversible R tal que A = Rt J2r R. Obsérvese que det J2r = (det J2 )r = 1. En
consecuencia, vale
det A = (det R)2 .
En particular, si F = R, esto implica √ que det A > 0.
Es legı́timo escribir det R = ± det A, porque det R es una raı́z cuadrada del determinante
de A. Lo que es menos evidente, pero cierto, es que det R es un polinomio con coeficientes
enteros en las entradas de A. (Esto significa, por ejemplo, que si las entradas de A son
números enteros, entonces det R es entero.) Además, esta “raı́z cuadrada del determinante”
resulta de la evaluación en las entradas de A de un polinomio “universal”, muy análogo al
polinomio (1.15) que define el determinante de A por la fórmula de Leibniz.
Es necesario, para entender su definición, hacer un inciso de la teorı́a de polinomios.
Para i, j = 1, . . . , n con i < j, tómese una “incógnita” ti j , y sea t := (t12 , t13 , . . . , tn−1,n ). Sea
Q(t) el cuerpo de cocientes de polinomios en estas incógnitas, con coeficientes racionales.
(Al multiplicar el numerador y denominador de un tal cociente por un número entero apro-
piado, se puede suponer que ese numerador y denominador tienen coeficientes enteros, es
decir, pertenecen al anillo de polinomios Z[t].) Ahora considérese la matriz antisimétrica T
definido por
t13 . . . t1n 
 
 0 t12
−t12 0 t23 . . . t2n 
T := −t13 −t23 0 . . . t3n  ∈ Mn (Q(t)).
 
 .. .. .. .. . 
 . . . . .. 
−t1n −t2n −t3n . . . 0
 
En el cuerpo Q(t), vale 1 + 1 , 0, ası́ que las proposiciones ya vistas sobre formas bilineales
alternadas siguen válidas para F = Q(t). Se concluye que det T = (det R)2 para cierta matriz
R con entradas en Q(t).
De la fórmula (1.15) se sabe que det R es un polinomio en las entradas de R, ası́ que
det R = q(t)/r(t) donde q, r son polinomios en Z[t] sin factor común. También por (1.15),
resulta que det T =: s(t) es otro polinomio en las incógnitas t. La relación det T = (det R)2
implica
s(t)r(t)2 = q(t)2 . (4.8)
Los polinomios con coeficientes enteros (en varias variables) admiten factorización única:
al expresar los dos lados de (4.8) como producto de polinomios irreducibles, se ve que cada
factor irreducible de r(t) es también un factor de q(t). Como q(t) y r(t) no tienen factor
común, se concluye que r(t) ≡ ±1. Por lo tanto, det T = q(t)2 es un cuadrado perfecto en Z[t].
Definición 4.35. Sea A = −At una matriz antisimétrica en Mn (F) donde n = 2m es par. La
evaluación de polinomios ti j 7→ ai j lleva Q(t) en F y lleva la matriz T en A. El polinomio en
las entradas ai j que es la imagen de det R es el pfaffiano de A:
Pf A := q(a12 , a13 , . . . , an−1,n ).
Para resolver la ambigüedad de signo en q(t), se requiere adicionalmente que Pf(J2r ) = +1.
La evaluación de polinomios preserva productos; en consecuencia, vale
det A = (Pf A)2 . (4.9)

" #
0 a12
Ejemplo 4.36. En el caso n = 2, es A = , ası́ que det A = a212 ası́ que Pf A = ±a12 .
−a12 0
El signo queda determinado por la condición Pf J2 = +1. Luego, vale Pf A = a12 .
Ejemplo 4.37. En el caso n = 4, el pfaffiano es

 
 0 a12 a13 a14 
−a 0 a23 a24 
A =  12  =⇒ Pf A = a12 a34 − a13 a24 + a14 a23 .
−a13 −a23 0 a34 
−a14 −a24 −a34 0

Si A = −At es una matriz antisimétrica en Mn (F) donde n = 2m + 1 es impar, entonces la

Proposición 4.32 muestra que A l J2r ⊕ O2m−2r+1 para algún r ≤ m, y en particular que A no
es inversible, pues det A = 0. En este caso conviene definir Pf A := 0 también.
Ejemplo 4.38. La fórmula general para el pfaffiano de una matriz antisimétrica A ∈ M2m (F)
es la siguiente:
1 X
Pf A := (−1)σ aσ(1)σ(2) aσ(3)σ(4) . . . aσ(2m−1)σ(2m) . (4.10)
2m m! σ
Aquı́ σ recorre las (2m)! permutaciones de (1, 2, . . . , 2m); debido a la antisimetrı́a de A, la

sumatoria tiene muchos productos repetidos, y el factor 1/(2m m!) sirve para eliminar redun-
dancias en esta sumatoria. La comprobación de esta fórmula aparecerá en los Ejercicios.
Proposición 4.39. Si A = −At es una matriz antisimétrica en Mn (F) y si S ∈ Mn (F) es una

matriz cualquiera, entonces
Pf(S t AS ) = (det S ) (Pf A). (4.11)
Demostración. Si n es impar, los dos lados de la ecuación valen 0. Supóngase, entonces, que
n es par.
Obsérvese que (S t AS )t = S t At S = −S t AS , ası́ que la matriz S t AS es también antisimétrica
y posee un pfaffiano. Ahora det (S t AS ) = (det S )2 det A por las propiedades conocidas de
determinantes. De (4.9) se obtiene enseguida:
Pf(S t AS ) = ±(det S ) (Pf A).
Los dos lados de esta igualdad resultan de la evaluación de una identidad polinomial, con
T en lugar de A y una matriz análoga (cuyas entradas son nuevas incógnitas si j ) en lugar
de S . Esto significa que el signo al lado derecho es el mismo, cualesquiera que sean A y S .
Al tomar S = In , y al recordar que det In = 1, se ve que este signo es positivo, y la fórmula
deseada queda comprobada.
I Hay un contexto importante en donde coexisten una forma bilineal simétrica y una forma
bilineal alternada que juegan papeles complementarias. Ese es el caso de un un espacio vec-
torial complejo W de dimensión m sobre C, dotado de un producto escalar h·, ·i. Se puede
considerar W como un espacio vectorial real de dimensión 2m sobre R, al tomar la multipli-
cación escalar
√ x 7→ cx sólo para c ∈ R, “olvidando” o despreciando las aplicaciones x 7→ ±ix
para i = −1. Las partes real e imaginaria del producto escalar,
d(x, y) := < hx, yi, s(x, y) := = hx, yi,
definen dos formas R-bilineales, d y s, sobre W. Es evidente que d es simétrica y que s es
alternada. La positividad del producto escalar implica que d y s son formas no degeneradas,
y que d sea definida positiva, es decir, su rango y signatura son máximos: r(d) = s(d) = 2m.
Considérese el problema inverso, el de transformar un espacio vectorial real V de di-
mensión par n = 2m, con un producto escalar real d : V × V → R, en un espacio vectorial
complejo de dimensión m, con un producto escalar complejo h·, ·i. Lo que hace falta es una
manera de prescribir la multiplicación escalar de ±i sobre V.
Definición 4.40. Sea (V, d) un espacio euclidiano (esto es, un espacio vectorial real V con una
forma bilineal simétrica d que es definida positiva) de dimensión par n = 2m. Una estructura
compleja ortogonal sobre (V, d) es un operador J ∈ EndR (V) tal que
(a) J 2 = −I en EndR (V), y además
(b) d(Jx, Jy) = d(x, y) para todo x, y ∈ V.
Por el teorema de inercia de Sylvester, hay una base E = {e1 , . . . , en } de V tal que
n
X n
X
d(x, y) = x1 y1 + · · · + xn yn , cuando x= xi ei , y= y j e j.
i=1 j=1
En otras palabras, la base E es una base ortonormal para el espacio euclidiano (V, d). Al
identificar el vector x ∈ V con (x1 , . . . , xn ) ∈ Rn , se obtiene d(x, y) = xt y.
Con un leve abuso de notación, se puede usar la misma letra J para denotar la matriz
E
[J]E ∈ Mn (R). Esta matriz J cumple dos propiedades:
(a) J 2 = −In en Mn (R), y además
(b) J t J = In .
La propiedad (b) es consecuencia de la relación
xt J t Jy = (Jx)t Jy = d(Jx, Jy) = d(x, y) = xt y para todo x, y ∈ Rn .
En otras palabras, J es una matriz ortogonal. Además, las propiedades (a) y (b) implican que
J t = −J = J −1 .
Ejemplo 4.41. Si V = R"2m , se #puede tomar J := J2m como en (4.7), la suma directa de m
0 1
copias de la matriz J2 = 2 = −I ⊕ · · · ⊕ −I = −I .
. Es claro que J2m 2 2 2m
−1 0
Lema 4.42. Sea (V, d) un espacio euclidiano de dimensión 2m sobre R y sea J ∈ EndR (V)
una estructura compleja ortogonal. Entonces s(x, y) := d(Jx, y) define una forma bilineal
simpléctica sobre V tal que s(Jx, Jy) ≡ s(x, y).
Demostración. Es evidente que s es una forma bilineal sobre V. Si x, y ∈ V, entonces
s(y, x) = d(Jy, x) = d(J 2 y, Jx) = −d(y, Jx) = −d(Jx, y) = −s(x, y), (4.12)
por las propiedades (a) y (b) de la Definición 4.40 y la simetrı́a de d. Por tanto, s es alternada.
Si s(x, y) = 0 para todo y ∈ V, entonces d(Jx, y) = 0 para todo y; de ahı́, es d(Jx, Jx) = 0.
Luego Jx = 0 porque d es definida positiva, y en consecuencia x = 0 ya que J es inversible
(con J −1 = −J). Esto comprueba que s es no degenerada.
También, es s(Jx, Jy) = d(J 2 x, Jy) = s(x, y), a partir de la ecuación (4.12) con x ↔ y.
Proposición 4.43. Sea (V, d) un espacio euclidiano de dimensión 2m sobre R y sea J ∈

EndR (V) una estructura compleja ortogonal. Defı́nase una multiplicación escalar compleja
sobre V por
(a + ib)x := ax + bJ(x), para todo a, b ∈ R. (4.13a)
Denótese por V J el espacio vectorial complejo formado por el conjunto V con su propia op-
eración de suma y esta nueva multiplicación escalar. Entonces V J es un espacio hilbertiano
de dimensión m sobre C, con el producto escalar
hx, yiJ := d(x, y) + i s(x, y) = d(x, y) + i d(Jx, y). (4.13b)
Demostración. Es fácil comprobar que la operación (4.13a) hace de V un espacio vectorial

complejo: sólo hay que observar que para a, b, p, q ∈ R, x ∈ V, vale
(a + ib)(p + iq)x = (a + ib)(px + qJ(x)) = apx + (aq + bp) J(x) + bqJ 2 (x)
= (ap − bq) x + (aq + bp) J(x) = ((ap − bq) + i(aq + bp)) x.
Por el Lema anterior, s(x, y) := d(Jx, y) es una forma bilineal alternada, ası́ que d + is es
una forma hermı́tica sobre V. Como s(x, x) = 0 para todo x, se ve que hx, xiJ = d(x, x) ≥ 0
para todo x ∈ V, con igualdad sólo si x = 0. Luego V J es un espacio hilbertiano.
Fı́jese que
s(x, y) = d(Jx, y) es equivalente a d(x, y) = s(x, Jy),
porque s(x, Jy) = d(Jx, Jy) = d(x, y).
Sea {u1 , . . . , ur } una familia ortonormal en el espacio hilbertiano V J y considérese el con-
junto de vectores Br = {u1 , J(u1 ), . . . , ur , J(ur )} en V. Si i , j, entonces
d(ui , u j ) + i d(Jui , u j ) = hui , u j i = 0.
Además, d(Jui , ui ) = s(ui , ui ) = 0 para i = 1, . . . , r. Entonces Br es una base ortonormal de
un subespacio Mr de (V, d), de dimensión real 2r. Si r < m, hay un vector ur+1 ∈ V tal
que d(ur+1 , ur+1 ) = 1 y d(ur+1 , ui ) = d(ur+1 , Jui ) = 0 para i = 1, . . . , r, por compleción de una
base ortonormal en (V, d). También, es d(Jur+1 , Jur+1 ) = d(ur+1 , ur+1 ) = 1 y d(Jur+1 , ui ) =
d(Jur+1 , Jui ) = 0, ası́ que {u1 , . . . , ur+1 } es una familia ortonormal en V J . Al llegar a r = m,
se ha construido una base ortonormal U = {u1 , . . . , um } del espacio hilbertiano V J y al mismo
tiempo una base ortonormal Br = {u1 , J(u1 ), . . . , um , J(um )} del espacio euclidiano (V, d). En
particular, es dimC V J = m.
Definición 4.44. Sea (V, d) un espacio euclidiano con dimR V = n. La complexificación de V
es el espacio vectorial complejo
VC = V ⊕ iV := { x + iy : x, y ∈ V },
con multiplicación escalar (a + ib)(x + iy) := (ax − by) + i(bx + ay) para a, b ∈ R, x, y ∈ V. Si
z = x + iy ∈ VC , escrı́base z̄ := x − iy. La forma R-bilineal d sobre V se puede ampliar a una
forma C-bilineal sobre VC al poner d(x + iy, x0 + iy0 ) := d(x, x0 ) + i d(x, y0 ) + i d(y, x0 ) − d(y, y0 ).
Es posible dotar VC de un producto escalar complejo al definir
hhz, wii := 2d(z̄, w) para z, w ∈ VC . (4.14)
Fı́jese que VC tiene dimensión n sobre C.
Lema 4.45. Sea (V, d) un espacio euclidiano con una estructura compleja ortogonal J. En-
tonces W := { x − iJ(x) : x ∈ V } es un subespacio complejo de VC , isomorfo a V J como espacio
hilbertiano.
Demostración. Defı́nase P J := 21 (I − iJ) ∈ EndC (VC ). Entonces P J (VC ) = P J (V) = W, mien-
tras P2J = P J y además P∗J = 12 (I + iJ t ) = 12 (I − iJ) = P J . Luego P J es el proyector ortogonal
sobre VC con imagen W. Si x, y ∈ V, entonces
hhP J (x), P J (y)ii = 12 d(x + iJ(x), y − iJ(y))
= 21 d(x, y) + 2i s(x, y) − 2i s(y, x) + 12 d(J(x), J(y))
= d(x, y) + i s(x, y) = hx, yiJ .
Como dimC W = 21 dimR W = 12 dimR V = dimC V J , se ve que P J : V J → W es una biyección
lineal que entrelaza los productos escalares complejos de V J y W.
4.5 Ejercicios sobre formas bilineales

Ejercicio 4.1. Sean f , g dos formas bilineales sobre V, con f no degenerada. Demostrar que
hay un único operador lineal T ∈ End(V) tal que
g(x, y) = f (x, T (y)) para todo x, y ∈ V.
Mostrar que T es biyectivo si y sólo si g también es no degenerada.

[[ Indicación: Fijar una base B de V y expresar la matriz de T en términos de las matrices de
f y g. ]]
Ejercicio 4.2. El discriminante de una forma bilineal simétrica d, con respecto a una base
B = {x1 , . . . , xn } de V, es el determinante D := det [d(xi , x j )]. Verificar que la forma d es
no degenerada si y sólo si D , 0.
Ejercicio 4.3. Sea d una forma bilineal simétrica sobre V. Para cada subespacio M ≤ V,
denótese por M ⊥ el subespacio ortogonal a M con respecto a d. Si N es otro subespacio de V,
demostrar que (M + N)⊥ = M ⊥ ∩ N ⊥ .
Demostrar también que (M ∩ N)⊥ = M ⊥ + N ⊥ si d es no degenerada.
Ejercicio 4.4. Las formas bilineales simétricas aparecen en la teorı́a geométrica de polos y
polares. Cada forma cuadrática no degenerada q sobre R2 define una cónica (centrada en el
origen), la cual es la curva cuya ecuación es q(x) = 1, o bien d(x, x) = 1. Si y ∈ R2 es un
determinado punto, la recta polar de y con respecto a esta cónica7 es la recta con ecuación
d(x, y) = 1.
Por ejemplo, si la cónica es la hipérbola x12 − 4x1 x2 + 2x22 = 1, la recta polar del punto (2, 3)
es la recta −4x1 + 2x2 = 1.
Verificar que un punto y ∈ R2 queda sobre la curva q(x) = 1 si y sólo si y queda sobre su
propia recta polar. Concluir que esa recta polar es tangencial a la cónica en ese punto.
Ejercicio 4.5. Verificar que las formas lineales f1 , . . . , fk , construidas en la Proposición 4.20
por el proceso de reducción de Lagrange, son linealmente independientes.
Ejercicio 4.6. Aplicar la reducción de Lagrange para expresar las formas cuadráticas siguien-
tes como una combinación de cuadrados de formas lineales:
(a) q(x1 , x2 ) = 4x1 x2 ,
(b) q(x1 , x2 , x3 ) = −2x12 + 6x1 x2 + 10x1 x3 + x22 − 2x2 x3 + 4x32 ,
(c) q(x1 , x2 , x3 ) = x1 x2 + x1 x3 + x2 x3 ,
(d) q(x1 , x2 , x3 , x4 ) = x12 + 2x1 x2 − 2x1 x3 + 2x1 x4 + 4x22 + 4x2 x3 + 2x2 x4 + 4x32 − 2x3 x4 − x42 ,
(e) q(x1 , x2 , x3 , x4 ) = 4x12 − 4x1 x2 − 4x1 x3 + 4x1 x4 + x22 + 4x2 x3 − 4x2 x4 + x32 + x42 .
7 Paramás información sobre polos y polares, véase, por ejemplo, el Tema VI de: Joseph C. Várilly, Elemen-
tos de Geometrı́a Plana, Editorial de la UCR, San José, 1988.
Ejercicio 4.7. ¿Cuáles son el rango y la signatura de cada una de las formas cuadráticas del
Ejercicio anterior?
Ejercicio 4.8. Determinar el rango y la signatura de las siguientes formas cuadráticas so-
bre Rn :
(a) q(x) = x1 x2 + x3 x4 + x5 x6 + · · · + x2m−1 x2m , si n = 2m;

n
X X
(b) qa,b (x) = a xk2 + b xi x j , con a, b ∈ R.
k=1 i< j
(Hay varios casos, según los valores de a y b).
Ejercicio 4.9. Determinar el rango y la signatura de la forma cuadrática sobre Rn cuya

definición es q(x) := i< j (xi − x j )2 .
P
Ejercicio 4.10. Gantmacher da la siguiente receta8 para determinar la signatura de la forma

cuadrática q(x) = xt Ax de rango k sobre Rn . Sean D1 , . . . , Dn los menores principales de-
lanteras de la matriz A. [Esto es, Dr := m Jr ,Jr es el determinante de la submatriz de A formado
al borrar las últimas (n − r) filas y columnas. Se sabe que Dr = 0 para r > k.]
Supóngase que Dr , 0 para r = 1, . . . , k o bien que la lista (D1 , . . . , Dk ) tenga ceros no
consecutivos. Sea q el número de cambios de signo en la lista (1, D1 , . . . , Dk ), después de
suprimir los ceros no consecutivos si los hubiese. Entonces la signatura de la forma cuadrática
es s := k − 2q.
Usar esta prescripción para calcular la signatura de las formas cuadráticas del Ejerci-
cio 4.6, sin aplicar la reducción de Lagrange.
Ejercicio 4.11. Sean µ1 , . . . , µr los autovalores distintos de la matriz simétrica A ∈ Mn (R),

en orden decreciente: µ1 > µ2 > · · · > µr . Demostrar que la forma cuadrática q(x) := xt Ax
obedece
λr xt x ≤ xt Ax ≤ λ1 xt x,
y que tiene los valores máximo y mı́nimo de q(x) sobre la esfera xt x = 1 son λ1 y λr , respec-
tivamente.
[[ Indicación: Recordar que A puede ser diagonalizada por una matriz ortogonal. ]]
Ejercicio 4.12. Encontrar una matriz ortogonal Q ∈ M3 (R) tal que Q−1 AQ sea diagonal,
donde  
2 1 1
A := 1 2 1 .
 
1 1 2
 
Luego, hallar los valores máximo y mı́nimo de la función q(x, y, z) := x2 + xy + xz + y2 + yz + z2

sobre la esfera x2 + y2 + z2 = 1.
8 Referencia: Feliks Gantmacher, The Theory of Matrices, tomo 1, Chelsea, New York, 1959; pp. 303–304.
Ejercicio 4.13. Demostrar que la forma cuadrática

q(x1 , x2 , x3 ) := x12 + 4x1 x2 + 3x22 + 2x2 x3 + 6x32
no es definida positiva. Dar un ejemplo de un vector x ∈ R3 tal que q(x) < 0.
Ejercicio 4.14. Sea V un espacio vectorial de dimensión par 2m sobre F y sea s una forma
simpléctica sobre V.
(a) Si N es un subespacio de V, y si N ⊥ denota su complemento simpléctico con respecto
a s, demostrar que (N ⊥ )⊥ = N.
(b) Demostrar que hay un subespacio M ≤ V de dimensión m que es isotrópico9 respecto
de s. Concluir que M ⊥ = M y que M es un subespacio isotrópico maximal.
[[ Indicación: Usar la base construida en la Proposición 4.32. ]]
Ejercicio 4.15. Para la siguiente matriz antisimétrica A ∈ M4 (F),
 
 0 2 −1 3 
−2 0 4 −2
A :=   ,
 1 −4 0 1 

−3 2 −1 0
demostrar que A l J4 y encontrar una matriz inversible P ∈ M4 (F) tal que Pt AP = J4 .
Ejercicio 4.16. (a) Sea B + C ∈ Mn (F) una matriz inversible, donde Bt = B y C t = −C son sus
partes simétrica y antisimétrica. Sea P := (B + C)−1 (B − C). Verificar las relaciones
Pt (B + C)P = B + C, Pt (B − C)P = B − C.
(b) Si A ∈ Mn (R) es una matriz antisimétrica, comprobar que 1 y (−1) no son autovalores
de A; concluir que las matrices In − A y In + A son inversibles.
(c) Demostrar que la transformada de Cayley de A, dada por Q := (In + A)−1 (In − A), es
una matriz ortogonal.
Ejercicio 4.17. (a) Si f (t), g(t) ∈ F[t] son dos polinomios y si B ∈ Mn (F) es una matriz tal que
f (B) sea inversible en Mn (F), demostrar que f (B)−1 g(B) = g(B) f (B)−1 .
(b) Si Q ∈ Mn (R) es una matriz ortogonal tal que 1 y (−1) no sean autovalores de Q,
demostrar que su transformada de Cayley A := (In + Q)−1 (In − Q) es una matriz antisimétrica.
Ejercicio 4.18. Se dice que R ∈ M2m (R) es una matriz simpléctica si s(Rx, Ry) = s(x, y) para
todo x, y ∈ R2m , donde
s(x, y) := xt J2m y = x1 y2 − x2 y1 + x3 y4 − x4 y3 + · · · + x2m−1 y2m − x2m y2m−1
es la forma simpléctica estándar sobre R2m . Fı́jese que la matriz R es simpléctica si y sólo si
Rt J2m R = J2m .
(a) Mostrar que R es inversible, que R−1 también es simpléctica, y que el producto de dos
matrices simplécticas es otra matriz simpléctica.
(b) Verificar que una matriz simpléctica R cumple det R = +1.
9 Recordar que N es isotrópico si s(x, x) = 0 para x ∈ N, o equivalentemente, si N ⊆ N ⊥ .
Ejercicio 4.19. Considérese el espacio vectorial R2m con su producto escalar real estándar
d(x, y) = xt y y su forma simpléctica estándar s(x, y) = xt J2m y. Sean A, B ∈ M2m (R) tales que
AJ2m = J2m A y BJ2m = −J2m B. Verificar las siguientes reglas de transposición para s:
s(x, At y) = s(Ax, y), s(x, Bt y) = s(y, Bx).
Ejercicio 4.20. Si A ∈ Mm (R), demostrar que

" #
O A
Pf = (−1)m(m−1)/2 det A.
−At O
[[ Indicación: Factorizar la matriz al lado izquierdo como un producto Rt JR para ciertas ma-
trices apropiadas R, J ∈ M2m (R). ]]
Ejercicio 4.21. Si A es una matriz antisimétrica con Pf A , 0, mostrar que A es inversible y

que A−1 es antisimétrica, con Pf(A−1 ) = 1/ Pf(−A).
Ejercicio 4.22. Hay una fórmula inductiva que define el pfaffiano de una matriz antisimétrica
A por expansión en filas y columnas. Denótese por Ai j,i j la submatriz (n − 2) × (n − 2) de A
obtenida al borrar las filas i, j y también las columnas i, j de A; escrı́base pi j := Pf(Ai j,i j ). La
regla de expansión es:
n
X
Pf A = a12 p12 − a13 p13 + · · · + (−1) a1n p1n =
n
(−1) j a1 j p1 j .
j=2
Más generalmente, Pf A = nj=1 (−1)i+ j−1 ai j Pi j para cualquier i ∈ {1, 2, . . . , n}.

P
(a) Usar esta fórmula para hallar la expresión explı́cita del pfaffiano de una matriz anti-
simétrica 6 × 6, en términos de sus entradas ai j con i < j.
(b) Verificar, por inducción sobre m, que esta fórmula conduce a la expresión gene-
ral (4.10) para el pfaffiano de una matriz antisimétrica 2m × 2m.
I En los ejercicios que siguen, V es un espacio vectorial real de dimensión par n = 2m, d es
un producto escalar real, J es una estructura compleja ortogonal, s es la forma simpléctica
sobre V definido por s(x, y) := d(Jx, y), VC denota la complexificación de V. Cada operador
R-lineal T ∈ EndR (V) se puede ampliar a un operador C-lineal, T ∈ EndC (VC ), mediante la
redefinición T (x + iy) := T (x) + iT (y) para x, y ∈ V.
Ejercicio 4.23. Si R ∈ EndR (V) es un operador ortogonal, es decir, d(R(x), R(y)) = d(x, y)
para todo x, y ∈ V, demostrar que R es inversible y ortogonal, y que RJR−1 es otra estructura
compleja ortogonal sobre V.
Ejercicio 4.24. Para V = R4 con el producto escalar usual, sean α, β dos ángulos cualesquiera;
demostrar que las siguientes dos matrices determinan estructuras complejas ortogonales:10
− cos α − sin α cos β − sin α sin β

 
 0
 cos α 0 − sin α sin β sin α cos β 
Jα,β =  ,
sin α cos β sin α sin β 0 − cos α 
sin α sin β − sin α cos β cos α

0
− cos α − sin α cos β − sin α sin β 
 
 0
 cos α 0 sin α sin β − sin α cos β
0
Jα,β =  .
sin α cos β − sin α sin β 0 cos α 
sin α sin β sin α cos β − cos α

0
Ejercicio 4.25. Sea V J el propio espacio vectorial V dotado del producto escalar complejo
h·, ·iJ = d + is. Un operador R-lineal Q ∈ EndR (V) define un operador C-lineal sobre V J si
y sólo si QJ = JQ; en cambio, Q define un operador C-semilineal sobre V J si y sólo si
QJ = −JQ.
(a) Sean R := 12 (Q − JQJ), S := 12 (Q + JQJ). Fı́jese que Q = R + S . Verificar que R es
C-lineal y que S es C-semilineal como operadores sobre V J .
(b) Si Q es un operador ortogonal sobre V, mostrar que Rt y S t son las partes C-lineal y
C-semilineal de Q−1 . Además, verificar las relaciones
RRt − S S t = Rt R + S t S = I, RS t = −S Rt , Rt S = −S t R.
[[ Indicación: Estudiar la relación QQ−1 = Q−1 Q = I. ]]
Ejercicio 4.26. Si W ≤ VC es un subespacio, escrı́base W := { x − iy : x, y ∈ V; x + iy ∈ W }.

Una polarización de VC es un subespacio complejo W ≤ VC que es d-isotrópico,11 tal que
W ∩ W = {0} y W ⊕ W = VC .
(a) Mostrar que W J := P J (V) = { x − iJx : x ∈ V } es una polarización de VC , con W J = W−J .
(b) Demostrar que W J y W−J son los subespacios de autovectores para el operador ampli-
ado J ∈ EndC (VC ) con los respectivos autovalores i y −i.
(c) Si Q ∈ EndR (V) es ortogonal y si W es una polarización de VC , demostrar que Q(W) :=
{ Q(x) + iQ(y) : x + iy ∈ W } es otra polarización de VC . Comprobar que Q(W J ) = PQJQ−1 (V).
(d) Si W es una polarización de VC y si x, y1 , y2 ∈ V son vectores tales que x + iy1 ∈ W y
x + iy2 ∈ W, mostrar que y1 = y2 . Concluir que hay un operador JW ∈ EndR (V) determinado
por JW (x) := −y cuando x + iy ∈ W.
(e) Dada una polarización W de VC , verificar que JW es una estructura compleja ortogonal
sobre V.
10 Estas son todas las estructuras complejas ortogonales sobre R4 . Geométricamente, forman dos copias
disjuntas de la esfera bidimensional S2 , en las cuales (α, β) son coordenadas esféricas.
11 Se puede ampliar d a una forma bilineal simétrica sobre V mediante la fórmula evidente d(x+iy, x0 +iy0 ) :=
C
d(x, x0 ) + id(x, y0 ) + id(y, x0 ) − d(y, y0 ). Un subespacio W es isotrópico para d si d(z, w) = 0 para todo z, w ∈ W.
5 Algebras Exteriores y de Clifford

Hay varias maneras de enriquecer la teorı́a de espacios vectoriales al introducir una operación
de producto de vectores, compatible con la operación de suma; pero en general el producto de
dos vectores no es un vector. Dicho de otra forma, es posible extender un espacio vectorial V
al incluirlo dentro de un álgebra más grande. En este capı́tulo se examinará algunas de estas
posibilidades. El álgebra exterior Λ• V extiende V mediante un producto anticonmutativo. En
presencia de una forma cuadrática q sobre V, el álgebra de Clifford C`(V, q) extiende V de
otra manera, que depende esencialmente de la signatura de q.
5.1 Formas multilineales alternadas

Definición 5.1. Sea V un espacio vectorial sobre un cuerpo F. Sea V k := V × V × · · · × V el
producto cartesiano de k copias de V, para k = 1, 2, 3, . . . . Una forma k-lineal sobre V es una
aplicación g : V k → F tal que cada aplicación parcial x j 7→ g(x1 , . . . , x j , . . . , xk ) es lineal,1 para
j = 1, . . . , k.
Una forma multilineal sobre V es una forma k-lineal, para algún k. Este concepto incluye
las formas lineales (k = 1) y las formas bilineales (k = 2).
Definición 5.2. Si f : V k → F y g : V r → F son dos formas multilineales, su producto tenso-
rial es la forma (k + r)-lineal f ⊗ g dada por
( f ⊗ g)(x1 , . . . , xk+r ) := f (x1 , . . . , xk ) g(xk+1 , . . . , xk+r ).
En particular, el producto tensorial de dos formas lineales es una forma bilineal:
( f ⊗ g)(x, y) := f (x) g(y). (5.1)
Si f : V k → F, g : V r → F y h : V s → F son tres formas multilineales, es claro que las
formas (k + r + s)-lineales ( f ⊗ g) ⊗ h y f ⊗ (g ⊗ h) coinciden, y se puede denotar esta forma
por f ⊗ g ⊗ h simplemente.
En vista del isomorfismo V ' V ∗∗ para un espacio vectorial finitodimensional V, que
identifica V con el espacio dual de V ∗ , se puede convertir la fórmula (5.1) en una definición
del producto tensorial de dos vectores, mediante la Definición siguiente.
Definición 5.3. Sean V y W dos espacios vectoriales finitodimensionales sobre F. Sea
B(V, W) la totalidad de aplicaciones bilineales h : V × W → F. Si x ∈ V, y ∈ W, entonces
x ⊗ y : h 7→ h(x, y) es lineal, ası́ que pertenece al espacio dual B(V, W)∗ . El subespacio gene-
rado por estos elementos es el producto tensorial de V y W, denotado V ⊗ W. Cualquier
elemento de V ⊗ W es una suma finita rj=1 x j ⊗ y j de estos “tensores simples”, que cumplen
P
las siguientes propiedades de combinación:
(x1 + x2 ) ⊗ y = x1 ⊗ y + x2 ⊗ y,




 x, x1 , x2 ∈ V,
x ⊗ (y1 + y2 ) = x ⊗ y1 + x ⊗ y2 , para todo  y, y1 , y2 ∈ W,



c(x ⊗ y) = cx ⊗ y = x ⊗ cy,


c ∈ F.

generalmente, se puede definir una aplicación k-lineal T : V1 × V2 × · · · × Vk → W, en donde V1 , . . . , Vk

1 Más
y W son diversos espacios vectoriales sobre F.

La expresión rj=1 x j ⊗ y j para un elemento de V ⊗ W no es única, pero se puede suponer

P
que los x1 , . . . , xr son linealmente independientes en V y que los y1 , . . . , yr son linealmente
independientes en W. En consecuencia, se ve que dim(V ⊗ W) = (dim V) (dim W) y por tanto
los espacios vectoriales V ⊗ W y B(V, W)∗ coinciden.
Se identifica F ⊗ V y V ⊗ F con V, al identificar 1 ⊗ x ↔ x ⊗ 1 ↔ x para x ∈ V. Si V, W, U

son tres espacios vectoriales sobre F, la evaluación h 7→ h(x, y, z) de una forma trilineal h
en tres vectores es el elemento (x ⊗ y) ⊗ z = x ⊗ (y ⊗ z) =: x ⊗ y ⊗ z del producto tensorial
(V ⊗ W) ⊗ U = V ⊗ (W ⊗ U) = V ⊗ W ⊗ U. De este modo, se puede escribir el producto tensorial
V1 ⊗ V2 ⊗ · · · ⊗ Vr de varios espacios vectoriales sin emplear paréntesis.
Notación. El grupo S k de permutaciones de k objetos actúa sobre las formas k-lineales por
reordenación de sus argumentos. Si σ ∈ S k es una permutación y si f : V k → F es una forma
k-lineal, escrı́base
(σ · f )(x1 , . . . , xk ) := f (xσ−1 (1) , . . . , xσ−1 (k) ).
En los argumentos se usa la permutación inversa σ−1 para que valga la identidad τ · (σ · f ) =
(τσ) · f para todo τ, σ ∈ S k . Es claro que Id · f = f , es decir, la permutación trivial Id actúa
trivialmente.2
Definición 5.4. Una forma k-lineal f : V k → F es simétrica si
f (xσ(1) , . . . , xσ(k) ) = f (x1 , . . . , xk ) para todo x1 , . . . , xk ∈ V, σ ∈ S k ,
o equivalentemente, si σ · f = f para todo σ ∈ S k .

Una forma k-lineal g : V k → F es alternada si
g(xσ(1) , . . . , xσ(k) ) = (−1)σ g(x1 , . . . , xk ) para todo x1 , . . . , xk ∈ V, σ ∈ S k , (5.2)
o equivalentemente, si σ · g = (−1)σ g para todo σ ∈ S k .
Definición 5.5. Si h : V k → F es una forma k-lineal cualquiera, se obtiene una forma simétrica
por simetrización:3
1 X
(Sh)(x1 , . . . , xk ) := h(xσ(1) , . . . , xσ(k) ).
k! σ∈S
k
Al poner τ = σ−1 , esto es Sh := (1/k!) τ τ · h. Es fácil verificar que Sh es k-lineal y simétrica,

P
y que una forma k-lineal f es simétrica si y sólo si S f = f .
2 En general, una acción de un grupo G sobre un conjunto X es una función G × X → X : (g, x) 7→ g · x que
cumple las dos reglas (a) 1 · x = x; (b) g · (h · x) = (gh) · x para g, h ∈ G, x ∈ X. La asignación (σ, f ) 7→ σ · f es una
acción del grupo S n en este sentido.
3 El coeficiente 1/k! en estas fórmulas es convencional. Sin embargo, es importante notar que algunos autores
lo omiten, en cuyo caso los coeficientes factoriales en las fórmulas que siguen no son iguales que los nuestros.
Véase, por ejemplo: Jean Dieudonné, Éléments d’Analyse, tomo 3, inciso A.12.
También se puede fabricar una forma alternada por antisimetrización:

1 X
(Ah)(x1 , . . . , xk ) := (−1)σ h(xσ(1) , . . . , xσ(k) ), (5.3)
k! σ∈S
k
o bien Ah := (1/k!) τ (−1)τ τ · h. Es fácil verificar que Ah es k-lineal y alternada, y que una
P
forma k-lineal g es alternada si y sólo si Ag = g.
Ejemplo 5.6. Considérese el determinante de una matriz A ∈ Mn (F) en función de sus colum-
nas a1 , . . . , an ∈ Fn . La fórmula de Leibniz (1.15), hace evidente que det A depende lineal-
mente de cada columna, y que es una n-forma alternada sobre Fn .
Al omitir el signo (−1)σ en la fórmula de Leibniz, se obtiene el permanente de A,
X
per A := a1 j1 a2 j2 . . . an jn .
σ∈S n
Esta función es una n-forma simétrica sobre el espacio de columnas Fn .

Definición 5.7. Si f : V k → F y g : V r → F son dos formas multilineales alternadas, su pro-
ducto exterior es la forma (k + r)-lineal alternada definido por
(k + r)!
f ∧ g := A( f ⊗ g).
k! r!
En particular, el producto exterior de dos formas lineales f, g ∈ V ∗ es la forma bilineal f ∧ g =
2A( f ⊗ g) = f ⊗ g − g ⊗ f , es decir,
( f ∧ g)(x, y) := f (x) g(y) − f (y) g(x). (5.4)
Nótese la anticonmutatividad: g ∧ f = − f ∧ g para f, g ∈ V ∗ .

Proposición 5.8. El producto exterior de formas multilineales alternadas es asociativa: si
f : E k → F, g : E r → F, h : E s → F son alternadas, entonces
( f ∧ g) ∧ h = f ∧ (g ∧ h).
Demostración. La asociatividad del producto tensorial permite calcular:

(k + r + s)! (k + r + s)! (k + r)!
( f ∧ g) ∧ h = A(( f ∧ g) ⊗ h) = A(A( f ⊗ g) ⊗ h)
(k + r)! s! (k + r)! s! k! r!
(k + r + s)! 1 1 X
= (−1)σ (−1)τ σ · (τ · ( f ⊗ g) ⊗ h)
k! r! s! (k + r + s)! (k + r)! σ,τ
1
(−1)στ (στ) · ( f ⊗ g ⊗ h)
X
=
k! r! s! (k + r)! σ,τ
1
(−1)ρ ρ · ( f ⊗ g ⊗ h).
X
=
k! r! s! ρ∈S
k+r+s
En la penúltima igualdad, se identifica τ ∈ S k+r con la permutación correspondiente en S k+r+s

que deja fijos los últimos s objetos. Colóquese ρ := στ y fı́jese que para cada τ ∈ S k+r , la
suma sobre σ ∈ S k+r+s da la misma contribución al lado derecho; luego la sumatoria sobre ρ
aparece repetida (k + r)! veces, cancelado ası́ el factor (k + r)! en el denominador.
De igual manera, se calcula que
1
(−1)ρ ρ · ( f ⊗ g ⊗ h).
X
f ∧ (g ∧ h) =
k! r! s! ρ∈S
k+r+s
Ejemplo 5.9. Si f1 , . . . , fk ∈ V ∗ , entonces f1 ⊗ · · · ⊗ fk es una forma k-lineal sobre V. Como el

producto exterior es asociativo, también se escribe f1 ∧ · · · ∧ fk sin paréntesis. Por inducción
sobre k, se verifica la fórmula
f1 ∧ · · · ∧ fk = k! A( f1 ⊗ · · · ⊗ fk ) para f1 , . . . , fk ∈ V ∗ . (5.5)
De ahı́ se ve que fσ(1) ∧ · · · ∧ fσ(k) = (−1)σ f1 ∧ · · · ∧ fk para σ ∈ S k . Si se toman los f j de entre

una base { f1 , . . . , fn } de V ∗ , donde n = dim V, el número de productos f1 ∧ · · · ∧ fk que son
linealmente independientes es entonces el número de maneras de elegir k vectores n de la base,
sin repetición pero olvidando su orden; es decir, es el coeficiente binomial r .
Lema 5.10. El producto exterior de formas alternadas es superconmutativa:4 si f : E k → F,

g : E r → F son formas alternadas, entonces
g ∧ f = (−1)kr f ∧ g. (5.6)
Demostración. Sea σ la permutación de baraje que intercambia {1, . . . , k} con {k + 1, . . . , k + r};

es decir, σ(i) := i+k si i ≤ k, σ(i) := i−k si i > k. Ahora σ es el producto de kr transposiciones,
porque se necesitan r transposiciones para llevar cada uno de los k elementos iniciales a su
posición final, luego (−1)σ = (−1)kr .
Si f = f1 ∧ · · · ∧ fk , g = g1 ∧ · · · ∧ gr con fi , g j ∈ V ∗ , la relación (5.6) es una consecuencia
directa de la anticonmutatividad fi ∧ g j = −g j ∧ fi de formas lineales. El caso general sigue
por linealidad, porque tales productos exteriores de formas lineales generan los espacios vec-
toriales de k-formas y r-formas alternadas, respectivamente.
Proposición 5.11. Si f1 , . . . , fk ∈ V ∗ y x1 , . . . , xk ∈ V, se verifica
( f1 ∧ · · · ∧ fk )(x1 , . . . , xk ) = det fi (x j ) ,

(5.7)
donde el lado derecho es el determinante de la matriz cuya entrada (i, j) es fi (x j ).

4 Esta terminologı́a inelegante se debe a Berezin. Una superálgebra es un álgebra A = A+ ⊕ A− en donde
cada elemento a es la suma de una “parte par” a+ ∈ A+ y una “parte impar” a− ∈ A− , con la estipulación de
que los elementos pares conmutan entre sı́ y conmutan con los elementos impares, mientras los elementos
impares anticonmutan entre sı́. La terminologı́a más correcta, “álgebra Z2 -graduada”, es inmanejable. La moda
del prefijo super- fue establecida en: Feliks Aleksandrovich Berezin, The Method of Second Quantization,
Academic Press, New York, 1966.
Demostración. De la fórmula (5.5) se obtiene
( f1 ∧ · · · ∧ fk )(x1 , . . . , xk ) = k! A( f1 ⊗ · · · ⊗ fk )(x1 , . . . , xk )
(−1)σ ( fσ(1) ⊗ · · · ⊗ fσ(k) )(x1 , . . . , xk )
X
=
σ
(−1)σ fσ(1) (x1 ) . . . fσ(k) (xk )
X
=
σ
= det fi (x j ) .

La última igualdad no es más que la fórmula de Leibniz para el determinante.
Definición 5.12. Denótese por Λk V ∗ el espacio vectorial de formas k-lineales alternadas

g : V k → F.
Si {x1 , . . . , xk } es una base de V, la forma g ∈ Λk (V ∗ ) depende solamente de los valores
g(xi1 , . . . , xik ), donde los argumentos son k elementos de la base dada. Por la antisimetrı́a de g,
es suficiente tomar elementos distintos, con sus ı́ndices en orden creciente:
1 ≤ i1 < i2 < · · · < ik ≤ n.

n
Hay k maneras de elegir una parte I = {i1 , . . . , ik } ⊆ {1, . . . , n} con |I| = k. Luego la dimensión

de Λk V ∗ es nk .
Además, si { f1 , . . . , fn } es la base dual de V ∗ , los elementos fI := fi1 ∧ · · · ∧ fik son lineal-
mente independientes en vista de (5.7). Por lo tanto, forman una base de Λk V ∗ .
De nuevo, se puede aprovechar la dualidad entre V y V ∗ para definir el espacio vectorial

Λk V como la totalidad de formas k-lineales alternadas (V ∗ )k → F. Si {x1 , . . . , xn } es una base
de V, los productos exteriores xI := xi1 ∧ · · · ∧ xik forman una base de Λk V.
Los elementos de Λk V se llaman k-vectores. En particular, los elementos x ∧ y ∈ Λ2 V se
llaman bivectores.
Proposición 5.13. Para cada forma k-lineal alternante g : E k → F, hay una única aplicación
lineal g̃ : Λk V → F tal que
g̃(y1 ∧ · · · ∧ yk ) = g(y1 , . . . , yk ) para todo y1 , . . . , yk ∈ V.
Demostración. La forma g queda determinada por los coeficientes cI := g(xi1 , . . . , xik ), donde
I ⊆ {1, . . . , n} con |I| = k y {x1 , . . . , xn } es una base de V. Entonces g̃(xI ) := cI necesariamente.
Pero una forma lineal sobre Λk V queda determinada por sus valores en una base, ası́ que esta
asignación de valores define la forma lineal g̃ deseada.
De este modo, se identifica el espacio vectorial Λk V ∗ de formas k-lineales alternantes con
el espacio dual (Λk V)∗ . Bajo esta identificación, la fórmula (5.7) dice simplemente que la
base { fI : |I| = k } de Λk V ∗ es la base dual a la base { xI : |I| = k } de Λk V.
5.2 El álgebra exterior de un espacio vectorial

Definición 5.14. Sea V un espacio vectorial de dimensión n sobre F. El álgebra exterior
sobre V es el espacio vectorial
n
M
Λ V :=
•
Λk V = F ⊕ V ⊕ Λ2 V ⊕ · · · ⊕ Λn V, (5.8)
k=0
que es la suma directa de las potencias exteriores Λk V del espacio vectorial V, dotado con el
producto exterior de multivectores. Un escalar c ∈ F se considera como elemento del espacio
vectorial unidimensional Λ0 V, con c ∧ z := cz para c ∈ F, z ∈ Λ• V.
Si B = {x1 , . . . , xn } es una base de V y si xi1 , . . . , xik ∈ B, entonces xi1 ∧ · · · ∧ xik = 0 en

Λk V cuando k > n. En efecto, si k > n, entonces algún ı́ndice j ∈ {1, . . . , n} ocurre dos veces5
en la lista i1 , . . . , ik ; como x j ∧ x j = 0 por antisimetrı́a, el producto exterior de estos k vectores
básicos se anula. Por linealidad en cada entrada, un producto arbitrario y1 ∧ · · · ∧ yk se anula
cuando y1 , . . . , yk ∈ V con k > n. Por lo tanto, es Λk V = {0} para k > n. En la suma directa
(5.8), aparecen todas las potencias exteriores no triviales de V.
Lema 5.15. La dimensión de Λ• V es 2dim V .
Demostración. Basta observar que, si dim V = n, entonces

n n !
X X n
dim Λ V :=•
dim Λ V = k
= (1 + 1)n = 2n .
k=0 k=0
k
Definición 5.16. Un álgebra graduada sobre F es

Lun espacio vectorial A sobre F, que posee
un producto asociativo y una graduación A =: k∈Z Ak tal que
x ∈ Ak , y ∈ Ar =⇒ x y ∈ Ak+r , para todo k, r ∈ Z.
Si algún sumando es trivial (es decir, si Ak = {0} para algún k), se omite ese ı́ndice en la suma
directa.6
Fı́jese que si x ∈ Λk V, y ∈ ΛrV, entonces x ∧ y ∈ Λk+r V. En efecto, las Definiciones 5.7

y 5.2 muestran que x ∧ y = k+r k x ⊗ y es una forma (k + r)-lineal alternada sobre V . Por
∗
lo tanto, el álgebra exterior Λ• V es un álgebra graduada con un número finito de niveles no

triviales.
5 Esta es una instancia del Schubfachsprinzip de Dirichlet, o bien el “principio de las palomas y los palo-
mares”: si k + 1 palomas se distribuyen entre k palomares, debe haber al menos un palomar que albergue al
menos dos palomas.
6 En la mayorı́a de los ejemplos conocidos, es A = {0} para k < 0. Se dice que el álgebra es “N-graduado”
k
en estos casos.
Definición 5.17. Si V es un espacio vectorial sobre F, sea V ⊗2 := V ⊗ V, V ⊗3 := V ⊗ V ⊗ V; en

general, denótese por V ⊗k el producto tensorial de k copias de V, para k = 2, 3, . . . ; además,
sea V ⊗1 := V y V ⊗0 := F. Por la Definición 5.2 (dualizada al cambiar V ∗ por V), se ve
que x ⊗ y ∈ V ⊗(k+r) toda vez que x ∈ V ⊗k , y ∈ V ⊗r . (Si c ∈ F = V ⊗0 y x ∈ V ⊗k , se toma
c ⊗ x ≡ cx ∈ V ⊗k . L∞
El álgebra graduada T(V) := k=0 V ⊗k , cuyo producto es ⊗, se llama el álgebra tensorial
generado por el espacio vectorial V. Obsérvese que esta álgebra es infinitodimensional si
V , {0}.
L∞
Ejemplo 5.18. Otra álgebra infinitodimensional es el álgebra simétrica S • V := k=0 S k V.
Se define S k V ∗ como el espacio vectorial de formas k-lineales simétricas f : V k → F; por
dualidad, S k V es el espacio vectorial de formas k-lineales simétricas sobre V ∗ . Si f : V k → F,
g : V r → F son formas simétricas, defı́nase
(k + r)!
f ∨ g := S( f ⊗ g),
k! r!
la cual es una forma (k + r)-lineal simétrica. Si h : V s → F es una forma s-lineal simétrica,
entonces ( f ∨ g) ∨ h = f ∨ (g ∨ h); para comprobarlo, en la demostración de la Proposición 5.8
se omite los signos de todas las permutaciones allı́ presentes. Se concluye que S • V es un
álgebra graduada. Tiene dimensión infinita si V , {0}, debido al Lema siguiente.

Lema 5.19. Si dim V = n y si k ∈ N, entonces dim S k V = dim S k V ∗ = n+k−1k .
Demostración. Si B = {x1 , . . . , xn } es una base de V y si B∗ := { f1 , . . . , fn } es la base dual
de V ∗ , entonces cada elemento de S k V ∗ es una combinación lineal de las formas k-lineales
simétricas
f j1 ∨ f j2 ∨ · · · ∨ f jk , con 1 ≤ j1 ≤ j2 ≤ · · · ≤ jk ≤ n. (5.9)
Fı́jese que en este caso, al contrario de lo que sucede con el productos exteriores, se admiten
ı́ndices iguales en los productos simétricos de las formas lineales básicas, porque ningún f j ∨
f j se anula. Este producto simétrico es conmutativo, en contraste con la superconmutatividad
del Lema 5.10. Por tanto, se puede abreviar f ∨r := f ∨ f ∨· · ·∨ f (r veces). Con este convenio,
y con f ∨0 := 1 ∈ F, se puede reorganizar los productos simétricos (5.9) de formas lineales
básicas ası́:
f1∨r1 ∨ f2∨r2 ∨ · · · ∨ fn∨rn , con r1 + r2 + · · · + rn = k.
En otras palabras, dim S k V ∗ es la cantidad total de particiones del número natural k ∈ N
en n sumandos. Para contarlas, es cuestión de “colocar k bolas indistinguibles en n urnas”,7
separadas por (n − 1) paredes:
[••• |•• | |•••• |• |••• | | |•••••• |••]
Alternativamente, se puede contar el número de maneras de desplegar una fila de k + (n − 1)

objetos y marcar k objetos de entre ellos como “bolas”; los objetos no marcados serán las
7 Una buena cantidad de cálculos combinatoriales se reducen a problemas de colocar varios objetos (bolas)
en ciertos receptáculos (urnas). Este conteo es un ejemplo clásico de un cálculo de esa naturaleza.
n+k−1 Esto es, se debe elegir k objetos de entre una lista de n + k − 1 objetos dados; hay
paredes.
k maneras de hacer esa elección.

Para obtener dim S k V = n+k−1
k , se intercambian los papeles de V y de V ∗ , que tienen la
misma dimensión n.
Definición 5.20. Si A es un álgebra sobre F, un ideal de A es un subespacio J tal que a ∈ A,
j ∈ J implican a j ∈ J y ja ∈ J. El espacio vectorial cociente A/J := { a + J : a ∈ A } es un
álgebra también, porque la relación (a1 + j1 )(a2 + j2 ) = a1 a2 + (a1 j2 + j1 a2 + j1 j2 ) muestra
que (a1 + J)(a2 + J) = a1 a2 + J en A/J.
Ejemplo 5.21. Sea JS el ideal del álgebra T(V) generado por todos los elementos de la
forma x ⊗ y − y ⊗ x, para x, y ∈ V. El álgebra cociente T(V)/JS es isomorfo a S • V, porque
la simetrización S : V ⊗k → S k V tiene como núcleo el subespacio V ⊗k ∩ JS . Es claro que
V ∩ JS = {0}, es decir, JS no contiene elementos de nivel k = 1, ası́ que S : V ⊗1 → S 1 V es
simplemente la identidad I : V → V.
Ejemplo 5.22. Sea JΛ el ideal del álgebra T(V) generado por todos los elementos de la
forma x ⊗ y + y ⊗ x, para x, y ∈ V. El álgebra cociente T(V)/JΛ es isomorfo a Λ• V, porque
la simetrización A : V ⊗k → Λk V tiene como núcleo el subespacio V ⊗k ∩ JΛ . Es claro que
V ∩ JΛ = {0}, es decir, Jλ no contiene elementos de nivel k = 1, ası́ que S : V ⊗1 → Λ1 V es
simplemente la identidad I : V → V.
nun espacio vectorial de dimensión n, entonces el espacio vectorial Λ V tiene di-

I Si V es n
mensión n = 1. Si B = {x1 , . . . , xn } es una base de V, una base de Λn V tiene un solo elemento8
volB := x1 ∧ x2 ∧ · · · ∧ xn .
Si B0 = {x01 , . . . , x0n } es otra base de V y si P = [I]B

B0
es la matriz de cambio de base, entonces
x s = j=1 p js x j por (1.9), luego
0 Pn
n
X
x01 ∧ x02 ∧ · · · ∧ x0n = p j1 ,1 p j2 ,2 . . . p jn ,n x j1 ∧ x j2 ∧ · · · ∧ x jn
j1 ,..., jn =1
(−1)σ pσ(1),1 pσ(2),2 . . . pσ(n),n x1 ∧ x2 ∧ · · · ∧ xn

X
=
σ∈S n
= (det Pt ) x1 ∧ x2 ∧ · · · ∧ xn = (det P) x1 ∧ x2 ∧ · · · ∧ xn .
En la primera sumatoria, los términos x j1 ∧ x j2 ∧ · · · ∧ x jn con un ı́ndice repetido son ceros,

por antisimetrı́a: la suma se reduce a los multiı́ndices σ = ( j1 , . . . , jn ) que son permutaciones
en S n , en cuyo caso x j1 ∧ · · · ∧ x jn = (−1)σ x1 ∧ · · · ∧ xn también por antisimetrı́a. Por tanto, es
volB0 = (det P) volB = det [I]B

B0 volB .
8 La notación volB indica que este elemento representa el volumen de un paralelepı́pedo cuyas aristas son
los vectores de la base B.
Definición 5.23. Dada una base B de V, cada elemento de Λ• V es de la forma

n X
X
c= cI xI ,
k=0 |I|=k
en donde x∅ := 1 ∈ F y x1,...,n = volB . El componente escalar de c es c∅ y el componente en

Λn V es c1,...,n . La asignación c 7→ c1,...,n es una forma lineal sobre Λ• V, llamada la integral
de Berezin9 con respecto a la base B:
Z ∧
c := c1,...,n .
B
Ejemplo 5.24. Sea V un espacio vectorial de dimensión 4, con base B = {x1 , x2 , x3 , x4 }, y sea
b ∈ Λ2 V un bivector. Entonces b es de la forma
b = b12 x1 ∧ x2 + b13 x1 ∧ x3 + b14 x1 ∧ x4 + b23 x2 ∧ x3 + b24 x2 ∧ x4 + b34 x3 ∧ x4 .
Para i < j, sea b ji := −bi j , de manera que bi j xi ∧ x j = b ji x j ∧ xi ; además, sea bii := 0 para
i = 1, 2, 3, 4. Entonces B = [bi j ] es una matriz antisimétrica 4 × 4. El “cuadrado” b ∧ b es un
4-vector en Λ4 V y por ende es proporcional a volB . En efecto, se calcula que
b ∧ b = 2(b12 b34 − b13 b24 + b14 b23 ) x1 ∧ x2 ∧ x3 ∧ x4 = 2(Pf B) volB .
Sea V un espacio vectorial de dimensión par 2m, con una base B = {x1 , . . . , xn }, un bivector
b ∈ Λ2 V puede escribirse en la forma
n
X 1X
b= bi j xi ∧ x j = bi j xi ∧ x j
i< j
2 i, j=1
donde la matriz de coeficientes B := [bi j ] es antisimétrica. Fı́jese que en la segunda sumatoria

entran todos los pares de ı́ndices i, j y se requiere el factor 12 para compensar la duplicación de
términos bi j xi ∧ x j = b ji x j ∧ xi (los términos diagonales en la segunda sumatoria son nulos).
La exponencial de b es una suma finita:
m m
X 1 ∧k X 1
exp(b) := b = ∧ · · · ∧}b,
b ∧ b {z (5.10)
k=0
k! k=0
k! |
k veces
porque bk = 0 en Λ2k V si k > m. En efecto, cualquier función f (t) definido por una serie de
potencias con coeficientes racionales —aplicable al caso actual de un cuerpo F cualquiera—
conduce, por la sustitución t 7→ b, a un elemento f (b) ∈ Λ• V definido por una suma finita de
elementos en la subálgebra par Λ+ V := k=0 Λ2k V.
L m
9 Esta terminologı́a curiosa se debe a una marcada analogı́a, enfatizada por Berezin, entre esta forma lineal y
una cierta integral (con peso e−t /2 ) sobre polinomios. De hecho, hay un isomorfismo evidente entre el álgebra
2
conmutativa S • V ∗ y el álgebra de polinomios F[t1 , . . . , tn ] en n variables. El punto de vista de Berezin es que

Λ• V debe considerarse como un “álgebra de polinomios en n variables que anticonmutan”. Véase, por ejemplo:
Victor Guillemin y Shlomo Sternberg, Supersymmetry and Equivariant de Rham Theory, Springer, Berlin, 1999,
capı́tulo 7.
Proposición 5.25. Si V tiene dimensión par y si b ∈ Λ2 V es un bivector con matriz anti-

simétrica B con respecto a una base B de V, entonces vale10
Z ∧
exp(b) = Pf B.
B
Demostración. Sea dim V = 2m. Entonces

Z ∧ Z ∧Xm Z ∧
1 ∧k 1
exp(b) = b = b∧m ,
B B k=0 k! m! B
R∧
porque la forma lineal B
se anula sobre los subespacios Λ2k V para k < m. Ahora, vale
1 X ∧m
b∧m = bi j xi ∧ x j
2 i, j
1 X
= m bi1 , j1 . . . bim , jm xi1 ∧ x j1 ∧ · · · ∧ xim ∧ x jm
2 i
1 , j1 ,...,im , jm
1 X
= (−1)σ bσ(1),σ(2) . . . bσ(2m−1),σ(2m) x1 ∧ x2 ∧ · · · ∧ x2m .
2m σ∈S
2m
Al aplicar la integral de Berezin a (1/m!) b∧m , la fórmula (4.10) muestra que

Z ∧
1 X
exp(b) = m (−1)σ bσ(1)σ(2) . . . bσ(2m−1)σ(2m) = Pf B.
B 2 m! σ
Notación. Si T : V → W es una aplicación lineal entre dos espacios vectoriales sobre F, se

escribe ΛT : Λ• V → Λ• W para denotar la aplicación lineal (y multiplicativa) determinada
por11
ΛT (x1 ∧ · · · ∧ xk ) := T (x1 ) ∧ · · · ∧ T (xk ).
Fı́jese que ΛT lleva el subespacio Λk V en Λk W.
Corolario 5.26. Si V es un espacio vectorial con base B = {x1 , . . . , xn } y si b = i< j bi j xi ∧ x j

P
es un bivector en Λ2 V, el desarrollo de exp(b) en la base { xI : I ⊆ {1, . . . , n} } de Λ• V es

X
exp(b) = (Pf BII ) xI , (5.11)
|I| par
con el convenio de que Pf B∅∅ := 1.

10 Esta fórmula es también válida si dim V es impar, de manera trivial, porque ambos lados de la igualdad son
nulos.
11 Si S : W → Z es otra aplicación lineal, es evidente que Λ(S T ) = (ΛS )(ΛT ). La notación indica que las
correspondencias V 7→ Λ• V y T 7→ ΛT forman un funtor de la categorı́a de espacios vectoriales con aplicaciones

lineales, en la categorı́a de álgebras graduadas con homomorfismos de álgebras.
Demostración. Obsérvese que la matriz B del bivector b es antisimétrica y que cada sub-
matriz principal BII es también antisimétrica. Además, Pf BII = 0 cuando |I| es impar: la
sumatoria al lado derecho de (5.11) extiende sobre toda parte I ⊆ {1, . . . , n} pero se ha omitido
los términos nulos.
Para un determinado conjunto I de ı́ndices, con |I| par, sea W el subespacio de V generado
por los vectores básicos { xi : i ∈ I }. Defı́nase la proyección lineal P : V → W por P(xi ) := xi
si i ∈ I, P(x j ) := 0 si j < I. Fı́jese que ΛP(x J ) = x J si J ⊆ I y que ΛP(x J ) = 0 para otros J.
Ahora, es ΛP(b) ∈ Λ2 W y además
X 1
ΛP(exp b) = (ΛP(b))∧k = exp(ΛP(b)).
0≤2k≤n
k!
R ∧ matriz de ΛP(b) es la submatriz BII de B. La Proposición 5.25 entonces muestra que

La
P(B)
exp(ΛP(b)) = Pf BII . Esta integral de Berezin selecciona el coeficiente del elemento
básico volP(B) = xI en Λ• W, lo cual coincide con el coeficiente de xI en el desarrollo de
exp(b) en Λ• V, debido a que ΛP(xI ) = xI .
5.3 Algebras de Clifford

Definición 5.27. Si V es un espacio vectorial sobre un cuerpo F cualquiera, para cada vector
y ∈ V se define un operador ε(y) ∈ End(Λ• V), llamado multiplicación exterior por el vector y,
mediante la fórmula
ε(y)(x1 ∧ · · · ∧ xk ) := y ∧ x1 ∧ · · · ∧ xk para todo x1 , . . . , xk ∈ V.
Fı́jese que ε(y)2 (x1 ∧ · · · ∧ xk ) = y ∧ y ∧ x1 ∧ · · · ∧ xk = 0, luego ε(y)2 = 0 en End(Λ• V). Nótese

también que ε(y) es un operador de grado +1 sobre el álgebra graduada Λ• V, porque lleva el
subespacio Λk V en Λk+1 V.
I En adelante se considera el caso F = R. Sobre el espacio vectorial real V se elige una forma
bilineal simétrica d, no degenerada. Entonces el rango de d es n, pero se admite cualquier
signatura s(d) ∈ {−n, −n + 2, . . . , n − 2, n}. Por el Teorema 4.21(b), se sabe que existe una base
E := {e1 , . . . , e p , e p+1 , . . . , e p+q } donde p + q = n y p − q = s(d), tal que




0, si i , j,
d(ei , e j ) = +1. si i = j ∈ {1, . . . , p},




−1. si i = j ∈ {p + 1, . . . , p + q}.


Se dice que E es una base ortonormal12 para (V, d).
12 Obsérveseque d es un producto escalar si y sólo si d es definida positiva, si y sólo si s(d) = n; en cuyo caso
E es una base ortonormal para el espacio euclidiano (V, d).
Definición 5.28. Si (V, d) es un espacio vectorial real con una forma bilineal simétrica no de-
generada, para cada vector y ∈ V se define un operador ι(y) ∈ End(Λ• V), llamado contracción
con el vector y, mediante la fórmula
k
X
ι(y)(x1 ∧ · · · ∧ xk ) := (−1) j−1 d(y, x j ) x1 ∧ · · · ∧ xbj ∧ · · · ∧ xk ,
j=1
para todo x1 , . . . , xk ∈ V, donde el circunflejo en xbj significa que el término x j se omite del
producto exterior x1 ∧ · · · ∧ xk . Obsérvese que ι(y) es un operador de grado −1 sobre el
álgebra graduada Λ• V, porque lleva el subespacio Λk V en Λk−1 V. Sobre los escalares en
Λ0 V, el operador ι(y) se anula: se define ι(y)(1) := 0 por convención.
Lema 5.29. Si y ∈ V, entonces ι(y)2 = 0 en End(Λ• V).
Demostración. Es obvio que ι(y)2 (1) = 0 y ι(y)2 (x) = ι(y) d(y, x) = 0 para todo x ∈ V. Para

k = 2, . . . , n, se calcula que
X
ι(y)2 (x1 ∧ · · · ∧ xk ) = (−1)i−1 (−1) j−1 d(y, xi ) d(y, x j ) x1 ∧ · · · ∧ xbi ∧ · · · ∧ xbj ∧ · · · ∧ xk
i< j
X
+ (−1)i−2 (−1) j−1 d(y, xi ) d(y, x j ) x1 ∧ · · · ∧ xbj ∧ · · · ∧ xbi ∧ · · · ∧ xk
i> j
X
= (−1)i+ j−2 + (−1)i+ j−3 d(y, xi ) d(y, x j ) x1 ∧ · · · ∧ xbi ∧ · · · ∧ xbj ∧ · · · ∧ xk .

i< j
Se pasa de la segunda a la tercera sumatoria al intercambiar los ı́ndices i ↔ j. Luego se

obtiene ι(y)2 (x1 ∧ · · · ∧ xk ) = 0 por cancelación de signos.
Lema 5.30. Si y, z ∈ V, entonces ε(y)ι(z) + ι(z)ε(y) = d(y, z) I en End(Λ• V).
Demostración. La evaluación del operador ε(y)ι(z) + ι(z)ε(y) en el escalar 1 ∈ R = Λ0 V da
ε(y)ι(z)(1) + ι(z)ε(y)(1) = ε(y)(0) + ι(z)(y) = d(y, z) ∈ Λ0 V.
Para k = 1, 2, . . . , n, escrı́base y =: x0 , de modo que
X k
ε(x0 )ι(z) + ι(z)ε(x0 ) (x1 ∧ · · · ∧ xk ) = (−1) j−1 d(x j , z) x0 ∧ x1 ∧ · · · ∧ xbj ∧ · · · ∧ xk

j=1
k
X
+ (−1) j d(x j , z) x0 ∧ x1 ∧ · · · ∧ xbj ∧ · · · ∧ xk
j=0
= d(x0 , z) x1 ∧ · · · ∧ xk ,
porque los términos de las dos sumatorias se anulan por cancelación de signos, con la ex-
cepción del primer término de la segunda sumatoria.
Considérese, para y ∈ V, el operador en End(Λ• V) dado por
c(y) := ε(y) + ι(y).
Los Lemas 5.29 y 5.30 muestran que
c(y)2 = ε(y)2 + ε(y)ι(y) + ι(y)ε(y) + ι(y)2 = d(y, y) I en End(Λ• V).
La correspondencia y 7→ c(y) : V → End(Λ• V) es lineal. Luego, si y, z ∈ V, entonces
c(y)c(z) + c(z)c(y) = c(y + z)2 − c(y)2 − c(z)2

= d(y + z, y + z) − d(y, y) − d(z, z) I

= 2 d(y, z) I. (5.12a)
Si c(y) = 0 en End(Λ• V), entonces d(y, z) = 0 en R para todo z ∈ V, luego y = 0 porque d es

no degenerada. Por lo tanto, la correspondencia y 7→ c(y) es lineal e inyectiva.
Definición 5.31. Si (V, d) es un espacio vectorial real con una forma bilineal simétrica no
degenerada, el álgebra de Clifford C`(V, d) es la subálgebra de End(Λ• V) generado por los
operadores c(y) := ε(y) + ι(y), para todo y ∈ V.
Conviene usar una notación simplificada, escribiendo y por c(y) para y ∈ V y un producto
de Clifford yz ∈ C`(V, d) en vez de la composición de operadores c(y)c(z). Se identifica el
escalar λ ∈ R con el operador escalar λ I. La relación (5.12) se traduce en
yz + zy = 2 d(y, z), para todo y, z ∈ V. (5.12b)
Proposición 5.32. Las álgebras C`(V, d) y Λ• V son isomorfos como espacios vectoriales
reales, pero no como álgebras sobre R.
Demostración. Si E = {e1 , . . . , en } es una base ortonormal para (V, d), sus elementos anticon-
mutan en C`(V, d), ya que ei e j + e j ei = 0 para i , j, en vista de (5.12b). Por lo tanto, el álgebra
C`(V, d) es generada por los productos ordenados
{ ei1 ei2 . . . eik : 1 ≤ i1 < i2 < · · · < ik ≤ n }.
Estos elementos están etiquetadas por las partes I = {i1 , . . . , ik } ⊆ {1, . . . , n}. (El caso I = ∅
corresponde al escalar 1 ∈ R; fı́jese que e2i = ±1 en C`(V, d) para i = 1, . . . , n.) En consecuencia,
es dim C`(V, d) ≤ 2n = dim Λ• V.
Defı́nase una aplicación lineal σ : C`(V, d) → Λ• V por
σ(a) := a(1).
Es decir, se evalúa el operador a ∈ End(Λ• V) en el elemento escalar 1 ∈ Λ• V, de modo que

a(1) es un elemento de Λ• V. Por ejemplo, si y ∈ V, se obtiene
σ(1) = I(1) = 1, σ(y) = c(y)(1) = y ∈ Λ1 V,

y si y, z ∈ V, entonces13
σ(yz) = c(y)c(z)(1) = y ∧ z + d(y, z) ∈ Λ2 V ⊕ Λ0 V.
Entonces σ(ei1 ei2 . . . eik ) = ei1 ∧ ei2 ∧ · · · ∧ eik para todo I ⊂ {1, . . . , n}. Luego la aplicación σ es
sobreyectiva. Si I aI ei1 . . . eik = 0 en C`(V, d) para algunos coeficientes aI ∈ R, al aplicar σ se
P
obtiene la relación I aI ei1 ∧ · · · ∧ eik = 0 en Λ• V y se concluye que cada aI = 0. Por lo tanto,
P
los elementos ei1 . . . eik son linealmente independientes en C`(V, d), luego dim C`(V, d) = 2n y
la aplicación lineal σ es biyectiva.
Por otro lado, si y ∈ V con d(y, y) , 0, entonces y2 = d(y, y) , 0 en C`(V, d) pero σ(y)∧2 =
y ∧ y = 0 en Λ2 V y por ende σ(y2 ) , σ(y)∧2 . Esto comprueba que σ no es un homomorfismo
de álgebras.
Teorema 5.33 (Chevalley). Si A es un álgebra sobre R, con elemento identidad 1A , y si

f : V → A es una aplicación R-lineal tal que
f (x)2 = d(x, x) 1A para todo x ∈ V, (5.13)
entonces hay un único homomorfismo de álgebras f˜ : C`(V, d) → A que extiende f , es decir,

tal que f˜(x) = f (x) cuando x ∈ V.
Demostración. La unicidad de la aplicación lineal y multiplicativa f˜ es consecuencia de la

fórmula
f˜(ei1 ei2 . . . eik ) = f˜(ei1 ) f˜(ei2 ) . . . f˜(eik ) = f (ei1 ) f (ei2 ) . . . f (eik ), (5.14)
toda vez que E = {e1 , . . . , en } es una base ortonormal para (V, d) e I = {i1 , . . . , ik } ⊂ {1, . . . , n}.
Esta fórmula también sirve para definir f˜ por linealidad, porque prescribe los valores de
f˜ en una base del espacio vectorial C`(V, d). Fı́jese que si e2i = ±1, entonces f˜(1) = ± f˜(e2i ) =
± f (ei )2 = ±d(ei , ei ) 1A = 1A por (5.13), lo cual cubre el caso I = ∅.
Sin embargo, para asegurar que f˜ esté bien definida, hay que verificar que la relación
(5.12b) en C`(V, d) conlleva la relación correspondiente f˜(yz + zy) = 2 d(y, z) 1A en A. En
efecto, esta condición de buena definición está garantizada por (5.13), ya que
f˜(yz + zy) = f˜ (y + z)2 − y2 − z2

= ( f (y + z))2 − ( f (y))2 − ( f (z))2

= d(y + z, y + z) 1A − d(y, y) 1A − d(z, z) 1A
= 2 d(y, z) 1A
porque d es bilineal y antisimétrica.

13 El elemento σ(a) ∈ Λ• V se llama el sı́mbolo de a ∈ C`(V, d). A la inversa, el elemento Q(c) ∈ C`(V, d)
cuyo sı́mbolo es c ∈ Λ• V se llama la cuantización de c. Para las razones detrás de esta terminologı́a, véase el
Capı́tulo 3 de: Nicole Berline, Ezra Getzler y Michèle Vergne, Heat Kernels and Dirac Operators, Springer,
Berlin, 1992.
Corolario 5.34. Sea V un espacio vectorial real con una forma bilineal simétrica no de-
generada d con rango p + q, signatura p − q. Un álgebra real A es isomorfo a C`(V, d) si y
sólo si dimR A = 2dim V y hay elementos generadores14 a1 , . . . , a p , b1 , . . . , bq ∈ A tales que para
i, j ∈ {1, . . . , p} distintos, r, s ∈ {1, . . . , q} distintos, valen
a2i = 1A , b2r = −1A , ai a j = −a j ai , br b s = −b j b s , ai br = −br ai . (5.15)
Demostración. Con n = p + q = dim V, sea E = {e1 , . . . , en } una base ortonormal para (V, d)
tal que d(ei , ei ) = +1 para i = 1, . . . , p y d(e p+r , e p+r ) = −1 para r = 1, . . . , q. Defı́nase una
aplicación lineal f : V → A por f (ei ) := ai si i = 1, . . . , p y f (e p+r ) := br si r = 1, . . . , q.
Si x = λ1 e1 + · · · + λn en ∈ V, las relaciones (5.15) muestran que
p
X q
X 2
f (x) =
2
λ i ai + λ p+r br = (λ21 + . . . + λ2p − λ2p+1 − . . . − λ2p+q ) 1A = d(x, x) 1A .
i=1 r=1
El Teorema 5.33 garantiza que f se extiende, mediante la fórmula (5.14), en un homomor-

fismo f˜ : C`(V, d) → A, el cual es sobreyectivo porque los ai , br son generadores de A. La
igualdad de dimensiones dimR A = dimR C`(V, d) garantiza que f˜ también es inyectivo.
El Teorema 5.33 conduce fácilmente a una propiedad estructural importante de C`(V, d).
Definición 5.35. Si C`(V, d) es un álgebra de Clifford real, sea C`+ (V, d) la subálgebra gene-
rada por productos de dos vectores yz, para todo y, z ∈ V. Si θ : V → C`(V, d) es la aplicación
definido por θ(x) := −x, es evidente que θ cumple (5.13) y por tanto extiende un automor-
fismo θ̃ de C`(V, d). Es evidente que θ̃2 = I en End(C`(V, d)), ası́ que los autovalores de θ̃ son
+1 y −1. También es claro que la subálgebra par C`+ (V, d) consiste de autovectores para el
autovalor +1. Si C`− (V, d) denota el subespacio impar de autovectores para el autovalor −1,
entonces
C`(V, d) = C`+ (V, d) ⊕ C`− (V, d)
como espacios vectoriales. Se ve que R ⊂ C`+ (V, d) y que V ⊂ C`− (V, d).
I El Corolario 5.34 permite una descripción explı́cita de las álgebras de Clifford reales de
baja dimensión.
Notación. Escrı́base C` p,q := C`(R p+q , d p,q ) donde d p,q denota la forma bilineal simétrica
sobre R p+q dada por
d p,q (x, y) := x1 y1 + · · · + x p y p − x p+1 y p+1 − · · · − x p+q y p+q .
Para la base ortonormal estándar de R p+q se escribe E = {e1 , . . . , e p , ε1 , . . . , εq }. Con esta no-
tación, es e2i = +1 en C`(V, d) para i = 1, . . . , p y ε2r = −1 en C`(V, d) para r = 1, . . . , q.
Como caso trivial, se designa C`0,0 := R, de dimensión 20 = 1.
14 Unoselementos c1 , . . . , ck son generadores de un álgebra A si todos los productos finitos ci1 . . . cil generan
A como espacio vectorial.
Ejemplo 5.36. Es claro que C`1,0 ' R ⊕ R como espacio vectorial; la primera copia de R
denota los escalares, la segunda copia son los múltiplos de e1 . Si a, b, c, d ∈ R, entonces
(a + be1 )(c + de1 ) = (ac + bd) + (ad + bc)e1 . Se puede considerar R ⊕ R como subálgebra de
M2 (R), al identificar
" # " # " #
1 0 0 1 a b
1↔ , e1 ↔ , a + be1 ↔ .
0 1 1 0 b a
Ejemplo 5.37. Por otro lado, es C`0,1 ' C. En efecto, la regla de multiplicación
(a + bε1 )(c + dε1 ) = (ac − bd) + (ad + bc)ε1 , para a, b, c, d ∈ R,
revela el isomorfismo, con ε1 ↔ i ∈ C. (Recuérdese que dimR C = 2.) Además, es posible

considerar C como subálgebra de M2 (R), al identificar
" # " # " #
1 0 0 1 a b
1↔ , ε1 ↔ , a + bε1 ↔ .
0 1 −1 0 −b a
Definición 5.38. Las matrices de Pauli15 son las siguientes tres matrices en M2 (C):
" # " # " #
0 1 0 −i 1 0
σ1 := , σ2 := , σ3 := . (5.16)
1 0 i 0 0 −1
Obsérvese que σ21 = σ22 = σ23 = I2 y que estas matrices anticonmutan; en efecto,
σ1 σ2 = iσ3 = −σ2 σ1 , σ3 σ1 = iσ2 = −σ1 σ3 , σ2 σ3 = iσ1 = −σ3 σ2 .
Ejemplo 5.39. Resulta que C`2,0 ' M2 (R). En primer lugar, es C`2,0 = linh1, e1 , e2 , e1 e2 i.
Obsérvese que
(e1 e2 )2 = e1 e2 e1 e2 = −e1 e1 e2 e2 = −(+1)(+1) = −1.
Por tanto, como σ3 y σ1 anticonmutan, se puede identificar
" # " # " #
1 0 0 1 0 1
e1 ↔ σ3 = , e2 ↔ σ1 = , e1 e2 ↔ J2 = .
0 −1 1 0 −1 0
Junto con 1 ↔ I2 , estas matrices generan M2 (R) como espacio vectorial real; es evidente que
el producto de elementos de C`2,0 corresponde con el producto de las matrices 2 × 2.
Ejemplo 5.40. También sucede que C`1,1 ' M2 (R), con otra identificación. Ahora C`2,0 =
linh1, e1 , ε1 , e1 ε1 i, con (e1 ε1 )2 = −e1 e1 ε1 ε1 = −(+1)(−1) = +1. Como σ1 y J2 anticonmutan,
se identifica
" # " # " #
0 1 0 1 −1 0
e1 ↔ σ1 = , ε1 ↔ J2 = , e1 ε1 ↔ −σ3 = .
1 0 −1 0 0 1
15 Estos matrices fueron usadas por el fı́sico austriaco Wolfgang Pauli en 1927 para modelar el fenómeno de
espı́n de un electrón. Su principio de exclusión, que afirma que dos partı́culas subatómicas de espı́n 21 no pueden
coexistir en un mismo estado material, es la base de la explicación moderna de la estructura de los átomos.
Definición 5.41. Los cuaterniones son elementos del álgebra real H := linh1, i, j, ki, con
dimR H = 4, cuyos generadores i, j, k obedecen las relaciones de Hamilton:16
i2 = j2 = k2 = i jk = −1.
En consecuencia, estos generadores anticonmutan: i j = k = − ji, ki = j = −ik, jk = i = −k j.

Ejemplo 5.42. Resulta que C`0,2 ' H. En efecto, es cuestión de identificar ε1 ↔ i, ε2 ↔ j,
ε1 ε2 ↔ k. Nótese que (ε1 ε2 )2 = −ε1 ε1 ε2 ε2 = −(−1)(−1) = −1.
Ejemplo 5.43. Se obtiene C`3,0 ' M2 (C) al identificar los generadores e1 , e2 , e3 con las ma-
trices de Pauli σ1 , σ2 , σ3 respectivamente. Obsérvese que dimR M2 (C) = 2 dimC M2 (C) = 8.
Una base para M2 (C) sobre R es {I2 , σ1 , σ2 , σ3 , iσ3 , iσ1 , iσ2 , iI2 }.
Ejemplo 5.44. Sucede que C`3,0 ' M2 (H), las matrices 2 × 2 con entradas en H. Si se reem-
plaza la segunda matriz de Pauli por
" #
0 −j
τ2 := ,
j 0
se obtiene un elemento de M2 (H) con τ22 = I2 , que anticonmuta con σ1 , σ2 y σ3 . En efecto:

" #" # " #
0 −i 0 − j −k 0
σ 2 τ2 = = = −τ2 σ2 .
i 0 j 0 0 −k
Nótese también que dimR M2 (H) = 4 dimR H = 16. El Corolario 5.34 muestra el isomorfismo
requerido, al identificar e1 , e2 , e3 , e4 con σ1 , σ2 , σ3 , τ2 respectivamente.
Lema 5.45. Hay isomorfismos C` p+1,q+1 ' M2 (C` p,q ), para todo p, q ∈ N.
Demostración. Por el Corolario 5.34, basta identificar la base {e1 , . . . , e p+1 , ε1 , . . . , εq+1 } de
R p+q+2 con elementos de M2 (C` p,q ) con cuadrados respectivos ±1 que anticonmutan entre sı́.
Fı́jese que dim C` p+1,q+1 = 2 p+q+2 = 4 · 2 p+q = dim M2 (C` p,q ). Las identificaciones requeridas
son
εr 0
" # " #
ei 0
ei 7−→ para i = 1, . . . , p, εr 7−→ , para r = 1, . . . , q,
0 −ei 0 −εr
y también " # " #

0 1 0 1
e p+1 7−→ , εq+1 7−→ .
1 0 −1 0
16 William Rowan Hamilton introdujo un cálculo de vectores en R3 en donde cada vector de la base estándar
R3
{i, j, k} de se combina con los escalares en R para formar una copia de los números complejos, al demandar
que i2 = j2 = k2 = −1. La dificultad esencial fue descubrir la manera de multiplicar vectores no paralelos; esto lo
resolvió en 1847 mediante la receta i jk = −1. Esta solución se le ocurrió mientras viajaba por taxi en el puente
Brougham sobre el rı́o Tolka en Dublin; detuvo los caballos y saltó del taxi para cavar con un cuchillo en la
madera del puente la fórmula i jk = −1. Desafortunadamente, la inscripción no sobrevivió el paso del tiempo.
Este resultado de “periodicidad-(1, 1)” muestra que es suficiente clasificar las álgebras de
Clifford C` p,0 y C`0,q para p, q ∈ N. De hecho, hay otro resultado importante, la periodicidad
módulo 8, que afirma que17
C` p+8,q ' C` p,q+8 ' M16 (C` p,q ).
De este modo, basta clasificar C` p,0 y C`0,q para p, q = 0, 1, . . . , 7. Por ejemplo, vale
C`8,0 ' C`0,8 ' M16 (C`0,0 ) = M16 (R). La lista de estos casos, completando los ejemplos
anteriores, es18
C` p,0 para p = 0, 1, . . . , 7 :
R, R ⊕ R, M2 (R), M2 (C), M2 (H), M2 (H) ⊕ M2 (H), M4 (H), M8 (C);
C`0,q para q = 0, 1, . . . , 7 :
R, C, H, H ⊕ H, M2 (H), M4 (C), M8 (R), M8 (R) ⊕ M8 (R).
De hecho, estas listas ejemplifican un teorema de Wedderburn, que dice que cualquier álgebra
real asociativa semisimple19 es una suma directa de álgebras de matrices sobre una de las tres
álgebras R, C, H.
5.4 Ejercicios sobre álgebras exteriores y de Clifford

Ejercicio 5.1. (a) Demostrar que cualquier elemento de Λ2 V ∗ es de la forma
g = h1 ∧ h2 + h3 ∧ h4 + · · · + h2r−1 ∧ h2r ,
donde h1 , . . . , h2r son elementos linealmente independientes de V ∗ .

[[ Indicación: Si { f1 , . . . , fn } es una base de V ∗ , entonces g = 12 ni, j=1 ai j fi ∧ f j par una matriz
P
antisimétrica A = [ai j ] ∈ Mn (F). Expresar A = Rt (J2r ⊕ On−2r )R y tomar hk := nj=1 rk j f j . ]]

P
(b) Verificar que la “potencia exterior” g∧r := g ∧ g ∧ · · · ∧ g (r veces) en Λ2r (V ∗ ) cumple
g∧r = (r!) h1 ∧ h2 ∧ · · · ∧ h2r .
17 En el caso complejo (se puede desarrollar la teorı́a de las álgebras de Clifford sobre C en vez de R) hay un
resultado más sencillo: si C`n es el álgebra de Clifford complejo generado por el espacio hilbertiano Cn , entonces
C`n+2 ' M2 (C`n ). Esto fue descubierto por Raoul Bott en 1958, como consecuencia de su clasificación de los
grupos de homotopı́a de los grupos unitarios. La esencia algebraica de esta construcción fue extraı́da, junto
con la periodicidad módulo 8 para el caso real, en: Michael Atiyah, Raoul Bott y Arnold Shapiro, “Clifford
modules”, Topology 3 (1964), 3–38.
18 Aquı́ no se demuestran los casos superiores, ni el teorema de periodicidad módulo 8. Para estos y otros
detalles sobre las álgebras de Clifford, se remite al Capı́tulo 5 del libro: José M. Gracia-Bondı́a, Joseph C.
Várilly y Héctor Figueroa, Elements of Noncommutative Geometry, Birkhäuser, Boston, 2001.
19 Un álgebra se llama semisimple si no posee ideales nilpotentes. Para el teorema de Wedderburn, véase el
último capı́tulo de: Isadore Herstein, Topics in Algebra, Blaisdell, New York, 1964.
Ejercicio 5.2. Sea V un espacio vectorial de dimensión n = 2m y sea g ∈ Λ2 V ∗ una forma

bilineal alternada no degenerada. Con la notación del Ejercicio 5.1, demostrar que
h1 ∧ h2 ∧ · · · ∧ h2m = (det R) f1 ∧ f2 ∧ · · · ∧ f2m .
A partir de la definición Pf A := det R, usar el resultado del Ejercicio anterior para verificar la
fórmula (4.10) para Pf A.
Ejercicio 5.3. Sea V un espacio vectorial sobre R con una base ordenada B = {x1 , . . . , xm }.
Se dice que otra base B0 = {x01 , . . . , x0m } tiene la misma orientación20 que B si det [I]B
B0
> 0.
(a) Verificar que B y B0 tienen la misma orientación si y sólo si volB0 = c volB en Λn V,
con c > 0.
(b) Si b = 12 ni, j=1 bi j xi ∧ x j = 12 nr,s=1 b0rs x0r ∧ x0s ∈ Λ2 V, mostrar que Pf B y Pf B0 tienen
P P
el mismo signo si y sólo si B y B0 tienen la misma orientación.
Ejercicio 5.4. Dada una forma bilineal simétrica no degenerada d sobre un espacio vectorial
real V, sea Q : Λ• V → C`(V, d) el inverso de la aplicación lineal biyectiva σ : C`(V, d) → Λ• V
dada por σ(a) := a(1).
(a) Si x, y, z ∈ V, verificar que
Q(x ∧ y ∧ z) = xyz − d(y, z) x + d(x, z) y − d(x, y) z.
(b) Si B = {x1 , . . . , xn } es una base ortonormal de (V, d), comprobar que

1 X
Q(volB ) = (−1)σ xσ(1) xσ(2) . . . xσ(n) .
n! σ∈S
n
Ejercicio 5.5. Si C`(V, d) es un álgebra de Clifford real, es

C`(V, d) = C`+ (V, d) ⊕ C`− (V, d),
donde la subálgebra par C`+ (V, d) y el subespacio impar C`− (V, d) son generados por pro-
ductos de un número par [respectivamente, por un número impar] de vectores en V.
(a) Mostrar que dim C`+ (V, d) = 21 dim C`(V, d).
[[ Indicación: Si x ∈ V es un vector no nulo, mostrar que a 7→ xa es una biyección lineal
entre C`+ (V, d) y C`− (V, d). ]]
(b) Se sabe que hay isomorfismos de álgebras reales tales que
C`1,0 ' R ⊕ R, C`2,0 ' M2 (R), C`3,0 ' M2 (C), C`4,0 ' M2 (H),
donde H = { c0 + c1 i + c2 j + c3 k : ci ∈ R } es el álgebra de cuaterniones. Verificar que
C`+1,0 ' R, C`+2,0 ' C, C`+3,0 ' H, C`+4,0 ' H ⊕ H.
α β
" #
[[ Indicación: Si α, β ∈ C, se identifica α + β j ∈ H con la matriz ∈ M2 (C). ]]
−β̄ ᾱ
20 Una orientación sobre V es una de las dos clases de equivalencia de bases ordenadas determinadas por el
signo de det [I]B
B0
.
Bibliografı́a
Los siguientes libros amplifican y profundizan los tópicos vistos en este curso.
1. Mischa Cotlar y Cora Ratto de Sadosky, Introducción al Algebra: Nociones de Algebra

Lineal, Editorial Universitaria de Buenos Aires, 1963.
2. Feliks R. Gantmacher, The Theory of Matrices, tomo 1, Chelsea, New York, 1959.
3. Lidia I. Goloviná, Algebra Lineal y Algunas de sus Aplicaciones, Mir, Moscú, 1974.
4. Paul R. Halmos, Espacios Vectoriales de Dimensión Finita, Compañı́a Editorial Conti-

nental, México, DF, 1971.
5. Kenneth Hoffman y Ray Kunze, Algebra Lineal, Prentice-Hall Internacional, Madrid,

1972.
6. Serge Lang, Algebra Lineal, Fondo Educativo Interamericano, México, DF, 1976.
7. Saunders MacLane y Garrett Birkhoff, Algebra, Macmillan, New York, 1967.
8. Anatoly I. Maltsev, Fundamentos de Algebra Lineal, Mir, Moscú, 1972.
9. Ben Noble y James W. Daniel, Algebra Lineal Aplicada, Prentice-Hall Hispanoameri-

cana, México, DF, 1989.
10. Denis Serre, Matrices: Theory and Applications, Graduate Texts in Mathematics 216,
Springer, New York, 2002.
11. Orlando E. Villamayor, Algebra Lineal, OEA, Washington, DC, 1981.
12. Valentin V. Voevodin, Algebra Lineal, Mir, Moscú, 1982.

Cayley

Cargado por

Información del documentohacer clic para expandir la información del documento

Copyright:

Formatos disponibles

Cayley

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cayley

Cargado por

Copyright:

Formatos disponibles

MA–460: ALGEBRA LINEAL II

Escuela de Matemática, Universidad de Costa Rica

II Ciclo Lectivo del 2007

2 Estructura de Aplicaciones Lineales

3 Ortogonalidad y Teorı́a Espectral

5 Algebras Exteriores y de Clifford

1 Fundamentos del Algebra Lineal

1.1 Espacios vectoriales

Definición 1.1. Un espacio vectorial sobre un cuerpo F es un conjunto V, cuyos elementos

1x = x; a(x + y) = ax + ay; (a + b)x = ax + bx; para a, b ∈ F, x, y ∈ V.

La totalidad de las “n-tuplas” x = (x1 , . . . , xn ), con cada xk ∈ F, es un espacio vectorial sobre

Definición 1.3. Sea V un espacio vectorial sobre F. Un subespacio de V es una parte W ⊆ V

La base estándar de Fn es E = {e1 , . . . , en }, donde

1.2 Aplicaciones lineales

T (x + y) = T (x) + T (y), para x, y ∈ V,

La totalidad de aplicaciones lineales T : V → W se denota por L(V, W). Este es también un

Si Z es otro espacio vectorial sobre F, y si T ∈ L(V, W), S ∈ L(W, Z), su composición3 es la

De igual modo, la función indicatriz de un conjunto A es 1A (x) := [[x ∈ A]], y la función de

Si V es finitodimensional, es dim(V ∗ )∗ = dim V ∗ = dim V. Cada vector x ∈ V da lugar a

Definición 1.18. Sean V, W dos espacios vectoriales sobre F. La aplicación transpuesta de

T t (g) := g ◦ T, para todo g ∈ W ∗ .

En otras palabras, si g ∈ W ∗ , x ∈ V, entonces T t (g) : x 7→ g(T (x)).

(T t S t )(h) = T t (S t (h)) = T t (h ◦ S ) = (h ◦ S ) ◦ T = h ◦ (S T ) = (S T )t (h), para h ∈ Z ∗ .

La imagen de T es el subespacio T (V) de W:

La nulidad de T es n(T ) := dim(ker T ). El rango de T es r(T ) := dim(T (V)). Obsérvese que

Proposición 1.20. Sea T ∈ L(V, W); entonces

(a) T es inyectivo si y sólo si ker T = {0}, si y sólo si n(T ) = 0;

(b) T es sobreyectivo si y sólo si T (V) = W, si y sólo si r(T ) = dim W.

M ⊥ := { f ∈ V ∗ : f (x) = 0 para todo x ∈ M }.

El anulado de N es el subespacio ⊥ N ≤ V dado por

Resulta que dim(M ⊥ ) = n − dim M y que dim(⊥ N) = n − dim N.

T (V)⊥ = ker T t y (ker T )⊥ = T t (W ∗ ).

Además ⊥ T t (W ∗ ) = ker T y ⊥ (ker T t ) = T (V).

(b) r(T ) + n(T ) = dim V.

De este modo, A = [a1 , a2 , . . . , an ] es una lista ordenada de vectores de columna.

x 7→ ai · x = ai1 x1 + ai2 x2 + · · · + ain xn ,

como miembro de (Fn )∗ . En general, la notación x · y denotará el producto punto de dos

Definición 1.25. Si A ∈ Fm×n y B ∈ Fn×r , el producto de matrices AB es la matriz C = AB ∈

En un contexto en donde el tamaño n es fijo, se suele abreviar I := In .

Definición 1.26. Un elemento A ∈ Mn (F) es una matriz inversible o matriz no singular si

Para exhibir la dependencia de la matriz A tanto de T como de las bases B y C, se escribe

donde se ha usado la linealidad de la aplicación T . En vista de la independencia lineal de los

En otras palabras, [T (x)]C = A [x]B , o bien

[T (x)]C = [T ]CB [x]B . (1.7)

dim L(V, W) = dim Fm×n = mn = (dim W)(dim V).

En efecto, la Proposición 1.14 afirma que T 7→ A es inyectiva, y la aplicación inversa es

(a) Si D es una base del espacio vectorial Z y si B = [S ]DC

(b) Si [T ]CB = A y si T es biyectivo, entonces [T −1 ]B

(c) Si B∗ = { f1 , . . . , fn } ⊂ V ∗ y C∗ = {g1 , . . . , gm } ⊂ W ∗ son las bases duales de B y C respec-

Proposición 1.28. Si A ∈ Fm×n , la imagen de la aplicación correspondiente T A : Fn → Fm es

Demostración. Si x ∈ Fn , entonces T A (x) = Ax ∈ Fm . Escrı́base x = nj=1 x j e j , al desarrollar

Definición 1.29. Si A ∈ Fm×n , el rango de la matriz A se define como el rango de la aplicación

I Dadas dos espacios vectoriales finitodimensionales V y W, sean B = {x1 , . . . , xn } y B0 =

donde P = [I]B y Q = [I]CC son las matrices de cambio de base en V, W respectivamente.

Si A y B representan una aplicación lineal T ∈ L(V, W) respecto de dos pares de bases

Si A y B representan una aplicación lineal T ∈ L(V, V) respecto de un par de bases para V,

1.4 Ecuaciones lineales y eliminación gaussiana

a11 x1 + a12 x2 + · · · + a1n xn = b1