Apontamentos AL

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 119

Instituto Superior Técnico

Departamento de Matemática

APONTAMENTOS DE ÁLGEBRA LINEAR

0. Introdução
Este texto consiste numa transcrição razoavelmente fiel das apresentações feitas nas
aulas teóricas do curso de Álgebra Linear para o mestrado em engenharia Aeroespacial
no primeiro semestre de 2018/2019 no IST. O seu objetivo é proporcionar uma referência
precisa para a matéria coberta nas aulas teóricas e não substituir os livros de texto indicados
na bibliografia na página da cadeira.
A Álgebra Linear é a parte da Matemática que estuda a resolução de equações lineares, ou
mais geralmente, que estuda as funções lineares. Os sistemas lineares já vos são familiares.
Eis um exemplo: (
2x + 3y − z + w = 4
−x + 2z − w = 1
Estamos interessados em saber se um sistema tem solução e, em caso afirmativo, em
descrever as soluções de uma forma conveniente. A resolução do sistema pode ser vista
como uma questão relativa à função linear
f (x, y, z, w) = (2x + 3y − z + w, −x + 2z − w)
De facto a existência de solução é equivalente à afirmação que (4, 1) pertence à imagem
de f e, quando a solução existe, o conjunto das soluções é a pré-imagem f −1 ({(4, 1)}) do
ponto (4, 1) pela função.
A Álgebra Linear está também fortemente ligada à Geometria. Considerando (x, y, z, w)
como coordenadas num espaço euclidiano de dimensão 4 (o espaço-tempo por exemplo),
podemos interpretar o sistema acima como descrevendo a interseção de dois (hiper)planos.
O sistema terá solução se os hiperplanos se intersetam e nesse caso, o conjunto das soluções
do sistema descreve os pontos da interseção.
A Álgebra Linear é ubı́qua na Matemática e nas suas aplicações. Por exemplo, o algo-
ritmo de busca de páginas da Google tem por base uma ideia muito simples de álgebra
linear como iremos ver mais tarde. A Álgebra Linear que iremos estudar é também usada
na compressão de dados e imagens e nas telecomunicações entre muitas outras aplicações.
Por outro lado, a Álgebra Linear é também fundamental na Matemática porque as funções
lineares servem de modelo (incrivelmente bem sucedido) para funções mais gerais. É essa
a ideia do Cálculo, no qual as funções são estudadas recorrendo às suas aproximações lin-
eares (ou derivadas). A Álgebra Linear será assim uma base fundamental para disciplinas
de Matemática que estudarão posteriormente como o Cálculo de várias variáveis ou as
Equações Diferenciais.

1. O método de Gauss
O método de Gauss é um método para resolver sistemas lineares cuja ideia é a simpli-
ficação do sistema através da eliminação sucessiva de variáveis.
Date: December 2, 2019.
1
2 APONTAMENTOS DE ÁLGEBRA LINEAR

Definição 1.1. Um sistema linear de m equações a n incógnitas é uma expressão da forma





 a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2

(1) ..


 .

a x + a x + . . . + a x = b
m1 1 m2 2 mn n m

onde aij , xj , bi para 1 ≤ i ≤ m, 1 ≤ j ≤ n denotam números reais (ou complexos). Os


números aij chamam-se os coeficientes do sistema, os xi são as incógnitas e os bi os termos
independentes. Se os termos independentes são nulos (isto é bi = 0 para todo o i) o sistema
diz-se homogéneo.

Estamos interessados em saber se um sistema admite soluções (isto é, se existem números
x1 , . . . , xn tais que as relações (1) são satisfeitas). Quando isto acontece diz-se que o
sistema é possı́vel, senão é impossı́vel. Quando existem soluções, queremos descrevê-las.
Em particular queremos saber se a solução é única (nesse caso diz-se que o sistema é
determinado) ou não, caso em que o sistema se diz indeterminado.
Observe-se que um sistema homogéneo é sempre possı́vel. Tem pelo menos a solução
xj = 0 para todo o j, que se chama a solução trivial.

Observação 1.2. Toda a teoria que vamos desenvolver durante o próximo par de meses
aplica-se mais geralmente. Os números reais ou complexos podem ser substituı́dos pelos
elementos de qualquer corpo (um conjunto com duas operações - soma e multiplicação
- que são comutativas, associativas, têm elemento neutro, a multiplicação é distributiva
relativamente à soma, todos os elementos têm inverso relativamente à soma e todos os
elementos excepto o elemento neutro da soma têm inverso multiplicativo). Um exemplo
familiar de corpo além dos conjuntos R e C dos números reais e complexos com as suas
operações habituais é o conjunto Q dos números racionais, também com a soma e produto
habituais. Um exemplo menos habitual é o conjunto {0, 1} com a soma e produto definidas
tomando o resto da divisão por 2 da soma e produto usuais.

O método da eliminação de Gauss é o seguinte algoritmo para simplificar um sistema de


equações lineares:
(1) Identificar a primeira variável que ocorre de facto no sistema (isto é, que tem
coeficiente não nulo nalguma das equações do sistema).
(2) Se o coeficiente dessa variável na primeira equação for nulo, trocar a primeira
equação com outra na qual o coeficiente não é nulo
(3) Subtrair um múltiplo conveniente da primeira equação às restantes de forma a
eliminar nelas a variável em questão (isto é tornar o coeficiente dessa variável nulo)
(4) Regressar ao passo (1) considerando apenas o sistema que se obtém esquecendo a
primeira equação, a não ser que o sistema fique reduzido a uma única equação, caso
em que o algoritmo termina.
APONTAMENTOS DE ÁLGEBRA LINEAR 3

Exemplo 1.3. Considere-se o sistema



0x1 + 0x2 + 2x3 − x4 = 5

0x1 + x2 + 0x3 + 3x4 = 1

0x + 2x + x + x = 2
1 2 3 4

A primeira variável que ocorre no sistema é x2 . Uma vez que o coeficiente de x2 na primeira
equação é 0, trocamos a primeira equação com a segunda (também poderı́amos trocar com
a terceira). Obtemos então o sistema

x 2
 + 3x4 = 1
2x3 − x4 = 5

2x + x + x = 2
2 3 4

Subtraı́mos agora à terceira equação o dobro da primeira para eliminar a variável x2 obtendo

x2
 + 3x4 = 1
2x3 − x4 = 5

 x3 − 5x4 = 0
Voltamos agora ao inı́cio mas consideramos apenas as duas últimas equações. A primeira
variável é agora x3 e o seu coeficiente na primeira linha (que é a segunda linha do sistema
inicial) é não nulo, pelo que não é necessário trocar a ordem das equações. Subtraindo
metade da segunda equação à terceira obtemos o sistema

x2
 + 3x4 = 1
(2) 2x3 − x4 = 5
− 92 x4 = − 25

O sistema (2) é fácil de resolver começando pela equação debaixo e substituindo repeti-
damente os resultados obtidos nas equações de cima: da última equação obtemos x4 = 59 e
substituindo na segunda equação obtemos
5 25
2x3 = 5 + ⇔ x3 =
9 9
Finalmente substituindo na primeira equação (em geral precisarı́amos também do valor de
x3 mas neste sistema isso não acontece) obtemos
5 2
x2 = 1 − 3 · =−
9 3
O conjunto das soluções do sistema é portanto
(3) {(x1 , − 32 , 25
9 9
, 5 ) : x1 ∈ R}
Em particular o sistema é possı́vel e indeterminado.
É um desperdı́cio de tempo escrever as variáveis durante a aplicação dos passos do
algoritmo acima. Podemos apenas escrever os coeficientes e termos independentes dos
4 APONTAMENTOS DE ÁLGEBRA LINEAR

vários sistemas. O procedimento aplicado no exemplo anterior pode entâo ser abreviado
da seguinte forma:
     
0 0 2 −1 | 5 0 1 0 3 | 1 0 1 0 3 | 1
L1 ↔L2 3 −2L1
 0 1 0 3 | 1  −→  0 0 2 −1 | 5  L−→  0 0 2 −1 | 5 
0 2 1 1 | 2 0 2 1 1 | 2 0 0 1 −5 | 0
 
0 1 0 3 | 1
L3 − 21 L1
(4) −→  0 0 2 −1 | 5 
0 0 0 − 92 | − 52
As tabelas de números que aparecem acima chamam-se matrizes e são objetos fundamentais
na álgebra linear. A linha a tracejado antes da última coluna destina-se a lembrar que
estamos a resolver um sistema não homogéneo e que a última coluna é formada pelos
termos independentes. Quando é claro do contexto a linha a tracejado é por vezes omitida.
Quando o sistema é homogéneo a última coluna (formada só por 0s) é omitida.
Exemplo 1.4. Vamos resolver o sistema

x + 3y + 2z = 0

4y + z = 2

−2x − 2y − 3z = 1

Aplicando o método de Gauss obtemos


     
1 3 2 | 0 1 3 2 | 0 1 3 2 | 0
L3 +2L1 3 −L2
 0 4 1 | 2  −→  0 4 1 | 2  L−→  0 4 1 | 2 
−2 −2 −3 | 1 0 4 1 | 1 0 0 0 | −1
A última equação do sistema descrito pela matriz em que termina o método de Gauss é
0x + 0y + 0z = −1, que é impossı́vel. Conclui-se que o sistema inicial é impossı́vel.
Definição 1.5. Sejam m, n números naturais. Uma matriz m × n de números reais ou
complexos é uma função {1, . . . , m} × {1, . . . , n} → R (ou C). É habitual representar uma
tal função por uma tabela de números
a11 a12 · · · a1n
 
 a21 a22 · · · a2n 
 .
 .. ..  onde aij é o valor da função em (i, j).
. 
am1 am2 · · · amn
m é o número de linhas da matriz, enquanto que n é o número de colunas. Diz-se que uma
matriz está em escada de linhas se todas as linhas nulas estão em baixo e se a primeira
entrada não nula de cada linha, que se denomina por pivot, está para a esquerda do pivot
da linha abaixo. Isto é, [aij ]1≤i≤m,1≤j≤n está em escada de linhas se quando
aij = 0 para j ≤ k (sendo 0 ≤ k ≤ n) ⇒ ai+1 j = 0 para j ≤ k + 1.
APONTAMENTOS DE ÁLGEBRA LINEAR 5

Note-se que, em termos das matrizes associadas aos sistemas, o que o método de Gauss
faz é colocar a matriz do sistema em escada de linhas.
Após a aplicação do método de Gauss temos ainda que resolver iterativamente as equações
do sistema, começando pela que está mais abaixo. Este processo pode ser feito de forma
muito mais eficiente, efetuando operações semelhantes às do método de Gauss. Este novo
algoritmo, uma continuação do método de Gauss, chama-se Método de Gauss-Jordan e
consiste em, dada uma matriz em escada de linhas,
(1) Multiplicar cada linha não nula pelo inverso do pivot de forma a fazer o pivot igual
a 1.
(2) Subtrair múltiplos apropriados das linhas acima de cada linha com pivot até que
todas as entradas acima dos pivots fiquem nulas.
Vamos aplicar este algoritmo à matriz em escada de linhas (4) que resultou do Exemplo
1.3.
Exemplo 1.6.
     2

0 1 0 3 | 1 1
L
0 1 0 3 | 1 L −3L
0 1 0 0 | − 3
 0 0 2 −1 | 5  −→ 2 2
 0 0 1 − 1 | 5  1−→1 3  0 0 1 0 | 25 
2
− 9 L3 2 2 L2 + 2 L1 9
0 0 0 − 29 | − 52 0 0 0 1 | 59 0 0 0 1 | 59
Recuperamos assim o conjunto das soluções (3) obtido acima.
Quando há muitas equações, o algoritmo de Gauss-Jordan é muito mais eficiente que o
processo de substituições sucessivas que usámos antes.
Definição 1.7. Diz-se que uma matriz está em escada de linhas reduzida se está em escada
de linhas, os pivots são todos iguais a 1 e as entradas acima dos pivots são todas 0.
O algoritmo de Gauss-Jordan coloca portanto uma matriz em escada de linhas numa
matriz em escada de linhas reduzida.
Exemplo 1.8. Vamos resolver o sistema homogéneo

y + 4w = 0

x − 2y + 3z = 0

2x − 6y + 16w = 0

Recorde-se que neste caso não incluı́mos a coluna de 0s correspondente aos termos depen-
dentes. Obtemos assim
     
0 1 0 4 1 −2 3 0 1 −2 3 0
1 ↔L2 3 −2L1
 1 −2 3 0  L−→  0 1 0 4  L−→  0 1 0 4 
2 −6 0 16 2 −6 0 16 0 −2 −6 16
     
1 −2 3 0 1
− 6 L3
1 −2 3 0 1 0 3 8
L3 +2L2
−→  0 1 0 4  −→  0 1 0 4  L−→ 1 +2L2
 0 1 0 4 
0 0 −6 24 0 0 1 −4 0 0 1 −4
6 APONTAMENTOS DE ÁLGEBRA LINEAR
 
1 0 0 20
L1 −3L3
−→  0 1 0 4 
0 0 1 −4
Obtemos assim a seguinte solução para o sistema:

x = −20w

y = −4w com w ∈ R qualquer.

z = 4w

Exemplo 1.9. Vamos resolver o sistema linear homogéneo



x − y + 2z + w − v = 0

2x − 2y + z − w + 2v = 0

x − y + 5z + 4w − 5v = 0

Aplicando o método de Gauss-Jordan temos


     
1 −1 2 1 −1 1 −1 2 1 −1 1 −1 2 1 −1
L2 −2L1
 2 −2 1 −1 2  −→  0 0 −3 −3 4  L−→
3 +L2
 0 0 −3 −3 4 
L3 −L1
1 −1 5 4 −5 0 0 3 3 −4 0 0 0 0 0
   
1
− 3 L2
1 −1 2 1 −1 1 −1 0 −1 35
4  L1 −2L2 
−→ 0 0 1 1 − 3
 −→ 0 0 1 1 − 43 
0 0 0 0 0 0 0 0 0 0
Ou seja, o conjunto solução deste sistema é
{(y + w − 53 v, y, −w + 43 v, w, v) : y, w, v ∈ R}
Os dois exemplos acima ilustram a seguinte observação relativa à solução de sistemas
homogéneos por este método:
• As colunas com pivots correspondem às variáveis dependentes do sistema que são
expressas em função das restantes.
• As colunas sem pivots correspondem às variáveis livres cujo valor pode ser atribuı́do
arbitrariamente numa solução.
Num sistema não homogéneo, o sistema é impossı́vel se houver um pivot na última coluna
(como acontece no Exemplo 1.4). Quando o sistema é possı́vel, as colunas com pivot
correspondem às variáveis dependentes e as restantes, com excepção da última, às variáveis
livres.
Definição 1.10. A caracterı́stica de uma matriz1 A é o número de pivots que se obtém ao
aplicar o método de Gauss (ou Gauss-Jordan).
Alternativamente a caracterı́stica é o número de linhas não nulas na matriz que resulta
da aplicação do método de Gauss (ou Gauss-Jordan). Ela dá-nos o número mı́nimo de
equações necessárias para descrever a solução do sistema. Note-se que não é imediatamente
1Em inglês “rank of a matrix”.
APONTAMENTOS DE ÁLGEBRA LINEAR 7

claro que a definição de caracterı́stica faça sentido pois há alguma indeterminação no
método de Gauss relativa à escolha das trocas de linha. Podia acontecer que escolhas
diferentes durante a aplicação do algoritmo conduzissem a matrizes com números diferentes
de pivots no final. Vamos ver que isso não pode acontecer, mas primeiro comecemos por
analisar exatamente a razão pela qual os métodos de Gauss e Gauss-Jordan produzem
sistemas equivalentes ao inicial.
Suponhamos que temos um sistema linear



 a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2

(5) ..


 .

a x + a x + . . . + a x = b
m1 1 m2 2 mn n m

Se (x1 , . . . , xn ) é uma solução do sistema, então para qualquer escolha de c1 , . . . , cm ∈ R


(ou C consoante os escalares que estejamos a considerar) a seguinte relação será verificada
(6) c1 (a11 x1 + . . . + a1n xn ) + . . . + cm (am1 x1 + am2 x2 + . . . + amn xn ) = c1 b1 + . . . + cm bm
A expressão (6) diz-se uma combinação linear das equações do (5). Obtém-se multiplicando
a i-ésima equação pela constante ci e somando as equações resultantes. Concretizando, a
combinação linear com coeficientes 2 e −3 das equações
x+y =3 2x − 5y = 2
é a equação
2(x + y) − 3(2x − 5y) = 2 · 3 − 3 · 2 ⇔ −4x + 17y = 0

Observação 1.11. O conceito de combinação linear é talvez o conceito central da Álgebra


Linear. Informalmente, uma combinação linear de coisas é uma expressão que se obtém
multiplicando cada coisa por um escalar e somando tudo. Por exemplo, admitindo que se
pode multiplicar mamı́feros por escalar e somá-los, 2morcego-3castor é uma combinação
linear de mamı́feros.
Quando executamos um passo do algoritmo de Gauss ou Gauss-Jordan, as equações
do novo sistema são (por definição do algoritmo) combinações lineares das do sistema
anterior. Portanto uma solução do sistema antes da aplicação do passo é ainda uma
solução do sistema seguinte. Na realidade, as combinações lineares envolvidas são muito
simples. Chamando S ao sistema inicial e S 0 ao sistema obtido após aplicação de um passo
do algoritmo e usando a notação Li (respetivamente L0i ) para a i-ésima equaçao do sistema
S (respetivamente S 0 ), temos após um passo do método
L0i = Lj , L0i = αLi com α 6= 0, ou L0i = Li − αLj com j 6= i
e, no último caso, as linhas distintas da i-ésima permanecem inalteradas e, em particular,
L0j = Lj .
8 APONTAMENTOS DE ÁLGEBRA LINEAR

Mas as expressões acima permitem também escrever as linhas do sistema S como com-
binações lineares das linhas de S 0 :
1 0
Lj = L0i , Li = L com α 6= 0, ou Li = L0i + αL0j com j 6= i
α i
(onde no último caso usámos o facto de Lj e L0j serem iguais). Conclui-se que as soluções
do sistema S 0 são também soluções do sistema S e portanto que os sistemas S e S 0 têm
exatamente as mesmas soluções. Uma vez que isto acontece durante todas os passos do
método conclui-se que todos os sistemas que ocorrem ao longo da aplicação dos métodos de
Gauss e Gauss-Jordan são equivalentes, isto é, todos têm exatamente o mesmo conjunto
de soluções.
Para terminar esta nossa discussão inicial dos sistemas lineares vamos agora provar que a
matriz em escada de linhas reduzida no final do método de Gauss-Jordan é independente de
quaisquer escolhas, o que mostra que a Definição 1.10 faz sentido (diz-se que a caracterı́stica
está bem definida).
A demonstração utilizará um género de argumento que se diz por redução ao absurdo
e que se baseia no seguinte facto simples da lógica: Se uma afirmação P implica outra
afirmação Q e Q é falsa, então P é necessariamente falsa. Em sı́mbolos:
((P ⇒ Q) ∧ ¬Q) ⇒ ¬P
Este facto permite-nos provar a validade de uma afirnação A se conseguirmos deduzir uma
falsidade a partir da sua negação ¬A. Conclui-se então que a afirmação ¬A é falsa, ou seja
que A é verdadeira.
Teorema 1.12. Sejam m, n números naturais e A uma matriz m × n de números reais ou
complexos. Se B e C são matrizes em escada de linhas reduzidas obtidas a partir de A por
aplicação dos métodos de Gauss e Gauss-Jordan, então B = C.
Dem. A demonstração é por indução no número n das colunas de A. Para a base da
indução precisamos de mostrar que se A é uma matriz com uma única coluna o resultado é
verdadeiro. Se A tem apenas uma coluna, ou é nula e então B = C = 0 (porque o algoritmo
termina imediatamente) ou não é nula e então o algoritmo termina necessariamente com a
matriz
1
 
 0 
 . 
 .. 
0
Em qualquer caso B = C.
Para o passo da indução vamos admitir que a afirmação do enunciado é válida se a matriz
A tem n colunas e queremos concluir que a afirmação é válida para matrizes com n + 1
colunas. Vamos admitir por absurdo que isto não é verdade. Então existe uma matriz A
com n + 1 colunas e duas maneiras de aplicar o algoritmo de tal forma que no final obtemos
matrizes B 6= C.
APONTAMENTOS DE ÁLGEBRA LINEAR 9

Quando aplicamos os algoritmos a uma matriz A estamos também a aplicá-los às matrizes
que se obtêm de A suprimindo a última coluna (ou qualquer número de colunas à direita).
Em particular, escrevendo A≤n para a matriz que se obtém de A suprimindo a última
coluna2, pela hipótese de indução (uma vez que A≤n tem n colunas) teremos B≤n = C≤n .
Como estamos a admitir que B 6= C estas matrizes terão que diferir em pelo menos uma
das entradas na última coluna. Seja então i tal que bi n+1 6= ci n+1 . Recorde-se que os
sistemas homogéneos determinados por A, B, e C são equivalentes. Subtraindo as i-ésimas
equações dos sistemas correspondentes a B e C obtemos a equação

(bi n+1 − ci n+1 )xn+1 =0

(uma vez que bij = cij para j ≤ n). Como o coeficiente de xn+1 é não nulo, isto significa
que todas as soluções do sistema determinado por A (ou B ou C) satisfazem xn+1 = 0.
Então xn+1 não é uma variável livre no sistema de B nem no sistema de C, e portanto
tanto B como C têm um pivot na coluna n + 1.
Mas observe-se agora que numa matriz em escada de linhas reduzida, um pivot na última
coluna ocorre exatamente à direita da primeira linha de 0s na matriz obtida ao suprimir
a última coluna. Ou seja, sabendo que B e C têm um pivot na última coluna, a posição
do pivot é determinada por B≤n = C≤n e portanto é igual para B e C. Ora no final
do método de Gauss-Jordan todas as entradas da última coluna são 0 excepto a entrada
correspondente ao pivot, que é 1. Conclui-se então que as últimas colunas de B e de C são
iguais e portanto B = C. Isto contradiz a nossa hipótese que B 6= C e portanto mostra que
é impossı́vel obter matrizes distintas ao aplicar o algoritmo de Gauss-Jordan a uma matriz
com (n + 1) colunas. Isto conclui o passo de indução e portanto a demonstração. 

Observação 1.13. A demonstração anterior mostra mais geralmente que se A, B e C são


matrizes de sistemas tais que qualquer equação pode ser escrita como combinação linear
das equações de cada um dos três sistemas, e B, C estão em escada de linhas reduzidas,
então B = C. Em particular, se inserirmos trocas de linhas arbitrárias durante a aplicação
do método de Gauss (mesmo que isso não seja requerido pelo algoritmo) isso não afectará
o resultado do algoritmo de Gauss-Jordan.

2. O produto de matrizes
Vimos acima que qualquer combinação linear (6) das equações de um sistema linear (5)
é satisfeita por uma solução do sistema. Mais geralmente, começando com um sistema
linear (5), podemos considerar um novo sistema cujas equações são combinações lineares
das equações do sistema inicial. No caso homogéneo (ou seja com bi = 0) um tal sistema

2Esta notação ad hoc não voltará a ser usada depois desta demonstração.
10 APONTAMENTOS DE ÁLGEBRA LINEAR

com k equações tem o aspecto seguinte





 c11 (a11 x1 + a21 x2 + . . . + a1n xn ) + . . . + c1m (am1 x1 + am2 x2 + . . . + amn xn ) = 0
c21 (a11 x1 + a21 x2 + . . . + a1n xn ) + . . . + c2m (am1 x1 + am2 x2 + . . . + amn xn ) = 0

(7) ..


 .

c (a x + a x + . . . + a x ) + . . . + c (a x + a x + . . . + a x ) = 0
k1 11 1 21 2 1n n km m1 1 m2 2 mn n

onde ci1 , . . . , cim sáo os coeficientes da combinação linear que produz a i-ésima equação do
novo sistema. Estes escalares podem ser dispostos numa matriz k × m.
c11 c12 · · · c1m
 
 c21 c22 · · · c2m 
 . .. 
 .. . 
ck1 ck2 · · · ckm
Identificando o sistema inicial com a matriz [aij ]1≤i≤m,1≤j≤n dos seus coeficientes, podemos
pensar neste processo de combinação linear de equações como uma operação que partindo
de duas matrizes, C = [cpq ] do tipo k × m e A = [aij ] de tipo m × n produz uma nova
matriz que tem por entradas os coeficientes das equações do sistema (7). Esta nova matriz
é de tipo k × n e tem como entrada ij (correspondente ao coeficiente de xj na i-ésima
equação de (7))
m
X
(8) ci1 a1j + ci2 a2j + . . . + cim amj = cil alj
l=1

Definição 2.1. Sejam k, m, n números naturais, C uma matriz k × m e A uma matriz


m × n de números reais (ou complexos). O produto da matriz C pela matriz A é a matriz
k × n, denotada por CA, cuja entrada ij é dada pela expressão (8).
Note-se que a expressão (8) não é mais do que o produto escalar da linha i da matriz C
com a coluna j da matriz A.
..  . . . a1j ...
 .  
.. .
 . . . a2j ... 
c c · · · c

 i1 i2 im  
 .. 
.. .. . 
. . . . . akj ...
Exemplo 2.2.  
  1 2 0 0
2 0 3  −1 1 −1 3  =
1 −1 0
0 3 0 1
 
2 · 1 + 0 · (−1) + 3 · 0 2·2+0·1+3·3 2 · 0 + 0 · (−1) + 3 · 0 2·0+0·3+3·1
=
1 · 1 + (−1) · (−1) + 0 · 0 1 · 2 + (−1) · 1 + 0 · 3 1 · 0 + (−1) · (−1) + 0 · 0 1 · 0 − 1 · 3 + 0 · 1
 
2 13 0 3
=
2 1 1 −3
APONTAMENTOS DE ÁLGEBRA LINEAR 11

A fórmula (8) para o produto de matrizes admite várias interpretações que facilitam
muitas vezes o cálculo e que são já patentes no exemplo anterior:
• A i-ésima linha do produto CA é a combinação linear das linhas de A cujos co-
eficientes são as entradas da i-ésima linha de C (foi esta aliás a maneira como
chegámos à fórmula para o produto de matrizes). Concretamente, no exemplo
acima, a primeira linha do produto é igual a
     
2 · 1 2 0 0 + 0 · −1 1 −1 3 + 3 · 0 3 0 1
• A j-ésima coluna do produto CA é a combinação linear das colunas de C cujos
coeficientes são as entradas da j-ésima coluna de A. No exemplo acima, a primeira
coluna do produto é igual a
     
2 0 3
1· −1· +0·
1 −1 0

Em muitos exemplos (como no Exemplo 2.2 acima) o produto calcula-se muito mais rap-
idamente fazendo as contas por linhas ou colunas do que aplicando a fórmula (8) entrada
a entrada.
Usando o produto de matrizes, podemos escrever um sistema (5) usando matrizes para os
coeficientes, incógnitas e termos independentes. A expressão (5) é equivalente à igualdade
de matrizes
 x1
 
a11 a12 · · · a1n b1
  
x
 ... ..   2  =  .. 
 
(9) .  ...  .
am1 am2 · · · amn bm
xn
que se pode abreviar
AX = B
Uma vez que entendamos as propriedades do produto de matrizes, poderemos manipular
sistemas e resolvê-los de forma análoga à que é já familiar do estudo anterior da resolução
de equações numéricas.
Os métodos de Gauss e Gauss-Jordan podem também ser descritos em termos do produto
de matrizes. Por exemplo, tendo em conta a descrição do produto de matrizes em termos
de combinação linear de linhas, a aplicação da operação L2 + 3L1 ao sistema (9) consiste
na multiplicação em ambos os lados da igualdade pela matriz do tipo m × m
 
1 0 ··· ··· 0
 3 1 0 ··· 0 
...
 
 0 0 1 0 
 
 . . . .. 
 .. . . 
0 0 ··· 0 1
12 APONTAMENTOS DE ÁLGEBRA LINEAR

De forma semelhante, a operação −2L2 corresponde à multiplicação de (9) pela matriz


m×m
 
1 0 ··· ··· 0
 0 −2 0 · · · 0 
..
 
 0 0

1 . 0 
 . . .
 .. . . .. 

0 0 ··· 0 1

Definição 2.3. Seja n um número natural. A matriz identidade do tipo n × n é a matriz


In que tem como entrada ij
(
1 se i = j
δij =
0 se i 6= j

ou seja
 
1 0 ··· ··· 0
 0 1 0 ··· 0 
...
 
In =  0 0 1 0
 

 .
 .. . . . ...


0 0 ··· 0 1

Teorema 2.4 (Propriedades do produto de matrizes). Sejam k, m, n, p números naturais


e A, B, C matrizes do tipo k × m, m × n e n × p respetivamente.
(i) Propriedade associativa do produto: A(BC) = (AB)C.
(ii) Elemento neutro para o produto: Ik A = A e AIm = A.

Dem. (i) Temos a verificar que para cada i, j com 1 ≤ i ≤ k e 1 ≤ j ≤ p, a entrada


ij das matrizes A(BC) e (AB)C são iguais. Escrevendo (AB)ij para a entrada ij
do produto das matrizes A e B e aplicando (duas vezes) a fórmula (8) que define o
produto de matrizes obtemos
m
X
(A(BC))ij = aix (BC)xj
x=1
m n
!
X X
= aix bxy cyj
x=1 y=1
Xm Xn
= aix bxy cyj
x=1 y=1
APONTAMENTOS DE ÁLGEBRA LINEAR 13

onde na última igualdade aplicámos as propriedades distributiva da soma em relação


ao produto (de números) e também as propriedade associativas da soma e multi-
plicação (de números). De forma inteiramente análoga temos
Xn
((AB)C))ij = (AB)iz czj
z=1
n m
!
X X
= aiw bwz czj
z=1 w=1
n
XX m
= aiw bwz cwj
z=1 w=1

As expressões obtidas para (A(BC))ij e ((AB)C)ij são idênticas3 (pelas propriedades


associativa e comutativa da soma de números) o que conclui a demonstração da
igualdade A(BC) = (AB)C.
(ii) A demonstração é análoga (mas mais fácil). Exercı́cio.

Na proposição anterior vimos propriedades importantes que a multiplicação de matrizes
partilha com a multiplicação de números, (embora seja importante notar que a complex-
idade da multiplicação de matrizes é superior: há matrizes de vários tipos e só quando o
número de linhas do fator da esquerda é igual ao número de colunas do fator da direita se
pode efetuar a multiplicação). Há também diferenças importantes:
Exemplo 2.5 (A multiplicação de matrizes não é comutativa). Note-se que os produtos
AB e BA só poderão ser matrizes do mesmo tipo se A e B forem matrizes quadradas com
igual número de linhas. Se escolhermos duas destas matrizes ao acaso (com mais de uma
linha!), a probabilidade de os produtos serem diferentes é 100%. Por exemplo,
    
1 2 1 1 −3 3
=
3 −1 −2 1 5 2
    
1 1 1 2 4 1
=
−2 1 3 −1 1 −5
Uma das propriedades da multiplicação de números que é muito útil é a chamada lei do
corte:
Se a 6= 0 e ab = ac então b = c.
Definição 2.6. A matriz m × n nula é a matriz que tem todas as entradas iguais a 0. É
denotada por 0 (deixando implı́citas as dimensões).
É imediato da definição do produto que (sempre que os produtos façam sentido) temos
A·0=0 0·A=0
3Os ı́ndices dos somatórios são variáveis mudas. Obtém-se uma expressão da outra substituindo o ı́ndice
x por w e y por z.
14 APONTAMENTOS DE ÁLGEBRA LINEAR

Exemplo 2.7 (A lei do corte não é válida para o produto de matrizes). Seja A a matriz

2 −1
. Entâo
4 −2
    
2 def 2 −1 2 −1 0 0
A = AA = =
4 −2 4 −2 0 0
portanto, apesar de A 6= 0 temos
AA = A · 0.
Definição 2.8. Uma matriz n × n, A diz-se invertı́vel se existe uma matriz B (necessari-
amente também n × n) tal que
AB = BA = In
Uma tal matriz B diz-se uma inversa de A.
Proposição 2.9. Seja A uma matriz n×n invertı́vel, B, C matrizes n×m e E, F matrizes
m × n. Então
AC = AD ⇒ C = D e EA = F A ⇒ E = F
Dem. Provamos apenas a primeira implicação deixando a segunda como exercı́cio. Seja B
uma inversa de A. Então
AC = AD ⇒ B(AC) = B(AD) ⇔ (BA)C = (BA)D ⇔ In C = In D ⇔ C = D

Vamos também necessitar de outras operações com matrizes que têm uma natureza
muito mais elementar do que o produto.
Definição 2.10. Sejam A, B matrizes m × n. A soma das matrizes A e B é a matriz do
mesmo tipo A + B que tem como entrada ij
(A + B)ij = aij + bij
O produto de uma matriz A m × n pelo escalar λ ∈ R (ou C) é a matriz λA também do
tipo m × n cuja entrada ij é
(λA)ij = λaij
Por exemplo
       
2 −1 2 1 4 2 2 + 1 −1 + 4 2 + 2 3 3 4
+ = =
0 −3 0 2 3 −1 0 + 2 −3 + 3 0 − 1 2 0 −1
e    √ √ 
√ 1 1 √2 √2
2  −1 2  =  −√ 2 2 2 
4 0 4 2 0
Vejamos algumas propriedades fundamentais destas operações cujas demonstrações são
imediatas e ficam como exercı́cio.
APONTAMENTOS DE ÁLGEBRA LINEAR 15

Proposição 2.11 (Propriedades da soma de matrizes). Sejam A, B, C matrizes m × n.


Então
(i) (Associatividade) A + (B + C) = (A + B) + C
(ii) (Comutatividade) A + B = B + A
(iii) (Existência de elemento neutro) A + 0 = A
(iv) (Existência de inversos/simétricos) Existe D tal que A + D = 0
É fácil verificar (exercı́cio) que o simétrico de uma matriz é único. Usa-se a notação −A
para o simétrico de uma matriz e claramente a componente ij da matriz −A é dada por
−aij .
Proposição 2.12 (Propriedades do produto por escalar). Sejam A, B matrizes m × n e
λ, µ escalares reais (ou complexos). Então
(i) 1 · A = A
(ii) λ(µA) = (λµ)A
(iii) λ(A + B) = λA + λB
(iv) (λ + µ)A = λA + µA
Outras propriedades do produto por escalar que são muitas vezes utilizadas são as
seguintes
0 · A = 0, (−1) · A = −A
Estas propriedades são de verificação imediata a partir da definição do produto por escalar
mas podem também ser deduzidas das propriedades indicadas nas Proposições acima (sem
usar a definição). Fica como exercı́cio a realização dessas deduções.
Vejamos agora algumas relações entre a soma e o produto por escalar com o produto de
matrizes.
Proposição 2.13 (Distributividade). Sejam A uma matrix m × n, B e C matrizes n × p
e D uma matriz p × q. Então
A(B + C) = AB + AC (B + C)D = BD + CD
Dem. Verificamos apenas a primeira igualdade dado que a demonstração da segunda é
inteiramente análoga. Temos que ver que para cada i, j com 1 ≤ i ≤ m e 1 ≤ j ≤ p, as
entradas ij das matrizes A(B + C) e AB + AC são iguais. De acordo com (8) a entrada
ij de A(B + C) é dada pela expressão
n
X n
X
aik (B + C)kj = aik (bkj + ckj )
k=1 k=1
Xn
= aik bkj + aik ckj
k=1
= (AB)ij + (AC)ij
o que mostra a igualdade pretendida. 
16 APONTAMENTOS DE ÁLGEBRA LINEAR

Podemos usar as propriedades acima para desenvolver e simplificar expressões como


estamos habituados a fazer com os números mas devido às diferenças indicadas acima, isto
requer algum cuidado. Por exemplo, se A e B são matrizes n × n temos
(A + B)2 = (A + B)(A + B) = A(A + B) + B(A + B) = A2 + AB + BA + B 2
Esta expressão é (pela lei do corte para a soma de matrizes) igual à expressão habitual
A2 + 2AB + B 2
se e só se for satisfeita a seguinte igualdade pelas matrizes A, B
AB = BA
o que, como já indicámos acima, quase nunca se verifica.
Definição 2.14. Sejam A, B matrizes n × n. Diz-se que A e B comutam se AB = BA.
É imediato verificar que a matriz λIn comuta com qualquer outra matriz n × n, uma
vez que, pela interpretação do produto de matrizes em termos de combinações lineares de
linhas e colunas, multiplicar A à esquerda por λIn consiste em multiplicar cada linha de
A por λ, enquanto que multiplicar por λIn à direita consiste em multiplicar por λ cada
coluna de A. Portanto
(λIn )A = λA = A(λIn )
Um dos exercı́cios da ficha para as aulas práticas da próxima semana pede-vos que veri-
fiquem que estas matrizes - os múltiplos escalares da matriz identidade - são na realidade
as únicas matrizes que têm esta propriedade de comutar com todas as outras. A igualdade
acima é um caso particular da seguinte propriedade que relaciona o produto de matrizes
com o produto por escalar. A demonstração (muito fácil) é deixada como exercı́cio.
Proposição 2.15. Sejam A uma matriz m × n, B uma matriz n × p e λ um escalar real
(ou complexo). Então
λ(AB) = A(λB) = (λA)B
Exemplo 2.16. Seja A uma matriz n × n. Então (uma vez que 3In comuta com A)
(A + 3In )2 = A2 + 2(3In )A + (3In )2 = A2 + 6A + 9In
Já vimos que a invertibilidade de uma matriz é uma propriedade útil, permitindo-nos
por exemplo a aplicação da lei do corte.
Proposição 2.17 (Unicidade da inversa). Seja A uma matriz n×n. Se B e C são inversas
de A então B = C.
Dem. Temos
B = BIn = B(AC) = (BA)C = In C = C

A partir de agora escrevemos
A−1 para a inversa da matriz A.
Notemos as seguintes consequências da unicidade da inversa.
APONTAMENTOS DE ÁLGEBRA LINEAR 17

Proposição 2.18. Sejam A, B matrizes n × n invertı́veis. Então


(i) AB é invertı́vel e (AB)−1 = B −1 A−1
(ii) A−1 é invertı́vel e (A−1 )−1 = A.

Dem. Mostramos apenas a primeira afirmação deixando a segunda como exercı́cio. Uma
vez que a inversa é única, tudo o que é necessário fazer é verificar que as relações na
Definição 2.8 são satisfeitas:

(B −1 A−1 )(AB) = B −1 (A−1 A)B = B −1 In B = B −1 B = In

e, analogamente,

(AB)(B −1 A−1 ) = A(BB −1 )A−1 = AIn A−1 = AA−1 = In

Põe-se agora a questão de como saber se uma matriz é invertı́vel e nesse caso calcular
a matriz inversa. Na realidade já aprendemos a calcular a inversa! Se B é a inversa de A
então
AB = In
Tendo em conta a interpretação do produto AB como um cálculo de combinações lineares
de colunas de A, isto diz-nos que as entradas da i-ésima coluna de A são os coeficientes da
combinação linear das colunas de A que produz a i-ésima coluna da matriz identidade. Se
denotarmos a i-ésima coluna de B por Xi , isto diz-nos que a seguinte relação é satisfeita
 
0
 .. 
 . 
 0 
 
(10) AXi =  1 
 
 0 
 
 . 
 .. 
0

(onde a entrada não nula da matriz à direita está na i-ésima linha). Assim podemos calcular
a i-ésima coluna da inversa resolvendo o sistema linear (10) para o que podemos usar os
métodos de Gauss e Gauss-Jordan. Para calcular a inversa temos que resolver n sistemas
lineares mas não há qualquer razão para o fazer separadamente. Como os coeficientes do
sistema são os mesmos para todos os sistemas podemos resolver todos ao mesmo tempo:
 
1 0 2
Exemplo 2.19. Vamos calcular A−1 para a matriz A =  0 3 0 
4 0 5
18 APONTAMENTOS DE ÁLGEBRA LINEAR
 
1
Aplicamos o método de Gauss-Jordan aos sistemas com termos independentes  0 ,
0
   
0 0
 1  e  0  simultaneamente:
0 1
     
1 0 2 | 1 0 0 1 0 2 | 1 0 0 1
L
1 0 2 | 1 0 0
3 −4L1
 0 3 0 | 0 1 0  L−→  0 3 0 | 0 1 0  −→ 3 2
 0 1 0 | 0 1 0 
− 13 L3 3
4 0 5 | 0 0 1 0 0 −3 | −4 0 1 0 0 1 | 43 0 − 13
 
1 0 0 | − 53 0 32
L1 −2L3
−→  0 1 0 | 0 13 0 
0 0 1 | 43 0 − 13
As colunas da matriz à direita são as soluções de cada um dos sistemas e portanto as colu-
nas da matriz inversa. Assim, se a matriz A for invertı́vel então teremos necessariamente
 5 
− 3 0 23
A−1 =  0 13 0 
4
3
0 − 13
 
1 3 1
Exemplo 2.20. Vamos calcular A−1 para a matriz A =  0 −1 0 
2 0 1
Temos    
1 3 1 | 1 0 0 1 3 1 | 1 0 0
3 −2L1
 0 −1 0 | 0 1 0  L−→  0 −1 0 | 0 1 0 
2 0 1 | 0 0 1 0 −6 −1 | −2 0 1
   
1 3 1 | 1 0 0 1 3 1 | 1 0 0
L3 −6L2 −L2
−→  0 −1 0 | 0 1 0  −→  0 1 0 | 0 −1 0 
−L3
0 0 −1 | −2 −6 1 0 0 1 | 2 6 −1
   
1 3 0 | −1 −6 1 1 0 0 | −1 −3 1
L1 −L3 L1 −3L2
−→  0 1 0 | 0 −1 0  −→  0 1 0 | 0 −1 0 
0 0 1 | 2 6 −1 0 0 1 | 2 6 −1
Assim, se a matriz A for invertı́vel então teremos necessariamente
 
−1 −3 1
A−1 =  0 −1 0 
2 6 −1
Resta perceber porque é que a matriz B calculada nos exemplos anteriores é de facto
uma inversa de A. A maneira como foi determinada torna claro que AB = In , mas para
que B seja a inversa é ainda necessário que BA = In . Isto está longe de ser óbvio (embora
seja fácil de verificar nos exemplos acima ou em qualquer exemplo concreto).
APONTAMENTOS DE ÁLGEBRA LINEAR 19

Antes de explicar a razão pela qual o método anterior pode ser sempre usado para
achar a inversa (ou ver que uma matriz não é invertı́vel) vamos primeiro responder à
seguinte pergunta natural: Porque não achar a inversa por linhas resolvendo o sistema
determinado pela equação BA = In linha a linha? De facto podemos fazê-lo, mas a matriz
dos coeficientes do sistema não será A, e dado que o método de Gauss-Jordan (tal como
nós o apresentámos) se aplica imediatamente apenas à solução de sistemas Ax = b com x
e b matrizes coluna, é mais prático fazer as contas como fizemos acima.
Esta questão aponta no entanto para um aspeto básico do cálculo matricial que diz
respeito à simetria entre linhas e colunas. A atribuição do primeiro ı́ndice às linhas e do
segundo às colunas é claramente apenas uma convenção pelo que é natural considerar a
seguinte simetria das matrizes.
Definição 2.21. Seja A uma matriz m × n. A matriz transposta de A é a matriz AT , do
tipo n × m cuja entrada ij é
(AT )ij = aji
Por exemplo
 
 T 1 0  T  
1 −1 2 1 2 1 3
=  −1 3  e =
0 3 2 3 4 2 4
2 2
Proposição 2.22 (Propriedades da transposição). (i) (AT )T = A
(ii) (αA)T = αAT
(iii) (A + B)T = AT + B T
(iv) (AB)T = B T AT .
Dem. As primeiras três propriedades são muito fáceis de demonstrar e ficam como exercı́cio.
Quanto à última, suponhamos que A é uma matriz m × n e B é uma matriz n × p, de
forma a que (AB)T é uma matriz p × m. Dados i, j com 1 ≤ i ≤ p e 1 ≤ j ≤ m temos
então que a entrada ij da matriz (AB)T é
n
X Xn Xn
T T T
(B T )ik (AT )kj = (B T AT )ij

(AB) ij = (AB)ji = ajk bki = (A )kj (B )ik =
k=1 k=1 k=1
conforme querı́amos demonstrar. 
Usando esta simetria e a propriedade (iv) acima, é imediato verificar que a solução do
sistema para uma linha da matriz inversa mencionado anteriormente não é mais do que a
solução do sistema
AT x = b
com b a coluna correspondente da matriz identidade. Isto sugere uma relação entre a
transposição e a inversão... Qual?
Justifiquemos então finalmente o nosso método de cálculo de inversas:
Teorema 2.23. Seja A uma matriz n × n de números reais ou complexos. As seguintes
afirmações são equivalentes:
20 APONTAMENTOS DE ÁLGEBRA LINEAR

(i) A é invertı́vel
(ii) Para cada matriz n × 1, B, o sistema AX = B tem solução e esta é única.
(iii) A tem caracterı́stica n
Dem. Vamos ver que (i)⇒(ii)⇒(iii)⇒(i).
(i)⇒(ii): Multiplicando o sistema dos dois lados por A−1 temos
A−1 AX = A−1 B ⇒ In X = A−1 B ⇒ X = A−1 B
Logo se a solução existe, ela é única e é dada por X = A−1 B. Mas é fácil verificar
que A−1 B é de facto uma solução
A(A−1 B) = In B = B
o que conclui a prova desta implicação
(ii)⇒(iii): Esta implicação é equivalente à implicação ¬(iii) ⇒ ¬(ii) que passamos a demon-
strar. Se a caracterı́stica de A não é igual a n, então no final do método de Gauss-
Jordan, alguma das colunas não tem pivot. A variável correspondente é então livre
na solução do sistema homogéneo AX = 0, que tem portanto infinitas soluções.
Conclui-se que a solução do sistema AX = 0 não é única e portanto a afirmação
(ii) é falsa.
(iii)⇒(i): Se A tem caracterı́stica n, então aplicando o método de Gauss-Jordan a matriz A
é transformada na matriz In (uma vez que esta é a única matriz n × n em escada
de linhas reduzida com caracterı́stica n). Mas, como já observámos, cada passo
do método de Gauss-Jordan consiste na multiplicação à esquerda por uma matriz.
Nomeadamente:
• A operação Li ↔ Lj , com i 6= j corresponde à multiplicação à esquerda pela
matriz  
1
..
.
 
 
0 1
 
 

Sij =  . ..


 

 1 0 

 . .

 . 
1
.
em que os . . indicam 1s, todas as entradas não indicadas são 0 e os 0s na
diagonal ocorrem nas linhas i e j.
• A operação αLi com α 6= 0 corresponde à multiplicação pela matriz
 
1
..

 . 

Di,α  α
 

 .. 
 . 
1
APONTAMENTOS DE ÁLGEBRA LINEAR 21

com todas as entradas fora da diagonal 0 e todas as entradas na diagonal 1


exceto a i-ésima que é α.
• A operação Li + αLj com i 6= j e α 6= 0 corresponde à multiplicação pela
matriz  
1
...
α
 
 
In + αEij = 
 ... 

 
 . .

 . 
1
em que todas as entradas da diagonal são 1 e todas as entradas fora da diagonal
são 0 exceto a entrada ij, que é igual a α. O esquema acima corresponde ao
caso em que i < j e portanto à fase final do método de Gauss-Jordan. A fase
inicial do método de Gauss consiste na multiplicação por estas matrizes com
i > j, caso em que a entrada não nula fora da diagonal está abaixo da diagonal.
Em termos do produto de matrizes, a observação que o método de Gauss-Jordan
termina na matriz In expressa a igualdade
(11) Ek · · · E2 E1 A = In
em que k é o número de passos do método de Gauss-Jordan e cada uma das matrizes
Ei , correspondente ao passo i do método, é alguma das matrizes referidas acima.
Ora cada matriz Ei é invertı́vel! De facto, é imediato verificar que
• Sij−1 = Sij
−1
• Di,α = Di, 1
α
• (In + αEij )−1 = In − αEij
Multiplicando a igualdade (11) pelas inversas das matrizes Ek , Ek−1 , . . . obtemos
A = E1−1 E2−1 · · · Ek−1
Uma vez que A é um produto de matrizes invertı́veis, pela Proposição 2.18, A é
invertı́vel.

Vemos assim que, quando aplicamos o método de Gauss-Jordan para resolver simultanea-
mente os n sistemas lineares correspondentes à equação AB = In , só há duas possibilidades:
ou a aplicação do método mostra que a caracterı́stica de A é menor do que n e então A
não é invertı́vel ou, a caracterı́stica de A é n e então a matriz A é invertı́vel. Neste último
caso, uma vez que a matriz B calculada pelo método de Gauss-Jordan satisfaz AB = In ,
temos
A−1 (AB) = A−1 In ⇔ B = A−1 .

3. Espaços vetoriais
Um espaço vetorial é um “sı́tio onde se podem fazer combinações lineares”. Para isto tudo
o que é necessário é saber como somar e como multiplicar por escalar os objetos do espaço
22 APONTAMENTOS DE ÁLGEBRA LINEAR

vetorial. Para que estas combinações lineares se comportem como estamos habituados
nos exemplos que vimos até agora é necessário que satisfaçam certas propriedades que são
especificadas na definição de espaço vetorial.
O arquétipo de um espaço vetorial é Rn = {(x1 , . . . , xn ) : xi ∈ R} em que a multiplicação
por escalar é definida por
α · (x1 , . . . , xn ) = (αx1 , . . . , αxn )
e a soma por
(x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
Nos casos em que n = 1, 2 ou 3, estamos habituados a identificar Rn geometricamente com
o conjunto dos vetores com origem em (0, . . . , 0), e sabemos interpretar geometricamente
o produto por escalar e a soma.
Por exemplo, o conjunto de todas as combinações lineares de dois vetores em R3 formam
um plano que passa pela origem e contém os dois vetores.
A definição de espaço vetorial vai-nos permitir transferir a nossa intuição geométrica
sobre o comportamento de vetores no espaço para um sem-fim de novas situações!
Definição 3.1. Um espaço vetorial real é um conjunto não vazio V , cujos elementos se
designam por vetores, juntamente com duas funções
• Multiplicação por escalar: R × V → V que a um par (α, v) associa um vetor αv.
+
• Soma de vetores: V × V − → V que a um par de vetores (v, w) associa um vetor
v+w
satisfazendo as seguintes relações:
(i) Para todos os u, v, w ∈ V , u + (v + w) = (u + v) + w.
(ii) Para todos os u, v ∈ V , u + v = v + u.
(iii) Existe um elemento 0 ∈ V tal que, para todo o v ∈ V se tem v + 0 = v.
(iv) Para todo o v ∈ V existe um elemento w ∈ V tal que v + w = 0.
(v) Para todo o v ∈ V , tem-se 1v = v.
(vi) Para todos os α, β ∈ R, e v ∈ V tem-se α(βv) = (αβ)v.
(vii) Para todos os α ∈ R e v, w ∈ V tem-se α(v + w) = αv + αw.
(viii) Para todos os α, β ∈ R e v ∈ V tem-se (α + β)v = αv + βv.
Não é difı́cil mostrar que o elemento w tal que v + w = 0 é único: se v + w = v + w0 = 0
então
w0 = w0 + 0 = w0 + (v + w) = (w0 + v) + w = 0 + w = w + 0 = w
O único w tal que w + v = 0 chama-se o simétrico de v e denota-se por −v.
Observação 3.2. (i) Substituindo na definição acima R por C obtemos a definição de
um espaço vetorial complexo. Mais geralmente se K é um corpo (ver Observação
1.2) e substituirmos R por K obtemos a noção de espaço vetorial sobre o corpo K.
(ii) É também comum usar a terminologia espaço linear em vez de espaço vetorial.
APONTAMENTOS DE ÁLGEBRA LINEAR 23

Definição 3.3. Seja V um espaço vetorial e v1 , . . . , vk elementos de V . Diz-se que v ∈ V


é uma combinação linear dos vetores v1 , . . . , vk se existem α1 , . . . , αk ∈ R tais que
v = α1 v1 + . . . + αk vk
Os escalares α1 , . . . , αk chamam-se os coeficientes da combinação linear.
Exemplo 3.4. (1) Rn com a soma e produto por escalar definidos coordenada a co-
ordenada é um espaço vetorial real. A validade dos axiomas na Definição 3.1 é
uma consequência imediata das propriedades das operações de soma e produto de
números reais. Por exemplo a propriedade associativa da soma de vetores segue ime-
diatamente da propriedade associativa da soma de números reais. Analogamente
Cn = {(z1 , . . . , zn ) : zi ∈ C} é um espaço vetorial complexo, com as operações de
soma e produto por escalar definidas componente a componente.
(2) O conjunto Mm×n (R) das matrizes m × n reais é um espaço vetorial real. É esse
o conteúdo das Proposições 2.11 e 2.12. Analogamente, o conjunto das matrizes
Mm×n (C) é um espaço vetorial complexo.
(3) Seja S um conjunto não vazio. O conjunto F (S; R) = {f : S → R} das funções de
S para R munido das operações
def def
(f + g)(x) = f (x) + g(x) (αf )(x) = αf (x)
é um espaço vetorial real. Analogamente o conjunto das funções com valores com-
plexos é um espaço vetorial complexo. Note-se que este exemplo contém os dois
exemplos anteriores. De facto Rn é basicamente o caso em que o conjunto S é
{1, . . . , n} e Mm×n (R) é, por definição, o caso em que S = {1, . . . , m} × {1, . . . , n}.
Observação 3.5. É habitual referirmo-nos a um espaço vetorial apenas pelo conjunto
subjacente deixando implı́citas a estrutura de soma de vetores e multiplicação por escalares
quando estas são claras do contexto. Por exemplo, quando falamos do espaço vetorial
Mm×n (R) referimo-nos a este conjunto com as operações habituais de soma e multiplicação
por escalar.
Exemplo 3.6. Sejam v, w ∈ R3 dois vetores não colineares. Pelo significado geométrico
da soma de vetores e produto por escalar, o conjunto das combinações lineares de v e w é
o plano que passa pela origem e contém v e w. Dado um ponto u desse plano, o significado
dos coeficientes α, β na combinação linear u = αv + βw é o seguinte (familiar da noção de
coordenadas cartesianas)
• αv é o ponto de interseção da reta paralela a w que passa por u, com a reta deter-
minada por v e pela origem (que é o conjunto {λv : λ ∈ R}).
• βw é o ponto de interseção da reta paralela a v que passas por u, com a reta
{λw : λ ∈ R}
Vejamos mais alguns exemplos e não-exemplos de espaços vetoriais.
Exemplo 3.7. (i) O conjunto V de todos os polinómios reais com as operações de soma
e produto por escalar habituais é um espaço vetorial. Note-se que V está contido no
24 APONTAMENTOS DE ÁLGEBRA LINEAR

conjunto das funções reais F (S, R) e que as operações de soma e produto por escalar
são a restrição aos polinómios das operações definidas para as funções. Isso torna
a verificação da maioria dos axiomas na Definição 3.1 automáticas. De facto, uma
vez que se observe que a soma de polinómios e a multiplicação de um escalar por um
polinómio são polinómios, a validade das propriedades (i)-(ii) e (v)-(viii) é imediata
e resta apenas observar que a função nula é um polinómio logo (iii) é satisfeito e que
a função simétrica de um polinómio é um polinómio logo (iv) é também satisfeito.
(ii) Seja V = {(x, y) ∈ R2 : x ≥ 0, y ≥ 0} com a soma habitual de vetores em R2 e com o
produto por escalar definido por
def
α(x, y) = (|α|x, |α|y)
Com estas operações V não é um espaço vetorial porque os axiomas (iv) e (vii) não
são verificados. Por exemplo o vetor (1, 0) não tem simétrico e (0, 0) = 0(1, 0) =
(1 + (−1))(1, 0) 6= 1(1, 0) + (−1)(1, 0) = (2, 0). Em geral, se α e β têm sinais
contrários e v 6= 0, a igualdade (α + β)v = αv + βv não se verifica.
Definição 3.8. Seja V um espaço vetorial. Um subconjunto W ⊂ V diz-se um subespaço
vetorial de V se munido das operações de V é um espaço vetorial.
Implı́cito na definição anterior está que W é fechado para as operações de V , isto é que
se w1 , w2 ∈ W e α ∈ R então a soma de w1 e w2 em V pertence a W e o produto por
escalar em V , αw1 , pertence a W .
Exemplo 3.9. O Exemplo 3.7 (i) verifica que o conjunto dos polinómios é um subespaço
vetorial de F (S; R).
Como observámos no Exemplo 3.7 (i) quando W ⊂ V é um subconjunto de um espaço
vetorial fechado para a soma e multiplicação por escalar, a verificação de que W é um
espaço vetorial pode reduzir-se à verificação que o elemento neutro da soma e os simétricos
(em V ) de elementos de W pertencem a V . A próxima proposição mostra que mesmo estas
verificações não são necessárias.
Proposição 3.10. Seja V um espaço vetorial. Se W é um subconjunto não vazio de V
fechado para a soma e multiplicação por escalar, então W é um subespaço vetorial de V .
Proof. Como já observámos, a verificação dos axiomas (i)-(ii) e (v)-(viii) é imediata. É
um exercı́cio para as aulas práticas verificar que, para qualquer v ∈ V , o produto por
escalar 0v é o elemento neutro para a soma. Como W é não vazio e fechado para o produto
por escalar conclui-se que 0 ∈ W e portanto o axioma (iii) é verificado. É também um
exercı́cio para as aulas práticas verificar que o simétrico de v ∈ V é o produto por escalar
(−1)v. Uma vez que W é fechado para o produto por escalar conclui-se que o axioma (iv)
é verificado em W . 
Exemplo 3.11. (i) Seja V o espaço vetorial de todos os polinómios reais. O subcon-
junto W ⊂ V formado pelos polinómios de grau menor ou igual a 3 é um subespaço
vetorial. De facto, de acordo com a proposição anterior basta observar que a soma de
APONTAMENTOS DE ÁLGEBRA LINEAR 25

polinómios de grau ≤ 3 tem grau ≤ 3 e que o produto de um polinómio de grau ≤ 3


por um escalar tem ainda grau ≤ 3.
(ii) O plano W = {(x, y, z) ∈ R3 : x+y+z = 0} é um subespaço vetorial de R3 . De acordo
com a Proposição acima basta notar que se (x, y, z), (x0 , y 0 , z 0 ) ∈ W e α ∈ R então
(x+x0 )+(y +y 0 )+(z +z 0 ) = 0 e (αx)+(αy)+(αz) = 0 logo (x+x0 , y +y 0 , z +z 0 ) ∈ W
e (αx, αy, αz) ∈ W .
(iii) Seja A uma matriz m × n. O núcleo de A é o conjunto

x1
 

N (A) = {x ∈ Rn : A  ...  = 0}
xn

Este conjunto é um subespaço vetorial de Rn (o argumento é exatamente o mesmo


que no exemplo anterior).

Intuitivamente devemos pensar nos espaços vetoriais como sendo objetos que se com-
portam de forma semelhante ao espaço euclidiano usual - R3 - e nos subespaços vetoriais
como sendo subconjuntos com comportamento semelhante ao das retas e planos em R3 que
passam pela origem.

Definição 3.12. Seja V um espaço vetorial e S ⊂ V um subconjunto. A expansão linear


de S em V é o conjunto L(S) das combinações lineares de elementos de S, isto é

L(S) = {α1 v1 + . . . + αn vn : α1 , . . . , αn ∈ R, v1 , . . . , vn ∈ S, n ∈ N}

Por convenção L(∅) = {0}.

Exemplo 3.13. (i) Seja V o espaço vetorial dos polinómios reais. Vamos determinar
se x + 2x3 ∈ L(S) onde S = {1 − x, x + x2 + x3 , x2 }. Por definição, a pergunta é se
existem escalares α1 , α2 , α3 ∈ R tais que

x + 2x3 = α1 (1 − x) + α2 (x + x2 + x3 ) + α3 x2

Como dois polinómios são iguais se têm os mesmos coeficientes, a igualdade anterior
é equivalente ao sistema
 

 α 1 = 0 
 α1 = 0

−α + α = 1 
α = 1
1 2 2


 α2 + α3 = 0 
 α3 = −1
 
α2 = 2 α2 = 2
 

Uma vez que o sistema é impossı́vel, conclui-se que x+2x3 6∈ L(S). Neste caso não se
justificava a utilização do método de Gauss para a resolução do sistema. Mas note-se
que se tivéssemos escrito o sistema acima da forma habitual, a matriz à qual irı́amos
26 APONTAMENTOS DE ÁLGEBRA LINEAR

aplicar o método de Gauss seria


 
1 0 0 | 0
 −1 1 0 | 1 
 
 0 1 1 | 0 
0 1 0 | 2
Os coeficientes dos elementos de S aparecem nas primeiras três colunas, enquanto
que a última coluna contém os coeficientes do polinómio x + 2x3 .
(ii) Sendo S = {(1, 3, 2), (0, 1, 4), (1, 4, 6)} ⊂ R3 , vamos determinar equações cartesianas
que definam L(S). Os elementos de L(S) são os vetores (a, b, c) ∈ R3 para os quais é
possı́vel achar α1 , α2 , α3 ∈ R tais que
(a, b, c) = α1 (1, 3, 2) + α2 (0, 1, 4) + α3 (1, 4, 6) = (a, b, c)
Ou seja, são os vetores (a, b, c) tais que o seguinte sistema é possı́vel
     
1 0 1 | a 1 0 1 | a 1 0 1 | a
−3L1
 3 1 4 | b  L2−→  0 1 1 | b − 3a  L−→ 3 −4L2
 0 1 1 | b − 3a 
L3 −2L1
2 4 6 | c 0 4 4 | c − 2a 0 0 0 | c − 4b + 10a
Conclui-se que (a, b, c) ∈ L(S) ⇔ c−4b+10a = 0. Geometricamente, L(S) é um plano
que passa pela origem. Normalmente, esperarı́amos que três vetores em R3 formassem
um referencial e que qualquer outro vetor se pudesse escrever como combinação linear
deles mas neste caso (1, 3, 2)+(0, 1, 4) = (1, 4, 6) e portanto podemos escrever qualquer
combinação linear dos três vetores de S usando apenas os dois primeiros. A expansão
linear destes dois vetores é um plano que tem equação paramétrica
(x, y, z) = α1 (1, 3, 2) + α2 (0, 1, 4), com α1 , α2 ∈ R
e, como vimos acima, equação cartesiana
10x − 4y + z = 0.
Proposição 3.14. Seja V um espaço vetorial e S ⊂ V um subconjunto. Então L(S) é o
mais pequeno subespaço vetorial de V que contém S. Mais precisamente
• L(S) é um subespaço vetorial de V e S ⊂ L(S).
• Se W ⊂ V é um subespaço vetorial de V que contém S, então L(S) ⊂ W .
Dem. Se S é vazio então as condições são claramente verificadas. Suponhamos que S é
não vazio. L(S) contém S porque dado v ∈ S temos que 1 · v = v é uma combinação
linear de elementos de S e portanto pertence a L(S). Para ver que L(S) é um subespaço
vetorial precisamos de ver que L(S) é fechado para a soma e para o produto por escalar.
Seja λ ∈ R um escalar e α1 v1 + . . . + αn vn um elemento de S. Então
λ(α1 v1 + . . . + αn vn ) = (λα1 )v1 + . . . + (λαn )vn
é também uma combinação linear de elementos de S e portanto pertence a L(S). Conclui-
se que L(S) é fechado para o produto por escalar. Por outro lado, dados dois elementos
APONTAMENTOS DE ÁLGEBRA LINEAR 27

α1 v1 + . . . + αn vn e β1 w1 + . . . + βm wm em L(S) a sua soma é


α1 v1 + . . . + αn vn + β1 w1 + . . . + βm wm
que é ainda uma combinação linear de elementos de S. Conclui-se que L(S) também é
fechado para a soma de vetores e portanto é um subespaço vetorial de V .
Finalmente, seja W um qualquer subespaço vetorial de V que contém S. Então dados
v1 , . . . , vn ∈ S e α1 , . . . , αn ∈ R temos que αi vi ∈ W (pois W é fechado para o produto por
escalar) e portanto
α1 v1 + . . . + αn vn ∈ W
(porque W é fechado para a soma). Conclui-se que W contém qualquer combinação linear
de elementos de S, ou seja, que W contém L(S). 
Devido ao resultado enunciado na Proposição anterior, chamamos a L(S) o subespaço
gerado por S e se W = L(S) dizemos que W é gerado por S e que S é um conjunto de
geradores para W .
Exemplo 3.15. (i) Vamos achar um conjunto de geradores para o subespaço
  
a b
W = : a + b − 2c = 0, d − c + a = 0 ⊂ M2×2 (R)
c d
(é imediato verificar que W é de facto um subespaço vetorial de M2×2 (R)).
Podemos resolver o sistema dado pelas condições que definem W (aqui não se
justifica a aplicação do método de Gauss)
( (
a + b − 2c = 0 c = 21 a + 12 b

d−c+a=0 d = − 12 a + 12 b
O elemento tı́pico de W pode portanto escrever-se na forma
     
a b 1 0 0 1
1 =a 1 +b 1 1 com a, b ∈ R
2
a + 12 b − 12 a + 12 b 2
− 12 2 2
logo    
1 0 0 1
S= 1 , 1 1
2
− 12 2 2
é um conjunto de geradores para W .
Seja A uma matriz m × n. Chama-se espaço das linhas de A, e denota-se por EL(A) ao
subespaço de Rn gerado pelas linhas de A. Por exemplo, para
 
2 0 1 4
(12)
0 3 1 2
temos
EL(A) = L({(2, 0, 1, 4), (0, 3, 1, 2)}) ⊂ R4
Quando aplicamos o método de Gauss(-Jordan) a uma matriz, o espaço das linhas não
muda. De facto suponhamos que
A = A1 → A2 → · · · → Ak
28 APONTAMENTOS DE ÁLGEBRA LINEAR

é uma sucessão de matrizes obtida por aplicação o método de Gauss-Jordan à matriz A.


Uma vez que as linhas de Ai+1 são combinações lineares das linhas da matriz Ai temos que
{linhas de Ai+1 } ⊂ EL(Ai )
e portanto, pela Proposição 3.14 temos EL(Ai+1 ) ⊂ EL(Ai ). Mas, as linhas de Ai também
são combinações lineares das linhas de Ai+1 , logo EL(Ai ) ⊂ EL(Ai+1 ) e conclui-se que
EL(Ai ) = EL(Ai+1 ). O método de Gauss-Jordan dá-nos portanto um método para deter-
minar um conjunto de geradores particularmente simples para o espaço das linhas de uma
matriz: as linhas não nulas da matriz em escada de linhas reduzida obtida como output
do algoritmo.
Analogamente definimos o espaço das colunas de uma matriz A do tipo m × n como o
subespaço de Rm gerado pelas colunas de A. Por exemplo, para a matriz (12) temos
EC(A) = L({(2, 0), (0, 3), (1, 1), (4, 2)}) = R2 .
Note-se que não é verdade que o espaço das colunas permaneça inalterado ao longo da
aplicação do método de Gauss.
Um espaço vetorial V diz-se finitamente gerado se existe um conjunto finito S ⊂ V tal
que V = L(S).
Exemplo 3.16. O espaço vetorial V formado por todos os polinómios reais não é finita-
mente gerado. De facto, sendo S = {p1 , . . . , pk } ⊂ V . um conjunto finito de polinómios e
ni o grau do polinómio pi podemos tomar
N = max{n1 , . . . , nk }
e claramente xN +1 não pode ser escrito como combinação linear de elementos de S. Isto
mostra que não existe um conjunto finito de geradores para V .

4. Dependência linear, bases e dimensão


Chegamos agora a alguns dos conceitos fundamentais da Álgebra Linear.
Definição 4.1. Seja V um espaço vetorial. Um conjunto S ⊂ V diz-se linearmente de-
pendente se existem v1 , . . . , vn ∈ S distintos e escalares α1 , . . . , αn não todos nulos tais
que
α1 v1 + . . . + αn vn = 0
Caso contrário, S diz-se linearmente independente. Um conjunto B ⊂ V diz-se uma base
de V se é linearmente independente e gera V .
Note-se que a negação da condição de dependência linear é logicamente equivalente
à seguinte condição, que utilizamos normalmente para testar independência linear: S é
linearmente independente se e só se dados v1 , . . . , vn elementos distintos de S e escalares
α1 , . . . , αn tais que α1 v1 + . . . + αn vn = 0 temos necessariamente α1 = · · · = αn = 0.
Exemplo 4.2. (i) Seja S = {v} um conjunto com um único elemento. Se v = 0 então S
é linearmente dependente uma vez que 1 · 0 é uma combinação linear com coeficientes
não nulos de elementos de S que produz o vetor 0. Se v 6= 0, então S é linearmente
APONTAMENTOS DE ÁLGEBRA LINEAR 29

independente. De facto, uma combinação linear de elementos de S com coeficientes


não nulos é da forma αv com α 6= 0 e é uma consequência dos axiomas de espaço
vetorial que sendo α 6= 0 e v 6= 0 então αv 6= 0 (ver o último exercı́cio da Ficha 4).
(ii) Se S contém o vetor nulo então S é linearmente independente (pois 1 · 0 = 0).
(iii) Mais geralmente, se S ⊂ S 0 e S é linearmente dependente, o mesmo é verdade para S 0
(pois a combinação linear com coeficientes não todos nulos que certifica a dependência
linear de S, certifica também a dependência linear de S 0 ). Equivalentemente, se S 0
é um conjunto linearmente independente e S ⊂ S 0 então S é também linearmente
independente.
(iv) Seja S = {v, w} um conjunto com dois elementos (distintos). Então S é linearmente
dependente se e só se v e w são colineares, isto é se um deles é um múltiplo escalar
do outro. De facto, se existem α1 , α2 não ambos nulos tais que
α1 v + α2 w = 0
ou α1 6= 0 e então v = ou α2 6= 0 e w = − αα21 v.
− αα21 w,
(v) Generalizando o exemplo anterior vemos que um conjunto S ⊂ V é linearmente
dependente se e só se um dos elementos de S pode ser expresso como uma combinação
linear dos restantes elementos de S. De facto uma das implicações é imediata e para
ver a outra, se S é linearmente dependente podemos escolher v1 , . . . , vn ∈ S e escalares
α1 , . . . , αn não todos nulos de tal forma que
α1 v1 + . . . + αn vn = 0
Assumindo, por exemplo, que αi 6= 0 temos que
αi−1 αi+1
vi = − αα1i v1 − . . . − αi
vi−1 − αi
vi+1 − ... − αn
v
αi n
é uma combinação linear de v1 , . . . , vi−1 , vi+1 , . . . , vn .
(vi) O subconjunto {(1, 2), (0, 3), (1, 0)} ⊂ R2 é linearmente dependente uma vez que
(1, 2) − (1, 0) − 32 (0, 3) = (0, 0)
Como nenhum par de vetores do conjunto é colinear, se retirarmos qualquer dos ve-
tores ao conjunto obtemos um conjunto linearmente independente, que claramente
gera R2 e constitui portanto uma base para R2 .
(vii) O conjunto B = {e1 = (1, 0, . . . , 0), e2 = (0, 1, 0, . . . , 0), . . . , en = (0, . . . , 0, 1)} é uma
base de Rn chamada a base canónica. De facto, dado (x1 , . . . , xn ) ∈ Rn temos
(x1 , . . . , xn ) = x1 e1 + . . . + xn en
logo L(B) = Rn e se α1 , . . . , αn são números reais e α1 e1 + . . . + αn en = 0 então dado
que
α1 e1 + . . . + αn en = (α1 , . . . , αn )
temos α1 = · · · = αn = 0 o que mostra que B é linearmente independente.
(viii) Se A é uma matriz m × n em escada de linhas, então as linhas não nulas constituem
uma base para EL(A). De facto já vimos acima que as linhas não nulas geram EL(A)
e se uma combinação linear das linhas se anular, o sistema para os coeficientes da
combinação linear que se obtém considerando apenas as componentes correspondentes
30 APONTAMENTOS DE ÁLGEBRA LINEAR

às colunas que contêm pivots implica imediatamente que os coeficientes da combinação
linear são todos nulos. Por exemplo, para
 
2 1 1 4
A= 0 0 1 2 
0 0 0 0
olhando apenas para a primeira e terceira componente dos vetores na equação
α1 (2, 1, 1, 4) + α2 (0, 0, 1, 2) = (0, 0, 0, 0)
vemos que
2α1 = 0 e α1 + α2 = 0
pelo que α1 = α2 = 0.
O método de Gauss dá-nos portanto uma maneira prática de determinar uma base
para o espaço das linhas de uma matriz (e, na prática, para qualquer subespaço de
um espaço vetorial finitamente gerado).
(ix) É um exercı́cio simples verificar que {1, x, x2 , . . . , xn , . . .} é uma base para o espaço
vetorial dos polinómios reais.
Intuitivamente, uma base para um espaço vetorial é um “referencial”. De facto, se B
é uma base de V , os coeficientes da combinação linear que exprime um vetor v ∈ V em
termos dos elementos de B são únicos: Admitindo que B = {v1 , . . . , vn }, qualquer vetor v
pode ser escrito na forma
v = α1 v1 + . . . + αn vn
(porque B gera V ) mas se tivermos também
v = β1 v1 + . . . + βn vn
então subtraindo as duas igualdades temos
0 = (α1 − β1 )v1 + . . . + (αn − βn )vn
e, uma vez que, B é um conjunto linearmente independente, isto implica que α1 − β1 =
0, . . . , αn − βn = 0. Os coeficientes dos elementos da base chamam-se as coordenadas de v
na base B. Uma base permite assim identificar os vetores de V com listas de escalares (ou
seja com Rn onde n = dim V ).
Vejamos agora algumas propriedades importantes relativas à dependência linear. Sug-
erimos que ao ler os enunciados que se seguem se tenha em mente o exemplo de R3 e a
interpretação geométrica usual da combinação linear de vetores no espaço assim como dos
subespaços lineares de R3 - retas, planos, etc.
Proposição 4.3. Seja V um espaço vetorial e S ⊂ V um conjunto linearmente indepen-
dente. Se v 6∈ L(S) então S ∪ {v} é linearmente independente.
Dem. Sejam v1 , . . . , vn vetores distintos de S e α1 , . . . , αn , αn+1 escalares. Temos a verificar
que se
α1 v1 + . . . + αn vn + αn+1 v = 0
APONTAMENTOS DE ÁLGEBRA LINEAR 31

então α1 = · · · = αn+1 = 0. Notamos primeiro que αn+1 é necessariamente 0 porque senão


α1 αn
v=− v1 − · · · − − vn
αn+1 αn+1
é uma combinação linear de elementos de S, contrariando a hipótese da Proposição. Mas
então
α1 v1 + . . . + αn vn = 0
Como S é linearmente independente segue que α1 = · · · = αn = 0. 

Proposição 4.4. Seja V um espaço vetorial e S ⊂ V um subconjunto.


(i) Se S é finito, existe um subconjunto T ⊂ S tal que L(T ) = L(S) e T é linearmente
independente.
(ii) Se S é uma base de V com n elementos, então qualquer subconjunto de V com mais
de n elementos é linearmente dependente.
(iii) Se V é um espaço vetorial finitamente gerado, qualquer subconjunto linearmente in-
dependente T ⊂ V está contido numa base de V .

Dem. (i) A demonstração é por indução no número de elementos de S. Se S = {v}


tem apenas um elemento então, ou v = 0 e então podemos tomar T = ∅ ou v 6= 0
e então S é linearmente independente e podemos tomar T = S. Suponhamos agora
que a afirmação é válida para conjuntos com n elementos e suponhamos que S tem
n + 1 elementos. Se S é linearmente independente então podemos tomar T = S.
Senão podemos escolher um vetor v ∈ S que se pode escrever como combinação
linear dos elementos de S \ {v}, e então L(S) = L(S \ {v}). Como S \ {v} tem n
elementos, por hipótese de indução existe T ⊂ S \ {v} linearmente independente tal
que L(T ) = L(S \ {v}) = L(S), o que conclui a demonstração.
(ii) Seja S = {v1 , . . . , vn } uma base de V . Vamos mostrar que qualquer conjunto {w1 , . . . , wn+1 }
formado por n + 1 elementos distintos de V é linearmente dependente. Uma vez que
S é uma base, existem escalares aij tais que

w1 = a11 v1 + . . . + a1n vn
w2 = a21 v1 + . . . + a2n vn
..
.
wn+1 = a(n+1)1 v1 + . . . + a(n+1)n vn

Escrevendo uma combinação linear

α1 w1 + . . . + αn+1 wn+1

na base S obtemos

(13) (α1 a11 + α2 a21 + . . . + αn+1 a(n+1)1 )v1 + . . . + (α1 a1n + α2 a2n + . . . + αn+1 a(n+1)n )vn
32 APONTAMENTOS DE ÁLGEBRA LINEAR

Pretendemos mostrar que existem αi ’s não todos nulos tais que a expressão (13) é
nula. Mas para que (13) seja nula basta que se verifiquem as condições
α1 a11 + α2 a21 + . . . + αn+1 a(n+1)1 = 0
..
.
α1 a1n + α2 a2n + . . . + αn+1 a(n+1)n = 0
Estas condições dizem que (α1 , . . . , αn ) é uma solução do sistema linear homogéneo
cuja matriz dos coeficientes é aij . Trata-se de um sistema de n equações com (n + 1)
incógnitas logo tem sempre (infinitas) soluções não nulas (pois há pelo menos uma
variável livre). Isto conclui a demonstração.
(iii) Seja T um conjunto linearmente independente e S = {v1 , . . . , vn } um conjunto de
geradores para V . Claramente L(T ∪ S) = V (mas infelizmente T ∪ S pode não ser
linearmente independente). Seja vi o primeiro vetor de S que não pertence a L(T )
(se não existir então L(T ) = L(T ∪ S) = V e T é a base requerida). Temos, por um
lado, que L(T ∪ {vi , . . . , vn }) = L(T ∪ S) = V e por outro, pela Proposição 4.3, que
T ∪ {vi } é linearmente independente. Seja agora vj o primeiro dos vetores vi+1 , . . . , vn
que não pertence a L(T ∪ {vi }) (se não existir então L(T ∪ {vi }) = V e T ∪ {vi } é a
base requerida). Temos agora que
L(T ∪ {vi , vj , vj+1 , . . . vn }) = V
e, pela Proposição 4.3, que (T ∪{vi })∪{vj } é linearmente independente. Prosseguindo
desta maneira, obtemos após um número finito de passos uma base para V contendo
T . Este procedimento é na realidade um algoritmo para achar esta base.

Observação 4.5. A demonstração da Proposição 4.4(iii) pode ser formalizada usando
indução no número de vetores de V que é necessário acrescentar ao conjunto T para obter
um conjunto de geradores para V . Se este número é 0 então T é já uma base de V . O
argumento na demonstração acima pode facilmente ser adaptado para demonstrar o passo
da indução: Se quando basta acrescentar n vetores a T para gerar V , o conjunto T pode ser
completado de forma a obter uma base, então o mesmo se verifica quando basta acrescentar
n + 1 vetores a T para gerar V .
Podemos agora facilmente demonstrar o seguinte resultado fundamental.
Teorema 4.6. Seja V um espaço vetorial finitamente gerado. Então V tem uma base
finita e todas as bases de V têm o mesmo número de elementos.
Dem. Seja S um conjunto finito tal que V = L(S). Pela Proposição 4.4(i), o conjunto S
contém um subconjunto T que é linearmente independente e tal que L(T ) = L(S) = V . T
é portanto uma base de V e trata-se de um conjunto finito porque S é finito.
Suponhamos que B é uma outra base de V . A Proposição 4.4(ii) garante que #B ≤ #T
(senão B seria linearmente dependente). Mas o mesmo raciocı́nio diz-nos que #T ≤ #B e
portanto B e T têm o mesmo número de elementos. 
APONTAMENTOS DE ÁLGEBRA LINEAR 33

Definição 4.7. O número de elementos de qualquer base de um espaço finitamente gerado


chama-se a dimensão de V e denota-se por dim V . Se um espaço vetorial V não tem uma
base finita, diz-se que tem dimensão infinita.
É imediato da Proposição 4.4(i) que um espaço tem dimensão infinita se e só se não é
finitamente gerado.
Exemplo 4.8. À luz do Exemplo 4.2(vii),(viii) e (ix) temos
(i) dim Rn = n.
(ii) Se A é uma matriz, então dim EL(A) é igual à caracterı́stica da matriz A.
(iii) O espaço dos polinómios tem dimensão infinita.
Intuitivamente, a dimensão de um conjunto é o número de parâmetros reais (ou coorde-
nadas) que necessitamos para descrever os pontos do conjunto. Por exemplo a superfı́cie
da Terra tem dimensão 2 pois um ponto à superfı́cie da terra é descrito por dois números
reais - a latitude e a longitude. Estas questões serão discutidas mais tarde na disciplina de
Cálculo 2. O Teorema 4.6 encoraja esta nossa intuição ao afirmar que numa gama restrita
de exemplos - aqueles em que o conjunto em questão tem a estrutura de um espaço veto-
rial finitamente gerado - não há qualquer ambiguidade quanto ao número de parâmetros
necessários para descrever o conjunto.
Exemplo 4.9. A dimensão do espaço M2×4 (R) é 8. De facto é imediato verificar que as
oito matrizes
     
1 0 0 0 0 1 0 0 0 0 0 0
E11 = , E12 = , . . . , E42 =
0 0 0 0 0 0 0 0 0 0 0 1
constituem uma base. Mais geralmente dim Mm×n (R) = mn. Uma base é dada pelas
matrizes {Eij }1≤i≤m,1≤j≤n onde Eij designa a matriz que tem 1 como entrada ij e todas as
restantes entradas iguais a 0.
Corolário 4.10. Seja V um espaço vetorial de dimensão n.
(i) Qualquer conjunto linearmente independente com n vetores é uma base de V .
(ii) Qualquer conjunto de geradores tem pelo menos n elementos.
Dem. (i) Seja S um conjunto linearmente independente com n vetores. Se L(S) 6= V
então podemos escolher v 6∈ L(S) e, pela Proposição 4.3, o conjunto S ∪ {v} é um
conjunto linearmente independente com n + 1 elementos. Isto não é possı́vel pela
Proposição 4.4 (ii)
(ii) Pela Proposição 4.4(i), qualquer conjunto de geradores contém uma base e portanto,
pelo Teorema 4.6 tem pelo menos n elementos.

Observação 4.11. Todos os resultados demonstrados acima que assumem que o espaço ve-
torial em questão é finitamente gerado admitem versões para espaços vetoriais arbitrários.
Por exemplo em qualquer espaço vetorial é verdade que duas bases têm o mesmo número de
34 APONTAMENTOS DE ÁLGEBRA LINEAR

elementos, no sentido em que é possı́vel definir uma correspondência bijetiva entre os ele-
mentos de uma base e da outra. A demonstração destas versões mais gerais requer alguns
conhecimentos de Teoria dos Conjuntos pelo que não discutiremos estes resultados.
Vejamos como as propriedades dos conjuntos linearmente independentes e bases demon-
strados acima podem auxiliar o cálculo de bases e a determinação se um conjunto é ou não
linearmente dependente.
Exemplo 4.12. Vamos verificar que o conjunto B = {(1, 0, 1), (1, 1, 0), (0, 0, 3)} é uma
base para R3 e determinar as componentes de (1, 2, 1) nesta base.
Uma vez que dim R3 = 3, de acordo com o Corolário 4.10(i) para ver que B é uma base
basta-nos verificar que B é um subconjunto linearmente independente de R3 . Podemos
fazer isto (pelo menos) de duas formas:
• Usando a definição: B é linearmente independente se e só se
α(1, 0, 1) + β(1, 1, 0) + γ(0, 0, 3) = (0, 0, 0) ⇒ α = β = γ = 0
A equação à esquerda da implicação é um sistema linear homogéneo cujas incógnitas
são os coeficientes α, β, γ. Resolvendo o sistema vemos se o conjunto é ou não
linearmente independente:
 

 α + β = 0 α = 0

β=0 ⇔ β=0

α + 3γ = 0 
γ = 0

o que mostra que B é linearmente independente. Neste caso não se justificava


utilizar o método de Gauss para resolver o sistema, mas vale a pena notar (para
quando as contas sejam mais complicadas) que o sistema em questão tem como
coeficientes a matriz cujas colunas são os elementos do conjunto B. No exemplo
acima:  
1 1 0
 0 1 0 
1 0 3
• Alternativamente podemos usar a observação feita no Exemplo 4.2(viii) acima. Se
escrevermos os elementos de B nas linhas de uma matriz e aplicarmos o método de
Gauss à matriz obteremos, no final, uma base para L(B) e, em particular, calculare-
mos a dimensão da expansão linear de B. B será linearmente independente se e só
se dim L(B) for igual ao número de elementos de B. De facto, se dim L(B) < #B
então pela Proposição 4.4 (ii) B será linearmente dependente. Por outro lado, se
dim L(B) = #B, B não pode ser linearmente dependente porque, se assim fosse,
a Proposição 4.4 (i) garantiria a existência de uma base para L(B) com menos
elementos que B o que contradiria o Teorema 4.6.
Finalmente, a determinação das componentes de um vetor numa dada base consiste na
solução de um sistema linear:
α(1, 0, 1) + β(1, 1, 0) + γ(0, 0, 3) = (1, 2, 1)
APONTAMENTOS DE ÁLGEBRA LINEAR 35

que podemos escrever na forma de uma matriz aumentada


     
1 1 0 | 1 1 1 0 | 1 1 1 0 | 1
L3 −L1 L3 +L2
 0 1 0 | 2  −→  0 1 0 | 2  −→  0 1 0 | 2 
1 0 3 | 1 0 −1 3 | 0 0 0 3 | 2
donde obtemos os coeficientes α = −1, β = 2, γ = 23 .
     
1 2 −1 0 0 2
Exemplo 4.13. Consideremos o conjunto S = , , ⊂ M2×2 (R).
0 1 1 2 1 3
Vamos determinar uma base para o espaço L(S) ⊂ M2×2 (R) e completá-la de forma a obter
uma base para M2×2 (R).
A observação básica para realizar estes cálculos é que estas matrizes se identificam nat-
uralmente com vetores de R4 através da correspondência
 
a b
⇔ (a, b, c, d)
c d
De facto tanto a soma como o produto por escalar são, em ambos os casos, efetuados coor-
denada a coordenada. Para determinar uma base para L(S) podemos portanto (conforme
o Exemplo 4.4(viii)) aplicar o método de Gauss a uma matriz cujas linhas são os vetores
de R4 correspondentes aos elementos de S:
     
1 2 0 1 1 2 0 1 1 2 0 1
3 −L2
 −1 0 1 2  L−→ 2 +L1
 0 2 1 3  L−→  0 2 1 3 
0 2 1 3 0 2 1 3 0 0 0 0
Conclui-se que uma base para L(S) é
   
1 2 0 2
,
0 1 1 3
(e portanto L(S) tem dimensão 2). Para completar este conjunto de forma a obter uma
base de M2×2 (R) precisamos de juntar dois vetores ao conjunto acima de forma a que o
conjunto resultante seja ainda linearmente independente. Isto porque dim M2×2 (R) = 4 e
portanto, pelo Corolário 4.10, qualquer subconjunto linearmente independente de M2×2 (R)
com quatro elementos constitui uma base para M2×2 (R).
Podemos novamente apoiar-nos na correspondência entre M2×2 (R) e R4 e no facto de
as linhas de uma matriz em escada de linhas serem linearmente independentes. Uma vez
que  
1 2 0 1
 0 2 1 3 
 
 0 0 1 0 
0 0 0 1
está em escada de linhas, o conjunto
       
1 2 0 2 0 0 0 0
, , ,
0 1 1 3 1 0 0 1
36 APONTAMENTOS DE ÁLGEBRA LINEAR

é uma base de M2×2 (R) contendo a base de L(S).

5. Mudanças de coordenadas
Definição 5.1. Uma base ordenada B de um espaço vetorial de dimensão finita V é uma
sequência finita B = (v1 , . . . , vn ) de vetores distintos vi ∈ V tais que o conjunto {v1 , . . . , vn }
é linearmente independente e gera V
Como o nome indica, a diferença entre base e base ordenada é que numa base ordenada
escolhemos explicitamente uma ordem para os vetores da base. Há um primeiro vetor
da base, um segundo, etc... Na realidade até agora, quando fizemos cálculos escolhemos
implicitamente uma ordem para os vetores das bases envolvidas de forma a poder identificar
o espaço vetorial em questão com Rn .
Uma base ordenada B = (v1 , . . . , vn ) determina uma bijeção natural
V ←→ Rn
que faz corresponder a um vetor v ∈ V os seus coeficientes na base B, na ordem indicada,
v = α1 v1 + . . . + αn vn ←→ (α1 , . . . , αn )
O escalar αi diz-se a i-ésima coordenada de v na base ordenada B.
Exemplo 5.2. (i) A base ordenada canónica de Rn é B = (e1 , . . . , en ), onde ei =
(0, . . . , 0, 1, 0, . . . , 0) (com o 1 na posição i). Uma vez que
(x1 , . . . , xn ) = x1 e1 + . . . + xn en
as coordenadas de (x1 , . . . , xn ) na base canónica são (x1 , . . . , xn ).
(ii) Para 0 < α < π2 , seja B = ((cos α, sen α), (− sen α, cos α)) a base ordenada de R2 que
se obtém rodando os vetores da base canónica um ângulo α no sentido anti-horário.
Vamos achar as coordenadas do vetor (1, 0) na base B.
Podemos fazê-lo usando a interpretação geométrica das coordenadas (conforme
o Exemplo 3.6) e trigonometria elementar obtendo (cos α, − sen α) ou, alternativa-
mente, resolvendo o sistema
(
c1 cos α − c2 sen α = 1
(1, 0) = c1 (cos α, sen α) + c2 (− sen α, cos α) ⇔
c1 sen α + c2 cos α = 0
A combinação linear cos αL1 + sen αL2 das duas equações do sistema produz c1 =
cos α, e substituindo na segunda equação temos
cos α sen α + c2 cos α = 0 ⇔ c2 = − sen α
(uma vez que cos α > 0). Em geral, podemos ver geometricamente qual é a relação
entre as coordenadas (a, b) de um vetor na base canónica e as suas coordenadas na
base B. As coordenadas na base B obtêm-se de (a, b) rodando este vetor um ângulo
α no sentido horário.
APONTAMENTOS DE ÁLGEBRA LINEAR 37

Vimos no exemplo anterior que as coordenadas na nova base B podiam ser obtidas a
partir das coordenadas noutra base (a base canónica) através de uma certa transformação.
É natural perguntar em geral qual é a relação entre as coordenadas de um vetor v ∈ V em
duas bases ordenadas B1 = (v1 , . . . , vn ) e B2 = (w1 , . . . , wn ) de V dadas.
Seja
v = α1 v1 + . . . + αn vn
Para achar as coordenadas de v na base B2 podemos escrever os vetores vi na base B2 :
v1 = a11 w1 + a21 w2 + . . . + an1 wn
v2 = a12 w1 + a22 w2 + . . . + an2 wn
..
.
vn = a1n w1 + a2n w2 + . . . + ann wn
Substituindo na fórmula para v obtemos
v = α1 (a11 w1 + a21 w2 + . . . + an1 wn ) + α2 (a12 w1 + a22 w2 + . . . + an2 wn ) +
. . . + αn (a1n w1 + a2n w2 + . . . + ann wn )
= (a11 α1 + a12 α2 + . . . + a1n αn )w1 + (a21 α1 + a22 α2 + . . . + a2n αn )w2 +
. . . + (an1 α1 + an2 α2 + . . . + ann αn )wn
Escrevendo (β1 , . . . , βn ) para as coordenadas do vetor v na base B2 temos portanto
β1 a11 a12 . . . a1n α1
    
 β2   a21 a22 . . . a1n   α2 
 . = . .. .. ..   . 
 ..   .. . . .   .. 
βn an1 an2 . . . ann αn
onde na coluna j da matriz [aij ] aparecem as coordenadas do vetor vj na base B2 .
Proposição 5.3. Seja V um espaço vetorial de dimensão n e B1 e B2 bases ordenadas
para V . Existe uma única matriz n × n, denotada por SB1 →B2 , tal que para todo o vetor
v ∈ V , as coordenadas (β1 , . . . , βn ) de v na base B2 e as coordenadas (α1 , . . . , αn ) de v na
base B1 estão relacionadas da seguinte forma
β1 α1
   
 β2   α 
 .  = SB1 →B2  .2 
 ..   .. 
βn αn
A esta matriz chama-se a matriz de mudança de coordenadas da base B1 para a base B2 .
Dem. Já observámos acima que é possı́vel relacionar as coordenadas através de uma matriz.
Para ver que a matriz é única note-se que se existir uma tal matriz S então a j-ésima
coluna da matriz terá necessariamente de consistir nas coordenadas do j-ésimo vetor da
base B1 na base B2 . De facto, as coordenadas desse vetor (chamemos-lhe vj ) na base B1
são (0, . . . , 0, 1, 0, . . . , 0) com o 1 na j-ésima posição, e ao multiplicarmos a matriz S por
38 APONTAMENTOS DE ÁLGEBRA LINEAR

este vetor de coordenadas obtemos a j-ésima coluna de S que tem então que conter as
coordenadas de vj na base B2 . 
Exemplo 5.4. A matriz de mudança de base da base canónica Bcan de R2 para a base B
do Exemplo 5.2 é dada por
 
cos α sen α
SBcan →B =
− sen α cos α
De fato, a primeira coluna contém as componentes do primeiro vetor da base canónica na
base B como vimos no Exemplo 5.2 e da mesma forma podemos verificar que a segunda
coluna contém as coordenadas do vetor (0, 1) na base B. Note-se que o efeito que tem
a multiplicação desta matriz por um vetor coluna é a rotação do vetor um ângulo α no
sentido horário conforme tı́nhamos previsto geometricamente.
Proposição 5.5. Seja V um espaço vetorial de dimensão finita e B1 , B2 , B3 bases orde-
nadas para V . Temos as seguintes relações entre as matrizes de mudança de coordenadas:
(i) SB1 →B3 = SB2 →B3 SB1 →B2
(ii) SB2 →B1 = (SB1 →B2 )−1
Dem. (i) Sejam X1 , X2 e X3 os vetores coluna contendo as coordenadas de um dado
vetor v ∈ V . Por definição das matrizes de mudança de coordenadas temos
X2 = SB1 →B2 X1 , X3 = SB2 →B3 X2
Substituindo a primeira equação na segunda obtemos
X3 = SB2 →B3 (SB1 →B2 X1 ) = (SB2 →B3 SB1 →B2 ) X1
Uma vez que a equação anterior é válida para qualquer vetor v ∈ V e a matriz de
mudança de coordenadas é única conclui-se que
SB1 →B3 = SB2 →B3 SB1 →B2
(ii) Claramente, para qualquer base ordenada B com n elementos, temos que a matriz
de mudança de coordenadas da base B para ela própria é a matriz identidade In .
Aplicando o ponto (i) com B3 = B1 obtemos
In = SB2 →B1 SB1 →B2
e da mesma forma, trocando B1 com B2
In = SB1 →B2 SB2 →B1
o que mostra que SB1 →B2 e SB2 →B1 são matrizes inversas.

Observação 5.6. Note-se que o ponto (ii) da Proposição anterior diz, em particular, que
uma matriz de mudança de base é sempre invertı́vel. Reciprocamente, é um exercı́cio da
ficha para as aulas práticas que qualquer matriz invertı́vel é uma matriz de mudança de
base (a partir de qualquer base dada).
APONTAMENTOS DE ÁLGEBRA LINEAR 39

6. Transformações lineares
Na Matemática estuda-se certos objetos cuja natureza depende da área da Matemática.
Por exemplo, na Álgebra Linear estuda-se espaços vetoriais, enquanto que em Geometria
se pode estudar, por exemplo, curvas e superfı́cies. Normalmente estes objetos consistem
em conjuntos munidos de certa estrutura adicional. No caso dos espaços vetoriais esta
estrutura adicional toma a forma das operações de soma de vetores e o produto de vetores
por escalares. Para estudar os objetos em questão é sempre necessário pensar em como se
relacionam entre eles. As relações entre os objetos manifestam-se através de funções entre
os conjuntos subjacentes que preservam a estrutura adicional. No caso que nos interessa
agora isso leva-nos à seguinte definição.
Definição 6.1. Sejam V e W espaços vetoriais. Uma função f : V → W diz-se uma
transformação linear de V para W se
(i) f (v1 + v2 ) = f (v1 ) + f (v2 ) para todos os v1 , v2 ∈ V .
(ii) f (αv) = αf (v) para todo o v ∈ V e escalar α.
As transformações lineares são portanto as funções entre os conjuntos subjacentes aos
espaços vetoriais que preservam a soma e o produto por escalar. Note-se que na definição
acima aparecem duas somas (em geral) distintas no axioma (i): do lado esquerdo do sinal
de igual, a soma é a soma de vetores em V , enquanto que do lado direito se trata da soma
em W . Analogamente para os dois produtos por escalar que aparecem no axioma (ii).
Chamamos a atenção para as seguintes consequências imediatas dos axiomas acima: uma
transformação linear leva necessariamente o vetor 0 ∈ V no vetor 0 ∈ W . De facto, sendo
v ∈ V um vetor qualquer sabemos que 0 · v = 0. Como f preserva o produto por escalar
temos então
f (0) = f (0 · v) = 0 · f (v) = 0 ∈ W
A outra observação importante é que uma transformação linear leva combinações lineares
em V para combinações lineares em W : dados escalares α1 , . . . , αn e vetores v1 , . . . , vn
temos
f (α1 v1 + . . . + αn vn ) = f (α1 v1 ) + f (α2 v2 ) + . . . + f (αn vn )
= α1 f (v1 ) + . . . + αn f (vn )
Vejamos alguns exemplos de transformações lineares f : V → W .
Exemplo 6.2. (1) Sejam V = W = R = R1 . A função f : R → R definida pela
expressão f (x) = 2x é uma transformação linear. De facto temos
f (x1 + x2 ) = 2(x1 + x2 ) = 2x1 + 2x2 = f (x1 ) + f (x2 )
f (αx) = 2(αx) = α(2x) = αf (x)
O gráfico de f é uma linha reta que passa pela origem. Mais geralmente, é fácil
ver (exercı́cio) que uma função f : R → R é uma transformação linear se e só se
f é uma função linear, isto é, da forma f (x) = ax para algum número real a ∈ R.
Assim, as transformações lineares são as funções reais de variável real cujos gráficos
são retas que passam pela origem.
40 APONTAMENTOS DE ÁLGEBRA LINEAR

Por exemplo, a expressão f (x) = 3x + 1 não define uma transformação linear


de R para R. De facto f (0 + 0) = 1 é diferente de f (0) + f (0) = 1 + 1 = 2.
Alternativamente, f (0) = 1 6= 0 e vimos acima que uma transformação linear leva
sempre o vetor nulo do conjunto de partida no vetor nulo do conjunto de chegada.
(2) Sejam V = W = R2 e identifiquemos como habitualmente R2 com o plano. Considere-
se a função f : R2 → R2 definida geometricamente como “rotação de 90 graus em
torno da origem no sentido anti-horário”. Apelando ao significado geométrico da
soma de vetores e produto por escalar é imediato verificar que esta transformação
preserva a soma de vetores e o produto por escalar pelo que é uma transformação
linear.
Podemos verificar a afirmação anterior obtendo uma expressão analı́tica para a
função f . Sendo (a, b) um vetor no primeiro quadrante é imediato verificar que
após a rotação o vetor fica com coordenadas (−b, a). É fácil verificar que o mesmo
sucede para qualquer vetor pelo que a expressão analı́tica para a rotação é
f (a, b) = (−b, a)
Podemos agora ver que f é uma transformação linear:
f ((a1 , b1 ) + (a2 , b2 )) = f (a1 + a2 , b1 + b2 )
= (−b1 − b1 , a1 + a2 ) = (−b1 , a1 ) + (−b2 , a2 )
= f (a1 , b1 ) + f (a2 , b2 )
e
f (α(a, b)) = f (αa, αb) = (−αb, αa) = α(−b, a) = f (a, b)
Note-se que identificando os vetores de R2 com matrizes coluna 2 × 1, podemos
escrever f da seguinte forma
    
a 0 −1 a
f =
b 1 0 b
(3) Seja V = Rn , W = Rm e A uma matriz m × n. Identificando como habitual-
mente vetores de Rn com matrizes coluna podemos definir uma transformação linear
f : Rn → Rm através da fórmula
f (x) = Ax
O exemplo anterior é um caso particular deste. De facto, o primeiro exemplo
também é. Nesse caso, A = [a] é uma matriz 1 × 1.
(4) Seja W = F (R, R) o espaço vetorial das funções reais de variável real e
V = {f ∈ W : f é diferenciável}
o subespaço vetorial formado pelas funções diferenciáveis. Então a aplicação T : V →
W definida por
T (f ) = f 0
ou seja a operação de derivação, é uma transformação linear. De facto temos
T (f + g) = (f + g)0 = f 0 + g 0 = T (f ) + T (g)
APONTAMENTOS DE ÁLGEBRA LINEAR 41

e
T (αf ) = (αf )0 = αf 0
pelas regras de derivação para a soma e para o produto por escalar. Estas regras
dizem precisamente que a operação de derivação é uma transformação linear. Este
exemplo é, pelo menos aparentemente, muito diferente dos anteriores. O conceito
de transformação linear estabelece assim uma relação entre operações tão diferentes
como uma rotação do plano e a operação de derivação de uma função.
(5) Seja V = Mm×n (R) e W = Mp×q (R) e sejam B uma matriz p × m e C uma matriz
n × q. Então a aplicação T : V → W definida pela fórmula
T (A) = BAC
é uma transformação linear:
T (A1 + A2 ) = B(A1 + A2 )C = (BA1 + BA2 )C
= BA1 C + BA2 C = T (A1 ) + T (A2 )
(pela distributividade do produto de matrizes em relação à soma, e associatividade
da multiplicação de matrizes) e
T (αA) = B(αA)C = (αBA)C = αBAC
pela relação entre o produto de matrizes e o produto por escalar. Um exemplo
concreto é por exemplo a transformação T : M2×2 (R) → M4×3 (R) determinada pelas
matrizes  
1 3  
 −2 0  0 1 2
B=   , C=
−1 1  −1 1 0
2 0
que é dada pela fórmula
   
  1 3    −b − 3d a + b + 3c + 3d 2a + 6c
a b  −2 0  a b 0 1 2  2b −2a − 2b −4a 
T =  = 
c d  −1 1  c d −1 1 0  b−d −a − b + c + d −2a + 2c 
2 0 −2b 2a + 2b 4a
(6) Seja V o espaço vetorial dos polinómios e W = R2 . Então a função f : V → R2
definida por
f (p) = (p(1), p00 (2))
é uma transformação linear:
f (p + q) = ((p + q)(1), (p + q)00 (2)) = (p(1) + q(1), p00 (2) + q 00 (2))
= (p(1), p00 (2)) + (q(1), q 00 (2)) = f (p) + f (q)
f (αp) = ((αp)(1), (αp)00 (2)) = (αp(1), αp00 (2)) = α(p(1), p00 (2))
porque a soma de funções e a multiplicação de uma função por escalar são calculadas
ponto a ponto e pelas regras de derivação. Note-se que este exemplo é, pelo menos
aparentemente, de uma natureza bastante diferente dos exemplos (1)-(5) acima.
42 APONTAMENTOS DE ÁLGEBRA LINEAR

Proposição 6.3. Sejam V, W espaços vetoriais, B = {v1 , . . . , vn } uma base para V e


w1 , . . . , wn vetores quaisquer de W . Então existe uma única transformação linear f : V →
W tal que f (vi ) = wi .
Dem. Começamos por mostrar a unicidade. Suponhamos que f : V → W é uma trans-
formação linear tal que f (vi ) = wi . Dado um vetor v ∈ V qualquer, existem escalares
α1 , . . . , αn únicos tais que
v = α1 v1 + . . . + αn vn
Uma vez que uma transformação linear preserva combinações lineares, teremos necessari-
amente
(14) f (v) = f (α1 v1 + . . . + αn vn ) = α1 f (v1 ) + . . . + αn f (vn ) = α1 w1 + . . . + αn wn
Obtemos assim uma fórmula para f que mostra a unicidade da transformação linear (caso
exista). Para verificar que existe e completar a demonstração resta ver que a expressão
(14) define efetivamente uma transformação linear com as propriedades requeridas. Seja
então f : V → W a função definida pela expressão (14).
• f envia o vetor vi ∈ B em wi : Temos vi = 0·v1 +. . .+0·vi−1 +1·vi +0·vi+1 +. . . 0·vn
logo f (vi ) = 0 · w1 + . . . + 0 · wi−1 + 1 · wi + 0 · wi+1 + . . . 0 · wn = wi .
• f é uma transformação linear: Sejam v = α1 v1 + . . . + αn vn e w = β1 v1 + . . . + βn vn
dois vetores quaisquer de V . Então v + w = (α1 + β1 )v1 + . . . + (αn + βn )vn pelo
que
f (v + w) = (α1 + β1 )w1 + . . . + (αn + βn )wn
= (α1 v1 + . . . + αn vn ) + (β1 v1 + . . . + βn vn ) = f (v) + f (w)
e, dado um escalar α temos αv = αα1 v1 + . . . + ααn vn e portanto
f (αv) = αα1 w1 + . . . + ααn wn = α(α1 w1 + . . . + αn wn ) = αf (v)
o que conclui a demonstração.

O resultado anterior pode ser visto (pelo menos) de duas maneiras diferentes. Por um
lado, dá-nos um método para construir transformações lineares: basta escolher uma base
para o espaço de partida e decidir qual o valor que irá tomar em cada vetor da base. Além
disso a demonstração acima dá-nos uma fórmula ((14)) para a transformação linear assim
obtida. Por outro lado, a Proposição diz-nos que as transformações lineares são funções
excepcionalmente simples. Para definir uma função de V para W é normalmente necessário
decidir o seu valor individualmente para cada vetor de V . A Proposição anterior diz que
quando f é linear, todo o comportamento da função é completamente determinado pelos
valores que toma num número finito de elementos do domı́nio (os vetores constituintes de
uma base).
Observação 6.4. A Proposição 6.3 é ainda válida quando a base de V é um conjunto
infinito, sendo a demonstração essencialmente a mesma. Deixamos esta verificação como
exercı́cio às leitoras interessadas.
APONTAMENTOS DE ÁLGEBRA LINEAR 43

Exemplo 6.5. A transformação linear T : R2 → R3 tal que T (1, 0) = (2, 1, −3) e T (0, 1) =
(4, 1, 5) é a função definida pela expressão
T (a, b) = a(2, 1, −3) + b(4, 1, 5) = (2a + 4b, a + b, −3a + 5b)
que pode ser representada matricialmente por
 
  2 4  
a a
T = 1 1 
b b
−3 5
Claramente o exemplo anterior pode ser generalizado a qualquer transformação linear de
Rm para Rn e vemos assim que o Exemplo 6.2 (3) é na realidade exaustivo. Vamos agora ver
que em completa generalidade, desde que os espaços vetoriais envolvidos tenham dimensão
finita, uma transformação linear é determinada por uma matriz. Antes disso aproveitamos
para introduzir notação para as coordenadas de um vetor numa base ordenada.
Definição 6.6. Seja V um espaço vetorial, B = (v1 , . . . , vn ) uma base ordenada para V e
v = α1 v1 + . . . + αn vn um vetor de V . Escrevemos [v]B para a matriz coluna n × 1 cujas
componentes são as coordenadas de v (por ordem):
α1
 

[v]B =  ... 
αn
Uma base finita B com n elementos determina uma função f : V → Mn×1 (R) definida
por
f (v) = [v]B
que é uma bijeção (pela unicidade das coordenadas). Aliás é esta identificação que temos
usado, informalmente, para efetuar cálculos em espaços vetoriais de polinómios e matrizes.
Exercı́cio 6.7. Dado um espaço vetorial V e uma base B = (v1 , . . . , vn ) para V , verifique
que a função f : V → Mn×1 (R) definida por f (v) = [v]B é uma transformação linear.
Proposição 6.8. Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vm ) e B2 = (w1 , . . . , wn )
bases ordenadas para V e W respetivamente. Seja f : V → W uma transformação linear.
Então existe uma única matriz Af,B1 ,B2 ∈ Mm×n (R) tal que, para todo o vetor v ∈ V se
tem
[f (v)]B2 = Af,B1 ,B2 [v]B1
A matriz Af,B1 ,B2 diz-se a matriz que representa a transformação linear f com respeito
às bases B1 e B2 .
Exemplo 6.9. (i) Seja V um espaço vetorial com bases B1 = (v1 , . . . , vn ) e B2 =
(w1 , . . . , wn ) e Id : V → V a função identidade (definida por Id(v) = v). É ime-
diato verificar que Id é uma transformação linear. Temos então, por definição de
matriz mudança de base
AId,B1 ,B2 = SB1 →B2
44 APONTAMENTOS DE ÁLGEBRA LINEAR

De facto, a identidade
[Id(v)]B2 = AId,B1 ,B2 [v]B1 ⇔ [v]B2 = AId,B1 ,B2 [v]B1
mostra que AId,B1 ,B2 satisfaz a relação que caracteriza a matriz de mudança de coor-
denadas, e como tal (por unicidade), é a matriz de mudança de coordenadas SB1 →B2 .
(ii) Seja V o espaço vetorial dos polinómios de grau ≤ 3 e considere-se a transformação
linear T : V → V definida por T (p) = p0 . Uma vez que
T (a + bx + cx2 + dx3 ) = b + 2cx + 3dx2 ,
sendo B = (1, x, x2 , x3 ) a base canónica, a equação [T (p)]B = AT,B,B [p]B para a
matriz AT,B,B fica
   
b a
 2c   b 
 3d  = AT,B,B  c 
   
0 d
e conclui-se então que  
0 1 0 0
 0 0 2 0 
AT,B,B =
 0

0 0 3 
0 0 0 0
Vale a pena refletir durante um momento no facto de a matriz acima representar a
operação de derivação (embora no contexto restrito dos polinómios de grau menor ou
igual a 3).
Dem. da Proposição 6.8. Vejamos primeiro ver que se a matriz Af,B1 ,B2 existir, ela é única.
Para o i-ésimo vetor da base B1 , v = vi , a equação que caracteriza a matriz Af,B1 ,B2 é
[f (vi )] = Af,B1 ,B2 [vi ]B1
mas, uma vez que [vi ]B1 tem todas as entradas iguais a 0 exceto a i-ésima que é igual a
1, o produto no termo direito da equação acima é a i-ésima coluna da matriz Af,B1 ,B2 .
Isto mostra que a matriz Af,B1 ,B2 fica univocamente determinada: se existir, a sua i-ésima
coluna é necessariamente igual a [f (vi )]B2 .
Para completar a demonstração basta agora verificar que a matriz n × n cuja i-ésima
coluna é [f (vi )]B2 satisfaz a equação do enunciado. Seja v = α1 v1 + . . . + αn vn um vetor
de V . Então
[f (v)]B2 = [f (α1 v1 + . . . + αn vn )]B2
= [α1 f (v1 ) + . . . + αn f (vn )]B2
= α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
onde na segunda igualdade usámos o facto de f ser uma transformação linear e na terceira
o Exercı́cio 6.7. Pela definição do produto de matrizes a expressão
α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
APONTAMENTOS DE ÁLGEBRA LINEAR 45

é exatamente o produto da matriz que tem por i-ésima coluna [f (vi )]B2 pelo vetor col-
una com componentes (α1 , . . . , αn ), que por sua vez, é exatamente [v]B1 . Isto conclui a
demonstração. 
A Proposição 6.8 permite identificar uma transformação linear entre espaços vetoriais
de dimensão finita com uma matriz mediante a escolha de bases para o espaço vetorial de
partida e de chegada. Além disso explica como obter a matriz em questão: é a matriz cuja
i-ésima coluna contém as coordenadas do i-ésimo vetor da base do espaço de partida na
base do espaço de chegada.
Isto é extremamente útil para fazer contas com transformações lineares como iremos ver
em seguida. Convém no entanto notar que a Proposição não se aplica a todos os exemplos
de transformação linear que queremos considerar - por exemplo, à operação de derivação.
Por outro lado, o objeto em que normalmente estamos interessados é a transformação
linear ela própria e não uma (das muitas possı́veis) representações matriciais que usamos
para calcular. Uma analogia que pode ser útil é que uma transformação linear é como
uma ideia, que se pode exprimir em várias lı́nguas, as bases nos espaços de partida e de
chegada são como uma escolha de lı́ngua, e a matriz que representa a transformação linear
é a palavra que representa a ideia na lı́ngua escolhida.
Vamos agora continuar o estudo das transformações lineares que se vai prolongar até ao
final do semestre.
Definição 6.10. Sejam V e W espaços vetoriais. Escrevemos L(V, W ) para o conjunto
das transformações lineares de V para W . Dadas f, g ∈ L(V, W ) e um escalar α definimos
a soma de f e g como sendo a função f + g : V → W definida pela expressão
(f + g)(v) = f (v) + g(v)
e definimos o produto de uma transformação linear f pelo escalar α como sendo a função
αf : V → W definida pela expressão
(αf )(v) = α · f (v).
Proposição 6.11. Sejam V e W espaços vetoriais. Com as operações de soma e produto
por escalar definidas acima, o conjunto L(V, W ) é um espaço vetorial.
Dem. Temos a verificar que as operações de soma e produto por escalar estão bem definidas,
isto é, que dadas f, g ∈ L(V, W ) e um escalar f , as funções f + g e αf estão ainda em
L(V, W ) e depois os oito axiomas que estas operações devem satisfazer num espaço vetorial.
Vemos primeiro que f + g é uma transformação linear: dados v1 , v2 ∈ V temos
(f + g)(v1 + v2 ) = f (v1 + v2 ) + g(v1 + v2 ) = f (v1 ) + f (v2 ) + g(v1 ) + g(v2 )
= f (v1 ) + g(v1 ) + f (v2 ) + g(v2 ) = (f + g)(v1 ) + (f + g)(v2 )
e dado um escalar α e v ∈ V temos
(f + g)(αv) = f (αv) + g(αv) = αf (v) + αg(v) = α(f (v) + g(v)) = α((f + g)(v))
A verificação que (αf ) ∈ L(V, W ) é análoga e fica como exercı́cio. A verificação dos
axiomas de espaço vetorial é também deixada como exercı́cio. Notamos apenas que o vetor
46 APONTAMENTOS DE ÁLGEBRA LINEAR

0 ∈ L(V, W ) é a transformação linear identicamente nula que envia todos os vetores v ∈ V


para 0 ∈ W . 
Proposição 6.12. Sejam V, W, U espaços vetoriais e f : V → W , e g : W → U trans-
formações lineares. Então a função composta
g◦f: V →U
é uma transformação linear.
Dem. Temos a verificar que g ◦ f preserva a soma e o produto por escalar.
• Dados v1 , v2 ∈ V temos
(g◦f )(v1 +v2 ) = g(f (v1 +v2 )) = g(f (v1 )+f (v2 )) = g(f (v1 ))+g(f (v2 )) = (g◦f )(v1 )+(g◦f )(v2 )
onde na segunda igualdade usámos o facto de f ser uma transformação linear, e na
terceira, o facto de g ser uma transformação linear.
• Dados um escalar α e um vetor v ∈ V temos
(g ◦ f )(αv) = g(f (αv)) = g(αf (v)) = αg(f (v)) = α(g ◦ f )(v)
onde, tal como acima, na segunda igualdade usámos o facto de f ser uma trans-
formação linear, e na terceira, o facto de g ser uma transformação linear.

Proposição 6.13. Sejam V, W espaços vetoriais e f : V → W uma transformação linear.
Se a função f é invertı́vel (isto é, se é bijetiva) então a função inversa f −1 : W → V é
uma transformação linear.
Proof. Temos a verificar que a função inversa f −1 preserva a soma e a multiplicação por
escalar. Sejam w1 , w2 vetores de W . Como f é sobrejetiva existem vetores v1 e v2 de V
tais que f (v1 ) = w1 e f (v2 ) = w2 . Então
f −1 (w1 + w2 ) = f −1 (f (v1 ) + f (v2 )) = f −1 (f (v1 + v2 )) = (f −1 ◦ f )(v1 + v2 ) = v1 + v2
onde na segunda igualdade usámos o facto de f ser uma transformação linear. Por definição
de função inversa temos que v1 = f −1 (w1 ) e v2 = f −1 (w2 ). Substituindo na igualdade acima
concluı́mos que f −1 : W → V preserva a soma de vetores. A verificação que f −1 preserva
o produto por escalar é análoga e fica como exercı́cio. 
Observação 6.14. Alternativamente, na demonstração anterior poderı́amos ter aplicado
a função injetiva (por hipótese) f às expressões f −1 (w1 + w2 ) e f −1 (w1 ) + f −1 (w2 ) e
verificado que essas contas produziam o mesmo resultado. A injetividade de f garante
então que f −1 (w1 + w2 ) = f −1 (w1 ) + f −1 (w2 ).
Definição 6.15. Sejam V, W espaços vetoriais. Uma transformação linear invertı́vel
f : V → W diz-se um isomorfismo de espaços vetoriais.
A palavra isomorfismo vem de ”iso” - igual - e ”morphos” - forma. Um isomorfismo
entre dois espaços vetoriais é uma equivalência entre eles. O isomorfismo estabelece uma
correspondência bijetiva entre os conjuntos subjacentes (um “dicionário” entre os vetores
APONTAMENTOS DE ÁLGEBRA LINEAR 47

de um dos espaços e os vetores do outro). Uma vez que a função e a sua inversa preservam
as operações dos espaços vetoriais ou, equivalentemente, as combinações lineares, qual-
quer propriedade ou afirmação acerca de um dos espaços (que se possa expressar usando
combinações lineares) será verdadeira se e só se for verdadeira no outro. Por exemplo um
conjunto será linearmente (in)dependente num espaço se e só se a sua imagem através do
isomorfismo for linearmente (in)dependente no outro. A verificação da afirmação anterior
assim como de outras do mesmo género ficará como exercı́cio na próxima Ficha para as
aulas práticas.
Exemplo 6.16. (i) As funções Mn×1 (R) → Rn e M1×n (R) → Rn definidas por
x1
 
 ...  7→ (x1 , . . . , xn )
 
e x1 · · · xn 7→ (x1 , . . . , xn )
xn
são isomorfismos de espaços vetoriais. De facto as funções descritas acima são clara-
mente bijetivas e também transformações lineares (pela definição de soma e produto
por escalar nos vários espaços envolvidos).
(ii) Seja V um espaço vetorial com base ordenada B = (v1 , . . . , vn ). A função f : V →
Mn×1 (R) definida por
f (v) = [v]B
que calcula a matriz coluna das coordenadas na base ordenada B é um isomor-
fismo. Que f é uma transformação linear é o conteúdo do Exercı́cio 6.7. A função
f é também bijetiva: a sobrejetividade de f traduz o facto que qualquer n-tuplo
(α1 , . . . , αn ) de escalares formar as coordenadas de um vetor de V (nomeadamente
de v = α1 v1 + . . . αn vn ), enquanto que a injetividade de f é uma consequència da
unicidade das coordenadas de um vetor (que por sua vez é uma consequência de B
ser um conjunto linearmente independente).
(iii) Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vn ), B2 = (w1 , . . . , wm ) bases ordenadas
para V e W respetivamente. A função
Φ : L(V, W ) → Mm×n (R)
definida por (ver Proposição 6.8 para o significado da notação)
Φ(f ) = Af,B1 ,B2
é um isomorfismo de espaços vetoriais. Portanto uma transformação linear entre
espaços vetoriais finitamente gerados pode ser identificada com uma matriz, uma vez
escolhidas bases ordenadas para o domı́nio e conjunto de chegada da transformação
linear.
Temos que verificar que Φ é uma transformação linear e que é invertı́vel (ou bije-
tiva) enquanto função.
• Sejam f, g : V → W transformações lineares. Dados v1 v2 ∈ V temos
(15) [(f + g)(v)]B2 = [f (v) + g(v)]B2 = [f (v)]B2 + [g(v)]B2
48 APONTAMENTOS DE ÁLGEBRA LINEAR

onde na primeira igualdade usámos a definição de soma de transformações lin-


eares e na segunda o facto que a operação de calcular as coordenadas é linear
(algo que usámos também no ponto (ii) acima). Por definição das matrizes que
representam f, g, e pela distributividade em relação à soma do produto de ma-
trizes obtemos
(16) [f (v)]B2 + [g(v)]B2 = Af,B1 ,B2 [v]B1 + Ag,B1 ,B2 [v]B1 = (Af,B1 ,B2 + Ag,B1 ,B2 )[v]B1
Das igualdades (15) e (16) obtemos, novamente por definição da matriz que
representa (f + g),
Af +g,B1 ,B2 = Af,B1 ,B2 + Ag,B1 ,B2
ou seja
Φ(f + g) = Φ(f ) + Φ(g)
A demonstração que Φ(αf ) = αΦ(f ) é análoga e fica como exercı́cio. Concluı́mos
que Φ é uma transformação linear.
• Recorde-se da demonstração da Proposição 6.8 que a matriz Φ(f ) tem como i-
ésima coluna [f (vi )]B2 . Dada uma matriz A, pela Proposição 6.3 e o exemplo
(ii) acima existe uma transformação linear f tal que [f (vi )]B2 é a i-ésima coluna
de A. Temos então Φ(f ) = A, o que mostra que Φ é sobrejetiva. Por outro lado,
suponhamos que f e g são transformações lineares tais que Φ(f ) = Φ(g) então,
para cada i = 1, . . . , n, as coordenadas de f (vi ) e g(vi ) são iguais. Mas isto
significa que f (vi ) = g(vi ) para cada i, e então pela Proposição 6.3 temos que
f = g. Isto mostra que Φ é uma função injetiva e portanto, dado que também é
sobrejetiva, invertı́vel.
Conclui-se que Φ é um isomorfismo de espaços vetoriais.
Os exemplos anteriores dizem-nos que qualquer espaço vetorial real finitamente gerado
é equivalente a Rn e que uma transformação linear entre tais espaços pode ser identificada
com uma matriz. Estes factos são muito úteis para fazer contas. Já foram usados muitas
vezes e continuarão a ser usados até ao final do semestre para esse efeito. No entanto não
seria uma boa ideia concluir daqui que nos podemos concentrar exclusivamente em Rn e
nas matrizes. Apesar de ser possı́vel identificar um espaço finitamente gerado com algum
Rn não há em geral nenhuma maneira canónica de o fazer. A identificação é feita através
de uma escolha de base e há muitas escolhas possı́veis. Um espaço vetorial geral não possui
coordenadas especiais (ao contrário do que acontece em Rn e em vários outros exemplos
que temos vindo a considerar como os espaços de matrizes) e esta é uma diferença muito
importante. Veremos em breve que as soluções de certas equações diferenciais formam
espaços vetoriais nos quais não há habitualmente qualquer “base canónica”.
Proposição 6.17. Sejam V, W, U espaços vetoriais, B1 , B2 , B3 bases ordenadas para V, W, U
respetivamente, e f : V → W , g : W → U transformações lineares. Então a matriz que
representa a transformação linear g◦f nas bases dadas é o produto da matriz que representa
g pela matriz que representa f . Isto é,
Ag◦f,B1 ,B3 = Ag,B2 ,B3 Af,B1 ,B2
APONTAMENTOS DE ÁLGEBRA LINEAR 49

Dem. Dado v ∈ V temos pela definição das matrizes que representam f e g


[(g ◦ f )(v)]B3 = [g(f (v))]B3 = Ag,B2 ,B3 [f (v)]B2
= Ag,B2 ,B3 (Af,B1 ,B2 [v]B1 ) = (Ag,B2 ,B3 Af,B1 ,B2 )[v]B1
donde, pela unicidade da matriz que representa g ◦ f conclui-se que
Ag◦f,B1 ,B3 = Ag,B2 ,B3 Af,B1 ,B2
conforme pretendido. 
Esta proposição explica a associatividade do produto de matrizes: o produto de matrizes
é a tradução através dos isomorfismos do Exemplo 6.16(iii) da composição de funções, que
é uma operação associativa.
Observação 6.18. É possı́vel pensar visualmente na correspondência entre transformações
lineares e matrizes, e em particular na Proposição anterior da seguinte forma. Considere-
se o diagrama
f
V W
(17) [·]B1 ∼
= [·]B2 ∼
=
Af,B1 ,B2
Mn×1 (R) Mm×1 (R)
onde as setas representam transformações lineares com domı́nio a origem da seta e conjunto
de chegada o término da seta. As setas pretendem representar visualmente que os vetores
do espaço da origem são “transportados” pela transformação linear do seu domı́nio até
ao espaço vetorial de chegada. O sı́mbolo ∼ = designa isomorfismo e os isomorfismos no
diagrama acima são os do Exemplo 6.16(ii) que calculam a matriz coluna das coordenadas,
ou seja, v 7→ [v]B1 para a seta da esquerda e w 7→ [w]B2 para a seta da direita. A equação
(18) [f (v)]B2 = Af,B1 ,B2 [v]B1
diz que se obtém o mesmo resultado quando se faz um vetor v ∈ V seguir os dois possı́veis
trajetos do canto superior esquerdo até ao canto inferior direito em (17): do lado esquerdo
de (18) temos o efeito de seguir primeiro a seta de cima e depois a seta da direita; do lado
direito de (18) segue-se primeiro a seta da esquerda e depois a de baixo.
Quando independentemente do caminho seguido entre dois nós do diagrama se obtém
sempre o mesmo resultado diz-se que o diagrama é comutativo. Portanto a equação (18)
traduz a comutatividade de (17).
Nestes termos, a Proposição 6.17 traduz a comutatividade do retângulo exterior no
seguinte diagrama
f g
V W U
[·]B1 ∼
= [·]B2 ∼
= [·]B3 ∼
=
Af,B1 ,B2 Ag,B2 ,B3
Mn×1 (R) Mm×1 (R) Mp×1 (R)
que é claramente uma consequência da comutatividade dos dois quadrados.
50 APONTAMENTOS DE ÁLGEBRA LINEAR

Corolário 6.19. Sejam V, W espaços vetoriais, f : V → W uma transformação linear


invertı́vel e B1 , B2 bases para V e W respetivamente. Então Af −1 ,B2 ,B1 = (Af,B1 ,B2 )−1 .
Dem. Uma vez que f ◦ f −1 = IdW e f −1 ◦ f = IdV , e que a matriz que representa a
transformação linear identidade com respeito a uma mesma base num espaço vetorial é a
matriz identidade, pela Proposição anterior temos
Af,B1 ,B2 Af −1 ,B2 ,B1 = I Af −1 ,B2 ,B1 Af,B1 ,B2 = I
(onde I designa a matriz identidade). 

7. Subespaços associados a uma transformação linear


Definição 7.1. Seja f : V → W uma transformação linear. O núcleo de f é o conjunto
N (f ) = {v ∈ V : f (v) = 0}
e a imagem de f é o conjunto
f (V ) = {f (v) : v ∈ V } ⊂ W
Proposição 7.2. Seja f : V → W uma transformação linear. Então N (f ) é um subespaço
vetorial de V e f (V ) é um subespaço vetorial de W .
Dem. Uma vez que f (0) = 0 temos que 0 ∈ N (f ) e 0 ∈ f (V ) pelo que estes conjuntos são
não vazios. Vejamos que N (f ) é um subespaço vetorial:
• Sendo v1 , v2 ∈ N (f ) temos f (v1 +v2 ) = f (v1 )+f (v2 ) = 0+0 = 0 logo v1 +v2 ∈ N (f ).
• Sendo α um escalar e v ∈ N (f ) temos f (αv) = αf (v) = α0 = 0 logo αv ∈ N (f ).
Quanto a f (V ):
• Dados w1 , w2 ∈ f (V ), existem v1 , v2 ∈ V tais que f (v1 ) = w1 e f (v2 ) = w2 . Então
f (v1 + v2 ) = w1 + w2 logo w1 + w2 ∈ f (V ).
• Dado um escalar α e w = f (v) ∈ f (V ) temos αw = f (αv) ∈ f (V ).

Por definição de sobrejetividade, uma transformação linear é sobrejetiva se e só se f (V ) =
W . A injetividade de f pode ser determinada em termos do núcleo como explica o seguinte
resultado.
Proposição 7.3. Uma transformação linear f : V → W é injetiva se e só se N (f ) = {0}.
Dem. Suponhamos que f é injetiva. Se v ∈ N (f ) então f (v) = 0 = f (0). Uma vez que f
é injetiva conclui-se que v = 0, logo N (f ) = {0}.
Suponhamos agora que N (f ) = {0}. Então se f (v1 ) = f (v2 ) temos f (v1 − v2 ) = 0 e
portanto v1 − v2 ∈ N (f ) = {0}, ou seja, v1 = v2 . 
A Proposição anterior pode ser vista como mais uma manifestação do “bom comporta-
mento” das transformações lineares. A condição N (f ) = {0} é equivalente (uma vez que
f (0) = 0) à proposição
f (x) = f (0) ⇒ x = 0
APONTAMENTOS DE ÁLGEBRA LINEAR 51

que é um caso particular da condição geral de injetividade


f (x) = f (y) ⇒ x = y.
A Proposição 7.3 diz que, quando uma função é linear, para verificar a condição de inje-
tividade podemos assumir que um dos elementos do domı́nio é 0. Se for verdade nesse caso
particular então é verdade em geral.
É natural perguntar a que correspondem o núcleo e a imagem de uma transformação
linear em termos de coordenadas, ou seja através do “dicionário” descrito no diagrama
(17). Quanto ao núcleo, temos
v ∈ N (f ) ⇔ f (v) = 0 ⇔ [f (v)]B2 = 0
uma vez que um vetor é nulo se e só se as suas coordenadas numa base são todas nulas.
Por (18) isto acontece se e só se
Af,B1 ,B2 [v]B1 = 0
ou seja, se o vetor de Rn formado pelas coordenadas de v pertence ao núcleo da matriz
Af,B1 ,B2 que representa a transformação linear f . Assim, não muito surpreendentemente,
em coordenadas, o núcleo de uma transformação linear corresponde ao núcleo da matriz
que representa a transformação linear.
Quanto à imagem de f , a sua tradução em coordenadas é o conjunto
{[f (v)]B2 : v ∈ V } ⊂ Mm×1 (R)
Novamente por (18) temos que este conjunto é igual a
{Af,B1 ,B2 [v]B1 : v ∈ V }
Mas sendo v um vector arbitrário de V , a sua matriz coluna de coordenadas é uma matriz
arbitrária em Mn×1 (R) e portanto este conjunto não é mais do que o espaço das colunas
da matriz Af,B1 ,B2 . Ou seja, em coordenadas, a imagem de uma transformação linear f é
o espaço das colunas da matriz que representa f .
Chegamos agora a um dos resultados básicos da Álgebra Linear, cuja importância se irá
tornando clara com o desenrolar do semestre.
Teorema 7.4. Seja V um espaço vetorial finitamente gerado, W um espaço vetorial e
f : V → W uma transformação linear. Então
dim N (f ) + dim f (V ) = dim V
Dem. Seja {v1 , . . . , vk } uma base para o subespaço N (f ) ⊂ V (que é finitamente gerado
porque V é). Pela Proposição 4.4(iii) podemos completar este conjunto com um número
finito de vetores distintos {vk+1 . . . , vn } de tal forma que {v1 , . . . , vn } seja uma base para
V . Vamos verificar que {f (vk+1 ), . . . , f (vn )} é uma base de f (V ). Teremos então
dim N (f ) = k, dim f (V ) = n − k, dim V = n
o que verifica a afirmação do enunciado.
52 APONTAMENTOS DE ÁLGEBRA LINEAR

• {f (vk+1 ), . . . , f (vn )} gera V : Seja w um vetor em f (V ). Então existe v ∈ V tal que


f (v) = w. Uma vez que {v1 , . . . , vn } é uma base, existem escalares α1 , . . . , αn tais
que v = α1 v1 + . . . + αn vn . Então
f (α1 v1 + . . . + αk vk + αk+1 vk+1 + . . . + αn vn ) = f (α1 v1 + . . . + αk vk ) + αk+1 f (vk ) + . . . + αn f (vn )
= 0 + αk+1 f (vk ) + . . . + αn f (vn )
onde na segunda igualdade usámos o facto de o vetor α1 v1 + . . . + αk vk pertencer
ao núcleo de f . A expressão acima mostra que w é uma combinação linear de
f (vk+1 ), . . . , f (vn ) pelo que estes vetores geram f (V ).
• {f (vk+1 ), . . . , f (vn )} é linearmente independente: Suponhamos que β1 , . . . , βn−k são
escalares tais que
β1 f (vk+1 ) + . . . + βn−k f (vn ) = 0
Então f (β1 vk+1 + . . . + βn−k vn ) = 0, logo β1 vk+1 + . . . + βn−k vn ∈ N (f ). Portanto
existem escalares α1 , . . . , αk tais que α1 v1 + . . . + αk vk = β1 vk+1 + . . . + βn−k vn ou
seja tais que
α1 v1 + . . . + αk vk − β1 vk+1 − . . . − βn−k vn = 0
Uma vez que {v1 , . . . , vn } é uma base de V tal só pode acontecer se α1 = . . . =
αk = −β1 = . . . = −βn−k = 0. Conclui-se que β1 = · · · = βn−k = 0 e portanto que
{f (vk+1 ), . . . , f (vn )} é linearmente independente.

Definição 7.5. Sendo V um espaço finitamente gerado, W um espaço vetorial e f : V →
W uma transformação linear, o número dim f (V ) chama-se a caracterı́stica da trans-
formação linear f (rank em inglês) e o número dim N (f ) chama-se a nulidade de f (nullity
em inglês).
O Teorema 7.4 é conhecido em inglês por “the rank-nullity Theorem”. Tem o seguinte
corolário extremamente útil:
Corolário 7.6. Sejam V e W espaços vetoriais finitamente gerados com a mesma di-
mensão e seja f : V → W uma transformação linear. Então as seguintes afirmações são
equivalentes
(i) f é invertı́vel (isto é, f é bijetiva).
(ii) f é injetiva (equivalentemente, N (f ) = {0}).
(iii) f é sobrejetiva (isto é, f (V ) = W ).
Dem. É claro que a afirmação (i) implica as afirmações (ii) e (iii), e, por definição (ii)
juntamente com (iii) implicam (i). Para demonstrar a equivalência das afirmações basta
assim ver que quando (ii) se verifica, (iii) também se verifica e vice-versa.
Suponhamos que f é injetiva. Então dim N (f ) = 0 e portanto pelo Teorema 7.4 e a
hipótese sobre a dimensão dos espaços V e W temos
dim f (V ) = dim V = dim W
APONTAMENTOS DE ÁLGEBRA LINEAR 53

Ou seja f (V ) é um subespaço de W com a mesma dimensão que W . Então temos nec-


essariamente f (V ) = W (por exemplo, pelo Corolário 4.10(i)) e portanto f é também
sobrejetiva.
Suponhamos agora que f é sobrejetiva, ou seja que dim f (V ) = dim W . Aplicando o
Teorema 7.4 e a hipótese dim V = dim W temos
dim f (V ) + dim N (f ) = dim V ⇔ dim V + dim N (f ) = dim V ⇔ dim N (f ) = 0
logo N (f ) = {0} e portanto, pela Proposição 7.3, f é injetiva. 
Em vista da interpretação da imagem de uma transformação linear f como o espaço das
colunas da matriz que a representa, o Teorema 7.4 tem a seguinte consequência importante
(que está longe de ser óbvia!).4
Proposição 7.7. Seja A uma matriz m × n. Então o espaço das linhas e o espaço das
colunas de A têm a mesma dimensão (que é a caracterı́stica de A). Isto é,
dim EC(A) = dim EL(A) = caracterı́stica de A
Proof. A dimensão do espaço das linhas é o número de pivots da matriz A após aplicação
do método de Gauss, enquanto que a dimensão do núcleo de A é o número de variáveis
livres no sistema homogéneo associado a A, ou seja, o número de colunas de A sem pivot.
Isto significa que
dim EL(A) = n − dim N (A)
Por outro lado, no caso da transformação linear f : Mn×1 (R) → Mm×1 (R) definida por
f (x) = Ax, o Teorema 7.4 diz que
dim EC(A) + dim N (A) = n ⇔ dim EC(A) = n − dim N (A)
Conclui-se portanto que dim EC(A) = dim EL(A) e este número é a caracterı́stica de
A. 
A Proposição anterior justifica também a atribuição do nome “caracterı́stica” de f à
dimensão de f (V ). Podemos agora aproveitar para atualizar os nossos critérios para a
invertibilidade de uma matriz (comparem com o Teorema 2.23)
Proposição 7.8. Seja A uma matriz n×n. Então as seguintes afirmações são equivalentes
(i) A é invertı́vel.
(ii) A caracterı́stica de A é n (equivalentemente dim EL(A) = n).
(iii) Para cada matriz b ∈ Mn×1 (R) a equação Ax = b tem solução única (equivalente-
mente, a função x 7→ Ax é bijetiva).
(iv) N (A) = 0
(v) EC(A) = Rn
(vi) Existe B ∈ Mn×n (R) tal que AB = In
(vii) Existe B ∈ Mn×n (R) tal que BA = In
4Para uma explicação conceptual desta igualdade que é independente da nossa discussão inicial dos
sistemas lineares e do método de Gauss ver o último exercı́cio da Ficha 9.
54 APONTAMENTOS DE ÁLGEBRA LINEAR

Dem. A equivalência das primeiras três afirmações foi já vista no Teorema 2.23 embora
a equivalência de (i) com (iii) possa agora ser interpretada conceptualmente como uma
consequência da Proposição 6.13 e Corolário 6.19. A equivalência de (iii), (iv) e (v) é uma
consequência do Corolário 7.6 e da interpretação do núcleo e espaço das colunas da matriz
como núcleo e imagem da transformação linear associada.
É claro da definição de invertibilidade que (i) ⇒ (vi) e (vii). Reciprocamente se existe B
tal que AB = In então o espaço das colunas de A contém as colunas da matriz identidade,
e portanto EC(A) = Rn , que é a condição (v). Por outro lado se existe B tal que BA = In
então dado x ∈ N (A) temos x = In x = BAx = B0 = 0 pelo que N (A) = {0} que
é a condição (iv). Vemos assim que (vi) e (vii) são também equivalentes às restantes
condições. 
Exemplo 7.9 (Significado geométrico dos pivots). Suponhamos que A é uma matriz m×n.
Associada a esta matriz está um plano em Rn contendo a origem - o espaço das linhas
EL(A) - que tem uma certa dimensão k ≤ n a que se chama a caracterı́stica da matriz A.
Quando aplicamos o método de eliminação de Gauss à matriz, o plano determinado pelas
linhas das sucessivas matrizes permanece sempre o mesmo e no final do método obtemos
uma matriz em escada de linhas cujas linhas formam uma base para EL(A).
Apesar de a matriz obtida no final do método de Gauss não ser única (há alguma indeter-
minação na aplicação do método), há certas caracterı́sticas comuns a todas estas matrizes
como por exemplo a localização dos pivots (isto é parte do conteúdo do Teorema 1.12).
Vamos ver qual é a explicação geométrica para este facto começando por alguns exemplos
simples.
Consideremos primeiro o caso em que m = 1 e n = 3. Temos portanto que
 
A= a b c
e que EL(A) é uma linha em R3 (vamos ignorar o caso trivial em que a = b = c = 0).
Neste caso a matriz A já está em escada de linhas e há três possibilidades: o pivot pode
estar na primeira, segunda ou terceira entrada da matriz.
o
1 caso: Se o pivot está na primeira posição isto significa que a projeção da linha no eixo
dos xx produz todo o eixo dos xx.
o
2 caso: Se o pivot está na segunda posição isto significa que a projeção da linha no eixo
dos xx é nula, ou seja que a linha está contida no plano yz, e que a projeção desta
linha no eixo dos yy não é nula (i.e. a linha não coincide com o eixo dos zz).
3o caso: Se o pivot está na terceira posição então a linha é o eixo dos zz.
Em seguida consideremos o caso em que m = 2 e n = 3. Então
 
a b c
A=
d e f
Se a caracterı́stica de A for menor ou igual a 1 o espaço EL(A) é uma linha ou um ponto e
já vimos o que acontece. Suponhamos portanto que a caracterı́stica de A é 2. Há novamente
três casos a considerar para a matriz em escada de linhas resultante do método de Gauss:
os dois pivots estão ou nas entradas 11 e 22 da matriz, ou 11 e 23 ou 21 e 32.
APONTAMENTOS DE ÁLGEBRA LINEAR 55

1o caso: Os pivots estão nas entradas 11 e 22: Isto significa que a projecão do plano EL(A)
no eixo dos xx é todo o eixo dos xx e que a projeção de EL(A) no plano xy é todo
o plano xy (ou seja que o plano é o gráfico de uma função sobre o plano xy).
o
2 caso: Os pivots estão nas entradas 11 e 32. Isto significa que a projeção de EL(A) no
eixo xx é todo o eixo xx mas a projeção no plano xy é apenas uma linha (gerada
pela projeção em xy do vetor que aparece na primeira linha da matriz, projeção
esta que não pertence ao eixo dos yy). Assim, EL(A) é um plano vertical contendo
o eixo dos zz, que não é o plano yz.
3o caso: Os pivots estão nas entradas 21 e 32. Neste caso, a projeção do plano EL(A) no
eixo dos xx é apenas a origem, o que significa que EL(A) é o plano yz.
Em geral, a posição dos pivots dá-nos informação sobre a posição do plano EL(A)
relativamente aos planos coordenados. Sendo j ≤ n e
πj : Rn → Rj
a projeção no plano (x1 , . . . , xj ) definida por πj (x1 , . . . , xn ) = (x1 , . . . , xj ), podemos asso-
ciar a A uma função crescente
d
{1, . . . , n} →
− {0, 1, . . . , k}
(onde k é a caraterı́stica de A) definida por
d(j) = dim πj (EL(A))
Ou seja, d(j) é a dimensão da projeção de EL(A) no plano (x1 , . . . , xj ) ou, alternati-
vamente, a dimensão do espaço das linhas da matriz m × j que se obtém esquecendo as
últimas n − j colunas de A. Temos assim d(1) = 0 ou 1 e d(n) = k.
Os pivots ocorrem exatamente nas colunas em que a função d(j) “salta”, isto é, na
primeira coluna ou nas colunas j > 1 para as quais d(j) > d(j − 1).
Finalmente, note-se que a projeção do plano EL(A) no plano Rk determinado pelas
variáveis correspondentes às colunas em que ocorrem pivots é um isomorfismo de espaços
vetoriais. Isto significa que EL(A) é o gráfico de uma função sobre esse plano. Fica como
exercı́cio para as alunas interessadas a verificação que a transformação linear de Rk para
Rn−k cujo gráfico é EL(A) é determinada (nas bases canónicas) pela matriz m × (n − k)
que se obtém da matriz em escada de linhas reduzida obtida de A no final do método do
Gauss-Jordan considerando apenas as colunas sem pivot.
Vejamos agora alguns exemplos práticos de aplicação dos últimos resultados.
Exemplo 7.10 (Exercı́cio 7 da Ficha 8). Vamos achar uma base para o núcleo e a imagem
da transformação linear
f : M2×2 (R) → M2×2 (R)
definida por
   
1 1 1 1
f (A) = A−A
0 1 0 1
56 APONTAMENTOS DE ÁLGEBRA LINEAR

Escrevendo  
a b
A=
c d
obtemos      
a+c b+d a a+b c d−a
f (A) = − =
c d c c+d 0 −c
Conclui-se que N (f ) é definido pelas equações c = 0, d − a = 0 ou seja que
  
a b
N (f ) = : a, b ∈ R
0 a
Uma vez que      
a b 1 0 0 1
=a +b
0 a 0 1 0 0
vemos que uma base para N (f ) é
   
1 0 0 1
,
0 1 0 0
O Teorema 7.4 diz-nos já que a imagem de f terá dimensão
dim M2×2 (R) − dim N (f ) = 4 − 2 = 2
pelo que para achar uma base para a imagem só precisamos de dois vetores não colineares
em f (M2×2 (R)).
Neste exemplo é também fácil achar a base diretamente, sem recorrer a este atalho. A
expressão acima para f (A) diz-nos que a imagem de f é formada pelas matrizes da forma
     
α β 1 0 0 1
=α +β
0 −α 0 −1 0 0
com α, β in R. Assim uma base para a imagem de f é
   
1 0 0 1
,
0 −1 0 0
Exemplo 7.11 (Exercı́cio 8 da Ficha 8). Seja V um espaço vetorial de dimensão finita
com base ordenada B1 e f : V → V uma transformação linear representada na base B1 pela
matriz A. Sendo S = SB1 →B2 a matriz de mudança de coordenadas da base B1 para outra
base B2 vejamos qual é a fórmula para a matriz que representa f na base B2 em termos
das matrizes A e S.
Queremos a matriz B = Af,B2 ,B2 tal que para todo o vetor v ∈ V se tem
[f (v)]B2 = B[v]B2
e sabemos que
[f (v)]B1 = A[v]B1 e [v]B2 = S[v]B1 para quaisquer v
Então
[f (v)]B2 = S[f (v)]B1 = SA[v]B1 = SAS −1 [v]B2
APONTAMENTOS DE ÁLGEBRA LINEAR 57

A unicidade da matriz B diz-nos então que


(19) B = SAS −1
Vamos aproveitar a fórmula acima para calcular a matriz que representa a transformação
linear f : R3 → R3 definida por
f (x, y, z) = (x − 2y, x + z, y + z)
relativamente à base ordenada B = ((1, 0, 1), (0, 1, 1), (−1, 0, 1)) de R3 . Na base canónica
temos     
x − 2y 1 −2 0 x
 x + z  =  1 0 1  y 
y+z 0 1 1 z
A matriz de mudança de coordenadas que se pode obter imediatamente é SB→Bcan uma vez
que esta tem como colunas as coordenadas dos vetores de B na base canónica:
 
1 0 −1
SB→Bcan =  0 1 0 
1 1 1
Conclui-se assim que a matriz que representa f com respeito à base B é
 −1     
1 0 −1 1 −2 0 1 0 −1 0 − 21 0
 0 1 0   1 0 1  0 1 0 = 2 1 0 
1 1 1 0 1 1 1 1 1 −1 32 1
Alternativamente poderı́amos ter calculado esta matriz diretamente achando as coordenadas
da imagem por f dos elementos da base B na própria base B (são estas as colunas da matriz
que acabámos de obter).    
2 −1 1 1
Finalmente vejamos se é possı́vel que as matrizes e representem
−1 0 2 2
a mesma transformação linear f : V → W (com respeito a algumas bases de V e W ).
Note-se que simplesmente pelo facto de se tratar de matrizes 2 × 2 sabemos que V e W
têm dimensão 2 (os vetores de V e W têm duas coordenadas).
Se duas matrizes representam a transformação linear elas são “a mesma coisa com
nomes diferentes” (formalmente uma obtém-se da outra através da fórmula (19) - diz-se
que são matrizes semelhantes). Ora a primeira matriz tem caraterı́stica 2 enquanto que a
segunda tem caraterı́stica 1. Isto significa que qualquer transformação linear representada
pela primeira matriz é um isomorfismo, enquanto que qualquer transformação representada
pela segunda não é injetiva nem sobrejetiva (tanto o núcleo como a imagem têm dimensão
1). As matrizes não podem portanto representar a mesma transformação linear.
Exemplo 7.12 (Exercı́cio 5(a) da Ficha 8). Seja f : R7 → R4 uma transformação linear.
Quais são os possı́veis valores para (dim N (f ), dim f (R7 ))? Como f (R7 ) é um subespaço
de R4 , a sua dimensão está entre 0 e 4. Uma vez que
dim N (f ) + dim f (R7 ) = 7
58 APONTAMENTOS DE ÁLGEBRA LINEAR

vemos que N (f ) tem dimensão entre 3 e 7. Assim que


(dim N (f ), dim f (R7 )) ∈ {(7, 0), (6, 1), (5, 2), (4, 3), (3, 4)}
Todos estes valores são possı́veis. O primeiro par é o valor correspondente à transformação
linear nula enquanto que os outros correspondem, por exemplo, às projeções πj (x1 , . . . , x7 ) =
(x1 , . . . xj ) com j = 1, . . . , 4.
Exemplo 7.13 (Exercı́cio 12(b) da Ficha 8). O dual de um espaço vetorial real é o espaço
vetorial V ∗ = L(V, R) das transformações lineares de V para R que se chamam normal-
mente funcionais lineares. Já vimos muitos exemplos de elementos do dual de um espaço.
Por exemplo, se V é o espaço vetorial dos polinómios reais as funções φ e ψ definidas por
φ(p) = p(0), ψ(p) = p0 (1)
são elementos de V ∗ . Muito em breve definirão em Cálculo 1 o integral de uma função
contı́nua e então sendo V o espaço vetorial das funções contı́nuas [0, 1] → R temos que
ˆ 1
f 7→ f (x)dx
0
é um elemento do dual de V .
Outros exemplos importantes são as funções coordenadas. Se B = (v1 , . . . , vn ) é uma
base para V então a função
ϕi : V → R
definida por
ϕi (α1 v1 + . . . + αn vn ) = αi
é, como é imediato verificar, um elemento de V ∗ . Note-se que ϕi não é mais do que a função
que calcula a i-ésima coordenada de V na base B, isto é a i-ésima função coordenada.
Vamos verificar que B ∗ = (ϕ1 , . . . , ϕn ) são uma base de V ∗ que se chama a base dual de
B.
Temos a verificar que os elementos de B ∗ são linearmente independentes e geram V ∗ .
Sejam α1 , . . . , αn escalares tais que
α1 ϕ1 + . . . + αn ϕn = 0
Avaliando o termo esquerdo da expressão anterior no i-ésimo elemento vi da base B, e
dado que (
1 se i = j
ϕi (vj ) =
0 se i 6= j
obtemos
α1 ϕ1 (vi ) + . . . + αn ϕn (vi ) = 0 + . . . + 0 + αi + 0 + . . . + 0 = αi
pelo que αi = 0. Como isto é verdade para todo o i conclui-se que α1 = · · · = αn = 0, ou
seja que os elementos de B ∗ são linearmente independentes.
Par ver que B ∗ gera V ∗ , seja ϕ ∈ V ∗ um elemento qualquer. Queremos resolver a
equação
α1 ϕ1 + . . . + αn ϕn = ϕ
APONTAMENTOS DE ÁLGEBRA LINEAR 59

Avaliando o termo esquerdo da equação anterior no elemento vi da base obtemos


0 + . . . + 0 + αi ϕi (vi ) + 0 + . . . + 0 = ϕ(vi )
logo αi é necessariamente igual a ϕ(vi ). Para esta escolha de coeficientes, os elementos
α1 ϕ1 + . . . + αn ϕn e ϕ de V ∗ tomam os mesmos valores na base B e portanto coincidem.
Conclui-se assim que B ∗ é um conjunto gerador e portanto uma base.
Note-se a expressão engraçada para exprimir um funcional ϕ qualquer em função desta
base:
ϕ = ϕ(v1 )ϕ1 + . . . + ϕ(vn )ϕn

8. Equações lineares
Definição 8.1. Uma equação linear é uma equação da forma
f (x) = w
onde f : V → W é uma transformação linear, w é um vetor de W e a incógnita x é um
vetor de V a determinar. A equação diz-se homogénea quando w = 0.
É claro que uma equação linear tem solução se e só e w ∈ f (V ). O conjunto das soluções
é controlado pelo núcleo de f no seguinte sentido.
Proposição 8.2 (Princı́pio da sobreposição). Seja f : V → W uma transformação linear.
Se v é uma solução da equação linear f (v) = w, o conjunto de todas as soluções é
v + N (f ) = {v + z : z ∈ N (f )} ⊂ V
Dem. Se v é uma solução e z ∈ N (f ) temos que f (v + z) = f (v) + f (z) = w + 0 = w logo
v + z é uma solução. Assim
v + N (f ) ⊂ {u ∈ V : f (u) = w}
Reciprocamente, seja u uma solução qualquer da equação. Então u = v + (u − v) e
f (u − v) = f (u) − f (v) = w − w = 0 pelo que u − v ∈ N (f ) e portanto u ∈ v + N (f ).
Conclui-se que
{u ∈ V : f (u) = w} ⊂ v + N (f )
o que termina a demonstração. 
Geometricamente, o resultado anterior diz que o conjunto das soluções é o “plano”
paralelo a N (f ) (que é um “plano” em V contendo a origem) que passa por uma solução
particular qualquer da equação.
É costume enunciar o resultado da Proposição 8.2 da seguinte forma;
A solução geral de uma equação linear é dada por uma solução particular
da equação mais a solução geral da equação homogénea.
Por uma solução particular entende-se uma qualquer solução v fixada para a equação. Por
solução geral entende-se o conjunto das soluções. Assim a afirmação acima diz apenas
que o conjunto das soluções de uma equação linear é obtido somando todas as soluções da
equação homogénea a uma qualquer solução da equação que consigamos determinar.
60 APONTAMENTOS DE ÁLGEBRA LINEAR

Exemplo 8.3 (O oscilador harmónico). Seja x : R → R uma função que descreve a posição
de uma partı́cula presa a uma mola em função do tempo. A partı́cula é atuada unicamente
pela força exercida pela extensão ou contração da mola, que é proporcional ao deslocamento
da mola em relação à sua posição de repouso. Assumindo que 0 é a coordenada da posição
de repouso, a equação de Newton diz-nos que
(20) x00 (t) + kx(t) = 0
onde k é uma constante positiva determinada pelas caracterı́sticas fı́sicas da mola e a massa
da partı́cula (recorde que x00 é a aceleração e note que a força exercida pela mola, mx00 tem
o sentido contrário ao deslocamento x). Para simplificar as contas vamos assumir a partir
de agora que k = 1.
Sendo V ⊂ F (R, R) o subespaço vetorial formado pelas funções duas vezes diferenciáveis
e T a transformação linear
T : V → F (R, R)
definida pela expressão
T (x) = x00 + x
vemos que o núcleo de T é exatamente o conjunto das soluções de (20) (com k = 1) que
formam portanto um subespaço vetorial de V .
É fácil adivinhar duas soluções para a equação
(21) x00 + x = 0
pois claramente x(t) = cos t e x(t) = sen t são soluções. Como o conjunto das soluções é
um espaço vetorial temos mais geralmente que
(22) x(t) = α1 cos t + α2 sen t, com α1 , α2 ∈ R
são soluções.
Para o ano que vem irão aprender que uma solução de uma equação diferencial como
(20) é completamente determinada por x(0) e x0 (0) (fisicamente isto diz que a evolução da
posição da partı́cula é completamente determinada pela sua posição e velocidade iniciais).
Assim o conjunto das soluções é um espaço vetorial de dimensão 2 (um vetor é determinado
por dois números reais) e portanto a fórmula (22) descreve a solução geral da equação (21).
No caso da equação (21) podemos verificar a afirmação anterior diretamente recorrendo
à conservação da energia. Definindo a quantidade
E(t) = (x0 )2 + x2
(correspondendo à soma das energia cinética e potencial) temos
dE
= 2x0 x00 + 2xx0 = 2x0 (−x) + 2xx0 = 0
dt
logo a quantidade (x0 )2 + x2 é conservada ao longo do tempo para qualquer solução da
equação diferencial (21). Em particular se x(t) for uma solução com x(0) = x0 (0) = 0
teremos (x0 (t))2 + x(t)2 = 0 para todo o t e portanto x(t) = 0.
Isto permite-nos concluir que os valores de x(0) e x0 (0) determinam completamente a
solução x(t) para todo o t: se x(t) e y(t) forem soluções de (21) com x(0) = y(0) e
APONTAMENTOS DE ÁLGEBRA LINEAR 61

x0 (0) = y 0 (0) então u(t) = x(t) − y(t) é também uma solução de (21) (porque se trata
de uma equação linear!) que satisfaz u(0) = u0 (0) = 0. Mas então u(t) = 0 e portanto
x(t) = y(t).
É agora imediato verificar que as soluções (22) permitem atribuir valores arbitrários a
x(0) e x0 (0) mediante variação dos coeficientes α1 e α2 (na realidade α1 = x(0) e α2 =
x0 (0)) e portanto descrevem todas as soluções de (21).
Suponhamos agora que queremos resolver a equação5
(23) x00 + x = t3
Trata-se agora de uma equação linear não homogénea. Não é no entanto difı́cil descobrir
uma solução particular desta equação tentando encontrar um polinómio que a satisfaça.
Se o fizer irá ver que o único polinómio que satisfaz esta equação é
x(t) = t3 − 6t
A Proposição 8.2 diz-nos então que a solução geral da equação (23) é
x(t) = t3 − 6t + α1 cos t + α2 sen t, com α1 , α2 ∈ R.

9. Valores e vetores próprios


O nosso objetivo para uma boa parte do que resta do semestre é estudar com mais detalhe
transformações lineares de um espaço vetorial nele próprio, isto é transformações lineares
f : V → V onde V é um espaço vetorial. Neste caso há certas questões que podemos
colocar que não fariam sentido para uma transformação linear arbitrária.
Por exemplo podemos perguntar se há alguma direção que seja preservada pela trans-
formação f . Se isso acontecer teremos pelo menos uma descrição muito simples do efeito
de f ao longo dessas direções. É isto o que acontece por exemplo com as rotações do espaço
que preservam o eixo da rotação e das reflexões num plano que preservam tanto as direções
do plano de reflexão como a direção ortogonal ao plano (na qual o sentido é trocado).
Definição 9.1. Seja f : V → V uma transformação linear. Um vetor v ∈ V \ {0} não
nulo diz-se um vetor próprio de f se existe um escalar λ tal que f (v) = λv. Nesse caso λ
diz-se um valor próprio de f e diz-se que v é um vetor próprio associado ao valor próprio
λ.
Exemplo 9.2. Considere-se a transformação linear f : R2 → R2 definida por
f (x, y) = (x + 2y, 2x + y)
ou seja, em notação matricial,
    
x 1 2 x
7→
y 2 1 y

5Fisicamente esta equação corresponde a adicionar ao sistema mecânico considerado anteriormente uma
força exterior dependente do tempo que actua com intensidade t3 /m (onde m é a massa da partı́cula).
62 APONTAMENTOS DE ÁLGEBRA LINEAR

Claramente       
1 2 1 3 1
= =3
2 1 1 3 1
e       
1 2 1 −1 1
= = −1
2 1 −1 1 −1
Pelo que v1 = (1, 1) e v2 = (1, −1) são vetores próprios de f com valores próprios 3 e −1
respetivamente. Note-se que quaisquer múltiplos não nulos destes vetores são ainda vetores
próprios (com os mesmos valores próprios).
Os vetores v1 e v2 formam uma base de R2 em termos da qual é extremamente simples
compreender o efeito que a transformação linear f tem sobre os vetores de R2 : Ao longo da
direção de v1 (a diagonal do primeiro quadrante) f expande por um fator de 3, enquanto
que na direção ortogonal, (a diagonal do quarto quadrante), f reflete. Com base nisto é
fácil descrever o efeito que f teria num desenho qualquer no plano.
Note-se ainda que, uma vez que f (v1 ) = 3v1 e f (v2 ) = −v2 temos que a representação
de f com respeito à base B = (v1 , v2 ) é
 
3 0
Af,B,B =
0 −1
Vimos no exemplo anterior como é fácil descrever uma transformação linear f : V → V
quando existe uma base para V formada por vetores próprios. Isto sugere a seguinte
definição.
Definição 9.3. Uma transformação linear f : V → V diz-se diagonalizável se existe uma
base para V constituı́da por vetores próprios de f . Uma matriz A ∈ Mn×n (R) diz-se
diagonalizável, se a transformação linear de Rn representada por A (com respeito à base
canónica) é diagonalizável.
A razão da palavra diagonalizável é, claro, que a representação de uma transformação
linear diagonalizável numa base B = (v1 , . . . , vn ) de vetores próprios é uma matriz diagonal
λ1 0 · · · 0
 
..
 0 λ2
 . 0  
 . .
 .. . . . . . ... 

0 · · · 0 λn
onde λi é o valor próprio associado a vi .
Pôe-se agora a questão de como encontrar os valores próprios e vetores próprios de uma
transformação linear. Note-se que não existem sempre, por exemplo uma rotação do plano
(por um ângulo que não seja 0 ou π) não fixa nenhuma direção.
Se A for uma matriz n × n que representa f numa dada base temos que tentar achar um
vetor v 6= 0 tal que
Av = λv ⇔ Av = λIn v ⇔ (A − λIn )v = 0
Assim, um valor próprio de f é um escalar λ para o qual a matriz A − λIn tenha núcleo
não trivial, ou equivalentemente, tal que A − λIn não seja invertı́vel. Uma vez achados os
APONTAMENTOS DE ÁLGEBRA LINEAR 63

valores próprios, os vetores próprios são fáceis de determinar - são elementos não triviais
do núcleo.
Embora seja possı́vel achar os valores próprios usando o método de Gauss (tratando λ
como um parâmetro), é útil ter um critério geral para que λ seja um valor próprio. É esse
o nosso próximo objetivo. Iremos ver que há um polinómio nas entradas de uma matriz
quadrada - o determinante da matriz - que se anula precisamente quando a matriz não é
invertı́vel. Quando calculamos esse polinómio para a matriz (A − λIn ) e igualamos a 0
obtemos uma equação para achar os valores próprios λ.
Esse polinómio pode não ter raı́zes reais, mas o Teorema Fundamental da Álgebra
garante-nos que existem sempre raı́zes complexas. Assim, desde que estejamos dispostos
a encarar as matrizes como matrizes complexas, existem sempre vetores próprios. Além
disso, uma matriz genérica (isto é escolhida “ao calhas”) é diagonalizável, até com valores
próprios todos distintos.

10. Determinantes
Queremos procurar um critério para que uma matriz n × n tenha núcleo não trivial
ou, equivalentemente, para que tenha caracterı́stica menor que n. Geometricamente, esta
condição traduz-se no espaço das linhas da matriz ter dimensão menor ou igual a (n − 1).
Pensando primeiro nos casos mais familiares em que n = 2 ou 3, esta condição geométrica
pode ainda traduzir-se no seguinte. Quando n = 2, podemos considerar o paralelogramo
P (v1 , v2 ) = {αv1 + βv2 : 0 ≤ α, β ≤ 1}
que tem um vértice na origem e duas das arestas dadas pelas linhas da matriz, que identi-
ficamos como vetores v1 e v2 de R2 ,
A matriz tem caracterı́stica menor ou igual a 1 se e só se este paralelogramo degenera
num segmento de reta ou num ponto, ou seja, se e só se a área do paralelogramo P (v1 , v2 )
é nula.
Analogamente, uma matriz 3×3 terá caracterı́stica menor que 3 se e só se o paralelipı́pedo
P (v1 , v2 , v3 ) = {αv1 + βv2 + γv3 : 0 ≤ α, β, γ ≤ 1}
(em que v1 , v2 , v3 designam as linhas da matriz identificadas com vetores de R3 ) tiver
volume nulo.
Mais geralmente pode definir-se uma noção de volume n-dimensional para um subcon-
junto de Rn como irão ver em Cálculo 2 e então a condição geral que procuramos é equiv-
alente ao volume do paralelipı́pedo n-dimensional P (v1 , . . . , vn ) ter volume n-dimensional
nulo.
O nosso objetivo é portanto encontrar uma fórmula para a área/volume de um paralel-
ogramo/paralelipı́pedo a partir das coordenadas dos vetores que formam as arestas. A
observação básica que nos permite obter esta fórmula é a seguinte (faça um desenho):
Ao deslizar o ponto final da aresta de um paralelogramo ao longo de uma
linha paralela à outra aresta, a área não se altera
64 APONTAMENTOS DE ÁLGEBRA LINEAR

ou seja
(24) área(P (v1 , v2 )) = área(P (v1 + αv2 , v2 ))
(e claro que o mesmo se verifica se deslizarmos o ponto final de v2 ao longo da direção
v1 ). Esta fórmula diz-nos por exemplo que as áreas dos paralelogramos correspondentes às
matrizes
   
a 0 a 0
e
c d 0 d
são iguais, pois (0, d) pode obter-se de (c, d) deslizando ao longo de (a, 0) (a não ser que
a = 0, mas nesse caso as áreas são nulas e a afirmação permanece verdadeira). Assim, a
área do paralelogramo com arestas (a, 0) e (c, d) é a área do retângulo com arestas (a, 0) e
(0, d), ou seja |ad| (mesmo que a ou d sejam 0). Mas a fórmula (24) diz-nos mais geralmente
que quando aplicamos o método de Gauss a uma matriz 2 × 2, a área do paralelogramo
associado não muda! Supondo que a 6= 0 temos
   
a b L2 − ac L1 a b
−→
c d 0 d − bca
logo concluı́mos que a área de um paralelogramo com arestas (a, b) e (c, d) é

bc
área (P ((a, b), (c, d))) = |a| · d − = |ad − bc|

a
(a leitora interessada poderá verificar que esta fórmula permanece válida mesmo quando
a = 0). E obtemos assim a condição desejada nas entradas da matriz:
 
a b
tem núcleo não trivial sse ad − bc = 0
c d
ou, equivalentemente,
 
a b
é invertı́vel sse ad − bc 6= 0
c d
Podemos fazer um raciocı́nio análogo para matrizes 3 × 3 mas a fórmula obtida será
agora mais complicada. Novamente o volume de um paralelipı́pedo P (v1 , v2 , v3 ) em R3
não se alterará se deslizarmos o ponto final de uma das arestas paralelamente ao plano
determinado pelas outras duas, ou seja, por exemplo
volume P (v1 + αv2 , v2 , v3 ) = volume P (v1 , v2 , v3 )
Portanto o volume de um paralelipı́pedo com arestas as linhas da matriz
 
a b c
 0 e f 
0 0 i
APONTAMENTOS DE ÁLGEBRA LINEAR 65

será o volume do paralelipı́pedo reto com arestas de comprimento |a|, |e| e |i|, e podemos
reduzir a este caso usando eliminação de Gauss:
 

a b c
 
a b c

L −
gb
h− a
L
a b c
3 1
− ad L1 e− db  0 e − db f − dc
 d e f  L2−→  0 e − db f − dc  −→ a
a a

g
L3 − a L1 a a  gb
h− a

gc
g h i 0 h − gb
a
i − gc
a
0 0 i − a
− e− db
(f − dc
a
)
a

Obtemos assim a fórmula


gb

db gc h − a dc
volume (P ((a, b, c), (d, e, f ), (g, h, i))) = |a| e − i − − (f − )

a a db a
e− a

que, reduzindo ao mesmo denominador e cancelando alguns termos se transforma em:

volume (P ((a, b, c), (d, e, f ), (g, h, i))) = |aei + bf g + cdh − ceg − bdi − af h|

Fica como exercı́cio verificar que esta fórmula é válida mesmo nos casos em que a = 0, ou
a 6= 0 mas e − dba
= 0, nos quais a eliminação de Gauss feita acima tem de ser modificada.
O cálculo anterior sugere que não será prático obter e manipular diretamente uma ex-
pressão para o volume de um paralelipı́pedo n-dimensional. Com efeito, para n = 4 veremos
que a fórmula análoga tem 24 termos, para n = 5, 120 termos, e em geral o número de
termos é n!. Uma expressão de tal complexidade só pode ser manipulada conceptualmente.
Abstraindo as propriedades, não do volume, mas da expressão mais fundamental que
obtivemos acima para n = 2, 3 cujo módulo é o volume, obtemos a seguinte definição.

Definição 10.1. Uma função determinante para as matrizes n × n é uma função

det : Mn×n (R) → R

que se denota por

a11 · · · a1n a11 · · · a1n


 

det .. ..  ou
.. ..
 . .
. .

an1 · · · ann an1 · · · ann

que satisfaz as seguintes propriedades.


(i) Multilinearidade: Para cada 1 ≤ i ≤ n temos

a11 · · · a 1n a11 · · · a1n a11 · · · a1n
.. .. .. .. .. ..

. . . . . .


ai1 + bi1 ain + bin = ai1 ain + bi1 bin

.. .. .
.. .. .. ..

. . . . .
an1 ··· ann an1 · · · ann an1 · · · ann
66 APONTAMENTOS DE ÁLGEBRA LINEAR

e, para α um escalar qualquer,



a11 · · · a1n a11 · · · a1n
.. .. .. ..

. . . .


αai1 αain = α ai1 ain

. .. .. ..
..

.


. .
an1 · · · ann an1 · · · ann
(ii) Alternância: det A = 0 se duas linhas da matriz A forem iguais.
(iii) Normalização: det In = 1.
Em concreto, no caso das matrizes 2 × 2, a primeira propriedade diz por exemplo que

2 1 2 1 2 1 2 1 2 1
= −2
1 + 3 2 + 4 = 1 2 + 3 4 e −2 · 3 −2 · 4

3 4
Observação 10.2. Se quiséssemos abstrair as propriedades do volume que usámos para
chegar às fórmulas para a área de um paralelogramo e o volume de um paralelipı́pedo, a
única alteração que terı́amos de fazer nas propriedades (i) a (iii) acima seria substituir
α por |α| do lado direito da segunda igualdade na propriedade (i), e insistir que a função
volume tomasse valores em R+ 0.

Identificando as linhas de uma matriz n × n com vetores de Rn , podemos pensar na


função determinante como uma função D : Rn × · · · × Rn → R que associa um escalar a
um n-tuplo (v1 , . . . , vn ) de vetores de Rn (vi é a i-ésima linha da matriz). Deste ponto de
vista, a propriedade de multilinearidade escreve-se
(25) D(v1 , . . . , αvi + βvi0 , . . . , vn ) = αD(v1 , . . . , vi , . . . , vn ) + βD(v1 , . . . , vi0 , . . . , vn )
onde v1 , . . . , vn ∈ Rn são vetores arbitrários e α, β escalares arbitrários. A equação (25)
diz que, para cada i entre 1 e n, a função Di : Rn → R que se obtém quando fixamos todos
os vectores excepto o i-ésimo,
Di (v) = D(v1 , . . . , vi−1 , v, vi+1 , . . . , vn )
é linear (ou seja, um elemento do dual de Rn ).
Em geral, uma função D : V × · · · × V → R satisfazendo (25) diz-se uma função multi-
linear 6 (é linear em cada variável independentemente).
A razão para o nome da segunda propriedade na definição de determinante é a seguinte.
Proposição 10.3. Seja D : V × · · · × V → R uma função multilinear. Então as seguintes
condições são equivalentes
(i) D(v1 , . . . , vn ) = 0 se vi = vj para algum i 6= j.
(ii) Se i 6= j, então D(v1 , . . . , vi , . . . , vj , . . . , vn ) = −D(v1 , . . . , vj , . . . , vi , . . . , vn ) para to-
dos os v1 , . . . , vn (isto é, a troca de dois argumentos tem como efeito a troca de sinal
do valor da função).
Dem.
6Também se chama um tensor-n covariante em V .
APONTAMENTOS DE ÁLGEBRA LINEAR 67

(i) ⇒ (ii) Supondo que i < j, e aplicando a linearidade primeiro na i-ésima variável e depois
na j-ésima obtemos
D(v1 , . . . , vi + vj , . . . , vi + vj , . . . , vn ) = D(v1 , . . . , vi , . . . , vi + vj , . . . , vn )+
D(v1 , . . . , vj , . . . , vi + vj , . . . , vn ) =
= D(v1 , . . . , vi , . . . , vi , . . . , vn ) + D(v1 , . . . , vi , . . . , vj , . . . , vn )
+D(v1 , . . . , vj , . . . , vi , . . . , vn ) + D(v1 , . . . , vj , . . . , vj , . . . , vn )
Substituindo os termos com argumentos repetidos por 0 obtém-se
0 = 0 + D(v1 , . . . , vi , . . . , vj , . . . , vn ) + D(v1 , . . . , vj , . . . , vi , . . . , vn ) + 0
que é equivalente à condição (ii).
(ii) ⇒ (i) Se vi = vj , então a troca do i-ésimo argumento com o j-ésimo não tem nenhum
efeito. Portanto
D(v1 , . . . , vi , . . . , vj , . . . , vn ) = −D(v1 , . . . , vj , . . . , vi , . . . , vn ) = −D(v1 , . . . , vi , . . . , vj , . . . , vn )
e portanto D(v1 , . . . , vi , . . . , vj , . . . , vn ) = 0.

É um resultado importante que as propriedades (i) a (iii) na definição de determinante
especificam completamente essa função:
Teorema 10.4. Existe uma única função determinante det Mn×n (R) → R
A demonstração deste teorema segue o padrão usual: iremos ver que só há uma possibili-
dade para uma tal função (obtendo no processo uma fórmula para o determinante) e depois
verificar que essa única possibilidade satisfaz de facto os axiomas da definição. Começamos
por ilustrar este processo usando os axiomas para ver que a única função determinante nas
matrizes 2 × 2 é  
a b
det = ad − bc
c d
Sendo a, b, c, d ∈ R quaisquer e aplicando a linearidade do determinante na primeira linha
da matriz temos
a b
= a 1 0 + b 0 1


c d c d c d
e aplicando agora a linearidade na segunda linha obtemos
   
a b 1 0 1 0 0 1 0 1
c d = a c 1 0 + d 0 1 + b c 1 0 + d 0 1

Os primeiro e último termos do lado direito do sinal de igual na expressão acima são nulos
porque as linhas das matrizes em questão estão repetidas. Pelas propriedades (iii) e (ii)
respetivamente temos
1 0 0 1
1 0 = −1
=1 e
0 1
68 APONTAMENTOS DE ÁLGEBRA LINEAR

portanto
a b
c d = ad − bc

é a única função real das matrizes 2 × 2 que satisfaz as condições da Definição 10.1.
Façamos agora o caso mais realista de uma matriz 3 × 3. Assumindo que existe a função
determinante e usando linearidade na primeira linha obtemos

a b c 1 0 0 0 1 0 0 0 1

(26) d e f = a d e f + b d e f + c d e f

g h i g h i g h i g h i
Desenvolvendo o primeiro termo do lado direito do sinal de igual usando linearidade na
segunda linha obtemos
 
1 0 0 1 0 0 1 0 0 1 0 0

a d e f = a d 1
 0 0 + e 0 1 0 + f 0 0 1


g h i g h i g h i g h i
O primeiro termo na soma do lado direito é nulo porque a primeira linha está repetida.
Da mesma forma, cada parcela do lado direito em (26) vai dar origem a dois termos não
nulos quando aplicarmos linearidade ao longo da segunda linha da matriz. Podemos agora
aplicar linearidade ao longo da terceira linha a cada um destes 6 termos. Por exemplo,
para o primeiro dos seis resultaria
 
1 0 0 1 0 0 1 0 0 1 0 0

ae 0 1 0 = ae g 0 1 0 + h 0 1 0 + i 0 1 0  = aei
g h i 1 0 0 0 1 0 0 0 1
uma vez que os dois primeiros termos da soma anterior têm linhas repetidas e o determi-
nante da matriz identidade é 1. Aplicando o mesmo raciocı́nio para os restantes termos não
nulos na expansão até à segunda linha obtemos a seguinte expressão para o determinante:

1 0 0 0 1 0 0 1 0 0 0 1 0 0 1

aei + af h 0 0 1 + bdi 1 0 0 + bf g 0 0 1 + cdh 1 0 0 + ceg 0 1 0
0 1 0 0 0 1 1 0 0 0 1 0 1 0 0
Os determinantes das matrizes com 0s e 1s são ±1 consoante o número de vezes qye temos
que trocar um par de linhas para transformar a matriz na identidade é par ou ı́mpar.
Recuperamos assim a expressão para o determinante de uma matriz 3 × 3:

a b c

d e f = aei − af h − bdi + bf g + cdh − ceg

g h i
Procedendo desta forma para uma matriz n×n é agora claro que vamos obter uma expressão
para o determinante. Haverá um termo não nulo na expressão para cada matriz de 1s e 0s
que tenha exatamente um 1 em cada linha, e tal que os 1s nunca apareçam repetidos numa
coluna. Para descrever estes termos por meio de uma expressão necessitamos de alguma
terminologia.
APONTAMENTOS DE ÁLGEBRA LINEAR 69

Definição 10.5. Uma permutação do conjunto {1, . . . , n} é uma função bijetiva


σ : {1, . . . , n} → {1, . . . , n}
Designamos por Σn o conjunto de todas estas permutações.
Uma permutação descreve uma troca de ordem. Deve ser familiar do ensino secundário
que o número de elementos de Σn é n!. Os termos na expansão do determinante vão
corresponder precisamente às permutações: se chamarmos σ(i) à coluna em que aparece
o 1 na linha i, a condição que não apareçam dois 1s na mesma coluna é σ(i) 6= σ(j) para
i 6= j, ou seja é a injetividade da função σ. Como uma função injetiva de um conjunto
com n elementos para ele próprio é necessariamente uma bijeção, conclui-se que a função
determinada por uma matriz de 0s e 1s satisfazendo as condições indicadas é uma bijeção.
O termo do determinante de A correspondente a uma permutação σ será dado pelo
produto das entradas de A que ocorriam nas posições onde estão os 1s, ou seja o produto
dos aiσ(i) com i = 1, . . . , n. O termo terá um sinal que será ± consoante o número de vezes
que temos que trocar pares de linhas para transformar a matriz de 0s e 1s na identidade
é par ou impar. Chamando a este sinal sgn(σ) - o sinal da permutação σ - obtemos a
seguinte expressão para o determinante:
X
(27) det(A) = sgn(σ)a1σ(1) a2σ(2) · · · anσ(n)
σ∈Σn

O argumento anterior torna claro que se existir uma função determinante, ela é única (tem
que ser dada pela fórmula (27)!). Mas neste momento não é ainda claro que uma tal função
exista. Há muitas maneiras de trocar pares de linhas de forma a obter a matriz identidade
a partir de uma matriz de 0s e 1s. Se para uma das maneiras o número de trocas fosse
par e para outra maneira fosse ı́mpar concluir-se-ia que a função determinante não podia
existir.
Não é fácil verificar diretamente que o sinal de uma permutação está bem definido. Em
vez disso vamos dar uma construção indutiva do determinante. Uma vez que isto esteja
feito teremos implicitamente provado que o sinal de uma permutação está bem definido!
Será necessariamente
(
1 se j = σ(i)
(28) sgn(σ) = det A(σ) com A(σ) a matriz com entradas aij =
0 caso contrário.

A matriz A(σ) diz-se uma matriz de permutação. O efeito que tem nas coordenadas de um
vetor linha ou coluna é uma permutação das coordenadas. Por exemplo,
x1 xσ(1)
   
 x2   xσ(2) 
A(σ) 
 ...  =  ... 
  

xn xσ(n)

É um bom exercı́cio ver o que acontece quando se multiplica à esquerda por um vetor linha.
70 APONTAMENTOS DE ÁLGEBRA LINEAR

Dem. do Teorema 10.4. Já vimos que se existir uma função determinante ela é única (e
dada pela fórmula (27)). Vamos ver por indução em n que existe uma função determinante
para matrizes n × n. Quando n = 1, é imediato que
det([a11 ]) = a11
Suponhamos que já definimos uma função determinante nas matrizes n × n. Dada uma
matriz A do tipo (n + 1) × (n + 1), seja A1i a matriz n × n que se obtém de A suprimindo
a primeira linha e a i-ésima coluna. Vamos definir
(29) det(A) = a11 det(A11 ) − a12 det(A12 ) + . . . + (−1)n a1(n+1) det A1(n+1)
fórmula esta que é motivada pela relação entre os determinantes para matrizes 3 × 3 e 2 × 2
que obtivemos anteriormente.
Temos a verificar que det A verifica as condições (i) − (iii) da Definição 10.1. A condição
(i) é verificada porque a expressão (29) é claramente linear na primeira linha da matriz A e,
por hipótese de indução, nas restantes, uma vez que as funções det(A1i ) são multilineares.
A condição (iii) também é verificada porque as entradas na primeira linha da matriz
identidade In+1 com excepção da primeira são todas nulas. Uma vez que (I(n+1) )11 = In
obtemos
det(In+1 ) = 1 · det(In ) = 1.
Resta-nos verificar que se uma das linhas de A está repetida então det A = 0. Se a
repetição ocorrer nas linhas i e j com i, j ≥ 2 então todos os termos det(A1i ) em (29) se
anulam (por hipótese de indução) e portanto det A = 0. Se i = 1, podemos assumir que
j = 2 uma vez que, por hipótese de indução, o termo direito da equação (29) troca de sinal
quando trocamos a linha j de A com a segunda linha.
Suponhamos assim que A tem a primeira e segunda linha iguais. Se A é uma matriz
2 × 2 a expressão (29) é
det(A) = a11 a22 − a12 a21 = a11 a12 − a12 a11 = 0
Se n > 1, podemos, por hipótese de indução aplicar a expressão (29) às matrizes n × n A1i .
A entrada 1j na primeira linha de A1i é igual a
(
a2j se j < i
a2(j+1) se j > i
portanto
i−1
X n+1
X
det(A1j ) = (−1)j−1 a2j det(A12|ij ) + (−1)j a2j det(A12|ij )
j=1 j=i+1

onde A12|ij denota a matriz (n − 1) × (n − 1) que se obtém de A suprimindo as primeiras


duas linhas e as colunas i e j. Substituindo esta expressão em (29) vemos que há dois
termos nos quais aparece det(A12|ij ) para i, j dados com 1 ≤ i < j ≤ n:
(−1)i−1 a1i · (−1)j−2 a2j det(A12|ij )
APONTAMENTOS DE ÁLGEBRA LINEAR 71

que é o (j − 1)-ésimo termo da expansão do termo (−1)i−1 a1i det(A1i ) à direita do sinal de
igual em (29) e
(−1)j−1 a1j · (−1)i−1 a2i det(A12|ij )
que vem da expansão do termo (−1)j−1 a1j det(A1j ). Uma vez que as primeiras duas linhas
da matriz são iguais, temos
(−1)i−1 a1i · (−1)j−2 a2j det(A12|ij ) + (−1)j−1 a1j · (−1)i−1 a2i det(A12|ij ) = 0
o que conclui a demonstração. 
Observação 10.6. Uma função f : Mn×n (R) → R satisfazendo as propriedades (i) e (ii)
na Definição 10.1 chama-se uma função multilinear alternante. O argumento usado na
demonstração de unicidade do determinante aplicado a uma tal função (sem qualquer al-
teração) mostra que
X
f (A) = sgn(σ)a1σ(1) · · · anσ(n) f (In )
σ∈Σn

pelo que o valor de uma tal função em qualquer matriz é completamente determinado pelo
valor que assume na matriz identidade. Mas sendo λ ∈ R qualquer, a função A 7→ λ det(A)
é uma função multilinear alternante que assume o valor λ em In , pelo que se conclui que
toda a função multilinear alternante é da forma
f (A) = λ det(A)
em que λ = f (In ).
Vamos agora ver algumas propriedades importantes do determinante que nos ajudam a
calculá-lo.
Definição 10.7. Seja A uma matriz n × n. Para 1 ≤ i, j ≤ n designamos por Aij a
matriz (n − 1) × (n − 1) que se obtém de A omitindo a i-ésima linha e a j-ésima coluna.
O menor-ij de A é o número det Aij e o cofator-ij de A é (−1)i+j det Aij . A matriz n × n
cuja entrada ij é o cofator-ij diz-se a matriz dos cofatores de A e denota-se por cof A.
Proposição 10.8 (Propriedades do determinante). Sejam A e B matrizes n × n.
(i) Expansão de Laplace Sendo 1 ≤ i ≤ n, temos
n
X
det(A) = (−1)i+j aij det(Aij )
j=1

onde Aij é a matriz que se obtém de A omitindo a linha i e a coluna j. A fórmula


acima chama-se a expansão de Laplace para o determinante ao longo da linha i.
(ii) det(AB) = det(A) det(B)
(iii) det(AT ) = det(A)
(iv) A(cof(A))T = det(A)In .
Antes de vermos a demonstração destas propriedades notemos as seguintes consequências.
72 APONTAMENTOS DE ÁLGEBRA LINEAR

Corolário 10.9 (Expansão de Laplace ao longo de colunas). Sendo 1 ≤ j ≤ n, temos


n
X
det(A) = (−1)i+j aij det(Aij )
i=1

Dem. A expansão ao longo da coluna j no enunciado é exatamente a expansão ao longo


da linha j de AT . Logo calcula det AT = det A. 
Corolário 10.10. Uma matriz quadrada A é invertı́vel sse det A 6= 0 e nesse caso
1
A−1 = (cof A)T
det A
Dem. Se A é invertı́vel então det(A) det(A−1 ) = det(AA−1 ) = det(In ) = 1 logo det(A) 6= 0
e
1
det(A−1 ) =
det A
Reciprocamente se det A 6= 0, a Proposição 10.8 (iv) diz-nos que
 
1 T
A (cof A) = In
det A
pelo que A é invertı́vel (cf. Proposição 7.8 (vi)) sendo a inversa descrita pela fórmula no
enunciado. 

Esta fórmula para a inversa de uma matriz tem mais utilidade teórica do que prática
porque não é fácil calcular determinantes de matrizes grandes. É no entanto muito útil
para matrizes 2 × 2, caso em que afirma que
 −1  
a b 1 d −b
= quando ad − bc 6= 0
c d ad − bc −c a
Dem. da Proposição 10.8. (i) Para i = 1 a expansão de Laplace é simplesmente a ex-
pressão indutiva (29) usada para demonstrar a existência do determinante. Se i > 1,
seja à a matriz que se obtém de A trocando a linha 1 com a linha i. Aplicando (29)
obtemos
Xn n
X
(30) det(A) = − det(Ã) = − (−1)1+j ã1j det(Ã1j ) = − (−1)1+j aij det(Ã1j )
j=1 j=1

Notamos agora que as matrizes Ã1j e Aij diferem pela troca da (i−1)-ésima linha com
o bloco formado pelas linhas que a precedem - o que corresponde a (i − 2)-trocas de
pares de linhas à medida que a linha (i − 1) “flutua até chegar à superfı́cie”. Portanto
det(Ã1j ) = (−1)i−2 det Aij
Substitituindo em (30) obtemos a fórmula pretendida.
APONTAMENTOS DE ÁLGEBRA LINEAR 73

(ii) Fixada uma matriz B, considere-se a função f : Mn×n (R) → R definida por
f (A) = det(AB)
Trata-se de uma função multilinear e alternante das linhas de A pela definição do pro-
duto de matrizes e pelas propriedades (i) e (ii) na definição de função determinante.
Uma vez que f (In ) = det(B), a Observação 10.6 diz-nos que f (A) = det(A) det(B).
(iii) A expressão (27) diz-nos que
X X
det(AT ) = sgn(σ)aT1σ(1) · · · aTnσ(n) = sgn(σ)aσ(1)1 · · · aσ(n)n
σ∈Σn σ∈Σn

Seja σ −1 : {1, . . . , n} → {1, . . . , n} a permutação inversa de σ (isto é, a permutação


que verifica σ −1 (σ(i)) = i para i = 1, . . . , n). Então
σ(i) = j ⇔ i = σ −1 (j)
e portanto
aσ(1)1 · · · aσ(n)n = a1σ−1 (1) · · · anσ−1 (n)
(do lado direito do sinal de igual aparecem as mesmas entradas da matriz que do lado
esquerdo mas por outra ordem; estão agora ordenados pelo primeiro ı́ndice, enquanto
que à esquerda estão ordenados pelo segundo). Temos assim
X
(31) det(AT ) = sgn(σ)a1σ−1 (1) · · · anσ−1 (n)
σ∈Σn

As matrizes A(σ) associadas às permutações (ver (28)) colocam na coordenada i de um


vetor coluna a coordenada que estava na posição σ(i). Logo o efeito de A(σ)A(σ −1 )
num vetor coluna é colocar na coordenada i a componente xσ−1 (σ(i)) = xi . Portanto
A(σ)A(σ −1 ) = In ⇒ det(A(σ)) det A(σ −1 ) = 1 ⇒ det(A(σ)) = det(A(σ −1 ))
onde a última implicação usa que os determinantes das matrizes de permutação é ±1.
Notando que sgn(σ) = det A(σ) e substituindo em (31) temos
X
det(AT ) = sgn(σ −1 )a1σ−1 (1) · · · anσ−1 (n)
σ∈Σn

Quando σ percorre todos os elementos de Σn , o mesmo sucede com a sua inversa σ −1


pelo que a expressão à direita na igualdade acima é exatamente a fórmula (27) para
o determinante de A. Isto conclui a demonstração.
(iv) A fórmula no enunciado diz-nos que o produto da linha i da matriz A pela coluna j da
matriz (cof A)T é det(A) se i = j e 0 caso contrário. A expressão para este produto é
X n Xn n
X
T
aik ((cof A) )kj = aik (cof A)jk = aik (1)j+k det(Ajk )
k=1 k=1 k=1
Quando i = j, a expressão anterior é a expansão de Laplace para o determinante de
A ao longo da linha i e é portanto igual a det A. Para i 6= j, a expressão é a expansão
de Laplace ao longo da linha j da matriz que se obtém de A repetindo a linha j na
linha i, e é portanto igual a 0.
74 APONTAMENTOS DE ÁLGEBRA LINEAR


Observação 10.11. É instrutivo pensar em escrever explicitamente a igualdade indicada
na Proposição 10.8(ii) em termos das entradas das matrizes envolvidas. Mesmo para ma-
trizes 3 × 3 a complexidade é enorme! É fácil no entanto convencer-se que, pelo menos a
menos de sinal, a igualdade se deve verificar:
Atendendo à Proposição 10.8(iii), | det A| é o volume do paralelı́pipedo que tem por
arestas as colunas da matriz A, paralelipı́pedo este que é a imagem do cubo com arestas
unitárias em Rn pela transformação linear x 7→ Ax . Segue-se que a imagem de um cubo
qualquer em Rn por esta transformação tem volume igual a | det(A)| vezes o volume do
cubo original. Verão em Cálculo 2 que o volume de um subconjunto (razoável) de Rn se
define aproximando esse conjunto por cubos muito pequenos e passando ao limite. Segue-se
então que | det A| é o fator pelo qual a transformação linear x 7→ Ax multiplica volumes.
Uma vez que AB é a matriz que representa a composta das transformações lineares repre-
sentadas por A e B, segue-se que o fator pela qual AB multiplica volumes é | det(A)|| det(B)|.
Exemplo 10.12. Vamos calcular o determinante

2 0 3 0

0 0 1 0

1 4 5 7

1 8 9 3
usando a expansão de Laplace. Uma vez que a segunda linha tem 3 zeros, é mais eficiente
fazer a expansão ao longo dessa linha. Obtemos

0 3 0 2 3 0 2 0 0 2 0 3

2+1

2+2

2+3

0·(−1) 4 5 7 +0·(−1) 1 5 7 +1·(−1) 1 4 7
+0·(−1)2+4 1 4 5

8 9 3 1 9 3 1 8 3 1 8 9
e fazendo agora a expansão de Laplace do único termo não nulo ao longo da primeira linha
obtém-se
2 0 0
1+1 4 7

− 1 4 7 = −2 · (−1)
= −2(4 · 3 − 7 · 8) = 88.
8 3
1 8 3
A fórmula para a inversa de uma matriz em termos do determinante conduz à seguinte
fórmula explı́cita para a solução de um sistema linear quando a matriz dos coeficiente do
sistema é invertı́vel.
Proposição 10.13 (Regra de Cramer). Seja A uma matriz n×n invertı́vel e b uma matriz
n × 1. Então a componente xi da solução do sistema linear
Ax = b
é dada pela fórmula
det Ai
xi =
det A
onde Ai é a matriz que se obtém de A substituindo a coluna i de A por b.
APONTAMENTOS DE ÁLGEBRA LINEAR 75

Dem. A componente xi da solução do sistema é a i-ésima entrada de A−1 b e é portanto


dada por
n
X
xi = cij bj
j=1
−1
onde cij é a entrada ij da matriz A . Pelo Corolário 10.10 esta entrada é
det(Aji )
cij = (−1)i+j
det A
pelo que
n
1 X
xi = (−1)i+j bj det(Aji )
det A j=1
O somatório na expressão anterior é exatamente o desenvolvimento de Laplace ao longo
da coluna i da matriz Ai do enunciado. Isto conclui a demonstração. 
Exemplo 10.14. Vamos achar a coordenada y da solução do sistema

2x + 3y + z = 3

x−y+z =4

x + 2y − z = 5

Pela regra de Cramer temos



2 3 1

1 4 1

1 5 −1 11
y = =−
2 3 1
7
1 −1 1

1 2 −1
Definição 10.15. Uma matriz quadrada A diz-se triangular superior se aij = 0 para i > j
(isto é se todas as entradas abaixo da diagonal principal são nulas) e triangular inferior se
aij = 0 para i < j (isto é se todas as entradas acima da diagonal principal são nulas).
É imediato da expansão de Laplace que o determinante de uma matriz triangular (su-
perior ou inferior) é igual ao produto das entradas na diagonal

λ1 ∗ · · · ∗

.. ..
0 λ2
. .
. . = λ1 · · · λn
.. . . . . . ...

0 · · · 0 λn
Uma generalização da última propriedade que é muito útil diz respeito ao cálculo de deter-
minantes de matrizes escritas por blocos. Podemos pensar numa matriz de grande dimensão
como uma “matriz de matrizes” juntando algumas entradas para formar matrizes de menor
dimensão.
76 APONTAMENTOS DE ÁLGEBRA LINEAR

Por exemplo podemos escrever a matriz


 
1 2 5 6 7  
A B
(32)  3 4 8 1 2 =

C D
0 3 4 5 6
com A, B, C, D os blocos respetivamente 2 × 2, 2 × 3, 1 × 2, e 1 × 3 dados por
   
1 2 5 6 7    
A= , B= , C= 0 3 , D= 4 5 6
3 4 8 1 2
Por vezes é útil calcular com matrizes separadas por blocos. É claro que a soma e o produto
por escalar se podem fazer bloco a bloco. Mais interessante é que o produto é dado pela
fórmula habitual para o produto de matrizes mas com os escalares substituı́dos por blocos
(desde que os produtos de matrizes em questão façam sentido). Isto é uma consequência
imediata da definição de produto de matrizes. Por exemplo, considerando a matriz por
blocos      
  2 1 1 2 1 1
X Y = com X = eY =
3 4 2 3 4 2
O produto desta matriz pela matriz (32) é
 
  A B  
X Y = XA + Y C XB + Y D
C D
Por exemplo a entrada 21 da matriz produto é igual a
3 · 1 + 4 · 3 + 2 · 0 = (3 · 1 + 4 · 3) + 2 · 0
onde do lado direito do sinal de igual temos dentro de parentesis a entrada 21 do bloco
XA e depois a entrada 21 do bloco Y C. A relevância destas decomposições para o cálculo
de determinantes é a seguinte
Proposição 10.16. O determinante de uma matriz triangular por blocos com blocos quadra-
dos na diagonal é o produto dos determinantes dos blocos diagonais

A1 ∗ · · · ∗

. .
0 A2 . . ..

. . = |A1 | · · · |An |
.. . . . . . ...

0 · · · 0 An

Dem. É um exercı́cio da Ficha 11. 


Exemplo 10.17.

1 0 5 11 6

3 2 3 27 5

0 1 0 ·4· 3 2

= 2 · 4 · 10 = 80
0 4 2 2 =

0 3 2 1 4
0 0 3 2
0 0 0 1 4
APONTAMENTOS DE ÁLGEBRA LINEAR 77

Finalmente, notemos que se V é um espaço vetorial de dimensão finita, pode definir-se


o determinante de uma transformação linear T : V → V . Sendo B uma base ordenada de
V definimos
det(T ) = det(AT,B,B )
Temos que verificar que este número é independente da escolha de B. Se B 0 é outra base
e S = SB→B 0 a matriz de mudança de coordenadas então
AT,B 0 ,B 0 = SAT,B,B S −1
e portanto
1
det(AT,B 0 ,B 0 ) = det(S) det(AT,B,B ) det(S −1 ) = det(S) det(AT,B,B ) = det(AT,B,B )
det(S)
Não seria fácil neste momento explicar-vos como definir intrinsecamente o determinante de
uma transformação linear, sem apelar à sua representação matricial.

11. Mais sobre valores e vetores próprios


Recorde-se que a nossa motivação para o estudo do determinante foi precisamente a busca
de uma equação que caracterizasse os valores próprios de uma matriz (ou transformação
linear). Agora que dispomos dessa equação, o seu estudo vai trazer-nos bastante informação
acerca da transformação linear em questão.
Definição 11.1. Seja A uma matriz n × n. O polinómio caracterı́stico de A é o polinómio
definido pela expressão
p(λ) = det(A − λIn )
Tendo em conta a fórmula (27) para o determinante vemos que o polinómio caracterı́stico
de uma matriz n × n tem grau exatamente n (o termo de grau n resulta do produto
das entradas na diagonal e é igual a (−λ)n ). A propriedade fundamental do polinómio
caracterı́stico é que as suas raı́zes ou zeros são exatamente os valores próprios de A:
p(λ) = 0 ⇔ det(A − λIn ) = 0 ⇔ (A − λIn ) não é invertı́vel ⇔ N (A − λIn ) 6= {0}
sendo que a última condição diz, por definição, que λ é um valor próprio de A.
Enunciamos agora um resultado fundamental cuja demonstração irão ver no próximo ano
na cadeira de Análise Complexa, e que garante em particular que toda a matriz quadrada
tem um valor próprio, pelo menos se for vista como uma matriz de números complexos.
Teorema 11.2 (Teorema Fundamental da Álgebra). Qualquer polinómio de grau k
p(x) = a0 + a1 x + . . . ak xk
com coeficientes ai ∈ C (e ak 6= 0) pode ser escrito de forma única a menos de troca de
ordem dos fatores na forma
(33) ak (x − λ1 )n1 (x − λ2 )n2 · · · (x − λk )nk
com λi ∈ C distintos, e ni números naturais.
78 APONTAMENTOS DE ÁLGEBRA LINEAR

Claro que os números λi na expressão (33) são as raı́zes do polinómio p(x). O expoente
ni diz-se a multiplicidade da raı́z λi .
Observação 11.3. O Teorema Fundamental da Álgebra é análogo ao Teorema Funda-
mental da Aritmética que diz que qualquer número natural se pode escrever de forma única
como um produto de potências de números primos a menos de troca de fatores.
Definição 11.4. Sendo λ um valor próprio de uma matriz quadrada A, chama-se
• Espaço próprio de λ ao subespaço N (A − λIn ) de Rn .
• Multiplicidade geométrica de λ, mg (λ) à dimensão do espaço próprio de λ.
• Multiplicidade algébrica de λ, ma (λ) à multiplicidade de λ como raı́z do polinómio
caracterı́stico de A.
Os elementos do espaço próprio de λ são os vetores próprios de λ juntamente com
0, pelo que a multiplicidade geométrica é o número máximo de vetores próprios de λ
linearmente independentes. Veremos em breve que mg (λ) ≤ ma (λ). Note-se que a soma
das multiplicidades algébricas de todos os valores próprios é igual a n (que é o grau do
polinómio caracterı́stico), portanto uma matriz é diagonalizável se e só se as multiplicidades
algébrica e geométrica coincidem para todos os valores próprios.
Exemplo 11.5. Consideremos a matriz
 
3 0 0
A= 0 1 1 
0 −1 1
O seu polinómio caracterı́stico é

3−λ 0 0

p(λ) = 0
1−λ 1 = (3 − λ)((1 − λ)2 + 1) = (3 − λ)(λ − (1 + i))(λ − (1 − i))
0 −1 1 − λ
Os valores próprios de A são portanto 3, 1 + i, 1 − i que têm todos multiplicidade algébrica
1. Note-se que as raı́zes complexas formam um par de complexos conjugados. Isto não é
uma coincidência. Se
p(x) = a0 + a1 x + . . . + an xn
é um polinómio real, uma vez que a conjugação preserva a soma e produto de números
complexos (ou seja, z + w = z + w e zw = zw) temos para λ ∈ C,
n
p(λ) = a0 + a1 λ + an λ = a0 + a1 λ + . . . + an (λn ) = p(λ)
onde usámos que ai = ai porque os ai ∈ R. Assim, se λ é uma raı́z complexa de p, o mesmo
sucede com λ. Adicionalmente, é um exercı́cio simples verificar que as multiplicidades das
raı́zes λ e λ são iguais.
Achemos os espaços próprios de A. O espaço próprio de 3 é N (A−3I3 ) que é claramente
igual a {(x, 0, 0) : x ∈ R}. Os vetores próprios de 3 são portanto os vetores não nulos que
pertencem ao eixo dos xx.
APONTAMENTOS DE ÁLGEBRA LINEAR 79

O espaço próprio de 1 + i é
 
2−i 0 0
N  0 −i 1 
0 −1 −i
cujos elementos são as soluções do sistema

(2 − i)x = 0
 (
x=0
−iy + z = 0 ⇔

−y − iz = 0 z = iy

donde se conclui que o espaço próprio de 1 + i é


{α(0, 1, i) : α ∈ C} ⊂ C3
Não é necessário fazer contas para achar o espaço próprio de 1 − i. De facto, se A é
uma matriz real com valor próprio λ e v ∈ Cn é um vetor próprio de λ então, novamente
pelas propriedades da conjugação temos
Av = Av = λv = λv
onde A e v designam respetivamente a matriz e o vetor que se obtém de A e v conjugando
cada componente, e na primeira igualdade usámos que A = A uma vez que A é real.
Portanto v é um vetor próprio associado a λ se e só se v é um vetor próprio associado a
λ.
O espaço próprio de (1 − i) é portanto
{α(0, 1, −i) : α ∈ C} ⊂ C3
Proposição 11.6. Seja A uma matriz n × n complexa e µ um valor próprio de A. Então
a multiplicidade geométrica de µ é menor ou igual à multiplicidade algébrica de µ.
Dem. Seja k a multiplicidade algébrica de µ, suponhamos por absurdo que v1 , . . . , vk+1 são
vetores próprios de µ linearmente independentes. Sejam vk+2 , . . . , vn vetores de Cn tais
que B = (v1 , . . . , vn ) é uma base ordenada de Cn .
Consideremos a transformação linear T : Cn → Cn determinada por T x = Ax. Uma vez
que T vi = µvi para i = 1, . . . , k + 1, a matriz que representa T na base B é triangular
superior por blocos da forma
µ 0 ··· 0
 
. .. .
 0 .. . .. 
 
D G

AT,B,B = com D =  . .  ∈ M(k+1)×(k+1) (C)

0 H  .. .. . .. 0 
0 ··· 0 µ
Se S = SB→Bcan for a matriz de mudança de coordenadas da base B para a base canónica
temos
A = SAT,B,B S −1
80 APONTAMENTOS DE ÁLGEBRA LINEAR

e portanto os polinómios caraterı́sticos de A e de AT,B,B são iguais:

det(A − λIn ) = det(SAT,B,B S −1 − λIn ) = det(SAT,B,B S −1 − λSIn S −1 )


= det(S(AT,B,B − λIn )S −1 ) = det(S) det(AT,B,B − λIn ) det(S −1 )
1
= det(S) det(AT,B,B − λIn ) = det(AT,B,B − λIn )
det(S)

Mas isto é uma contradição porque claramente (λ − µ)k+1 divide o polinómio caracterı́stico
de AT,B,B (que é igual a det(D − λIk+1 ) det(H − λIn−k−1 ) = (µ − λ)k+1 det(H − λIn−k−1 ))
mas, por hipótese, não divide o polinómio caracterı́stico de A. 

Proposição 11.7. Seja T : V → V uma transformação linear. Se v1 , . . . , vk são vetores


próprios de T associados a valores próprios distintos λ1 , . . . , λk então {v1 , . . . , vk } é um
conjunto linearmente independente.

Dem. Sejam α1 , . . . , αk escalares tais que

α1 v1 + . . . + αk vk = 0

Temos a ver que os αi ’s são todos nulos. Uma vez que, por hipótese, T vi = λi vi temos
(
0 se i ≥ 2
(T −λ2 Id)◦· · ·◦(T −λk Id)vi = (λi −λ2 ) · · · (λi −λk )vi =
(λ1 − λ2 ) · · · (λ1 − λk )v1 se i = 1

Portanto

0 = (T − λ2 Id) ◦ · · · ◦ (T − λk Id)(α1 v1 + . . . + αk vk ) = α1 (λ1 − λ2 ) · · · (λ1 − λk )v1

Donde se conclui que α1 = 0. Procedendo de forma análoga vemos que todos os coeficientes
são nulos e portanto que {v1 , . . . , vk } é um conjunto linearmente independente. 

Exemplo 11.8. A matriz


 
1 3 −2
 0 2 1 
0 0 3
é diagonalizável. De facto, tem valores próprios 1, 2, 3 todos distintos. Cada valor próprio
tem um vetor próprio e estes formam uma base de R3 pela Proposição 11.7. Mais geral-
mente qualquer matriz triangular superior ou inferior com entradas diagonais distintas é
diagonalizável.

É natural perguntar como descrever uma transformação linear que não pode ser diago-
nalizada, isto é, tal que algum dos valores próprios tem multiplicidade geométrica inferior à
multiplicidade algébrica. A resposta é que uma tal matriz pode ser “quase diagonalizada”
no seguinte sentido.
APONTAMENTOS DE ÁLGEBRA LINEAR 81

Definição 11.9. Uma matriz quadrada da forma


1 ··· 0
 
λ
.
 0 λ .. 0 
 
.
0 .. 1 
 
 0
0 0 ··· λ
com λ ∈ C diz-se um bloco de Jordan.
Diz-se que uma matriz n×n complexa J está em forma canónica de Jordan se é diagonal
por blocos e cada bloco diagonal é um bloco de Jordan. Ou seja, J está em forma canónica
de Jordan se
J1 0 · · · 0
 
 0 J2 · · · 0 
(34) J =  0 0 ... 0 

0 0 ··· Jk
com Ji blocos de Jordan.
Exemplo 11.10. A matriz
2 1 0 0 0 0 0 0
 
 0 2 0 0 0 0 0 0 
0 0 3 0 0 0 0 0
 
 
0 0 0 3 1 0 0 0
 
 
0 0 0 0 3 1 0 0
 
 

 0 0 0 0 0 3 0 0 

 0 0 0 0 0 0 i 1 
0 0 0 0 0 0 0 i
está em forma canónica de Jordan. Tem 4 blocos de Jordan; um associado ao valor próprio
2 de tamanho 2, dois associados ao valor próprio 3 com tamanhos 1 e 3 respetivamente, e
um último associado ao valor próprio i com tamanho 2.
Teorema 11.11. Se A é uma matriz n × n complexa, existe uma matriz invertı́vel S e
uma matriz J em forma canónica de Jordan tal que
A = SJS −1 .
Observação 11.12. Sendo Ji blocos de tamanho ni com entrada diagonal λi temos
det(A − λI) = det(J − λI) = (λ − λ1 )n1 · · · (λ − λk )nk
Logo os escalares que aparecem na diagonal da matriz J são os valores próprios, repetidos
de acordo com a sua multiplicidade algébrica. A soma dos tamanhos dos blocos com entrada
diagonal µ é a multiplicidade algébrica do valor próprio µ.
As colunas da matriz S formam uma base para Cn . Vamos analisar o comportamento
da transformação linear representada pela matriz A nesta base. Esta análise levar-nos-á a
82 APONTAMENTOS DE ÁLGEBRA LINEAR

compreender como achar a forma canónica de Jordan de uma matriz A dada, assim como
a matriz mudança de coordenadas S que a pôe em forma canónica de Jordan.
Sejam
v1 , v2 , . . . , vm ∈ Cn
as colunas da matriz S que correspondem ao bloco de Jordan Ji e λi o valor que assumem
as entradas diagonais de Ji . Uma vez que a coluna j de um produto de matrizes CD se
obtém multiplicando a matriz C pela coluna j de D, a equação
AS = SJ
diz-nos que
Av1 = λi v1 , Av2 = λi v2 + v1 , Av3 = λi v3 + v2 , ··· Avm = λi vm + vm−1
Portanto
• Os vetores que aparecem nas colunas de S correspondentes à primeira coluna de
um bloco de Jordan Ji com λi na diagonal são vetores próprios de λi . Vamos dizer
”primeiras colunas” para nos referir a estes vetores.
• Escrevendo um vetor v ∈ Cn na base das colunas de S vê-se imediatamente que
v é um vetor próprio de A com valor próprio λ sse v é uma combinação linear de
primeiras colunas correspondentes a blocos com λ na diagonal. Em particular, o
número de blocos de Jordan com λ na diagonal é o número máximo de vetores
próprios linearmente independentes de λ. Mais precisamente, o número de blocos
de Jordan com λ na diagonal é a dimensão do espaço próprio de λ, ou seja, a
multiplicidade geométrica de λ.
• Os vetores v1 , . . . , vm satisfazem as equações
(35) (A − λi I)v2 = v1 , (A − λi I)v3 = v2 , ..., (A − λi I)vm = vm−1
Diz-se que os vectores v1 , . . . , vm formam uma cadeia de Jordan. Uma vez que
(A − λi I)v1 = 0 isto implica a relação
(A − λi I)j vj = 0 para todo o j
Diz-se que os vectores vj são vectores próprios generalizados do valor próprio λi . O
espaço próprio generalizado de λ é por definição o conjunto
{v ∈ Cn : (A − λI)k v = 0 para algum k}
O Teorema 11.11 diz que é sempre possı́vel obter uma base para Cn formada por
vectores próprios generalizados de A.
Exemplo 11.13. No Exemplo 11.10, as multiplicidades algébricas de 2, 3 e i são 2, 4 e 2
respetivamente, e as multiplicidades geométricas são 1, 2 e 1 respetivamente.
As observações anteriores podem ser usadas para determinar uma forma canónica de
Jordan J e a correspondente matriz de mudança de base simultaneamente: começamos
por calcular os valores próprios de A e uma base para o espaço próprio de cada valor
próprio. Isso dá-nos o número de blocos de Jordan para cada um dos valores próprios
de A. Se a multiplicidade algébrica de λ for superior à multiplicidade geométrica haverá
APONTAMENTOS DE ÁLGEBRA LINEAR 83

pelo menos um bloco de Jordan para λ com tamanho maior do que 1. Para determinar o
tamanho de cada bloco e, simultaneamente, as colunas de S que lhe correspondem tentamos
resolver as equações (35) recursivamente começando com um vector próprio v1 .
Exemplo 11.14. Vamos determinar a forma canónica de Jordan para a matriz
 
2 1 0
A =  1 2 −1 
1 1 1

O polinómio caracterı́stico é
det(A − λI) = (2 − λ)2 (1 − λ)
logo os valores próprios são 2, com multiplicidade algébrica 2 e 1, com multiplicidade
algébrica 1. Um vector próprio para 1 é (1, −1, 0). Os vectores próprios de 2 são as
soluções da equação
   
0 1 0 a  b=0 
 1 0 −1   b  = 0 ⇔ b=0
a−c=0 ⇔
a=c
1 1 −1 c a+b−c=0

Uma base para os vectores próprios de 2 é (1, 0, 1) e portanto a multiplicidade geométrica


de 2 é apenas 1. Isto significa que a matriz A não é diagonalizável. Há dois blocos de
Jordan (um para cada vector próprio) e o bloco com 2 na diagonal tem dimensão 2 que é
a multiplicidade algébrica de 2. Conclui-se que uma forma canónica de Jordan é
 
1 0 0
J = 0 2 1 
0 0 2

A matriz de mudança da base S tem (1, −1, 0) na primeira coluna e (1, 0, 1) na segunda.
Para achar a terceira coluna resolvemos a equação (35):
      
1 0 1 0 a 1 
b=1
(A − 2I)v2 = 0 ⇔ 1 0 −1
     b = 0 ⇔
  
a=c
1 1 1 −1 c 1

Uma solução da equação anterior é, por exemplo, v2 = (0, 1, 0) logo podemos tomar para
matriz mudança de base
 
1 1 0
S =  −1 0 1 
0 1 0

11.15. O algoritmo PageRank. Consideremos uma internet com apenas três páginas
ligadas de acordo com o diagrama
84 APONTAMENTOS DE ÁLGEBRA LINEAR

1 2

Supondo que n1 , n2 e n3 é o número de pessoas em cada página num dado instante e que
cada pessoa clica num link ao acaso em cada página, o número de pessoas que esperarı́amos
estivesse numa página no instante seguinte seria
  
0 41 32 n1
 1 1 0   n2 
4
0 12 31 n3
A entrada ij da matriz é a probabilidade de uma internauta que está na página j carregar
numa ligação que a leva à página i, e é portanto igual a `(j,i)
`(j)
onde `(j, i) é o número de
ligações que une a página j à página i e `(j) é o número de total de ligações de j para
outras páginas.7
Note-se que a soma das entradas em cada coluna da matriz é 1 (é a soma das proba-
bilidades de ir parar a cada destino possı́vel partindo da página correspondente à coluna).
Uma tal matriz chama-se uma matriz de Markov. Estas matrizes são usadas para modelar
sistemas nos quais há vários estados (em número igual à dimensão da matriz) e há certas
probabilidades conhecidas de ocorrer uma transição entre os estados com a passagem do
tempo.
Quando é que o número de internautas em cada página permanece constante ao longo
do tempo? Quando o vetor (n1 , n2 , n3 ) é um vetor próprio da matriz
 
0 41 23
(36)  1 1 0 
4
0 21 13
com valor próprio 1. Um tal vetor próprio existe necessariamente porque a soma por linhas
da matriz transposta é 1, o que significa exatamente que (1, 1, 1) é um vetor próprio da
matriz transposta com valor próprio 1. Como o polinómio caracterı́stico de AT é igual ao
de A (porque det(A) = det(AT )) a matriz (36) tem também 1 como valor próprio.
Pode mostrar-se que existe necessariamente um vetor próprio de 1 com componentes
todas não negativas, e (com bastante generalidade) que se normalizarmos os vetores que
indicam o estado das páginas de modo a que a soma das entradas seja 1 (isto corresponde
a considerar a percentagem dos internautas em cada página em vez do número absoluto)
7Se uma página não tem ligações para outras assume-se que tem uma ligação para cada página.
APONTAMENTOS DE ÁLGEBRA LINEAR 85

o limite quando o tempo tende para ∞ do estado do sistema é o vetor próprio de 1


(normalizado), que é único.
Mais precisamente, se A é a matriz (36) que controla a transição entre estados e (p1 , p2 , p3 )
é um estado inicial qualquer (com pi ≥ 0 e p1 + p2 + p3 = 1), temos
 
p1
lim Ak  p2  = v
k→∞
p3
com v o único vetor próprio de 1 com entradas não negativas cuja soma é 1. Quando isto
acontece, o significado das componentes de v é clara: vi é a percentagem do tempo que
uma internauta surfando ao acaso naquelas páginas passaria na página i. É este número
que é usado como medida da relevância da página i - o seu PageRank.
No exemplo acima terı́amos que os vetores próprios de 1 da matriz (36) são as soluções
de     
−1 41 2
a 0
(
3 a = 34 b
(A − I3 )v = 0 ⇔  1 − 34 0   b  =  0  ⇔
0 1
−2 c 0 c = 34 b
2 3
Logo um vetor próprio de 1 é um múltiplo não nulo de ( 34 , 1, 34 ). Normalizando obtemos
(0.3, 0.4, 0.3)
Pelo que a página mais relevante é a página 2, sendo as outras duas igualmente relevantes.
Uma internauta surfando aleatoriamente entre estas três páginas passaria 40% do seu
tempo na página 2 e 30% em cada uma das outras duas páginas.
O algoritmo utilizado pelo Google para ordenar as páginas por relevância é seguramente
muito mais complicado mas o princı́pio básico é o que foi explicado acima. Ao pesquisarmos
um termo, o algoritmo começa por selecionar as páginas relacionadas com esse termo
(utilizando as etiquetas previamente atribuı́das a cada página) e analisa depois as ligações
entre essas páginas conforme descrito acima, listando-as depois por ordem de relevância.
Na realidade, no algoritmo original de Larry Page e Sergey Brin é também levada em
conta a possibilidade de uma internauta não seguir nenhum link na página em que se
encontra (e em vez disso usar um bookmark ou escrever diretamente um URL). Esta
possibilidade é considerada atribuindo uma probabilidade d de ir para qualquer outra
página da internet a partir de uma dada página, sendo (1 − d) a probabilidade de carregar
numa das ligações da página. O parâmetro d é medido experimentalmente (e é cerca de
15%). Tente descrever analiticamente este algoritmo modificado. A solução encontra-se na
página da Wikipedia do algoritmo PageRank.

12. Produtos Internos


É-vos familiar do ensino secundário o produto interno de vetores de R2 e R3 . Trata-se
de uma operação que produz um número real hv, wi a partir de dois vetores v e w. É dado
pelas fórmulas
h(x1 , x2 ), (y1 , y2 )i = x1 y1 + x2 y2 para (x1 , x2 ), (y1 , y2 ) ∈ R2
86 APONTAMENTOS DE ÁLGEBRA LINEAR

e
h(x1 , x2 , x3 ), (y1 , y2 , y3 )i = x1 y1 + x2 y2 + x3 y3 para (x1 , x2 , x3 ), (y1 , y2 , y3 ) ∈ R3
respetivamente. Em ambos os casos, o significado geométrico, do produto interno hv, wi é
kvkkwk cos α em que kxk designa o comprimento do vetor x e α é o ângulo entre v e w.
Em qualquer espaço vetorial é possı́vel definir uma estrutura desta natureza que é com-
pletamente caracterizada por alguns axiomas simples.
Definição 12.1. Seja V um espaço vetorial real. Um produto interno em V é uma função
h·, ·i : V × V → R
satisfazendo
(1) Bilinearidade: Para todos os α1 , α2 ∈ R e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi > 0 para todo o v 6= 0.
Observação 12.2. Tendo em conta a simetria de um produto interno, para verificar a
bilinearidade basta verificar a primeira (ou a segunda) das igualdades que caracterizam a
bilinearidade.
Exemplo 12.3. O produto interno usual (ou standard) em Rn é definido por
h(x1 , . . . , xn ), (y1 , . . . , yn )i = x1 y1 + x2 y2 + . . . + xn yn
É imediato verificar que as propriedades (1)-(3) na Definição 12.1 são verificadas. Este
produto interno generaliza o produto interno já conhecido nos casos em que n = 2 e 3.
Exemplo 12.4. Seja [a, b] um intervalo de R e V = C([a, b], R) o espaço vetorial das
funções contı́nuas de R para R (que é um subespaço vetorial do espaço vetorial de todas as
funções de R para R). Define-se h·, ·i : V × V → R pela expressão
ˆ b
hf, gi = f (x)g(x)dx
a
A expressão anterior faz sentido porque o produto de funções contı́nuas é contı́nua e uma
função contı́nua é integrável num intervalo compacto. Verifiquemos as propriedades (1)-(3)
da Definição 12.1:
´b ´b ´b
(1) hα1 f1 +α2 f2 , gi = a (α1 f1 (x)+α2 f2 (x))g(x)dx = α1 a f1 (x)g(x)dx+α2 a f2 (x)g(x)dx =
α1 hf1 , gi + α2 hf2 , gi
(2) É imediato uma vez que f (x)g(x) = g(x)f (x).
´b
(3) hf, f i = a f 2 (x)dx ≥ 0 por monotonia do integral. Se f (x) 6= 0 então existe
x0 ∈ [a, b] tal que f (x0 ) 6= 0. Como f é contı́nua isso significa que existe  > 0 e
um intervalo J contendo x0 com interior não vazio tal que f (x)2 ≥  quando x ∈ J.
´b ´ ´
Mas então a f (x)2 dx ≥ J f (x)2 dx ≥ J  dx > 0.
APONTAMENTOS DE ÁLGEBRA LINEAR 87

Observação 12.5. Se pensarmos numa função f como um “vetor indexado pelos números
reais” cuja componente x é o número f (x), e no integral como uma “soma em x” o segundo
exemplo acima é uma generalização natural do primeiro.
Existe também uma versão do conceito de produto interno para um espaço vetorial
complexo, que se chama um produto interno Hermiteano, ou simplesmente um produto
interno. O modelo será Cn , mas agora não podemos usar a fórmula que nos dá o produto
interno real porque perderı́amos a positividade (que é a chave para definir o comprimento
de vetores). A solução é conjugar um dos argumentos coordenada a coordenada, uma vez
que zz = |z|2 ≥ 0. No entanto, isso afeta necessariamente os outros dois axiomas da forma
seguinte.
Definição 12.6. Seja V um espaço vetorial complexo. Um produto interno em V é uma
função
h·, ·i : V × V → C
satisfazendo
(1) Sesquilinearidade: Para todos os α1 , α2 ∈ C e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria conjugada: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi é real e positivo para todo o v 6= 0.
Observação 12.7. Tendo em conta a simetria conjugada de um produto interno, para
verificar a sesquilinearidade basta verificar a primeira (ou a segunda) das igualdades que
caracterizam a sesquilinearidade.
Exemplo 12.8. O produto interno standard em Cn é a função h·, ·i : Cn ×Cn → C definida
pela expressão
h(z1 , . . . , zn ), (w1 , . . . , wn )i = z1 w1 + z2 w2 + . . . + zn wn
É imediato verificar as condições (1)-(3) da Definição 12.6. Por exemplo,
h(z1 , . . . , zn ), (z1 , . . . , zn )i = |z1 |2 + . . . + |zn |2 ≥ 0
e só se anula se z1 = · · · = zn = 0.
Um produto interno num espaço vetorial real ou complexo permite-nos introduzir noções
de comprimento e distância no espaço em questão.
Definição 12.9. Seja V um espaço vetorial e h·, ·i um produto interno em
p V . A norma
ou comprimento de um vetor v ∈ V é o número real não negativo kvk = hv, vi. Sendo
v, w ∈ V , a distância de v a w é o número real não negativo kv − wk.
Note-se que as noções de norma e comprimento para o produto interno usual em R2 ou
R3 são as habituais: p
k(x, y, z)k = x2 + y 2 + z 2
88 APONTAMENTOS DE ÁLGEBRA LINEAR

Exemplo 12.10. Em C2 com o produto interno usual,


p √ √
k(1 + i, −1)k = |1 + i|2 + 1 = 2 + 1 = 3
Em C([0, 1], R2 ) a distância de x a 1 é
ˆ 1
s s
3 1

(x − 1) = √1
kx − 1k = (x − 1)2 dx =
0 3
0 3
Definição 12.11. Seja V um espaço vetorial e h·, ·i um produto interno em V . Um
subconjunto S ⊂ V diz-se ortogonal se hv, wi = 0 para todos os v, w ∈ S distintos. Um
subconjunto S ⊂ V diz-se ortonormado se S é ortogonal e kvk = 1 para todo o v ∈ S.
Exemplo 12.12. O conjunto {(1, 1), (1, −1)} é ortogonal em R2 para o produto interno
usual,
√ uma vez que h(1, 1), (1 − 1)i = 1 − 1 = 0. Não é ortonormado uma vez que k(1, 1)k =
2 6= 1, mas  dividindo
 cada
 um dos
 vetores pelo seu comprimento obtemos o conjunto
1 1 1 1
ortonormado { √2 , √2 , √2 , − √2 }.
As funções sen x e 1 são ortogonais em C([0, 2π], R) uma vez que
ˆ 2π
hsen x, 1i = sen xdx = − cos x|2π
0 = 0
0
n n
As bases canónicas de R e C são conjuntos ortonormados para os produtos internos
usuais.
12.13. Representação matricial de um produto interno. Seja V um espaço vetorial
com produto interno h·, ·i e suponhamos que B = (v1 , . . . , vn ) é uma base para V .
Podemos escrever dois vetores v, w ∈ V em função da base B
v = α1 v1 + . . . + αn vn , w = β1 v1 + . . . + βn vn ,
Vamos agora usar a bilinearidade/sesquilinearidade para obter uma fórmula para o produto
interno em termos do produto de matrizes. Consideraremos o caso complexo mas note-
se que, uma vez que para α real temos α = α, estamos também a fazer o caso real
simultaneamente. Usando linearidade conjugada na primeira variável temos
hv, wi = hα1 v1 + . . . αn vn , wi = α1 hv1 , wi + . . . + αn hvn , wi
Usando a linearidade na segunda coordenada temos para cada i
hvi , wi = hvi , β1 v1 + . . . βn vn i = β1 hvi , v1 i + . . . + βn hvi , vn i
e substituindo na primeira expressão obtemos a seguinte expressão para o produto interno
hv, wi = α1 β1 hv1 , v1 i+. . .+α1 βn hv1 , vn i+α2 β1 hv2 , v1 i+. . .+αn β1 hvn , v1 i+. . .+αn βn hvn , vn i
Vemos assim que o produto interno é completamente determinado pelo conjunto de n2
escalares hvi , vj i com i, j = 1, . . . , n. Identificando escalares com matrizes 1 × 1 a expressão
APONTAMENTOS DE ÁLGEBRA LINEAR 89

anterior pode ser escrita matricialmente na forma


hv1 , v1 i hv1 , v2 i · · · hv1 , vn i β1
  
   hv2 , v1 i hv2 , v2 i · · · hv2 , vn i   β2 
(37) α1 α2 · · · αn  .. .. ..  . 
  .. 
 . . .
hvn , v1 i hvn , v2 i · · · hvn , vn i βn
A matriz n × n na expressão (37) chama-se a matriz da métrica ou matriz de Gram para
o produto interno com respeito à base B, e iremos denotá-la por
GB = [hvi , vj i]
Note-se que para chegar à expressão (37) usámos apenas a propriedade (1) das Definições
12.1 e 12.6 pelo que a expressão matricial (37) se aplica a funções de V ×V para os escalares
que satisfaçam apenas o axioma (1) (ditas funções bilineares no caso real, e sesquilineares
no caso complexo). As propriedades (2) e (3) das definições impõem condições adicionais
sobre a matriz GB .
Quanto à condição (2), escrevendo gij para a entrada ij da matriz GB , temos no caso
real
gij = hvi , vj i = hvj , vi i = gji ⇔ GB = GTB
ou seja, a matriz da métrica é simétrica. No caso complexo temos
T
gij = hvi , vj i = hvj , vi i = gji ⇔ GB = GB
Diz-se que a matriz GB é hermiteana. Reciprocamente, se G é uma matriz que satisfaz
estas condições é imediato verificar que a função
T
hv, wi = [v]B GB [w]B
satisfaz as condições (1) e (2) nas definições 12.1 e 12.6.
Veremos em breve que as matrizes simétricas ou hermiteanas são sempre diagonalizáveis
com valores próprios reais. Daı́ segue facilmente da condição (3) que os valores próprios
de uma matriz da métrica têm que ser positivos: se GB v = λv então
hv, vi = v T GB v = λv T v > 0 ⇒λ>0
Por outro lado veremos que os vetores próprios correspondentes a valores próprios distintos
de uma tal matriz são ortogonais e então é fácil de ver que, reciprocamente, uma matriz
simétrica ou hermiteana com valores próprios positivos determina um produto interno em
Rn ou Cn respetivamente.
Exemplo 12.14. Consideremos a restrição do produto interno usual em R3 ao subespaço
V = {(x, y, z) ∈ R3 : x + y + z = 0}. Uma base para V é dada, por exemplo, pelos vetores
v1 = (1, −1, 0) e v2 = (0, 1, −1). A matriz da métrica para o produto interno em V com
respeito à base B = (v1 , v2 ) é portanto
   
hv1 , v1 i hv1 , v2 i 2 −1
GB = =
hv2 , v1 i hv2 , v2 i −1 2
90 APONTAMENTOS DE ÁLGEBRA LINEAR
   
1 −1
Dados vetores v, w ∈ V com [v]B = e [w]B = temos
2 1
    
  2 −1 −1   −3
hv, wi = 1 2 = 1 2 =3
−1 2 1 3
Podemos confirmar este resultado fazendo as contas em R3 : Temos
v = 1 · (1, −1, 0) + 2(0, 1, −1) = (1, 1, −2), w = −1 · (1, −1, 0) + 1 · (0, 1, −1) = (−1, 2, −1)
logo
hv, wi = 1 · (−1) + 1 · 2 + (−2) · (−1) = −1 + 2 + 2 = 3.
O ponto do exemplo anterior é o seguinte. Mesmo que estejamos interessados apenas
no produto interno usual em Rn (isto é na noção usual de comprimento e ângulo) em
certas situações estaremos interessados em considerar apenas vetores que estão em certos
subespaços (imaginemos por exemplo que um avião voa num dado plano) e para fazer
contas nesse plano é mais prático escolher coordenadas no plano (da mesma forma que
à superfı́cie da Terra utilizamos duas coordenadas para descrever um ponto). No plano
não há em geral coordenadas canónicas como em Rn e numas coordenadas arbitrárias que
escolhamos, a expressão do produto interno não será aquela a que estamos acostumados,
mesmo que o produto interno em questão provenha do produto interno usual em Rn .
Observação 12.15. Note-se que uma base B para um espaço vetorial V é ortogonal com
respeito a um produto interno sse a matriz da métrica GB é diagonal (e então as entradas
diagonais são positivas e iguais às normas dos vetores da base ao quadrado) e que B é
ortonormada (isto é um conjunto ortonormado) sse GB é a matriz identidade.
Suponhamos agora que B, B 0 são duas bases para o espaço vetorial V com produto
interno. Como se relacionam as matrizes da métrica com respeito às duas bases?
Sendo S = SB→B 0 a matriz de mudança de coordenadas da base B para a base B 0 temos
para qualquer x ∈ V
[x]B 0 = S[x]B
substituindo na expressão para a matriz da métrica na base B 0 temos (novamente o caso
real obtém-se omitindo os conjugados)
T T T T
hv, wi = [v]B 0 GB 0 [w]B 0 = S[v]B GB 0 (S[w]B ) = [v]B S GB 0 S[w]B
onde usámos que AB = AB e (AB)T = B T AT . Tendo em conta a expressão
T
hv, wi = [v]B GB [w]B
que caracteriza a matriz da métrica com respeito à base B conclui-se que
T
(38) GB = S GB 0 S ou, no caso real, GB = S T GB 0 S
Estas fórmulas que traduzem como a expressão para o produto interno muda mediante
uma mudança de coordenadas são inteiramente análogas à fórmula (19) que relaciona as
expressões matriciais de uma transformação linear em relação a bases distintas (mas só
T
coincidem se S −1 = S ).
APONTAMENTOS DE ÁLGEBRA LINEAR 91

12.16. Projeção ortogonal de um vetor sobre um vetor não nulo. Seja V um espaço
vetorial com produto interno, v ∈ V e u ∈ V \ {0} um vetor não nulo. Define-se a projeção
ortogonal de v sobre u (com respeito ao produto interno dado) por
u hu, vi u u
(39) proju (v) = hu, vi 2
= u=h , vi
kuk hu, ui kuk kuk
As expressões acima são todas iguais pela definição de norma e pela linearidade na primeira
1
variável (no caso complexo note-se que o escalar kuk é real e portanto igual ao seu conju-
gado).
Quando V = R2 ou R3 com o produto interno usual, a definição anterior coincide com a
u
noção de projeção ortogonal já estudada no ensino secundário. De facto o vetor kuk é um
versor da direção determinada por u (isto é, tem a mesma direção e sentido e comprimento
1). O escalar que multiplica este versor é

u u
h kuk kvk cos α = 1 · kvk cos α = kvk cos α
, vi =
kuk
com α o ângulo entre u e v, pelo que a expressão 39 é, neste caso, a expressão familiar do
ensino secundário.
Exemplo 12.17. A projeção ortogonal de (1, −1, 2) sobre o vetor (0, 1, 1) com respeito ao
produto interno usual em R3 é
h(1, −1, 2), (0, 1, 1)i
(0, 1, 1) = 21 (0, 1, 1) = 0, 12 , 12

h(0, 1, 1), (0, 1, 1)i
Note-se que proju (v) é colinear com u e que a projeção permite escrever um vetor qual-
quer v como a soma de um vetor colinear com u e outro ortogonal a u:
v = (v − proju (v)) + proju (v)
sendo que
hu, vi hu, vi
hu, v − proju (v)i = hu, v − ui = hu, vi − hu, ui = 0
hu, ui hu, ui
Na realidade é fácil verificar que a função P : V → V definida por P (v) = proju (v) é uma
projeção (com imagem a reta gerada por u), isto é, que P 2 = P o mesmo acontecendo
portanto com Id −P que calcula a componente de v ortogonal a u (ver o Exercı́cio 9 da
Ficha 11).
Da consideração da componente ortogonal a um vetor u, vêm duas desigualdades fun-
damentais.
Proposição 12.18. Seja V um espaço vetorial com produto interno h·, ·i, e u, v ∈ V .
Então
(i) Desigualdade de Cauchy-Schwarz: |hu, vi| ≤ kukkvk
(ii) Desigualdade triangular: ku + vk ≤ kuk + kvk
A igualdade verifica-se na primeira desigualdade se e só se u e v são colineares.
92 APONTAMENTOS DE ÁLGEBRA LINEAR

Dem. (i) Podemos assumir sem perda de generalidade que u 6= 0 (pois nesse caso 0 =
|hu, vi| = kukkvk e u, v são colineares). Nesse caso temos, pela positividade do
produto interno
hu, vi hu, vi
0 ≤ kv − proju (v)k2 = hv − u, v − ui
hu, ui hu, ui
hu, vi hu, vi hu, vi hu, vi
= hv, vi − hu, vi − hv, ui + hu, ui
hu, ui hu, ui hu, ui hu, ui
|hu, vi|2
= kvk2 −
kuk2
e esta desigualdade é equivalente a
|hu, vi|2 ≤ kuk2 kvk2
que, tomando raı́zes quadradas, é a desigualdade de Cauchy-Schwarz. A igualdade
verifica-se apenas quando v − proju (v) = 0 e nesse caso v é um múltiplo escalar de u.
(ii) Temos
(40) ku + vk2 = hu + v, u + vi = hu, ui + hu, vi + hv, ui + hv, vi
Uma vez que z + z = 2 Re(z) ≤ 2|z| temos
hu, vi + hv, ui = 2 Re(hu, vi) ≤ 2|hu, vi| ≤ 2kukkvk
onde na segunda desigualdade aplicámos a desigualdade de Cauchy-Schwarz. Substi-
tuindo em (40) obtemos
ku + vk2 ≤ kuk2 + 2kukkvk + kvk2 = (kuk + kvk)2
que é equivalente à desigualdade triangular.

Observação 12.19. (i) A desigualdade triangular chama-se assim porque v, w, v + w
formam as arestas de um triângulo em V e a desigualdade diz precisamente que o
comprimento de um dos lados de um triângulo é sempre menor ou igual à soma do
comprimento dos dois outros lados.
(ii) Quando u, v são ortogonais, a expressão (40) é o Teorema de Pitágoras: ku + vk2 =
kuk2 + kvk2 .
Definição 12.20. Seja V um espaço vetorial real e v, w ∈ V vetores não nulos. Define-se
o ângulo entre v e w como o único α ∈ [0, π] tal que
hv, wi
cos α =
kvkkwk
(Isto faz sentido porque, pela desigualdade de Cauchy-Schwarz a expressão do lado direito
do sinal de igual pertence ao intervalo [−1, 1].)
APONTAMENTOS DE ÁLGEBRA LINEAR 93

Exemplo 12.21. O ângulo entre as funções x e x2 em C([0, 1], R) é


´1 3 1

hx, x2 i x dx 15
arccos 2
= q´ 0 ´ = arccos q4 = arccos
kxkkx k 1 2 1 11 4
0
x dx 0 x4 dx 35

A projeção segundo um vetor dá-nos uma maneira simples de obter um conjunto ortog-
onal com a mesma expansão linear a partir de um conjunto linearmente independente e,
em particular, de obter uma base ortogonal a partir de uma base.
Proposição 12.22 (Método de ortogonalização de Gram-Schmidt). Seja V um
espaço vetorial com produto interno e {v1 , . . . , vk } ⊂ V um conjunto linearmente indepen-
dente. Então os vetores definidos indutivamente pelas fórmulas
w1 = v1
w2 = v2 − projw1 (v2 )
w3 = v3 − projw1 (v3 ) − projw2 (v3 )
.. ..
. .
wk = vk − projw1 (vk ) − . . . − projwk−1 (vk )
formam um conjunto ortogonal {w1 , . . . , wk } tal que, para cada i = 1, . . . , k, temos
L({v1 , . . . , vi }) = L({w1 , . . . , wi })
Antes de vermos a demonstração vamos fazer algumas observações.
Definição 12.23. Seja V um espaço vetorial com um produto interno e S ⊂ V um sub-
conjunto. Define-se
S ⊥ = {v ∈ V : hv, xi = 0 para todo o x ∈ S}
É imediato verificar que S ⊥ é um subespaço vetorial de V : claramente 0 ∈ S ⊥ e se
v1 , v2 ∈ S ⊥ e α1 , α2 ∈ R temos hα1 v1 + α2 v2 , xi = α1 hv1 , xi + α2 hv2 , xi = 0 para todo o
x ∈ S, pelo que α1 v1 + α2 v2 ∈ S ⊥ .
Proposição 12.24. S ⊥ = L(S)⊥
Dem. Uma vez que S ⊂ L(S), é evidente que L(S)⊥ ⊂ S ⊥ (se um vetor é ortogonal a
todos os elementos de L(S), certamente é também ortogonal a todos os vetores de S).
Reciprocamente, se v ∈ L(S), existem vetores v1 , . . . , vk em S e escalares α1 , . . . , αk tais
que v = α1 v1 + . . . + αk vk . Dado w ∈ S ⊥ , temos
hw, vi = hw, α1 v1 + . . . + αk vk i = α1 hw, v1 i + . . . + αk hw, vk i = 0
Logo w ∈ L(S)⊥ . Isso mostra que S ⊥ ⊂ L(S)⊥ e conclui a demonstração. 
Exemplo 12.25. (i) Se A ∈ Mm×n (R) então N (A) = EL(A)⊥ ⊂ Rn (onde o produto
interno considerado é o usual). De facto, pela definição do produto de matrizes,
x ∈ Rn está no núcleo de A sse é ortogonal às linhas de A para o produto interno
usual em Rn , e pela Proposição anterior isto é o mesmo que ser ortogonal ao espaço
das linhas.
94 APONTAMENTOS DE ÁLGEBRA LINEAR

(ii) Se B é uma base de V (ou mais geralmente um conjunto de geradores) então B ⊥ =


{0}. De facto, B ⊥ = L(B)⊥ = V ⊥ . Mas a positividade do produto interno diz-nos
que o único vetor que é perpendicular a si próprio é o vetor 0. Logo V ⊥ = {0}.
Dem. da Proposição 12.22. Vamos usar indução em i para ver que {w1 , . . . , wi } é um con-
junto ortogonal e L({v1 , . . . , vi }) = L({w1 , . . . , wi }). A base da indução é o caso i = 1, que
é óbvio porque um conjunto com um único vetor não nulo é um conjunto ortogonal e, por
definição, w1 = v1 .
Seja i > 1 e assumamos por indução que o resultado é válido para i − 1. Vejamos
primeiro que L({v1 , . . . , vi }) = L({w1 , . . . , wi }). Temos que verificar duas inclusões
• Por hipótese de indução v1 , . . . , vi−1 ∈ L({w1 , . . . , wi−1 }) ⊂ L({w1 , . . . , wi }). Uma
vez que proju (v) é um múltiplo de u, a seguinte reformulação da definição de wi
vi = wi + projw1 (vi ) + . . . + projwi−1 (vi )
mostra que vi ∈ L({w1 , . . . , wi }). Conclui-se que L({v1 , . . . , vi }) ⊂ L({w1 , . . . , wi })
• Novamente, por hipótese de indução, temos L({w1 , . . . , wi−1 }) ⊂ L({v1 , . . . , vi }).
Na expressão para wi
wi = vi − projw1 (vi ) − . . . − projwi−1 (vi )
os termos precedidos por um sinal menos formam uma combinação linear de w1 , . . . , wi−1
e portanto, por hipótese de indução, de v1 , . . . , vi−1 . Conclui-se que wi ∈ L({v1 , . . . , vi })
e portanto que L({w1 , . . . , wi }) ⊂ L({v1 , . . . , vi }).
Para ver que {w1 , . . . , wi } é um conjunto ortogonal basta-nos ver que hwj , wi i = 0 para
j < i pois a hipótese de indução diz-nos que hwj , wl i = 0 para j 6= l quando j, l < i. Ora
hwj , wi i = hwj , vi − projw1 (vi ) − . . . − projwi−1 (vi )i
hw1 , vi i hwi−1 , vi i
= hwj , vi i − hwj , w1 i − . . . − hwj , wi−1 i
hw1 , w1 i hwi−1 , wi−1 i
hw1 , vi i hwi−1 , vi i
= hwj , vi i − hwj , w1 i − . . . − hwj , wi−1 i
hw1 , w1 i hwi−1 , wi−1 i
Do lado direito do sinal de igual, novamente pela hipótese de indução que {w1 , . . . , wi−1 } é
ortogonal, o único termo hwj , wk i que é não nulo é o termo correspondente a k = j portanto
hwj , vi i
hwj , wi i = hwj , vi i − 0 − . . . − hwj , wj i − . . . − 0 = hwj , vi i − hwj , vi i = 0
hwj , wj i
o que conclui a demonstração. 
Exemplo 12.26. Vamos achar uma base ortonormada para o subespaço
V = {(x, y, z, w) ∈ R4 : x + y + w = 0} ⊂ R4
Uma base para este subespaço é por exemplo
{(1, 0, 0, −1), (0, 1, 0, −1), (0, 0, 1, 0)}
APONTAMENTOS DE ÁLGEBRA LINEAR 95

Vamos aplicar o processo de ortogonalização de Gram-Schmidt dividindo os vetores resul-


tantes pelas suas normas para obter uma base ortonormada.
O primeiro vetor da base ortonormada será
(1, 0, 0, −1)
w1 = = ( √12 , 0, 0, − √12 )
k(1, 0, 0, −1)k
Obtemos um vetor ortogonal através da expressão
w2 = (0, 1, 0, −1) − hw1 , (0, 1, 0, −1)iw1 = (0, 1, 0, −1) − √1 ( √1 , 0, 0, − √1 ) = (− 12 , 1, 0, − 12 )
2 2 2

Na expressão anterior não foi necessário dividir por hw1 , w1 i porque kw1 k = 1. Dividindo
pela norma obtemos o segundo vetor da base ortonormada
1
q
w̃2 = (− , 1, 0, − 2 ) = 23 (− 12 , 1, 0, − 12 )
1 1
kw2 k 2
O vetor v3 = (0, 0, 1, 0) já é ortogonal a w1 e w̃2 e tem norma 1, pelo que podemos tomar
para base ortonormada de V o conjunto
q
{( √2 , 0, 0, − √2 ), (− √6 , 23 , 0, − √16 ), (0, 0, 1, 0)}
1 1 1

As bases ortogonais são extremamente úteis porque tornam os cálculos muito mais fáceis.
Começamos por observar que um conjunto ortogonal sem vetores nulos é necessariamente
linearmente independente
Proposição 12.27. Seja V um espaço vetorial com produto interno e S ⊂ V \ {0} um
conjunto ortogonal de vetores não nulos. Então S é linearmente independente.
Dem. Sejam v1 , . . . , vk elementos de S e suponhamos que
(41) α1 v1 + . . . + αk vk = 0
Queremos ver que os coeficientes αi são todos nulos. Como S é ortogonal temos hvi , vj i = 0
para i 6= j. Fazendo o produto interno da equação com vi obtemos
hvi , α1 v1 + . . . + αk vk i = hvi , 0i = 0
Do lado esquerdo temos
α1 hvi , v1 i + . . . + αi hvi , vi i + . . . + αk hvi , vk i = α1 · 0 + . . . + αi kvi k2 + . . . + αk · 0
Portanto αi kvi k2 = 0. Como vi 6= 0, conclui-se que αi = 0. 
O resultado seguinte, embora muito simples, é uma das principais razões para a utilização
de bases ortogonais ou ortonormais. Juntamente com as noções de valor e vetor próprio
será um dos resultados de Álgebra Linear que mais vezes será utilizado em cadeiras de
engenharia. Diz essencialmente que é muito fácil calcular as coordenadas de um vetor
numa base ortogonal. Não é necessário resolver um sistema linear, basta fazer uma conta
muito simples.
96 APONTAMENTOS DE ÁLGEBRA LINEAR

Proposição 12.28. Seja B = (v1 , . . . , vn ) uma base ortogonal para o espaço com produto
interno V . Então dado v ∈ V as coordenadas de v na base B são dadas pela expressão
 hv1 ,vi 
hv1 ,v1 i
[v]B = 
 .. 
. 
hvn ,vi
hvn ,vn i

Dem. Sendo v ∈ V , temos a mostrar que


hv1 , vi hvn , vi hv1 , vi hvn , vi
v= v1 + . . . + vn ⇔ v − v1 − . . . − vn = 0
hv1 , v1 i hvn , vn i hv1 , v1 i hvn , vn i
De acordo com o Exemplo 12.25(ii) basta ver que o vetor do lado esquerdo da segunda
igualdade é ortogonal aos elementos da base B. Ora
hv1 , vi hvn , vi hv1 , vi hvn , vi
hvi , v − v1 − . . . − vn i = hvi , vi − hvi , v1 i − . . . − hvi , vn i
hv1 , v1 i hvn , vn i hv1 , v1 i hvn , vn i
hvi , vi
= hvi , vi − 0 − . . . − hvi , vi i − . . . − 0
hvi , vi i
= hvi , vi − hvi , vi = 0

Exemplo 12.29. Numa base ortonormada as contas da Proposição anterior são ainda
mais simples porque os denominadores das expressões para as coordenadas são 1. Con-
siderando a base ortonormada
 q 
1 1 1 2 1
B = ( √2 , 0, 0, − √2 ), (− √6 , 3 , 0, − √6 ), (0, 0, 1, 0))

do Exemplo 12.26 e o vetor (1, 1, 3, −2) ∈ V temos


h( √12 , 0, 0, − √12 ), (1, 1, 3, −2)i √3
   
q 2q
[(1, 1, 3, −2)]B =  h(− √1 , 23 , 0, − √1 ), (1, 1, 3, −2)i  =  √1 2
   
6 6 6
+ 3

h(0, 0, 1, 0), (1, 1, 3, −2)i 3
Uma base ortogonal para um subespaço pode ser usada para definir a projeção ortogonal
nesse subespaço.
Definição 12.30. Seja V um espaço vetorial com produto interno e U ⊂ V um subespaço
finitamente gerado. A projeção ortogonal de V em U é a transformação linear PU : V → V
definida pela fórmula
(42) PU (v) = proju1 (v) + . . . + projuk (v)
onde {u1 , . . . , uk } é uma base ortogonal de U .
PU é uma transformação linear pois é uma soma de transformações lineares. Não é no
entanto imediatamente óbvio que a fórmula (42) seja independente da escolha da base
ortogonal para o subespaço U . Isso é uma consequência do seguinte resultado.
APONTAMENTOS DE ÁLGEBRA LINEAR 97

Proposição 12.31. Seja V um espaço com produto interno e U um subespaço vetorial


finitamente gerado. A transformação linear PU : V → V definida pela expressão (42)
verifica
(1) PU2 = PU (ou seja, PU é uma projeção).
(2) PU (V ) = U e N (PU ) = U ⊥ .
Portanto V = U ⊕ U ⊥ (isto é V = U + U ⊥ e U ∩ U ⊥ = {0}) sendo a decomposição única
de um vetor de V em vetores de U e U ⊥ dada pela expressão
∈U ∈U ⊥
z }| { z }| {
v = PU (v) + (v − PU (v))
Dem. Exercı́cio. 
A Proposição anterior mostra que PU é independente da escolha da base ortogonal para
U que aparece na fórmula 42 uma vez que uma projeção é completamente determinada
pela sua imagem e o seu núcleo. De facto, vimos na aula prática (exercı́cio 9 da Ficha 11)
que uma transformação linear é uma projeção sse é diagonalizável e tem a sua imagem
como espaço próprio de 1.
Uma aplicação interessante da Proposição anterior é o cálculo da distância de um ponto
x de um espaço vetorial com produto interno V a um subespaço U de V . A distância é
por definição
d(x, U ) = inf{kx − uk : u ∈ U }
sendo que o ı́nfimo existe porque o conjunto das distâncias é limitado inferiormente (por
0). Dado um ponto qualquer u ∈ U podemos escrever o vetor x − u como
x − u = (x − PU (x)) + (PU (x) − u)
uma vez que x − PU (x) ∈ U ⊥ e PU (x) − u ∈ U , pelo Teorema de Pitágoras, temos
kx − uk2 = kx − PU (x)k2 + kPU (x) − uk2 ≥ kx − PU (x)k2 ⇔ kx − uk ≥ kx − PU (x)k
Uma vez que PU (x) ∈ U , isso mostra que d(x, U ) = kx − PU (x)k e, portanto, que PU (x) é
o ponto de U mais próximo de x.
Este mesmo argumento pode facilmente ser adaptado para calcular distâncias de pontos a
planos v +U que não passam pela origem ou a distância entre planos que não se intersetem.
A distância entre dois conjuntos S, T ⊂ V é definida pela expressão
d(S, T ) = inf{kx − yk : x ∈ S, y ∈ T }.
Exemplo 12.32. Vamos achar a distância (para o produto interno usual) do ponto (1, 2, −1)
ao plano H = {(x, y, z) ∈ R3 : x + y + 2z = 2}.
A direção ortogonal ao plano é (1, 1, 2). A reta ortogonal ao plano que passa por (1, 2, −1)
tem equação paramétrica
(1, 2, −1) + t(1, 1, 2) = (1 + t, 2 + t, −1 + 2t)
e interseta H quando
1
(1 + t) + (2 + t) + 2(−1 + 2t) = 2 ⇔ 6t = 1 ⇔ t = 6
98 APONTAMENTOS DE ÁLGEBRA LINEAR

O ponto v = ( 67 , 13
6
, − 32 ) de interseção desta reta com H é o ponto de H mais próximo
de (1, 2, −1). De facto se w ∈ H for outro ponto, temos como antes, pelo Teorema de
Pitágoras, que
kw − (1, 2, −1)k2 = kw − vk2 + kv − (1, 2, −1)k2 ≥ kv − (1, 2, −1)k2
uma vez que v − (1, 2, −1) (que tem a direção de (1, 1, 2)) e w − v (que pertence ao plano
paralelo a H que passa pela origem) são perpendiculares.
Conclui-se que a distância de (1, 2, −1) a H é k 61 (1, 1, 2)k = √16 .

12.33. O método dos mı́nimos quadrados. 8 Seja A uma matriz m × n. Mesmo que o
sistema linear Ax = b seja impossı́vel, podemos tentar encontrar o valor de x que está mais
próximo de constituir uma solução no sentido em que a distância de Ax a b é minimizada.
O conjunto {Ax : x ∈ Rn } é um subespaço de Rm , nomeadamente o espaço das colunas
de A, EC(A). Como vimos acima, Ax estará o mais próximo possı́vel de um ponto b ∈ Rm
quando
Ax − b ∈ EC(A)⊥
mas, uma vez que EC(A) = EL(AT ), pelo Exemplo 12.25(i) temos
EC(A)⊥ = EL(AT )⊥ = N (AT )
Assim, Ax será o ponto mais próximo de b quando se verifica a equação dos mı́nimos
quadrados para x
(43) AT (Ax − b) = 0 ⇔ AT Ax = AT b
Note-se que a solução pode não ser única (se N (A) 6= 0) mas o sistema acima tem sempre
solução, que minimiza a distância a b, uma vez que o sistema traduz exatamente a condição
de Ax ser o ponto de EC(A) mais próximo de b, e este ponto existe sempre).
Este método é extremamente útil na prática. Frequentemente temos dados experimentais
que queremos ajustar a uma lei conhecida, que depende de parâmetros. Os inevitáveis erros
experimentais terão como consequência que nenhuma escolha dos parâmetros se adequará
às medições, mas este método permite achar quais os valores dos parâmetros que melhor
se adequam às medições efetuadas.
Exemplo 12.34. Vamos determinar a reta y = ax + b que melhor aproxima os três pontos
(não colineares) (0, −2), (1, 3), (4, 5) ∈ R2 . Se existisse uma reta que passasse pelos três
pontos, os coeficientes a, b seriam soluções do sistema

a · 0 + b = −2
   
 0 1   −2
a
a·1+b=3 ⇔ 1 1  = 3 
b
4 1 5

a · 4 + b = 5

Este sistema não tem solução mas o método dos mı́nimos quadrados dá-nos os coeficientes
a, b tais que a soma
(a · 0 + b − (−2))2 + (a · 1 + b − 3)2 + (a · 4 + b − 5)2
8Esta discussão é adaptada do tratamento deste método em [D].
APONTAMENTOS DE ÁLGEBRA LINEAR 99

é mı́nima (é isto que dá o nome ao método). Temos que achar a solução do sistema
   
  0 1     −2     
0 1 4  a 0 1 4  17 5 a 23
1 1  = 3  ⇔ =
1 1 1 b 1 1 1 5 3 b 6
4 1 5
que é  
    39 
a 1 3 −5 23 26
= =
b26 −5 17 6 − 12
pelo que a reta que melhor aproxima os pontos dados (no sentido dos mı́nimos quadrados)

y = 39
26
x − 12
Observação 12.35. Pouco após a sua descoberta, em 1801, Ceres ficou tapado pelo Sol.
Foi para prever (com sucesso) o sı́tio onde Ceres iria aparecer depois de passar por detrás
do Sol, com base nas poucas observações que se tinham conseguido anteriormente, que
Gauss inventou o método dos mı́nimos quadrados.
12.36. Transformações unitárias e (anti)-hermitianas. Para terminar vamos falar
um pouco das transformações lineares de um espaço vetorial munido de um produto interno
nele próprio. Começamos por aquelas que preservam o produto interno e portanto ângulos
e distâncias.
Definição 12.37. Seja V um espaço vetorial com produto interno h·, ·i. Uma trans-
formação linear T : V → V tal que
hT (v), T (w)i = hv, wi para todos os v, w ∈ V
diz-se ortogonal quando V é um espaço vetorial real e unitária quando V é um espaço
vetorial complexo.
Exemplo 12.38. Consideremos Rn com o seu produto interno usual e T : Rn → Rn a
transformação linear definida por T (x) = Ax com A uma matriz n × n (onde, como
habitualmente, estamos a identificar Rn com as matrizes coluna n × 1). O produto interno
de dois vetores x e y de Rn pode escrever-se matricialmente na forma xT y. Portanto T é
ortogonal se e só se
(44) (Ax)T (Ay) = xT y ⇔ xT AT Ay = xT y para todos os x, y ∈ Rn
Isto acontece se e só se
(45) AT A = In
De facto, é claro que se A satisfaz a condição (45) então satisfaz (44). Reciprocamente se
(44) é satisfeita então tomando para x e y o i-ésimo e j-ésimo vetores da base canónica de
Rn respetivamente, a expressão xT AT Ay calcula a entrada ij da matriz AT A que é portanto
1 quando i = j e 0 caso contrário, ou seja, a matriz identidade.
As matrizes de Mn×n (R) que satisfazem (45) chamam-se matrizes ortogonais. Note-se
que esta equação é também equivalente a dizer que A é invertı́vel com inversa AT .
100 APONTAMENTOS DE ÁLGEBRA LINEAR

Uma vez que as linhas da matriz AT são as colunas de A, a condição (45) diz que uma
matriz é ortogonal sse as suas colunas formam uma base ortonormada para Rn .
Assim, quando multiplicamos a matriz A por um vetor x ∈ Rn , obtemos um vetor que tem
as mesmas coordenadas que x mas numa base ortonormada diferente da canónica. Isto
corresponde a uma rotação e/ou reflexão do espaço. Ver o Exemplo 12.42 abaixo.
Consideremos agora o caso inteiramente análogo em que V = Cn com o produto in-
terno usual, e T x = Ax com x ∈ Cn . Temos agora que o produto interno é definido
matricialmente pela expressão hx, yi = xT y e então T é unitária se
T T
xT A Ay = xT y ⇔ A A = In
As matrizes que satisfazem esta condição dizem-se unitárias. Novamente uma matriz
T
é unitária sse é invertı́vel e a sua inversa é A , sse as suas colunas formam uma base
ortonormada para Cn .
É conveniente simplificar a notação para a matriz transposta conjugada.
T
Definição 12.39. Seja A ∈ Mm×n (C). A matriz transposta conjugada A é denotada por
A∗ , e é por vezes chamada a matriz transconjugada de A. Temos portanto A∗ ∈ Mn×m (C)
com entrada ij dada por aji .
Proposição 12.40. Seja V um espaço vetorial complexo com produto interno h·, ·i e
T : V → V uma transformação unitária. Então
(1) Os valores próprios de T são complexos com módulo 1.
(2) Vetores próprios de T correspondentes a valores próprios distintos são ortogonais.
Dem. Seja v um vetor próprio de T . Sendo T (v) = λv temos
kT (v)k2 = hT (v), T (v)i = hλv, λvi = λλhv, vi = |λ|2 kvk2
Por outro lado, como T é unitária temos hT (v), T (v)i = hv, vi = kvk2 . Portanto kvk2 =
|λ|2 kvk2 , e como v 6= 0, isto significa que |λ| = 1.
Suponhamos agora que T (v) = λv e T (w) = µw com λ, µ distintos. Então
hv, wi = hT v, T wi = hλv, µwi = λµhv, wi
ou seja
(1 − λµ)hv, wi = 0 ⇔ λµ = 1 ou hv, wi = 0
Como λ é um complexo com módulo 1, λ = λ1 logo a primeira condição na disjunção acima
é equivalente a µ = λ. Conclui-se que hv, wi = 0, isto é, que v e w são ortogonais. 
Observação 12.41. Se encararmos uma matriz n × n real A como uma matriz complexa,
dizer que A é ortogonal ou unitária é equivalente (uma vez que A = A). Vemos portanto
que os valores próprios de uma matriz ortogonal são complexos unitários e que os seus
vetores próprios são ortogonais em Cn .
Exemplo 12.42. A matriz  
cos α − sen α
sen α cos α
APONTAMENTOS DE ÁLGEBRA LINEAR 101

é ortogonal, como se verifica imediatamente. Geometricamente corresponde à rotação de


um ângulo α no sentido anti-horário (desenhe o efeito da matriz nos vetores da base
canónica).
Note-se que os valores próprios (complexos) desta matriz são as soluções de
(cos α − λ)2 + sen2 α = 0 ⇔ λ = cos α ± i sen α
Os vetores próprios (também necessariamente complexos) são as soluções de
      
cos α − (cos α ± i sen α) − sen α a a ±i
=0⇔ =λ
sen α cos α − (cos α ± i sen α) b b 1
e são ortogonais para o produto interno usual em C2 .
Definição 12.43. Sejam V, W espaços vetoriais reais ou complexos de dimensão finita
com produto interno e T : V → W uma transformação linear. A transformação adjunta
de T é a única transformação linear T ∗ : W → V tal que
(46) hT v, wi = hv, T ∗ wi para todos os v ∈ V, w ∈ W.
Temos que verificar que esta definição faz sentido. Começamos por notar que, dado
w ∈ W , há um único vetor T ∗ w que satisfaz a relação hT v, wi = hv, T ∗ wi para todo o
v ∈ V . De facto sendo B = (v1 , . . . , vn ) uma base ortonormada para V , o escalar hvi , T ∗ wi,
que é a componente i de [T ∗ w]B , tem de ser necessariamente igual a hT vi , wi. Portanto
T ∗ w = hT v1 , wiv1 + . . . + hT vn , wivn
Por outro lado, é um exercı́cio simples verificar que se definirmos T ∗ w pela fórmula anterior,
T ∗ é uma transformação linear que satisfaz a igualdade na definição de transformação
adjunta.
No caso em que V = Cn , W = Cm , e T v = Av é determinada por uma matriz A ∈
Mm×n (C), a equação (46) traduz-se em
(Av)T w = v T (T ∗ w) para todo o v, w ∈ Cn ⇔ v T A∗ w = v T (T ∗ w)
pelo que a transformação adjunta T ∗ é a transformação linear de Cm para Cn determi-
nada pela matriz transposta conjugada A∗ . No caso real, a transformação adjunta é a
transformação determinada pela matriz transposta.
Observação 12.44. Em termos da identificação do dual de um espaço vetorial com um
produto interno com o próprio espaço vetorial, explicada nos exercı́cios da Ficha 12, a
transformação adjunta de T corresponde à transformação induzida por T entre os espaços
duais.
Definição 12.45. Seja V um espaço vetorial de dimensão finita com produto interno.
Uma transformação linear T : V → V diz-se auto-adjunta se T = T ∗ e anti-adjunta se
T = −T ∗ .
Segue imediatamente da discussão anterior que uma matriz A ∈ Mn×n (R) determina uma
transformação auto-adjunta de Rn sse é simétrica e anti-adjunta sse é anti-simétrica, isto
é se AT + A = 0. Analogamente, uma matriz A ∈ Mn×n (C) determina uma transformação
102 APONTAMENTOS DE ÁLGEBRA LINEAR

auto-adjunta sse A é hermitiana e uma transformação anti-adjunta sse é anti-hermitiana,


isto é se A∗ + A = 0.
Proposição 12.46. Os valores próprios de uma transformação linear auto-adjunta são
reais, e os de uma transformação linear anti-adjunta são imaginários puros. Em qualquer
dos casos, vetores próprios de valores próprios distintos são ortogonais.
Dem. Suponhamos que T é auto-adjunta e v é um vetor próprio de T então
λhv, vi = hλv, vi = hT v, vi = hv, T vi = hv, λvi = λhv, vi
Como v 6= 0 temos que λ = λ pelo que λ é real. No caso anti-adjunto obterı́amos a
igualdade λ + λ = 0 que diz que λ é imaginário puro.
Sejam λ e µ valores próprios distintos de T auto-adjunta com vetores próprios v, w.
Então
λhv, wi = hT v, wi = hv, T wi = µhv, wi
onde na primeira igualdade usámos o facto de λ ser real e portanto igual ao seu conjugado.
A igualdade anterior traduz-se em (λ − µ)hv, wi = 0. Uma vez que λ 6= µ, conclui-se que
v e w são ortogonais.
No caso anti-adjunto obtemos análogamente (λ + µ)hv, wi = 0. Como λ e µ são ima-
ginários puros λ + µ = −λ + µ pelo que novamente vemos que v, w são ortogonais. 
Teorema 12.47 (Teorema espetral). (i) Seja V um espaço vetorial complexo de di-
mensão finita com produto interno e T : V → V uma transformação linear unitária,
auto-adjunta ou anti-adjunta. Então T é diagonalizável por uma base ortogonal de
V.
(ii) Seja V um espaço vetorial real de dimensão finita com produto interno e T : V →
V uma transformação linear auto-adjunta. Então T é diagonalizável por uma base
ortogonal de V .
Dem. As demonstrações são todas análogas pelo que vamos apenas ilustrar o caso de uma
transformação auto-adjunta deixando os outros como exercı́cio.
A demonstração é por indução na dimensão do espaço V , sendo que o caso de dimensão
1 é trivial. Supondo que a dimensão de V é maior do que 1, seja v um vetor próprio de
T e consideremos o subespaço W = v ⊥ ⊂ V . Então T|W é também auto-adjunta para a
restrição do produto interno de T a W . De facto, a igualdade
λhv, wi = hT v, wi = hv, T ∗ wi
mostra que, se w ∈ v ⊥ então T ∗ w ∈ v ⊥ . É então imediato que (T|W )∗ = T|W

e portanto
T|W é auto-adjunta. Por hipótese de indução, existe uma base ortogonal de W formada
por valores próprios de T|W que juntamente com v forma a base ortogonal desejada para
V.
Se V é um espaço vetorial real, com respeito a uma base ortonormada B para V , o
produto interno em V é calculado da mesma forma que o produto interno usual em Rn .
Uma transformação auto-adjunta T é representada na base B por uma matriz simétrica
APONTAMENTOS DE ÁLGEBRA LINEAR 103

A = AT,B,B . A transformação linear T̃ : Cn → Cn representada por A é portanto auto-


adjunta (com respeito ao produto interno usual em Cn ). Como tal é diagonalizável (sobre
C) por uma base ortogonal. No entanto, como os valores próprios de T̃ são reais, e a matriz
A é real, os vetores próprios de T̃ são também reais. Os vetores de V correspondentes aos
vetores próprios de T̃ são a base ortogonal desejada para V . 
Sumarizamos agora a informaçao sobre matrizes quadradas que resulta do Teorema
anterior, aplicando-o à transformação linear definida por T x = Ax com A uma matriz
n × n real ou complexa. Em cada caso a matriz A pode ser escrita na forma
A = SDS −1
com S uma matriz, unitária quando A é diagonalizável sobre C, e ortogonal quando A
é diagonalizável sobre R, (cujas colunas formam uma base ortonormada para Cn ou Rn
consoante o caso, constituı́da por vetores próprios de A), e D uma matriz diagonal cujas
entradas são os valores próprios de A.

Tipo de matriz Definição Diagonalizável Valores próprios


ortogonal AAT = In sobre C λ ∈ C, |λ| = 1
simétrica A = AT sobre R reais
T
anti-simétrica A + A = 0 sobre C imaginários puros
Matrizes n × n reais especiais.

Tipo de matriz Definição Valores próprios



unitária AA = In λ ∈ C, |λ| = 1

hermitiana A=A reais
anti-hermitiana A + A∗ = 0 imaginários puros
Matrizes n × n complexas especiais.

Observação 12.48. Embora não haja nenhum critério útil para ver se uma matriz é diago-
nalizável, há um critério muito simples para ver se uma matriz complexa A é diagonalizável
por uma base ortonormada. Isto acontece sse AA∗ = A∗ A. Ver os exercı́cios da Ficha 13
para uma demonstração.
12.49. Formas quadráticas. Como aplicação do resultado anterior vamos aproveitar para
classificar a menos de mudança de variável linear os polinómios homogéneos de grau 2 de
várias variáveis. Podemos pensar nestes como as funções de várias variáveis mais simples
a seguir às funções lineares.
Definição 12.50. Uma forma quadrática em Rn é uma função f : Rn → R da forma
(47) f (x) = xT Ax
104 APONTAMENTOS DE ÁLGEBRA LINEAR

com A ∈ Mn×n (R) (onde identificamos como habitualmente uma matriz 1 × 1 com um
escalar).
Por exemplo
  
2 5 x
= 2x2 + 6xy + 4y 2
 
(48) f (x, y) = x y
1 4 y
é uma forma quadrática em R2 . Note-se que a forma quadrática depende apenas da parte
T
simétrica A+A2
da matriz A. De facto uma vez que a transposição de matrizes 1 × 1 não
tem qualquer efeito temos xT Ax = (xT Ax)T = xT AT x. Substituindo a matriz A em (47)
T
por A+A2
obtemos portanto a mesma expressão. Por outro lado, uma vez que a soma das
entradas ij e ji da matriz A é o coeficiente de xi xj na expressão (47) matrizes simétricas
distintas dão azo a formas quadráticas distintas. Há assim uma correspondência biunı́voca
entre formas quadráticas e matrizes quadradas reais simétricas.
Tendo em conta o Teorema espetral, dada uma matriz simétrica A, existe uma matriz
ortogonal S e uma matriz diagonal (real) D tal que
A = SDS −1
E dado que S é ortogonal, S −1 = S T . Usando coordenadas y na base ortonormada formada
pelas colunas de S a expressão para a forma quadrática simplifica-se muito. Temos x = Sy
e então
(49) f (x) = xT Ax = (y T S T )A(Sy) = (y T S T )SDS T (Sy) = y T Dy = λ1 y12 + . . . + λn yn2
onde λ1 , . . . , λn são as entradas diagonais de D, ou seja, os valores próprios de A. Nas
aplicações (por exemplo para a determinação de extremos de funções de várias variáveis
como verão em Cálculo 2) é importante determinar o “sinal” de uma forma quadrática no
seguinte sentido.
Definição 12.51. Uma forma quadrática f : Rn → R diz-se
(i) definida positiva se f (x) > 0 para x 6= 0.
(ii) semi-definida positiva se f (x) ≥ 0 para todo o x ∈ Rn .
(iii) definida negativa se f (x) < 0 para x 6= 0.
(iv) semi-definida negativa se f (x) ≤ 0 para todo o x ∈ Rn .
(v) indefinida se f (x) assume valores positivos e negativos.
Da discussão anterior obtemos imediatamente o seguinte resultado.
Proposição 12.52. Uma forma quadrática f (x) = xT Ax com A ∈ Mn×n (R) simétrica é
(i) definida positiva sse todos os valores próprios de A são positivos.
(ii) semidefinida positiva sse todos os valores próprios de A são maiores ou iguais a zero.
(iii) definida negativa sse todos os valores próprios de A são negativos.
(iv) semidefinida negativa sse todos os valores próprios de A são menores ou iguais a zero.
(v) indefinida sse A tem valores próprios de sinal contrário.
APONTAMENTOS DE ÁLGEBRA LINEAR 105

Exemplo 12.53. A forma quadrática (48) é indefinida uma vez que a matriz simétrica
que a representa  
2 3
3 4
tem determinante negativo e portanto valores próprios de sinais contrários.
Observação 12.54. A expressão (49) mostra também que toda a matriz simétrica com
valores próprios positivos é a matriz da métrica de um produto interno, pois a positividade
do produto interno corresponde precisamente ao facto da forma quadrática determinada
pela matriz ser definida positiva.

Appendix A. Mais sobre a forma canónica de Jordan


O procedimento descrito acima para achar a forma canónica de Jordan funciona bastante
bem para matrizes pequenas mas, em geral, pode ser difı́cil encontrar os vectores próprios
v1 para os quais se consegue resolver as equações (35) recursivamente. O seguinte exemplo
ilustra as dificuldades no caso mais simples.
Exemplo A.1. Seja A uma matriz com forma canónica de Jordan
 
1 1 0
(50) J = 0 1 0 
0 0 1
O espaço próprio de 1 tem dimensão 2. Seja {v1 , v10 } uma base para o espaço próprio de 1.
Tem que se ter cuidado na escolha do vector próprio v de 1 que se pôe na primeira coluna
da matriz S. De facto, só será possı́vel resolver a equação (35)
(A − I)v2 = v
para achar a segunda coluna se v estiver no espaço das colunas da matriz (A − I), que
tem dimensão 1. É portanto necessário achar uma combinação linear v = αv1 + βv10 que
pertença ao espaço das colunas de A − I. A terceira coluna poderá ser qualquer vector
próprio de 1 que juntamente com v forme uma base para o espaço próprio.
Vejamos um exemplo concreto. Considere-se a matriz
 
0 −1 2
A =  −1 0 2 
−1 −1 3
O polinómio caracterı́stico é
det(A − λI) = −λ3 + 3λ2 − 3λ + 1 = −(λ − 1)3
logo o único valor próprio é 1, com multiplicidade algébrica 3. Os vectores próprios de 1
são as soluções de   
−1 −1 2 a
 −1 −1 2   b  = 0 ⇔ 2c = a + b
−1 −1 2 c
106 APONTAMENTOS DE ÁLGEBRA LINEAR

O espaço próprio de 1 é portanto o conjunto dos vectores


     
a 1 0
 b  =a 0 +b 1 
  
1 1 1
2
(a + b) 2 2

e 1 tem multiplicidade geométrica 2. Há portanto dois blocos de Jordan e a forma canónica
de Jordan de A é necessariamente (50).
Não é no entanto possı́vel resolver a equação (35)
(A − I)v2 = v1
quando v1 é um dos vectores 1, 0, ou 0, 1, 21 da base ”natural” do espaço próprio de 1.
1
 
2
Como observámos acima, para que a equação tenha solução é necessário que v1 pertença ao
espaço das colunas de A − I, que é o espaço gerado por (1, 1, 1). A soma dos dois vectores
da ”base natural” é exactamente (1, 1, 1). Resolvendo a equação
    
−1 −1 2 a 1
 −1 −1 2   b  =  1  = 0 ⇔ 2c = a + b + 1
−1 −1 2 c 1
obtemos as soluções
       
a 0 1 0
 b  =  0  + a 0  + b 1 
1 a b 1 1 1
2
+ 2
+ 2 2 2 2

Podemos tomar por exemplo v2 = 0, 0, 21 . Para terceira coluna de S podemos tomar



qualquer vector próprio
 de 1 que juntamente com (1, 1, 1) forme uma base do espaço próprio,
1
por exemplo, 1, 0, 2 . Obtemos assim a matriz de mudança de base
 
1 0 1
S= 1 0 0 
1 12 12
O exemplo anterior é bastante simples e foi resolvido facilmente mas a situação complica-
se à medida que o número e tamanho dos blocos relativos ao mesmo valor próprio aumenta.
Por exemplo, se a multiplicidade algébrica de λ é 4 e a multiplicidade geométrica é 2,
não sabemos à partida qual é a dimensão dos dois blocos de Jordan associados a λ. As
possibilidades são 1 e 3 ou 2 e 2. No primeiro caso teremos novamente que ter cuidado
na seleção do vector próprio com o qual iniciar a resolução recursiva das equações (35)
(terá de estar na imagem de (A − λI)2 ). No final deste apêndice descreve-se um algoritmo
geral (nada prático em termos de contas) para achar a forma canónica J juntamente com
a matriz S (ver a secção A.5).
A.2. Demonstração do Teorema 11.11. Seja A uma matriz n × n complexa. Se λ ∈ C
é um valor próprio de A o conjunto
V (λ) = {v ∈ Cn : (A − λI)k v = 0 para algum k ≥ 1}
APONTAMENTOS DE ÁLGEBRA LINEAR 107

chama-se o espaço próprio generalizado de A associado ao vector próprio λ. É fácil ver


que V (λ) é um subespaço vectorial de Cn .
Para cada j ≥ 0 seja
V (λ, j) = {v ∈ C n : (A − λI)j v = 0}
Temos então uma sucessão de subespaços
0 = V (λ, 0) ⊂ V (λ, 1) ⊂ V (λ, 2) ⊂ · · · ⊂ V (λ, k) ⊂ · · · ⊂ V (λ)
Por definição, V (λ, 1) é o espaço próprio de λ e V (λ) é a união de todos os V (λ, j). Uma
vez que V (λ) tem dimensão finita, existe n(λ) ≥ 1 tal que
V (λ, n(λ) − 1) ( V (λ, n(λ)) = V (λ)
Note-se também que, uma vez que a matriz A comuta com a matriz (A − λI), os espaços
V (λ, j) são invariantes, isto é, AV (λ, j) ⊂ V (λ, j).
Definição A.3. Seja A uma matriz n × n complexa e λ ∈ C um valor próprio de A. O
ı́ndice de um vector próprio generalizado v ∈ V (λ) é o menor i ≥ 0 tal que v ∈ V (λ, i).
Por exemplo o vector 0 tem indı́ce 0 e um vector próprio tem ı́ndice 1.
Lema A.4. Se v ∈ V (λ) tem ı́ndice i então dado 0 ≤ j ≤ i, o vector (A − λI)j tem ı́ndice
i − j. Além disso o conjunto
(A − λI)i−1 v, . . . , (A − λI)v, v
é linearmente independente (isto é, é uma cadeia de Jordan).
Dem. Uma vez que (A−λI)i−j ((A − λI)j v) = 0, o vector (A−λI)j v pertence a V (λ, i−j).
Se estivesse contido em V (λ, m) com m < i − j então (A − λI)j+m v = 0 e portanto
v ∈ V (λ, m + j) contradizendo o facto de v ter ı́ndice i.
Suponhamos que αl ∈ C são tais que
αi−1 (A − λI)i−1 v + . . . + α1 (A − λI)v + α0 v = 0
Aplicando (A − λI)i−1 à combinação linear anterior obtemos
0 + . . . + 0 + α0 (A − λI)i−1 v = 0
logo α0 = 0. Aplicando (A − λI)i−2 à combinação linear obtemos agora α1 = 0, e contin-
uando da mesma maneira vemos que todos os αl são 0. 
O plano da demonstração do Teorema 11.11 é o seguinte. Iremos demonstrar que
(1) A afirmação do Teorema é verdadeira quando Cn = V (λ) para algum λ.
(2) Dados valores próprios distintos λ1 , . . . , λk tem-se V (λ1 ) ∩ ⊕kj=2 V (λk ) = {0} logo
a afirmação do Teorema é válida quando Cn = ⊕λ∈σ(A) V (λ) onde σ(A) denota o
conjunto dos valores próprios de A.
(3) Cn = ⊕λ∈σ(A) V (λ)
108 APONTAMENTOS DE ÁLGEBRA LINEAR

Dem. do Teorema 11.11. (1) O nosso objectivo é escrever uma base para Cn = V (λ)
formada por cadeias de Jordan (35). Seja l = n(λ). Começamos por escolher uma
base vl,1 , . . . , vl,kl para um espaço U (l) complementar a V (λ, l − 1) em V (λ, l) =
V (λ).
Qualquer combinação linear não nula dos vectores vl,m tem indı́ce l e portanto o
argumento usado na demonstração do Lema A.4 mostra que o conjunto
(51) vl,1 , . . . , vl,kl , (A − λI)vl,1 , . . . , (A − λI)vl,kl , . . . , (A − λI)l−1 vl,1 , . . . , (A − λI)l−1 vl,kl
é linearmente independente e portanto forma uma base para o subespaço
W (l) = U (l) + (A − λI)U (l) + . . . + (A − λI)l−1 U (l) ⊂ V (λ)
Este espaço é invariante para (A − λI) e portanto para A. Na base (51) a trans-
formação linear A é representada por uma matriz diagonal por blocos sendo todos
os blocos, blocos de Jordan de dimensão l. O número de blocos é kl . Os vectores
vl,m são as colunas de S correspondentes às colunas mais à direita destes blocos e
os restantes vectores da base (51) são as restantes colunas de S correspondentes a
estes blocos.
Seja U (l − 1) um complementar para o subespaço V (λ, l − 2) + (A − λI)U (l) ⊂
V (λ, l − 1). Escolhemos uma base vl−1,1 , . . . , vl−1,kl−1 para U (l − 1) (que pode ser
vazia se Ul−1 = 0). Note-se que qualquer combinação linear não nula destes vectores
tem ı́ndice l − 1. O argumento do Lema A.4 mostra novamente que o conjunto
(52) vl−1,1 , . . . , vl−1,kl−1 , . . . , (A − λI)l−2 vl−1,1 , . . . , (A − λI)l−2 vl−1,kl−1
é linearmente independente. Mais geralmente, notando que qualquer combinação
linear de (A − λI)vl,1 , . . . , (A − λI)vl,kl , vl−1,1 , . . . , vl−1,kl−1 tem ı́ndice l − 1, vemos
que a união dos conjuntos (51) e (52) é linearmente independente.
Seja
W (l − 1) = U (l − 1) + (A − λI)U (l − 1) + . . . + (A − λI)l−2 U (l − 1)
Este espaço é invariante para A e na base (52) a transformação linear A é repre-
sentada por uma matriz diagonal por blocos. Todos os blocos são blocos de Jordan
de dimensão l − 1 e há kl−1 blocos.
Escolhemos agora um complementar U (l − 2) para o subespaço V (l − 3) + (A −
λI)2 U (l)+(A−λI)U (l−1). No espaço W (l−2) = U (l−2)+. . .+(A−λI)l−3 U (l−2)
a transformação linear é diagonal por blocos sendo todos estes blocos de Jordan de
dimensão l − 2.
Prosseguindo desta forma obtemos uma decomposição
V (λ) = W (l) ⊕ W (l − 1) ⊕ . . . ⊕ W (1)
e uma base de V (λ) na qual a tranformação linear A é representada por uma matriz
em forma canónica de Jordan.
(2) Sejam λ1 , . . . , λk valores próprios distintos. Para verificar que
V (λ1 ) ∩ (V (λ2 ) ⊕ . . . ⊕ V (λk )) = 0
APONTAMENTOS DE ÁLGEBRA LINEAR 109

basta ver que a transformação linear (A−µI) restrita a V (λ1 ) é invertı́vel se µ 6= λ1 .


Admitindo essa afirmação, a transformação linear (A − λ2 I)n(λ2 ) · · · (A − λk I)n(λk )
é invertı́vel em V (λ1 ) e 0 em V (λ2 ) ⊕ . . . ⊕ V (λk ) logo a interseção dos dois espaços
é nula.  
1
Mas (A − µI) = (A − λ1 I) + (λ1 − µ)I = (λ1 − µ) λ1 −µ (A − λ1 ) + I tem inverso
 
1 1 1
I− (A − λ1 I) + . . . + (−1)n(λ1 )−1 (A − λ1 )n(λ1 )−1
λ1 − µ λ1 − µ (λ1 − µ)n(λ1 )−1
como se verifica facilmente.
(3) Seja σ(A) o conjunto dos valores próprios de A e suponhamos por absurdo que

Z = ⊕λ∈σ(A) V (λ) 6= Cn

Seja W um complemento para o espaço Z ⊂ Cn e sejam n1 = dim Z e n2 = dim W .


Podemos escolher uma base para Cn tal que os primeiros n1 elementos da base
pertencem a Z e os restantes a W . Nessa base a transformação linear definida por
A tem a forma
 
J B
A=
0 C
(onde J é uma matriz n1 × n1 e C é uma matriz n2 × n2 ). Seja w ∈ W um vector
próprio da matriz C e λ o valor próprio correspondente. Então λ ∈ σ(A) e temos

Aw = λw + z ⇔ (A − λI)w = z para algum z ∈ Z

Sejam λ2 , . . . , λk os elementos de σ(A) \ {λ}. Então

(A − λ2 )n(λ2 ) · · · (A − λk )n(λk ) z ∈ V (λ)

logo
v = (A − λ2 )n(λ2 ) · · · (A − λk )n(λk ) w
é tal que
(A − λI)v ∈ V (λ)
e portanto
v ∈ V (λ) ⊂ Z.
Mas por outro lado

v = (λ − λ2 )n(λ2 ) · · · (λ − λk )n(λk ) w + z 0

com z 0 ∈ Z, o que é uma contradição.



110 APONTAMENTOS DE ÁLGEBRA LINEAR

A.5. Algoritmo para a determinação da forma canónica de Jordan. A demon-


stração do passo (1) do Teorema 11.11 contém implicitamente o seguinte algoritmo (nada
prático) para o cálculo da matriz J e S:
(1) Achar o conjunto σ(A) dos valores próprios de A. Para cada λ ∈ σ(A):
(2) Determinar os espaços
V (λ, i) = N (A − λI)i para i = 1, 2, . . .
e em particular determinar
n(λ) = min{k : N (A − λI)k = N (A − λI)k+1 }
(3) Seja l = n(λ). Determinar uma base vl,1 , . . . , vl,kl para um espaço U (λ, l) comple-
mentar a V (λ, l − 1) em V (λ, l). O número kl é o número de blocos de Jordan com
λ na diagonal de tamanho l. Cada vl,i gera uma cadeia de Jordan de tamanho l
vl,i , (A − λI)vl,i , . . . , (A − λI)l−1 vl,i
que dão as colunas de A correspondentes a um bloco de Jordan de tamanho l.
(4) Determinar uma base vl−1,1 , . . . , vl−1,kl−1 para um espaço U (λ, l − 1) complementar
a V (λ, l − 2) + (A − λI)U (λ, l) em V (λ, l − 1). Cada vl−1,i gera uma cadeia de
Jordan de tamanho l − 1 que dá as colunas de A correspondentes a um bloco de
Jordan de tamanho l − 1.
(5) Determinar uma base vl−2,1 , . . . , vl−1,kl−2 para um espaço U (λ, l − 2) complementar
a V (λ, l − 3) + (A − λI)U (λ, l − 1) + (A − λI)2 U (λ, l) em V (λ, l − 2). Cada vl−2,i gera
uma cadeia de Jordan de tamanho l − 2 que dá as colunas de S correspondentes a
um bloco de Jordan de tamanho l − 2.
(6) Continuando desta forma obtêm-se as colunas de S correspondentes aos blocos de
Jordan com λ na diagonal (assim como o número destes blocos de cada dimensão).

Appendix B. O produto externo de vetores


Definição B.1. Sejam v, w ∈ R3 . O produto externo de v e w é o vetor v × w ∈ R3
definido por

e1 e2 e3

v × w = v1 v2 v3 = (v2 w3 − v3 w2 )e1 + (v3 w1 − v1 w3 )e2 + (v1 w2 − v2 w1 )e3

w1 w2 w3
= (v2 w3 − v3 w2 , v3 w1 − v1 w3 , v1 w2 − v2 w1 )
onde ei designa o i-ésimo vetor da base canónica de R3 e a expressão à direita se obtém
expandindo o determinante ao longo da primeira linha.
Exemplo B.2.

e1 e2 e3

(1, −3, 2) × (5, 0, 2) = 1 −3 2  = (−6, 8, 15)
5 0 2
APONTAMENTOS DE ÁLGEBRA LINEAR 111

O produto externo tem inúmeras aplicações em Matemática e Fı́sica. Será usado em


Cálculo 2 para calcular fluxos de campos vetoriais através de superfı́cies. Em Mecânica
aparece por exemplo na expressão para o momento angular de uma partı́cula em torno de
um ponto, que é dado pela expressão L ~ = ~r × p~ com ~r o vetor de posição e p~ o momento
linear. A Força de Lorentz a que uma carga elétrica em movimento é sujeita ao interagir
com um campo magnético B ~ é F~ = q~v × B,
~ com ~v a velocidade e q a carga da partı́cula
em questão.
As propriedades do determinante implicam imediatamente certas propriedades do pro-
duto externo.
Proposição B.3 (Propriedades do produto externo). (i) O produto externo é linear em
cada um dos seus argumentos.
(ii) v × w = −w × v
(iii) v × v = 0
u1 u2 u3

(iv) hu, (v × w)i = v1 v2 v3
w1 w2 w3

Proof. A primeira afirmação é verdadeira porque o determinante é multilinear, a segunda


porque o determinante troca de sinal quando se trocam linhas, e a terceira porque o
determinante é zero se houver uma linha repetida. A quarta é uma consequência da
definição do produto interno e da expansão de Laplace ao longo da primeira linha. 

A Proposição anterior dá-nos o significado geométrico do produto externo. De facto, por


(iv) temos
hv, v × wi = hw, v × wi = 0
pelo que v × w é ortogonal ao plano gerado por v e w (se v e w são colineares, então as
propriedade (i) e (iii) dizem-nos que o produto externo é o vetor nulo). Além disso, dada
a interpretação do determinante como o volume do paralelipı́pedo temos que

– v×w –

kv × wk2 = hv × w, v × wi = – v –
– w –
é o volume do paralelipı́pedo com base o paralelogramo formado por v e w sendo a outra
aresta perpendicular ao paralelogramo com comprimento kv × wk. Este volume é a área
da base vezes o comprimento da aresta perpendicular à base pelo que kv × wk é a área
do paralelogramo com arestas v e w. Note-se que no caso degenerado em que v e w são
colineares a afirmação anterior continua a ser válida.
Em suma, quando v, w não são colineares, o produto externo v × w é um vetor perpen-
dicular ao plano determinado por v e w, cujo comprimento é a área do paralelogramo com
arestas v e w. Se α for a o ângulo entre v e w, a área do paralelogramo é a mesma que
a área do retângulo com arestas de comprimento kvk e kwk sen α (isto vê-se deslizando a
aresta w ao longo de uma reta paralela a v até que fique perpendicular a v - movimento
112 APONTAMENTOS DE ÁLGEBRA LINEAR

que não afeta a área do paralelogramo). Portanto


kv × wk = kvkkwk sen α com α o ângulo entre v e w
Há dois vetores com a propriedade que acabámos de descrever, que diferem apenas no
seu sentido. O sentido do produto externo é dado pela regra da mão direita: se colocarmos
a mão direita aberta, com os dedos que não o polegar juntos apontando na direção de v e
a rodarmos de modo a que esses dedos apontem para w, o polegar aponta na direção de
v × w.
A razão pela qual isto é assim prende-se com o significado geométrico do sinal do deter-
minante de uma matriz invertı́vel, que é precisamente

– v1 –

– v2 – > 0 ⇔ v1 , v2 e v3 satisfazem a regra da mão direita.

– v3 –
Nesse caso diz-se que a orientação do referencial (v1 , v2 , v3 ) é positiva. Note-se que o refer-
encial canónico formado pela base canónica de R3 tem esta propriedade. Assim podemos
pensar nos referenciais positivamente orientados como sendo ”semelhantes” ao referencial
habitual.
Para perceber a afirmação anterior recorde-se que podemos transformar a matriz com
linhas v1 , v2 e v3 na matriz identidade aplicando o método do Gauss-Jordan. Cada passo
do método consiste numa operação
(53) Li − αLj , αLi , Li ↔ Lj
que, em termos da matriz dos coeficientes do sistema, corresponde à multiplicação à es-
querda por uma matriz simples. No primeiro caso trata-se de uma matriz triangular com
uma única entrada não nula fora da diagonal, no segundo caso por uma matriz diagonal
com α na posição i e 1 nas restantes, e no último por uma matriz de permutação que troca
as linhas i e j. O sinal do determinante da matriz dos coeficientes não é alterado pelas
operações do primeiro tipo, permanece igual ou é alterado pelas do segundo tipo consoante
α é positivo ou negativo, e é sempre alterado por operações do terceiro tipo (com i 6= j).
Resta agora observar que o efeito que as operações (53) têm relativamente à verificação
da regra da mão direita por um referencial é exatamente o mesmo: operações do primeiro
tipo não têm efeito no que diz respeito à verificação da regra da mão direita pelas linhas
da matriz; operações do segundo tipo não têm efeito se α > 0 e têm efeito se α < 0; as
operações do terceiro tipo têm sempre efeito. Conclui-se que o determinante é positivo sse
as linhas satisfazem a regra da mão direita.
Observação B.4. A fórmula da Definição B.1 pode ser usada para definir o produto
externo de (n − 1) vetores em Rn , para n ≥ 1. Sendo e1 , . . . , en a base canónica de Rn e
v1 , . . . vn−1 vetores de Rn , define-se

e1 · · · en

– v 1 –
v1 × · · · × vn−1 =
– ... –

– vn−1 –
APONTAMENTOS DE ÁLGEBRA LINEAR 113

Por exemplo, se n = 2, o produto externo de um único vetor v1 ∈ R2 dá o vetor que se obtém
de v1 rodando 90 graus no sentido anti-horário. Em geral, os argumentos acima mostram
que o produto externo é nulo sse os vetores v1 , . . . , vn−1 forem linearmente dependentes e
senão é perpendicular ao plano (n − 1)-dimensional gerado por v1 , . . . , vn−1 . Além disso,
o comprimento do produto externo é o volume (n − 1)-dimensional do paralelipı́pedo com
arestas v1 , . . . , vn−1 e o seu sentido é tal que a orientação do referencial v1 , . . . , vn−1 , v1 ×
· · · × vn−1 coincide com a da base canónica de Rn .
Para terminar mencionamos ainda outra fórmula para o volume k-dimensional de um
paralelipı́pedo de dimensão k em Rn que será útil em Cálculo 2 quando se estudar a
integração em superfı́cies (k-dimensionais) curvas.
Proposição B.5. Sejam v1 , . . . , vk ∈ Rn vetores linearmente independentes. Então o
volume k-dimensional do paralelipı́pedo P com arestas v1 , . . . , vk é

Volk (P ) = det AT A
onde A ∈ Mn×k (R) é a matriz que tem v1 , . . . , vk por colunas.
Dem. Sejam wk+1 , . . . , wn uma base ortonormada para o complemento ortogonal do plano
gerado por v1 , . . . , vk . Então o volume do paralelipı́pedo n-dimensional com arestas
v1 , . . . , vk , wk+1 , . . . , wn é igual ao volume k-dimensional que queremos calcular. Sendo
B ∈ Mn×n (R) a matriz que tem por colunas os vetores v1 , . . . , vk , wk+1 , . . . , wn (por ordem)
e escrevendo B por blocos na forma [A | C] com A a matriz formada pelas primeiras k
colunas, temos
 T 
T A A 0
B B=
0 In−k
(onde C T C = In−k porque os vetores wi constituem uma base ortonormada para o plano
que geram). Portanto

(det B)2 = det(AT A) ⇔ det AT A = | det B|
e, uma vez que | det B| é o volume do paralelipı́pedo n-dimensional com arestas
v1 , . . . , vk , wk+1 , . . . , wn , isto conclui a demonstração. 

Notamos que a matriz AT A no enunciado anterior é exatamente a matriz da métrica


com respeito à base (v1 , . . . , vk ) para a restrição do produto interno usual ao plano gerado
por {v1 , . . . , vk }.
Exemplo B.6. A área do paralelogramo em R3 com arestas (1, −2, 1) e (2, 3, 0) é
v   s
u   1 2 6 −4 √

1 −2 1 
u
tdet −2 3  = = 62
u
2 3 0 −4 13
1 0
114 APONTAMENTOS DE ÁLGEBRA LINEAR

Appendix C. Projeção ortogonal e compressão de dados


A ideia fundamental utilizada na compressão de dados (por exemplo som, ou imagem)
é a projeção ortogonal e baseia-se na descoberta por Joseph Fourier, um engenheiro,
matemático e fı́sico do século XIX, durante as suas investigações sobre a propagação do
calor, que é possı́vel descrever funções por meio de somas de funções trigonométricas.
Na sua expressão mais simples, suponhamos que pretendemos descrever uma função real
contı́nua f : [0, 2π] → R (que pode representar por exemplo, uma linha numa imagem, ou a
intensidade do som). É fácil verificar, que com respeito ao produto interno h·, ·i no espaço
vetorial C([0, 2π], R) das funções contı́nuas em [0, 2π] definido por

ˆ 2π
hf, gi = f (x)g(x)dx
0

o conjunto

{1, sen x, sen(2x), . . . , sen(nx), . . .}

é ortogonal. Fourier descobriu que é possı́vel expressar qualquer função contı́nua como
“combinação linear” destas funções9 - aquilo a que se chama hoje uma série de Fourier.
Intuitivamente isto significa que o conjunto acima forma uma “base ortogonal” para o
espaço das funções contı́nuas em [0, 2π].
A ortogonalidade permite determinar facimente os coeficientes da combinação linear
correspondente a uma função f : o coeficiente segundo sen(nx) da função f é dado pela
expressão

hsen(nx), f (x)i
Psen(nx) (f ) =
k sen(nx)k2

A ideia básica da compressão de dados é que, para armazenar a informação contida


no gráfico de f basta armazenar um número suficientemente grande destes coeficientes.
Quanto maior o número de coeficientes, maior a fidelidade com que conseguimos repro-
duzir a função f . Dados os coeficientes, reproduzir a função f corresponde em somar a
expressão com os coeficientes armazenados. Desde que o número de coeficientes utilizado
seja suficientemente grande será impossı́vel ao ouvido ou olho humano distinguir entre a
função original e a soma de funções trigonométricas usada para a aproximar.

9Trata-se de uma combinação linear infinita, ou desenvolvimento em série. A análise da convergência


destas séries é delicada e constitui ainda hoje uma área da Matemática que se designa por Análise
Harmónica.
APONTAMENTOS DE ÁLGEBRA LINEAR 115

Figure 1. Aproximação de um sinal retangular por uma soma de Fourier


com 5 termos.

Recomendamos a utilização do applet disponı́vel em http://mathlets.org/mathlets/


fourier-coefficients/ (parte dos MIT Mathlets) para explorar esta ideia, que será
descrita com mais detalhe e utilizada no próximo ano, no curso de Análise Complexa e
Equações Diferenciais.

Appendix D. O critério de Sylvester


Seja A uma matriz simétrica n × n. Dado 1 ≤ i ≤ n escrevemos Ai para a matriz que
se obtém de A tomando apenas as primeiras i linhas e colunas de A. Os determinantes
destas submatrizes de A chamam-se os menores principais de A.
Proposição D.1 (Critério de Sylvester). Seja f : Rn → R a forma quadrática determinada
pela matriz simétrica A ∈ Mn×n (R). Então
• f é definida positiva sse det Ai > 0 para i = 1, . . . , n.
• f é definida negativa sse det Ai é positivo para i par e negativo para i ı́mpar.
Dem. Note-se que f (x) = xT Ax é definida positiva sse −f (x) = xT (−A)x é definida
negativa. Uma vez que det(−Ai ) = (−1)i det Ai (em geral, a multilinearidade do determi-
nante implica que det(λA)i = λi det Ai ), vemos que as duas afirmações do enunciado são
equivalentes. Basta portanto demonstrar a primeira.
Se f é definida positiva, a sua restrição a Ri = {(x1 , . . . , xi , 0, . . . , 0) : x1 , . . . , xi ∈ R}
será também definida positiva. Mas claramente esta restrição é dada pela fórmula (com
x ∈ Ri )
f|Ri (x) = xT Ai x
logo, para que f seja definida positiva, é necessário que det Ai > 0.
116 APONTAMENTOS DE ÁLGEBRA LINEAR

Reciprocamente, suponhamos que det Ai > 0 para cada i = 1, . . . n. Seja i > 1 e


suponhamos indutivamente que já verificámos que f|Rk é definida positiva para todo k < i
(para k = 1 é claro que se det A1 = a11 > 0 então f|R1 (x1 ) = a11 x21 é definida positiva).
Suponhamos por absurdo que f|Ri não era definida positiva. Uma vez que, por hipótese,
det Ai > 0, a matriz Ai teria que ter pelo menos dois valores próprios negativos (contados
com multiplicidade). Sendo W ⊂ Ri um plano gerado por dois vetores próprios indepen-
dentes de Ai com valores próprios negativos, terı́amos f|W (y) < 0 para y ∈ W \ {0}.
Mas a interseção de W com Ri−1 ⊂ Ri tem dimensão pelo menos 1 pelo que existiria
um vetor y ∈ Ri−1 \ {0} com f (y) < 0, contradizendo a hipótese de indução que f|Ri−1 é
definida positiva. 
Exemplo D.2. Consideremos a forma quadrática f : R3 → R definida por
f (x, y, z) = 10x2 + 10y 2 + 10z 2 + 2xy + 2yz
A matriz simétrica que lhe está associada é
 
10 1 0
A =  1 10 1 
0 1 10
Os menores principais

10 1 0
10 1
|10| = 10,
1 10
= 99,

1 10 1

= 1000 − 20 = 980

0 1 10
são todos positivos, pelo que a forma quadrática é definida positiva.

Appendix E. A classificação das quádricas


Uma quádrica é uma curva em R2 ou uma superfı́cie em R3 definida por uma equação
quadrática. Podemos usar a diagonalização de matrizes simétricas para entender geomet-
ricamente estas curvas e superfı́cies (que irão ser exemplos básicos em Cálculo 2).

E.1. Quádricas em R2 . A expressão geral de uma quádrica é


(54) ax2 + bxy + cy 2 + dx + ey + f = 0
em que a, b, c, d, e, f ∈ R. Devemos excluir alguns casos degenerados: se a = b = c = 0
então o conjunto descrito pela expressão anterior é uma reta se (d, e) 6= (0, 0), vazio se
d = e = 0 e f 6= 0, e todo o plano se d = e = f = 0. Consideremos portanto o caso em
que os termos de grau 2 não se anulam todos. Temos
 a b
  
2 2

2
x
ax + bxy + cy = x y b
2
c y
Sejam λ1 , λ2 ∈ R os valores próprios da matriz associada à forma quadrática anterior e
(u1 , u2 ), (v1 , v2 ) os vetores próprios correspondentes, que podemos assumir formarem uma
APONTAMENTOS DE ÁLGEBRA LINEAR 117

base ortonormada para R2 . Sendo (u, v) as coordenadas no referencial determinado pelos


vetores próprios temos
    
x u1 v1 u
(55) =
y u2 v2 v
Nestas coordenadas, temos
b
    
2 2
  u1 u2 a 2
u1 v1 u
ax + bxy + cy = u v b
v1 v2 2
c u2 v2 v
  
λ1 0 u
= λ1 u2 + λ2 v 2
 
= u v
0 λ2 v
O termo linear em (54) transforma-se mediante a mudança de coordenadas (55) num termo
linear em u e v, pelo que esta mudança de coordenadas transforma (54) na seguinte equação:
(56) λ1 u2 + λ2 v 2 + d0 u + e0 v + f = 0
Temos agora a considerar três casos:
• λ1 , λ2 ambos diferentes de 0, com o mesmo sinal: Multiplicando (56) por −1 se
necessário podemos assumir que λ1 e λ2 são positivos. Completando os quadrados
podemos escrever a expressão na forma
d0 2 e0 2
λ1 (u + 2λ1
) + λ2 (v + 2λ2
) = f0
d02 e02
onde f 0 = −f + 4λ21
+ 4λ22
. Se f 0 < 0 este conjunto é vazio, se f 0 = 0 este conjunto
0 0
consiste no ponto (− 2λ d
1
, − 2λe 2 ), e se f 0 > 0, o conjunto é uma elipse com centro em
d0 0
(− 2λ 1
, − 2λe 2 ) (ou uma circunferência quando λ1 = λ2 ).
• λ1 , λ2 ambos diferentes de 0, com sinais opostos: Multiplicando (56) por −1 se
necessário podemos assumir que λ1 é positivo. Com uma manipulação semelhante
à do caso anterior obtemos uma expressão da forma
λ1 (u − u0 )2 + λ2 (v − v0 )2 = f 0
que, para f 0 6= 0 é a equação de uma hipérbole10 com “centro” em (u0 , v0 ) e
assı́ntotas dadas pelas retas
λ1
v − v0 = ± (u − u0 )
λ2
Quando f 0 = 0 a equação reduz-se à equação das retas definidas pela expressão
anterior.
• λ1 ou λ2 são 0: Sem perda de generalidade podemos assumir que λ2 = 0 e que
λ1 > 0. Manipulando a expressão (56) como antes obtemos
λ1 (u − u0 ) + e0 v + f 0 = 0
10Note-se que a equação x2 − y 2 = 1 se pode escrever na forma (x − y)(x + y) = 1 e portanto, mediante
a mudança de variável linear u = x − y, v = x + y é equivalente à equação mais familiar para uma hipérbole
uv = 1.
118 APONTAMENTOS DE ÁLGEBRA LINEAR

Se e0 6= 0, trata-se da equação de uma parábola, cujo sentido é determinado pelo


sinal de e0 . Se e0 = 0 obtemos o conjunto vazio, a reta u = u0 , ou duas retas
paralelas a esta última, consoante f 0 > 0, f 0 = 0 ou f 0 < 0 respetivamente.
Exemplo E.2. Consideremos o exemplo concreto da equação
x2 + 2xy + y 2 + x + 2y + 3 = 0
A matriz simétrica associada à forma quadrática determinada pelos termos quadráticas é
 
1 1
1 1
que tem valores próprios 0 e 2 com vetores próprios ( √12 , − √12 ) e ( √12 , √12 ). Fazendo a
mudança de coordenadas
   1
√1
   1
− √1
   
x √ u u √ x
2 2
= ⇔ = √12 √1 2
y − √12 √12 v v 2 2
y
obtemos a equação
0 · u2 + 2v 2 + √1 u
2
+ √1 v
2
+ 2(− √12 u + √1 v)
2
+ 3 = 0 ⇔ 2v 2 − √1 u
2
+ √3 v
2
+3=0
que se pode escrever na forma
√ 3 2
√ 9
u = 2 2(v + √
4 2
) +3 2− √
8 2

E.3. Quádricas em R3 . A expressão geral de uma quádrica é


(57) ax2 + by 2 + cz 2 + dxy + exz + f yz + gx + hy + iz + j = 0
Novamente a análise desta superfı́cie baseia-se na análise dos termos de grau 2 (se estes se
anulam identicamente a equação define um plano, o vazio ou todo o R3 ) que constituem a
forma quadrática
d e
  
  ad 2 f2 x
x y z 
2
b 2   y 
e f
2 2
c z
Num referencial ortonormado formado por vetores próprios da matriz simétrica que ocorre
na expressão acima, a expressão (57) transforma-se em
λ1 u2 + λ2 v 2 + λ3 w2 + g 0 u + h0 v + i0 z + j = 0
Módulo translações nos eixos dos u, v, w podemos assumir que as constantes g 0 = h0 = i0
se anulam, desde que o λi correspondente não se anule. Temos então os seguintes casos:
• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais iguais (que podemos assumir positivos):
A equação define o conjunto vazio se j < 0, um ponto se j = 0 e um elipsóide se
j > 0 (trata-se da superfı́cie que se obtém de uma superfı́cie esférica reescalando os
eixos).
APONTAMENTOS DE ÁLGEBRA LINEAR 119

• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais não todos iguais (podemos assumir que
λ1 , λ2 > 0 e λ3 < 0: Os protótipos destas superfı́cies são as definidas pelas equações
x2 + y 2 − z 2 = 1, x2 + y 2 − z 2 = 0, x2 + y 2 − z 2 = −1
p
Para entender a sua forma convém observar que o significado geométrico de x2 + y 2
é (pelo Teorema de Pitágoras) a distância do ponto (x, y, z) aopeixo dos zz. Num
qualquer semiplano limitado pelo eixo dos zz podemos usar r = x2 + y 2 ≥ 0 como
coordenada ao longo do semi-eixo perpendicular a Oz e a equação da interseção da
nossa superfı́cie com esse semiplano é determinada pela equação
r2 − z 2 = 1, r2 − z 2 = 0, r2 − z 2 = −1
ou seja, trata-se de uma hipérbole nos casos em que o termo direito é ±1 e de
um par de semi-retas no caso restante. As superfı́cies que pretendemos descrever
obtêm-se rodando estas curvas em torno do eixo Oz. Denominam-se respetivamente
um hiperbolóide, um cone e um hiperbolóide de duas folhas.
• λ1 = 0 e λ2 , λ3 6= 0 com o mesmo sinal que podemos assumir positivo: Os protótipos
são agora da forma
x2 + y 2 = j 0 , x2 + y 2 − z = j 0
que são respetivamente o vazio, o eixo dos zz ou um cilindro em torno do eixo dos
zz no primeiro caso, ou um parabolóide (uma parábola z = r2 − j 0 rodada em torno
do eixo dos zz).
• λ1 = 0 e λ2 , λ3 6= 0 com sinais diferentes (podemos assumir λ2 > 0, λ3 < 0): Os
protótipos são
x2 − y 2 = j 0 , x2 − y 2 − z = j 0
No primeiro caso trata-se de um cilindro hiperbólico, isto é, de uma hipérbole
transladada ao longo do eixo dos zz (ou no caso degenerado em que j 0 = 0, da
união de dois planos concorrentes no eixo dos zz), enquanto que no segundo a su-
perfı́cie designa-se por uma sela uma vez que tem o aspeto de uma sela de um cavalo
(há uma parábola virada para cima ao longo do eixo dos xx e uma decrescente ao
longo do eixo dos yy).
• λ1 = λ2 = 0 e λ3 > 0. Os protótipos são agoras as equações da forma
z 2 + g 0 x + h0 y = j 0
Se g 0 = h0 = 0 esta equação define o vazio, um plano ou dois planos paralelos
consoante o sinal de j 0 . No caso em que (g 0 , h0 ) 6= 0 define um cilindro parabólico,
isto é a translação de uma parábola, ao longo de um eixo no plano xy perpendicular
ao vetor (g 0 , h0 ).

References
[D] E. Dias, Álgebra Linear, https://www.math.tecnico.ulisboa.pt/~edias/TextosNet/
ALbookfin_Net.pdf
[H] J. Hefferon, Linear Algebra, http://joshua.smcvt.edu/linearalgebra/book.pdf
[HK] K. Hoffman and R. Kunze, Linear Algebra, Prentice-Hall (1961)

Você também pode gostar