Apontamentos AL
Apontamentos AL
Apontamentos AL
Departamento de Matemática
0. Introdução
Este texto consiste numa transcrição razoavelmente fiel das apresentações feitas nas
aulas teóricas do curso de Álgebra Linear para o mestrado em engenharia Aeroespacial
no primeiro semestre de 2018/2019 no IST. O seu objetivo é proporcionar uma referência
precisa para a matéria coberta nas aulas teóricas e não substituir os livros de texto indicados
na bibliografia na página da cadeira.
A Álgebra Linear é a parte da Matemática que estuda a resolução de equações lineares, ou
mais geralmente, que estuda as funções lineares. Os sistemas lineares já vos são familiares.
Eis um exemplo: (
2x + 3y − z + w = 4
−x + 2z − w = 1
Estamos interessados em saber se um sistema tem solução e, em caso afirmativo, em
descrever as soluções de uma forma conveniente. A resolução do sistema pode ser vista
como uma questão relativa à função linear
f (x, y, z, w) = (2x + 3y − z + w, −x + 2z − w)
De facto a existência de solução é equivalente à afirmação que (4, 1) pertence à imagem
de f e, quando a solução existe, o conjunto das soluções é a pré-imagem f −1 ({(4, 1)}) do
ponto (4, 1) pela função.
A Álgebra Linear está também fortemente ligada à Geometria. Considerando (x, y, z, w)
como coordenadas num espaço euclidiano de dimensão 4 (o espaço-tempo por exemplo),
podemos interpretar o sistema acima como descrevendo a interseção de dois (hiper)planos.
O sistema terá solução se os hiperplanos se intersetam e nesse caso, o conjunto das soluções
do sistema descreve os pontos da interseção.
A Álgebra Linear é ubı́qua na Matemática e nas suas aplicações. Por exemplo, o algo-
ritmo de busca de páginas da Google tem por base uma ideia muito simples de álgebra
linear como iremos ver mais tarde. A Álgebra Linear que iremos estudar é também usada
na compressão de dados e imagens e nas telecomunicações entre muitas outras aplicações.
Por outro lado, a Álgebra Linear é também fundamental na Matemática porque as funções
lineares servem de modelo (incrivelmente bem sucedido) para funções mais gerais. É essa
a ideia do Cálculo, no qual as funções são estudadas recorrendo às suas aproximações lin-
eares (ou derivadas). A Álgebra Linear será assim uma base fundamental para disciplinas
de Matemática que estudarão posteriormente como o Cálculo de várias variáveis ou as
Equações Diferenciais.
1. O método de Gauss
O método de Gauss é um método para resolver sistemas lineares cuja ideia é a simpli-
ficação do sistema através da eliminação sucessiva de variáveis.
Date: December 2, 2019.
1
2 APONTAMENTOS DE ÁLGEBRA LINEAR
Estamos interessados em saber se um sistema admite soluções (isto é, se existem números
x1 , . . . , xn tais que as relações (1) são satisfeitas). Quando isto acontece diz-se que o
sistema é possı́vel, senão é impossı́vel. Quando existem soluções, queremos descrevê-las.
Em particular queremos saber se a solução é única (nesse caso diz-se que o sistema é
determinado) ou não, caso em que o sistema se diz indeterminado.
Observe-se que um sistema homogéneo é sempre possı́vel. Tem pelo menos a solução
xj = 0 para todo o j, que se chama a solução trivial.
Observação 1.2. Toda a teoria que vamos desenvolver durante o próximo par de meses
aplica-se mais geralmente. Os números reais ou complexos podem ser substituı́dos pelos
elementos de qualquer corpo (um conjunto com duas operações - soma e multiplicação
- que são comutativas, associativas, têm elemento neutro, a multiplicação é distributiva
relativamente à soma, todos os elementos têm inverso relativamente à soma e todos os
elementos excepto o elemento neutro da soma têm inverso multiplicativo). Um exemplo
familiar de corpo além dos conjuntos R e C dos números reais e complexos com as suas
operações habituais é o conjunto Q dos números racionais, também com a soma e produto
habituais. Um exemplo menos habitual é o conjunto {0, 1} com a soma e produto definidas
tomando o resto da divisão por 2 da soma e produto usuais.
A primeira variável que ocorre no sistema é x2 . Uma vez que o coeficiente de x2 na primeira
equação é 0, trocamos a primeira equação com a segunda (também poderı́amos trocar com
a terceira). Obtemos então o sistema
x 2
+ 3x4 = 1
2x3 − x4 = 5
2x + x + x = 2
2 3 4
Subtraı́mos agora à terceira equação o dobro da primeira para eliminar a variável x2 obtendo
x2
+ 3x4 = 1
2x3 − x4 = 5
x3 − 5x4 = 0
Voltamos agora ao inı́cio mas consideramos apenas as duas últimas equações. A primeira
variável é agora x3 e o seu coeficiente na primeira linha (que é a segunda linha do sistema
inicial) é não nulo, pelo que não é necessário trocar a ordem das equações. Subtraindo
metade da segunda equação à terceira obtemos o sistema
x2
+ 3x4 = 1
(2) 2x3 − x4 = 5
− 92 x4 = − 25
O sistema (2) é fácil de resolver começando pela equação debaixo e substituindo repeti-
damente os resultados obtidos nas equações de cima: da última equação obtemos x4 = 59 e
substituindo na segunda equação obtemos
5 25
2x3 = 5 + ⇔ x3 =
9 9
Finalmente substituindo na primeira equação (em geral precisarı́amos também do valor de
x3 mas neste sistema isso não acontece) obtemos
5 2
x2 = 1 − 3 · =−
9 3
O conjunto das soluções do sistema é portanto
(3) {(x1 , − 32 , 25
9 9
, 5 ) : x1 ∈ R}
Em particular o sistema é possı́vel e indeterminado.
É um desperdı́cio de tempo escrever as variáveis durante a aplicação dos passos do
algoritmo acima. Podemos apenas escrever os coeficientes e termos independentes dos
4 APONTAMENTOS DE ÁLGEBRA LINEAR
vários sistemas. O procedimento aplicado no exemplo anterior pode entâo ser abreviado
da seguinte forma:
0 0 2 −1 | 5 0 1 0 3 | 1 0 1 0 3 | 1
L1 ↔L2 3 −2L1
0 1 0 3 | 1 −→ 0 0 2 −1 | 5 L−→ 0 0 2 −1 | 5
0 2 1 1 | 2 0 2 1 1 | 2 0 0 1 −5 | 0
0 1 0 3 | 1
L3 − 21 L1
(4) −→ 0 0 2 −1 | 5
0 0 0 − 92 | − 52
As tabelas de números que aparecem acima chamam-se matrizes e são objetos fundamentais
na álgebra linear. A linha a tracejado antes da última coluna destina-se a lembrar que
estamos a resolver um sistema não homogéneo e que a última coluna é formada pelos
termos independentes. Quando é claro do contexto a linha a tracejado é por vezes omitida.
Quando o sistema é homogéneo a última coluna (formada só por 0s) é omitida.
Exemplo 1.4. Vamos resolver o sistema
x + 3y + 2z = 0
4y + z = 2
−2x − 2y − 3z = 1
Note-se que, em termos das matrizes associadas aos sistemas, o que o método de Gauss
faz é colocar a matriz do sistema em escada de linhas.
Após a aplicação do método de Gauss temos ainda que resolver iterativamente as equações
do sistema, começando pela que está mais abaixo. Este processo pode ser feito de forma
muito mais eficiente, efetuando operações semelhantes às do método de Gauss. Este novo
algoritmo, uma continuação do método de Gauss, chama-se Método de Gauss-Jordan e
consiste em, dada uma matriz em escada de linhas,
(1) Multiplicar cada linha não nula pelo inverso do pivot de forma a fazer o pivot igual
a 1.
(2) Subtrair múltiplos apropriados das linhas acima de cada linha com pivot até que
todas as entradas acima dos pivots fiquem nulas.
Vamos aplicar este algoritmo à matriz em escada de linhas (4) que resultou do Exemplo
1.3.
Exemplo 1.6.
2
0 1 0 3 | 1 1
L
0 1 0 3 | 1 L −3L
0 1 0 0 | − 3
0 0 2 −1 | 5 −→ 2 2
0 0 1 − 1 | 5 1−→1 3 0 0 1 0 | 25
2
− 9 L3 2 2 L2 + 2 L1 9
0 0 0 − 29 | − 52 0 0 0 1 | 59 0 0 0 1 | 59
Recuperamos assim o conjunto das soluções (3) obtido acima.
Quando há muitas equações, o algoritmo de Gauss-Jordan é muito mais eficiente que o
processo de substituições sucessivas que usámos antes.
Definição 1.7. Diz-se que uma matriz está em escada de linhas reduzida se está em escada
de linhas, os pivots são todos iguais a 1 e as entradas acima dos pivots são todas 0.
O algoritmo de Gauss-Jordan coloca portanto uma matriz em escada de linhas numa
matriz em escada de linhas reduzida.
Exemplo 1.8. Vamos resolver o sistema homogéneo
y + 4w = 0
x − 2y + 3z = 0
2x − 6y + 16w = 0
Recorde-se que neste caso não incluı́mos a coluna de 0s correspondente aos termos depen-
dentes. Obtemos assim
0 1 0 4 1 −2 3 0 1 −2 3 0
1 ↔L2 3 −2L1
1 −2 3 0 L−→ 0 1 0 4 L−→ 0 1 0 4
2 −6 0 16 2 −6 0 16 0 −2 −6 16
1 −2 3 0 1
− 6 L3
1 −2 3 0 1 0 3 8
L3 +2L2
−→ 0 1 0 4 −→ 0 1 0 4 L−→ 1 +2L2
0 1 0 4
0 0 −6 24 0 0 1 −4 0 0 1 −4
6 APONTAMENTOS DE ÁLGEBRA LINEAR
1 0 0 20
L1 −3L3
−→ 0 1 0 4
0 0 1 −4
Obtemos assim a seguinte solução para o sistema:
x = −20w
y = −4w com w ∈ R qualquer.
z = 4w
claro que a definição de caracterı́stica faça sentido pois há alguma indeterminação no
método de Gauss relativa à escolha das trocas de linha. Podia acontecer que escolhas
diferentes durante a aplicação do algoritmo conduzissem a matrizes com números diferentes
de pivots no final. Vamos ver que isso não pode acontecer, mas primeiro comecemos por
analisar exatamente a razão pela qual os métodos de Gauss e Gauss-Jordan produzem
sistemas equivalentes ao inicial.
Suponhamos que temos um sistema linear
a11 x1 + a12 x2 + . . . + a1n xn = b1
a21 x1 + a22 x2 + . . . + a2n xn = b2
(5) ..
.
a x + a x + . . . + a x = b
m1 1 m2 2 mn n m
Mas as expressões acima permitem também escrever as linhas do sistema S como com-
binações lineares das linhas de S 0 :
1 0
Lj = L0i , Li = L com α 6= 0, ou Li = L0i + αL0j com j 6= i
α i
(onde no último caso usámos o facto de Lj e L0j serem iguais). Conclui-se que as soluções
do sistema S 0 são também soluções do sistema S e portanto que os sistemas S e S 0 têm
exatamente as mesmas soluções. Uma vez que isto acontece durante todas os passos do
método conclui-se que todos os sistemas que ocorrem ao longo da aplicação dos métodos de
Gauss e Gauss-Jordan são equivalentes, isto é, todos têm exatamente o mesmo conjunto
de soluções.
Para terminar esta nossa discussão inicial dos sistemas lineares vamos agora provar que a
matriz em escada de linhas reduzida no final do método de Gauss-Jordan é independente de
quaisquer escolhas, o que mostra que a Definição 1.10 faz sentido (diz-se que a caracterı́stica
está bem definida).
A demonstração utilizará um género de argumento que se diz por redução ao absurdo
e que se baseia no seguinte facto simples da lógica: Se uma afirmação P implica outra
afirmação Q e Q é falsa, então P é necessariamente falsa. Em sı́mbolos:
((P ⇒ Q) ∧ ¬Q) ⇒ ¬P
Este facto permite-nos provar a validade de uma afirnação A se conseguirmos deduzir uma
falsidade a partir da sua negação ¬A. Conclui-se então que a afirmação ¬A é falsa, ou seja
que A é verdadeira.
Teorema 1.12. Sejam m, n números naturais e A uma matriz m × n de números reais ou
complexos. Se B e C são matrizes em escada de linhas reduzidas obtidas a partir de A por
aplicação dos métodos de Gauss e Gauss-Jordan, então B = C.
Dem. A demonstração é por indução no número n das colunas de A. Para a base da
indução precisamos de mostrar que se A é uma matriz com uma única coluna o resultado é
verdadeiro. Se A tem apenas uma coluna, ou é nula e então B = C = 0 (porque o algoritmo
termina imediatamente) ou não é nula e então o algoritmo termina necessariamente com a
matriz
1
0
.
..
0
Em qualquer caso B = C.
Para o passo da indução vamos admitir que a afirmação do enunciado é válida se a matriz
A tem n colunas e queremos concluir que a afirmação é válida para matrizes com n + 1
colunas. Vamos admitir por absurdo que isto não é verdade. Então existe uma matriz A
com n + 1 colunas e duas maneiras de aplicar o algoritmo de tal forma que no final obtemos
matrizes B 6= C.
APONTAMENTOS DE ÁLGEBRA LINEAR 9
Quando aplicamos os algoritmos a uma matriz A estamos também a aplicá-los às matrizes
que se obtêm de A suprimindo a última coluna (ou qualquer número de colunas à direita).
Em particular, escrevendo A≤n para a matriz que se obtém de A suprimindo a última
coluna2, pela hipótese de indução (uma vez que A≤n tem n colunas) teremos B≤n = C≤n .
Como estamos a admitir que B 6= C estas matrizes terão que diferir em pelo menos uma
das entradas na última coluna. Seja então i tal que bi n+1 6= ci n+1 . Recorde-se que os
sistemas homogéneos determinados por A, B, e C são equivalentes. Subtraindo as i-ésimas
equações dos sistemas correspondentes a B e C obtemos a equação
(uma vez que bij = cij para j ≤ n). Como o coeficiente de xn+1 é não nulo, isto significa
que todas as soluções do sistema determinado por A (ou B ou C) satisfazem xn+1 = 0.
Então xn+1 não é uma variável livre no sistema de B nem no sistema de C, e portanto
tanto B como C têm um pivot na coluna n + 1.
Mas observe-se agora que numa matriz em escada de linhas reduzida, um pivot na última
coluna ocorre exatamente à direita da primeira linha de 0s na matriz obtida ao suprimir
a última coluna. Ou seja, sabendo que B e C têm um pivot na última coluna, a posição
do pivot é determinada por B≤n = C≤n e portanto é igual para B e C. Ora no final
do método de Gauss-Jordan todas as entradas da última coluna são 0 excepto a entrada
correspondente ao pivot, que é 1. Conclui-se então que as últimas colunas de B e de C são
iguais e portanto B = C. Isto contradiz a nossa hipótese que B 6= C e portanto mostra que
é impossı́vel obter matrizes distintas ao aplicar o algoritmo de Gauss-Jordan a uma matriz
com (n + 1) colunas. Isto conclui o passo de indução e portanto a demonstração.
2. O produto de matrizes
Vimos acima que qualquer combinação linear (6) das equações de um sistema linear (5)
é satisfeita por uma solução do sistema. Mais geralmente, começando com um sistema
linear (5), podemos considerar um novo sistema cujas equações são combinações lineares
das equações do sistema inicial. No caso homogéneo (ou seja com bi = 0) um tal sistema
2Esta notação ad hoc não voltará a ser usada depois desta demonstração.
10 APONTAMENTOS DE ÁLGEBRA LINEAR
onde ci1 , . . . , cim sáo os coeficientes da combinação linear que produz a i-ésima equação do
novo sistema. Estes escalares podem ser dispostos numa matriz k × m.
c11 c12 · · · c1m
c21 c22 · · · c2m
. ..
.. .
ck1 ck2 · · · ckm
Identificando o sistema inicial com a matriz [aij ]1≤i≤m,1≤j≤n dos seus coeficientes, podemos
pensar neste processo de combinação linear de equações como uma operação que partindo
de duas matrizes, C = [cpq ] do tipo k × m e A = [aij ] de tipo m × n produz uma nova
matriz que tem por entradas os coeficientes das equações do sistema (7). Esta nova matriz
é de tipo k × n e tem como entrada ij (correspondente ao coeficiente de xj na i-ésima
equação de (7))
m
X
(8) ci1 a1j + ci2 a2j + . . . + cim amj = cil alj
l=1
A fórmula (8) para o produto de matrizes admite várias interpretações que facilitam
muitas vezes o cálculo e que são já patentes no exemplo anterior:
• A i-ésima linha do produto CA é a combinação linear das linhas de A cujos co-
eficientes são as entradas da i-ésima linha de C (foi esta aliás a maneira como
chegámos à fórmula para o produto de matrizes). Concretamente, no exemplo
acima, a primeira linha do produto é igual a
2 · 1 2 0 0 + 0 · −1 1 −1 3 + 3 · 0 3 0 1
• A j-ésima coluna do produto CA é a combinação linear das colunas de C cujos
coeficientes são as entradas da j-ésima coluna de A. No exemplo acima, a primeira
coluna do produto é igual a
2 0 3
1· −1· +0·
1 −1 0
Em muitos exemplos (como no Exemplo 2.2 acima) o produto calcula-se muito mais rap-
idamente fazendo as contas por linhas ou colunas do que aplicando a fórmula (8) entrada
a entrada.
Usando o produto de matrizes, podemos escrever um sistema (5) usando matrizes para os
coeficientes, incógnitas e termos independentes. A expressão (5) é equivalente à igualdade
de matrizes
x1
a11 a12 · · · a1n b1
x
... .. 2 = ..
(9) . ... .
am1 am2 · · · amn bm
xn
que se pode abreviar
AX = B
Uma vez que entendamos as propriedades do produto de matrizes, poderemos manipular
sistemas e resolvê-los de forma análoga à que é já familiar do estudo anterior da resolução
de equações numéricas.
Os métodos de Gauss e Gauss-Jordan podem também ser descritos em termos do produto
de matrizes. Por exemplo, tendo em conta a descrição do produto de matrizes em termos
de combinação linear de linhas, a aplicação da operação L2 + 3L1 ao sistema (9) consiste
na multiplicação em ambos os lados da igualdade pela matriz do tipo m × m
1 0 ··· ··· 0
3 1 0 ··· 0
...
0 0 1 0
. . . ..
.. . .
0 0 ··· 0 1
12 APONTAMENTOS DE ÁLGEBRA LINEAR
0 0 ··· 0 1
ou seja
1 0 ··· ··· 0
0 1 0 ··· 0
...
In = 0 0 1 0
.
.. . . . ...
0 0 ··· 0 1
Exemplo 2.7 (A lei do corte não é válida para o produto de matrizes). Seja A a matriz
2 −1
. Entâo
4 −2
2 def 2 −1 2 −1 0 0
A = AA = =
4 −2 4 −2 0 0
portanto, apesar de A 6= 0 temos
AA = A · 0.
Definição 2.8. Uma matriz n × n, A diz-se invertı́vel se existe uma matriz B (necessari-
amente também n × n) tal que
AB = BA = In
Uma tal matriz B diz-se uma inversa de A.
Proposição 2.9. Seja A uma matriz n×n invertı́vel, B, C matrizes n×m e E, F matrizes
m × n. Então
AC = AD ⇒ C = D e EA = F A ⇒ E = F
Dem. Provamos apenas a primeira implicação deixando a segunda como exercı́cio. Seja B
uma inversa de A. Então
AC = AD ⇒ B(AC) = B(AD) ⇔ (BA)C = (BA)D ⇔ In C = In D ⇔ C = D
Vamos também necessitar de outras operações com matrizes que têm uma natureza
muito mais elementar do que o produto.
Definição 2.10. Sejam A, B matrizes m × n. A soma das matrizes A e B é a matriz do
mesmo tipo A + B que tem como entrada ij
(A + B)ij = aij + bij
O produto de uma matriz A m × n pelo escalar λ ∈ R (ou C) é a matriz λA também do
tipo m × n cuja entrada ij é
(λA)ij = λaij
Por exemplo
2 −1 2 1 4 2 2 + 1 −1 + 4 2 + 2 3 3 4
+ = =
0 −3 0 2 3 −1 0 + 2 −3 + 3 0 − 1 2 0 −1
e √ √
√ 1 1 √2 √2
2 −1 2 = −√ 2 2 2
4 0 4 2 0
Vejamos algumas propriedades fundamentais destas operações cujas demonstrações são
imediatas e ficam como exercı́cio.
APONTAMENTOS DE ÁLGEBRA LINEAR 15
Dem. Mostramos apenas a primeira afirmação deixando a segunda como exercı́cio. Uma
vez que a inversa é única, tudo o que é necessário fazer é verificar que as relações na
Definição 2.8 são satisfeitas:
e, analogamente,
Põe-se agora a questão de como saber se uma matriz é invertı́vel e nesse caso calcular
a matriz inversa. Na realidade já aprendemos a calcular a inversa! Se B é a inversa de A
então
AB = In
Tendo em conta a interpretação do produto AB como um cálculo de combinações lineares
de colunas de A, isto diz-nos que as entradas da i-ésima coluna de A são os coeficientes da
combinação linear das colunas de A que produz a i-ésima coluna da matriz identidade. Se
denotarmos a i-ésima coluna de B por Xi , isto diz-nos que a seguinte relação é satisfeita
0
..
.
0
(10) AXi = 1
0
.
..
0
(onde a entrada não nula da matriz à direita está na i-ésima linha). Assim podemos calcular
a i-ésima coluna da inversa resolvendo o sistema linear (10) para o que podemos usar os
métodos de Gauss e Gauss-Jordan. Para calcular a inversa temos que resolver n sistemas
lineares mas não há qualquer razão para o fazer separadamente. Como os coeficientes do
sistema são os mesmos para todos os sistemas podemos resolver todos ao mesmo tempo:
1 0 2
Exemplo 2.19. Vamos calcular A−1 para a matriz A = 0 3 0
4 0 5
18 APONTAMENTOS DE ÁLGEBRA LINEAR
1
Aplicamos o método de Gauss-Jordan aos sistemas com termos independentes 0 ,
0
0 0
1 e 0 simultaneamente:
0 1
1 0 2 | 1 0 0 1 0 2 | 1 0 0 1
L
1 0 2 | 1 0 0
3 −4L1
0 3 0 | 0 1 0 L−→ 0 3 0 | 0 1 0 −→ 3 2
0 1 0 | 0 1 0
− 13 L3 3
4 0 5 | 0 0 1 0 0 −3 | −4 0 1 0 0 1 | 43 0 − 13
1 0 0 | − 53 0 32
L1 −2L3
−→ 0 1 0 | 0 13 0
0 0 1 | 43 0 − 13
As colunas da matriz à direita são as soluções de cada um dos sistemas e portanto as colu-
nas da matriz inversa. Assim, se a matriz A for invertı́vel então teremos necessariamente
5
− 3 0 23
A−1 = 0 13 0
4
3
0 − 13
1 3 1
Exemplo 2.20. Vamos calcular A−1 para a matriz A = 0 −1 0
2 0 1
Temos
1 3 1 | 1 0 0 1 3 1 | 1 0 0
3 −2L1
0 −1 0 | 0 1 0 L−→ 0 −1 0 | 0 1 0
2 0 1 | 0 0 1 0 −6 −1 | −2 0 1
1 3 1 | 1 0 0 1 3 1 | 1 0 0
L3 −6L2 −L2
−→ 0 −1 0 | 0 1 0 −→ 0 1 0 | 0 −1 0
−L3
0 0 −1 | −2 −6 1 0 0 1 | 2 6 −1
1 3 0 | −1 −6 1 1 0 0 | −1 −3 1
L1 −L3 L1 −3L2
−→ 0 1 0 | 0 −1 0 −→ 0 1 0 | 0 −1 0
0 0 1 | 2 6 −1 0 0 1 | 2 6 −1
Assim, se a matriz A for invertı́vel então teremos necessariamente
−1 −3 1
A−1 = 0 −1 0
2 6 −1
Resta perceber porque é que a matriz B calculada nos exemplos anteriores é de facto
uma inversa de A. A maneira como foi determinada torna claro que AB = In , mas para
que B seja a inversa é ainda necessário que BA = In . Isto está longe de ser óbvio (embora
seja fácil de verificar nos exemplos acima ou em qualquer exemplo concreto).
APONTAMENTOS DE ÁLGEBRA LINEAR 19
Antes de explicar a razão pela qual o método anterior pode ser sempre usado para
achar a inversa (ou ver que uma matriz não é invertı́vel) vamos primeiro responder à
seguinte pergunta natural: Porque não achar a inversa por linhas resolvendo o sistema
determinado pela equação BA = In linha a linha? De facto podemos fazê-lo, mas a matriz
dos coeficientes do sistema não será A, e dado que o método de Gauss-Jordan (tal como
nós o apresentámos) se aplica imediatamente apenas à solução de sistemas Ax = b com x
e b matrizes coluna, é mais prático fazer as contas como fizemos acima.
Esta questão aponta no entanto para um aspeto básico do cálculo matricial que diz
respeito à simetria entre linhas e colunas. A atribuição do primeiro ı́ndice às linhas e do
segundo às colunas é claramente apenas uma convenção pelo que é natural considerar a
seguinte simetria das matrizes.
Definição 2.21. Seja A uma matriz m × n. A matriz transposta de A é a matriz AT , do
tipo n × m cuja entrada ij é
(AT )ij = aji
Por exemplo
T 1 0 T
1 −1 2 1 2 1 3
= −1 3 e =
0 3 2 3 4 2 4
2 2
Proposição 2.22 (Propriedades da transposição). (i) (AT )T = A
(ii) (αA)T = αAT
(iii) (A + B)T = AT + B T
(iv) (AB)T = B T AT .
Dem. As primeiras três propriedades são muito fáceis de demonstrar e ficam como exercı́cio.
Quanto à última, suponhamos que A é uma matriz m × n e B é uma matriz n × p, de
forma a que (AB)T é uma matriz p × m. Dados i, j com 1 ≤ i ≤ p e 1 ≤ j ≤ m temos
então que a entrada ij da matriz (AB)T é
n
X Xn Xn
T T T
(B T )ik (AT )kj = (B T AT )ij
(AB) ij = (AB)ji = ajk bki = (A )kj (B )ik =
k=1 k=1 k=1
conforme querı́amos demonstrar.
Usando esta simetria e a propriedade (iv) acima, é imediato verificar que a solução do
sistema para uma linha da matriz inversa mencionado anteriormente não é mais do que a
solução do sistema
AT x = b
com b a coluna correspondente da matriz identidade. Isto sugere uma relação entre a
transposição e a inversão... Qual?
Justifiquemos então finalmente o nosso método de cálculo de inversas:
Teorema 2.23. Seja A uma matriz n × n de números reais ou complexos. As seguintes
afirmações são equivalentes:
20 APONTAMENTOS DE ÁLGEBRA LINEAR
(i) A é invertı́vel
(ii) Para cada matriz n × 1, B, o sistema AX = B tem solução e esta é única.
(iii) A tem caracterı́stica n
Dem. Vamos ver que (i)⇒(ii)⇒(iii)⇒(i).
(i)⇒(ii): Multiplicando o sistema dos dois lados por A−1 temos
A−1 AX = A−1 B ⇒ In X = A−1 B ⇒ X = A−1 B
Logo se a solução existe, ela é única e é dada por X = A−1 B. Mas é fácil verificar
que A−1 B é de facto uma solução
A(A−1 B) = In B = B
o que conclui a prova desta implicação
(ii)⇒(iii): Esta implicação é equivalente à implicação ¬(iii) ⇒ ¬(ii) que passamos a demon-
strar. Se a caracterı́stica de A não é igual a n, então no final do método de Gauss-
Jordan, alguma das colunas não tem pivot. A variável correspondente é então livre
na solução do sistema homogéneo AX = 0, que tem portanto infinitas soluções.
Conclui-se que a solução do sistema AX = 0 não é única e portanto a afirmação
(ii) é falsa.
(iii)⇒(i): Se A tem caracterı́stica n, então aplicando o método de Gauss-Jordan a matriz A
é transformada na matriz In (uma vez que esta é a única matriz n × n em escada
de linhas reduzida com caracterı́stica n). Mas, como já observámos, cada passo
do método de Gauss-Jordan consiste na multiplicação à esquerda por uma matriz.
Nomeadamente:
• A operação Li ↔ Lj , com i 6= j corresponde à multiplicação à esquerda pela
matriz
1
..
.
0 1
Sij = . ..
1 0
. .
.
1
.
em que os . . indicam 1s, todas as entradas não indicadas são 0 e os 0s na
diagonal ocorrem nas linhas i e j.
• A operação αLi com α 6= 0 corresponde à multiplicação pela matriz
1
..
.
Di,α α
..
.
1
APONTAMENTOS DE ÁLGEBRA LINEAR 21
3. Espaços vetoriais
Um espaço vetorial é um “sı́tio onde se podem fazer combinações lineares”. Para isto tudo
o que é necessário é saber como somar e como multiplicar por escalar os objetos do espaço
22 APONTAMENTOS DE ÁLGEBRA LINEAR
vetorial. Para que estas combinações lineares se comportem como estamos habituados
nos exemplos que vimos até agora é necessário que satisfaçam certas propriedades que são
especificadas na definição de espaço vetorial.
O arquétipo de um espaço vetorial é Rn = {(x1 , . . . , xn ) : xi ∈ R} em que a multiplicação
por escalar é definida por
α · (x1 , . . . , xn ) = (αx1 , . . . , αxn )
e a soma por
(x1 , . . . , xn ) + (y1 , . . . , yn ) = (x1 + y1 , . . . , xn + yn )
Nos casos em que n = 1, 2 ou 3, estamos habituados a identificar Rn geometricamente com
o conjunto dos vetores com origem em (0, . . . , 0), e sabemos interpretar geometricamente
o produto por escalar e a soma.
Por exemplo, o conjunto de todas as combinações lineares de dois vetores em R3 formam
um plano que passa pela origem e contém os dois vetores.
A definição de espaço vetorial vai-nos permitir transferir a nossa intuição geométrica
sobre o comportamento de vetores no espaço para um sem-fim de novas situações!
Definição 3.1. Um espaço vetorial real é um conjunto não vazio V , cujos elementos se
designam por vetores, juntamente com duas funções
• Multiplicação por escalar: R × V → V que a um par (α, v) associa um vetor αv.
+
• Soma de vetores: V × V − → V que a um par de vetores (v, w) associa um vetor
v+w
satisfazendo as seguintes relações:
(i) Para todos os u, v, w ∈ V , u + (v + w) = (u + v) + w.
(ii) Para todos os u, v ∈ V , u + v = v + u.
(iii) Existe um elemento 0 ∈ V tal que, para todo o v ∈ V se tem v + 0 = v.
(iv) Para todo o v ∈ V existe um elemento w ∈ V tal que v + w = 0.
(v) Para todo o v ∈ V , tem-se 1v = v.
(vi) Para todos os α, β ∈ R, e v ∈ V tem-se α(βv) = (αβ)v.
(vii) Para todos os α ∈ R e v, w ∈ V tem-se α(v + w) = αv + αw.
(viii) Para todos os α, β ∈ R e v ∈ V tem-se (α + β)v = αv + βv.
Não é difı́cil mostrar que o elemento w tal que v + w = 0 é único: se v + w = v + w0 = 0
então
w0 = w0 + 0 = w0 + (v + w) = (w0 + v) + w = 0 + w = w + 0 = w
O único w tal que w + v = 0 chama-se o simétrico de v e denota-se por −v.
Observação 3.2. (i) Substituindo na definição acima R por C obtemos a definição de
um espaço vetorial complexo. Mais geralmente se K é um corpo (ver Observação
1.2) e substituirmos R por K obtemos a noção de espaço vetorial sobre o corpo K.
(ii) É também comum usar a terminologia espaço linear em vez de espaço vetorial.
APONTAMENTOS DE ÁLGEBRA LINEAR 23
conjunto das funções reais F (S, R) e que as operações de soma e produto por escalar
são a restrição aos polinómios das operações definidas para as funções. Isso torna
a verificação da maioria dos axiomas na Definição 3.1 automáticas. De facto, uma
vez que se observe que a soma de polinómios e a multiplicação de um escalar por um
polinómio são polinómios, a validade das propriedades (i)-(ii) e (v)-(viii) é imediata
e resta apenas observar que a função nula é um polinómio logo (iii) é satisfeito e que
a função simétrica de um polinómio é um polinómio logo (iv) é também satisfeito.
(ii) Seja V = {(x, y) ∈ R2 : x ≥ 0, y ≥ 0} com a soma habitual de vetores em R2 e com o
produto por escalar definido por
def
α(x, y) = (|α|x, |α|y)
Com estas operações V não é um espaço vetorial porque os axiomas (iv) e (vii) não
são verificados. Por exemplo o vetor (1, 0) não tem simétrico e (0, 0) = 0(1, 0) =
(1 + (−1))(1, 0) 6= 1(1, 0) + (−1)(1, 0) = (2, 0). Em geral, se α e β têm sinais
contrários e v 6= 0, a igualdade (α + β)v = αv + βv não se verifica.
Definição 3.8. Seja V um espaço vetorial. Um subconjunto W ⊂ V diz-se um subespaço
vetorial de V se munido das operações de V é um espaço vetorial.
Implı́cito na definição anterior está que W é fechado para as operações de V , isto é que
se w1 , w2 ∈ W e α ∈ R então a soma de w1 e w2 em V pertence a W e o produto por
escalar em V , αw1 , pertence a W .
Exemplo 3.9. O Exemplo 3.7 (i) verifica que o conjunto dos polinómios é um subespaço
vetorial de F (S; R).
Como observámos no Exemplo 3.7 (i) quando W ⊂ V é um subconjunto de um espaço
vetorial fechado para a soma e multiplicação por escalar, a verificação de que W é um
espaço vetorial pode reduzir-se à verificação que o elemento neutro da soma e os simétricos
(em V ) de elementos de W pertencem a V . A próxima proposição mostra que mesmo estas
verificações não são necessárias.
Proposição 3.10. Seja V um espaço vetorial. Se W é um subconjunto não vazio de V
fechado para a soma e multiplicação por escalar, então W é um subespaço vetorial de V .
Proof. Como já observámos, a verificação dos axiomas (i)-(ii) e (v)-(viii) é imediata. É
um exercı́cio para as aulas práticas verificar que, para qualquer v ∈ V , o produto por
escalar 0v é o elemento neutro para a soma. Como W é não vazio e fechado para o produto
por escalar conclui-se que 0 ∈ W e portanto o axioma (iii) é verificado. É também um
exercı́cio para as aulas práticas verificar que o simétrico de v ∈ V é o produto por escalar
(−1)v. Uma vez que W é fechado para o produto por escalar conclui-se que o axioma (iv)
é verificado em W .
Exemplo 3.11. (i) Seja V o espaço vetorial de todos os polinómios reais. O subcon-
junto W ⊂ V formado pelos polinómios de grau menor ou igual a 3 é um subespaço
vetorial. De facto, de acordo com a proposição anterior basta observar que a soma de
APONTAMENTOS DE ÁLGEBRA LINEAR 25
x1
N (A) = {x ∈ Rn : A ... = 0}
xn
Intuitivamente devemos pensar nos espaços vetoriais como sendo objetos que se com-
portam de forma semelhante ao espaço euclidiano usual - R3 - e nos subespaços vetoriais
como sendo subconjuntos com comportamento semelhante ao das retas e planos em R3 que
passam pela origem.
L(S) = {α1 v1 + . . . + αn vn : α1 , . . . , αn ∈ R, v1 , . . . , vn ∈ S, n ∈ N}
Exemplo 3.13. (i) Seja V o espaço vetorial dos polinómios reais. Vamos determinar
se x + 2x3 ∈ L(S) onde S = {1 − x, x + x2 + x3 , x2 }. Por definição, a pergunta é se
existem escalares α1 , α2 , α3 ∈ R tais que
x + 2x3 = α1 (1 − x) + α2 (x + x2 + x3 ) + α3 x2
Como dois polinómios são iguais se têm os mesmos coeficientes, a igualdade anterior
é equivalente ao sistema
α 1 = 0
α1 = 0
−α + α = 1
α = 1
1 2 2
⇔
α2 + α3 = 0
α3 = −1
α2 = 2 α2 = 2
Uma vez que o sistema é impossı́vel, conclui-se que x+2x3 6∈ L(S). Neste caso não se
justificava a utilização do método de Gauss para a resolução do sistema. Mas note-se
que se tivéssemos escrito o sistema acima da forma habitual, a matriz à qual irı́amos
26 APONTAMENTOS DE ÁLGEBRA LINEAR
às colunas que contêm pivots implica imediatamente que os coeficientes da combinação
linear são todos nulos. Por exemplo, para
2 1 1 4
A= 0 0 1 2
0 0 0 0
olhando apenas para a primeira e terceira componente dos vetores na equação
α1 (2, 1, 1, 4) + α2 (0, 0, 1, 2) = (0, 0, 0, 0)
vemos que
2α1 = 0 e α1 + α2 = 0
pelo que α1 = α2 = 0.
O método de Gauss dá-nos portanto uma maneira prática de determinar uma base
para o espaço das linhas de uma matriz (e, na prática, para qualquer subespaço de
um espaço vetorial finitamente gerado).
(ix) É um exercı́cio simples verificar que {1, x, x2 , . . . , xn , . . .} é uma base para o espaço
vetorial dos polinómios reais.
Intuitivamente, uma base para um espaço vetorial é um “referencial”. De facto, se B
é uma base de V , os coeficientes da combinação linear que exprime um vetor v ∈ V em
termos dos elementos de B são únicos: Admitindo que B = {v1 , . . . , vn }, qualquer vetor v
pode ser escrito na forma
v = α1 v1 + . . . + αn vn
(porque B gera V ) mas se tivermos também
v = β1 v1 + . . . + βn vn
então subtraindo as duas igualdades temos
0 = (α1 − β1 )v1 + . . . + (αn − βn )vn
e, uma vez que, B é um conjunto linearmente independente, isto implica que α1 − β1 =
0, . . . , αn − βn = 0. Os coeficientes dos elementos da base chamam-se as coordenadas de v
na base B. Uma base permite assim identificar os vetores de V com listas de escalares (ou
seja com Rn onde n = dim V ).
Vejamos agora algumas propriedades importantes relativas à dependência linear. Sug-
erimos que ao ler os enunciados que se seguem se tenha em mente o exemplo de R3 e a
interpretação geométrica usual da combinação linear de vetores no espaço assim como dos
subespaços lineares de R3 - retas, planos, etc.
Proposição 4.3. Seja V um espaço vetorial e S ⊂ V um conjunto linearmente indepen-
dente. Se v 6∈ L(S) então S ∪ {v} é linearmente independente.
Dem. Sejam v1 , . . . , vn vetores distintos de S e α1 , . . . , αn , αn+1 escalares. Temos a verificar
que se
α1 v1 + . . . + αn vn + αn+1 v = 0
APONTAMENTOS DE ÁLGEBRA LINEAR 31
w1 = a11 v1 + . . . + a1n vn
w2 = a21 v1 + . . . + a2n vn
..
.
wn+1 = a(n+1)1 v1 + . . . + a(n+1)n vn
α1 w1 + . . . + αn+1 wn+1
na base S obtemos
(13) (α1 a11 + α2 a21 + . . . + αn+1 a(n+1)1 )v1 + . . . + (α1 a1n + α2 a2n + . . . + αn+1 a(n+1)n )vn
32 APONTAMENTOS DE ÁLGEBRA LINEAR
Pretendemos mostrar que existem αi ’s não todos nulos tais que a expressão (13) é
nula. Mas para que (13) seja nula basta que se verifiquem as condições
α1 a11 + α2 a21 + . . . + αn+1 a(n+1)1 = 0
..
.
α1 a1n + α2 a2n + . . . + αn+1 a(n+1)n = 0
Estas condições dizem que (α1 , . . . , αn ) é uma solução do sistema linear homogéneo
cuja matriz dos coeficientes é aij . Trata-se de um sistema de n equações com (n + 1)
incógnitas logo tem sempre (infinitas) soluções não nulas (pois há pelo menos uma
variável livre). Isto conclui a demonstração.
(iii) Seja T um conjunto linearmente independente e S = {v1 , . . . , vn } um conjunto de
geradores para V . Claramente L(T ∪ S) = V (mas infelizmente T ∪ S pode não ser
linearmente independente). Seja vi o primeiro vetor de S que não pertence a L(T )
(se não existir então L(T ) = L(T ∪ S) = V e T é a base requerida). Temos, por um
lado, que L(T ∪ {vi , . . . , vn }) = L(T ∪ S) = V e por outro, pela Proposição 4.3, que
T ∪ {vi } é linearmente independente. Seja agora vj o primeiro dos vetores vi+1 , . . . , vn
que não pertence a L(T ∪ {vi }) (se não existir então L(T ∪ {vi }) = V e T ∪ {vi } é a
base requerida). Temos agora que
L(T ∪ {vi , vj , vj+1 , . . . vn }) = V
e, pela Proposição 4.3, que (T ∪{vi })∪{vj } é linearmente independente. Prosseguindo
desta maneira, obtemos após um número finito de passos uma base para V contendo
T . Este procedimento é na realidade um algoritmo para achar esta base.
Observação 4.5. A demonstração da Proposição 4.4(iii) pode ser formalizada usando
indução no número de vetores de V que é necessário acrescentar ao conjunto T para obter
um conjunto de geradores para V . Se este número é 0 então T é já uma base de V . O
argumento na demonstração acima pode facilmente ser adaptado para demonstrar o passo
da indução: Se quando basta acrescentar n vetores a T para gerar V , o conjunto T pode ser
completado de forma a obter uma base, então o mesmo se verifica quando basta acrescentar
n + 1 vetores a T para gerar V .
Podemos agora facilmente demonstrar o seguinte resultado fundamental.
Teorema 4.6. Seja V um espaço vetorial finitamente gerado. Então V tem uma base
finita e todas as bases de V têm o mesmo número de elementos.
Dem. Seja S um conjunto finito tal que V = L(S). Pela Proposição 4.4(i), o conjunto S
contém um subconjunto T que é linearmente independente e tal que L(T ) = L(S) = V . T
é portanto uma base de V e trata-se de um conjunto finito porque S é finito.
Suponhamos que B é uma outra base de V . A Proposição 4.4(ii) garante que #B ≤ #T
(senão B seria linearmente dependente). Mas o mesmo raciocı́nio diz-nos que #T ≤ #B e
portanto B e T têm o mesmo número de elementos.
APONTAMENTOS DE ÁLGEBRA LINEAR 33
elementos, no sentido em que é possı́vel definir uma correspondência bijetiva entre os ele-
mentos de uma base e da outra. A demonstração destas versões mais gerais requer alguns
conhecimentos de Teoria dos Conjuntos pelo que não discutiremos estes resultados.
Vejamos como as propriedades dos conjuntos linearmente independentes e bases demon-
strados acima podem auxiliar o cálculo de bases e a determinação se um conjunto é ou não
linearmente dependente.
Exemplo 4.12. Vamos verificar que o conjunto B = {(1, 0, 1), (1, 1, 0), (0, 0, 3)} é uma
base para R3 e determinar as componentes de (1, 2, 1) nesta base.
Uma vez que dim R3 = 3, de acordo com o Corolário 4.10(i) para ver que B é uma base
basta-nos verificar que B é um subconjunto linearmente independente de R3 . Podemos
fazer isto (pelo menos) de duas formas:
• Usando a definição: B é linearmente independente se e só se
α(1, 0, 1) + β(1, 1, 0) + γ(0, 0, 3) = (0, 0, 0) ⇒ α = β = γ = 0
A equação à esquerda da implicação é um sistema linear homogéneo cujas incógnitas
são os coeficientes α, β, γ. Resolvendo o sistema vemos se o conjunto é ou não
linearmente independente:
α + β = 0 α = 0
β=0 ⇔ β=0
α + 3γ = 0
γ = 0
5. Mudanças de coordenadas
Definição 5.1. Uma base ordenada B de um espaço vetorial de dimensão finita V é uma
sequência finita B = (v1 , . . . , vn ) de vetores distintos vi ∈ V tais que o conjunto {v1 , . . . , vn }
é linearmente independente e gera V
Como o nome indica, a diferença entre base e base ordenada é que numa base ordenada
escolhemos explicitamente uma ordem para os vetores da base. Há um primeiro vetor
da base, um segundo, etc... Na realidade até agora, quando fizemos cálculos escolhemos
implicitamente uma ordem para os vetores das bases envolvidas de forma a poder identificar
o espaço vetorial em questão com Rn .
Uma base ordenada B = (v1 , . . . , vn ) determina uma bijeção natural
V ←→ Rn
que faz corresponder a um vetor v ∈ V os seus coeficientes na base B, na ordem indicada,
v = α1 v1 + . . . + αn vn ←→ (α1 , . . . , αn )
O escalar αi diz-se a i-ésima coordenada de v na base ordenada B.
Exemplo 5.2. (i) A base ordenada canónica de Rn é B = (e1 , . . . , en ), onde ei =
(0, . . . , 0, 1, 0, . . . , 0) (com o 1 na posição i). Uma vez que
(x1 , . . . , xn ) = x1 e1 + . . . + xn en
as coordenadas de (x1 , . . . , xn ) na base canónica são (x1 , . . . , xn ).
(ii) Para 0 < α < π2 , seja B = ((cos α, sen α), (− sen α, cos α)) a base ordenada de R2 que
se obtém rodando os vetores da base canónica um ângulo α no sentido anti-horário.
Vamos achar as coordenadas do vetor (1, 0) na base B.
Podemos fazê-lo usando a interpretação geométrica das coordenadas (conforme
o Exemplo 3.6) e trigonometria elementar obtendo (cos α, − sen α) ou, alternativa-
mente, resolvendo o sistema
(
c1 cos α − c2 sen α = 1
(1, 0) = c1 (cos α, sen α) + c2 (− sen α, cos α) ⇔
c1 sen α + c2 cos α = 0
A combinação linear cos αL1 + sen αL2 das duas equações do sistema produz c1 =
cos α, e substituindo na segunda equação temos
cos α sen α + c2 cos α = 0 ⇔ c2 = − sen α
(uma vez que cos α > 0). Em geral, podemos ver geometricamente qual é a relação
entre as coordenadas (a, b) de um vetor na base canónica e as suas coordenadas na
base B. As coordenadas na base B obtêm-se de (a, b) rodando este vetor um ângulo
α no sentido horário.
APONTAMENTOS DE ÁLGEBRA LINEAR 37
Vimos no exemplo anterior que as coordenadas na nova base B podiam ser obtidas a
partir das coordenadas noutra base (a base canónica) através de uma certa transformação.
É natural perguntar em geral qual é a relação entre as coordenadas de um vetor v ∈ V em
duas bases ordenadas B1 = (v1 , . . . , vn ) e B2 = (w1 , . . . , wn ) de V dadas.
Seja
v = α1 v1 + . . . + αn vn
Para achar as coordenadas de v na base B2 podemos escrever os vetores vi na base B2 :
v1 = a11 w1 + a21 w2 + . . . + an1 wn
v2 = a12 w1 + a22 w2 + . . . + an2 wn
..
.
vn = a1n w1 + a2n w2 + . . . + ann wn
Substituindo na fórmula para v obtemos
v = α1 (a11 w1 + a21 w2 + . . . + an1 wn ) + α2 (a12 w1 + a22 w2 + . . . + an2 wn ) +
. . . + αn (a1n w1 + a2n w2 + . . . + ann wn )
= (a11 α1 + a12 α2 + . . . + a1n αn )w1 + (a21 α1 + a22 α2 + . . . + a2n αn )w2 +
. . . + (an1 α1 + an2 α2 + . . . + ann αn )wn
Escrevendo (β1 , . . . , βn ) para as coordenadas do vetor v na base B2 temos portanto
β1 a11 a12 . . . a1n α1
β2 a21 a22 . . . a1n α2
. = . .. .. .. .
.. .. . . . ..
βn an1 an2 . . . ann αn
onde na coluna j da matriz [aij ] aparecem as coordenadas do vetor vj na base B2 .
Proposição 5.3. Seja V um espaço vetorial de dimensão n e B1 e B2 bases ordenadas
para V . Existe uma única matriz n × n, denotada por SB1 →B2 , tal que para todo o vetor
v ∈ V , as coordenadas (β1 , . . . , βn ) de v na base B2 e as coordenadas (α1 , . . . , αn ) de v na
base B1 estão relacionadas da seguinte forma
β1 α1
β2 α
. = SB1 →B2 .2
.. ..
βn αn
A esta matriz chama-se a matriz de mudança de coordenadas da base B1 para a base B2 .
Dem. Já observámos acima que é possı́vel relacionar as coordenadas através de uma matriz.
Para ver que a matriz é única note-se que se existir uma tal matriz S então a j-ésima
coluna da matriz terá necessariamente de consistir nas coordenadas do j-ésimo vetor da
base B1 na base B2 . De facto, as coordenadas desse vetor (chamemos-lhe vj ) na base B1
são (0, . . . , 0, 1, 0, . . . , 0) com o 1 na j-ésima posição, e ao multiplicarmos a matriz S por
38 APONTAMENTOS DE ÁLGEBRA LINEAR
este vetor de coordenadas obtemos a j-ésima coluna de S que tem então que conter as
coordenadas de vj na base B2 .
Exemplo 5.4. A matriz de mudança de base da base canónica Bcan de R2 para a base B
do Exemplo 5.2 é dada por
cos α sen α
SBcan →B =
− sen α cos α
De fato, a primeira coluna contém as componentes do primeiro vetor da base canónica na
base B como vimos no Exemplo 5.2 e da mesma forma podemos verificar que a segunda
coluna contém as coordenadas do vetor (0, 1) na base B. Note-se que o efeito que tem
a multiplicação desta matriz por um vetor coluna é a rotação do vetor um ângulo α no
sentido horário conforme tı́nhamos previsto geometricamente.
Proposição 5.5. Seja V um espaço vetorial de dimensão finita e B1 , B2 , B3 bases orde-
nadas para V . Temos as seguintes relações entre as matrizes de mudança de coordenadas:
(i) SB1 →B3 = SB2 →B3 SB1 →B2
(ii) SB2 →B1 = (SB1 →B2 )−1
Dem. (i) Sejam X1 , X2 e X3 os vetores coluna contendo as coordenadas de um dado
vetor v ∈ V . Por definição das matrizes de mudança de coordenadas temos
X2 = SB1 →B2 X1 , X3 = SB2 →B3 X2
Substituindo a primeira equação na segunda obtemos
X3 = SB2 →B3 (SB1 →B2 X1 ) = (SB2 →B3 SB1 →B2 ) X1
Uma vez que a equação anterior é válida para qualquer vetor v ∈ V e a matriz de
mudança de coordenadas é única conclui-se que
SB1 →B3 = SB2 →B3 SB1 →B2
(ii) Claramente, para qualquer base ordenada B com n elementos, temos que a matriz
de mudança de coordenadas da base B para ela própria é a matriz identidade In .
Aplicando o ponto (i) com B3 = B1 obtemos
In = SB2 →B1 SB1 →B2
e da mesma forma, trocando B1 com B2
In = SB1 →B2 SB2 →B1
o que mostra que SB1 →B2 e SB2 →B1 são matrizes inversas.
Observação 5.6. Note-se que o ponto (ii) da Proposição anterior diz, em particular, que
uma matriz de mudança de base é sempre invertı́vel. Reciprocamente, é um exercı́cio da
ficha para as aulas práticas que qualquer matriz invertı́vel é uma matriz de mudança de
base (a partir de qualquer base dada).
APONTAMENTOS DE ÁLGEBRA LINEAR 39
6. Transformações lineares
Na Matemática estuda-se certos objetos cuja natureza depende da área da Matemática.
Por exemplo, na Álgebra Linear estuda-se espaços vetoriais, enquanto que em Geometria
se pode estudar, por exemplo, curvas e superfı́cies. Normalmente estes objetos consistem
em conjuntos munidos de certa estrutura adicional. No caso dos espaços vetoriais esta
estrutura adicional toma a forma das operações de soma de vetores e o produto de vetores
por escalares. Para estudar os objetos em questão é sempre necessário pensar em como se
relacionam entre eles. As relações entre os objetos manifestam-se através de funções entre
os conjuntos subjacentes que preservam a estrutura adicional. No caso que nos interessa
agora isso leva-nos à seguinte definição.
Definição 6.1. Sejam V e W espaços vetoriais. Uma função f : V → W diz-se uma
transformação linear de V para W se
(i) f (v1 + v2 ) = f (v1 ) + f (v2 ) para todos os v1 , v2 ∈ V .
(ii) f (αv) = αf (v) para todo o v ∈ V e escalar α.
As transformações lineares são portanto as funções entre os conjuntos subjacentes aos
espaços vetoriais que preservam a soma e o produto por escalar. Note-se que na definição
acima aparecem duas somas (em geral) distintas no axioma (i): do lado esquerdo do sinal
de igual, a soma é a soma de vetores em V , enquanto que do lado direito se trata da soma
em W . Analogamente para os dois produtos por escalar que aparecem no axioma (ii).
Chamamos a atenção para as seguintes consequências imediatas dos axiomas acima: uma
transformação linear leva necessariamente o vetor 0 ∈ V no vetor 0 ∈ W . De facto, sendo
v ∈ V um vetor qualquer sabemos que 0 · v = 0. Como f preserva o produto por escalar
temos então
f (0) = f (0 · v) = 0 · f (v) = 0 ∈ W
A outra observação importante é que uma transformação linear leva combinações lineares
em V para combinações lineares em W : dados escalares α1 , . . . , αn e vetores v1 , . . . , vn
temos
f (α1 v1 + . . . + αn vn ) = f (α1 v1 ) + f (α2 v2 ) + . . . + f (αn vn )
= α1 f (v1 ) + . . . + αn f (vn )
Vejamos alguns exemplos de transformações lineares f : V → W .
Exemplo 6.2. (1) Sejam V = W = R = R1 . A função f : R → R definida pela
expressão f (x) = 2x é uma transformação linear. De facto temos
f (x1 + x2 ) = 2(x1 + x2 ) = 2x1 + 2x2 = f (x1 ) + f (x2 )
f (αx) = 2(αx) = α(2x) = αf (x)
O gráfico de f é uma linha reta que passa pela origem. Mais geralmente, é fácil
ver (exercı́cio) que uma função f : R → R é uma transformação linear se e só se
f é uma função linear, isto é, da forma f (x) = ax para algum número real a ∈ R.
Assim, as transformações lineares são as funções reais de variável real cujos gráficos
são retas que passam pela origem.
40 APONTAMENTOS DE ÁLGEBRA LINEAR
e
T (αf ) = (αf )0 = αf 0
pelas regras de derivação para a soma e para o produto por escalar. Estas regras
dizem precisamente que a operação de derivação é uma transformação linear. Este
exemplo é, pelo menos aparentemente, muito diferente dos anteriores. O conceito
de transformação linear estabelece assim uma relação entre operações tão diferentes
como uma rotação do plano e a operação de derivação de uma função.
(5) Seja V = Mm×n (R) e W = Mp×q (R) e sejam B uma matriz p × m e C uma matriz
n × q. Então a aplicação T : V → W definida pela fórmula
T (A) = BAC
é uma transformação linear:
T (A1 + A2 ) = B(A1 + A2 )C = (BA1 + BA2 )C
= BA1 C + BA2 C = T (A1 ) + T (A2 )
(pela distributividade do produto de matrizes em relação à soma, e associatividade
da multiplicação de matrizes) e
T (αA) = B(αA)C = (αBA)C = αBAC
pela relação entre o produto de matrizes e o produto por escalar. Um exemplo
concreto é por exemplo a transformação T : M2×2 (R) → M4×3 (R) determinada pelas
matrizes
1 3
−2 0 0 1 2
B= , C=
−1 1 −1 1 0
2 0
que é dada pela fórmula
1 3 −b − 3d a + b + 3c + 3d 2a + 6c
a b −2 0 a b 0 1 2 2b −2a − 2b −4a
T = =
c d −1 1 c d −1 1 0 b−d −a − b + c + d −2a + 2c
2 0 −2b 2a + 2b 4a
(6) Seja V o espaço vetorial dos polinómios e W = R2 . Então a função f : V → R2
definida por
f (p) = (p(1), p00 (2))
é uma transformação linear:
f (p + q) = ((p + q)(1), (p + q)00 (2)) = (p(1) + q(1), p00 (2) + q 00 (2))
= (p(1), p00 (2)) + (q(1), q 00 (2)) = f (p) + f (q)
f (αp) = ((αp)(1), (αp)00 (2)) = (αp(1), αp00 (2)) = α(p(1), p00 (2))
porque a soma de funções e a multiplicação de uma função por escalar são calculadas
ponto a ponto e pelas regras de derivação. Note-se que este exemplo é, pelo menos
aparentemente, de uma natureza bastante diferente dos exemplos (1)-(5) acima.
42 APONTAMENTOS DE ÁLGEBRA LINEAR
Exemplo 6.5. A transformação linear T : R2 → R3 tal que T (1, 0) = (2, 1, −3) e T (0, 1) =
(4, 1, 5) é a função definida pela expressão
T (a, b) = a(2, 1, −3) + b(4, 1, 5) = (2a + 4b, a + b, −3a + 5b)
que pode ser representada matricialmente por
2 4
a a
T = 1 1
b b
−3 5
Claramente o exemplo anterior pode ser generalizado a qualquer transformação linear de
Rm para Rn e vemos assim que o Exemplo 6.2 (3) é na realidade exaustivo. Vamos agora ver
que em completa generalidade, desde que os espaços vetoriais envolvidos tenham dimensão
finita, uma transformação linear é determinada por uma matriz. Antes disso aproveitamos
para introduzir notação para as coordenadas de um vetor numa base ordenada.
Definição 6.6. Seja V um espaço vetorial, B = (v1 , . . . , vn ) uma base ordenada para V e
v = α1 v1 + . . . + αn vn um vetor de V . Escrevemos [v]B para a matriz coluna n × 1 cujas
componentes são as coordenadas de v (por ordem):
α1
[v]B = ...
αn
Uma base finita B com n elementos determina uma função f : V → Mn×1 (R) definida
por
f (v) = [v]B
que é uma bijeção (pela unicidade das coordenadas). Aliás é esta identificação que temos
usado, informalmente, para efetuar cálculos em espaços vetoriais de polinómios e matrizes.
Exercı́cio 6.7. Dado um espaço vetorial V e uma base B = (v1 , . . . , vn ) para V , verifique
que a função f : V → Mn×1 (R) definida por f (v) = [v]B é uma transformação linear.
Proposição 6.8. Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vm ) e B2 = (w1 , . . . , wn )
bases ordenadas para V e W respetivamente. Seja f : V → W uma transformação linear.
Então existe uma única matriz Af,B1 ,B2 ∈ Mm×n (R) tal que, para todo o vetor v ∈ V se
tem
[f (v)]B2 = Af,B1 ,B2 [v]B1
A matriz Af,B1 ,B2 diz-se a matriz que representa a transformação linear f com respeito
às bases B1 e B2 .
Exemplo 6.9. (i) Seja V um espaço vetorial com bases B1 = (v1 , . . . , vn ) e B2 =
(w1 , . . . , wn ) e Id : V → V a função identidade (definida por Id(v) = v). É ime-
diato verificar que Id é uma transformação linear. Temos então, por definição de
matriz mudança de base
AId,B1 ,B2 = SB1 →B2
44 APONTAMENTOS DE ÁLGEBRA LINEAR
De facto, a identidade
[Id(v)]B2 = AId,B1 ,B2 [v]B1 ⇔ [v]B2 = AId,B1 ,B2 [v]B1
mostra que AId,B1 ,B2 satisfaz a relação que caracteriza a matriz de mudança de coor-
denadas, e como tal (por unicidade), é a matriz de mudança de coordenadas SB1 →B2 .
(ii) Seja V o espaço vetorial dos polinómios de grau ≤ 3 e considere-se a transformação
linear T : V → V definida por T (p) = p0 . Uma vez que
T (a + bx + cx2 + dx3 ) = b + 2cx + 3dx2 ,
sendo B = (1, x, x2 , x3 ) a base canónica, a equação [T (p)]B = AT,B,B [p]B para a
matriz AT,B,B fica
b a
2c b
3d = AT,B,B c
0 d
e conclui-se então que
0 1 0 0
0 0 2 0
AT,B,B =
0
0 0 3
0 0 0 0
Vale a pena refletir durante um momento no facto de a matriz acima representar a
operação de derivação (embora no contexto restrito dos polinómios de grau menor ou
igual a 3).
Dem. da Proposição 6.8. Vejamos primeiro ver que se a matriz Af,B1 ,B2 existir, ela é única.
Para o i-ésimo vetor da base B1 , v = vi , a equação que caracteriza a matriz Af,B1 ,B2 é
[f (vi )] = Af,B1 ,B2 [vi ]B1
mas, uma vez que [vi ]B1 tem todas as entradas iguais a 0 exceto a i-ésima que é igual a
1, o produto no termo direito da equação acima é a i-ésima coluna da matriz Af,B1 ,B2 .
Isto mostra que a matriz Af,B1 ,B2 fica univocamente determinada: se existir, a sua i-ésima
coluna é necessariamente igual a [f (vi )]B2 .
Para completar a demonstração basta agora verificar que a matriz n × n cuja i-ésima
coluna é [f (vi )]B2 satisfaz a equação do enunciado. Seja v = α1 v1 + . . . + αn vn um vetor
de V . Então
[f (v)]B2 = [f (α1 v1 + . . . + αn vn )]B2
= [α1 f (v1 ) + . . . + αn f (vn )]B2
= α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
onde na segunda igualdade usámos o facto de f ser uma transformação linear e na terceira
o Exercı́cio 6.7. Pela definição do produto de matrizes a expressão
α1 [f (v1 )]B2 + . . . + αn [f (vn )]B2
APONTAMENTOS DE ÁLGEBRA LINEAR 45
é exatamente o produto da matriz que tem por i-ésima coluna [f (vi )]B2 pelo vetor col-
una com componentes (α1 , . . . , αn ), que por sua vez, é exatamente [v]B1 . Isto conclui a
demonstração.
A Proposição 6.8 permite identificar uma transformação linear entre espaços vetoriais
de dimensão finita com uma matriz mediante a escolha de bases para o espaço vetorial de
partida e de chegada. Além disso explica como obter a matriz em questão: é a matriz cuja
i-ésima coluna contém as coordenadas do i-ésimo vetor da base do espaço de partida na
base do espaço de chegada.
Isto é extremamente útil para fazer contas com transformações lineares como iremos ver
em seguida. Convém no entanto notar que a Proposição não se aplica a todos os exemplos
de transformação linear que queremos considerar - por exemplo, à operação de derivação.
Por outro lado, o objeto em que normalmente estamos interessados é a transformação
linear ela própria e não uma (das muitas possı́veis) representações matriciais que usamos
para calcular. Uma analogia que pode ser útil é que uma transformação linear é como
uma ideia, que se pode exprimir em várias lı́nguas, as bases nos espaços de partida e de
chegada são como uma escolha de lı́ngua, e a matriz que representa a transformação linear
é a palavra que representa a ideia na lı́ngua escolhida.
Vamos agora continuar o estudo das transformações lineares que se vai prolongar até ao
final do semestre.
Definição 6.10. Sejam V e W espaços vetoriais. Escrevemos L(V, W ) para o conjunto
das transformações lineares de V para W . Dadas f, g ∈ L(V, W ) e um escalar α definimos
a soma de f e g como sendo a função f + g : V → W definida pela expressão
(f + g)(v) = f (v) + g(v)
e definimos o produto de uma transformação linear f pelo escalar α como sendo a função
αf : V → W definida pela expressão
(αf )(v) = α · f (v).
Proposição 6.11. Sejam V e W espaços vetoriais. Com as operações de soma e produto
por escalar definidas acima, o conjunto L(V, W ) é um espaço vetorial.
Dem. Temos a verificar que as operações de soma e produto por escalar estão bem definidas,
isto é, que dadas f, g ∈ L(V, W ) e um escalar f , as funções f + g e αf estão ainda em
L(V, W ) e depois os oito axiomas que estas operações devem satisfazer num espaço vetorial.
Vemos primeiro que f + g é uma transformação linear: dados v1 , v2 ∈ V temos
(f + g)(v1 + v2 ) = f (v1 + v2 ) + g(v1 + v2 ) = f (v1 ) + f (v2 ) + g(v1 ) + g(v2 )
= f (v1 ) + g(v1 ) + f (v2 ) + g(v2 ) = (f + g)(v1 ) + (f + g)(v2 )
e dado um escalar α e v ∈ V temos
(f + g)(αv) = f (αv) + g(αv) = αf (v) + αg(v) = α(f (v) + g(v)) = α((f + g)(v))
A verificação que (αf ) ∈ L(V, W ) é análoga e fica como exercı́cio. A verificação dos
axiomas de espaço vetorial é também deixada como exercı́cio. Notamos apenas que o vetor
46 APONTAMENTOS DE ÁLGEBRA LINEAR
de um dos espaços e os vetores do outro). Uma vez que a função e a sua inversa preservam
as operações dos espaços vetoriais ou, equivalentemente, as combinações lineares, qual-
quer propriedade ou afirmação acerca de um dos espaços (que se possa expressar usando
combinações lineares) será verdadeira se e só se for verdadeira no outro. Por exemplo um
conjunto será linearmente (in)dependente num espaço se e só se a sua imagem através do
isomorfismo for linearmente (in)dependente no outro. A verificação da afirmação anterior
assim como de outras do mesmo género ficará como exercı́cio na próxima Ficha para as
aulas práticas.
Exemplo 6.16. (i) As funções Mn×1 (R) → Rn e M1×n (R) → Rn definidas por
x1
... 7→ (x1 , . . . , xn )
e x1 · · · xn 7→ (x1 , . . . , xn )
xn
são isomorfismos de espaços vetoriais. De facto as funções descritas acima são clara-
mente bijetivas e também transformações lineares (pela definição de soma e produto
por escalar nos vários espaços envolvidos).
(ii) Seja V um espaço vetorial com base ordenada B = (v1 , . . . , vn ). A função f : V →
Mn×1 (R) definida por
f (v) = [v]B
que calcula a matriz coluna das coordenadas na base ordenada B é um isomor-
fismo. Que f é uma transformação linear é o conteúdo do Exercı́cio 6.7. A função
f é também bijetiva: a sobrejetividade de f traduz o facto que qualquer n-tuplo
(α1 , . . . , αn ) de escalares formar as coordenadas de um vetor de V (nomeadamente
de v = α1 v1 + . . . αn vn ), enquanto que a injetividade de f é uma consequència da
unicidade das coordenadas de um vetor (que por sua vez é uma consequência de B
ser um conjunto linearmente independente).
(iii) Sejam V, W espaços vetoriais e B1 = (v1 , . . . , vn ), B2 = (w1 , . . . , wm ) bases ordenadas
para V e W respetivamente. A função
Φ : L(V, W ) → Mm×n (R)
definida por (ver Proposição 6.8 para o significado da notação)
Φ(f ) = Af,B1 ,B2
é um isomorfismo de espaços vetoriais. Portanto uma transformação linear entre
espaços vetoriais finitamente gerados pode ser identificada com uma matriz, uma vez
escolhidas bases ordenadas para o domı́nio e conjunto de chegada da transformação
linear.
Temos que verificar que Φ é uma transformação linear e que é invertı́vel (ou bije-
tiva) enquanto função.
• Sejam f, g : V → W transformações lineares. Dados v1 v2 ∈ V temos
(15) [(f + g)(v)]B2 = [f (v) + g(v)]B2 = [f (v)]B2 + [g(v)]B2
48 APONTAMENTOS DE ÁLGEBRA LINEAR
Dem. A equivalência das primeiras três afirmações foi já vista no Teorema 2.23 embora
a equivalência de (i) com (iii) possa agora ser interpretada conceptualmente como uma
consequência da Proposição 6.13 e Corolário 6.19. A equivalência de (iii), (iv) e (v) é uma
consequência do Corolário 7.6 e da interpretação do núcleo e espaço das colunas da matriz
como núcleo e imagem da transformação linear associada.
É claro da definição de invertibilidade que (i) ⇒ (vi) e (vii). Reciprocamente se existe B
tal que AB = In então o espaço das colunas de A contém as colunas da matriz identidade,
e portanto EC(A) = Rn , que é a condição (v). Por outro lado se existe B tal que BA = In
então dado x ∈ N (A) temos x = In x = BAx = B0 = 0 pelo que N (A) = {0} que
é a condição (iv). Vemos assim que (vi) e (vii) são também equivalentes às restantes
condições.
Exemplo 7.9 (Significado geométrico dos pivots). Suponhamos que A é uma matriz m×n.
Associada a esta matriz está um plano em Rn contendo a origem - o espaço das linhas
EL(A) - que tem uma certa dimensão k ≤ n a que se chama a caracterı́stica da matriz A.
Quando aplicamos o método de eliminação de Gauss à matriz, o plano determinado pelas
linhas das sucessivas matrizes permanece sempre o mesmo e no final do método obtemos
uma matriz em escada de linhas cujas linhas formam uma base para EL(A).
Apesar de a matriz obtida no final do método de Gauss não ser única (há alguma indeter-
minação na aplicação do método), há certas caracterı́sticas comuns a todas estas matrizes
como por exemplo a localização dos pivots (isto é parte do conteúdo do Teorema 1.12).
Vamos ver qual é a explicação geométrica para este facto começando por alguns exemplos
simples.
Consideremos primeiro o caso em que m = 1 e n = 3. Temos portanto que
A= a b c
e que EL(A) é uma linha em R3 (vamos ignorar o caso trivial em que a = b = c = 0).
Neste caso a matriz A já está em escada de linhas e há três possibilidades: o pivot pode
estar na primeira, segunda ou terceira entrada da matriz.
o
1 caso: Se o pivot está na primeira posição isto significa que a projeção da linha no eixo
dos xx produz todo o eixo dos xx.
o
2 caso: Se o pivot está na segunda posição isto significa que a projeção da linha no eixo
dos xx é nula, ou seja que a linha está contida no plano yz, e que a projeção desta
linha no eixo dos yy não é nula (i.e. a linha não coincide com o eixo dos zz).
3o caso: Se o pivot está na terceira posição então a linha é o eixo dos zz.
Em seguida consideremos o caso em que m = 2 e n = 3. Então
a b c
A=
d e f
Se a caracterı́stica de A for menor ou igual a 1 o espaço EL(A) é uma linha ou um ponto e
já vimos o que acontece. Suponhamos portanto que a caracterı́stica de A é 2. Há novamente
três casos a considerar para a matriz em escada de linhas resultante do método de Gauss:
os dois pivots estão ou nas entradas 11 e 22 da matriz, ou 11 e 23 ou 21 e 32.
APONTAMENTOS DE ÁLGEBRA LINEAR 55
1o caso: Os pivots estão nas entradas 11 e 22: Isto significa que a projecão do plano EL(A)
no eixo dos xx é todo o eixo dos xx e que a projeção de EL(A) no plano xy é todo
o plano xy (ou seja que o plano é o gráfico de uma função sobre o plano xy).
o
2 caso: Os pivots estão nas entradas 11 e 32. Isto significa que a projeção de EL(A) no
eixo xx é todo o eixo xx mas a projeção no plano xy é apenas uma linha (gerada
pela projeção em xy do vetor que aparece na primeira linha da matriz, projeção
esta que não pertence ao eixo dos yy). Assim, EL(A) é um plano vertical contendo
o eixo dos zz, que não é o plano yz.
3o caso: Os pivots estão nas entradas 21 e 32. Neste caso, a projeção do plano EL(A) no
eixo dos xx é apenas a origem, o que significa que EL(A) é o plano yz.
Em geral, a posição dos pivots dá-nos informação sobre a posição do plano EL(A)
relativamente aos planos coordenados. Sendo j ≤ n e
πj : Rn → Rj
a projeção no plano (x1 , . . . , xj ) definida por πj (x1 , . . . , xn ) = (x1 , . . . , xj ), podemos asso-
ciar a A uma função crescente
d
{1, . . . , n} →
− {0, 1, . . . , k}
(onde k é a caraterı́stica de A) definida por
d(j) = dim πj (EL(A))
Ou seja, d(j) é a dimensão da projeção de EL(A) no plano (x1 , . . . , xj ) ou, alternati-
vamente, a dimensão do espaço das linhas da matriz m × j que se obtém esquecendo as
últimas n − j colunas de A. Temos assim d(1) = 0 ou 1 e d(n) = k.
Os pivots ocorrem exatamente nas colunas em que a função d(j) “salta”, isto é, na
primeira coluna ou nas colunas j > 1 para as quais d(j) > d(j − 1).
Finalmente, note-se que a projeção do plano EL(A) no plano Rk determinado pelas
variáveis correspondentes às colunas em que ocorrem pivots é um isomorfismo de espaços
vetoriais. Isto significa que EL(A) é o gráfico de uma função sobre esse plano. Fica como
exercı́cio para as alunas interessadas a verificação que a transformação linear de Rk para
Rn−k cujo gráfico é EL(A) é determinada (nas bases canónicas) pela matriz m × (n − k)
que se obtém da matriz em escada de linhas reduzida obtida de A no final do método do
Gauss-Jordan considerando apenas as colunas sem pivot.
Vejamos agora alguns exemplos práticos de aplicação dos últimos resultados.
Exemplo 7.10 (Exercı́cio 7 da Ficha 8). Vamos achar uma base para o núcleo e a imagem
da transformação linear
f : M2×2 (R) → M2×2 (R)
definida por
1 1 1 1
f (A) = A−A
0 1 0 1
56 APONTAMENTOS DE ÁLGEBRA LINEAR
Escrevendo
a b
A=
c d
obtemos
a+c b+d a a+b c d−a
f (A) = − =
c d c c+d 0 −c
Conclui-se que N (f ) é definido pelas equações c = 0, d − a = 0 ou seja que
a b
N (f ) = : a, b ∈ R
0 a
Uma vez que
a b 1 0 0 1
=a +b
0 a 0 1 0 0
vemos que uma base para N (f ) é
1 0 0 1
,
0 1 0 0
O Teorema 7.4 diz-nos já que a imagem de f terá dimensão
dim M2×2 (R) − dim N (f ) = 4 − 2 = 2
pelo que para achar uma base para a imagem só precisamos de dois vetores não colineares
em f (M2×2 (R)).
Neste exemplo é também fácil achar a base diretamente, sem recorrer a este atalho. A
expressão acima para f (A) diz-nos que a imagem de f é formada pelas matrizes da forma
α β 1 0 0 1
=α +β
0 −α 0 −1 0 0
com α, β in R. Assim uma base para a imagem de f é
1 0 0 1
,
0 −1 0 0
Exemplo 7.11 (Exercı́cio 8 da Ficha 8). Seja V um espaço vetorial de dimensão finita
com base ordenada B1 e f : V → V uma transformação linear representada na base B1 pela
matriz A. Sendo S = SB1 →B2 a matriz de mudança de coordenadas da base B1 para outra
base B2 vejamos qual é a fórmula para a matriz que representa f na base B2 em termos
das matrizes A e S.
Queremos a matriz B = Af,B2 ,B2 tal que para todo o vetor v ∈ V se tem
[f (v)]B2 = B[v]B2
e sabemos que
[f (v)]B1 = A[v]B1 e [v]B2 = S[v]B1 para quaisquer v
Então
[f (v)]B2 = S[f (v)]B1 = SA[v]B1 = SAS −1 [v]B2
APONTAMENTOS DE ÁLGEBRA LINEAR 57
8. Equações lineares
Definição 8.1. Uma equação linear é uma equação da forma
f (x) = w
onde f : V → W é uma transformação linear, w é um vetor de W e a incógnita x é um
vetor de V a determinar. A equação diz-se homogénea quando w = 0.
É claro que uma equação linear tem solução se e só e w ∈ f (V ). O conjunto das soluções
é controlado pelo núcleo de f no seguinte sentido.
Proposição 8.2 (Princı́pio da sobreposição). Seja f : V → W uma transformação linear.
Se v é uma solução da equação linear f (v) = w, o conjunto de todas as soluções é
v + N (f ) = {v + z : z ∈ N (f )} ⊂ V
Dem. Se v é uma solução e z ∈ N (f ) temos que f (v + z) = f (v) + f (z) = w + 0 = w logo
v + z é uma solução. Assim
v + N (f ) ⊂ {u ∈ V : f (u) = w}
Reciprocamente, seja u uma solução qualquer da equação. Então u = v + (u − v) e
f (u − v) = f (u) − f (v) = w − w = 0 pelo que u − v ∈ N (f ) e portanto u ∈ v + N (f ).
Conclui-se que
{u ∈ V : f (u) = w} ⊂ v + N (f )
o que termina a demonstração.
Geometricamente, o resultado anterior diz que o conjunto das soluções é o “plano”
paralelo a N (f ) (que é um “plano” em V contendo a origem) que passa por uma solução
particular qualquer da equação.
É costume enunciar o resultado da Proposição 8.2 da seguinte forma;
A solução geral de uma equação linear é dada por uma solução particular
da equação mais a solução geral da equação homogénea.
Por uma solução particular entende-se uma qualquer solução v fixada para a equação. Por
solução geral entende-se o conjunto das soluções. Assim a afirmação acima diz apenas
que o conjunto das soluções de uma equação linear é obtido somando todas as soluções da
equação homogénea a uma qualquer solução da equação que consigamos determinar.
60 APONTAMENTOS DE ÁLGEBRA LINEAR
Exemplo 8.3 (O oscilador harmónico). Seja x : R → R uma função que descreve a posição
de uma partı́cula presa a uma mola em função do tempo. A partı́cula é atuada unicamente
pela força exercida pela extensão ou contração da mola, que é proporcional ao deslocamento
da mola em relação à sua posição de repouso. Assumindo que 0 é a coordenada da posição
de repouso, a equação de Newton diz-nos que
(20) x00 (t) + kx(t) = 0
onde k é uma constante positiva determinada pelas caracterı́sticas fı́sicas da mola e a massa
da partı́cula (recorde que x00 é a aceleração e note que a força exercida pela mola, mx00 tem
o sentido contrário ao deslocamento x). Para simplificar as contas vamos assumir a partir
de agora que k = 1.
Sendo V ⊂ F (R, R) o subespaço vetorial formado pelas funções duas vezes diferenciáveis
e T a transformação linear
T : V → F (R, R)
definida pela expressão
T (x) = x00 + x
vemos que o núcleo de T é exatamente o conjunto das soluções de (20) (com k = 1) que
formam portanto um subespaço vetorial de V .
É fácil adivinhar duas soluções para a equação
(21) x00 + x = 0
pois claramente x(t) = cos t e x(t) = sen t são soluções. Como o conjunto das soluções é
um espaço vetorial temos mais geralmente que
(22) x(t) = α1 cos t + α2 sen t, com α1 , α2 ∈ R
são soluções.
Para o ano que vem irão aprender que uma solução de uma equação diferencial como
(20) é completamente determinada por x(0) e x0 (0) (fisicamente isto diz que a evolução da
posição da partı́cula é completamente determinada pela sua posição e velocidade iniciais).
Assim o conjunto das soluções é um espaço vetorial de dimensão 2 (um vetor é determinado
por dois números reais) e portanto a fórmula (22) descreve a solução geral da equação (21).
No caso da equação (21) podemos verificar a afirmação anterior diretamente recorrendo
à conservação da energia. Definindo a quantidade
E(t) = (x0 )2 + x2
(correspondendo à soma das energia cinética e potencial) temos
dE
= 2x0 x00 + 2xx0 = 2x0 (−x) + 2xx0 = 0
dt
logo a quantidade (x0 )2 + x2 é conservada ao longo do tempo para qualquer solução da
equação diferencial (21). Em particular se x(t) for uma solução com x(0) = x0 (0) = 0
teremos (x0 (t))2 + x(t)2 = 0 para todo o t e portanto x(t) = 0.
Isto permite-nos concluir que os valores de x(0) e x0 (0) determinam completamente a
solução x(t) para todo o t: se x(t) e y(t) forem soluções de (21) com x(0) = y(0) e
APONTAMENTOS DE ÁLGEBRA LINEAR 61
x0 (0) = y 0 (0) então u(t) = x(t) − y(t) é também uma solução de (21) (porque se trata
de uma equação linear!) que satisfaz u(0) = u0 (0) = 0. Mas então u(t) = 0 e portanto
x(t) = y(t).
É agora imediato verificar que as soluções (22) permitem atribuir valores arbitrários a
x(0) e x0 (0) mediante variação dos coeficientes α1 e α2 (na realidade α1 = x(0) e α2 =
x0 (0)) e portanto descrevem todas as soluções de (21).
Suponhamos agora que queremos resolver a equação5
(23) x00 + x = t3
Trata-se agora de uma equação linear não homogénea. Não é no entanto difı́cil descobrir
uma solução particular desta equação tentando encontrar um polinómio que a satisfaça.
Se o fizer irá ver que o único polinómio que satisfaz esta equação é
x(t) = t3 − 6t
A Proposição 8.2 diz-nos então que a solução geral da equação (23) é
x(t) = t3 − 6t + α1 cos t + α2 sen t, com α1 , α2 ∈ R.
5Fisicamente esta equação corresponde a adicionar ao sistema mecânico considerado anteriormente uma
força exterior dependente do tempo que actua com intensidade t3 /m (onde m é a massa da partı́cula).
62 APONTAMENTOS DE ÁLGEBRA LINEAR
Claramente
1 2 1 3 1
= =3
2 1 1 3 1
e
1 2 1 −1 1
= = −1
2 1 −1 1 −1
Pelo que v1 = (1, 1) e v2 = (1, −1) são vetores próprios de f com valores próprios 3 e −1
respetivamente. Note-se que quaisquer múltiplos não nulos destes vetores são ainda vetores
próprios (com os mesmos valores próprios).
Os vetores v1 e v2 formam uma base de R2 em termos da qual é extremamente simples
compreender o efeito que a transformação linear f tem sobre os vetores de R2 : Ao longo da
direção de v1 (a diagonal do primeiro quadrante) f expande por um fator de 3, enquanto
que na direção ortogonal, (a diagonal do quarto quadrante), f reflete. Com base nisto é
fácil descrever o efeito que f teria num desenho qualquer no plano.
Note-se ainda que, uma vez que f (v1 ) = 3v1 e f (v2 ) = −v2 temos que a representação
de f com respeito à base B = (v1 , v2 ) é
3 0
Af,B,B =
0 −1
Vimos no exemplo anterior como é fácil descrever uma transformação linear f : V → V
quando existe uma base para V formada por vetores próprios. Isto sugere a seguinte
definição.
Definição 9.3. Uma transformação linear f : V → V diz-se diagonalizável se existe uma
base para V constituı́da por vetores próprios de f . Uma matriz A ∈ Mn×n (R) diz-se
diagonalizável, se a transformação linear de Rn representada por A (com respeito à base
canónica) é diagonalizável.
A razão da palavra diagonalizável é, claro, que a representação de uma transformação
linear diagonalizável numa base B = (v1 , . . . , vn ) de vetores próprios é uma matriz diagonal
λ1 0 · · · 0
..
0 λ2
. 0
. .
.. . . . . . ...
0 · · · 0 λn
onde λi é o valor próprio associado a vi .
Pôe-se agora a questão de como encontrar os valores próprios e vetores próprios de uma
transformação linear. Note-se que não existem sempre, por exemplo uma rotação do plano
(por um ângulo que não seja 0 ou π) não fixa nenhuma direção.
Se A for uma matriz n × n que representa f numa dada base temos que tentar achar um
vetor v 6= 0 tal que
Av = λv ⇔ Av = λIn v ⇔ (A − λIn )v = 0
Assim, um valor próprio de f é um escalar λ para o qual a matriz A − λIn tenha núcleo
não trivial, ou equivalentemente, tal que A − λIn não seja invertı́vel. Uma vez achados os
APONTAMENTOS DE ÁLGEBRA LINEAR 63
valores próprios, os vetores próprios são fáceis de determinar - são elementos não triviais
do núcleo.
Embora seja possı́vel achar os valores próprios usando o método de Gauss (tratando λ
como um parâmetro), é útil ter um critério geral para que λ seja um valor próprio. É esse
o nosso próximo objetivo. Iremos ver que há um polinómio nas entradas de uma matriz
quadrada - o determinante da matriz - que se anula precisamente quando a matriz não é
invertı́vel. Quando calculamos esse polinómio para a matriz (A − λIn ) e igualamos a 0
obtemos uma equação para achar os valores próprios λ.
Esse polinómio pode não ter raı́zes reais, mas o Teorema Fundamental da Álgebra
garante-nos que existem sempre raı́zes complexas. Assim, desde que estejamos dispostos
a encarar as matrizes como matrizes complexas, existem sempre vetores próprios. Além
disso, uma matriz genérica (isto é escolhida “ao calhas”) é diagonalizável, até com valores
próprios todos distintos.
10. Determinantes
Queremos procurar um critério para que uma matriz n × n tenha núcleo não trivial
ou, equivalentemente, para que tenha caracterı́stica menor que n. Geometricamente, esta
condição traduz-se no espaço das linhas da matriz ter dimensão menor ou igual a (n − 1).
Pensando primeiro nos casos mais familiares em que n = 2 ou 3, esta condição geométrica
pode ainda traduzir-se no seguinte. Quando n = 2, podemos considerar o paralelogramo
P (v1 , v2 ) = {αv1 + βv2 : 0 ≤ α, β ≤ 1}
que tem um vértice na origem e duas das arestas dadas pelas linhas da matriz, que identi-
ficamos como vetores v1 e v2 de R2 ,
A matriz tem caracterı́stica menor ou igual a 1 se e só se este paralelogramo degenera
num segmento de reta ou num ponto, ou seja, se e só se a área do paralelogramo P (v1 , v2 )
é nula.
Analogamente, uma matriz 3×3 terá caracterı́stica menor que 3 se e só se o paralelipı́pedo
P (v1 , v2 , v3 ) = {αv1 + βv2 + γv3 : 0 ≤ α, β, γ ≤ 1}
(em que v1 , v2 , v3 designam as linhas da matriz identificadas com vetores de R3 ) tiver
volume nulo.
Mais geralmente pode definir-se uma noção de volume n-dimensional para um subcon-
junto de Rn como irão ver em Cálculo 2 e então a condição geral que procuramos é equiv-
alente ao volume do paralelipı́pedo n-dimensional P (v1 , . . . , vn ) ter volume n-dimensional
nulo.
O nosso objetivo é portanto encontrar uma fórmula para a área/volume de um paralel-
ogramo/paralelipı́pedo a partir das coordenadas dos vetores que formam as arestas. A
observação básica que nos permite obter esta fórmula é a seguinte (faça um desenho):
Ao deslizar o ponto final da aresta de um paralelogramo ao longo de uma
linha paralela à outra aresta, a área não se altera
64 APONTAMENTOS DE ÁLGEBRA LINEAR
ou seja
(24) área(P (v1 , v2 )) = área(P (v1 + αv2 , v2 ))
(e claro que o mesmo se verifica se deslizarmos o ponto final de v2 ao longo da direção
v1 ). Esta fórmula diz-nos por exemplo que as áreas dos paralelogramos correspondentes às
matrizes
a 0 a 0
e
c d 0 d
são iguais, pois (0, d) pode obter-se de (c, d) deslizando ao longo de (a, 0) (a não ser que
a = 0, mas nesse caso as áreas são nulas e a afirmação permanece verdadeira). Assim, a
área do paralelogramo com arestas (a, 0) e (c, d) é a área do retângulo com arestas (a, 0) e
(0, d), ou seja |ad| (mesmo que a ou d sejam 0). Mas a fórmula (24) diz-nos mais geralmente
que quando aplicamos o método de Gauss a uma matriz 2 × 2, a área do paralelogramo
associado não muda! Supondo que a 6= 0 temos
a b L2 − ac L1 a b
−→
c d 0 d − bca
logo concluı́mos que a área de um paralelogramo com arestas (a, b) e (c, d) é
bc
área (P ((a, b), (c, d))) = |a| · d − = |ad − bc|
a
(a leitora interessada poderá verificar que esta fórmula permanece válida mesmo quando
a = 0). E obtemos assim a condição desejada nas entradas da matriz:
a b
tem núcleo não trivial sse ad − bc = 0
c d
ou, equivalentemente,
a b
é invertı́vel sse ad − bc 6= 0
c d
Podemos fazer um raciocı́nio análogo para matrizes 3 × 3 mas a fórmula obtida será
agora mais complicada. Novamente o volume de um paralelipı́pedo P (v1 , v2 , v3 ) em R3
não se alterará se deslizarmos o ponto final de uma das arestas paralelamente ao plano
determinado pelas outras duas, ou seja, por exemplo
volume P (v1 + αv2 , v2 , v3 ) = volume P (v1 , v2 , v3 )
Portanto o volume de um paralelipı́pedo com arestas as linhas da matriz
a b c
0 e f
0 0 i
APONTAMENTOS DE ÁLGEBRA LINEAR 65
será o volume do paralelipı́pedo reto com arestas de comprimento |a|, |e| e |i|, e podemos
reduzir a este caso usando eliminação de Gauss:
a b c
a b c
L −
gb
h− a
L
a b c
3 1
− ad L1 e− db 0 e − db f − dc
d e f L2−→ 0 e − db f − dc −→ a
a a
g
L3 − a L1 a a gb
h− a
gc
g h i 0 h − gb
a
i − gc
a
0 0 i − a
− e− db
(f − dc
a
)
a
volume (P ((a, b, c), (d, e, f ), (g, h, i))) = |aei + bf g + cdh − ceg − bdi − af h|
Fica como exercı́cio verificar que esta fórmula é válida mesmo nos casos em que a = 0, ou
a 6= 0 mas e − dba
= 0, nos quais a eliminação de Gauss feita acima tem de ser modificada.
O cálculo anterior sugere que não será prático obter e manipular diretamente uma ex-
pressão para o volume de um paralelipı́pedo n-dimensional. Com efeito, para n = 4 veremos
que a fórmula análoga tem 24 termos, para n = 5, 120 termos, e em geral o número de
termos é n!. Uma expressão de tal complexidade só pode ser manipulada conceptualmente.
Abstraindo as propriedades, não do volume, mas da expressão mais fundamental que
obtivemos acima para n = 2, 3 cujo módulo é o volume, obtemos a seguinte definição.
(i) ⇒ (ii) Supondo que i < j, e aplicando a linearidade primeiro na i-ésima variável e depois
na j-ésima obtemos
D(v1 , . . . , vi + vj , . . . , vi + vj , . . . , vn ) = D(v1 , . . . , vi , . . . , vi + vj , . . . , vn )+
D(v1 , . . . , vj , . . . , vi + vj , . . . , vn ) =
= D(v1 , . . . , vi , . . . , vi , . . . , vn ) + D(v1 , . . . , vi , . . . , vj , . . . , vn )
+D(v1 , . . . , vj , . . . , vi , . . . , vn ) + D(v1 , . . . , vj , . . . , vj , . . . , vn )
Substituindo os termos com argumentos repetidos por 0 obtém-se
0 = 0 + D(v1 , . . . , vi , . . . , vj , . . . , vn ) + D(v1 , . . . , vj , . . . , vi , . . . , vn ) + 0
que é equivalente à condição (ii).
(ii) ⇒ (i) Se vi = vj , então a troca do i-ésimo argumento com o j-ésimo não tem nenhum
efeito. Portanto
D(v1 , . . . , vi , . . . , vj , . . . , vn ) = −D(v1 , . . . , vj , . . . , vi , . . . , vn ) = −D(v1 , . . . , vi , . . . , vj , . . . , vn )
e portanto D(v1 , . . . , vi , . . . , vj , . . . , vn ) = 0.
É um resultado importante que as propriedades (i) a (iii) na definição de determinante
especificam completamente essa função:
Teorema 10.4. Existe uma única função determinante det Mn×n (R) → R
A demonstração deste teorema segue o padrão usual: iremos ver que só há uma possibili-
dade para uma tal função (obtendo no processo uma fórmula para o determinante) e depois
verificar que essa única possibilidade satisfaz de facto os axiomas da definição. Começamos
por ilustrar este processo usando os axiomas para ver que a única função determinante nas
matrizes 2 × 2 é
a b
det = ad − bc
c d
Sendo a, b, c, d ∈ R quaisquer e aplicando a linearidade do determinante na primeira linha
da matriz temos
a b
= a 1 0 + b 0 1
c d c d c d
e aplicando agora a linearidade na segunda linha obtemos
a b 1 0 1 0 0 1 0 1
c d = a c 1 0 + d 0 1 + b c 1 0 + d 0 1
Os primeiro e último termos do lado direito do sinal de igual na expressão acima são nulos
porque as linhas das matrizes em questão estão repetidas. Pelas propriedades (iii) e (ii)
respetivamente temos
1 0 0 1
1 0 = −1
=1 e
0 1
68 APONTAMENTOS DE ÁLGEBRA LINEAR
portanto
a b
c d = ad − bc
é a única função real das matrizes 2 × 2 que satisfaz as condições da Definição 10.1.
Façamos agora o caso mais realista de uma matriz 3 × 3. Assumindo que existe a função
determinante e usando linearidade na primeira linha obtemos
a b c 1 0 0 0 1 0 0 0 1
(26) d e f = a d e f + b d e f + c d e f
g h i g h i g h i g h i
Desenvolvendo o primeiro termo do lado direito do sinal de igual usando linearidade na
segunda linha obtemos
1 0 0 1 0 0 1 0 0 1 0 0
a d e f = a d 1
0 0 + e 0 1 0 + f 0 0 1
g h i g h i g h i g h i
O primeiro termo na soma do lado direito é nulo porque a primeira linha está repetida.
Da mesma forma, cada parcela do lado direito em (26) vai dar origem a dois termos não
nulos quando aplicarmos linearidade ao longo da segunda linha da matriz. Podemos agora
aplicar linearidade ao longo da terceira linha a cada um destes 6 termos. Por exemplo,
para o primeiro dos seis resultaria
1 0 0 1 0 0 1 0 0 1 0 0
ae 0 1 0 = ae g 0 1 0 + h 0 1 0 + i 0 1 0 = aei
g h i 1 0 0 0 1 0 0 0 1
uma vez que os dois primeiros termos da soma anterior têm linhas repetidas e o determi-
nante da matriz identidade é 1. Aplicando o mesmo raciocı́nio para os restantes termos não
nulos na expansão até à segunda linha obtemos a seguinte expressão para o determinante:
1 0 0 0 1 0 0 1 0 0 0 1 0 0 1
aei + af h 0 0 1 + bdi 1 0 0 + bf g 0 0 1 + cdh 1 0 0 + ceg 0 1 0
0 1 0 0 0 1 1 0 0 0 1 0 1 0 0
Os determinantes das matrizes com 0s e 1s são ±1 consoante o número de vezes qye temos
que trocar um par de linhas para transformar a matriz na identidade é par ou ı́mpar.
Recuperamos assim a expressão para o determinante de uma matriz 3 × 3:
a b c
d e f = aei − af h − bdi + bf g + cdh − ceg
g h i
Procedendo desta forma para uma matriz n×n é agora claro que vamos obter uma expressão
para o determinante. Haverá um termo não nulo na expressão para cada matriz de 1s e 0s
que tenha exatamente um 1 em cada linha, e tal que os 1s nunca apareçam repetidos numa
coluna. Para descrever estes termos por meio de uma expressão necessitamos de alguma
terminologia.
APONTAMENTOS DE ÁLGEBRA LINEAR 69
O argumento anterior torna claro que se existir uma função determinante, ela é única (tem
que ser dada pela fórmula (27)!). Mas neste momento não é ainda claro que uma tal função
exista. Há muitas maneiras de trocar pares de linhas de forma a obter a matriz identidade
a partir de uma matriz de 0s e 1s. Se para uma das maneiras o número de trocas fosse
par e para outra maneira fosse ı́mpar concluir-se-ia que a função determinante não podia
existir.
Não é fácil verificar diretamente que o sinal de uma permutação está bem definido. Em
vez disso vamos dar uma construção indutiva do determinante. Uma vez que isto esteja
feito teremos implicitamente provado que o sinal de uma permutação está bem definido!
Será necessariamente
(
1 se j = σ(i)
(28) sgn(σ) = det A(σ) com A(σ) a matriz com entradas aij =
0 caso contrário.
A matriz A(σ) diz-se uma matriz de permutação. O efeito que tem nas coordenadas de um
vetor linha ou coluna é uma permutação das coordenadas. Por exemplo,
x1 xσ(1)
x2 xσ(2)
A(σ)
... = ...
xn xσ(n)
É um bom exercı́cio ver o que acontece quando se multiplica à esquerda por um vetor linha.
70 APONTAMENTOS DE ÁLGEBRA LINEAR
Dem. do Teorema 10.4. Já vimos que se existir uma função determinante ela é única (e
dada pela fórmula (27)). Vamos ver por indução em n que existe uma função determinante
para matrizes n × n. Quando n = 1, é imediato que
det([a11 ]) = a11
Suponhamos que já definimos uma função determinante nas matrizes n × n. Dada uma
matriz A do tipo (n + 1) × (n + 1), seja A1i a matriz n × n que se obtém de A suprimindo
a primeira linha e a i-ésima coluna. Vamos definir
(29) det(A) = a11 det(A11 ) − a12 det(A12 ) + . . . + (−1)n a1(n+1) det A1(n+1)
fórmula esta que é motivada pela relação entre os determinantes para matrizes 3 × 3 e 2 × 2
que obtivemos anteriormente.
Temos a verificar que det A verifica as condições (i) − (iii) da Definição 10.1. A condição
(i) é verificada porque a expressão (29) é claramente linear na primeira linha da matriz A e,
por hipótese de indução, nas restantes, uma vez que as funções det(A1i ) são multilineares.
A condição (iii) também é verificada porque as entradas na primeira linha da matriz
identidade In+1 com excepção da primeira são todas nulas. Uma vez que (I(n+1) )11 = In
obtemos
det(In+1 ) = 1 · det(In ) = 1.
Resta-nos verificar que se uma das linhas de A está repetida então det A = 0. Se a
repetição ocorrer nas linhas i e j com i, j ≥ 2 então todos os termos det(A1i ) em (29) se
anulam (por hipótese de indução) e portanto det A = 0. Se i = 1, podemos assumir que
j = 2 uma vez que, por hipótese de indução, o termo direito da equação (29) troca de sinal
quando trocamos a linha j de A com a segunda linha.
Suponhamos assim que A tem a primeira e segunda linha iguais. Se A é uma matriz
2 × 2 a expressão (29) é
det(A) = a11 a22 − a12 a21 = a11 a12 − a12 a11 = 0
Se n > 1, podemos, por hipótese de indução aplicar a expressão (29) às matrizes n × n A1i .
A entrada 1j na primeira linha de A1i é igual a
(
a2j se j < i
a2(j+1) se j > i
portanto
i−1
X n+1
X
det(A1j ) = (−1)j−1 a2j det(A12|ij ) + (−1)j a2j det(A12|ij )
j=1 j=i+1
que é o (j − 1)-ésimo termo da expansão do termo (−1)i−1 a1i det(A1i ) à direita do sinal de
igual em (29) e
(−1)j−1 a1j · (−1)i−1 a2i det(A12|ij )
que vem da expansão do termo (−1)j−1 a1j det(A1j ). Uma vez que as primeiras duas linhas
da matriz são iguais, temos
(−1)i−1 a1i · (−1)j−2 a2j det(A12|ij ) + (−1)j−1 a1j · (−1)i−1 a2i det(A12|ij ) = 0
o que conclui a demonstração.
Observação 10.6. Uma função f : Mn×n (R) → R satisfazendo as propriedades (i) e (ii)
na Definição 10.1 chama-se uma função multilinear alternante. O argumento usado na
demonstração de unicidade do determinante aplicado a uma tal função (sem qualquer al-
teração) mostra que
X
f (A) = sgn(σ)a1σ(1) · · · anσ(n) f (In )
σ∈Σn
pelo que o valor de uma tal função em qualquer matriz é completamente determinado pelo
valor que assume na matriz identidade. Mas sendo λ ∈ R qualquer, a função A 7→ λ det(A)
é uma função multilinear alternante que assume o valor λ em In , pelo que se conclui que
toda a função multilinear alternante é da forma
f (A) = λ det(A)
em que λ = f (In ).
Vamos agora ver algumas propriedades importantes do determinante que nos ajudam a
calculá-lo.
Definição 10.7. Seja A uma matriz n × n. Para 1 ≤ i, j ≤ n designamos por Aij a
matriz (n − 1) × (n − 1) que se obtém de A omitindo a i-ésima linha e a j-ésima coluna.
O menor-ij de A é o número det Aij e o cofator-ij de A é (−1)i+j det Aij . A matriz n × n
cuja entrada ij é o cofator-ij diz-se a matriz dos cofatores de A e denota-se por cof A.
Proposição 10.8 (Propriedades do determinante). Sejam A e B matrizes n × n.
(i) Expansão de Laplace Sendo 1 ≤ i ≤ n, temos
n
X
det(A) = (−1)i+j aij det(Aij )
j=1
Esta fórmula para a inversa de uma matriz tem mais utilidade teórica do que prática
porque não é fácil calcular determinantes de matrizes grandes. É no entanto muito útil
para matrizes 2 × 2, caso em que afirma que
−1
a b 1 d −b
= quando ad − bc 6= 0
c d ad − bc −c a
Dem. da Proposição 10.8. (i) Para i = 1 a expansão de Laplace é simplesmente a ex-
pressão indutiva (29) usada para demonstrar a existência do determinante. Se i > 1,
seja à a matriz que se obtém de A trocando a linha 1 com a linha i. Aplicando (29)
obtemos
Xn n
X
(30) det(A) = − det(Ã) = − (−1)1+j ã1j det(Ã1j ) = − (−1)1+j aij det(Ã1j )
j=1 j=1
Notamos agora que as matrizes Ã1j e Aij diferem pela troca da (i−1)-ésima linha com
o bloco formado pelas linhas que a precedem - o que corresponde a (i − 2)-trocas de
pares de linhas à medida que a linha (i − 1) “flutua até chegar à superfı́cie”. Portanto
det(Ã1j ) = (−1)i−2 det Aij
Substitituindo em (30) obtemos a fórmula pretendida.
APONTAMENTOS DE ÁLGEBRA LINEAR 73
(ii) Fixada uma matriz B, considere-se a função f : Mn×n (R) → R definida por
f (A) = det(AB)
Trata-se de uma função multilinear e alternante das linhas de A pela definição do pro-
duto de matrizes e pelas propriedades (i) e (ii) na definição de função determinante.
Uma vez que f (In ) = det(B), a Observação 10.6 diz-nos que f (A) = det(A) det(B).
(iii) A expressão (27) diz-nos que
X X
det(AT ) = sgn(σ)aT1σ(1) · · · aTnσ(n) = sgn(σ)aσ(1)1 · · · aσ(n)n
σ∈Σn σ∈Σn
Observação 10.11. É instrutivo pensar em escrever explicitamente a igualdade indicada
na Proposição 10.8(ii) em termos das entradas das matrizes envolvidas. Mesmo para ma-
trizes 3 × 3 a complexidade é enorme! É fácil no entanto convencer-se que, pelo menos a
menos de sinal, a igualdade se deve verificar:
Atendendo à Proposição 10.8(iii), | det A| é o volume do paralelı́pipedo que tem por
arestas as colunas da matriz A, paralelipı́pedo este que é a imagem do cubo com arestas
unitárias em Rn pela transformação linear x 7→ Ax . Segue-se que a imagem de um cubo
qualquer em Rn por esta transformação tem volume igual a | det(A)| vezes o volume do
cubo original. Verão em Cálculo 2 que o volume de um subconjunto (razoável) de Rn se
define aproximando esse conjunto por cubos muito pequenos e passando ao limite. Segue-se
então que | det A| é o fator pelo qual a transformação linear x 7→ Ax multiplica volumes.
Uma vez que AB é a matriz que representa a composta das transformações lineares repre-
sentadas por A e B, segue-se que o fator pela qual AB multiplica volumes é | det(A)|| det(B)|.
Exemplo 10.12. Vamos calcular o determinante
2 0 3 0
0 0 1 0
1 4 5 7
1 8 9 3
usando a expansão de Laplace. Uma vez que a segunda linha tem 3 zeros, é mais eficiente
fazer a expansão ao longo dessa linha. Obtemos
0 3 0 2 3 0 2 0 0 2 0 3
2+1
2+2
2+3
0·(−1) 4 5 7 +0·(−1) 1 5 7 +1·(−1) 1 4 7
+0·(−1)2+4 1 4 5
8 9 3 1 9 3 1 8 3 1 8 9
e fazendo agora a expansão de Laplace do único termo não nulo ao longo da primeira linha
obtém-se
2 0 0
1+1 4 7
− 1 4 7 = −2 · (−1)
= −2(4 · 3 − 7 · 8) = 88.
8 3
1 8 3
A fórmula para a inversa de uma matriz em termos do determinante conduz à seguinte
fórmula explı́cita para a solução de um sistema linear quando a matriz dos coeficiente do
sistema é invertı́vel.
Proposição 10.13 (Regra de Cramer). Seja A uma matriz n×n invertı́vel e b uma matriz
n × 1. Então a componente xi da solução do sistema linear
Ax = b
é dada pela fórmula
det Ai
xi =
det A
onde Ai é a matriz que se obtém de A substituindo a coluna i de A por b.
APONTAMENTOS DE ÁLGEBRA LINEAR 75
Claro que os números λi na expressão (33) são as raı́zes do polinómio p(x). O expoente
ni diz-se a multiplicidade da raı́z λi .
Observação 11.3. O Teorema Fundamental da Álgebra é análogo ao Teorema Funda-
mental da Aritmética que diz que qualquer número natural se pode escrever de forma única
como um produto de potências de números primos a menos de troca de fatores.
Definição 11.4. Sendo λ um valor próprio de uma matriz quadrada A, chama-se
• Espaço próprio de λ ao subespaço N (A − λIn ) de Rn .
• Multiplicidade geométrica de λ, mg (λ) à dimensão do espaço próprio de λ.
• Multiplicidade algébrica de λ, ma (λ) à multiplicidade de λ como raı́z do polinómio
caracterı́stico de A.
Os elementos do espaço próprio de λ são os vetores próprios de λ juntamente com
0, pelo que a multiplicidade geométrica é o número máximo de vetores próprios de λ
linearmente independentes. Veremos em breve que mg (λ) ≤ ma (λ). Note-se que a soma
das multiplicidades algébricas de todos os valores próprios é igual a n (que é o grau do
polinómio caracterı́stico), portanto uma matriz é diagonalizável se e só se as multiplicidades
algébrica e geométrica coincidem para todos os valores próprios.
Exemplo 11.5. Consideremos a matriz
3 0 0
A= 0 1 1
0 −1 1
O seu polinómio caracterı́stico é
3−λ 0 0
p(λ) = 0
1−λ 1 = (3 − λ)((1 − λ)2 + 1) = (3 − λ)(λ − (1 + i))(λ − (1 − i))
0 −1 1 − λ
Os valores próprios de A são portanto 3, 1 + i, 1 − i que têm todos multiplicidade algébrica
1. Note-se que as raı́zes complexas formam um par de complexos conjugados. Isto não é
uma coincidência. Se
p(x) = a0 + a1 x + . . . + an xn
é um polinómio real, uma vez que a conjugação preserva a soma e produto de números
complexos (ou seja, z + w = z + w e zw = zw) temos para λ ∈ C,
n
p(λ) = a0 + a1 λ + an λ = a0 + a1 λ + . . . + an (λn ) = p(λ)
onde usámos que ai = ai porque os ai ∈ R. Assim, se λ é uma raı́z complexa de p, o mesmo
sucede com λ. Adicionalmente, é um exercı́cio simples verificar que as multiplicidades das
raı́zes λ e λ são iguais.
Achemos os espaços próprios de A. O espaço próprio de 3 é N (A−3I3 ) que é claramente
igual a {(x, 0, 0) : x ∈ R}. Os vetores próprios de 3 são portanto os vetores não nulos que
pertencem ao eixo dos xx.
APONTAMENTOS DE ÁLGEBRA LINEAR 79
O espaço próprio de 1 + i é
2−i 0 0
N 0 −i 1
0 −1 −i
cujos elementos são as soluções do sistema
(2 − i)x = 0
(
x=0
−iy + z = 0 ⇔
−y − iz = 0 z = iy
Mas isto é uma contradição porque claramente (λ − µ)k+1 divide o polinómio caracterı́stico
de AT,B,B (que é igual a det(D − λIk+1 ) det(H − λIn−k−1 ) = (µ − λ)k+1 det(H − λIn−k−1 ))
mas, por hipótese, não divide o polinómio caracterı́stico de A.
α1 v1 + . . . + αk vk = 0
Temos a ver que os αi ’s são todos nulos. Uma vez que, por hipótese, T vi = λi vi temos
(
0 se i ≥ 2
(T −λ2 Id)◦· · ·◦(T −λk Id)vi = (λi −λ2 ) · · · (λi −λk )vi =
(λ1 − λ2 ) · · · (λ1 − λk )v1 se i = 1
Portanto
Donde se conclui que α1 = 0. Procedendo de forma análoga vemos que todos os coeficientes
são nulos e portanto que {v1 , . . . , vk } é um conjunto linearmente independente.
É natural perguntar como descrever uma transformação linear que não pode ser diago-
nalizada, isto é, tal que algum dos valores próprios tem multiplicidade geométrica inferior à
multiplicidade algébrica. A resposta é que uma tal matriz pode ser “quase diagonalizada”
no seguinte sentido.
APONTAMENTOS DE ÁLGEBRA LINEAR 81
0 0 ··· Jk
com Ji blocos de Jordan.
Exemplo 11.10. A matriz
2 1 0 0 0 0 0 0
0 2 0 0 0 0 0 0
0 0 3 0 0 0 0 0
0 0 0 3 1 0 0 0
0 0 0 0 3 1 0 0
0 0 0 0 0 3 0 0
0 0 0 0 0 0 i 1
0 0 0 0 0 0 0 i
está em forma canónica de Jordan. Tem 4 blocos de Jordan; um associado ao valor próprio
2 de tamanho 2, dois associados ao valor próprio 3 com tamanhos 1 e 3 respetivamente, e
um último associado ao valor próprio i com tamanho 2.
Teorema 11.11. Se A é uma matriz n × n complexa, existe uma matriz invertı́vel S e
uma matriz J em forma canónica de Jordan tal que
A = SJS −1 .
Observação 11.12. Sendo Ji blocos de tamanho ni com entrada diagonal λi temos
det(A − λI) = det(J − λI) = (λ − λ1 )n1 · · · (λ − λk )nk
Logo os escalares que aparecem na diagonal da matriz J são os valores próprios, repetidos
de acordo com a sua multiplicidade algébrica. A soma dos tamanhos dos blocos com entrada
diagonal µ é a multiplicidade algébrica do valor próprio µ.
As colunas da matriz S formam uma base para Cn . Vamos analisar o comportamento
da transformação linear representada pela matriz A nesta base. Esta análise levar-nos-á a
82 APONTAMENTOS DE ÁLGEBRA LINEAR
compreender como achar a forma canónica de Jordan de uma matriz A dada, assim como
a matriz mudança de coordenadas S que a pôe em forma canónica de Jordan.
Sejam
v1 , v2 , . . . , vm ∈ Cn
as colunas da matriz S que correspondem ao bloco de Jordan Ji e λi o valor que assumem
as entradas diagonais de Ji . Uma vez que a coluna j de um produto de matrizes CD se
obtém multiplicando a matriz C pela coluna j de D, a equação
AS = SJ
diz-nos que
Av1 = λi v1 , Av2 = λi v2 + v1 , Av3 = λi v3 + v2 , ··· Avm = λi vm + vm−1
Portanto
• Os vetores que aparecem nas colunas de S correspondentes à primeira coluna de
um bloco de Jordan Ji com λi na diagonal são vetores próprios de λi . Vamos dizer
”primeiras colunas” para nos referir a estes vetores.
• Escrevendo um vetor v ∈ Cn na base das colunas de S vê-se imediatamente que
v é um vetor próprio de A com valor próprio λ sse v é uma combinação linear de
primeiras colunas correspondentes a blocos com λ na diagonal. Em particular, o
número de blocos de Jordan com λ na diagonal é o número máximo de vetores
próprios linearmente independentes de λ. Mais precisamente, o número de blocos
de Jordan com λ na diagonal é a dimensão do espaço próprio de λ, ou seja, a
multiplicidade geométrica de λ.
• Os vetores v1 , . . . , vm satisfazem as equações
(35) (A − λi I)v2 = v1 , (A − λi I)v3 = v2 , ..., (A − λi I)vm = vm−1
Diz-se que os vectores v1 , . . . , vm formam uma cadeia de Jordan. Uma vez que
(A − λi I)v1 = 0 isto implica a relação
(A − λi I)j vj = 0 para todo o j
Diz-se que os vectores vj são vectores próprios generalizados do valor próprio λi . O
espaço próprio generalizado de λ é por definição o conjunto
{v ∈ Cn : (A − λI)k v = 0 para algum k}
O Teorema 11.11 diz que é sempre possı́vel obter uma base para Cn formada por
vectores próprios generalizados de A.
Exemplo 11.13. No Exemplo 11.10, as multiplicidades algébricas de 2, 3 e i são 2, 4 e 2
respetivamente, e as multiplicidades geométricas são 1, 2 e 1 respetivamente.
As observações anteriores podem ser usadas para determinar uma forma canónica de
Jordan J e a correspondente matriz de mudança de base simultaneamente: começamos
por calcular os valores próprios de A e uma base para o espaço próprio de cada valor
próprio. Isso dá-nos o número de blocos de Jordan para cada um dos valores próprios
de A. Se a multiplicidade algébrica de λ for superior à multiplicidade geométrica haverá
APONTAMENTOS DE ÁLGEBRA LINEAR 83
pelo menos um bloco de Jordan para λ com tamanho maior do que 1. Para determinar o
tamanho de cada bloco e, simultaneamente, as colunas de S que lhe correspondem tentamos
resolver as equações (35) recursivamente começando com um vector próprio v1 .
Exemplo 11.14. Vamos determinar a forma canónica de Jordan para a matriz
2 1 0
A = 1 2 −1
1 1 1
O polinómio caracterı́stico é
det(A − λI) = (2 − λ)2 (1 − λ)
logo os valores próprios são 2, com multiplicidade algébrica 2 e 1, com multiplicidade
algébrica 1. Um vector próprio para 1 é (1, −1, 0). Os vectores próprios de 2 são as
soluções da equação
0 1 0 a b=0
1 0 −1 b = 0 ⇔ b=0
a−c=0 ⇔
a=c
1 1 −1 c a+b−c=0
A matriz de mudança da base S tem (1, −1, 0) na primeira coluna e (1, 0, 1) na segunda.
Para achar a terceira coluna resolvemos a equação (35):
1 0 1 0 a 1
b=1
(A − 2I)v2 = 0 ⇔ 1 0 −1
b = 0 ⇔
a=c
1 1 1 −1 c 1
Uma solução da equação anterior é, por exemplo, v2 = (0, 1, 0) logo podemos tomar para
matriz mudança de base
1 1 0
S = −1 0 1
0 1 0
11.15. O algoritmo PageRank. Consideremos uma internet com apenas três páginas
ligadas de acordo com o diagrama
84 APONTAMENTOS DE ÁLGEBRA LINEAR
1 2
Supondo que n1 , n2 e n3 é o número de pessoas em cada página num dado instante e que
cada pessoa clica num link ao acaso em cada página, o número de pessoas que esperarı́amos
estivesse numa página no instante seguinte seria
0 41 32 n1
1 1 0 n2
4
0 12 31 n3
A entrada ij da matriz é a probabilidade de uma internauta que está na página j carregar
numa ligação que a leva à página i, e é portanto igual a `(j,i)
`(j)
onde `(j, i) é o número de
ligações que une a página j à página i e `(j) é o número de total de ligações de j para
outras páginas.7
Note-se que a soma das entradas em cada coluna da matriz é 1 (é a soma das proba-
bilidades de ir parar a cada destino possı́vel partindo da página correspondente à coluna).
Uma tal matriz chama-se uma matriz de Markov. Estas matrizes são usadas para modelar
sistemas nos quais há vários estados (em número igual à dimensão da matriz) e há certas
probabilidades conhecidas de ocorrer uma transição entre os estados com a passagem do
tempo.
Quando é que o número de internautas em cada página permanece constante ao longo
do tempo? Quando o vetor (n1 , n2 , n3 ) é um vetor próprio da matriz
0 41 23
(36) 1 1 0
4
0 21 13
com valor próprio 1. Um tal vetor próprio existe necessariamente porque a soma por linhas
da matriz transposta é 1, o que significa exatamente que (1, 1, 1) é um vetor próprio da
matriz transposta com valor próprio 1. Como o polinómio caracterı́stico de AT é igual ao
de A (porque det(A) = det(AT )) a matriz (36) tem também 1 como valor próprio.
Pode mostrar-se que existe necessariamente um vetor próprio de 1 com componentes
todas não negativas, e (com bastante generalidade) que se normalizarmos os vetores que
indicam o estado das páginas de modo a que a soma das entradas seja 1 (isto corresponde
a considerar a percentagem dos internautas em cada página em vez do número absoluto)
7Se uma página não tem ligações para outras assume-se que tem uma ligação para cada página.
APONTAMENTOS DE ÁLGEBRA LINEAR 85
e
h(x1 , x2 , x3 ), (y1 , y2 , y3 )i = x1 y1 + x2 y2 + x3 y3 para (x1 , x2 , x3 ), (y1 , y2 , y3 ) ∈ R3
respetivamente. Em ambos os casos, o significado geométrico, do produto interno hv, wi é
kvkkwk cos α em que kxk designa o comprimento do vetor x e α é o ângulo entre v e w.
Em qualquer espaço vetorial é possı́vel definir uma estrutura desta natureza que é com-
pletamente caracterizada por alguns axiomas simples.
Definição 12.1. Seja V um espaço vetorial real. Um produto interno em V é uma função
h·, ·i : V × V → R
satisfazendo
(1) Bilinearidade: Para todos os α1 , α2 ∈ R e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi > 0 para todo o v 6= 0.
Observação 12.2. Tendo em conta a simetria de um produto interno, para verificar a
bilinearidade basta verificar a primeira (ou a segunda) das igualdades que caracterizam a
bilinearidade.
Exemplo 12.3. O produto interno usual (ou standard) em Rn é definido por
h(x1 , . . . , xn ), (y1 , . . . , yn )i = x1 y1 + x2 y2 + . . . + xn yn
É imediato verificar que as propriedades (1)-(3) na Definição 12.1 são verificadas. Este
produto interno generaliza o produto interno já conhecido nos casos em que n = 2 e 3.
Exemplo 12.4. Seja [a, b] um intervalo de R e V = C([a, b], R) o espaço vetorial das
funções contı́nuas de R para R (que é um subespaço vetorial do espaço vetorial de todas as
funções de R para R). Define-se h·, ·i : V × V → R pela expressão
ˆ b
hf, gi = f (x)g(x)dx
a
A expressão anterior faz sentido porque o produto de funções contı́nuas é contı́nua e uma
função contı́nua é integrável num intervalo compacto. Verifiquemos as propriedades (1)-(3)
da Definição 12.1:
´b ´b ´b
(1) hα1 f1 +α2 f2 , gi = a (α1 f1 (x)+α2 f2 (x))g(x)dx = α1 a f1 (x)g(x)dx+α2 a f2 (x)g(x)dx =
α1 hf1 , gi + α2 hf2 , gi
(2) É imediato uma vez que f (x)g(x) = g(x)f (x).
´b
(3) hf, f i = a f 2 (x)dx ≥ 0 por monotonia do integral. Se f (x) 6= 0 então existe
x0 ∈ [a, b] tal que f (x0 ) 6= 0. Como f é contı́nua isso significa que existe > 0 e
um intervalo J contendo x0 com interior não vazio tal que f (x)2 ≥ quando x ∈ J.
´b ´ ´
Mas então a f (x)2 dx ≥ J f (x)2 dx ≥ J dx > 0.
APONTAMENTOS DE ÁLGEBRA LINEAR 87
Observação 12.5. Se pensarmos numa função f como um “vetor indexado pelos números
reais” cuja componente x é o número f (x), e no integral como uma “soma em x” o segundo
exemplo acima é uma generalização natural do primeiro.
Existe também uma versão do conceito de produto interno para um espaço vetorial
complexo, que se chama um produto interno Hermiteano, ou simplesmente um produto
interno. O modelo será Cn , mas agora não podemos usar a fórmula que nos dá o produto
interno real porque perderı́amos a positividade (que é a chave para definir o comprimento
de vetores). A solução é conjugar um dos argumentos coordenada a coordenada, uma vez
que zz = |z|2 ≥ 0. No entanto, isso afeta necessariamente os outros dois axiomas da forma
seguinte.
Definição 12.6. Seja V um espaço vetorial complexo. Um produto interno em V é uma
função
h·, ·i : V × V → C
satisfazendo
(1) Sesquilinearidade: Para todos os α1 , α2 ∈ C e v1 , v2 , w ∈ V .
• hα1 v1 + α2 v2 , wi = α1 hv1 , wi + α2 hv2 , wi
• hw, α1 v1 + α2 v2 i = α1 hw, v1 i + α2 hw, v2 i
(2) Simetria conjugada: hv, wi = hw, vi para todos os v, w ∈ V .
(3) Positividade: hv, vi é real e positivo para todo o v 6= 0.
Observação 12.7. Tendo em conta a simetria conjugada de um produto interno, para
verificar a sesquilinearidade basta verificar a primeira (ou a segunda) das igualdades que
caracterizam a sesquilinearidade.
Exemplo 12.8. O produto interno standard em Cn é a função h·, ·i : Cn ×Cn → C definida
pela expressão
h(z1 , . . . , zn ), (w1 , . . . , wn )i = z1 w1 + z2 w2 + . . . + zn wn
É imediato verificar as condições (1)-(3) da Definição 12.6. Por exemplo,
h(z1 , . . . , zn ), (z1 , . . . , zn )i = |z1 |2 + . . . + |zn |2 ≥ 0
e só se anula se z1 = · · · = zn = 0.
Um produto interno num espaço vetorial real ou complexo permite-nos introduzir noções
de comprimento e distância no espaço em questão.
Definição 12.9. Seja V um espaço vetorial e h·, ·i um produto interno em
p V . A norma
ou comprimento de um vetor v ∈ V é o número real não negativo kvk = hv, vi. Sendo
v, w ∈ V , a distância de v a w é o número real não negativo kv − wk.
Note-se que as noções de norma e comprimento para o produto interno usual em R2 ou
R3 são as habituais: p
k(x, y, z)k = x2 + y 2 + z 2
88 APONTAMENTOS DE ÁLGEBRA LINEAR
12.16. Projeção ortogonal de um vetor sobre um vetor não nulo. Seja V um espaço
vetorial com produto interno, v ∈ V e u ∈ V \ {0} um vetor não nulo. Define-se a projeção
ortogonal de v sobre u (com respeito ao produto interno dado) por
u hu, vi u u
(39) proju (v) = hu, vi 2
= u=h , vi
kuk hu, ui kuk kuk
As expressões acima são todas iguais pela definição de norma e pela linearidade na primeira
1
variável (no caso complexo note-se que o escalar kuk é real e portanto igual ao seu conju-
gado).
Quando V = R2 ou R3 com o produto interno usual, a definição anterior coincide com a
u
noção de projeção ortogonal já estudada no ensino secundário. De facto o vetor kuk é um
versor da direção determinada por u (isto é, tem a mesma direção e sentido e comprimento
1). O escalar que multiplica este versor é
u
u
h
kuk
kvk cos α = 1 · kvk cos α = kvk cos α
, vi =
kuk
com α o ângulo entre u e v, pelo que a expressão 39 é, neste caso, a expressão familiar do
ensino secundário.
Exemplo 12.17. A projeção ortogonal de (1, −1, 2) sobre o vetor (0, 1, 1) com respeito ao
produto interno usual em R3 é
h(1, −1, 2), (0, 1, 1)i
(0, 1, 1) = 21 (0, 1, 1) = 0, 12 , 12
h(0, 1, 1), (0, 1, 1)i
Note-se que proju (v) é colinear com u e que a projeção permite escrever um vetor qual-
quer v como a soma de um vetor colinear com u e outro ortogonal a u:
v = (v − proju (v)) + proju (v)
sendo que
hu, vi hu, vi
hu, v − proju (v)i = hu, v − ui = hu, vi − hu, ui = 0
hu, ui hu, ui
Na realidade é fácil verificar que a função P : V → V definida por P (v) = proju (v) é uma
projeção (com imagem a reta gerada por u), isto é, que P 2 = P o mesmo acontecendo
portanto com Id −P que calcula a componente de v ortogonal a u (ver o Exercı́cio 9 da
Ficha 11).
Da consideração da componente ortogonal a um vetor u, vêm duas desigualdades fun-
damentais.
Proposição 12.18. Seja V um espaço vetorial com produto interno h·, ·i, e u, v ∈ V .
Então
(i) Desigualdade de Cauchy-Schwarz: |hu, vi| ≤ kukkvk
(ii) Desigualdade triangular: ku + vk ≤ kuk + kvk
A igualdade verifica-se na primeira desigualdade se e só se u e v são colineares.
92 APONTAMENTOS DE ÁLGEBRA LINEAR
Dem. (i) Podemos assumir sem perda de generalidade que u 6= 0 (pois nesse caso 0 =
|hu, vi| = kukkvk e u, v são colineares). Nesse caso temos, pela positividade do
produto interno
hu, vi hu, vi
0 ≤ kv − proju (v)k2 = hv − u, v − ui
hu, ui hu, ui
hu, vi hu, vi hu, vi hu, vi
= hv, vi − hu, vi − hv, ui + hu, ui
hu, ui hu, ui hu, ui hu, ui
|hu, vi|2
= kvk2 −
kuk2
e esta desigualdade é equivalente a
|hu, vi|2 ≤ kuk2 kvk2
que, tomando raı́zes quadradas, é a desigualdade de Cauchy-Schwarz. A igualdade
verifica-se apenas quando v − proju (v) = 0 e nesse caso v é um múltiplo escalar de u.
(ii) Temos
(40) ku + vk2 = hu + v, u + vi = hu, ui + hu, vi + hv, ui + hv, vi
Uma vez que z + z = 2 Re(z) ≤ 2|z| temos
hu, vi + hv, ui = 2 Re(hu, vi) ≤ 2|hu, vi| ≤ 2kukkvk
onde na segunda desigualdade aplicámos a desigualdade de Cauchy-Schwarz. Substi-
tuindo em (40) obtemos
ku + vk2 ≤ kuk2 + 2kukkvk + kvk2 = (kuk + kvk)2
que é equivalente à desigualdade triangular.
Observação 12.19. (i) A desigualdade triangular chama-se assim porque v, w, v + w
formam as arestas de um triângulo em V e a desigualdade diz precisamente que o
comprimento de um dos lados de um triângulo é sempre menor ou igual à soma do
comprimento dos dois outros lados.
(ii) Quando u, v são ortogonais, a expressão (40) é o Teorema de Pitágoras: ku + vk2 =
kuk2 + kvk2 .
Definição 12.20. Seja V um espaço vetorial real e v, w ∈ V vetores não nulos. Define-se
o ângulo entre v e w como o único α ∈ [0, π] tal que
hv, wi
cos α =
kvkkwk
(Isto faz sentido porque, pela desigualdade de Cauchy-Schwarz a expressão do lado direito
do sinal de igual pertence ao intervalo [−1, 1].)
APONTAMENTOS DE ÁLGEBRA LINEAR 93
A projeção segundo um vetor dá-nos uma maneira simples de obter um conjunto ortog-
onal com a mesma expansão linear a partir de um conjunto linearmente independente e,
em particular, de obter uma base ortogonal a partir de uma base.
Proposição 12.22 (Método de ortogonalização de Gram-Schmidt). Seja V um
espaço vetorial com produto interno e {v1 , . . . , vk } ⊂ V um conjunto linearmente indepen-
dente. Então os vetores definidos indutivamente pelas fórmulas
w1 = v1
w2 = v2 − projw1 (v2 )
w3 = v3 − projw1 (v3 ) − projw2 (v3 )
.. ..
. .
wk = vk − projw1 (vk ) − . . . − projwk−1 (vk )
formam um conjunto ortogonal {w1 , . . . , wk } tal que, para cada i = 1, . . . , k, temos
L({v1 , . . . , vi }) = L({w1 , . . . , wi })
Antes de vermos a demonstração vamos fazer algumas observações.
Definição 12.23. Seja V um espaço vetorial com um produto interno e S ⊂ V um sub-
conjunto. Define-se
S ⊥ = {v ∈ V : hv, xi = 0 para todo o x ∈ S}
É imediato verificar que S ⊥ é um subespaço vetorial de V : claramente 0 ∈ S ⊥ e se
v1 , v2 ∈ S ⊥ e α1 , α2 ∈ R temos hα1 v1 + α2 v2 , xi = α1 hv1 , xi + α2 hv2 , xi = 0 para todo o
x ∈ S, pelo que α1 v1 + α2 v2 ∈ S ⊥ .
Proposição 12.24. S ⊥ = L(S)⊥
Dem. Uma vez que S ⊂ L(S), é evidente que L(S)⊥ ⊂ S ⊥ (se um vetor é ortogonal a
todos os elementos de L(S), certamente é também ortogonal a todos os vetores de S).
Reciprocamente, se v ∈ L(S), existem vetores v1 , . . . , vk em S e escalares α1 , . . . , αk tais
que v = α1 v1 + . . . + αk vk . Dado w ∈ S ⊥ , temos
hw, vi = hw, α1 v1 + . . . + αk vk i = α1 hw, v1 i + . . . + αk hw, vk i = 0
Logo w ∈ L(S)⊥ . Isso mostra que S ⊥ ⊂ L(S)⊥ e conclui a demonstração.
Exemplo 12.25. (i) Se A ∈ Mm×n (R) então N (A) = EL(A)⊥ ⊂ Rn (onde o produto
interno considerado é o usual). De facto, pela definição do produto de matrizes,
x ∈ Rn está no núcleo de A sse é ortogonal às linhas de A para o produto interno
usual em Rn , e pela Proposição anterior isto é o mesmo que ser ortogonal ao espaço
das linhas.
94 APONTAMENTOS DE ÁLGEBRA LINEAR
Na expressão anterior não foi necessário dividir por hw1 , w1 i porque kw1 k = 1. Dividindo
pela norma obtemos o segundo vetor da base ortonormada
1
q
w̃2 = (− , 1, 0, − 2 ) = 23 (− 12 , 1, 0, − 12 )
1 1
kw2 k 2
O vetor v3 = (0, 0, 1, 0) já é ortogonal a w1 e w̃2 e tem norma 1, pelo que podemos tomar
para base ortonormada de V o conjunto
q
{( √2 , 0, 0, − √2 ), (− √6 , 23 , 0, − √16 ), (0, 0, 1, 0)}
1 1 1
As bases ortogonais são extremamente úteis porque tornam os cálculos muito mais fáceis.
Começamos por observar que um conjunto ortogonal sem vetores nulos é necessariamente
linearmente independente
Proposição 12.27. Seja V um espaço vetorial com produto interno e S ⊂ V \ {0} um
conjunto ortogonal de vetores não nulos. Então S é linearmente independente.
Dem. Sejam v1 , . . . , vk elementos de S e suponhamos que
(41) α1 v1 + . . . + αk vk = 0
Queremos ver que os coeficientes αi são todos nulos. Como S é ortogonal temos hvi , vj i = 0
para i 6= j. Fazendo o produto interno da equação com vi obtemos
hvi , α1 v1 + . . . + αk vk i = hvi , 0i = 0
Do lado esquerdo temos
α1 hvi , v1 i + . . . + αi hvi , vi i + . . . + αk hvi , vk i = α1 · 0 + . . . + αi kvi k2 + . . . + αk · 0
Portanto αi kvi k2 = 0. Como vi 6= 0, conclui-se que αi = 0.
O resultado seguinte, embora muito simples, é uma das principais razões para a utilização
de bases ortogonais ou ortonormais. Juntamente com as noções de valor e vetor próprio
será um dos resultados de Álgebra Linear que mais vezes será utilizado em cadeiras de
engenharia. Diz essencialmente que é muito fácil calcular as coordenadas de um vetor
numa base ortogonal. Não é necessário resolver um sistema linear, basta fazer uma conta
muito simples.
96 APONTAMENTOS DE ÁLGEBRA LINEAR
Proposição 12.28. Seja B = (v1 , . . . , vn ) uma base ortogonal para o espaço com produto
interno V . Então dado v ∈ V as coordenadas de v na base B são dadas pela expressão
hv1 ,vi
hv1 ,v1 i
[v]B =
..
.
hvn ,vi
hvn ,vn i
O ponto v = ( 67 , 13
6
, − 32 ) de interseção desta reta com H é o ponto de H mais próximo
de (1, 2, −1). De facto se w ∈ H for outro ponto, temos como antes, pelo Teorema de
Pitágoras, que
kw − (1, 2, −1)k2 = kw − vk2 + kv − (1, 2, −1)k2 ≥ kv − (1, 2, −1)k2
uma vez que v − (1, 2, −1) (que tem a direção de (1, 1, 2)) e w − v (que pertence ao plano
paralelo a H que passa pela origem) são perpendiculares.
Conclui-se que a distância de (1, 2, −1) a H é k 61 (1, 1, 2)k = √16 .
12.33. O método dos mı́nimos quadrados. 8 Seja A uma matriz m × n. Mesmo que o
sistema linear Ax = b seja impossı́vel, podemos tentar encontrar o valor de x que está mais
próximo de constituir uma solução no sentido em que a distância de Ax a b é minimizada.
O conjunto {Ax : x ∈ Rn } é um subespaço de Rm , nomeadamente o espaço das colunas
de A, EC(A). Como vimos acima, Ax estará o mais próximo possı́vel de um ponto b ∈ Rm
quando
Ax − b ∈ EC(A)⊥
mas, uma vez que EC(A) = EL(AT ), pelo Exemplo 12.25(i) temos
EC(A)⊥ = EL(AT )⊥ = N (AT )
Assim, Ax será o ponto mais próximo de b quando se verifica a equação dos mı́nimos
quadrados para x
(43) AT (Ax − b) = 0 ⇔ AT Ax = AT b
Note-se que a solução pode não ser única (se N (A) 6= 0) mas o sistema acima tem sempre
solução, que minimiza a distância a b, uma vez que o sistema traduz exatamente a condição
de Ax ser o ponto de EC(A) mais próximo de b, e este ponto existe sempre).
Este método é extremamente útil na prática. Frequentemente temos dados experimentais
que queremos ajustar a uma lei conhecida, que depende de parâmetros. Os inevitáveis erros
experimentais terão como consequência que nenhuma escolha dos parâmetros se adequará
às medições, mas este método permite achar quais os valores dos parâmetros que melhor
se adequam às medições efetuadas.
Exemplo 12.34. Vamos determinar a reta y = ax + b que melhor aproxima os três pontos
(não colineares) (0, −2), (1, 3), (4, 5) ∈ R2 . Se existisse uma reta que passasse pelos três
pontos, os coeficientes a, b seriam soluções do sistema
a · 0 + b = −2
0 1 −2
a
a·1+b=3 ⇔ 1 1 = 3
b
4 1 5
a · 4 + b = 5
Este sistema não tem solução mas o método dos mı́nimos quadrados dá-nos os coeficientes
a, b tais que a soma
(a · 0 + b − (−2))2 + (a · 1 + b − 3)2 + (a · 4 + b − 5)2
8Esta discussão é adaptada do tratamento deste método em [D].
APONTAMENTOS DE ÁLGEBRA LINEAR 99
é mı́nima (é isto que dá o nome ao método). Temos que achar a solução do sistema
0 1 −2
0 1 4 a 0 1 4 17 5 a 23
1 1 = 3 ⇔ =
1 1 1 b 1 1 1 5 3 b 6
4 1 5
que é
39
a 1 3 −5 23 26
= =
b26 −5 17 6 − 12
pelo que a reta que melhor aproxima os pontos dados (no sentido dos mı́nimos quadrados)
é
y = 39
26
x − 12
Observação 12.35. Pouco após a sua descoberta, em 1801, Ceres ficou tapado pelo Sol.
Foi para prever (com sucesso) o sı́tio onde Ceres iria aparecer depois de passar por detrás
do Sol, com base nas poucas observações que se tinham conseguido anteriormente, que
Gauss inventou o método dos mı́nimos quadrados.
12.36. Transformações unitárias e (anti)-hermitianas. Para terminar vamos falar
um pouco das transformações lineares de um espaço vetorial munido de um produto interno
nele próprio. Começamos por aquelas que preservam o produto interno e portanto ângulos
e distâncias.
Definição 12.37. Seja V um espaço vetorial com produto interno h·, ·i. Uma trans-
formação linear T : V → V tal que
hT (v), T (w)i = hv, wi para todos os v, w ∈ V
diz-se ortogonal quando V é um espaço vetorial real e unitária quando V é um espaço
vetorial complexo.
Exemplo 12.38. Consideremos Rn com o seu produto interno usual e T : Rn → Rn a
transformação linear definida por T (x) = Ax com A uma matriz n × n (onde, como
habitualmente, estamos a identificar Rn com as matrizes coluna n × 1). O produto interno
de dois vetores x e y de Rn pode escrever-se matricialmente na forma xT y. Portanto T é
ortogonal se e só se
(44) (Ax)T (Ay) = xT y ⇔ xT AT Ay = xT y para todos os x, y ∈ Rn
Isto acontece se e só se
(45) AT A = In
De facto, é claro que se A satisfaz a condição (45) então satisfaz (44). Reciprocamente se
(44) é satisfeita então tomando para x e y o i-ésimo e j-ésimo vetores da base canónica de
Rn respetivamente, a expressão xT AT Ay calcula a entrada ij da matriz AT A que é portanto
1 quando i = j e 0 caso contrário, ou seja, a matriz identidade.
As matrizes de Mn×n (R) que satisfazem (45) chamam-se matrizes ortogonais. Note-se
que esta equação é também equivalente a dizer que A é invertı́vel com inversa AT .
100 APONTAMENTOS DE ÁLGEBRA LINEAR
Uma vez que as linhas da matriz AT são as colunas de A, a condição (45) diz que uma
matriz é ortogonal sse as suas colunas formam uma base ortonormada para Rn .
Assim, quando multiplicamos a matriz A por um vetor x ∈ Rn , obtemos um vetor que tem
as mesmas coordenadas que x mas numa base ortonormada diferente da canónica. Isto
corresponde a uma rotação e/ou reflexão do espaço. Ver o Exemplo 12.42 abaixo.
Consideremos agora o caso inteiramente análogo em que V = Cn com o produto in-
terno usual, e T x = Ax com x ∈ Cn . Temos agora que o produto interno é definido
matricialmente pela expressão hx, yi = xT y e então T é unitária se
T T
xT A Ay = xT y ⇔ A A = In
As matrizes que satisfazem esta condição dizem-se unitárias. Novamente uma matriz
T
é unitária sse é invertı́vel e a sua inversa é A , sse as suas colunas formam uma base
ortonormada para Cn .
É conveniente simplificar a notação para a matriz transposta conjugada.
T
Definição 12.39. Seja A ∈ Mm×n (C). A matriz transposta conjugada A é denotada por
A∗ , e é por vezes chamada a matriz transconjugada de A. Temos portanto A∗ ∈ Mn×m (C)
com entrada ij dada por aji .
Proposição 12.40. Seja V um espaço vetorial complexo com produto interno h·, ·i e
T : V → V uma transformação unitária. Então
(1) Os valores próprios de T são complexos com módulo 1.
(2) Vetores próprios de T correspondentes a valores próprios distintos são ortogonais.
Dem. Seja v um vetor próprio de T . Sendo T (v) = λv temos
kT (v)k2 = hT (v), T (v)i = hλv, λvi = λλhv, vi = |λ|2 kvk2
Por outro lado, como T é unitária temos hT (v), T (v)i = hv, vi = kvk2 . Portanto kvk2 =
|λ|2 kvk2 , e como v 6= 0, isto significa que |λ| = 1.
Suponhamos agora que T (v) = λv e T (w) = µw com λ, µ distintos. Então
hv, wi = hT v, T wi = hλv, µwi = λµhv, wi
ou seja
(1 − λµ)hv, wi = 0 ⇔ λµ = 1 ou hv, wi = 0
Como λ é um complexo com módulo 1, λ = λ1 logo a primeira condição na disjunção acima
é equivalente a µ = λ. Conclui-se que hv, wi = 0, isto é, que v e w são ortogonais.
Observação 12.41. Se encararmos uma matriz n × n real A como uma matriz complexa,
dizer que A é ortogonal ou unitária é equivalente (uma vez que A = A). Vemos portanto
que os valores próprios de uma matriz ortogonal são complexos unitários e que os seus
vetores próprios são ortogonais em Cn .
Exemplo 12.42. A matriz
cos α − sen α
sen α cos α
APONTAMENTOS DE ÁLGEBRA LINEAR 101
Observação 12.48. Embora não haja nenhum critério útil para ver se uma matriz é diago-
nalizável, há um critério muito simples para ver se uma matriz complexa A é diagonalizável
por uma base ortonormada. Isto acontece sse AA∗ = A∗ A. Ver os exercı́cios da Ficha 13
para uma demonstração.
12.49. Formas quadráticas. Como aplicação do resultado anterior vamos aproveitar para
classificar a menos de mudança de variável linear os polinómios homogéneos de grau 2 de
várias variáveis. Podemos pensar nestes como as funções de várias variáveis mais simples
a seguir às funções lineares.
Definição 12.50. Uma forma quadrática em Rn é uma função f : Rn → R da forma
(47) f (x) = xT Ax
104 APONTAMENTOS DE ÁLGEBRA LINEAR
com A ∈ Mn×n (R) (onde identificamos como habitualmente uma matriz 1 × 1 com um
escalar).
Por exemplo
2 5 x
= 2x2 + 6xy + 4y 2
(48) f (x, y) = x y
1 4 y
é uma forma quadrática em R2 . Note-se que a forma quadrática depende apenas da parte
T
simétrica A+A2
da matriz A. De facto uma vez que a transposição de matrizes 1 × 1 não
tem qualquer efeito temos xT Ax = (xT Ax)T = xT AT x. Substituindo a matriz A em (47)
T
por A+A2
obtemos portanto a mesma expressão. Por outro lado, uma vez que a soma das
entradas ij e ji da matriz A é o coeficiente de xi xj na expressão (47) matrizes simétricas
distintas dão azo a formas quadráticas distintas. Há assim uma correspondência biunı́voca
entre formas quadráticas e matrizes quadradas reais simétricas.
Tendo em conta o Teorema espetral, dada uma matriz simétrica A, existe uma matriz
ortogonal S e uma matriz diagonal (real) D tal que
A = SDS −1
E dado que S é ortogonal, S −1 = S T . Usando coordenadas y na base ortonormada formada
pelas colunas de S a expressão para a forma quadrática simplifica-se muito. Temos x = Sy
e então
(49) f (x) = xT Ax = (y T S T )A(Sy) = (y T S T )SDS T (Sy) = y T Dy = λ1 y12 + . . . + λn yn2
onde λ1 , . . . , λn são as entradas diagonais de D, ou seja, os valores próprios de A. Nas
aplicações (por exemplo para a determinação de extremos de funções de várias variáveis
como verão em Cálculo 2) é importante determinar o “sinal” de uma forma quadrática no
seguinte sentido.
Definição 12.51. Uma forma quadrática f : Rn → R diz-se
(i) definida positiva se f (x) > 0 para x 6= 0.
(ii) semi-definida positiva se f (x) ≥ 0 para todo o x ∈ Rn .
(iii) definida negativa se f (x) < 0 para x 6= 0.
(iv) semi-definida negativa se f (x) ≤ 0 para todo o x ∈ Rn .
(v) indefinida se f (x) assume valores positivos e negativos.
Da discussão anterior obtemos imediatamente o seguinte resultado.
Proposição 12.52. Uma forma quadrática f (x) = xT Ax com A ∈ Mn×n (R) simétrica é
(i) definida positiva sse todos os valores próprios de A são positivos.
(ii) semidefinida positiva sse todos os valores próprios de A são maiores ou iguais a zero.
(iii) definida negativa sse todos os valores próprios de A são negativos.
(iv) semidefinida negativa sse todos os valores próprios de A são menores ou iguais a zero.
(v) indefinida sse A tem valores próprios de sinal contrário.
APONTAMENTOS DE ÁLGEBRA LINEAR 105
Exemplo 12.53. A forma quadrática (48) é indefinida uma vez que a matriz simétrica
que a representa
2 3
3 4
tem determinante negativo e portanto valores próprios de sinais contrários.
Observação 12.54. A expressão (49) mostra também que toda a matriz simétrica com
valores próprios positivos é a matriz da métrica de um produto interno, pois a positividade
do produto interno corresponde precisamente ao facto da forma quadrática determinada
pela matriz ser definida positiva.
e 1 tem multiplicidade geométrica 2. Há portanto dois blocos de Jordan e a forma canónica
de Jordan de A é necessariamente (50).
Não é no entanto possı́vel resolver a equação (35)
(A − I)v2 = v1
quando v1 é um dos vectores 1, 0, ou 0, 1, 21 da base ”natural” do espaço próprio de 1.
1
2
Como observámos acima, para que a equação tenha solução é necessário que v1 pertença ao
espaço das colunas de A − I, que é o espaço gerado por (1, 1, 1). A soma dos dois vectores
da ”base natural” é exactamente (1, 1, 1). Resolvendo a equação
−1 −1 2 a 1
−1 −1 2 b = 1 = 0 ⇔ 2c = a + b + 1
−1 −1 2 c 1
obtemos as soluções
a 0 1 0
b = 0 + a 0 + b 1
1 a b 1 1 1
2
+ 2
+ 2 2 2 2
Dem. do Teorema 11.11. (1) O nosso objectivo é escrever uma base para Cn = V (λ)
formada por cadeias de Jordan (35). Seja l = n(λ). Começamos por escolher uma
base vl,1 , . . . , vl,kl para um espaço U (l) complementar a V (λ, l − 1) em V (λ, l) =
V (λ).
Qualquer combinação linear não nula dos vectores vl,m tem indı́ce l e portanto o
argumento usado na demonstração do Lema A.4 mostra que o conjunto
(51) vl,1 , . . . , vl,kl , (A − λI)vl,1 , . . . , (A − λI)vl,kl , . . . , (A − λI)l−1 vl,1 , . . . , (A − λI)l−1 vl,kl
é linearmente independente e portanto forma uma base para o subespaço
W (l) = U (l) + (A − λI)U (l) + . . . + (A − λI)l−1 U (l) ⊂ V (λ)
Este espaço é invariante para (A − λI) e portanto para A. Na base (51) a trans-
formação linear A é representada por uma matriz diagonal por blocos sendo todos
os blocos, blocos de Jordan de dimensão l. O número de blocos é kl . Os vectores
vl,m são as colunas de S correspondentes às colunas mais à direita destes blocos e
os restantes vectores da base (51) são as restantes colunas de S correspondentes a
estes blocos.
Seja U (l − 1) um complementar para o subespaço V (λ, l − 2) + (A − λI)U (l) ⊂
V (λ, l − 1). Escolhemos uma base vl−1,1 , . . . , vl−1,kl−1 para U (l − 1) (que pode ser
vazia se Ul−1 = 0). Note-se que qualquer combinação linear não nula destes vectores
tem ı́ndice l − 1. O argumento do Lema A.4 mostra novamente que o conjunto
(52) vl−1,1 , . . . , vl−1,kl−1 , . . . , (A − λI)l−2 vl−1,1 , . . . , (A − λI)l−2 vl−1,kl−1
é linearmente independente. Mais geralmente, notando que qualquer combinação
linear de (A − λI)vl,1 , . . . , (A − λI)vl,kl , vl−1,1 , . . . , vl−1,kl−1 tem ı́ndice l − 1, vemos
que a união dos conjuntos (51) e (52) é linearmente independente.
Seja
W (l − 1) = U (l − 1) + (A − λI)U (l − 1) + . . . + (A − λI)l−2 U (l − 1)
Este espaço é invariante para A e na base (52) a transformação linear A é repre-
sentada por uma matriz diagonal por blocos. Todos os blocos são blocos de Jordan
de dimensão l − 1 e há kl−1 blocos.
Escolhemos agora um complementar U (l − 2) para o subespaço V (l − 3) + (A −
λI)2 U (l)+(A−λI)U (l−1). No espaço W (l−2) = U (l−2)+. . .+(A−λI)l−3 U (l−2)
a transformação linear é diagonal por blocos sendo todos estes blocos de Jordan de
dimensão l − 2.
Prosseguindo desta forma obtemos uma decomposição
V (λ) = W (l) ⊕ W (l − 1) ⊕ . . . ⊕ W (1)
e uma base de V (λ) na qual a tranformação linear A é representada por uma matriz
em forma canónica de Jordan.
(2) Sejam λ1 , . . . , λk valores próprios distintos. Para verificar que
V (λ1 ) ∩ (V (λ2 ) ⊕ . . . ⊕ V (λk )) = 0
APONTAMENTOS DE ÁLGEBRA LINEAR 109
Z = ⊕λ∈σ(A) V (λ) 6= Cn
logo
v = (A − λ2 )n(λ2 ) · · · (A − λk )n(λk ) w
é tal que
(A − λI)v ∈ V (λ)
e portanto
v ∈ V (λ) ⊂ Z.
Mas por outro lado
v = (λ − λ2 )n(λ2 ) · · · (λ − λk )n(λk ) w + z 0
Por exemplo, se n = 2, o produto externo de um único vetor v1 ∈ R2 dá o vetor que se obtém
de v1 rodando 90 graus no sentido anti-horário. Em geral, os argumentos acima mostram
que o produto externo é nulo sse os vetores v1 , . . . , vn−1 forem linearmente dependentes e
senão é perpendicular ao plano (n − 1)-dimensional gerado por v1 , . . . , vn−1 . Além disso,
o comprimento do produto externo é o volume (n − 1)-dimensional do paralelipı́pedo com
arestas v1 , . . . , vn−1 e o seu sentido é tal que a orientação do referencial v1 , . . . , vn−1 , v1 ×
· · · × vn−1 coincide com a da base canónica de Rn .
Para terminar mencionamos ainda outra fórmula para o volume k-dimensional de um
paralelipı́pedo de dimensão k em Rn que será útil em Cálculo 2 quando se estudar a
integração em superfı́cies (k-dimensionais) curvas.
Proposição B.5. Sejam v1 , . . . , vk ∈ Rn vetores linearmente independentes. Então o
volume k-dimensional do paralelipı́pedo P com arestas v1 , . . . , vk é
√
Volk (P ) = det AT A
onde A ∈ Mn×k (R) é a matriz que tem v1 , . . . , vk por colunas.
Dem. Sejam wk+1 , . . . , wn uma base ortonormada para o complemento ortogonal do plano
gerado por v1 , . . . , vk . Então o volume do paralelipı́pedo n-dimensional com arestas
v1 , . . . , vk , wk+1 , . . . , wn é igual ao volume k-dimensional que queremos calcular. Sendo
B ∈ Mn×n (R) a matriz que tem por colunas os vetores v1 , . . . , vk , wk+1 , . . . , wn (por ordem)
e escrevendo B por blocos na forma [A | C] com A a matriz formada pelas primeiras k
colunas, temos
T
T A A 0
B B=
0 In−k
(onde C T C = In−k porque os vetores wi constituem uma base ortonormada para o plano
que geram). Portanto
√
(det B)2 = det(AT A) ⇔ det AT A = | det B|
e, uma vez que | det B| é o volume do paralelipı́pedo n-dimensional com arestas
v1 , . . . , vk , wk+1 , . . . , wn , isto conclui a demonstração.
ˆ 2π
hf, gi = f (x)g(x)dx
0
o conjunto
é ortogonal. Fourier descobriu que é possı́vel expressar qualquer função contı́nua como
“combinação linear” destas funções9 - aquilo a que se chama hoje uma série de Fourier.
Intuitivamente isto significa que o conjunto acima forma uma “base ortogonal” para o
espaço das funções contı́nuas em [0, 2π].
A ortogonalidade permite determinar facimente os coeficientes da combinação linear
correspondente a uma função f : o coeficiente segundo sen(nx) da função f é dado pela
expressão
hsen(nx), f (x)i
Psen(nx) (f ) =
k sen(nx)k2
• λ1 , λ2 , λ3 todos diferentes de 0 e com sinais não todos iguais (podemos assumir que
λ1 , λ2 > 0 e λ3 < 0: Os protótipos destas superfı́cies são as definidas pelas equações
x2 + y 2 − z 2 = 1, x2 + y 2 − z 2 = 0, x2 + y 2 − z 2 = −1
p
Para entender a sua forma convém observar que o significado geométrico de x2 + y 2
é (pelo Teorema de Pitágoras) a distância do ponto (x, y, z) aopeixo dos zz. Num
qualquer semiplano limitado pelo eixo dos zz podemos usar r = x2 + y 2 ≥ 0 como
coordenada ao longo do semi-eixo perpendicular a Oz e a equação da interseção da
nossa superfı́cie com esse semiplano é determinada pela equação
r2 − z 2 = 1, r2 − z 2 = 0, r2 − z 2 = −1
ou seja, trata-se de uma hipérbole nos casos em que o termo direito é ±1 e de
um par de semi-retas no caso restante. As superfı́cies que pretendemos descrever
obtêm-se rodando estas curvas em torno do eixo Oz. Denominam-se respetivamente
um hiperbolóide, um cone e um hiperbolóide de duas folhas.
• λ1 = 0 e λ2 , λ3 6= 0 com o mesmo sinal que podemos assumir positivo: Os protótipos
são agora da forma
x2 + y 2 = j 0 , x2 + y 2 − z = j 0
que são respetivamente o vazio, o eixo dos zz ou um cilindro em torno do eixo dos
zz no primeiro caso, ou um parabolóide (uma parábola z = r2 − j 0 rodada em torno
do eixo dos zz).
• λ1 = 0 e λ2 , λ3 6= 0 com sinais diferentes (podemos assumir λ2 > 0, λ3 < 0): Os
protótipos são
x2 − y 2 = j 0 , x2 − y 2 − z = j 0
No primeiro caso trata-se de um cilindro hiperbólico, isto é, de uma hipérbole
transladada ao longo do eixo dos zz (ou no caso degenerado em que j 0 = 0, da
união de dois planos concorrentes no eixo dos zz), enquanto que no segundo a su-
perfı́cie designa-se por uma sela uma vez que tem o aspeto de uma sela de um cavalo
(há uma parábola virada para cima ao longo do eixo dos xx e uma decrescente ao
longo do eixo dos yy).
• λ1 = λ2 = 0 e λ3 > 0. Os protótipos são agoras as equações da forma
z 2 + g 0 x + h0 y = j 0
Se g 0 = h0 = 0 esta equação define o vazio, um plano ou dois planos paralelos
consoante o sinal de j 0 . No caso em que (g 0 , h0 ) 6= 0 define um cilindro parabólico,
isto é a translação de uma parábola, ao longo de um eixo no plano xy perpendicular
ao vetor (g 0 , h0 ).
References
[D] E. Dias, Álgebra Linear, https://www.math.tecnico.ulisboa.pt/~edias/TextosNet/
ALbookfin_Net.pdf
[H] J. Hefferon, Linear Algebra, http://joshua.smcvt.edu/linearalgebra/book.pdf
[HK] K. Hoffman and R. Kunze, Linear Algebra, Prentice-Hall (1961)