Micro Expressão Facial
Micro Expressão Facial
Micro Expressão Facial
Curitiba
2017
Daniel Mauricio Pedernera Parada
Curitiba
2017
FICHA CATALOGRÁFICA ELABORADA PELO SISTEMA DE BIBLIOTECAS/UFPR
BIBLIOTECA DE CIÊNCIA E TECNOLOGIA
CDD: 006.6
Keywords: Coumpound facial expression, FACS, AUs detection, posed domain, spontaneous
domain.
Lista de Figuras
4.1 Porcentagens (sobre 100%) de EFCs geradas nas bases Bosphorus e BP4D . . . . . 46
4.2 Porcentagens de acurácia, sensibilidade, especifidade, valor preditivo, valor preditivo
negativo, e valor de área sob a curva, de reconhecimento automático de EFCs para
base Bosphorus para todas as EFCs. Os valores representados como "SD" aqueles
onde não foi possível realizar o cálculo por falta de dados . . . . . . . . . . . . . . 49
4.3 Porcentagens de acurácia, sensibilidade, especifidade, valor preditivo, valor preditivo
negativo, e valor de área sob a curva, de reconhecimento automático de EFCs para
base BP4D para todas as EFCs. Os valores representados como "SD" aqueles onde
não foi possível realizar o cálculo por falta de dados . . . . . . . . . . . . . . . . . 50
Lista de Acrônimos
1 Introdução 13
1.1 Objetivos e Metas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Fundamentos Teóricos 17
2.1 Sistema de Codificação de Ação Facial - FACS . . . . . . . . . . . . . . . . . . 17
2.2 Expressões Faciais de Emoção . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2.1 Expressões Faciais Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.2 Expressões Faciais Compostas - EFCs . . . . . . . . . . . . . . . . . . . . . . 18
2.3 Padrões Binários Locais de profundidade - LDBP . . . . . . . . . . . . . . . . 19
2.4 Mapas de profundidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Máquinas de suporte vetorial (SVM) binárias . . . . . . . . . . . . . . . . . . . 20
5 Conclusões 54
Referências Bibliográficas 56
13
1 Introdução
Expressões faciais são consideradas a maneira mais indicativa, forte e natural de conhecer
o estado psicológico de uma pessoa durante a comunicação. Isto quer dizer que expressões faciais
jogam um papel principal na comunicação humana, mas também são importantes em áreas como:
psicoterapia, educação, animação gráfica, etc. Por conta disso, abordagens de reconhecimento
de expressões faciais humana estão sendo cada vez mais consideradas em processamento de
imagens e interação humano-computador [11, 5].
Observando a importância que desempenham as expressões faciais na comunicação
de emoções, Ekman e Friesen definem o Sistema de Codificação de Ação Facial (FACS)
[12, 13, 14, 15, 8] que é utilizado para analisar a produção das diferentes categorias de expressões
faciais. O FACS contribui em uma representação clara e compacta da ativação muscular nas
expressões faciais por meio das Unidades de Ação (AUs), que são os movimentos visualmente
menores e discrimináveis dos músculos faciais individuais ou grupais. Resultando estas unidades
em um "alfabeto" muito importante a dominar, sendo este o primeiro passo para utilizar na
comunicação não-verbal [16, 17]. Um exemplo da representação com AUs de movimentos
musculares pode-se observar na Figura 1.2.
Figura 1.2: Exemplo de algumas Unidades de Ação (AUs), anotadas em uma imagem 2D com
um rosto humano [2]
Portanto, por meio da aplicação do FACS, Ekman e Friesen identificam seis expressões
faciais básicas (felicidade, tristeza, surpresa, medo, raiva, nojo). Na literatura pode-se observar
que existe um grande grupo de pesquisas focadas nessas expressões [18, 19, 20]. Por básicas
entende-se que são emoções discretas para eventos da mesma categoria de emoção, mas não
significa que essas categorias sejam menos complexas que outras. Um exemplo da expressão
básica de "felicidade"pode-se notar a esquerda da Figura 1.3.
Além disso, por meio de uma configuração padrão de AUs, são identificadas 17
Expressões Faciais Compostas (EFCs) (felicidade com surpresa, felicidade com nojo, tristeza
com medo, tristeza com raiva, tristeza com surpresa, tristeza com nojo, medo com raiva, medo
com surpresa, medo com nojo, raiva com surpresa, raiva com nojo, nojo com surpresa, horror,
ódio, impressão, felicidade com medo e felicidade com tristeza) [3, 21], assim como as expressões
básicas, que são expressões humanas de emoção, mas representam um conjunto maior de emoções
comuns entre indivíduos humanos. Estas expressões são compostas por expressões básicas. A
direita da Figura 1.3 é possível observar um exemplo da expressão composta "felicidade com
supressa".
Percebe-se na literatura vários trabalhos focados em utilizar apenas imagens 2D
[3, 11, 22, 23], apesar dessas imagens apresentarem limitações devido a variações de pose e
15
Figura 1.3: Exemplos de expressões faciais em 2D: (esq) expressão básica de felicidade, (dir)
expressão composta de felicidade com surpresa [3]
iluminação própria e outras mudanças na aparência facial (como maquiagem, cabelo, ou barba)
[14]. A fim de lidar com esses problemas, imagens 3D e 4D (3D Dinâmico) são cada vez mais
utilizadas em pesquisa e análise de expressões [24]. A face é um objeto 3D, que apresenta
muitos sinais comunicativos que envolvem mudanças na profundidade e na rotação da cabeça,
sendo assim, a inclusão de informação 3D contribui com dados importantes para a solução de
problemas que imagens 2D têm dificuldade para resolver [21].
Da mesma forma, observou-se que expressões faciais podem ser espontâneas ou forçadas.
Claramente no dia-a-dia, é mais comum que as pessoas apresentem expressões espontâneas ao
invés de expressões forçadas, pois uma expressão forçada pode não transmitir a verdadeira emoção.
Segundo Zhang et al. [6] expressões forçadas e espontâneas diferem em várias dimensões,
incluindo a complexidade, tempo e intensidade. Du et al. [21] afirmam que os sistemas neurais
envolvidos na produção de expressões forçadas, e espontâneas são diferentes, mas as AUs da
configuração padrão de EFCs são as mesmas.
Assim, sob os estudos mencionados acima, propõe-se realizar um método capaz de
buscar e reconhecer automaticamente EFCs em imagens 3D, nos ambientes de captura: forçado
e espontâneo, obtendo desempenho estado-da-arte. A ideia principal consiste em encontrar
as expressões compostas, utilizando a configuração padrão de AUs definida em [3, 21], para
posteriormente estudar como se produzem as EFCs nos dois ambientes de captura, e como são
reconhecidas automaticamente. Para tal fim, consideram-se duas bases de dados públicas com
imagens 3D: Bosphorus [5] (ambiente forçado) e BP4D-Spontanous [6] (ambiente espontâneo).
O reconhecimento de EFCs realiza-se por meio da identificação de AUs, por conta disso, um dos
objetivos para o prosseguimento desta pesquisa resulta em explorar detetores de AUs em 3D já
existentes, que serão base para desenvolver novos detetores.
O restante desta dissertação de mestrado está organizado da seguinte maneira: no
Capítulo 2, apresentam-se termos chave relativos a expressões faciais compostas, e a detecção
de AUs em imagens 3D; o Capítulo 3, contempla os detectores de AUs em imagens 3D que
posteriormente serão aplicados para o reconhecimento de EFCs. Assim, detalham-se: várias
abordagens relativas na literatura, as bases de dados utilizadas nos experimentos, o método
implementado para os detectores de AUs, os experimentos executados, e finalmente os resultados
obtidos; O aporte da pesquisa será relatado no Capítulo 4 especificando: o método proposto para
reconhecer EFCs em imagens 3D, os experimentos realizados, os resultados, as observações
do proceder do método, e por último, uma comparação de comportamento no reconhecimento
de EFCs nos ambientes forçados e espontâneos. Finalmente no Capítulo 5 são debatidas as
conclusões do trabalho. Nota-se que os Capítulos 3 e 4, apresentam seções independentes de
16
método, experimentos, e resultados, já que foram implementados dois métodos diferentes, cada
um deles com seus próprios experimentos e resultados, e acredita-se que unir as seções pode
gerar no leitor confusão para relacionar as partes correspondentes.
2 Fundamentos Teóricos
felicidade com nojo, felicidade e nojo, etc.). Quando uma imagem com expressão composta foi
qualitativamente encontrada, a mesma foi quantitativamente avaliada e as AUs correspondentes
foram manualmente anotadas. Como conclusão, os autores relatam que o padrão de ativação de
AUs para expressões espontâneas é idêntico ao padrão observado no laboratório.
P−1
Õ
LDBP(xc, yc ) = 2p s(I D (x p, y p ) − I D (xc, yc )) (2.1)
p=0
(
1 v≥0
s(v) = (2.2)
0 v<0
"y", "z" . Assim, a projeção das coordenas "x", "y" realizou-se no plano X-Y nos mapas de
profundidade com resolução 300x300. A coordenada "z" foi aplicada para definir a profundidade
em tons de cinza, sendo que tons mais claros representam os pontos em "z" mais próximos à
câmera. Um exemplo de mapa de profundidade exibe-se na figura 2.2.
f (x) = wT x + ω0 = 0 (2.3)
Onde w é um vetor perpendicular ao hiperplano e ω0 é uma variável para maximizar a
margem do hiperplano.
Como o objetivo principal é encontrar uma margem maior, é necessário atender os
hiperplanos paralelos ao hiperplano ótimo mais próximos aos vetores de suporte das classes,
contidos em:
h(x)+ = wT x + ω0 = 1 (2.4)
h(x)− = wT x + ω0 = −1 (2.5)
21
Figura 2.3: Classificador SVM para dois tipos de características (pontos de cor verde e vermelha),
separadas pela margem (região amarela), delimitada pelos vetores de suporte (linhas tracejadas),
sendo o hiperplano de solução a reta no meio dessa região. Os pontos laranja e azul são exemplos
de características que caem sobre o limite da região margem
w x + ω0 ≥ 1 se y = 1
T
(2.6)
wT x + ω0 ≤ −1 se y = −1
Assim, resulta útil comprovar que maximizar a margem pode ser equivalente a minimizar
o problema inverso, que se denomina como SVM primal, e se expressa da seguinte maneira:
1
Minimizar g(w) = k w k2
2
Dependendo de k w k 2 = wT w (2.7)
Considerando yi (wT xi + ω0 ) ≥ 1 i = 1, 2, 3, ..., M
ω0 = yi − wT xi (2.11)
Para por fim obter uma nova função solução, a qual é conhecida como SVM dual, e se
representa como:
1 ÕÕ Õ
Maximizar d(α) = − αi α j yi y j xiT x j + αi
2 i j
Õ
i
(2.12)
Sujeito a αi yi = 0 para cada αi ≥ 0
i
1 ÕÕ Õ
Maximizar d(α) = − αi α j yi y j k(xi, x j ) + αi
2 i j i
Õ
ωi = yi − yi αi k(xi, x j ) (2.14)
j
Õ
svm(x) = sgn( yi αi k(xi, x j ) + ωo )
i
Para poder desenvolver um método para reconhecer EFCs, que é um dos principais
objetivos da pesquisa, considera-se a exposição do Liu et al. em [33], onde mencionam que
métodos de reconhecimento de expressões faciais podem ser classificados aproximadamente em
dois grupos: baseados em unidades de ação (aqueles que consideram as AUs componentes para
reconhecer a expressão) e baseados em aparência (aqueles que consideram a imagem inteira da
face para encontrar a expressão). Consequentemente, decidiu-se optar por métodos baseados na
detecção de AUs para o desenvolvimento da proposta, visto que, atualmente, não existem bases
com imagens 3D orientadas a esse tipo de expressões. Então, para poder reconhecer EFCs em
imagens 3D, a principio as AUs devem ser detetadas, para posteriormente, compará-las com a
configuração padrão de AUs de EFCs presente em [21], e assim poder determinar a expressão
facial composta, como acontece no procedimento realizado em [34].
Como o método para reconhecer EFCs baseia-se na detecção de AUs, entende-se que é
muito importante desenvolver um sub-método que permita detectar os movimentos musculares
faciais em imagens 3D. Portanto, inicialmente realiza-se o levantamento de algumas abordagens
na literatura para detecção de AUs em imagens 3D, estas são apresentadas na seção 3.1. Também,
são estudadas bases de dados 3D que possam ser uteis tanto na detecção de AUs quanto na
análise e reconhecimento de EFCs, por conta disso, foram escolhidas as bases Bosphorus e BP4D-
Spontâneous, as mesmas serão brevemente detalhadas na secção 3.2. Após isso, desenvolve-se
uma implementação baseada no trabalho proposto em [7]. Esta proposta aplica-se como sub-
método para detectar AUs, e está constituída pelos seguintes estados: pré-processamento (para
diminuir ruídos), alinhamento (das nuvens de pontos com os pontos fiduciais providos nas bases),
extração de características (por meio da aplicação de Padrões Binários Locais em mapas de
profundidade (LDBP)), e treinamento de classificadores binários SVM. Na seção 3.3 descreve-se
com maior detalhe cada componente do sub-método implementado como detector de AUs.
• Sandbach et al. em [7] utilizam oito padrões binários para detecção de AUs em 3D
transformando as imagens 3D em duas representações 2D que contêm informação da
geometria facial: mapas de profundidade e Imagens de Projeção de Distância Azimutal
(APDI). Posteriormente, aplicaram para cada representação 2D os descritores: LBP,
fase de quantização local (LPQ), filtros Gabor e filtros monogênicos para extração de
características. Depois disso, estas características foram concatenadas em histogramas e
selecionadas por meio de GB, para finalmente serem treinadas em SVM. O método foi
testado nas bases Bosphorus (por meio da validação cruzada em 10-fold), e D3DFACS
25
• Yudin et al. em [42] descrevem um novo uso de um framework geométrico para estender
o conceito de normalização de dados ao domínio de superfícies, aplicando-o para a
detecção de AUs em imagens 3D, na base Bosphorus. A normalização possui meios
efetivos para reduzir a variação de observações de uma classe de fenômenos, diminuindo
a dimensionalidade e o número de graus de liberdade necessários para desenvolver
modelos matemáticos que identifiquem instancias dessas classes com êxito. Sendo
assim, a geometria facial foi normalizada para reduzir toda a variabilidade da fisionomia
individual, transformando o rosto em uma representação agnóstica de fisionomia. Então,
dada uma face neutral de origem, uma com a AU objetivo, e uma deformada como
modelo padrão, procurou-se a transferência de deformação para uma outra face análoga
que expresse a mesma AU. Para tal finalidade, utilizou-se o algoritmo Registro não rígido
(NNR). Adicionalmente, considerou-se uma suavização das malhas, que foi realizada
por meio do algoritmo de Laplace-Beltrami. Os autores replicaram o método de [41],
aplicando o framework de normalização na fase de pré-processamento, e alcançando
melhorias no resultado de detecção para a maioria dos casos em até um 1.9%, apesar de
algumas diferenças na implementação e nos resultados.
Composta por quadros, a base está direcionada às ações faciais seguindo o sistema
FACS. Foram anotadas manualmente na base 27 AUs por dois especialistas certificados em
FACS, para cada participante, focando-se nos 20 segundos (aproximadamente 500 quadros) na
seção que tinha maior intensidade na expressão facial.
A base contém 328 arquivos de meta-data com a informação das AUs, considerando
146.847 quadros. Cada arquivo meta-data presente na base, essencialmente consiste em matrizes
numéricas nas quais cada coluna corresponde a uma AU simples e cada linha a um quadro do
vídeo. O valor de cada célula pode ser: "1", para existência, "0", para ausência ou "9", caso seja
perdida a anotação ou a AU não tenha sido considerada. Na Figura 3.2 pode-se observar vários
exemplos de sujeitos da base BP4D em representações de imagens 3D, 2D e anotação de AUs.
Figura 3.2: Imagens de exemplo da base BP4D-Spontaneous, com suas respetivas AUs [6]
28
3.3 Método
Após a revisão da literatura em 3.1, por fim escolhe-se como sub-método para detecção
de AUs a aplicação de Padrões Binários Locais em mapas de profundidade (LDBP). Isto, pela
simplicidade na sua implementação e porque os resultados dos autores originais em [7] são
considerados muito bons em termos de Característica de Operação do Receptor (ROC) [56]. O
método está representado na Figura 3.3, onde observa-se que cada imagem 3D primeiramente
passa por um alinhamento, para depois ser projetada em mapa de profundidade, no qual aplica-se
LBP, e extrai-se o vetor de características por meio de histogramas orientados a gradientes (HOG),
posteriormente SVM é utilizado como classificador, e assim as AUs são detectadas. Para validar
este sub-método foram escolhidas duas bases de dados com imagens 3D: Bosphorus e BP4D, já
que contêm imagens capturadas em ambientes forçados e espontâneos, respetivamente. Nota-se
que a base Bosphorus foi utilizada nos experimentos dos autores originais dos detectores de AUs
escolhidos.
Figura 3.3: Esquema de funcionamento dos detectores de AUs. Neste diagrama pode-se observar
que: dada a imagem 3D, esta é alinhada e projetada em um mapa de profundidade, ao qual
aplica-se o descritor de textura LBP, para posteriormente obter o vetor 1D,para cada imagem, por
meio de HOG, e treinar SVM como classificador
Figura 3.4: Pontos fiduciais selecionados para o alinhamento, do sujeito bs000 expressando a
AU 10 da base Bosphorus
Depois disso, com as novas nuvens de pontos alinhadas, realiza-se a projeção das mesmas
em uma representação 2D: os mapas de profundidade. Estes mapas facilitam o processamento
por terem as características das imagens 2D; permitindo a aplicação de métodos provados
nesse tipo de imagens, e reduzindo o custo computacional [36]. Cabe ressaltar que este tipo de
representação não perde informação do plano 3D; esta se representa pela intensidade dos pixels
na imagem. Deste modo, se procede a projeção das nuvens de pontos 3D a pixels no espaço 2D,
convertendo os valores X-Y do vértice 3D para seus correspondentes X-Y na dimensão 2D do
pixel, e considera-se o valor de z como a intensidade do pixel. Se houver vários pontos em um
mesmo pixel, o valor da intensidade será a média dos valores da coordenada z dos mesmos. Os
mapas resultantes têm uma dimensão de 120x120 pixels, para ambas bases.
Posteriormente, imagens projetadas devem ser redimensionadas para 300x300 pixels.
Isso se dá por meio da aplicação da interpolação bicubica. No caso da base Bosphorus, esse
procedimento foi realizado sem problemas. Em contrapartida, imagens da base BP4D tiveram
que passar por um processo de segmentação para a obtenção do rosto isoladamente, pois as
imagens originalmente contêm informação da cabeça inteira, cabelo, pescoço e inclusive parte
do tronco, conforme se observa na Figura 3.6.
O processo de segmentação é baseado em [57], e está representado no diagrama da
Figura 3.7. Consequentemente, aplica-se um filtro de média com janela 5x5, para depois utilizar
a interpolação bicubica, como no caso das imagens da base Bosphorus. Em seguida, imagens
passam por Clustering com K-Means com o valor de K igual a 3. Feito isso, emprega-se o método
de segmentação do limiar binário para pixels com intensidades maiores a 148.
Finalizada a projeção e todos os processos conseguintes, obteve-se um total de 2900
mapas frontalmente alinhados para a base Bosphorus, das 2902 imagens com AUs anotadas,
enquanto que para a BP4D foram selecionados aleatoriamente 10000 mapas frontalmente
alinhados de um total de 146847 que possuem anotação de AUs. Exemplos de mapas corretamente
projetados nota-se na Figura 3.8, a da esquerda para a base Bosphorus, e a da direita para a base
BP4D.
Alguns mapas foram desconsiderados, em ambas as bases. No caso da Bosphorus, duas
imagens não foram consideradas no restante do processo, pois uma foi deformada no alinhamento
como se evidencia a esquerda da Figura 3.9, e a outra possuía tanto ruído (pontos afastados que
30
Figura 3.5: Pontos fiduciais selecionados para o alinhamento, do sujeito F001, tarefa 1, quadro
2449 da base BP4D
Figura 3.6: Mapa de profundidade projetado do sujeito F000 da base BP4D realizando a tarefa
T1 para o quadro 2440
não faziam parte da face) que o pré-processamento não conseguiu eliminar. Para a base BP4D
foram omitidas as imagens que tinham: grandes buracos, deformações, erros na segmentação, ou
algum tipo oclusão. Na Figura 3.9 a direita, visualiza-se um exemplo de mapa da base BP4D
com oclusão e falhas na segmentação.
Com a finalidade de melhorar a qualidade dos mapas de profundidade e reduzir fundo,
realiza-se um pré-processamento. Desse modo, aplica-se nos mapas de ambas as bases o filtro
de média com diâmetro de vizinhança igual a cinco. Após isso, o fundo é reduzido mediante
a utilização de uma caixa delimitadora, assim, mapas são redimensionados para 220x300
pixels. Um exemplo dos mapas para cada uma das base, depois do pré-processamento, pode ser
visualizado na Figura 3.10, na esquerda para a Bosphorus e na direita para a BP4D.
Em seguida, características são extraídas por meio da aplicação do descritor de textura
LBP nos mapas de profundidade. Este procedimento se denomina LDBP [7]. Esse descritor
consegue codificar para cada pixel a forma local ao redor da vizinhança, e raio com valores iguais
a oito. Exemplos da aplicação do descritor LDBP em mapas de profundidade da base Bosphorus
(esquerda) e da base BP4D (direita) são apresentados na Figura 3.11.
31
Figura 3.7: Método de segmentação aplicado em imagens da base BP4D para a separação da face
do restante da imagem. Neste, observa-se como dado o mapa de profundidade, deve-se aplicar
o filtro de média e a interpolação bicúbica, para posteriormente utilizar K-means, comparando
amba as imagens resultantes, e assim segmentar o rosto do restante da cabeça
Figura 3.8: Mapas de profundidade frontalmente alinhados. (a) mapa obtido do sujeito bs000 da
base Bosphorus expressando as AUs 22 e 25. (b) mapa projetado da malha 3D do sujeito F001
na tarefa T1 para o quadro 2440
Figura 3.9: Mapas de profundidade falhos. (a) mapa deformado obtido do sujeito bs017 da base
Bosphorus com a expressão "Feliz". (b) mapa projetado da malha 3D do sujeito M015 na tarefa
T3 para o quadro 168, com oclusão, falhas na segmentação e presença de buracos
das AUs que serão detectadas. Cada conjunto é composto por todos os exemplos positivos que
demostraram a ocorrência de cada AU, mais um número igual de exemplos negativos. Ressalta-se
que somente nos conjuntos de treinamento do dataset da base Bosphorus, apenas são consideradas
como exemplos positivos aquelas imagens com intensidades de AUs no intervalo de C até E. Não
se realiza essa seleção no dataset da base BP4D, pois não existem anotações de intensidades para
todas as AUs na base. Em seguida, com a parte restante da divisão dos datasets, constrói-se o
conjunto de testes.
Seguindo o baseline, realizam-se experimentos para detectar as AUs: 1, 2, 4, 9, 10, 12,
12L, 12R, 14, 15, 16, 17, 18, 20, 22, 23, 24, 25, 26, 27, 28, 34, 43, e 44. Consequentemente,
notou-se que para executar os experimentos do baseline na base BP4D, precisam ser anotadas as
AUs 12L, 12R, 25, 26, 43, e 44, pois essa anotação não existe originalmente na base. Porém,
realizou-se somente a anotação manual das AUs 25 e 26, pois como estão presentes em 11 das
EFCs, devem ser detectadas para o reconhecimento dessas expressões. Em contrapartida, foram
desconsideradas as AUs: 12L, 12R, 43, e 44, na base BP4D, principalmente porque a anotação
manual ocupa bastante tempo (considerando a anotação de 10000 imagens) e não seria executada
33
Figura 3.10: Mapas resultantes do pré-processamento para melhorar qualidade e diminuir fundo.
(a) mapa do sujeito bs000 da base Bosphorus expressando as AUs 22 e 25. (b) mapa do sujeito
F001 na tarefa T1 para o quadro 2470
Figura 3.11: Mapas de profundidade com aplicação do descritor de textura LDBP. (a) sujeito
bs000 da base Bosphorus com as ações faciais 22 e 25. (b) sujeito F001 na tarefa T1 para o
quadro 2470
por especialistas em FACS. Além disso, essas AUs não aparecem nas EFCs, e sua detecção não
será aplicada posteriormente.
Assim, pensando que a finalidade da detecção das AUs em imagens 3D reside em
reconhecer EFCs nesse mesmo tipo de imagem, foi necessário estudar todas as AUs componentes
dessa classificação de expressões. Consequentemente, observou-se que na configuração padrão
de EFCs estão presentes as AUs: 1, 2, 4, 5, 6, 10, 12, 15, 17, 20, 25, e 26. O diagrama da Figura
4.1 apresenta as AUs comuns entre cada base e entre as consideradas no padrão de configuração
de AUs das EFCs. Nesse diagrama, constata-se principalmente que: entre as duas bases e o
padrão de configuração de AUs das EFCs, existem apenas oito AUs anotadas em comum (AUs:
1, 2, 4, 10, 12, 15, 17 e 20), entre o padrão e a base Bosphorus, há duas AUs (AUs: 25 e 26), e
entre a base BP4D e o padrão, encontram-se apenas duas (AUs: 5 e 6). Percebeu-se que para
encontrar EFCs na base Bosphorus é necessário detectar as AUs 5 e 6.
Por fim, executam-se os experimentos de detecção de AUs: como no baseline, e para o
reconhecimento das EFCs, nas duas bases. Adverte-se que cada AU é tratada separadamente,
isso quer dizer que, para os experimentos seguindo o baseline, foram desenvolvidos 24 detectores
para a base Bosphorus e 20 para a base BP4D, enquanto que para os experimentos orientados
34
Figura 3.12: Construção dos vetores de características por meio da concatenação dos histogramas
de cada sub-seção do mapa de profundidade com aplicação de LDBP. Figura obtida de [7]
Figura 3.13: Diagrama de comparação de AUs pertencentes ao padrão de AUs de EFCs (azul) e
as anotadas nas bases Bosporus (verde) e BP4D (vermelho)
Tabela 3.1: Resultados individuais de valores AuC em porcentagem (%) na detecção de AUs nas
bases Bosphorus e BP4D, segundo os experimentos do baseline. Denotou-se com "*"quando
valores são inferiores a 75%, "**" se caem entre 75%-90% e "***" caso superem os 90%.
Assinalaram-se com "X" aquelas células onde a AU não foi considerada na detecção
AU % Bosphorus % BP4D
1 75,0 ** 84,7 **
2 67,2 * 83,9 **
4 76,9 ** 85,1 **
43 64,1 * X
44 71,2 * X
9 95,0 *** 88,7 **
10 76,3 ** 87,8 **
12 82,2 ** 92,9 ***
12L 94,8 *** X
12R 92,4 *** X
14 76,7 ** 81,7 **
15 68,4 * 84,1 **
16 79,5 ** 88,5 **
17 76,8 ** 79,0 **
18 83,0 ** 91,1 ***
20 75,8 ** 90,9 ***
22 87,5 ** 56,8 *
23 56,2 * 79,8 **
24 75,9 ** 90,0 **
25 92,4 *** 95,9 ***
26 72,3 * 84,1 **
27 92,6 *** 95,5 ***
28 81,1 ** 86,5 **
34 92,7 *** 97,7 ***
σ 79,4 86,2
EFCs, já que fazem parte da configuração padrão que define esta nova categoria de expressões
faciais.
Adicionalmente, são apresentados na tabela 3.3, medidas de avaliação de matriz de
confusão, para a detecção de todas as AUs consideradas para a base Bosphorus. Mostrando
valores de acurácia, sensibilidade, especifidade, valor preditivo positivo, e valor preditivo
negativo. Nota-se o valor ideal é de 100.0% para todas as medidas consideradas, menos para
o valor preditivo negativo, que é 0.0%. Dessa maneira, observa-se que em geral o método
obteve bons valores de acurácia, apresentado a pior para a AU 23 e a melhor para a AU 34,
os outros valores estão próximos aos 80% como esperado. Além disso, o método apresentou
valores de sensibilidade variáveis, que vão desde 41.2% (AU 43) até 100% (AUs 9, 12L, e
12R), demonstrando que alcançou-se reconhecer a maior parte dos casos positivos nas diferentes
AUs detectadas. Também, por meio da especifidade, percebe-se que uma boa performance para
detectar casos negativos, sendo o melhor de 100% (AU 25) e o pior 68.0% (AU 23). Similarmente,
o valor preditivo positivo logrado expõe que houve vários casos com baixos valores devido a uma
grande influencia nos casos que foram falsamente reconhecidos, sendo o pior 4.3% (AU 23) e o
37
Tabela 3.2: Resultados individuais de AuC em porcentagem (%) na detecção de AUs nas bases
Bosphorus e BP4D, considerando as AUs da configuração padrão das EFCs. Denotou-se com "*"
quando valores são inferiores a 75%, "**" se caem entre 75%-90% e "***" caso superem os 90%
AU %Bosphorus %BP4D
1 75,0 * 84,7 **
2 67,2 * 83,9 **
4 76,9 ** 85,1 **
5 73,7 * 85,0 **
6 79,6 ** 88,7 **
10 76,3 ** 87,8 **
12 82,2 ** 92,9 ***
15 68,4 * 84,1 **
17 76,8 ** 79,0 **
20 75,8 ** 90,9 ***
25 92,4 *** 95,9 ***
26 72,3 ** 84,1 **
σ 76,4 86,3
melhor 100.0% (AU 25). Finalmente, o valor preditivo negativo apresenta-se como complemento
para a especifidade do método. Por meio desses valores pode-se afirmar uma grande dificuldade
em detectar a AU 23, e que resulta mais fácil detectar as AUs 34 e 25.
Da mesma forma, na tabela 3.4 apresentam-se essas mesmas medidas de avaliação de
matrizes de confusão, sob as mesmas considerações, mas para a base B4PD. Assim, verifica-se que
o método alcançou bons valores de acurácia, sendo o melhor 95.3% (AU 34) e o pior 63.6%(AU
22). Sobre a sensibilidade, afirma-se que teve bom desempenho, sendo o melhor 100% (AUs
18, 20, e 34) e o pior 50.0% (AU 22). A especifidade reflete que os casos negativos foram
corretamente detectados na maioria das AUs, porém apresentando o valor menor 63.6% (AU
22) e o maior 95.3% (AU 34). Conjuntamente, o valor preditivo positivo revelou baixos valores
para muitas das AUs, manifestando índices altos de casos que foram falsamente reconhecidos,
resultando o mais desafiante em 0,3% (AU 22), mas em contrapartida a porcentagem mais alta
em 95.0% (AU 25). Aqui o valor preditivo negativo também é complemento da especifidade,
colaborando a comprovar os seus valores. Em geral, a base teve a AU 22 como a mais desafiante,
mas excelente detecção para a AU 25 e 34.
Finalmente, a maneira de sintetizar o trabalho de detecção desenvolvido, ressaltam-se
os seguintes pontos importantes observados a partir dos resultados dos experimentos realizados
para a detecção de AUs em imagens 3D nas bases Bosphorus e BP4D:
• A base BP4D teve resultados levemente superiores, acredita-se que isso pode ser
justificado pelo fato de ter selecionado um dataset maior (2900 imagens para a base
Bosphorus e 10000 para a base BP4D), porém, a diferença não foi tão representativa na
maioria dos casos.
38
Figura 3.14: Gráfico com os valores AuC individuais das AUs detectadas nas bases Bosphorus
(linha azul) e BP4D (linha vermelha) seguindo o baseline [7]. No eixo vertical, são representados
os valores AuC em porcentagem, enquanto no eixo horizontal, enumeram-se as AUs
Figura 3.15: Gráfico com os valores AuC individuais das AUs detectadas nas bases Bosphorus
(linha azul) e BP4D (linha vermelha) para o posterior reconhecimento de EFCs. No eixo vertical,
são representados os valores AuC em porcentagem, enquanto no eixo horizontal, enumeram-se
as AUs
• Contudo, afirma-se que a base BP4D teve um desempenho melhor do que a base
Bosphorus na detecção da maioria das AUs, já que apesar de não apresentar muita
diferença entre os valores das AuCs e das próprias acurácias, outros valores como a
sensibilidade e o valor preditivo positivo demonstram melhores porcentagens para a
BP4D.
• É interessante notar que as duas bases (Bosphorus e BP4D) tiveram um comportamento
similar nos experimentos realizados, em geral os resultados individuais do valor da AuC
se aproximaram aos 80%. Representando assim, que o método é bom para os testes
elaborados.
• Acredita-se que as diferenças do método desenvolvido com o baseline [7] se devem
a vários motivos, dente eles pode-se citar: a dificuldade de replicar a distribuição de
exemplos na validação cruzada, as potenciais alterações na implementação própria, e
até na escolha de bibliotecas aplicadas.
39
Tabela 3.3: Medidas básicas de avaliação da matriz de confusão da detecção de AUs para
base Bosphorus. Sendo representadas nas colunas as porcentagens de acurácia, sensibilidade,
especifidade, valor preditivo, e valor preditivo negativo. E as linhas, as diferentes AUs
consideradas
Tabela 3.4: Medidas básicas de avaliação da matriz de confusão da detecção de AUs para
base Bosphorus. Sendo representadas nas colunas as porcentagens de acurácia, sensibilidade,
especifidade, valor preditivo, e valor preditivo negativo. E as linhas, as diferentes AUs
consideradas
O estudo das expressões faciais humanas começou há mais de um século, quando Darwin
apresentou o seu trabalho "As expressões de emoções no homem e nos animais" [58]. Nessa
pesquisa, Darwin afirmava que não seria possível entender as expressões de emoção humana sem
primeiro entender as expressões dos animais. Com o passar do tempo, o estudo de expressões
faciais tem evoluído, vários autores seguiram esta linha, entre os mais reconhecidos estão Paul
Ekman e Wallace Friesen, sendo a definição do sistema FACS uma de suas maiores colaborações.
Além disso, definiram seis expressões básicas, que Ekman e Keltne em [10], demostraram que
são universais.
Entretanto, para Du et. al em [3, 21], existem muitas expressões de emoções mais do
que as seis básicas, por causa disso, definem 17 expressões faciais compostas. Que são expressões
construídas pelas expressões básicas e que têm sentido, pois representam dois estados de emoção
que podem ser expressados em um mesmo momento. Apesar disso, afirmaram que não são todas
as combinações de expressões básicas resultam em uma expressão composta que possa ser gerada
na face e que possua sentido em sua interpretação.
Sendo assim, foi realizado um levantamento na literatura, e notou-se que, ultimamente,
tem aumentado o interesse em estudar EFCs. Existem trabalhos em reconhecimento de EFCs em
imagens 2D [23] e em agentes virtuais 3D [59], além disso, anotação automática desse tipo de
expressões em imagens 2D [34], e inclusive uma base de dados 2D que as contempla [60]. Em
vista disso, propõe-se um método de reconhecimento de EFCs, com o diferencial de ser aplicado
em imagens 3D de humanos reais, e também considerando os ambientes de captura forçado e
espontâneo, com o intuito de comparar o seu comportamento.
4.1 Método
Para poder reconhecer EFCs em imagens 3D, foi desenvolvido um método automático,
o mesmo consegue identificar esse tipo de expressões por meio da detecção das AUs presentes
nas imagens, representando asssim uma nova aplicação de detectores de AUs, que no caso
são considerados aqueles desenvolvidos em 3.3, e ponderando a configuração padrão de AUs
definida pelos autores originais em [3, 21]. Nota-se que se teve a hipótese de que EFCs podem
ser aproximadas (quando algumas das AUs foram detectadas), mas descartou-se essa ideia, já
que para enlaçar as imagens consideradas como "verdadeiras"(as definidas pelas AUs anotadas
por especialistas em FACS) com as detectadas existia muita confusão, considerando a grande
quantidade de combinações possíveis de AUs para cada EFC nas diferentes imagens. Portanto,
para este caso, optou-se por definir que cada expressão é reconhecida apenas quando são
encontradas todas suas AUs componentes.
42
Dessa maneira, a seguir descreve-se o referido método para poder reconhecer EFCs
em imagens 3D. O mesmo é apresentado na Figura 4.1. Assim, dada uma imagem 3D como
entrada, esta passa por um pré-processamento, para em seguida detectar as AUs presentes para
posteriormente compará-las com as AUs definidas na configuração padrão de EFCs, e dessa
maneira, determinar a expressão composta correspondente, caso exista.
Figura 4.1: Esquema do método de reconhecimento de EFCs em imagens 3D. Neste, observa-se
que: dada uma imagem 3D, está passa pelos detectores de AUs (e todo o processo que os implica
e foi detalhado no Capítulo 3), para comparar a AUs encontradas com as AUs da configuração
padrão de EFCs, e assim reconhecer a EFCs correspondente, caso exista.
• O método desenvolvido não tem a capacidade de diferenciar três EFCs: "tristeza com
nojo", "horror" e "ódio", pois estas apresentam a mesma configuração de unidades de
ação facial muscular (AUs 4 e 10), portanto, essas expressões são consideradas um
"caso especial" .
• Logicamente nem todas as imagens apresentaram EFCs, dado que as bases utilizadas
nos experimentos não são orientadas a EFC. Consequentemente, esse tipo de imagem,
é nomeado como "caso desconhecido". Nota-se que este caso, nem sempre é igual
a expressão neutra, imagens podem apresentar AUs, mas que em combinação não
representam nenhuma expressão conhecida.
43
4.2 Experimentos
Com o método descrito na seção 4.1, realizou-se um experimento, com a finalidade
de reconhecer EFCs em imagens 3D. Dessa maneira, agruparam-se as EFCs pelas suas AUs
componentes, com a finalidade de diminuir buscas desnecessárias. O objetivo consistiu em
determinar diretamente uma das EFCs, encontrando todas as suas AUs na imagem. Um exemplo
desse tipo de funcionamento seria: caso em uma imagem de entrada estiverem presentes as AUs
1, 2, 5 e 25, se diz que se reconheceu a EFC de "impressão".
Este experimento executou-se inicialmente no total dos datasets de ambas as bases,
com o fim de observar a possibilidade de reconhecer EFCs em imagens 3D, por meio das AUs
anotadas, resultados serão apresentados em 4.3.1. Após isso, com os datasets de testes das
duas bases, utilizados anteriormente na detecção de AUs em 3.4, efetivou-e o reconhecimento
de EFCs por meio da detecção de AUs. Aqui, ponderou-se como acerto, cada imagem que
apresentou a mesma EFC reconhecida tanto pelas AUs marcadas e quanto pelas detectadas. Em
4.3.2 debatem-se os resultados obtidos.
Figura 4.2: Expressões faciais compostas encontradas automaticamente na base Bosphorus, toda
imagem 3D está acompanhada da imagem 2D equivalente. Sendo na primeira fila as expressões:
felicidade com nojo e tristeza com raiva. Na segunda fila: tristeza com nojo e medo com raiva.
Na terceira fila: raiva com supressa e raiva com nojo. Na quarta fila: impressão
nojo". Na quarta: "raiva com supressa", "raiva com nojo" e "nojo com supressa". Na ultima:
"impressão", "felicidade com medo" e "felicidade com tristeza".
Finalmente, estudou-se as porcentagens de ocorrência de EFCs nas duas bases. Estas
são apresentadas na Tabela 4.1, e revelam claramente que a BP4D (ambiente espontâneo) teve
um melhor desempenho, isto principalmente pelo fato de terem sido gerados todos os casos de
expressões faciais compostas estudados, e por existirem muitos outros casos de imagens com as
expressões. Ainda, nota-se que, em ambos ambientes, existe uma proporção maior de imagens
que não apresentaram nenhuma EFC, isto pode ser explicado pelo fato que as bases utilizadas
não foram desenvolvidas com a finalidade de estudar EFCs, porém, esse caso se destacou muito
mais no ambiente forçado.
Figura 4.3: Expressões faciais compostas encontradas automaticamente na base BP4D, toda
imagem 3D está acompanhada da imagem 2D equivalente. Sendo na primeira fila as expressões:
felicidade com supressa, felicidade com nojo, tristeza com medo. Na segunda fila: tristeza com
raiva, tristeza com supressa, tristeza com nojo. Na terceira fila: medo com raiva, medo com
supressa, medo com nojo. Na quarta fila: raiva com supressa, raiva com nojo, nojo com supressa.
Na quinta fila: impressão, felicidade com medo, felicidade com tristeza
de oito deles no dataset, assim, realizou-se o reconhecimento de EFCs pela detecção de AUs,
obtendo uma acurácia média de 84.83%. Na matriz de confusão da Figura 4.4, é possível observar
valores de sensibilidade para cada EFC, assim, percebem-se excelentes resultados em (2) e (10),
além disso, resultados muito bons em (0). Nos outros casos não se alcançaram resultados tão
altos, por conta de que não foram identificadas as AUs das expressões correspondentes, ou porque
foram detectadas algumas AUs que não estavam presentes na EFC procurada. Nota-se que em
geral cada EFC encontrada apresentou poucos casos para analisar, consequentemente, variações
bruscas nas sensibilidades são produzidas por casos onde não existiam muitas imagens com
a EFC buscada. Além disso, houve confusão de expressões em várias das imagens, sendo o
caso mais confundido aquele onde se marcou como (0) pelas AUs anotadas, mas que pelas AUs
detectadas como (4), (5) ou (11), o curioso dos casos (4) e (5) é que não foram reconhecidos por
apenas uma AU que foi marcada na base de dados, mas não foi detectada. No caso (11) todas
as AUs foram identificadas originalmente na base, e também detectadas, porém, detectaram-se
AUs adicionais que evitaram classificá-lo corretamente. É curioso que a confusão se deu entre
expressões que AUs em comum, havendo casos onde apesar que foram detectadas todas as AUs
46
Tabela 4.1: Porcentagens (sobre 100%) de EFCs geradas nas bases Bosphorus e BP4D
de uma EFC, a mesma não foi considerada como acerto, pois adicionalmente outras AUs foram
detectadas.
Por outro lado, consideram-se os casos de EFCs no dataset de teste da base BP4D. Aqui,
existem 11 dos 15 casos de EFCs encontrados pelas AUs anotadas. Além disso, executou-se
o método de reconhecimento de EFCs, mas com as AUs detectadas. Isto, com a finalidade
de comparar as expressões reconhecidas. Dessa comparação obteve-se uma acurácia média
de 78.50%. Na matriz de confusão da Figura 4.5 é possível distinguir os melhores resultados
de sensibilidade individual nos casos (0), (4), e (5) principalmente, outros resultados obtidos
são aceitáveis, mas nota-se que para (6) o método foi menos efetivo. Percebe-se que gerou-se
confusão entre expressões que compartilham várias AUs em comum. Ainda, existem casos
onde foram detectadas todas suas AUs, mas também outras AUs, como no caso (11) onde foram
detectas as AUs 4, 10 e 17, sendo que as AUs anotadas são 4 e 10.
A maneira de complementar os resultados exibidos, apresenta-se a tabela 4.2, na mesma
podem ser vistas as porcentagens de acurácia, sensibilidade, especifidade, valor preditivo, valor
preditivo negativo, e valor de área sob a curva, do reconhecimento automático de EFCs para a
base Bosphorus. Assim, nota-se o seguinte:
Figura 4.4: Matriz de confusão com as acurácias das EFCs reconhecidas na base Bosphorus.
Sendo "Truth" as EFCs geradas na base pela anotação original de AUs, "Prediction" as EFCs
reconhecidas pelas AUs detectadas. Os números representam: (0) "caso desconhecido", (1)
"felicidade com supressa", (2) "felicidade com nojo", (3) "tristeza com medo", (4) "tristeza com
raiva", (5) "tristeza com supressa", (6) "caso especial", (7) "medo com raiva", (8) "medo com
supressa", (9) "medo com nojo", (10) "raiva com supressa", (11) "medo com nojo", (12) "nojo
com supressa", (13) "impressão", (14) "felicidade com medo", e (15) "felicidade com tristeza"
• A especifidade reflete que o método foi capaz de reconhecer os casos negativos, com
valores que vão desde 75.0% (0), até 100.0% (8).
• Finalmente, os valores de AuC ilustram o desempenho do método, sendo para esta base
de regular para ruim, pelos valores alcançados. Isto pode ser explicado pela pouca ou a
nula existência de alguns dos casos de EFCs na base.
48
Figura 4.5: Matriz de confusão com as acurácias das EFCs reconhecidas na base BP4D.
Sendo "Truth" as EFCs geradas na base pela anotação original de AUs, "Prediction" as EFCs
reconhecidas pelas AUs detectadas. Os números representam: (0) "caso desconhecido", (1)
"felicidade com supressa", (2) "felicidade com nojo", (3) "tristeza com medo", (4) "tristeza com
raiva", (5) "tristeza com supressa", (6) "caso especial", (7) "medo com raiva", (8) "medo com
supressa", (9) "medo com nojo", (10) "raiva com supressa", (11) "medo com nojo", (12) "nojo
com supressa", (13) "impressão", (14) "felicidade com medo", e (15) "felicidade com tristeza"
Tabela 4.2: Porcentagens de acurácia, sensibilidade, especifidade, valor preditivo, valor preditivo
negativo, e valor de área sob a curva, de reconhecimento automático de EFCs para base Bosphorus
para todas as EFCs. Os valores representados como "SD"aqueles onde não foi possível realizar o
cálculo por falta de dados
• A sensibilidade apresentada refrete casos com altos valores, com o (4) como o melhor
com um 100.0%. Considera-se como casos mais desafiantes aqueles que não foram
calculados (representados com "SD"), isto pela não de existência de casos na base.
• Da especifidade obtida, afirma-se que o método alcançou valores altos que superam os
87%. Aqui nota-se boa capacidade de reconhecer casos corretamente os casos negativos
para todos os casos de EFCs considerados.
• O valor preditivo positivo mostrou um bom desempenho para os casos (0) e (2), 91.3%
e 83.9%, respetivamente. Os outros valores são baixos devido os poucos casos de EFCs
existentes.
• Por fim, os valores de AuC ilustram um desempenho melhor do que no caso da base
Bosphorus, resultando muito bom para o caso (0) com um 96.0%, bom para (2), (6), (10)
e (11) com valores entre 75.0a% e 90.0%. Nos outros casos o método não se mostrou
muito ótimo.
Tabela 4.3: Porcentagens de acurácia, sensibilidade, especifidade, valor preditivo, valor preditivo
negativo, e valor de área sob a curva, de reconhecimento automático de EFCs para base BP4D
para todas as EFCs. Os valores representados como "SD"aqueles onde não foi possível realizar o
cálculo por falta de dados
4.3.3 Observações
O método desenvolvido considera-se estado da arte, pois não existem outros estudos
desse tipo de expressões (EFCs) em nenhuma das bases com imagens 3D, até o momento.
Realizou-se a busca de EFCs em imagens 3D, pois pretendia-se aproveitar as vantagens que esse
tipo de imagem possui. Aproveitou-se a não dependência tanto de pose, iluminação e mudanças
na aparência facial que as imagens 3D de ambas bases oferecem. Não foram considerados casos
de imagens com algum tipo de oclusão, inclusive foram eliminadas aquelas imagens da base
BP4D que apresentaram essa característica (oclusão). Além disso, o método se mostrou útil em
reconhecer varias das EFCs nas duas bases escolhidas. Contudo, os resultados demostraram
melhor desempenho no reconhecimento de EFCs em ambientes espontêos.
Embora não exista estudos que permitam realizar comparações com o trabalho desenvol-
vido, encontrou-se alguns similares, que possibilitam analisar o comportamento dos resultados
obtidos. Portanto, esses estudos detalham-se brevemente a seguir:
• Uma outra pesquisa pertinente a examinar, é o método desenvolvido por Liu et. al
em [23], já que apesar dos experimentos serem processados com imagens 2D, de
alguma forma, apresenta uma estrutura similar com o método desenvolvido: descritor de
características LBP e classificadores SVM. Aqui nota-se que: imagens foram coletadas
da Internet e o reconhecimento acontece em apenas nove EFCs. Nos resultados dessa
pesquisa, bastante dificuldade em reconhecer as expressões compostas. Também, nota-se
que são apresentados baixos valores de sensibilidade (em geral um 27%), valor preditivo
positivo (28.2%), e acurácia (34.9%), considerando LBP como descritor de textura
e SVM como classificador. Mas valores um pouco melhores com o classificador de
média de classe mais próxima (NCMML) alcançando um sensibilidade de 30.1%, valor
preditivo positivo de 29.2% e acurácia de 36.7%.
• Finalmente, explora-se a investigação de Du et. al em [3], autores originais que definiram
as EFCs. O sentido da observação cai em estudar apenas aspectos de similaridade do
comportamento no reconhecimento de EFCs. Então, verificou-se que da mesma forma
que em [23], empregam imagens 2D, mas nesse caso, essas imagens foram capturadas
em ambientes forçados. Além disso, realizaram o reconhecimento em 15 EFCs, pois
as outras duas foram definidas posteriormente em [21]. Para tal fim, aplicaram como
classificador SVM, mas na versão multi-classes. Os resultados são muito bons para a
maioria das EFCs, não obstante, alguns valores de acurácia ainda não são muito altos.
Os valores apresentados de sensibilidade vão desde 54% atá 93%.
Uma das dificuldades do método desenvolvido para reconhecimento de EFCs é de
não poder diferenciar as expressões "tristeza com nojo", "ódio" e "horror". Na Figuras 4.6 e
4.7, apresentam-se alguns exemplos das expressões anteriormente mencionadas, para as bases
Bosphorus e BP4D, respetivamente. Nas imagens componentes de ambas as Figuras, por
observação simples, nota-se a diferença entre elas e consegue categorizá-las. Portanto, para
poder classificar todas as imagens que pertençam ao denominado "caso especial"na secção 4.1,
deve realizar-se uma análise visual. Torna-se interessante que em [34], essas expressões não
compartilham a mesma configuração de AUs que em [3, 21], de fato, não são as únicas que
apresentam variações, consequentemente, abre a opção de experimentar considerando essa outra
padronização de EFCs pode resultar em um reconhecimento com valores de acurácia superiores
que consigam uma separação das 17 expressões compostas.
Figura 4.6: Expressões faciais compostas não diferenciáveis pelo método desenvolvido da base
Bosphorus, por ter a mesma configuração de AUs. Toda imagem 3D está acompanhada da
imagem 2D equivalente. Sendo as expressões: "tristeza com nojo", "ódio" e "horror".
Figura 4.7: Expressões faciais compostas não diferenciáveis pelo método desenvolvido da base
BP4D, por ter a mesma configuração de AUs. Toda imagem 3D está acompanhada da imagem
2D equivalente. Sendo as expressões: "tristeza com nojo", "ódio" e "horror".
bases de dados publicamente disponíveis, para poder utilizá-las, e determinar, por meio do
método de reconhecimento automático implementado, quais dos dois ambientes representa de
melhor forma as expressões compostas. Assim, revisando na literatura algumas das bases de
dados orientadas a expressões faciais disponíveis [5, 6, 44, 40, 24], percebeu-se que as suas
imagens foram capturadas em ambientes espontâneos ou forçados.
Na presente pesquisa, denomina-se ambiente forçado aquele onde a captura das imagens
se realiza em espaços controlados. Cabe destacar que neste tipo de ambientes, sujeitos
foram instruídos a realizar uma determinada expressão, por exemplo: no momento da captura,
apresentou-se uma fotografia com uma expressão objetivo para um participante, este tentou
imitá-la da maneira mais fiel possível. Por outro lado, se denominou ambiente espontâneo aquele
onde as imagens foram obtidas de uma maneira mais "natural", em locais não controlados ou
irrestritos. Nestes, os participantes expressaram as emoções que estavam sentindo no momento
da captura, pela influência de algum estimulo, por exemplo, por um cheiro desagradável não
esperado pelo indivíduo, que lhe provocou a expressão de nojo.
No entanto, na captura de expressões faciais, em muitos casos, utilizam-se atores
profissionais, como na base Bosphorus. Isto com a finalidade de capturar emoções de maneira
muito "natural", já que têm muito mais controle dos músculos faciais e conseguem expressar
algumas emoções de maneira mais realista [62], porém, sempre existirá alguma diferença com as
expressões espontâneas, além disso, não serão transmitidas as verdadeiras emoções do ator pelas
expressões faciais "atuadas", portanto, esse tipo de captura considera-se forçado.
Simultaneamente, observou-se que existem vários autores [6, 63, 38, 64, 65, 66],
interessados no estudo de expressões forçadas e espontâneas. Estes quais comprovaram que
expressões forçadas e espontâneas diferem em comportamento de várias dimensões, incluindo
complexidade, temporalidade, intensidade, e até na maneira de detectar as suas AUs. Não
obstante, para Du et al. em [21], a configuração padrão de AUs nas EFCs é a mesma para os dois
ambientes, apesar de que os sistemas neurais envolvidos na produção de expressões forçadas e
espontâneas serem diferentes. Sob essa perspetiva, aplicou-se o mesmo método de estudo de
EFCs em ambos os ambientes de captura.
Por fim, na presente pesquisa, confirma-se que ambientes forçados e espontâneos
são diferentes e que é mais fácil encontrar EFCs em ambientes espontâneos, de acordo com
resultados do método desenvolvido. Neste caso, a base BP4D teve um melhor comportamento em
comparação com a base BP4D no reconhecimento de EFCs, já que apresentou todos os casos de
expressões compostas estudados, e para cada caso, proporcionalmente mais imagens. Além disso,
os resultados de reconhecimento obtidos de: acurácia, sensibilidade, especifidade, valor preditivo
positivo, valore preditivo negativo, e AuC, representaram uma melhor realidade e com maior
sentido, sendo mais próximos ao ideal (100.0% para os todos esses valores calculados, e 0.0%
para o valor preditivo negativo) no ambiente espontâneo. Seria interessante poder experimentar
em mais bases de ambos os ambientes, para poder consolidar esta afirmação, mas não existem
53
mais bases espontâneas com anotação de AUs e de pontos fiduciais disponíveis publicamente,
até o momento.
54
5 Conclusões
nenhuma das expressões conhecidas, estes casos se denominaram como "casos desconhecidos".
Portanto, se analisaram esses dois casos, mais 14 EFCs.
Desse modo, primeiro foi estudada a produção de EFCs nas bases. Isto, ocorreu
reconhecendo EFCs pelas AUs anotadas originalmente em ambas as bases por especialistas
em FACS, comparando-as com as presentes no padrão de EFCs. Resultados demostraram
maior efetividade na base BP4D, já que foram gerados todos os casos estudados, havendo
proporcionalmente muitos mais exemplos do que na base Bosphorus, a qual tampouco apresentou
todos os casos, apenas sete deles foram gerados nela.
Posteriormente, realizou-se o reconhecimento de EFCs, mas pelas AUs detectadas, em
porções das bases Bosphorus e BP4D, utilizadas para testes nos detectores de AUs implementados
em 3.3. Assim, para essa finalidade aplicaram-se esses detectores de AUs anteriormente
desenvolvidos, contrapondo as AUs detectadas com as da configuração de EFCs, para reconhecer
as expressões compostas. Resultados apresentaram acurácias em média altas para ambas as bases,
porém, evidencia-se que BP4D foi mais efetiva, por reconhecer mais casos de EFCs.
Embora não seja possível comparar com outros trabalhos na literatura, realizou-se
observações de alguns existentes [59, 23, 3] que fizeram métodos similares com a mesma
finalidade (reconhecer EFCs), claro que com variações (como o emprego de imagens 2D,
reconhecimento não automático, ou descritores de textura e classificadores diferentes). Nesses
trabalhos notou-se uma mesma realidade; a dificuldade de reconhecer EFCs.
Por fim, ressalta-se alguns pontos importantes que a atual pesquisa evidenciou. Primeiro,
foram aproveitadas algumas propriedades das imagens 3D, como ser que não apresentam
problemas decorrentes de variações de pose, iluminação e de outras mudanças na aparência
facial. Além disso, comprovou-se que EFCs existem em imagens 3D, isto foi fatível por meio de
observação do padrão de AUs dessas expressões, originalmente anotadas nas bases utilizadas,
mas também aplicando detecção de AUs. Finalmente, pelos experimentos realizados, notou-se
que para a maioria dos casos, alcançou-se bons valores de acurácia, sensibilidade, especifidade, e
valor preditivo negativo para ambas as bases, revelando que o método consegue realizar corretas
predições, tanto positivas quanto negativas. Porém, com o valor preditivo positivo e AuC,
percebe-se que ainda existe uma taxa grande de falsos positivos e falsos negativos.
Adicionalmente, comparando o comportamento de ambas as bases, destaca-se que o
ambiente espontâneo alcançou demonstrar melhor desempenho, apresentando mais casos de
EFCs e melhores resultados das medidas consideras, comparado ao ambiente forçado. Sendo o
mais interessante o valor de AuC, já que permite concluir que em geral o ambiente espontâneo é
mais ótimo.
O método desenvolvido mostrou-se útil no reconhecimento de EFCs, pois conseguiu
identificá-las em duas bases de dados (Bosphorus e BP4D), no entanto, existem elementos que
devem mudar para conseguir resultados melhores. Acredita-se que conseguindo maior acurácia
nos detectores de AUs em imagens 3D, serão mais altos os valores de acurácia no reconhecimento
de EFCs. Para tal fim, podem-se considerar outras opções para a detecção de AUs e inclusive
aplicar redes neurais. Além disso, pode-se experimentar com métodos baseados em aparência
(onde se utilizaria as imagens 3D como um todo para o reconhecimento das EFCs), ou poderia
empregar características geométricas (propriedades que os pontos fiduciais das imagens 3D
oferecem) como aconteceu em [41].
56
Referências Bibliográficas
[3] Shichuan Du and Aleix M Martinez. Compound facial expressions of emotion: from basic
research to clinical applications. Dialogues in clinical neuroscience, 17(4):443, 2015.
[4] Timo Ojala, Matti Pietikainen, and Topi Maenpaa. Multiresolution gray-scale and rotation
invariant texture classification with local binary patterns. IEEE Transactions on pattern
analysis and machine intelligence, 24(7):971–987, 2002.
[5] Arman Savran, Neşe Alyüz, Hamdi Dibeklioğlu, Oya Çeliktutan, Berk Gökberk, Bülent
Sankur, and Lale Akarun. Bosphorus database for 3d face analysis. In European Workshop
on Biometrics and Identity Management, pages 47–56. Springer, 2008.
[6] Xing Zhang, Lijun Yin, Jeffrey F Cohn, Shaun Canavan, Michael Reale, Andy Horowitz,
Peng Liu, and Jeffrey M Girard. Bp4d-spontaneous: a high-resolution spontaneous 3d
dynamic facial expression database. Image and Vision Computing, 32(10):692–706, 2014.
[7] G. Sandbach, S. Zafeiriou, and M. Pantic. Binary pattern analysis for 3d facial action unit
detection. In Proceedings of the British Machine Vision Conference, BMVC 2012, Surrey,
UK, pages 119.1–119.12, UK, September 2012. BMVA Press.
[8] Paul Ekman, Wallace Friesen, and JC Hager. Facial action coding system: The manual on
cd-rom. instructor’s guide. Network Information Research Co, Salt Lake City, 2002.
[9] Lisa A Parr and Bridget M Waller. Understanding chimpanzee facial expression: insights into
the evolution of communication. Social Cognitive and Affective Neuroscience, 1(3):221–228,
2006.
[10] Paul Ekman and Dacher Keltner. Universal facial expressions of emotion: an old controversy
and new findings. Nonverbal Communi-cation: Where Nature Meets Culture, pages 27–46,
1997.
[12] Wallace Friesen and Paul Ekman. Facial action coding system: a technique for the
measurement of facial movement. Palo Alto, 1978.
57
[13] Takeo Kanade, Jeffrey F Cohn, and Yingli Tian. Comprehensive database for facial
expression analysis. In Automatic Face and Gesture Recognition, 2000. Proceedings.
Fourth IEEE International Conference on, pages 46–53. IEEE, 2000.
[14] Jeffrey F Cohn, Zara Ambadar, and Paul Ekman. Observer-based measurement of facial
expression with the facial action coding system. The handbook of emotion elicitation and
assessment, pages 203–221, 2007.
[15] JC Hager, Paul Ekman, and Wallace Friesen. Facial action coding system. salt lake city, ut:
A human face. Technical report, ISBN 0-931835-01-1, 2002.
[16] A Freitas-Magalhães. O código de Ekman: O cérebro, a face e a emoção. Leya, 2015.
[17] A Freitas-Magalhães. Facial Action Coding System-Manual de Codificação Científica da
Face Humana. Leya, 2016.
[18] Guillaume-Benjamin Duchenne and R Andrew Cuthbertson. The mechanism of human
facial expression. Cambridge university press, 1990.
[19] Paul Ekman and Wallace V Friesen. Pictures of facial affect. consulting psychologists
press, 1975.
[20] Carl-Herman Hjortsjö. Man’s face and mimic language. Studen litteratur, 1969.
[21] Shichuan Du, Yong Tao, and Aleix M Martinez. Compound facial expressions of emotion.
Proceedings of the National Academy of Sciences, 111(15):E1454–E1462, 2014.
[22] Jyoti Kumari, R. Rajesh, and K.M. Pooja. Facial expression recognition: A survey. Procedia
Computer Science, 58(Supplement C):486 – 491, 2015. Second International Symposium
on Computer Vision and the Internet (VisionNet’15).
[23] Zhiwen Liu, Shan Li, and Weihong Deng. Recognizing compound emotional expression in
real-world using metric learning method. In Chinese Conference on Biometric Recognition,
pages 528–536. Springer, 2016.
[24] Georgia Sandbach, Stefanos Zafeiriou, Maja Pantic, and Lijun Yin. Static and dynamic
3d facial expression recognition: A comprehensive survey. Image and Vision Computing,
30(10):683–697, 2012.
[25] Ray L Birdwhistell. Kinesics and context: Essays on body motion communication. University
of Pennsylvania press, 1970.
[26] Eric Robert Yudin and Research Thesis. Improving facial expression analysis via intrinsic
normalization of surfaces improving facial expression analysis via intrinsic normalization of
surfaces. In Improving Facial Expression Analysis via Intrinsic Normalization of Surfaces,
2015.
[27] Brais Martinez and Michel F Valstar. Advances, challenges, and opportunities in automatic
facial expression recognition. In Advances in Face Detection and Facial Image Analysis,
pages 63–100. Springer, 2016.
[28] Nicholas Vretos, Nikos Nikolaidis, and Ioannis Pitas. 3d facial expression recognition
using zernike moments on depth images. In Image Processing (ICIP), 2011 18th IEEE
International Conference on, pages 773–776. IEEE, 2011.
58
[29] G. Sandbach, S. Zafeiriou, and M. Pantic. Local normal binary patterns for 3d facial action
unit detection. In 2012 19th IEEE International Conference on Image Processing, pages
1813–1816, Sept 2012.
[30] Stefano Berretti, Boulbaba Ben Amor, Mohamed Daoudi, and Alberto Del Bimbo. 3d
facial expression recognition using sift descriptors of automatically detected keypoints. The
Visual Computer, 27(11):1021–1036, 2011.
[31] T. W. Shen, H. Fu, J. Chen, W. K. Yu, C. Y. Lau, W. L. Lo, and Z. Chi. Facial expression
recognition using depth map estimation of light field camera. In 2016 IEEE International
Conference on Signal Processing, Communications and Computing (ICSPCC), pages 1–4,
Aug 2016.
[33] Zhiwen Liu, Shan Li, and Weihong Deng. Boosting-poof: Boosting part based one vs
one feature for facial expression recognition in the wild. In Automatic Face & Gesture
Recognition (FG 2017), 2017 12th IEEE International Conference on, pages 967–972.
IEEE, 2017.
[35] Caifeng Shan, Shaogang Gong, and Peter W McOwan. Facial expression recognition
based on local binary patterns: A comprehensive study. Image and Vision Computing,
27(6):803–816, 2009.
[36] A. Savran, B. Sankur, and M. T. Bilge. Facial action unit detection: 3d versus 2d modality.
In 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition -
Workshops, pages 71–78, June 2010.
[37] Takeo Kanade, Jeffrey F Cohn, and Yingli Tian. Comprehensive database for facial
expression analysis. In Automatic Face and Gesture Recognition, 2000. Proceedings.
Fourth IEEE International Conference on, pages 46–53. IEEE, 2000.
[38] Marian Stewart Bartlett, Gwen Littlewort, Mark G Frank, Claudia Lainscsek, Ian R Fasel,
and Javier R Movellan. Automatic recognition of facial actions in spontaneous expressions.
Journal of multimedia, 1(6):22–35, 2006.
[39] Yonggang Huang, Yunhong Wang, and Tieniu Tan. Combining statistics of geometrical and
correlative features for 3d face recognition. In BMVC, pages 879–888. Edinburgh, 2006.
[40] Darren Cosker, Eva Krumhuber, and Adrian Hilton. A facs valid 3d dynamic action unit
database with applications to 3d dynamic morphable facial modeling. In 2011 International
Conference on Computer Vision, pages 2296–2303. IEEE, 2011.
59
[41] N. Bayramoglu, G. Zhao, and M. Pietikäinen. Cs-3dlbp and geometry based person
independent 3d facial action unit detection. In 2013 International Conference on Biometrics
(ICB), pages 1–6, June 2013.
[42] Eric Yudin, Aaron Wetzler, Matan Sela, and Ron Kimmel. Improving 3d facial action
unit detection with intrinsic normalization. In S. Kurtek H. Drira and P. Turaga, editors,
Proceedings of the 1st International Workshop on DIFFerential Geometry in Computer
Vision for Analysis of Shapes, Images and Trajectories (DIFF-CV 2015), pages 5.1–5.10.
BMVA Press, September 2015.
[43] Inc. China SouVR Co. Inspeck 3d mega capturor ii digitizer. http://www.en.souvr.
com/product/200712/324.html/, 2008. Acessado em 01/08/2017.
[44] Lijun Yin, Xiaozhou Wei, Yi Sun, Jun Wang, and Matthew J Rosato. A 3d facial expression
database for facial behavior research. In 7th international conference on automatic face
and gesture recognition (FGR06), pages 211–216. IEEE, 2006.
[45] P. J. Phillips, P. J. Flynn, T. Scruggs, K. W. Bowyer, Jin Chang, K. Hoffman, J. Marques,
Jaesik Min, and W. Worek. Overview of the face recognition grand challenge. In 2005 IEEE
Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05),
volume 1, pages 947–954 vol. 1, June 2005.
[46] Timothy C Faltemier, Kevin W Bowyer, and Patrick J Flynn. Using a multi-instance enroll-
ment representation to improve 3d face recognition. In Biometrics: Theory, Applications,
and Systems, 2007. BTAS 2007. First IEEE International Conference on, pages 1–6. IEEE,
2007.
[47] Thomas Heseltine, Nick Pears, and Jim Austin. Three-dimensional face recognition using
combinations of surface feature map subspace components. Image and Vision Computing,
26(3):382–396, 2008.
[48] Cheng Zhong, Zhenan Sun, and Tieniu Tan. Robust 3d face recognition using learned
visual codebook. In 2007 IEEE Conference on Computer Vision and Pattern Recognition,
pages 1–6. IEEE, 2007.
[49] Ana Belen Moreno and Armand Sánchez. Gavabdb: a 3d face database. In Proc. 2nd
COST275 Workshop on Biometrics on the Internet, Vigo (Spain), pages 75–80, 2004.
[50] Charles Beumier and Marc Acheroy. Face verification from 3d and grey level clues. Pattern
recognition letters, 22(12):1321–1329, 2001.
[51] Lijun Yin, Xiaochen Chen, Yi Sun, Tony Worm, and Michael Reale. A high-resolution
3d dynamic facial expression database. In Automatic Face & Gesture Recognition, 2008.
FG’08. 8th IEEE International Conference On, pages 1–6. IEEE, 2008.
[52] S. Aly, A. Trubanova, L. Abbott, S. White, and A. Youssef. Vt-kfer: A kinect-based
rgbd+time dataset for spontaneous and non-spontaneous facial expression recognition. In
2015 International Conference on Biometrics (ICB), pages 90–97, May 2015.
[53] Shangfei Wang, Zhilei Liu, Siliang Lv, Yanpeng Lv, Guobing Wu, Peng Peng, Fei Chen,
and Xufa Wang. A natural visible and infrared facial expression database for expression
recognition and emotion inference. IEEE Transactions on Multimedia, 12(7):682–691,
2010.
60
[54] S Mohammad Mavadati, Mohammad H Mahoor, Kevin Bartlett, Philip Trinh, and Jeffrey F
Cohn. Disfa: A spontaneous facial action intensity database. IEEE Transactions on Affective
Computing, 4(2):151–160, 2013.
[55] Mohammad H Mahoor, Steven Cadavid, Daniel S Messinger, and Jeffrey F Cohn. A
framework for automated measurement of the intensity of non-posed facial action units. In
2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition
Workshops, pages 74–80. IEEE, 2009.
[56] Tom Fawcett. An introduction to roc analysis. Pattern Recognition Letters, 27(8):861 – 874,
2006. ROC Analysis in Pattern Recognition.
[57] Maurício Pamplona Segundo, Luciano Silva, Olga Regina Pereira Bellon, and Chauã C
Queirolo. Automatic face segmentation and facial landmark detection in range images. IEEE
Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics), 40(5):1319–1330,
2010.
[58] Charles Darwin and Phillip Prodger. The expression of the emotions in man and animals.
Oxford University Press, USA, 1872.
[59] Juho Kastemaa. Recognizing compound facial expressions of virtual characters in augmented
reality, 2017.
[60] Kaili Zhao, Wen-Sheng Chu, Fernando De la Torre, Jeffrey F Cohn, and Honggang Zhang.
Joint patch and multi-label learning for facial action unit detection. In Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, pages 2207–2216, 2015.
[61] Charles E Metz. Basic principles of roc analysis. In Seminars in nuclear medicine, volume 8,
pages 283–298. Elsevier, 1978.
[62] Harald G Wallbott and Klaus R Scherer. Cues and channels in emotion recognition. Journal
of personality and social psychology, 51(4):690, 1986.
[63] Michel F Valstar, Maja Pantic, Zara Ambadar, and Jeffrey F Cohn. Spontaneous vs. posed
facial behavior: automatic analysis of brow actions. In Proceedings of the 8th international
conference on Multimodal interfaces, pages 162–170. ACM, 2006.
[64] Shushi Namba, Shoko Makihara, Russell S Kabir, Makoto Miyatani, and Takashi Nakao.
Spontaneous facial expressions are different from posed facial expressions: Morphological
properties and dynamic sequences. Current Psychology, pages 1–13, 2016.
[65] Sherin Aly, Andrea Trubanova, Lynn Abbott, Susan White, and Amira Youssef. Vt-kfer: A
kinect-based rgbd+ time dataset for spontaneous and non-spontaneous facial expression
recognition. In Biometrics (ICB), 2015 International Conference on, pages 90–97. IEEE,
2015.
[66] Zhiwen Liu, Shan Li, and Weihong Deng. Boosting-poof: Boosting part based one vs
one feature for facial expression recognition in the wild. In Automatic Face & Gesture
Recognition (FG 2017), 2017 12th IEEE International Conference on, pages 967–972.
IEEE, 2017.