Monografia CG

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 14

MAC5744 - Introdução à Computação Gráfica DCC/IME/USP

Como melhorar a Modelagem de Superfı́cie usando


Deep Learning?

Harre Bams Ayma Aranda.


E-mail: [email protected]

1 Abstract
Este trabalho investiga como o aprendizado profundo pode melhorar a modelagem de superfı́cies
na reconstrução 3D. Abordagens tradicionais enfrentam dificuldades para capturar a complexidade
e os detalhes precisos das superfı́cies. Este trabalho apresenta avanços na geração de malhas a
partir de imagens RGB, abordagens baseadas em esqueletos para malhas complexas, técnicas de
múltiplas vistas e baseadas em deformações, campos implı́citos e fluxos difeomórficos. Avaliações
experimentais demonstram a eficácia dessas abordagens na geração de modelos de malhas 3D pre-
cisos e detalhados. As técnicas propostas abrem novas perspectivas para melhorar a modelagem de
superfı́cies por meio do aprendizado profundo.
2 Introdução
A reconstrução em 3D tem sido um campo de pesquisa fundamental para capturar e representar
objetos tridimensionais do mundo real. À medida que a demanda por modelos 3D precisos e
detalhados continua crescendo em áreas como animação, realidade virtual e engenharia, surge a
necessidade de técnicas mais avançadas que permitam aprimorar a modelagem de superfı́cies.
A modelagem de superfı́cies, como um ramo-chave da reconstrução em 3D, concentra-se na criação de
representações digitais de objetos tridimensionais com superfı́cies definidas. No entanto, apesar dos
avanços alcançados até o momento, os métodos tradicionais ainda apresentam desafios na captura
da complexidade e dos detalhes precisos das superfı́cies.
É aqui que entra o deep learning. Essa poderosa técnica de aprendizado automático demonstrou sua
capacidade de aprender padrões complexos e representações abstratas a partir de grandes volumes
de dados. Ao aplicar o deep learning à modelagem de superfı́cies, novas possibilidades são abertas
para melhorar a precisão e a qualidade das representações tridimensionais.
Esse enfoque baseado em redes neurais tem se mostrado altamente eficaz e preciso na geração de
malhas 3D a partir de imagens RGB. Neste trabalho, exploraremos os avanços mais significativos
nessa área, que vão desde a geração de malhas 3D a partir de imagens individuais até abordagens
baseadas em múltiplas vistas e técnicas de deformação, e, por fim, técnicas avançadas como campos
implı́citos e fluxos difeomórficos.
A primeira abordagem que examinaremos concentra-se na geração de malhas 3D a partir de imagens
RGB individuais. Wang et al.[1] propõem uma abordagem inicial que estabelece as bases para a
geração de malhas usando o Deep Learning, e seus resultados têm sido promissores na melhoria da
modelagem de superfı́cies.
Continuando com o desenvolvimento de abordagens mais sofisticadas, Tang et al.[2] propõem uma
abordagem inovadora que utiliza esqueletos para gerar malhas tridimensionais com topologias com-
plexas, superando assim um dos desafios-chave na modelagem de superfı́cies.
Na próxima etapa de pesquisa, exploraremos a geração de malhas 3D usando abordagens baseadas
em múltiplas vistas e técnicas de deformação. Um dos trabalhos destacados nessa área é o de
Wen et al.[3]. Essa abordagem amplia a geração de malhas considerando múltiplas perspectivas de
um objeto e aplicando técnicas de deformação para obter maior precisão e coerência nos modelos
gerados.
Na última seção, mergulharemos em técnicas avançadas de geração de malhas 3D, especificamente o

2
uso de campos implı́citos e fluxos difeomórficos. Chen et al.[4] propõem o uso de campos implı́citos
para capturar caracterı́sticas e detalhes de formas complexas na geração de malhas. Por outro lado,
Chandraker et al.[5] introduzem uma técnica baseada em fluxos difeomórficos para gerar malhas 3D
de maneira suave e contı́nua, obtendo assim malhas com topologias adequadas e sem defeitos.

3 Estado da arte: discussão crı́tica dos artigos.


O campo da reconstrução em 3D está em constante evolução devido aos avanços em aprendizado
profundo e à disponibilidade de conjuntos de dados cada vez maiores e mais diversos. Abordagens
baseadas em voxels, nuvens de pontos, transformadores e superfı́cies têm demonstrado sua eficácia
na geração de modelos tridimensionais precisos e detalhados. Essas técnicas encontram aplicações
em diversos campos, como robótica, realidade virtual, arqueologia e medicina, entre outros, abrindo
novas possibilidades na compreensão e interação com o mundo tridimensional.
Dentro da reconstrução 3D, a geração de superfı́cies 3D a partir de imagens RGB é um tema
de pesquisa nos campos de visão computacional, computação gráfica e aprendizado profundo, que
busca criar representações tridimensionais detalhadas de objetos a partir de imagens coloridas. Essas
representações são deformáveis uniformemente e consomem menos memória do que representações
baseadas em voxels, nuvens de pontos e outras, pois modelam apenas a superfı́cie.
No entanto, tais representações não se encaixam facilmente nos frameworks de aprendizado pro-
fundo.
Tradicionalmente, a geração de modelos de malha 3D exigia técnicas manuais e conhecimento espe-
cializado em modelagem 3D. No entanto, com os avanços no campo do aprendizado profundo, foi
possı́vel automatizar esse processo e gerar modelos de malha 3D de maneira mais eficiente e precisa.
Começaremos explorando como os algoritmos de aprendizado profundo podem aproveitar a abun-
dante informação visual contida nas imagens RGB para a geração de malhas 3D.

3.1 Generación de mallas 3D a partir de imágenes RGB


Vários esforços têm sido feitos para abordar o problema da reconstrução 3D a partir de imagens
RGB, como em Wang et al.[1], que foi um dos primeiros a aproveitar as CNN gráficas para estimar
a forma 3D de um objeto em uma representação de malha. Para gerar modelos de malha 3D
precisos e detalhados a partir de uma única imagem RGB, Wang et al.[1] propõe uma arquitetura
de aprendizado profundo de ponta a ponta. Essa arquitetura utiliza uma rede neural convolucional

3
baseada em grafos e técnicas de deformação progressiva para produzir uma malha triangular precisa
e detalhada que representa a forma 3D do objeto.
O processo de geração da malha 3D ocorre seguindo os seguintes passos:
Primeiramente, é feito um pré-processamento da imagem RGB de entrada para normalizar os valores
dos pixels e ajustar o tamanho da imagem de acordo com os requisitos do modelo.
Em seguida, é utilizada uma rede neural convolucional (CNN) pré-treinada, como a VGG-16, para
extrair caracterı́sticas perceptuais da imagem. Essas caracterı́sticas são obtidas a partir de camadas
intermediárias da CNN e capturam informações semânticas e de texturas relevantes para a geração
da malha 3D. Posteriormente, é gerada uma malha inicial utilizando uma forma básica, como uma
esfera ou elipsoide. Essa malha inicial é deformada progressivamente para se ajustar à forma do
objeto na imagem. Para incorporar a informação perceptual na geração da malha e melhorar
a precisão da reconstrução, é utilizada uma camada de projeção que mapeia as caracterı́sticas
extraı́das da imagem para a geometria 3D da malha. Em seguida, é feita uma deformação iterativa
da malha inicial utilizando uma rede neural convolucional baseada em grafos, Graph Convolutional
Networks (GCN) (Scarselli et al.[6]; Bronstein et al.[7]; Defferrard et al.[8]). Essa rede atualiza as
posições dos vértices da malha em cada iteração para que se ajustem melhor à forma do objeto na
imagem. É empregada uma estratégia de ”coarse-to-fine”para estabilizar o processo de deformação.
Isso implica em fazer deformações em grande escala nas primeiras etapas e refinar os detalhes em
etapas posteriores, capturando tanto a estrutura geral quanto os detalhes finos da forma 3D. Por
fim, são definidas várias funções de perda para guiar a geração da malha e garantir um melhor
desempenho do sistema. Essas funções de perda ajudam a otimizar o processo e garantir uma
geração de malha de alta qualidade.
Foram realizados vários experimentos para avaliar a efetividade da abordagem proposta na geração
de modelos de malha 3D a partir de imagens RGB. Em particular, o método proposto foi compa-
rado com dois métodos existentes de reconstrução 3D a partir de imagens RGB: 3D-R2N2 e PSG.
Foram utilizadas várias métricas de avaliação, como Precisão e Revocação, F-Score, Distância de
Chamfer (CD) e Distância do Transporte Terrestre (EMD), que medem a precisão da superfı́cie, a
continuidade, a suavidade e os detalhes de alta ordem.
Os resultados experimentais mostraram que a abordagem proposta superou significativamente os
métodos existentes em termos de precisão da superfı́cie e detalhes de alta ordem. Além disso,
foi realizado um estudo ablativo para analisar a importância de cada componente no modelo. De
forma geral, os resultados experimentais sugerem que a abordagem proposta é efetiva na geração

4
Figura 1: A rede de deformação de malha em cascata. O modelo completo contém três
malhas de deformação. Cada bloco aumenta a resolução da malha e estima as permanências
dos vértices, que são então usadas para extrair caracterı́sticas de imagens perceptivas da
CNN 2D para o próximo bloco.

Tabela 1: F-Score(%) no conjunto de testes ShapeNet em diferentes limiares, onde τ = 10−4


maior é melhor. Os melhores resultados em cada limiar estão em negrito.

5
Tabela 2: CD e EMD no conjunto de testes ShapeNet. Menor é melhor. Os melhores
resultados em cada limiar estão em negrito.

de modelos de malha 3D precisos e detalhados a partir de imagens RGB, e supera os métodos


existentes em termos de qualidade da superfı́cie e detalhes de alta ordem.
A abordagem proposta neste artigo supera as limitações dos métodos anteriores, que frequentemente
se baseavam em representações volumétricas ou nuvens de pontos. Além disso, é alcançada uma
maior precisão na estimativa de formas 3D e são capturados detalhes superficiais importantes que
são perdidos em outras representações.
Em Wang et al. [1], o foco foi em objetos que podem ser aproximados usando uma malha 3D com
gênero 0 através da deformação de uma elipsoide de tamanho fixo, porém, ao lidar com objetos que
possuem topologias mais complexas, foram encontradas limitações.
A geração de malhas com topologias complexas e detalhadas ainda é um desafio significativo. Essas
topologias complexas são caracterizadas pela presença de estruturas intrincadas, como cavidades,
saliências e conexões irregulares, que não podem ser facilmente modeladas por malhas simples. Essas
topologias são comuns em objetos naturais, como plantas, animais e tecidos orgânicos, bem como
em objetos fabricados com designs elaborados. A representação precisa dessas topologias complexas
é crucial para muitas aplicações, como animação de personagens virtuais, engenharia de tecidos e
simulação de fluidos.

6
Diferentes abordagens foram propostas para lidar com o desafio da geração de malhas com topologias
complexas. Essas abordagens se baseiam em técnicas de aprendizado profundo, como redes neurais
convolucionais e modelos generativos, que permitem capturar a estrutura e os detalhes dos objetos
em três dimensões.
Buscando abordar esse problema, foi introduzida uma abordagem baseada em esqueletos para lidar
com a complexidade das topologias. Em Tang et al. [2], ao contrário das abordagens anteriores
que se concentram na extração direta de caracterı́sticas da imagem para a geração de malhas,
esse método propõe usar um esqueleto como guia para a construção da malha tridimensional. O
esqueleto captura a estrutura básica e a disposição espacial dos objetos na imagem, permitindo uma
representação mais precisa das topologias complexas.
A metodologia de Tang et al. [2] é baseada no projeto de uma arquitetura de aprendizado profundo,
na preparação de um conjunto de dados de treinamento, na realização de estudos ablativos e na
apresentação de resultados qualitativos e quantitativos para demonstrar a eficácia da abordagem
proposta. Para gerar a malha, é utilizado um técnica baseada em Perceptron Multicamada (MLP)
na primeira etapa para inferir os pontos do esqueleto a partir da imagem RGB de entrada. Na
segunda etapa, os pontos do esqueleto inferidos são convertidos em um volume grosso usando a
técnica de voxelização. Em seguida, na terceira etapa, uma malha base é extraı́da do volume
refinado usando o algoritmo Marching Cubes. Na quarta e última etapa, a malha base é otimizada
usando uma Rede Neural Convolucional Geométrica (GCNN) especificamente projetada para esse
propósito. A GCNN ajusta os vértices da malha base, melhorando assim a qualidade e a precisão
da malha final gerada.
No estudo realizado, a abordagem proposta foi comparada com dois métodos existentes: AtlasNet
[9] e Pixel2Mesh [1]. Foram realizadas comparações utilizando cinco categorias diferentes de objetos,
incluindo plantas, bancos, cadeiras, mesas e luminárias. Para avaliar a qualidade dos resultados,
foram utilizadas duas métricas de distância: distância de Chamfer e distância de Transporte de
Emisor-Receptor.
A abordagem proposta mostrou ser efetiva e superior em comparação com outros métodos existentes,
como AtlasNet e Pixel2Mesh, em termos de métricas de distância e qualidade da malha. Além
disso, avaliações foram realizadas em diferentes categorias de objetos e resultados promissores foram
obtidos.
A abordagem proposta consegue gerar malhas de superfı́cie com topologias complexas, porém a
geração de malhas de alta resolução com detalhes finos ainda é um desafio. Melhorar a capacidade

7
de capturar detalhes mais finos na geração de malhas ainda é um desafio.
A abordagem de Tang et al. [2], assim como a de Wang et al. [1], se concentra na geração de malhas
a partir de imagens RGB individuais. Para abordar o desafio de capturar a forma tridimensional de
maneira mais precisa e considerando múltiplas perspectivas, na próxima subseção serão exploradas
técnicas baseadas no uso de múltiplas vistas e deformação.

3.2 Geração de malhas 3D por meio de abordagens baseadas em


múltiplas vistas e deformação.
Nesta seção, exploramos a geração de malhas 3D a partir de múltiplas vistas e o uso de técnicas
de deformação, como em Pixel2Mesh++ [3], que amplia a abordagem do Pixel2Mesh [1], onde
múltiplas imagens capturadas de diferentes pontos de vista são utilizadas para reconstruir o objeto.
O algoritmo primeiro estima um modelo 3D aproximado grosso do objeto usando o Pixel2Mesh
previamente treinado. Essa estimativa é então alimentada em uma rede de deformação de múltiplas
vistas. Essa rede gera várias hipóteses para cada vértice do modelo 3D aproximado. Cada hipótese é
uma possı́vel nova localização para um determinado vértice, com uma probabilidade atribuı́da. Após
a formação de um gráfico de hipóteses para cada vértice, um gráfico CNN (rede neural convolucional)
prevê os movimentos dos vértices. No próximo passo, um vetor de caracterı́sticas é atribuı́do a
cada hipótese, semelhante ao Pixel2Mesh. Isso é feito projetando o modelo 3D aproximado nos
mapas de caracterı́sticas da imagem de entrada e extraindo as caracterı́sticas correspondentes para
cada vértice. A única diferença aqui é que as caracterı́sticas de múltiplas vistas do objeto devem
ser manipuladas. O problema com a concatenação de caracterı́sticas de múltiplas vistas é que o
comprimento do vetor de caracterı́sticas não é constante e aumenta com o número de entradas de
imagens. Para resolver esse problema, para cada hipótese, os vetores de média, máximo e variância
das funções de múltiplas vistas são concatenados em um vetor de tamanho fixo. No próximo passo,
o bloco de raciocı́nio de deformação atribui uma nova localização para cada vértice. Esse bloco
atribui um peso a cada hipótese e o passa por uma função softmax. A localização final do vértice é
a soma ponderada de suas hipóteses.
Enquanto os métodos anteriores para reconstrução de malhas 3D apenas aprenderam os desloca-
mentos de um modelo de malha para deformá-lo na malha alvo, Pan et al. [10] introduzem um
novo módulo de modificação de topologia para podar as faces que se desviam significativamente da
verdade fundamental. Para podar esses erros, a rede deve estimar corretamente os erros. Portanto,

8
uma rede de estimativa de erro é treinada com uma perda quadrática para retroceder os erros de
reconstrução. Juntamente com um módulo de deformação de malha, o método proposto pode re-
construir topologias complexas a partir de um modelo de malha base de gênero-0 em alta resolução.
Além disso, uma rede de refinamento de limites também é responsável por refinar as condições de
contorno para melhorar a qualidade da malha reconstruı́da. A Figura 9 fornece uma visão geral
de todo o pipeline. Resultados quantitativos são relatados para cinco classes de ShapeNet. Esses
resultados demonstram uma melhoria de 17% em termos de CD e uma melhoria de 13,7% em EMD
em relação ao Pixel2Mesh.
Portanto, o modelo proposto por Wen et al. [3] não apenas melhora a qualidade da forma, mas
também demonstra capacidade de generalização em diferentes categorias e variações de entrada.
Os resultados experimentais apresentados no artigo mostram que o modelo proposto supera as
abordagens existentes em termos de qualidade da forma gerada e capacidade de generalização.
Apesar de o modelo proposto mostrar capacidade de generalização em diferentes categorias, ainda
podem existir desafios ao gerar formas 3D precisas para objetos com geometrias extremamente
complexas ou irregulares.
Nesse sentido, na próxima seção, exploraremos como técnicas avançadas de modelagem de superfı́cies
e o uso de deep learning estão permitindo avanços na superação dos desafios tradicionais na geração
de malhas, como a captura de topologias complexas e a obtenção de resultados mais precisos e
confiáveis.

3.3 Geração de superfı́cies 3D através de técnicas avançadas (Cam-


pos Implı́citos e Fluxos Difeomórficos)
Nesta seção, veremos técnicas avançadas para a modelagem de superfı́cies, como a utilização de
campos implı́citos, que são uma representação matemática utilizada no campo do modelamento e
geração de formas tridimensionais. Em vez de representar uma forma utilizando uma malha de
pontos discretos ou uma superfı́cie explı́cita, um campo implı́cito atribui um valor a cada ponto
do espaço, indicando sua posição em relação à forma em questão. De forma simples, um campo
implı́cito define uma função matemática que atribui um valor a cada ponto do espaço tridimensional.
Esse valor pode ser interpretado como a distância entre o ponto e a superfı́cie da forma, onde os
pontos que estão dentro da forma possuem valores negativos, os pontos na superfı́cie possuem valores
próximos a zero e os pontos fora da forma possuem valores positivos.

9
Uma das vantagens de utilizar campos implı́citos é a capacidade de capturar caracterı́sticas e de-
talhes de formas complexas de maneira eficiente. Armazenar uma função contı́nua em vez de uma
malha discreta permite uma representação mais compacta e flexı́vel da forma. Além disso, os cam-
pos implı́citos são intrinsecamente suaves, facilitando sua manipulação e processamento por meio
de técnicas de aprendizado profundo. Ao aprender a função implı́cita adequada a partir de dados
de entrada, como imagens ou nuvens de pontos, é possı́vel gerar malhas que se ajustem à forma
desejada.
Começou-se a explorar a capacidade do aprendizado automático para aprender e gerar campos
implı́citos precisos e detalhados que representam superfı́cies tridimensionais. Chen et al.[4] propõem
o decodificador de campo implı́cito IM-NET (Implicit Multilayer Perceptron Network), que é uma
arquitetura de rede neural convolucional 3D projetada especificamente para gerar representações
tridimensionais a partir de campos implı́citos. Para alcançar esse objetivo, várias etapas essenciais
são necessárias. Primeiramente, o decodificador IM-NET é treinado por meio de uma arquitetura
de rede neural convolucional 3D capaz de extrair caracterı́sticas de modelos voxel 3D usando um
codificador de rede neural convolucional 3D. Para melhorar a qualidade e a resolução das formas
geradas, técnicas de treinamento progressivo são empregadas. Isso envolve treinar o modelo em
resoluções voxel cada vez mais altas, o que permite capturar detalhes mais finos e obter resultados
mais precisos. Uma vez que o decodificador IM-NET está treinado e as caracterı́sticas relevantes
foram extraı́das, ele é aplicado para gerar formas 3D a partir dessas caracterı́sticas. O decodificador
utiliza as informações aprendidas para criar representações tridimensionais de alta qualidade.
Vários experimentos foram realizados, medindo métricas como Mean Squared Error (MSE), In-
tersection over Union (IoU), Symmetric Chamfer Distance (CD) e Low Frequency Displacement
(LFD). Alguns dos experimentos incluı́ram a auto-codificação de formas, em que o decodificador
IM-NET foi comparado a outros modelos de auto-codificação de formas 3D, como o autoencoder
variacional (VAE) e o autoencoder adversarial (AAE). Também foram realizados experimentos de
geração de formas 2D e 3D, comparando o decodificador IM-NET a outros modelos de geração de
formas 2D e 3D, como a generative adversarial network (GAN) e o variational autoencoder (VAE).
Além disso, foram comparados o decodificador IM-NET com outros modelos de reconstrução de
formas 3D a partir de uma única vista, como o 3D-R2N2 e o Pixel2Mesh.
Os resultados dos experimentos mostram que, em termos de métricas como MSE, IoU e CD, o
modelo IM-NET não supera outros modelos, como o CNN-AE, na maioria das categorias. No
entanto, é importante ressaltar que, mesmo assim, a avaliação visual revela que o IM-NET produz

10
melhores resultados em termos de qualidade visual. São apresentados resultados visuais, como
interpolação de formas 3D, que mostram a suavidade das superfı́cies geradas pelo IM-NET e sua
capacidade de lidar com mudanças topológicas. Esses resultados visuais corroboram a afirmação de
que o IM-NET produz melhores resultados em termos de qualidade visual, mesmo que as métricas
tradicionais possam favorecer outros modelos.
Agora, vamos abordar o fluxo difeomórfico, que se refere a uma técnica utilizada na geração de
malhas tridimensionais, permitindo transformar suave e continuamente uma malha inicial em uma
malha alvo por meio de uma série de deformações difeomórficas.
Nesse contexto, difeomorfismo refere-se a uma transformação biunı́voca que é suave e cuja inversa
também é suave. Em outras palavras, o fluxo difeomórfico assegura que não ocorram distorções
drásticas ou buracos na malha durante o processo de deformação. Isso é importante para manter a
integridade e a coerência estrutural da malha.
O fluxo difeomórfico é baseado em técnicas de otimização e é modelado como um campo vetorial
que descreve a direção e a magnitude das deformações a serem aplicadas em cada ponto da malha.
Por meio da iteração desse campo vetorial, as posições dos vértices da malha inicial são atualizadas,
gerando uma transformação suave e contı́nua em direção à malha alvo.
Essa técnica possui várias vantagens, pois permite gerar malhas tridimensionais de alta qualidade,
sem defeitos topológicos e com alta fidelidade visual. Além disso, o fluxo difeomórfico é capaz de se
adaptar a diferentes formas e estruturas, tornando-o especialmente útil na geração de malhas com
topologias complexas.
Portanto, para gerar malhas 3D de alta qualidade com topologias adequadas e sem defeitos, foram
feitos esforços para aprender e controlar o fluxo difeomórfico por meio do uso de redes neurais.
Chandraker et al.[5] propõem um enfoque baseado no treinamento de uma rede neural para aprender
um mapeamento difeomórfico entre uma malha de referência e uma malha alvo. Esse mapeamento
difeomórfico é usado para orientar a transformação suave da malha de referência em direção à forma
alvo, gerando assim uma malha tridimensional de alta qualidade.
Para realizar esse processo, são realizadas várias etapas fundamentais. Primeiramente, ocorre o pré-
processamento dos dados, que consiste em coletar e preparar os modelos tridimensionais existentes
e suas respectivas malhas.
Em seguida, é realizado o projeto da arquitetura da rede neural a ser utilizada no processo. Isso
envolve definir e projetar a estrutura da rede, selecionando o tipo adequado de rede neural, como
redes neurais convolucionais (CNNs) ou redes generativas adversárias (GANs), e configurando suas

11
camadas e parâmetros especı́ficos.
Posteriormente, é realizado o treinamento da rede neural usando um conjunto de dados de treina-
mento apropriado. Durante esse processo, a rede aprende a gerar fluxos difeomórficos que permitem
transformar as malhas de entrada nas malhas desejadas. São empregadas técnicas de otimização
para ajustar os pesos e parâmetros da rede, melhorando assim seu desempenho.
Uma vez que a rede neural está treinada, ela é utilizada para a geração de malhas 3D a partir dos
modelos de entrada. A rede aplica os fluxos difeomórficos aprendidos para deformar e ajustar as
malhas originais, criando malhas 3D suaves e contı́nuas.
Nos experimentos realizados, foi demonstrado que a abordagem proposta supera outros métodos de
referência na geração de malhas 3D, como MeshNet, AtlasNet, Pixel2Mesh e DeepSDF, em termos
de qualidade visual, fidelidade da forma e preservação da topologia, para avaliar o desempenho
das malhas geradas. Dessa forma, são validadas as vantagens de utilizar fluxos difeomórficos para
alcançar uma geração precisa e suave de malhas.

4 Conclusion
De acordo com os estudos e resultados apresentados neste trabalho, pode-se concluir que o aprendi-
zado profundo tem se mostrado uma ferramenta poderosa para o modelamento de superfı́cies. Em
comparação com os métodos tradicionais, tem sido demonstrado que é mais eficaz e preciso. Ao
longo do tempo, as abordagens evoluı́ram, tornando o modelamento de superfı́cies cada vez mais
detalhado e complexo.
Inicialmente, imagens RGB individuais foram utilizadas para gerar modelos de malhas 3D. Em se-
guida, métodos baseados em esqueletos foram introduzidos para gerar superfı́cies 3D com topologias
complexas. Essas abordagens foram ainda mais aprimoradas ao considerar múltiplas visualizações e
utilizar técnicas de deformação. Posteriormente, foram exploradas abordagens avançadas, como os
campos implı́citos, que podem capturar caracterı́sticas e detalhes de formas complexas na geração
de malhas. Por fim, foram desenvolvidos os fluxos difeomórficos, que permitem gerar malhas com
topologias adequadas e sem defeitos.
Embora tenha havido uma melhoria significativa em comparação com os métodos tradicionais, é
importante destacar que ainda existem desafios a serem superados no modelamento de superfı́cies
por meio do uso do aprendizado profundo. A complexidade e diversidade das superfı́cies representam
um desafio, pois os modelos precisam ser suficientemente flexı́veis para representar uma ampla

12
variedade de formas e estruturas. Além disso, a generalização para casos não vistos é um aspecto
relevante no modelamento de superfı́cies, onde podem surgir novas formas e estruturas que não
foram observadas durante o treinamento. Melhorar a capacidade dos modelos de generalizar e lidar
com casos não vistos é um desafio importante.
Para superar esses desafios, sugere-se pesquisar e desenvolver arquiteturas de redes neurais mais es-
pecializadas, como redes generativas adversárias (GANs), redes neurais convolucionais (CNNs) em
3D ou redes com atenção espacial. Essas arquiteturas podem permitir uma melhor representação
e modelagem das superfı́cies. Além disso, pode-se utilizar a transferência de aprendizado e o trei-
namento com dados sintéticos. A transferência de aprendizado permite aprimorar a generalização
por meio de técnicas que adaptam modelos treinados em conjuntos de dados relacionados a um
conjunto alvo mais limitado. Também podem ser utilizados dados sintéticos gerados por técnicas
de simulação para aumentar a diversidade do conjunto de treinamento e melhorar a capacidade de
generalização. Essas abordagens representam possı́veis caminhos para superar os desafios atuais na
pesquisa sobre como melhorar o modelamento de superfı́cies usando Deep Learning.

Referências
[1] N. Wang, Y. Zhang, Z. Li, Y. Fu, W. Liu, and Y.-G. Jiang, “Pixel2mesh: Generating 3d mesh
models from single rgb images,” in Proceedings of the European conference on computer vision
(ECCV), 2018, pp. 52–67.

[2] J. Tang, X. Han, J. Pan, K. Jia, and X. Tong, “A skeleton-bridged deep learning approach for
generating meshes of complex topologies from single rgb images,” in Proceedings of the ieee/cvf
conference on computer vision and pattern recognition, 2019, pp. 4541–4550.

[3] C. Wen, Y. Zhang, Z. Li, and Y. Fu, “Pixel2mesh++: Multi-view 3d mesh generation via
deformation,” in Proceedings of the IEEE/CVF international conference on computer vision,
2019, pp. 1042–1051.

[4] Z. Chen and H. Zhang, “Learning implicit fields for generative shape modeling,” in Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 5939–
5948.

[5] K. G. M. Chandraker, “Neural mesh flow: 3d manifold mesh generation via diffeomorphic
flows,” arXiv preprint arXiv:2007.10973, 2020.

13
[6] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, “The graph neural
network model,” IEEE transactions on neural networks, vol. 20, no. 1, pp. 61–80, 2008.

[7] M. M. Bronstein, J. Bruna, Y. LeCun, A. Szlam, and P. Vandergheynst, “Geometric deep


learning: going beyond euclidean data,” IEEE Signal Processing Magazine, vol. 34, no. 4, pp.
18–42, 2017.

[8] M. Defferrard, X. Bresson, and P. Vandergheynst, “Convolutional neural networks on graphs


with fast localized spectral filtering,” Advances in neural information processing systems,
vol. 29, 2016.

[9] Q. Yu, C. Yang, and H. Wei, “Part-wise atlasnet for 3d point cloud reconstruction from a single
image,” Knowledge-Based Systems, vol. 242, p. 108395, 2022.

[10] X. Pan, B. Dai, Z. Liu, C. C. Loy, and P. Luo, “Do 2d gans know 3d shape? unsupervised 3d
shape reconstruction from 2d image gans,” arXiv preprint arXiv:2011.00844, 2020.

[11] T. Samavati and M. Soryani, “Deep learning-based 3d reconstruction: A survey,” Artificial


Intelligence Review, pp. 1–45, 2023.

14

Você também pode gostar