Monografia CG
Monografia CG
Monografia CG
1 Abstract
Este trabalho investiga como o aprendizado profundo pode melhorar a modelagem de superfı́cies
na reconstrução 3D. Abordagens tradicionais enfrentam dificuldades para capturar a complexidade
e os detalhes precisos das superfı́cies. Este trabalho apresenta avanços na geração de malhas a
partir de imagens RGB, abordagens baseadas em esqueletos para malhas complexas, técnicas de
múltiplas vistas e baseadas em deformações, campos implı́citos e fluxos difeomórficos. Avaliações
experimentais demonstram a eficácia dessas abordagens na geração de modelos de malhas 3D pre-
cisos e detalhados. As técnicas propostas abrem novas perspectivas para melhorar a modelagem de
superfı́cies por meio do aprendizado profundo.
2 Introdução
A reconstrução em 3D tem sido um campo de pesquisa fundamental para capturar e representar
objetos tridimensionais do mundo real. À medida que a demanda por modelos 3D precisos e
detalhados continua crescendo em áreas como animação, realidade virtual e engenharia, surge a
necessidade de técnicas mais avançadas que permitam aprimorar a modelagem de superfı́cies.
A modelagem de superfı́cies, como um ramo-chave da reconstrução em 3D, concentra-se na criação de
representações digitais de objetos tridimensionais com superfı́cies definidas. No entanto, apesar dos
avanços alcançados até o momento, os métodos tradicionais ainda apresentam desafios na captura
da complexidade e dos detalhes precisos das superfı́cies.
É aqui que entra o deep learning. Essa poderosa técnica de aprendizado automático demonstrou sua
capacidade de aprender padrões complexos e representações abstratas a partir de grandes volumes
de dados. Ao aplicar o deep learning à modelagem de superfı́cies, novas possibilidades são abertas
para melhorar a precisão e a qualidade das representações tridimensionais.
Esse enfoque baseado em redes neurais tem se mostrado altamente eficaz e preciso na geração de
malhas 3D a partir de imagens RGB. Neste trabalho, exploraremos os avanços mais significativos
nessa área, que vão desde a geração de malhas 3D a partir de imagens individuais até abordagens
baseadas em múltiplas vistas e técnicas de deformação, e, por fim, técnicas avançadas como campos
implı́citos e fluxos difeomórficos.
A primeira abordagem que examinaremos concentra-se na geração de malhas 3D a partir de imagens
RGB individuais. Wang et al.[1] propõem uma abordagem inicial que estabelece as bases para a
geração de malhas usando o Deep Learning, e seus resultados têm sido promissores na melhoria da
modelagem de superfı́cies.
Continuando com o desenvolvimento de abordagens mais sofisticadas, Tang et al.[2] propõem uma
abordagem inovadora que utiliza esqueletos para gerar malhas tridimensionais com topologias com-
plexas, superando assim um dos desafios-chave na modelagem de superfı́cies.
Na próxima etapa de pesquisa, exploraremos a geração de malhas 3D usando abordagens baseadas
em múltiplas vistas e técnicas de deformação. Um dos trabalhos destacados nessa área é o de
Wen et al.[3]. Essa abordagem amplia a geração de malhas considerando múltiplas perspectivas de
um objeto e aplicando técnicas de deformação para obter maior precisão e coerência nos modelos
gerados.
Na última seção, mergulharemos em técnicas avançadas de geração de malhas 3D, especificamente o
2
uso de campos implı́citos e fluxos difeomórficos. Chen et al.[4] propõem o uso de campos implı́citos
para capturar caracterı́sticas e detalhes de formas complexas na geração de malhas. Por outro lado,
Chandraker et al.[5] introduzem uma técnica baseada em fluxos difeomórficos para gerar malhas 3D
de maneira suave e contı́nua, obtendo assim malhas com topologias adequadas e sem defeitos.
3
baseada em grafos e técnicas de deformação progressiva para produzir uma malha triangular precisa
e detalhada que representa a forma 3D do objeto.
O processo de geração da malha 3D ocorre seguindo os seguintes passos:
Primeiramente, é feito um pré-processamento da imagem RGB de entrada para normalizar os valores
dos pixels e ajustar o tamanho da imagem de acordo com os requisitos do modelo.
Em seguida, é utilizada uma rede neural convolucional (CNN) pré-treinada, como a VGG-16, para
extrair caracterı́sticas perceptuais da imagem. Essas caracterı́sticas são obtidas a partir de camadas
intermediárias da CNN e capturam informações semânticas e de texturas relevantes para a geração
da malha 3D. Posteriormente, é gerada uma malha inicial utilizando uma forma básica, como uma
esfera ou elipsoide. Essa malha inicial é deformada progressivamente para se ajustar à forma do
objeto na imagem. Para incorporar a informação perceptual na geração da malha e melhorar
a precisão da reconstrução, é utilizada uma camada de projeção que mapeia as caracterı́sticas
extraı́das da imagem para a geometria 3D da malha. Em seguida, é feita uma deformação iterativa
da malha inicial utilizando uma rede neural convolucional baseada em grafos, Graph Convolutional
Networks (GCN) (Scarselli et al.[6]; Bronstein et al.[7]; Defferrard et al.[8]). Essa rede atualiza as
posições dos vértices da malha em cada iteração para que se ajustem melhor à forma do objeto na
imagem. É empregada uma estratégia de ”coarse-to-fine”para estabilizar o processo de deformação.
Isso implica em fazer deformações em grande escala nas primeiras etapas e refinar os detalhes em
etapas posteriores, capturando tanto a estrutura geral quanto os detalhes finos da forma 3D. Por
fim, são definidas várias funções de perda para guiar a geração da malha e garantir um melhor
desempenho do sistema. Essas funções de perda ajudam a otimizar o processo e garantir uma
geração de malha de alta qualidade.
Foram realizados vários experimentos para avaliar a efetividade da abordagem proposta na geração
de modelos de malha 3D a partir de imagens RGB. Em particular, o método proposto foi compa-
rado com dois métodos existentes de reconstrução 3D a partir de imagens RGB: 3D-R2N2 e PSG.
Foram utilizadas várias métricas de avaliação, como Precisão e Revocação, F-Score, Distância de
Chamfer (CD) e Distância do Transporte Terrestre (EMD), que medem a precisão da superfı́cie, a
continuidade, a suavidade e os detalhes de alta ordem.
Os resultados experimentais mostraram que a abordagem proposta superou significativamente os
métodos existentes em termos de precisão da superfı́cie e detalhes de alta ordem. Além disso,
foi realizado um estudo ablativo para analisar a importância de cada componente no modelo. De
forma geral, os resultados experimentais sugerem que a abordagem proposta é efetiva na geração
4
Figura 1: A rede de deformação de malha em cascata. O modelo completo contém três
malhas de deformação. Cada bloco aumenta a resolução da malha e estima as permanências
dos vértices, que são então usadas para extrair caracterı́sticas de imagens perceptivas da
CNN 2D para o próximo bloco.
5
Tabela 2: CD e EMD no conjunto de testes ShapeNet. Menor é melhor. Os melhores
resultados em cada limiar estão em negrito.
6
Diferentes abordagens foram propostas para lidar com o desafio da geração de malhas com topologias
complexas. Essas abordagens se baseiam em técnicas de aprendizado profundo, como redes neurais
convolucionais e modelos generativos, que permitem capturar a estrutura e os detalhes dos objetos
em três dimensões.
Buscando abordar esse problema, foi introduzida uma abordagem baseada em esqueletos para lidar
com a complexidade das topologias. Em Tang et al. [2], ao contrário das abordagens anteriores
que se concentram na extração direta de caracterı́sticas da imagem para a geração de malhas,
esse método propõe usar um esqueleto como guia para a construção da malha tridimensional. O
esqueleto captura a estrutura básica e a disposição espacial dos objetos na imagem, permitindo uma
representação mais precisa das topologias complexas.
A metodologia de Tang et al. [2] é baseada no projeto de uma arquitetura de aprendizado profundo,
na preparação de um conjunto de dados de treinamento, na realização de estudos ablativos e na
apresentação de resultados qualitativos e quantitativos para demonstrar a eficácia da abordagem
proposta. Para gerar a malha, é utilizado um técnica baseada em Perceptron Multicamada (MLP)
na primeira etapa para inferir os pontos do esqueleto a partir da imagem RGB de entrada. Na
segunda etapa, os pontos do esqueleto inferidos são convertidos em um volume grosso usando a
técnica de voxelização. Em seguida, na terceira etapa, uma malha base é extraı́da do volume
refinado usando o algoritmo Marching Cubes. Na quarta e última etapa, a malha base é otimizada
usando uma Rede Neural Convolucional Geométrica (GCNN) especificamente projetada para esse
propósito. A GCNN ajusta os vértices da malha base, melhorando assim a qualidade e a precisão
da malha final gerada.
No estudo realizado, a abordagem proposta foi comparada com dois métodos existentes: AtlasNet
[9] e Pixel2Mesh [1]. Foram realizadas comparações utilizando cinco categorias diferentes de objetos,
incluindo plantas, bancos, cadeiras, mesas e luminárias. Para avaliar a qualidade dos resultados,
foram utilizadas duas métricas de distância: distância de Chamfer e distância de Transporte de
Emisor-Receptor.
A abordagem proposta mostrou ser efetiva e superior em comparação com outros métodos existentes,
como AtlasNet e Pixel2Mesh, em termos de métricas de distância e qualidade da malha. Além
disso, avaliações foram realizadas em diferentes categorias de objetos e resultados promissores foram
obtidos.
A abordagem proposta consegue gerar malhas de superfı́cie com topologias complexas, porém a
geração de malhas de alta resolução com detalhes finos ainda é um desafio. Melhorar a capacidade
7
de capturar detalhes mais finos na geração de malhas ainda é um desafio.
A abordagem de Tang et al. [2], assim como a de Wang et al. [1], se concentra na geração de malhas
a partir de imagens RGB individuais. Para abordar o desafio de capturar a forma tridimensional de
maneira mais precisa e considerando múltiplas perspectivas, na próxima subseção serão exploradas
técnicas baseadas no uso de múltiplas vistas e deformação.
8
uma rede de estimativa de erro é treinada com uma perda quadrática para retroceder os erros de
reconstrução. Juntamente com um módulo de deformação de malha, o método proposto pode re-
construir topologias complexas a partir de um modelo de malha base de gênero-0 em alta resolução.
Além disso, uma rede de refinamento de limites também é responsável por refinar as condições de
contorno para melhorar a qualidade da malha reconstruı́da. A Figura 9 fornece uma visão geral
de todo o pipeline. Resultados quantitativos são relatados para cinco classes de ShapeNet. Esses
resultados demonstram uma melhoria de 17% em termos de CD e uma melhoria de 13,7% em EMD
em relação ao Pixel2Mesh.
Portanto, o modelo proposto por Wen et al. [3] não apenas melhora a qualidade da forma, mas
também demonstra capacidade de generalização em diferentes categorias e variações de entrada.
Os resultados experimentais apresentados no artigo mostram que o modelo proposto supera as
abordagens existentes em termos de qualidade da forma gerada e capacidade de generalização.
Apesar de o modelo proposto mostrar capacidade de generalização em diferentes categorias, ainda
podem existir desafios ao gerar formas 3D precisas para objetos com geometrias extremamente
complexas ou irregulares.
Nesse sentido, na próxima seção, exploraremos como técnicas avançadas de modelagem de superfı́cies
e o uso de deep learning estão permitindo avanços na superação dos desafios tradicionais na geração
de malhas, como a captura de topologias complexas e a obtenção de resultados mais precisos e
confiáveis.
9
Uma das vantagens de utilizar campos implı́citos é a capacidade de capturar caracterı́sticas e de-
talhes de formas complexas de maneira eficiente. Armazenar uma função contı́nua em vez de uma
malha discreta permite uma representação mais compacta e flexı́vel da forma. Além disso, os cam-
pos implı́citos são intrinsecamente suaves, facilitando sua manipulação e processamento por meio
de técnicas de aprendizado profundo. Ao aprender a função implı́cita adequada a partir de dados
de entrada, como imagens ou nuvens de pontos, é possı́vel gerar malhas que se ajustem à forma
desejada.
Começou-se a explorar a capacidade do aprendizado automático para aprender e gerar campos
implı́citos precisos e detalhados que representam superfı́cies tridimensionais. Chen et al.[4] propõem
o decodificador de campo implı́cito IM-NET (Implicit Multilayer Perceptron Network), que é uma
arquitetura de rede neural convolucional 3D projetada especificamente para gerar representações
tridimensionais a partir de campos implı́citos. Para alcançar esse objetivo, várias etapas essenciais
são necessárias. Primeiramente, o decodificador IM-NET é treinado por meio de uma arquitetura
de rede neural convolucional 3D capaz de extrair caracterı́sticas de modelos voxel 3D usando um
codificador de rede neural convolucional 3D. Para melhorar a qualidade e a resolução das formas
geradas, técnicas de treinamento progressivo são empregadas. Isso envolve treinar o modelo em
resoluções voxel cada vez mais altas, o que permite capturar detalhes mais finos e obter resultados
mais precisos. Uma vez que o decodificador IM-NET está treinado e as caracterı́sticas relevantes
foram extraı́das, ele é aplicado para gerar formas 3D a partir dessas caracterı́sticas. O decodificador
utiliza as informações aprendidas para criar representações tridimensionais de alta qualidade.
Vários experimentos foram realizados, medindo métricas como Mean Squared Error (MSE), In-
tersection over Union (IoU), Symmetric Chamfer Distance (CD) e Low Frequency Displacement
(LFD). Alguns dos experimentos incluı́ram a auto-codificação de formas, em que o decodificador
IM-NET foi comparado a outros modelos de auto-codificação de formas 3D, como o autoencoder
variacional (VAE) e o autoencoder adversarial (AAE). Também foram realizados experimentos de
geração de formas 2D e 3D, comparando o decodificador IM-NET a outros modelos de geração de
formas 2D e 3D, como a generative adversarial network (GAN) e o variational autoencoder (VAE).
Além disso, foram comparados o decodificador IM-NET com outros modelos de reconstrução de
formas 3D a partir de uma única vista, como o 3D-R2N2 e o Pixel2Mesh.
Os resultados dos experimentos mostram que, em termos de métricas como MSE, IoU e CD, o
modelo IM-NET não supera outros modelos, como o CNN-AE, na maioria das categorias. No
entanto, é importante ressaltar que, mesmo assim, a avaliação visual revela que o IM-NET produz
10
melhores resultados em termos de qualidade visual. São apresentados resultados visuais, como
interpolação de formas 3D, que mostram a suavidade das superfı́cies geradas pelo IM-NET e sua
capacidade de lidar com mudanças topológicas. Esses resultados visuais corroboram a afirmação de
que o IM-NET produz melhores resultados em termos de qualidade visual, mesmo que as métricas
tradicionais possam favorecer outros modelos.
Agora, vamos abordar o fluxo difeomórfico, que se refere a uma técnica utilizada na geração de
malhas tridimensionais, permitindo transformar suave e continuamente uma malha inicial em uma
malha alvo por meio de uma série de deformações difeomórficas.
Nesse contexto, difeomorfismo refere-se a uma transformação biunı́voca que é suave e cuja inversa
também é suave. Em outras palavras, o fluxo difeomórfico assegura que não ocorram distorções
drásticas ou buracos na malha durante o processo de deformação. Isso é importante para manter a
integridade e a coerência estrutural da malha.
O fluxo difeomórfico é baseado em técnicas de otimização e é modelado como um campo vetorial
que descreve a direção e a magnitude das deformações a serem aplicadas em cada ponto da malha.
Por meio da iteração desse campo vetorial, as posições dos vértices da malha inicial são atualizadas,
gerando uma transformação suave e contı́nua em direção à malha alvo.
Essa técnica possui várias vantagens, pois permite gerar malhas tridimensionais de alta qualidade,
sem defeitos topológicos e com alta fidelidade visual. Além disso, o fluxo difeomórfico é capaz de se
adaptar a diferentes formas e estruturas, tornando-o especialmente útil na geração de malhas com
topologias complexas.
Portanto, para gerar malhas 3D de alta qualidade com topologias adequadas e sem defeitos, foram
feitos esforços para aprender e controlar o fluxo difeomórfico por meio do uso de redes neurais.
Chandraker et al.[5] propõem um enfoque baseado no treinamento de uma rede neural para aprender
um mapeamento difeomórfico entre uma malha de referência e uma malha alvo. Esse mapeamento
difeomórfico é usado para orientar a transformação suave da malha de referência em direção à forma
alvo, gerando assim uma malha tridimensional de alta qualidade.
Para realizar esse processo, são realizadas várias etapas fundamentais. Primeiramente, ocorre o pré-
processamento dos dados, que consiste em coletar e preparar os modelos tridimensionais existentes
e suas respectivas malhas.
Em seguida, é realizado o projeto da arquitetura da rede neural a ser utilizada no processo. Isso
envolve definir e projetar a estrutura da rede, selecionando o tipo adequado de rede neural, como
redes neurais convolucionais (CNNs) ou redes generativas adversárias (GANs), e configurando suas
11
camadas e parâmetros especı́ficos.
Posteriormente, é realizado o treinamento da rede neural usando um conjunto de dados de treina-
mento apropriado. Durante esse processo, a rede aprende a gerar fluxos difeomórficos que permitem
transformar as malhas de entrada nas malhas desejadas. São empregadas técnicas de otimização
para ajustar os pesos e parâmetros da rede, melhorando assim seu desempenho.
Uma vez que a rede neural está treinada, ela é utilizada para a geração de malhas 3D a partir dos
modelos de entrada. A rede aplica os fluxos difeomórficos aprendidos para deformar e ajustar as
malhas originais, criando malhas 3D suaves e contı́nuas.
Nos experimentos realizados, foi demonstrado que a abordagem proposta supera outros métodos de
referência na geração de malhas 3D, como MeshNet, AtlasNet, Pixel2Mesh e DeepSDF, em termos
de qualidade visual, fidelidade da forma e preservação da topologia, para avaliar o desempenho
das malhas geradas. Dessa forma, são validadas as vantagens de utilizar fluxos difeomórficos para
alcançar uma geração precisa e suave de malhas.
4 Conclusion
De acordo com os estudos e resultados apresentados neste trabalho, pode-se concluir que o aprendi-
zado profundo tem se mostrado uma ferramenta poderosa para o modelamento de superfı́cies. Em
comparação com os métodos tradicionais, tem sido demonstrado que é mais eficaz e preciso. Ao
longo do tempo, as abordagens evoluı́ram, tornando o modelamento de superfı́cies cada vez mais
detalhado e complexo.
Inicialmente, imagens RGB individuais foram utilizadas para gerar modelos de malhas 3D. Em se-
guida, métodos baseados em esqueletos foram introduzidos para gerar superfı́cies 3D com topologias
complexas. Essas abordagens foram ainda mais aprimoradas ao considerar múltiplas visualizações e
utilizar técnicas de deformação. Posteriormente, foram exploradas abordagens avançadas, como os
campos implı́citos, que podem capturar caracterı́sticas e detalhes de formas complexas na geração
de malhas. Por fim, foram desenvolvidos os fluxos difeomórficos, que permitem gerar malhas com
topologias adequadas e sem defeitos.
Embora tenha havido uma melhoria significativa em comparação com os métodos tradicionais, é
importante destacar que ainda existem desafios a serem superados no modelamento de superfı́cies
por meio do uso do aprendizado profundo. A complexidade e diversidade das superfı́cies representam
um desafio, pois os modelos precisam ser suficientemente flexı́veis para representar uma ampla
12
variedade de formas e estruturas. Além disso, a generalização para casos não vistos é um aspecto
relevante no modelamento de superfı́cies, onde podem surgir novas formas e estruturas que não
foram observadas durante o treinamento. Melhorar a capacidade dos modelos de generalizar e lidar
com casos não vistos é um desafio importante.
Para superar esses desafios, sugere-se pesquisar e desenvolver arquiteturas de redes neurais mais es-
pecializadas, como redes generativas adversárias (GANs), redes neurais convolucionais (CNNs) em
3D ou redes com atenção espacial. Essas arquiteturas podem permitir uma melhor representação
e modelagem das superfı́cies. Além disso, pode-se utilizar a transferência de aprendizado e o trei-
namento com dados sintéticos. A transferência de aprendizado permite aprimorar a generalização
por meio de técnicas que adaptam modelos treinados em conjuntos de dados relacionados a um
conjunto alvo mais limitado. Também podem ser utilizados dados sintéticos gerados por técnicas
de simulação para aumentar a diversidade do conjunto de treinamento e melhorar a capacidade de
generalização. Essas abordagens representam possı́veis caminhos para superar os desafios atuais na
pesquisa sobre como melhorar o modelamento de superfı́cies usando Deep Learning.
Referências
[1] N. Wang, Y. Zhang, Z. Li, Y. Fu, W. Liu, and Y.-G. Jiang, “Pixel2mesh: Generating 3d mesh
models from single rgb images,” in Proceedings of the European conference on computer vision
(ECCV), 2018, pp. 52–67.
[2] J. Tang, X. Han, J. Pan, K. Jia, and X. Tong, “A skeleton-bridged deep learning approach for
generating meshes of complex topologies from single rgb images,” in Proceedings of the ieee/cvf
conference on computer vision and pattern recognition, 2019, pp. 4541–4550.
[3] C. Wen, Y. Zhang, Z. Li, and Y. Fu, “Pixel2mesh++: Multi-view 3d mesh generation via
deformation,” in Proceedings of the IEEE/CVF international conference on computer vision,
2019, pp. 1042–1051.
[4] Z. Chen and H. Zhang, “Learning implicit fields for generative shape modeling,” in Proceedings
of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 5939–
5948.
[5] K. G. M. Chandraker, “Neural mesh flow: 3d manifold mesh generation via diffeomorphic
flows,” arXiv preprint arXiv:2007.10973, 2020.
13
[6] F. Scarselli, M. Gori, A. C. Tsoi, M. Hagenbuchner, and G. Monfardini, “The graph neural
network model,” IEEE transactions on neural networks, vol. 20, no. 1, pp. 61–80, 2008.
[9] Q. Yu, C. Yang, and H. Wei, “Part-wise atlasnet for 3d point cloud reconstruction from a single
image,” Knowledge-Based Systems, vol. 242, p. 108395, 2022.
[10] X. Pan, B. Dai, Z. Liu, C. C. Loy, and P. Luo, “Do 2d gans know 3d shape? unsupervised 3d
shape reconstruction from 2d image gans,” arXiv preprint arXiv:2011.00844, 2020.
14