Reconstrução de Imagens em Super-Resolução
Reconstrução de Imagens em Super-Resolução
Reconstrução de Imagens em Super-Resolução
Resumo— São propostas duas arquiteturas residuais baseadas custo baseada no índice de similaridade estrutural (structural
em rede neural convolucional para aumentar a resolução de similarity – SSIM) [4]. Esse índice mede a similaridade entre
imagens em escala de cinza. Como função custo, foi considerada duas imagens, assumindo valores no intervalo [−1, 1], sendo
uma função baseada no índice de similaridade estrutural. Por
meio de simulações, verifica-se que as soluções propostas levam igual a 1 quando as duas imagens são iguais [4].
a resultados superiores aos obtidos com a interpolação bicúbica. II. S OLUÇÕES PROPOSTAS
Palavras-Chave— Super-resolução, rede neural convolucional,
As arquiteturas propostas estão mostradas na Fig. 1. Na 1ª
interpolação bicúbica, índice de similaridade estrutural.
Abordagem [Fig. 1(a)], aplica-se a interpolação bicúbica na
Abstract— Two residual architectures based on convolutional
neural networks are proposed to increase the resolution of imagem de baixa resolução. A imagem resultante já com as
grayscale images. We consider a function based on the structural dimensões desejadas entra na CNN composta de seis camadas
similarity index as a cost function. Through simulations, we convolucionais, tendo a ReLU (rectified linear unit) como
observe that the proposed solutions lead to results superior to função de ativação. Neste caso, o papel da CNN é melhorar
those obtained with the bicubic interpolation. a qualidade da imagem interpolada pelo filtro bicúbico. As
Keywords— Super-resolution, convolutional neural network,
bicubic interpolation, structural similarity index. dimensões e quantidade dos filtros por camada estão indicadas
na figura. Para adequação das dimensões, considera-se o
I. I NTRODUÇÃO processo zero padding antes de cada camada convolucional
A resolução de uma imagem digital determina sua quali- [5]. As dimensões do tensor de saída da terceira camada
dade. Por isso, a reconstrução de imagens em super-resolução (2N × 2N × 64) possibilitam extrair diferentes características
a partir de uma única imagem de baixa resolução encontra da imagem. Já o tensor de saída da última camada tem
aplicações em vigilância, imagens médicas, etc. [1]. Dentre 2N ×2N , como desejado. Além disso, são utilizadas conexões
os métodos clássicos, destaca-se a interpolação bicúbica, em residuais entre as camadas conforme indicado na Fig. 1(a).
que os valores dos pixels interpolados são calculados a partir Na 2ª Abordagem [Fig. 1(b)], não se utiliza a interpolação
de 16 pixels vizinhos [2]. Apesar de ser uma solução de bicúbica. A CNN é formada por quatro camadas convolucio-
custo computacional relativamente baixo, as imagens de alta nais com ReLU. Neste caso, a rede é responsável por aumentar
resolução obtidas com essa técnica nem sempre apresentam o tamanho da imagem e ao mesmo tempo melhorar sua
bordas nítidas e podem conter artefatos. Isso ocorre porque qualidade. Em cada camada, duas convoluções são realizadas
a interpolação bicúbica não introduz nenhuma informação em paralelo. O tensor de saída dos 32 filtros 7 × 7 da primeira
adicional, já que o valor do pixel reconstruído é obtido a partir camada tem dimensões N × N × 32. Paralelamente nesta
dos valores dos pixels de sua vizinhança [1]. camada, o resultado da convolução da imagem com os 32
Para obter melhores resultados, soluções baseadas em apren- filtros 1 × 1 levam a um tensor de mesmas dimensões para
dizado de máquina têm sido exploradas na literatura, com que seja possível fazer a conexão residual [3]. Considera-
destaque para a rede neural convolucional (convolutional neu- se novamente zero padding antes de cada convolução. Esse
ral network – CNN) (ver [1] e suas referências). A ideia é processo se repete até a quarta camada, cujo tensor de saída
que se um número suficiente de pares de imagens de baixa e tem dimensões N × N × 4. Esse tensor é então submetido
alta resolução for apresentado à CNN, ela pode “aprender” os à operação de pixel shuffle [6], em que os pixels dos quatro
detalhes inexistentes nas imagens de baixa resolução. canais são justapostos de modo a gerar uma saída 2N × 2N .
Neste artigo, são propostas duas soluções baseadas em CNN
III. S IMULAÇÕES
para aumentar a resolução de imagens em escala de cinza.
Especificamente, imagens de dimensões N × N são trans- Como banco de dados, foram utilizadas 200 imagens do
formadas em imagens de resolução mais alta com dimensões Berkeley Segmentation Dataset [7]. Dessas imagens, 150 fo-
2N × 2N . Para facilitar o treinamento, são utilizadas cone- ram utilizadas no treinamento e 50 no teste dos modelos. As
xões residuais entre as camadas do modelo [3]. Além disso, imagens do conjunto de treinamento foram transformadas em
como o erro quadrático médio não é adequado para medir a escala de cinza e recortadas considerando N = 75. As imagens
diferença perceptual entre imagens, considera-se uma função desejadas com dimensões 150×150 foram subamostradas com
um filtro bicúbico para gerar as imagens de baixa resolução
Os autores estão com o Depto. de Eng. de Sistemas Eletrônicos, Es- com dimensões 75 × 75. Em ambas as arquiteturas, foram
cola Politécnica da USP, São Paulo, SP, emails: [email protected]; utilizados os mesmos parâmetros de treinamento. Como fun-
[email protected]; [email protected]; [email protected]. Este tra-
balho foi financiado pelo CNPq (121036/2022-7 e 303826/2022-3), FAPESP ção custo considerou-se J = 1 − SSIM(Y, D), em que Y é a
(2021/02063-6) e CAPES (código de financiamento 001). imagem de alta resolução obtida com o modelo e D a desejada.
XLI SIMPÓSIO BRASILEIRO DE TELECOMUNICAÇÕES E PROCESSAMENTO DE SINAIS - SBrT 2023, 08–11 DE OUTUBRO DE 2023, SÃO JOSÉ DOS CAMPOS, SP