Rdazzi,+202180 OK1

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 3

Um Modelo de Rede Neural Convolucional para Classificação de

Peças de Vestuário
Anita Maria da Rocha Fernandes Andrei Hodecker
Ciência da Computação Pós Graduação em Big Data
Universidade do Vale do Itajaí - UNIVALI Universidade do Vale do Itajaí - UNIVALI
São José, SC, Brasil São José, SC, Brasil
[email protected] [email protected]

ABSTRACT visual é uma boa forma de fazer predição, superando dados


textuais e metadados.
An algorithm capable of identifying clothing parts can be very
useful for identifying a person´s social identity, among other Kalantidis et al. [2] exploram a ideia de automaticamente
applications. Convolutional neural networks models have been sugerir produtos de vestuário usando uma única imagem como
shown to be efficient in the task of image classification. This referência, em um primeiro estágio identificando as categorias de
paper explores and analyzes models of convolutional neural roupas na imagem e em seguida buscando peças similares. Já em
networks in the task of classifying clothing parts by images. The Yamaguchi et al. [1], além de um categorizador de roupas, são
models presented in this paper showed higher accuracy compared apresentados resultados inicias promissores no uso de dados do
to non-convolutional models of the literature. vestuário para estimar poses. Um dos datasets mais populares com
imagens de peças de vestuário é o Fashion-MNIST. Ele foi criado
KEYWORDS originalmente com o intuito de substituir por imagens de peças de
Convolutional neural networks, Clothing parts identification, vestuários o amplamente utilizado MNIST [6], que consiste em
Image analysis. imagens dígitos números escritos à mão, fornecendo assim um
conjunto de dados para classificação mais desafiador para
benchmarks de técnicas de inteligência artificial [7].
1 Introdução Assim como MNIST, o dataset Fashion-MNIST consiste em
Algoritmos capazes de identificar peças de vestuários 10 categorias para classificação e 70000 imagens em escala de
podem ser usados para aprender o estilo de moda que o cinza com 28 pixels de altura, por 28 pixels de largura. As
comprador procura e oferecer recomendações de produtos em imagens são extraídas de uma loja virtual de roupas, selecionando
lojas virtuais [1], porém todos estes produtos precisam estar apenas a imagem frontal do produto, e em seguida processadas da
previamente anotados e categorizados, e apenas uma porcentagem seguinte forma: são convertidas para o formato PNG,
muito pequena das fotografias na internet possuem metadados redimensionadas para 28 pixels, o produto é centralizado e por
relacionados a moda, isto indica que um algoritmo capaz de fim convertido em escala de cinza [7].
extrair informações de imagens pode ser mais interessante que
Os produtos são categorizados e revisados por uma equipe
anotações manuais submetidas a humanos [2].
de especialistas em moda da própria loja virtual, e as classes
As aplicações práticas para um algoritmo de análise visual possíveis são: camisetas, calças, moletom, vestido, casaco,
de vestuário são inúmeras. Brossard et al [3] apresentam um sandálias, camisas, sapatos), bolsas e botas [7].
método de aprendizado multi-classe, utilizando Random Forest e
Neste contexto, este trabalho apresenta uma pesquisa
SVM (Support Vector Machine), capaz de identificar quinze
referente a exploração e análise do uso de técnicas de deep
classes, como por exemplo, vestido longo, jaqueta, casaco, entre
learning na tarefa de classificação de peças de vestuário
outros. Wang et al [4], propõem além de um classificador, um
utilizando o dataset Fashion-MNIST, e compara sua acuracidade
detector de pontos de referência (landmark), utilizando um
em relação a outros modelos de aprendizagem de máquina já
modelo de rede neural bidiresional convolucional recorrente.
apresentados na academia, a fim de oferecer evidências para
Uma outra aplicação possível é a previsão de tendências de trabalhos futuros no contexto de classificação de imagens.
moda. Al-Halah et al. [5] apresentam um modelo não
supervisionado com o objetivo de prever popularidades de estilos
de moda, por exemplo, utilizando os dados de vendas de vestidos 2 Desenvolvimento
femininos em uma loja virtual, predizer os vestidos mais vendidos Foram propostos quatro modelos de redes neurais
nos próximos 12 meses. Os resultados indicam que a análise convolucionais, inspiradas principalmente no trabalho de LeCun
XI Computer on the Beach
Fernandes et al.
2 a 4 de Setembro de 2020, Baln. Camboriú, SC, Brasil

et al. [6]. Todas utilizam a mesma inicialização de parâmetros


para que seja justo a comparação entre elas. A inicialização de He
[8] foi escolhida, pois esta demonstra superioridade em convergir
com ativações não-lineares [8] A acurácia e perda (loss) da rede
neural foram aferidas utilizando os datasets de treinamento e teste
já divididos randomicamente em [7]. Isto é importante para que
seja possível comparar estes modelos com outros da literatura que
também fazem uso dessa metodologia de avaliação. Os modelos
propostos foram nomeados com os seguintes rótulos: cnn-
dropout-1, cnn-dropout-2, cnn-droupout-3 e cnn-simple-1. Todas
fazem uso da função de ativação ReLU (Rectified Linear Units)
nas camadas treináveis, com exceção da última camada, que
utiliza softmax para classificar entre as 10 possíveis categorias.
Os modelos cnn-dropout-1 e cnn-dropout-3 fazem uso de
dois blocos seguidos contendo: uma convolução, max polling e
por fim dropout. Esses blocos, então, são ligados a mais duas Figura 2. Topologia do modelo cnn-dropout-2.
camadas totalmente conectadas e por fim a camada de saída de 10
neurônios, cada um representando uma categoria. A única Em contraste com os modelos apresentados, foi decidido
diferença entre os dois modelos é que o cnn-dropout-3 possui também analisar um modelo com um menor número de camadas.
valores de dropout consideravelmente mais baixos. O cnn-simple-1 apresenta apenas duas convoluções, seguidas de
uma camada totalmente conectada, além dos respectivos dropout
Na Figura 1 é apresentada uma representação desse modelo, e max pooling semelhantes aos outros modelos. Este modelo
bem como os valores utilizados nos kernels (k), filters (f), strides possui 110.968 parâmetros treináveisv e é apresentado na Figura
(s) e neurons (n). Esta topologia contém cerca de 44.426 3.
parâmetros treináveis.

Figura 3. Topologia do modelo cnn-dropout-2.


Todos os modelos foram programados utilizando a
Figura 1. Topologia dos modelos cnn-dropout-1 e cnn- linguagem de programação Python e o framework Keras [9],
dropout-3. utilizando como backend a biblioteca Tensorflow [10]. As
O modelo cnn-droupout-2 foi proposto com um algumas execuções dos treinamentos foram realizadas na plataforma
camadas a mais que os outros, é muito similar ao modelo cnn- Google Colab, pois esta fornece acesso a computação por GPU
dropout-1, porém conta com duas camadas de convoluções antes (Graphics Processing Unit), o que torna o processo mais rápido.
da camada de max pooling. Além disso, ele possui uma
convolução extra. Este modelo possui cerca de 32.340 parâmetros
3 Considerações Finais
treináveis e é representado na Figura 2.
Foram avaliados os quatro modelos propostos neste artigo,
todos treinados com 500 épocas e observando como convergiam
em sua acurácia (porcentagem de acerto) e perda (o quão distante
o modelo está do resultado esperado). Por fim, foi calculado tanta
a acurácia no dataset de treinamento, quanto no de testes, para fins

023
XI Computer on the Beach
Fernandes et al.
2 a 4 de Setembro de 2020, Baln. Camboriú, SC, Brasil

de identificar um possível viés. A Tabela 1 apresenta os resultados O modelo com maior acurácia foi o cnn-simple-1, com
obtidos para cada um dos modelos. 91,72%, porém com auto viés, visto que atingiu 7,19% de
diferença entre o dataset de treinamento e de testes. Já o modelo
cnn-dropout-3 também apresentou viés, pois este possui dropout
Tabela 1. Resultados obtidos dos modelos propostos consideravelmente menor que seu semelhante cnn-dropout-1. O
Loss Acurácia modelo com mais tempo de treinamento foi o cnn-dropout-2, com
Modelo Tempo 9 minutos e 16 segundos, proveniente da quantidade maior de
(Trein./Teste) (Trein./Teste)
cnn-dropout-1 6m 0,21/0.26 91,87/90,35 camada em relação a seus pares. Obteve expressivos 90,86% e
cnn-dropout-2 9m 16s 0,19/0.25 92,59/90,81 manteve um viés relativamente baixo.
cnn-dropout-3 5m 58s 0,14/0.25 94,53/90,86 Com os resultados evidenciados neste artigo, é possível
cnn-simple-1 7m 52s 0,04/0.26 98,91/91,72 concluir que modelos convolucionais possuem, de fato, mais
acurácia na tarefa de classificação de peças de vestuário em
relação a modelos de aprendizagem convencionais. Além disso,
O modelo com maior acurácia foi o cnn-simple-1, com foi possível observar que a técnica dropout e mais camadas
91,72%, porém com auto viés, visto que atingiu 7,19% de convolutivas são eficazes em diminuir o viés de um determinado
diferença entre o dataset de treinamento e de testes. Já o modelo modelo. Contudo, não foram exploradas neste artigo técnicas de
cnn-dropout-3 também apresentou viés, pois este possui dropout augmentation no dataset de imagens, esta técnica deve diminuir
consideravelmente menor que seu semelhante cnn-dropout-1. O consideravelmente o viés e aumentar a capacidade de
modelo com mais tempo de treinamento foi o cnn-dropout-2, com generalização dos modelos.
9 minutos e 16 segundos, proveniente da quantidade maior de
camada em relação a seus pares. Obteve expressivos 90,86% e
REFERÊNCIAS
manteve um viés relativamente baixo. [1] K. Yamaguchi, K, M. H. Kiapour, L. E. Ortiz, T. L. Berg. (2012). Parsing
clothing in fashion photographs. In 2012 IEEE Conference on Computer Vision
Utilizando o mesmo dataset de testes, é possível comparar and Pattern Recognition, pages 3570–3577, Providence, RI. IEEE.
estes modelos com algoritmos tradicionais não-convolutivos de [2] Y. Kalantidis, L. Kennedy, L. J. Li. (2013). Getting the look: Clothing
recognition and segmentation for automatic product suggestions in everyday
aprendizagem de máquina. Em relação aos modelos avaliados em photos. In Proceedings of the 3rd ACM Conference on International Conference
Xiao et al [7], todos os quatro modelos convolucionais deste on Multimedia Retrieval - ICMR ’13, page 105, Dallas, Texas, USA. ACM
artigo obtiveram acurácia superior ao modelo com maior acurácia, Press.
[3] L. Bossard, M. Dantone, C. Leistner, C. Wengert, T. Quack, L. Van Gool
como pode-se observar na Tabela 2. Foi considerado na tabela (2013). Apparel Classification with Style. In D. Hutchison, T. Kanade, J.
apenas o melhor resultado de cada um destes algoritmos. Kittler, J. M. Kleinberg, F. Mattern, J.C. Mitchell, M. Naor, O. Nierstrasz, C.
Pandu Rangan, B. Steffen, M. Sudan, D. Terzopoulos, D. Tygar, M. Vardi, Y.
Tabela 2. Comparação com os modelos de Xiao et al [7] Weikum, K. M. Lee, Y. Matsushita, J. M. Rehg, Z. Hu, editors, Computer
Vision – ACCV 2012, volume 7727, pages 321–335. Springer Berlin
Modelo Acurácia (Teste) Heidelberg.
[4] W. Wang, Y. Xu, J. Shen, S.C. Zhu. (2018). Attentive Fashion Grammar
cnn-simple-1 91,72 Network for Fashion Landmark Detection and Clothing Category
cnn-dropout-3 90,86 Classification. page 10.
[5] Z. Al-Halah, R. Stiefelhagen, K. Grauman. (2017). Fashion Forward:
cnn-dropout-2 90,81 Forecasting Visual Style in Fashion. In 2017 IEEE International Conference on
cnn-dropout-1 90,35 Computer Vision (ICCV), pages 388–397, Venice. IEEE.
SVC 89,7 [6] Y. Le Cun, Y. Bengio, G. Hinton. (2015). Deep learning. Nature,
521(7553):436–444.
GradientBoostingClassifier 88,0 [7] H. Xiao, K. Rasul, R. Vollgraf. (2017). Fashion-MNIST: A Novel Image
RandomForestClassifier 87,3 Dataset for Benchmarking Machine Learning Algorithms. arXiv:1708.07747.
[8] K. He, X. Zhang, S. Ren, J. Sun. (2015). Delving deep into rectifiers: Surpassing
MLPClassifier 87,1 human-level performance on imagenet classification. CoRR, abs/1502.01852.
KNeighborsClassifier 85,4 [9] F. Chollet. (2015). Keras. https://keras.io.
[10] M. Abadi, A. Agarwal, P, Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado,
LogisticRegression 84,2 A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving,
LinearSVC 83,6 M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane´,
R. Monga, S., Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I.
SGDClassifier 81,9 Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Viegas, O.
DecisionTreeClassifier 79,8 Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu, X. Zheng. (2015).
TensorFlow: Large-scale machine learning on heterogeneous systems. Software
Perceptron 78,2 disponível em tensorflow.org.
PassiveAggressiveClassifier 77,6
ExtraTreeClassifier 77,5

024

Você também pode gostar