Textile defect detection using YOLOv5 on AITEX Dataset

Karin Komati

Textile defect detection using YOLOv5 on AITEX Dataset

Karin Komati

Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2022)

visibility

…

description

12 pages

link

1 file

Devido à identificação manual de defeitos têxteis ainda nos dias atuais, é necessário encontrar meios de detectar defeitos de forma automatizada e eficiente. Para isso, este trabalho se propõe a aplicar o modelo YOLOv5 na base de dados AITEX, usando a abordagem de detecção de objetos para localizar e identificar defeitos, avaliando diferentes técnicas de anotação de objetos e data augmentation. Com os resultados obtidos, concluiu-se que o YOLOv5 adaptou-se muito bem a outro contexto com objetos distintos do prétreinamento, as anotações com Bounding Boxes permitiram maior aprendizado e reconhecimento dos defeitos, mesmo com diferentes formas e tamanhos, e por fim, a combinação de data augmentation potencializam seu desempenho.

Textile defect detection using YOLOv5 on AITEX Dataset Rodolfo Seidel1 , Hilário Seibel Júnior1 , Karin Satie Komati1 1 Programa de Pós-graduação em Computação Aplicada (PPComp) Instituto Federal do Espı́rito Santo (IFES) Av. dos Sabiás, 330 – 29.166-630 – Serra – ES – Brazil [email protected], {hsjunior, kkomati}@ifes.edu.br Abstract. Due to the manual identification of textile defects still nowadays, it is necessary to find methods to detect defects in an automated and efficient way. Hence, this work applies YOLOv5 model in the AITEX1 dataset, using an object detection approach to locate and identify defects, evaluating different object annotation and image data augmentation techniques. From the results, it is concluded that YOLOv5 handled very well another context with distinct objects from the pre-training, annotations using Bounding Boxes allowed greater learning and recognition of defects, even with different shapes and sizes, and at last, the combination of augmentations boosted its performance. Resumo. Devido à identificação manual de defeitos têxteis ainda nos dias atuais, é necessário encontrar meios de detectar defeitos de forma automatizada e eficiente. Para isso, este trabalho se propõe a aplicar o modelo YOLOv5 na base de dados AITEX, usando a abordagem de detecção de objetos para localizar e identificar defeitos, avaliando diferentes técnicas de anotação de objetos e data augmentation. Com os resultados obtidos, concluiu-se que o YOLOv5 adaptou-se muito bem a outro contexto com objetos distintos do prétreinamento, as anotações com Bounding Boxes permitiram maior aprendizado e reconhecimento dos defeitos, mesmo com diferentes formas e tamanhos, e por fim, a combinação de data augmentation potencializam seu desempenho. 1. Introdução A indústria em geral está em meio à revolução da Indústria 4.0. Sua principal caracterı́stica é a possibilidade da automação completa do sistema produtivo através da Inteligência Artificial, eliminando erros causados pelo fator humano [Popkova et al. 2019]. Na indústria têxtil, suas particularidades dificultam a adoção de certas tecnologias em alguns processos, que continuam sendo feitos em sua maioria de forma manual e demandam um tempo significativo [Petronas 2020]. Um desses processos é a revisão de tecidos. Por possuir uma subjetividade na definição de um defeito, que é praticamente qualquer anomalia presente na superfı́cie, é feito de forma manual desde as primeiras iniciativas de automação. Somado a esse aspecto, a capacidade humana de identificação e análise variam ao longo do tempo de trabalho [Conceição 1998]. Além da fadiga, existem defeitos quase imperceptı́veis que passaram a ser mais comuns com a evolução dos maquinários. Esse avanço desafia até mesmo 1 [Silvestre-Blanes et al. 2019] AITEX Dataset: https://www.aitex.es/afid/ as pesquisas que buscam desenvolver um modelo robusto e eficiente para a detecção de defeitos, o que traz grande relevância para as pesquisas nesse campo [Jun et al. 2021]. Relatos recentes mostram que as inspeções de defeitos continuam sendo realizados em sua maioria por humanos. Apesar dos profissionais qualificados, registra-se uma acurácia manual próxima de 70%. Nesse cenário, os sistemas de inspeção visual podem otimizar o processo de produção, mantendo a detecção de defeitos têxteis em destaque no contexto de visão computacional [Jing et al. 2022]. Em uma das pesquisas, foram coletadas imagens em uma fábrica através de um sistema real. A partir daı́, criaram a base de dados AITEX para possibilitar a comparação adequada entre métodos de detecção de defeitos [Silvestre-Blanes et al. 2019]. Nesse perı́odo, já existiam algumas versões da abordagem proposta no modelo de detecção de objetos YOLO [Redmon et al. 2015]. No ano seguinte, foram lançadas a YOLOv4 [Bochkovskiy et al. 2020] e a YOLOv5 [Jocher et al. 2020]. Após a publicação das novas versões, até onde é de conhecimento, poucos trabalhos foram realizados com a versão mais recente no contexto de detecção de defeitos têxteis com a base AITEX. Os artigos de [Zheng et al. 2021] e [Jin and Niu 2021] utilizaram outras bases de imagens públicas. Este estudo se propõe a detectar defeitos têxteis aplicando a versão mais recente do YOLOv5 [Jocher et al. 2020] na base AITEX [Silvestre-Blanes et al. 2019]. Serão utilizadas as devidas técnicas e adaptações para adequar as imagens ao formato de entrada do modelo sem comprometer as caracterı́sticas originais das imagens. Assim será possı́vel comparar com os resultados dos demais trabalhos que utilizaram esta mesma base. O artigo está organizado conforme detalhes a seguir. A seção 2 apresenta alguns estudos recentes que abordam os tópicos relacionados a este trabalho; Na seção 3, estão mais detalhes das caracterı́sticas da base de dados AITEX, do modelo pré-treinado do YOLOv5, das ferramentas utilizadas na preparação da base das métricas de treinamento e validação. Já a seção 4 demonstra os experimentos e avanços obtidos, seguidos da conclusão e proposta de trabalhos futuros na seção 5. 2. Trabalhos Relacionados Em [Ouyang et al. 2019], foi proposta a rede neural convolucional PPAL-CNN avaliando diferentes funções de ativação, comparando-as com o SegNet, outro modelo de segmentação de imagens. Para realizar as avaliações do modelo, todas as imagens da base foram inspecionadas manualmente para realizar as anotações dos defeitos. Para a avaliação do modelo, foram utilizadas duas bases, uma própria dos autores contendo 1160 iamgens e a base pública TILDA2 , ambas com resultados similares e bem superiores ao SegNet. Visando criar uma ferramenta de detecção eficiente, [Jing et al. 2022] propuseram a Mobile-Unet com um foco no desempenho otimizado para tarefas em tempo real, apresentando uma convolução separável em profundidade com o MobileNetV2. Outra caracterı́stica de destaque foi a utilização da função de perda CE-MFB (cross-entropy loss with median frequency balancing) para lidar com o desbalanceamento dos dados conforme demostrado na Figura 1, aplicando pesos ponderados de acordo com a participação de cada 2 TILDA: base pública desenvolvida pelo grupo de análise têxtil DFG (Deutsche Forschungsgemeinschaft) disponı́vel em https://lmb.informatik.uni-freiburg.de/resources/datasets/tilda.en.html classe em toda a base. Com isso, alcançaram resultados superiores ao modelo U-Net com menos recursos computacionais e menos parâmetros, e consequentemente menor tempo. Figura 1. Quantidade desbalanceada de pixels defeituosos e sem defeitos. (a) Imagem original; (b) máscara com o defeito; (c) comparativo dos pixels presentes na imagem. [Jin and Niu 2021]. Na mesma linha de pesquisa, [Rong-qiang et al. 2021] construı́ram uma versão aprimorada da rede neural U-Net reduzindo o número de canais e adicionando um mecanismo de atenção com quatro vezes mais caracterı́sticas que a original para aumentar a precisão da localização. Além disso a detecção de defeitos foi tratado como um problema de classificação binária, identificando se os pixels pertencem ou não à classe defeituosa. O modelo foi validado com a base AITEX e ao fim da execução, uma imagem segmentada é gerada e nela os defeitos detectados são marcados com um retângulo para facilitar a visualização dos resultados. No estudo de [Zhou et al. 2021], foi criado um modelo hı́brido com o modelo Variational Autoencoder (VAE) extraindo as caracterı́sticas e reconstruindo as imagens sem defeitos, tornando os defeitos identificáveis ao comparar a imagem original com a reconstruı́da. Depois, o Gaussian mixture model (GMM), utilizado também para detecção de anomalias, realiza a estimativa de densidade considerando como outliers os objetos que apresentarem baixa densidade, o que ocorre com os defeitos de forma natural uma vez que o modelo é treinado apenas com as imagens sem defeitos. Os experimentos foram validados com as bases AITEX e DAGM 20073 , fragmentando as imagens originais em cortes menores de 16 × 16 pixels para suprir a insuficiência de imagens no treinamento das reconstruções. Com as possibilidades da Indústria 4.0 em mente, [Seçkin and Seçkin 2022] apresentaram o método Intertwined Frame Vector (IFV) com a intenção de detectar defeitos em aparelhos com baixo nı́vel de processamento. Para isso são extraı́das caracterı́sticas de fragmentos aleatórios a partir de janelas reduzidas das imagens originais e posteriormente, são selecionadas as cinco caracterı́sticas mais relevantes em conjunto com seus respectivos rótulos identificando o tipo de defeito. Por fim, esses dados são processados nos modelos tradicionais K-Nearest Neighbors (KNN) e Random Forest (RF). Em [Wang et al. 2021], os autores destacam duas tarefas dos modelos de detecção de objetos, a localização e classificação das áreas, e ressaltam suas complexidades na presença de formas irregulares e pequenos objetos. Para lidar com isso, adicionaram uma nova estrutura na rede neural do YOLOv5 para filtrar caracterı́sticas de outros nı́veis da rede, mantendo informações relevantes ao longo da cadeia. Essas caracterı́sticas fo3 DAGM 2007 Dataset [Wieler et al. 2007]. Disponı́vel em heidelberg.de/content/weakly-supervised-learning-industrial-optical-inspection https://hci.iwr.uni- ram tratadas em uma camada de transformação para potencializar as mais relevantes. A proposta foi construı́da na arquitetura do YOLOv5s e validada com uma base de dados contendo 3946 imagens no tamanho de 1000 × 1000 pixels com quatro tipos de defeitos, em sua maioria pequenos. Já [Zheng et al. 2021] adicionaram no backbone do YOLOv5 um módulo SE (Squeeze-and-Excitation), construı́do sobre um operador convolucional que mapeia uma entrada para um mapa de caracterı́sticas atuando como um mecanismo de atenção. Mecanismo este descrito como um viés de alocação dos recursos disponı́veis para os componentes mais relevantes de um sinal. Além disso, usaram a função de ativação ActivateOrNot (ACON), extraindo de caracterı́sticas do mapa gerado e enriquecendo as informações obtidas da imagem. O modelo foi comparado com o YOLOv5 original em uma base de dados contendo 3622 imagens. Também baseado no YOLOv5, [Jin and Niu 2021] apresentaram uma arquitetura professor-estudante com o objetivo de lidar com a baixa quantidade de imagens de defeitos disponı́veis. Para a avaliação do modelo foram utilizadas as bases TILDA e outra disponibilizada pelo Xuelang Tianchi AI Challenge, com imagens rotuladas por Bounding Boxes. Nesse estudo, os autores destacam os problemas do desbalanceamento da base e da quantidade de tipos de defeitos com caracterı́sticas muito diferentes entre si, necessitando de um mecanismo de atenção. Na área de data augmentation, [Sakkos et al. 2019] destacam suas vantagens devido à grande quantidade de dados necessários para os algoritmos de deep learning e ao alto custo de obtenção de dados rotulados, somados à baixa disponibilidade de bases públicas. Eles propõem a criação de bases relevantes que aumentem o poder de generalização dos modelos com técnicas semânticas que façam sentido no contexto do problema. Os exemplos podem ser vistos na Figura 2, como alterações de iluminação locais e globais simulando variações plausı́veis como um poste de luz durante a noite ou um clarão durante uma tempestade, combinando todas as variações possı́veis. Figura 2. Combinação de efeitos semânticos em data augmentation. (a) Imagem original; (b) Inversão; (c) Centralização; (d) Adição de ruı́dos; (e) Clareamento global com brilho localizado; (f) Clareamento global com sombra localizada; (g) Sombreamento global com brilho localizado; (h) Sombreamento global com sombra localizada. Adaptada de [Sakkos et al. 2019] 3. Materiais e Métodos 3.1. Base de Dados Neste trabalho foi utilizada a base de imagens AITEX, composta por 245 imagens de 7 tipos distintos de tecidos não identificados em um tamanho de 4.096 × 256 pixels, sendo 140 imagens sem defeitos e 105 com defeitos, distribuı́dos em 12 classes conforme a Tabela 1. Cada imagem contém uma ou mais máscaras com a localização e extensão de cada defeito (Figura 4). Tabela 1. Distribuição de imagens na base geral e somente com defeitos). Ao mapear os defeitos como objetos, estes são descritos com sua classe, posição central no eixo X, posição central no eixo Y, largura e altura (Figura 5), com um objeto por linha e valores normalizados entre 0 e 1. Assim, o modelo estará apto a localizar e identificar as caracterı́sticas de cada objeto dentro das áreas delimitadas [Jocher et al. 2020]. As anotações foram feitas manualmente a partir das máscaras da base original com Bounding Boxes e Polı́gonos através de uma ferramenta especı́fica4 que calcula e gera os descritivos de todas as anotações visuais. Durante os experimentos foram utilizadas técnicas de data augmentation. Baseado no estudo de [Sakkos et al. 2019], foram incluı́das variações plausı́veis em um ambiente industrial como ruı́dos de até 3% dos pixels, alterações de brilho entre -25% e +25% e inversões horizontais e verticais na captura das imagens (Figura 3). Cada uma das técnicas foi isolada em bases distintas e uma nova foi criada aplicando todas as variações simultaneamente, sendo quatro novas bases. Outras duas foram criadas contendo as amostras anteriores, uma nomeada Mista com as variações de Inversões, Brilhos e Ruı́dos e outra nomeada Mista Completa incluindo as amostras com Variações Simultâneas. Em todas elas, as imagens originais estavam presentes somente nas etapas de validação e teste. 3.2. Modelo de Aprendizagem O YOLOv5 é uma famı́lia de arquiteturas e modelos pré-treinados de detecção de objetos apresentado por [Jocher et al. 2020], que utiliza o framework PyTorch e a base de dados COCO5 , que por sua vez, reúne 123 mil imagens de objetos em seu contexto natural. Cada 4 The Best Way to Annotate Images for Object Detection (https://docs.roboflow.com/annotate/bestpractices) 5 COCO dataset: Common Objects in Context (https://cocodataset.org/#download) [Lin et al. 2014] Figura 3. Amostras das técnicas de data augmentation. (a) Imagem original; (b,c,d): Variações de brilho; (e,f,g) Adição de Ruı́dos. Figura 4. Amostras de máscaras dos defeitos do tipo 010 (Broken Pick ): diferentes formatos e variações. modelo possui capacidades de execução e desempenho baseados em sua arquitetura e total de parâmetros utilizados, sendo o YOLOv5s o que apresenta o melhor custo-benefı́cio utilizando uma GPU V100-16GB e batch-size 32. Figura 5. Anotação de objetos e arquivo descritivo. Detalhes: classe, eixo X, eixo Y, largura e altura; Classes: cubo (0) e cilindro(1). [Jocher et al. 2020] Durante o treinamento, a IoU (Intersection over Union) e suas variações podem ser utilizadas como loss function, comparando a sobreposição existente entre a marcação predita e a marcação original. Ela está representada pela Equação 1, onde CPRED e CREAL são as caracterı́sticas de cada marcação, ou seja, os eixos X e Y, largura e altura [Zheng et al. 2021]. Cada variação resolve um problema especı́fico, aprimorando a velocidade de convergência e a precisão da localização. O GIoU (Generalized IoU) corrigiu o cálculo do gradiente quando não há sobreposição entre as marcações [Rezatofighi et al. 2019] e o DIoU (Distance IoU) adicionou uma penalidade para minimizar a distância entre os pontos centrais das marcações [Zheng et al. 2020]. As diferenças de cálculo entre as funções podem ser observadas na Figura 6. Figura 6. Comparativo entre as métricas Em verde, a marcação real e em vermelho a predição. IoU, GIoU e DIoU. [Zheng et al. 2020] Além da distância na DIoU (Equação 2), onde p é a distância euclidiana entre os centros das formas APRED e AREAL e c é o comprimento diagonal da menor forma que une as duas marcações, fatores geométricos das imagens durante a regressão foram tratados com dois novos parâmetros, sendo eles: v (Equação 3) como uma medida de consistência da proporção entre largura (w) e altura (h), e α (Equação 4) como um parâmetro de balanceamento. Essa é a CIoU (Complete IoU), utilizada como loss function padrão do YOLOv5 e representada na Equação 5 [Zheng et al. 2020]. IoU = |CP RED ∩ CREAL | |CP RED ∪ CREAL | DIoU = IoU + v= p2 (AP RED , AREAL ) c2 (1) (2) 4 wREAL wP RED 2 ∗ (arctan − arctan ) 2 π hREAL hP RED (3) v IoU + v ′ (4) α= CIoU = DIoU + αv (5) 3.3. Métricas de Avaliação Para avaliar os resultados no aspecto classificação, foram utilizadas a precisão e o recall, calculadas a partir das detecções corretas de objetos existentes na imagem: TP (True Positives), das detecções incorretas de objetos que não existem: FP (False Positives) e das detecções não identificadas de objetos presentes na imagem: FN (False Negatives) [Zheng et al. 2021]. Já no contexto de detecção de objetos utiliza-se a métrica IoU, determinando o acerto ou erro através de um threshold e permitindo calcular a precisão e recall. Dessa forma, quanto maior a área sobreposta melhor [Jing et al. 2020]. Como métrica final foi utilizado o mAP (mean Average Precision), representada pela média das áreas abaixo da curva Precision-Recall (AP) de todas as classes e o mAP@0,5:0,95, combinando os resultados de vários thresholds da IoU, de 0,5 até 0,95, com intervalos de 0,05. Na detecção de objetos, o AP indica a margem de confiança da classificação e o threshold do IoU indica uma localização correta ou incorreta. Nesse cenário, o uso do mAP@0,5:0,95 visa reconhecer resultados que possuam uma localização mais apurada dos objetos [Arlen 2018]. 4. Experimentos e Resultados Os experimentos foram realizados em três fases. Na primeira utilizou-se as imagens originais da base para compreender seu comportamento orgânico e definir um baseline. Devido às diferentes formas entre defeitos de mesma classe, inicialmente foram utilizadas anotações por polı́gonos. Utilizando somente imagens com defeitos no treinamento os resultados alcançaram mAP@0,5 quase 6 vezes maior que a base completa (Figura 7), e mAP@0,5 e mAP@0,5:0,95 de 3 a 4 vezes maiores com imagens escaladas em 1024px e 1280px (Figura 8). O descarte das imagens sem defeitos diminuiu o desequilı́brio entre as classes. Figura 7. Comparativo das bases originais: completa e somente com defeitos. Figura 8. Comparativo das escalas nas bases originais. Na segunda fase, a partir dos comportamentos observados, foram utilizadas apenas as imagens com defeitos, descartando aqueles com apenas uma amostra cada e redistribuindo as imagens entre treino (65%), validação (20%) e teste (15%). Além disso, com os resultados dos polı́gonos abaixo do esperado, foram utilizadas as anotações em Bounding Boxes, repetindo o comportamento das imagens escaladas e alcançando melhorias significativas (Figura 9). Entende-se neste ponto que, apesar do algoritmo e funções de regressão estarem preparados para lidar com as anotações por polı́gonos, as várias formas existentes em uma mesma classe e sua irregularidade (Figura 4) fizeram com que o modelo tivesse uma menor capacidade convergência dentre as caracterı́sticas identificadas, consequentemente, diminuindo o potencial de localização e identificação dos objetos. A terceira fase se inicia com o baseline definido pela base otimizada e anotada com Bounding Boxes. Foram aplicadas as técnicas de data augmentation apresentadas Figura 9. Comparativo dos tipos de anotação: Bounding Boxes e Polı́gonos. anteriormente e os experimentos realizados nas novas bases com 300, 350 e 400 épocas nas resoluções de imagens de 1024px e 1280px. Os melhores resultados isolados foram com as bases de Inversões e Variação de Brilho, alcançando resultados de mAP@0,5 e mAP@0,5:0,95 quase 3 vezes acima do Baseline e quase o dobro de precision e recall. As bases com Adição de Ruı́dos e Variações Simultâneas obtiveram resultados ligeiramente abaixo do Baseline (Figura 10). Figura 10. Comparativo entre as técnicas isoladas de data augmentation. O desempenho das bases com as amostras combinadas alcançou um mAP@0,5:0,95 de 56,06%, muito superior aos 8,78% do Baseline além de evoluir também os resultados de precision e recall em duas vezes e meia e mais de quatro vezes, respectivamente, comparados ao baseline. Já os resultados inferiores ao Baseline observados de forma isolada com a base de Variações Simultâneas não prejudicaram o treinamento, mas sim, aumentou ligeiramente os resultados alcançados pela base Mista Completa em três das quatro métricas (Figura 11). Figura 11. Comparativo das técnicas de data augmentation combinadas. Na Tabela 2, vemos os resultados obtidos com cada base. Nas bases originais, ainda com poucas amostras de cada defeito, o modelo não conseguiu localizá-los e classificá-los corretamente, porém vemos a diferença entre os Bounding Boxes e Polı́gonos, com o mAP@0,5:0,95 quatro vezes maior e precision vinte vezes superior. As bases mistas demonstraram um grande poder de generalização, mesmo com apenas três novas amostras de cada técnica mais suas aplicações simultâneas, em especial a Mista Completa destacada na tabela, alcançando um mAP@0,5:0,95 de 56,06%, precision de 89,66% e recall de 79,66%, sendo estes os melhores resultados obtidos. Esses resultados demonstram o poder do data augmentation e a capacidade de aprendizado do modelo YOLOv5, que com poucas variantes e técnicas de pré-processamento alcançou uma evolução significativa. Nessa nova base, o YOLOv5s apresentou resultados superiores aos obtidos na base COCO, alcançando um desempenho maior até que o YOLOv5x6 em sua base original6 . A partir desse comportamento, vemos que o modelo adaptou-se muito bem ao contexto de detecção de defeitos, mesmo com os objetos sendo em sua maioria pequenos e com proporções muito diferentes dos objetos presentes na base COCO. Tabela 2. Resultados dos experimentos. 5. CONCLUSÃO E TRABALHOS FUTUROS Este trabalho avaliou os comportamentos do YOLOv5 na base de defeitos têxteis AITEX, aplicando técnicas de anotação de objetos e data augmentation. A base original com 103 amostras de 12 tipos distintos de defeitos, contava com apenas 66 imagens para a etapa de treinamento. Com data augmentation, a base chegou a 802 amostras de treino, o suficiente para alcançar resultados significativos, mesmo comparados com os resultados dos modelos pré-treinados na base original COCO, contendo mais de 117 mil amostras. A anotação de objetos com Bounding Boxes obteve resultados consideravelmente melhores, mesmo sem otimizações na base original. Além disso, com a utilização de técnicas isoladas de data augmentation o modelo obteve resultados individuais superiores ao baseline, sendo potencializados após a junção de todas as amostras obtidas com cada técnica, incluindo as que obtiveram resultados isolados inferiores. As novas amostras aumentaram o poder de generalização do modelo, destacando as amostras com todas as técnicas combinadas, que incrementaram um pouco mais os resultados. Esses comportamentos comprovam que o YOLOv5 pode se adaptar em qualquer contexto, mesmo com objetos distintos da sua base original e permite que o modelo seja executado direta6 Para os modelos YOLOv5, as métricas precision e recall não foram fornecidas na página oficial. mente em imagens sem pré-processamento como cortes e fragmentos o que seria vantajoso quando aplicado por exemplo, em um ambiente com um sistema de vı́deo monitoramento que captura as imagens em tempo real. Em trabalhos futuros serão avaliadas novas abordagens de função de regressão de objetos neste contexto, como a SIoU, proposta recentemente por [Gevorgyan 2022] e ainda não disponı́vel na versão atual do YOLOv5. Além disso, assim como as versões pré-treinadas com a base COCO, a partir da base de dados AITEX serão criados novos pontos iniciais (âncoras) do modelo, especializados no contexto de detecção de defeitos têxteis. O novo modelo pré-treinado para os objetos desse contexto poderá ser utilizado e validado em outras bases de dados públicas ou privadas. 6. Agradecimentos Os autores agradecem ao Ifes, apoio da FAPES e CAPES (proc 2021-2S6CD, nº FAPES 132/2021) do PDPG (Programa de Desenvolvimento da Pós-Graduação, Parcerias Estratégicas nos Estados). A profª Komati agradece ao CNPq pela Bolsa de Produtividade DT-2 (308432/2020-7) e à FAPES pelo Auxı́lio Taxa de Pesquisa (nº 293/2021). Referências Arlen, T. C. (2018). Understanding the map evaluation metric for object detection. https://medium.com/@timothycarlen/understanding-the-map-evaluation-metricfor-object-detection-a07fe6962cf3. Bochkovskiy, A., Wang, C.-Y., and Liao, H.-Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934. Conceição, A. M. G. (1998). Critérios de classificação de tecidos quanto à qualidade. http://www.textilia.net/materias/ler/textil/maquinatextil/computacao visual no gerenciamento da qualidade. Gevorgyan, Z. (2022). Siou loss: More powerful learning for bounding box regression. arXiv preprint arXiv:2205.12740. Jin, R. and Niu, Q. (2021). Automatic fabric defect detection based on an improved yolov5. Mathematical Problems in Engineering, 2021. Jing, J., Wang, Z., Rätsch, M., and Zhang, H. (2022). Mobile-unet: An efficient convolutional neural network for fabric defect detection. Textile Research Journal, 92(12):30–42. Jing, J., Zhuo, D., Zhang, H., Liang, Y., and Zheng, M. (2020). Fabric defect detection using the improved yolov3 model. Journal of engineered fibers and fabrics, 15:1558925020908268. Jocher, G., Nishimura, K., Mineeva, T., and Vilariño, R. (2020). Yolov5 (2020). GitHub repository: https://github.com/ultralytics/yolov5. Jun, X., Wang, J., Zhou, J., Meng, S., Pan, R., and Gao, W. (2021). Fabric defect detection based on a deep convolutional neural network using a two-stage strategy. Textile Research Journal, 91(1-2):130–142. Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer. Ouyang, W., Xu, B., Hou, J., and Yuan, X. (2019). Fabric defect detection using activation layer embedded convolutional neural network. IEEE Access, 7:70130–70140. Petronas, I. I. (2020). Indústria têxtil 4.0: quais são as novidades para este setor? https://inovacaoindustrial.com.br/industria-textil-40/. Popkova, E. G., Ragulina, Y. V., and Bogoviz, A. V. (2019). Fundamental differences of transition to industry 4.0 from previous industrial revolutions. In Industry 4.0: Industrial Revolution of the 21st Century, pages 21–29. Springer. Redmon, J., Divvala, S., Girshick, R., and Farhadi, A. (2015). You look only once: unified real-time object detection. arXiv preprint arXiv:1506.02640. Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., and Savarese, S. (2019). Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 658–666. Rong-qiang, L., Ming-hui, L., Jia-chen, S., and Yi-bin, L. (2021). Fabric defect detection method based on improved u-net. In Journal of Physics: Conference Series, volume 1948, page 012160. IOP Publishing. Sakkos, D., Shum, H. P., and Ho, E. S. (2019). Illumination-based data augmentation for robust background subtraction. In 2019 13th International Conference on Software, Knowledge, Information Management and Applications (SKIMA), pages 1–8. IEEE. Seçkin, A. Ç. and Seçkin, M. (2022). Detection of fabric defects with intertwined frame vector feature extraction. Alexandria Engineering Journal, 61(4):2887–2898. Silvestre-Blanes, J., Albero Albero, T., Miralles, I., Pérez-Llorens, R., and Moreno, J. (2019). A public fabric database for defect detection methods and results. Autex Research Journal, 19(4):363–374. Wang, Y., Hao, Z., Zuo, F., and Pan, S. (2021). A fabric defect detection system based improved yolov5 detector. In Journal of Physics: Conference Series, volume 2010, page 012191. IOP Publishing. Wieler, M., Hahn, T., and Hamprecht, F. A. (2007). Weakly supervised learning for industrial optical inspection. [dataset]. https://hci.iwr.uni-heidelberg.de/content/weaklysupervised-learning-industrial-optical-inspection. Zheng, L., Wang, X., Wang, Q., Wang, S., and Liu, X. (2021). A fabric defect detection method based on improved yolov5. In 2021 7th International Conference on Computer and Communications (ICCC), pages 620–624. IEEE. Zheng, Z., Wang, P., Liu, W., Li, J., Ye, R., and Ren, D. (2020). Distance-iou loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 12993–13000. Zhou, Q., Mei, J., Zhang, Q., Wang, S., and Chen, G. (2021). Semi-supervised fabric defect detection based on image reconstruction and density estimation. Textile Research Journal, 91(9-10):962–972.

Log In

Textile defect detection using YOLOv5 on AITEX Dataset

Related papers

Related topics