Academia.eduAcademia.edu

Textile defect detection using YOLOv5 on AITEX Dataset

Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional (ENIAC 2022)

Devido à identificação manual de defeitos têxteis ainda nos dias atuais, é necessário encontrar meios de detectar defeitos de forma automatizada e eficiente. Para isso, este trabalho se propõe a aplicar o modelo YOLOv5 na base de dados AITEX, usando a abordagem de detecção de objetos para localizar e identificar defeitos, avaliando diferentes técnicas de anotação de objetos e data augmentation. Com os resultados obtidos, concluiu-se que o YOLOv5 adaptou-se muito bem a outro contexto com objetos distintos do prétreinamento, as anotações com Bounding Boxes permitiram maior aprendizado e reconhecimento dos defeitos, mesmo com diferentes formas e tamanhos, e por fim, a combinação de data augmentation potencializam seu desempenho.

Textile defect detection using YOLOv5 on AITEX Dataset Rodolfo Seidel1 , Hilário Seibel Júnior1 , Karin Satie Komati1 1 Programa de Pós-graduação em Computação Aplicada (PPComp) Instituto Federal do Espı́rito Santo (IFES) Av. dos Sabiás, 330 – 29.166-630 – Serra – ES – Brazil [email protected], {hsjunior, kkomati}@ifes.edu.br Abstract. Due to the manual identification of textile defects still nowadays, it is necessary to find methods to detect defects in an automated and efficient way. Hence, this work applies YOLOv5 model in the AITEX1 dataset, using an object detection approach to locate and identify defects, evaluating different object annotation and image data augmentation techniques. From the results, it is concluded that YOLOv5 handled very well another context with distinct objects from the pre-training, annotations using Bounding Boxes allowed greater learning and recognition of defects, even with different shapes and sizes, and at last, the combination of augmentations boosted its performance. Resumo. Devido à identificação manual de defeitos têxteis ainda nos dias atuais, é necessário encontrar meios de detectar defeitos de forma automatizada e eficiente. Para isso, este trabalho se propõe a aplicar o modelo YOLOv5 na base de dados AITEX, usando a abordagem de detecção de objetos para localizar e identificar defeitos, avaliando diferentes técnicas de anotação de objetos e data augmentation. Com os resultados obtidos, concluiu-se que o YOLOv5 adaptou-se muito bem a outro contexto com objetos distintos do prétreinamento, as anotações com Bounding Boxes permitiram maior aprendizado e reconhecimento dos defeitos, mesmo com diferentes formas e tamanhos, e por fim, a combinação de data augmentation potencializam seu desempenho. 1. Introdução A indústria em geral está em meio à revolução da Indústria 4.0. Sua principal caracterı́stica é a possibilidade da automação completa do sistema produtivo através da Inteligência Artificial, eliminando erros causados pelo fator humano [Popkova et al. 2019]. Na indústria têxtil, suas particularidades dificultam a adoção de certas tecnologias em alguns processos, que continuam sendo feitos em sua maioria de forma manual e demandam um tempo significativo [Petronas 2020]. Um desses processos é a revisão de tecidos. Por possuir uma subjetividade na definição de um defeito, que é praticamente qualquer anomalia presente na superfı́cie, é feito de forma manual desde as primeiras iniciativas de automação. Somado a esse aspecto, a capacidade humana de identificação e análise variam ao longo do tempo de trabalho [Conceição 1998]. Além da fadiga, existem defeitos quase imperceptı́veis que passaram a ser mais comuns com a evolução dos maquinários. Esse avanço desafia até mesmo 1 [Silvestre-Blanes et al. 2019] AITEX Dataset: https://www.aitex.es/afid/ as pesquisas que buscam desenvolver um modelo robusto e eficiente para a detecção de defeitos, o que traz grande relevância para as pesquisas nesse campo [Jun et al. 2021]. Relatos recentes mostram que as inspeções de defeitos continuam sendo realizados em sua maioria por humanos. Apesar dos profissionais qualificados, registra-se uma acurácia manual próxima de 70%. Nesse cenário, os sistemas de inspeção visual podem otimizar o processo de produção, mantendo a detecção de defeitos têxteis em destaque no contexto de visão computacional [Jing et al. 2022]. Em uma das pesquisas, foram coletadas imagens em uma fábrica através de um sistema real. A partir daı́, criaram a base de dados AITEX para possibilitar a comparação adequada entre métodos de detecção de defeitos [Silvestre-Blanes et al. 2019]. Nesse perı́odo, já existiam algumas versões da abordagem proposta no modelo de detecção de objetos YOLO [Redmon et al. 2015]. No ano seguinte, foram lançadas a YOLOv4 [Bochkovskiy et al. 2020] e a YOLOv5 [Jocher et al. 2020]. Após a publicação das novas versões, até onde é de conhecimento, poucos trabalhos foram realizados com a versão mais recente no contexto de detecção de defeitos têxteis com a base AITEX. Os artigos de [Zheng et al. 2021] e [Jin and Niu 2021] utilizaram outras bases de imagens públicas. Este estudo se propõe a detectar defeitos têxteis aplicando a versão mais recente do YOLOv5 [Jocher et al. 2020] na base AITEX [Silvestre-Blanes et al. 2019]. Serão utilizadas as devidas técnicas e adaptações para adequar as imagens ao formato de entrada do modelo sem comprometer as caracterı́sticas originais das imagens. Assim será possı́vel comparar com os resultados dos demais trabalhos que utilizaram esta mesma base. O artigo está organizado conforme detalhes a seguir. A seção 2 apresenta alguns estudos recentes que abordam os tópicos relacionados a este trabalho; Na seção 3, estão mais detalhes das caracterı́sticas da base de dados AITEX, do modelo pré-treinado do YOLOv5, das ferramentas utilizadas na preparação da base das métricas de treinamento e validação. Já a seção 4 demonstra os experimentos e avanços obtidos, seguidos da conclusão e proposta de trabalhos futuros na seção 5. 2. Trabalhos Relacionados Em [Ouyang et al. 2019], foi proposta a rede neural convolucional PPAL-CNN avaliando diferentes funções de ativação, comparando-as com o SegNet, outro modelo de segmentação de imagens. Para realizar as avaliações do modelo, todas as imagens da base foram inspecionadas manualmente para realizar as anotações dos defeitos. Para a avaliação do modelo, foram utilizadas duas bases, uma própria dos autores contendo 1160 iamgens e a base pública TILDA2 , ambas com resultados similares e bem superiores ao SegNet. Visando criar uma ferramenta de detecção eficiente, [Jing et al. 2022] propuseram a Mobile-Unet com um foco no desempenho otimizado para tarefas em tempo real, apresentando uma convolução separável em profundidade com o MobileNetV2. Outra caracterı́stica de destaque foi a utilização da função de perda CE-MFB (cross-entropy loss with median frequency balancing) para lidar com o desbalanceamento dos dados conforme demostrado na Figura 1, aplicando pesos ponderados de acordo com a participação de cada 2 TILDA: base pública desenvolvida pelo grupo de análise têxtil DFG (Deutsche Forschungsgemeinschaft) disponı́vel em https://lmb.informatik.uni-freiburg.de/resources/datasets/tilda.en.html classe em toda a base. Com isso, alcançaram resultados superiores ao modelo U-Net com menos recursos computacionais e menos parâmetros, e consequentemente menor tempo. Figura 1. Quantidade desbalanceada de pixels defeituosos e sem defeitos. (a) Imagem original; (b) máscara com o defeito; (c) comparativo dos pixels presentes na imagem. [Jin and Niu 2021]. Na mesma linha de pesquisa, [Rong-qiang et al. 2021] construı́ram uma versão aprimorada da rede neural U-Net reduzindo o número de canais e adicionando um mecanismo de atenção com quatro vezes mais caracterı́sticas que a original para aumentar a precisão da localização. Além disso a detecção de defeitos foi tratado como um problema de classificação binária, identificando se os pixels pertencem ou não à classe defeituosa. O modelo foi validado com a base AITEX e ao fim da execução, uma imagem segmentada é gerada e nela os defeitos detectados são marcados com um retângulo para facilitar a visualização dos resultados. No estudo de [Zhou et al. 2021], foi criado um modelo hı́brido com o modelo Variational Autoencoder (VAE) extraindo as caracterı́sticas e reconstruindo as imagens sem defeitos, tornando os defeitos identificáveis ao comparar a imagem original com a reconstruı́da. Depois, o Gaussian mixture model (GMM), utilizado também para detecção de anomalias, realiza a estimativa de densidade considerando como outliers os objetos que apresentarem baixa densidade, o que ocorre com os defeitos de forma natural uma vez que o modelo é treinado apenas com as imagens sem defeitos. Os experimentos foram validados com as bases AITEX e DAGM 20073 , fragmentando as imagens originais em cortes menores de 16 × 16 pixels para suprir a insuficiência de imagens no treinamento das reconstruções. Com as possibilidades da Indústria 4.0 em mente, [Seçkin and Seçkin 2022] apresentaram o método Intertwined Frame Vector (IFV) com a intenção de detectar defeitos em aparelhos com baixo nı́vel de processamento. Para isso são extraı́das caracterı́sticas de fragmentos aleatórios a partir de janelas reduzidas das imagens originais e posteriormente, são selecionadas as cinco caracterı́sticas mais relevantes em conjunto com seus respectivos rótulos identificando o tipo de defeito. Por fim, esses dados são processados nos modelos tradicionais K-Nearest Neighbors (KNN) e Random Forest (RF). Em [Wang et al. 2021], os autores destacam duas tarefas dos modelos de detecção de objetos, a localização e classificação das áreas, e ressaltam suas complexidades na presença de formas irregulares e pequenos objetos. Para lidar com isso, adicionaram uma nova estrutura na rede neural do YOLOv5 para filtrar caracterı́sticas de outros nı́veis da rede, mantendo informações relevantes ao longo da cadeia. Essas caracterı́sticas fo3 DAGM 2007 Dataset [Wieler et al. 2007]. Disponı́vel em heidelberg.de/content/weakly-supervised-learning-industrial-optical-inspection https://hci.iwr.uni- ram tratadas em uma camada de transformação para potencializar as mais relevantes. A proposta foi construı́da na arquitetura do YOLOv5s e validada com uma base de dados contendo 3946 imagens no tamanho de 1000 × 1000 pixels com quatro tipos de defeitos, em sua maioria pequenos. Já [Zheng et al. 2021] adicionaram no backbone do YOLOv5 um módulo SE (Squeeze-and-Excitation), construı́do sobre um operador convolucional que mapeia uma entrada para um mapa de caracterı́sticas atuando como um mecanismo de atenção. Mecanismo este descrito como um viés de alocação dos recursos disponı́veis para os componentes mais relevantes de um sinal. Além disso, usaram a função de ativação ActivateOrNot (ACON), extraindo de caracterı́sticas do mapa gerado e enriquecendo as informações obtidas da imagem. O modelo foi comparado com o YOLOv5 original em uma base de dados contendo 3622 imagens. Também baseado no YOLOv5, [Jin and Niu 2021] apresentaram uma arquitetura professor-estudante com o objetivo de lidar com a baixa quantidade de imagens de defeitos disponı́veis. Para a avaliação do modelo foram utilizadas as bases TILDA e outra disponibilizada pelo Xuelang Tianchi AI Challenge, com imagens rotuladas por Bounding Boxes. Nesse estudo, os autores destacam os problemas do desbalanceamento da base e da quantidade de tipos de defeitos com caracterı́sticas muito diferentes entre si, necessitando de um mecanismo de atenção. Na área de data augmentation, [Sakkos et al. 2019] destacam suas vantagens devido à grande quantidade de dados necessários para os algoritmos de deep learning e ao alto custo de obtenção de dados rotulados, somados à baixa disponibilidade de bases públicas. Eles propõem a criação de bases relevantes que aumentem o poder de generalização dos modelos com técnicas semânticas que façam sentido no contexto do problema. Os exemplos podem ser vistos na Figura 2, como alterações de iluminação locais e globais simulando variações plausı́veis como um poste de luz durante a noite ou um clarão durante uma tempestade, combinando todas as variações possı́veis. Figura 2. Combinação de efeitos semânticos em data augmentation. (a) Imagem original; (b) Inversão; (c) Centralização; (d) Adição de ruı́dos; (e) Clareamento global com brilho localizado; (f) Clareamento global com sombra localizada; (g) Sombreamento global com brilho localizado; (h) Sombreamento global com sombra localizada. Adaptada de [Sakkos et al. 2019] 3. Materiais e Métodos 3.1. Base de Dados Neste trabalho foi utilizada a base de imagens AITEX, composta por 245 imagens de 7 tipos distintos de tecidos não identificados em um tamanho de 4.096 × 256 pixels, sendo 140 imagens sem defeitos e 105 com defeitos, distribuı́dos em 12 classes conforme a Tabela 1. Cada imagem contém uma ou mais máscaras com a localização e extensão de cada defeito (Figura 4). Tabela 1. Distribuição de imagens na base geral e somente com defeitos). Ao mapear os defeitos como objetos, estes são descritos com sua classe, posição central no eixo X, posição central no eixo Y, largura e altura (Figura 5), com um objeto por linha e valores normalizados entre 0 e 1. Assim, o modelo estará apto a localizar e identificar as caracterı́sticas de cada objeto dentro das áreas delimitadas [Jocher et al. 2020]. As anotações foram feitas manualmente a partir das máscaras da base original com Bounding Boxes e Polı́gonos através de uma ferramenta especı́fica4 que calcula e gera os descritivos de todas as anotações visuais. Durante os experimentos foram utilizadas técnicas de data augmentation. Baseado no estudo de [Sakkos et al. 2019], foram incluı́das variações plausı́veis em um ambiente industrial como ruı́dos de até 3% dos pixels, alterações de brilho entre -25% e +25% e inversões horizontais e verticais na captura das imagens (Figura 3). Cada uma das técnicas foi isolada em bases distintas e uma nova foi criada aplicando todas as variações simultaneamente, sendo quatro novas bases. Outras duas foram criadas contendo as amostras anteriores, uma nomeada Mista com as variações de Inversões, Brilhos e Ruı́dos e outra nomeada Mista Completa incluindo as amostras com Variações Simultâneas. Em todas elas, as imagens originais estavam presentes somente nas etapas de validação e teste. 3.2. Modelo de Aprendizagem O YOLOv5 é uma famı́lia de arquiteturas e modelos pré-treinados de detecção de objetos apresentado por [Jocher et al. 2020], que utiliza o framework PyTorch e a base de dados COCO5 , que por sua vez, reúne 123 mil imagens de objetos em seu contexto natural. Cada 4 The Best Way to Annotate Images for Object Detection (https://docs.roboflow.com/annotate/bestpractices) 5 COCO dataset: Common Objects in Context (https://cocodataset.org/#download) [Lin et al. 2014] Figura 3. Amostras das técnicas de data augmentation. (a) Imagem original; (b,c,d): Variações de brilho; (e,f,g) Adição de Ruı́dos. Figura 4. Amostras de máscaras dos defeitos do tipo 010 (Broken Pick ): diferentes formatos e variações. modelo possui capacidades de execução e desempenho baseados em sua arquitetura e total de parâmetros utilizados, sendo o YOLOv5s o que apresenta o melhor custo-benefı́cio utilizando uma GPU V100-16GB e batch-size 32. Figura 5. Anotação de objetos e arquivo descritivo. Detalhes: classe, eixo X, eixo Y, largura e altura; Classes: cubo (0) e cilindro(1). [Jocher et al. 2020] Durante o treinamento, a IoU (Intersection over Union) e suas variações podem ser utilizadas como loss function, comparando a sobreposição existente entre a marcação predita e a marcação original. Ela está representada pela Equação 1, onde CPRED e CREAL são as caracterı́sticas de cada marcação, ou seja, os eixos X e Y, largura e altura [Zheng et al. 2021]. Cada variação resolve um problema especı́fico, aprimorando a velocidade de convergência e a precisão da localização. O GIoU (Generalized IoU) corrigiu o cálculo do gradiente quando não há sobreposição entre as marcações [Rezatofighi et al. 2019] e o DIoU (Distance IoU) adicionou uma penalidade para minimizar a distância entre os pontos centrais das marcações [Zheng et al. 2020]. As diferenças de cálculo entre as funções podem ser observadas na Figura 6. Figura 6. Comparativo entre as métricas Em verde, a marcação real e em vermelho a predição. IoU, GIoU e DIoU. [Zheng et al. 2020] Além da distância na DIoU (Equação 2), onde p é a distância euclidiana entre os centros das formas APRED e AREAL e c é o comprimento diagonal da menor forma que une as duas marcações, fatores geométricos das imagens durante a regressão foram tratados com dois novos parâmetros, sendo eles: v (Equação 3) como uma medida de consistência da proporção entre largura (w) e altura (h), e α (Equação 4) como um parâmetro de balanceamento. Essa é a CIoU (Complete IoU), utilizada como loss function padrão do YOLOv5 e representada na Equação 5 [Zheng et al. 2020]. IoU = |CP RED ∩ CREAL | |CP RED ∪ CREAL | DIoU = IoU + v= p2 (AP RED , AREAL ) c2 (1) (2) 4 wREAL wP RED 2 ∗ (arctan − arctan ) 2 π hREAL hP RED (3) v IoU + v ′ (4) α= CIoU = DIoU + αv (5) 3.3. Métricas de Avaliação Para avaliar os resultados no aspecto classificação, foram utilizadas a precisão e o recall, calculadas a partir das detecções corretas de objetos existentes na imagem: TP (True Positives), das detecções incorretas de objetos que não existem: FP (False Positives) e das detecções não identificadas de objetos presentes na imagem: FN (False Negatives) [Zheng et al. 2021]. Já no contexto de detecção de objetos utiliza-se a métrica IoU, determinando o acerto ou erro através de um threshold e permitindo calcular a precisão e recall. Dessa forma, quanto maior a área sobreposta melhor [Jing et al. 2020]. Como métrica final foi utilizado o mAP (mean Average Precision), representada pela média das áreas abaixo da curva Precision-Recall (AP) de todas as classes e o mAP@0,5:0,95, combinando os resultados de vários thresholds da IoU, de 0,5 até 0,95, com intervalos de 0,05. Na detecção de objetos, o AP indica a margem de confiança da classificação e o threshold do IoU indica uma localização correta ou incorreta. Nesse cenário, o uso do mAP@0,5:0,95 visa reconhecer resultados que possuam uma localização mais apurada dos objetos [Arlen 2018]. 4. Experimentos e Resultados Os experimentos foram realizados em três fases. Na primeira utilizou-se as imagens originais da base para compreender seu comportamento orgânico e definir um baseline. Devido às diferentes formas entre defeitos de mesma classe, inicialmente foram utilizadas anotações por polı́gonos. Utilizando somente imagens com defeitos no treinamento os resultados alcançaram mAP@0,5 quase 6 vezes maior que a base completa (Figura 7), e mAP@0,5 e mAP@0,5:0,95 de 3 a 4 vezes maiores com imagens escaladas em 1024px e 1280px (Figura 8). O descarte das imagens sem defeitos diminuiu o desequilı́brio entre as classes. Figura 7. Comparativo das bases originais: completa e somente com defeitos. Figura 8. Comparativo das escalas nas bases originais. Na segunda fase, a partir dos comportamentos observados, foram utilizadas apenas as imagens com defeitos, descartando aqueles com apenas uma amostra cada e redistribuindo as imagens entre treino (65%), validação (20%) e teste (15%). Além disso, com os resultados dos polı́gonos abaixo do esperado, foram utilizadas as anotações em Bounding Boxes, repetindo o comportamento das imagens escaladas e alcançando melhorias significativas (Figura 9). Entende-se neste ponto que, apesar do algoritmo e funções de regressão estarem preparados para lidar com as anotações por polı́gonos, as várias formas existentes em uma mesma classe e sua irregularidade (Figura 4) fizeram com que o modelo tivesse uma menor capacidade convergência dentre as caracterı́sticas identificadas, consequentemente, diminuindo o potencial de localização e identificação dos objetos. A terceira fase se inicia com o baseline definido pela base otimizada e anotada com Bounding Boxes. Foram aplicadas as técnicas de data augmentation apresentadas Figura 9. Comparativo dos tipos de anotação: Bounding Boxes e Polı́gonos. anteriormente e os experimentos realizados nas novas bases com 300, 350 e 400 épocas nas resoluções de imagens de 1024px e 1280px. Os melhores resultados isolados foram com as bases de Inversões e Variação de Brilho, alcançando resultados de mAP@0,5 e mAP@0,5:0,95 quase 3 vezes acima do Baseline e quase o dobro de precision e recall. As bases com Adição de Ruı́dos e Variações Simultâneas obtiveram resultados ligeiramente abaixo do Baseline (Figura 10). Figura 10. Comparativo entre as técnicas isoladas de data augmentation. O desempenho das bases com as amostras combinadas alcançou um mAP@0,5:0,95 de 56,06%, muito superior aos 8,78% do Baseline além de evoluir também os resultados de precision e recall em duas vezes e meia e mais de quatro vezes, respectivamente, comparados ao baseline. Já os resultados inferiores ao Baseline observados de forma isolada com a base de Variações Simultâneas não prejudicaram o treinamento, mas sim, aumentou ligeiramente os resultados alcançados pela base Mista Completa em três das quatro métricas (Figura 11). Figura 11. Comparativo das técnicas de data augmentation combinadas. Na Tabela 2, vemos os resultados obtidos com cada base. Nas bases originais, ainda com poucas amostras de cada defeito, o modelo não conseguiu localizá-los e classificá-los corretamente, porém vemos a diferença entre os Bounding Boxes e Polı́gonos, com o mAP@0,5:0,95 quatro vezes maior e precision vinte vezes superior. As bases mistas demonstraram um grande poder de generalização, mesmo com apenas três novas amostras de cada técnica mais suas aplicações simultâneas, em especial a Mista Completa destacada na tabela, alcançando um mAP@0,5:0,95 de 56,06%, precision de 89,66% e recall de 79,66%, sendo estes os melhores resultados obtidos. Esses resultados demonstram o poder do data augmentation e a capacidade de aprendizado do modelo YOLOv5, que com poucas variantes e técnicas de pré-processamento alcançou uma evolução significativa. Nessa nova base, o YOLOv5s apresentou resultados superiores aos obtidos na base COCO, alcançando um desempenho maior até que o YOLOv5x6 em sua base original6 . A partir desse comportamento, vemos que o modelo adaptou-se muito bem ao contexto de detecção de defeitos, mesmo com os objetos sendo em sua maioria pequenos e com proporções muito diferentes dos objetos presentes na base COCO. Tabela 2. Resultados dos experimentos. 5. CONCLUSÃO E TRABALHOS FUTUROS Este trabalho avaliou os comportamentos do YOLOv5 na base de defeitos têxteis AITEX, aplicando técnicas de anotação de objetos e data augmentation. A base original com 103 amostras de 12 tipos distintos de defeitos, contava com apenas 66 imagens para a etapa de treinamento. Com data augmentation, a base chegou a 802 amostras de treino, o suficiente para alcançar resultados significativos, mesmo comparados com os resultados dos modelos pré-treinados na base original COCO, contendo mais de 117 mil amostras. A anotação de objetos com Bounding Boxes obteve resultados consideravelmente melhores, mesmo sem otimizações na base original. Além disso, com a utilização de técnicas isoladas de data augmentation o modelo obteve resultados individuais superiores ao baseline, sendo potencializados após a junção de todas as amostras obtidas com cada técnica, incluindo as que obtiveram resultados isolados inferiores. As novas amostras aumentaram o poder de generalização do modelo, destacando as amostras com todas as técnicas combinadas, que incrementaram um pouco mais os resultados. Esses comportamentos comprovam que o YOLOv5 pode se adaptar em qualquer contexto, mesmo com objetos distintos da sua base original e permite que o modelo seja executado direta6 Para os modelos YOLOv5, as métricas precision e recall não foram fornecidas na página oficial. mente em imagens sem pré-processamento como cortes e fragmentos o que seria vantajoso quando aplicado por exemplo, em um ambiente com um sistema de vı́deo monitoramento que captura as imagens em tempo real. Em trabalhos futuros serão avaliadas novas abordagens de função de regressão de objetos neste contexto, como a SIoU, proposta recentemente por [Gevorgyan 2022] e ainda não disponı́vel na versão atual do YOLOv5. Além disso, assim como as versões pré-treinadas com a base COCO, a partir da base de dados AITEX serão criados novos pontos iniciais (âncoras) do modelo, especializados no contexto de detecção de defeitos têxteis. O novo modelo pré-treinado para os objetos desse contexto poderá ser utilizado e validado em outras bases de dados públicas ou privadas. 6. Agradecimentos Os autores agradecem ao Ifes, apoio da FAPES e CAPES (proc 2021-2S6CD, nº FAPES 132/2021) do PDPG (Programa de Desenvolvimento da Pós-Graduação, Parcerias Estratégicas nos Estados). A profª Komati agradece ao CNPq pela Bolsa de Produtividade DT-2 (308432/2020-7) e à FAPES pelo Auxı́lio Taxa de Pesquisa (nº 293/2021). Referências Arlen, T. C. (2018). Understanding the map evaluation metric for object detection. https://medium.com/@timothycarlen/understanding-the-map-evaluation-metricfor-object-detection-a07fe6962cf3. Bochkovskiy, A., Wang, C.-Y., and Liao, H.-Y. M. (2020). Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934. Conceição, A. M. G. (1998). Critérios de classificação de tecidos quanto à qualidade. http://www.textilia.net/materias/ler/textil/maquinatextil/computacao visual no gerenciamento da qualidade. Gevorgyan, Z. (2022). Siou loss: More powerful learning for bounding box regression. arXiv preprint arXiv:2205.12740. Jin, R. and Niu, Q. (2021). Automatic fabric defect detection based on an improved yolov5. Mathematical Problems in Engineering, 2021. Jing, J., Wang, Z., Rätsch, M., and Zhang, H. (2022). Mobile-unet: An efficient convolutional neural network for fabric defect detection. Textile Research Journal, 92(12):30–42. Jing, J., Zhuo, D., Zhang, H., Liang, Y., and Zheng, M. (2020). Fabric defect detection using the improved yolov3 model. Journal of engineered fibers and fabrics, 15:1558925020908268. Jocher, G., Nishimura, K., Mineeva, T., and Vilariño, R. (2020). Yolov5 (2020). GitHub repository: https://github.com/ultralytics/yolov5. Jun, X., Wang, J., Zhou, J., Meng, S., Pan, R., and Gao, W. (2021). Fabric defect detection based on a deep convolutional neural network using a two-stage strategy. Textile Research Journal, 91(1-2):130–142. Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer. Ouyang, W., Xu, B., Hou, J., and Yuan, X. (2019). Fabric defect detection using activation layer embedded convolutional neural network. IEEE Access, 7:70130–70140. Petronas, I. I. (2020). Indústria têxtil 4.0: quais são as novidades para este setor? https://inovacaoindustrial.com.br/industria-textil-40/. Popkova, E. G., Ragulina, Y. V., and Bogoviz, A. V. (2019). Fundamental differences of transition to industry 4.0 from previous industrial revolutions. In Industry 4.0: Industrial Revolution of the 21st Century, pages 21–29. Springer. Redmon, J., Divvala, S., Girshick, R., and Farhadi, A. (2015). You look only once: unified real-time object detection. arXiv preprint arXiv:1506.02640. Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., and Savarese, S. (2019). Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 658–666. Rong-qiang, L., Ming-hui, L., Jia-chen, S., and Yi-bin, L. (2021). Fabric defect detection method based on improved u-net. In Journal of Physics: Conference Series, volume 1948, page 012160. IOP Publishing. Sakkos, D., Shum, H. P., and Ho, E. S. (2019). Illumination-based data augmentation for robust background subtraction. In 2019 13th International Conference on Software, Knowledge, Information Management and Applications (SKIMA), pages 1–8. IEEE. Seçkin, A. Ç. and Seçkin, M. (2022). Detection of fabric defects with intertwined frame vector feature extraction. Alexandria Engineering Journal, 61(4):2887–2898. Silvestre-Blanes, J., Albero Albero, T., Miralles, I., Pérez-Llorens, R., and Moreno, J. (2019). A public fabric database for defect detection methods and results. Autex Research Journal, 19(4):363–374. Wang, Y., Hao, Z., Zuo, F., and Pan, S. (2021). A fabric defect detection system based improved yolov5 detector. In Journal of Physics: Conference Series, volume 2010, page 012191. IOP Publishing. Wieler, M., Hahn, T., and Hamprecht, F. A. (2007). Weakly supervised learning for industrial optical inspection. [dataset]. https://hci.iwr.uni-heidelberg.de/content/weaklysupervised-learning-industrial-optical-inspection. Zheng, L., Wang, X., Wang, Q., Wang, S., and Liu, X. (2021). A fabric defect detection method based on improved yolov5. In 2021 7th International Conference on Computer and Communications (ICCC), pages 620–624. IEEE. Zheng, Z., Wang, P., Liu, W., Li, J., Ye, R., and Ren, D. (2020). Distance-iou loss: Faster and better learning for bounding box regression. In Proceedings of the AAAI conference on artificial intelligence, volume 34, pages 12993–13000. Zhou, Q., Mei, J., Zhang, Q., Wang, S., and Chen, G. (2021). Semi-supervised fabric defect detection based on image reconstruction and density estimation. Textile Research Journal, 91(9-10):962–972.