Academia.eduAcademia.edu

Machine learning

2023, International Journal of Innovation

Apresentar uma visão dos artigos científicos publicados nos últimos dez anos sobre o tema aprendizado de máquina, do inglês machine learning (ML), com ênfase nos algoritmos preditivos. Método/abordagem: Análise bibliométrica, com apoio do protocolo PRISMA, para avaliar autores, universidades e países, quanto a produtividade, citações bibliográficas e focos sobre o tema, com amostra de 773 artigos das bases de dados Scopus e Web of Science, no período de 2013 a maio/2023. Originalidade/valor: Há ausência de estudos na literatura que consolidem artigos relacionados a ML e Big Data. A pesquisa contribui para cobrir tal lacuna, favorecendo o delineamento de ações e pesquisas futuras. Principais resultados: Foram identificados no corpus bibliométrico de ML: autores mais citados e com maior número de publicações, países e universidades mais produtivas, periódicos com maior número de publicações e citações, áreas de conhecimento com maior número de publicações e artigos de maior prestígio. Nos temas e domínios de ML, foram identificados: principais coocorrências de palavras-chaves, temas emergentes (agrupados em cinco clusters) e nuvem de palavras por título e por resumo. Os estudos sobre impacto da aquisição de dados e análise preditiva representam oportunidades para pesquisas futuras. Contribuições teóricas/metodológicas: O protocolo PRISMA possibilitou a identificação e análises quantitativa e qualitativa relevantes dos artigos, consolidando o conhecimento científico sobre o tema. Contribuições sociais/gerenciais: Facilidade de compreender a maturidade das pesquisas sobre ML e Big Data por parte de gestores de empresas e pesquisadores, quanto à viabilidade de investimentos para se obter vantagens competitivas com tais tecnologias. Palavras-chave: aprendizado de máquina, análise de big data, análise bibliométrica, predição MACHINE LEARNING: A BIBLIOMETRIC ANALYSIS Abstract Objective: Present an overview of scientific articles published in the last ten years on the topic of

e-ISSN: 2318-9975 https://doi.org/10.5585/2023.24056 Recebido: 13 mar. 2023 - Aprovado: 18 jun. 2023 Processo de Avaliação: Double Blind Review Editora Chefe: Priscila Rezende da Costa Coeditora: Isabel Cristina Scafuto Editora Científica: Vânia Maria Jorge Nassif Editora Assistente: Angelica Pigola Seção: Artigo MACHINE LEARNING:UMA ANÁLISE BIBLIOMÉTRICA Emerson Martins 1 Napoleão Verardi Galegale 2 Cite as – American Psychological Association (APA) Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica. International Journal of Innovation - IJI, São Paulo, 11(3), 1-40, e24056. https://doi.org/10.5585/2023.24056 Resumo Objetivo: Apresentar uma visão dos artigos científicos publicados nos últimos dez anos sobre o tema aprendizado de máquina, do inglês machine learning (ML), com ênfase nos algoritmos preditivos. Método/abordagem: Análise bibliométrica, com apoio do protocolo PRISMA, para avaliar autores, universidades e países, quanto a produtividade, citações bibliográficas e focos sobre o tema, com amostra de 773 artigos das bases de dados Scopus e Web of Science, no período de 2013 a maio/2023. Originalidade/valor: Há ausência de estudos na literatura que consolidem artigos relacionados a ML e Big Data. A pesquisa contribui para cobrir tal lacuna, favorecendo o delineamento de ações e pesquisas futuras. Principais resultados: Foram identificados no corpus bibliométrico de ML: autores mais citados e com maior número de publicações, países e universidades mais produtivas, periódicos com maior número de publicações e citações, áreas de conhecimento com maior número de publicações e artigos de maior prestígio. Nos temas e domínios de ML, foram identificados: principais coocorrências de palavras-chaves, temas emergentes (agrupados em cinco clusters) e nuvem de palavras por título e por resumo. Os estudos sobre impacto da aquisição de dados e análise preditiva representam oportunidades para pesquisas futuras. Contribuições teóricas/metodológicas: O protocolo PRISMA possibilitou a identificação e análises quantitativa e qualitativa relevantes dos artigos, consolidando o conhecimento científico sobre o tema. Contribuições sociais/gerenciais: Facilidade de compreender a maturidade das pesquisas sobre ML e Big Data por parte de gestores de empresas e pesquisadores, quanto à viabilidade de investimentos para se obter vantagens competitivas com tais tecnologias. Palavras-chave: aprendizado de máquina, análise de big data, análise bibliométrica, predição MACHINE LEARNING: A BIBLIOMETRIC ANALYSIS Abstract Objective: Present an overview of scientific articles published in the last ten years on the topic of 1 Mestre em Gestão e Tecnologia em Sistemas Produtivos (CEETEPS) e Pesquisador do Grupo de Pesquisa em Gestão Estratégica da TI (CEETEPS/CNPq). CEETEPS – Centro Estadual de Educação Tecnológica Paula Souza / São Paulo (SP) – Brasil. [email protected] 2 Doutor em Controladoria e Contabilidade (FEA/USP), Mestre em Engenharia da Produção (POLI/USP), Professor e Pesquisador da UPEP/CEETEPS e da FEA/PUC-SP, líder do Grupo de Pesquisa em Gestão Estratégica da TI (CEETEPS/CNPq) e Consultor de Empresas.CEETEPS – Centro Estadual de Educação Tecnológica Paula Souza / São Paulo (SP) – Brasil. [email protected] International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 1 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo machine learning (ML), with an emphasis on predictive algorithms. Method/approach: Bibliometric analysis, with support from the PRISMA protocol, to evaluate authors, universities and countries, regarding productivity, bibliographic citations and focuses on the topic, with a sample of 773 articles from the Scopus and Web of Science databases, from 2013 to May /2023. Originality/value: There is an absence of studies in the literature that consolidate articles related to ML and Big Data. The research contributes to covering this gap, favoring the design of future actions and research. Main results: The following were identified in the ML bibliometric corpus: most cited authors with the greatest number of publications, most productive countries and universities, journals with the greatest number of publications and citations, areas of knowledge with the greatest number of publications, and the most prestigious articles. In the ML themes and domains, the following were identified: main co-occurrences of keywords, emerging themes (grouped into five clusters), and word clouds by title and abstract. Studies on the impact of data acquisition and predictive analysis represent opportunities for future research. Theoretical/methodological contributions: The PRISMA protocol enabled the identification and relevant quantitative and qualitative analyzes of articles, consolidating scientific knowledge on the topic. Social/managerial contributions: Ease of understanding the maturity of research on ML and Big Data by company managers and researchers, regarding the feasibility of investments to obtain competitive advantages with such technologies. Keywords: machine learning, Big Data analysis, bibliometric analysis, prediction. APRENDIZAJE AUTOMÁTICO: UN ANÁLISIS BIBLIOMÉTRICO Resumen Objetivo: Presentar un panorama de artículos científicos publicados en los últimos diez años sobre el tema de aprendizaje automático (ML en Inglés), con énfasis en algoritmos predictivos. Método/enfoque: Análisis bibliométrico, con apoyo del protocolo PRISMA, para evaluar autores, universidades y países, en cuanto a productividad, citaciones bibliográficas y enfoques en el tema, con una muestra de 773 artículos de las bases de datos Scopus y Web of Science, del 2013 a mayo/2023. Originalidad/valor: Existe una ausencia de estudios en la literatura que consoliden artículos relacionados con ML y Big Data. La investigación contribuye a cubrir este vacío, favoreciendo el diseño de futuras acciones e investigaciones. Principales resultados: En el corpus bibliométrico de ML se identificaron: autores más citados con mayor número de publicaciones, países y universidades más productivos, revistas con mayor número de publicaciones y citaciones, áreas de conocimiento con mayor número de publicaciones y las más prestigiosas. artículos. En los temas y dominios de ML, se identificaron lo siguiente: principales coocurrencias de palabras clave, temas emergentes (agrupados en cinco grupos) y nubes de palabras por título y resumen. Los estudios sobre el impacto de la adquisición de datos y el análisis predictivo representan oportunidades para futuras investigaciones. Contribuciones teóricas/metodológicas: El protocolo PRISMA permitió la identificación y análisis cuantitativos y cualitativos relevantes de artículos, consolidando el conocimiento científico sobre el tema. Contribuciones sociales/gerenciales: Facilidad de comprensión de la madurez de la investigación sobre ML y Big Data por parte de directivos e investigadores de empresas, en cuanto a la viabilidad de inversiones para obtener ventajas competitivas con dichas tecnologías. Palabras clave: machine learning, análisis de Big Data, análisis bibliométrico, predicción. 2 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo 1 INTRODUÇÃO Nos últimos anos ocorreram vários avanços tecnológicos, como o surgimento de conceitos de big data, além dos benefícios acumulados com a ciência de dados para a sociedade (CHEN et al, 2014). Assim como o capital humano e as máquinas, os dados surgiram como um recurso essencial para gerar prosperidade na sociedade. Embora o processamento de dados tenha iniciado com métodos tradicionais de extrair, transformar e tratar os dados por meio de sistemas de gestão empresarial, de acordo com Hu et al (2014), essas técnicas não são escaláveis, especialmente dado ao enorme aumento no volume de dados. Big data, portanto, evolui, à medida que as empresas percebem que, para obter vantagem competitiva o investimento na análise de dados é igualmente importante junto com os produtos, serviços, processos e tecnologia (MISHRA et al, 2018). Esta necessidade de evolução ocorre também devido a ocorrência de dados não estruturados, os quais não podem ser processados diretamente com as ferramentas tradicionais, ou seja, precisam de técnicas especiais de tratamento de dados e processamento de informações, como Natural Language Processing (NLP) e o Machine Learning (ML). Atualmente o processamento das informações para geração de conhecimento tornou-se vital para os tomadores de decisão, particularmente em algumas áreas importantes como a previsão de vendas de produtos ou serviços no varejo, nas quais variáveis externas como o tempo ou economia global podem afetar a decisão de consumo das pessoas (KRAWCZYK, 2016). Além disso, esta revolução demandou a integração em nuvem, da Internet das Coisas (IoT), Blockchain e do Big Data Analysis (BDA) (GILL et al, 2019). O Big Data e o ML tem sido amplamente utilizados pelas organizações devido as necessidades crescentes de negócio e serviços para enfrentar os desafios globais na obtenção de vantagem competitiva. Este novo modelo multiplicou a demanda por ferramentas analíticas para resolver problemas de negócios complexos em vários domínios, incluindo mercado financeiro, marketing, saúde, cadeia de suprimentos e a predição de vendas. Diante deste cenário surge o Business Analytics, que é a aplicação de técnicas utilizando ferramentas de análise de Big Data conhecidas como Ciência de Dados para tomada de decisões (CHEN et al, 2014). A pesquisa no domínio do ML teve um salto significativo nos últimos anos (ATHMAJA et al, 2017). Consequentemente, vários estudos realizaram pesquisas bibliométricas para resumir o conhecimento existente no campo do ML. Por exemplo, International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 3 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo (ANTONOPOULOS et al, 2020) realizaram uma revisão das perspectivas no setor de energia renovável. Da mesma forma (SHARMA et al, 2020) revisaram a aplicação de análises do ML no contexto agrícola. Apesar dessas importantes tentativas de sintetizar a literatura existente, é observado que a literatura sobre o surgimento das tecnologias mais recentes, como inteligência artificial (IA), ML e Big Data, parecem fragmentadas (CHANDRA e VERMA, 2021). Os diferentes aspectos do ML e seu escopo para pesquisas futuras não foi considerado. Há uma necessidade evidente de pesquisas para fornecer uma compreensão abrangente do passado, presente e futuro de pesquisa a respeito da utilização do ML. Portanto, esta pesquisa considera esta lacuna em estudos bibliométricos e estende o levantamento bibliométrico do impacto da utilização do ML nas organizações. Este estudo considera três questões de pesquisa para abordar as lacunas de pesquisas mencionadas anteriormente: (1) qual é o foco da presente pesquisa sobre ML? (2) quais são os principais temas e domínios em ML e sua evolução? e (3) qual o escopo para pesquisas futuras, seja do ponto de vista acadêmico ou do mercado? Este artigo fornece uma visão geral bibliográfica em consonância com Batistic e Van (2019), assim como Sahoo (2021). Da mesma forma, o artigo também é uma generalização de estudos bibliométricos contidos na literatura, como a análise da cadeia de suprimentos realizada por Mishra et al. (2018), Smart Cities realizado por Kousis e Tjortjis (2021) e a análise bibliométrica das cadeias de suprimentos sustentáveis realizado por (BUI et al, 2021). 2 MÉTODO Este artigo apresenta uma análise aprofundada da citação e publicação de tendências na análise de ML entre 2013 e maio/2023. Este período foi escolhido com base na disponibilidade de acesso aos dados das bases de dados Web of Science e Scopus. Os autores, instituições, países e periódicos significativos são apresentados. Os principais temas discutidos são destacados, e os artigos são classificados em cinco grupos bibliográficos com base nas palavras-chaves que ocorrem com frequência. Esta abordagem ilustra os principais temas presentes nos artigos examinados, assim como a relação dos autores com as palavraschaves. Os tópicos que ocorrem com frequência são indicados por meio de análise de nuvem de palavras e a análise da estrutura das citações são realizadas por grupo, para destacar os temas emergentes. 4 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo A análise bibliométrica é usada para destacar os principais autores, instituições/universidades e países em termos de suas contribuições no respectivo campo. Os padrões de colaboração entre autores, instituições e os países também são analisados (BATISTIC E VAN, 2019). Adicionalmente foi utilizado o protocolo PRISMA-P, cujo objetivo é apoiar os pesquisadores a melhorarem o relato de revisões sistemáticas e meta-análises, filtrando o número de publicações com maior relevância ao tema pesquisado (MOHER et al., 2015). Conforme mencionado na introdução deste artigo, foi observado a ausência de estudos na literatura que consolidem artigos relacionados a ML e Big Data com ênfase em algoritmos preditivos, desta forma, esta pesquisa realiza uma revisão da literatura separando os temaschaves em agrupamentos temáticos, fornecendo uma agenda para pesquisas futuras com menos subjetividade. Registros bibliográficos foram acessados a partir do banco de dados da Web Of Science e Scopus, em várias disciplinas como ciência da computação, engenharia, ciência de decisão, ciências sociais, gestão de negócios e matemática. (SAHOO, 2021; MISHRA et al, 2018; KOUSIS e TJORTJIS, 2021; BUI et al, 2021) sugerem que os estudos bibliométricos são sintetizadores imparciais de conteúdo literário. Para Levy e Ellis (2006), conhecer o atual estágio do corpo de conhecimentos sobre um determinado tema é o primeiro passo em um projeto de pesquisa. Assim um estudo bibliométrico é útil para (LEVY; ELLIS, 2006): • Ajudar o pesquisador no dimensionamento e compreensão do corpo de conhecimento referente a um determinado assunto, incluindo identificar pesquisas que já foram realizadas, o que falta pesquisar, quais são as lacunas; • Prover embasamento teórico para o estudo proposto; • Apresentar as devidas justificativas para a condução do estudo, e qual a contribuição original para o corpo de conhecimento e/ou teoria; • Contribuir para melhor definir e estruturar o método de pesquisa, objetivos e questões para o estudo proposto. Levy e Ellis (2006), descrevem um estudo bibliométrico por meio de um processo. Os autores adotam a definição de processo como “sequência de passos e atividades”. Para alcançar esses resultados, os autores definem três fases principais: Entrada; Processamento; e International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 5 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Saída. Na fase “entrada” estão as informações preliminares que serão processadas, adotada como Fase 1 nesta pesquisa. Na fase “processamento” deve ser aplicado um protocolo que filtre o número de publicações conforme o tema da pesquisa, chamada de Fase 2 nesta pesquisa. Por fim na fase “saída” serão gerados os relatórios com a síntese dos resultados, identificado como Fase 3 nesta pesquisa. Estas três fases são detalhadas na Figura 1. Figura 1 Desenho da Pesquisa Fonte: Resultados da Pesquisa. 2.1 Planejar o processo de revisão - Fase 1 Isso é feito formulando as questões de pesquisa e coletando dados da Web of Sciense e Scopus. A pesquisa revelou publicações em periódicos de renome, fornecendo informações valiosas a respeito de Big Data e ML em vários países. Assim, uma busca foi realizada nos bancos de dados para recuperar os registros de publicações usando as constantes de pesquisa “Machine Learning", "Algorithm" e "Big Data Analytics”. Inicialmente algumas combinações com palavras-chaves foram adicionadas a pesquisa como: "Forecasting", "Prediction", "Predictive" e “Retail”, mas os registros bibliométricos foram limitados a apenas 38 publicações, desta forma o termo “Algorithm” foi excluído da string de pesquisa, mantendo 6 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo somente: ("Machine Learning" AND "Big Data Analytics" AND "Prediction" AND "Retail"), com este método foi possível extrair 964 publicações da base Scopus e 421 publicações da Web of Sciense com publicações a partir do ano de 2013 até o mês de maio/2023, quando a pesquisa foi executada. As palavras chaves selecionadas, foram obtidas a partir de uma análise inicial dos artigos por meio do software Gephi utilizando o atributo “Total Link Strength” o qual indica a coocorrências de palavras-chaves que ocorrem com maior frequência, conforme descrito na seção 3.2.4. Por meio de uma análise descritiva no corpus dos artigos, assim como uma análise quantitativa das publicações foi avaliado as tendências de citações para os anos de 2013 a maio/2023. Seguido por uma análise dos principais autores prolíficos e dos principais países com publicações em Big Data e ML. 2.2 Implementação do protocolo bibliométrico - Fase 2 A Figura 2, apresenta o fluxograma do processo de seleção das publicações científicas em cada uma das quatro etapas previstas pelo protocolo PRISMA-P: Identificação, triagem, elegibilidade e documentos incluídos para análise. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 7 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Figura 2 Fluxograma PRISMA-P Fonte: Resultados da Pesquisa. Na etapa de triagem, foram removidas 28 publicações em duplicidade, 53 Livros, 81 capítulos de livros, 272 artigos de conferências, 172 revisões e 6 materiais editoriais, totalizando 584 registros excluídos, desta forma resultaram 773 registros selecionados para a próxima etapa. Na etapa de elegibilidade, foram excluídos 171 artigos sem H-Index, 62 artigos cujo acesso não era público e 276 artigos cuja pesquisa estava relacionado a algum dos seguintes domínios: Medicina, Engenharia e Arquitetura, Educação, Psicologia, Agricultura e Biociências, Artes e Humanidades, Bioquímica, Geociências e Logística. Foram selecionadas 264 publicações para seguirem para a última etapa, na qual foram aplicadas as seguintes técnicas: 8 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo (a) Similaridade bibliográfica. Ajuda a identificar um conjunto de publicações com a maior semelhança bibliográfica, medida em termos de número de referências compartilhadas. Essa semelhança reflete o grau de similaridade na pesquisa e uma possível semelhança nas direções futuras de pesquisa. Neste artigo, a similaridade bibliográfica é realizada para autores, instituições / universidades e periódicos para extrair insights como ilustrado subseção 3.2. (b) Análise de citação. A análise de tendência de citação é realizada na subseção 3.1 para avaliar a contribuição em termos de quantos documentos estão se referindo ao artigo e/ou citando-o. Esta técnica identifica os principais autores, instituições e países em termos de citações. Além disso, também é utilizado a métrica PageRank para medir o prestígio do artigo em periódicos de renome. (c) Análise de cocitação. A análise de cocitação é realizada na subseção 3.2.2 para identificar semelhanças entre os títulos das publicações e agrupá-las em diferentes temas/tópicos com base em sua estrutura conceitual. A análise de cocitação é complementada com uma análise de palavras para identificar coocorrências de palavras-chave. (d) Análise de palavras. É conduzida para visualizar a frequência de ocorrência de um determinado autor e palavras-chave de índice sobre um tema de pesquisa na subseção 3.2.4. Também é necessário analisar a evolução da mudança temática ao longo do tempo para identificar tópicos emergentes e aqueles que estão saturados. Após as análises eliminatórias acima, foram mantidas 57 publicações para análise qualitativa. 2.3 Relatando as descobertas - Fase 3 Está estruturada em termos de análises descritivas e bibliométricas. A análise descritiva inclui o número total de publicações e citações. As informações foram extraídas por meio da biblioteca “biblioAnalysis” função contida no pacote bibliométrico no software R. Esta fase compreende a contribuição e a extensão da colaboração em pesquisa considerando vários autores e países. Uma análise considerando autores mais citados também é conduzida para entender as principais pesquisas dos autores mais citados. Foi realizada uma análise bibliométrica das publicações usando o software R, por meio do RStudio 2022.07.2 Build 576, para identificar ligações bibliográficas (entre autores), International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 9 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo cocitações e coocorrências usando o pacote “bibliometrix” v4.0.1 em R, que contém a função predefinida “biblioNetwork”. A ferramenta Gephi v0.10 foi usada para realizar análise de prestígio. VOSviewer v1.6.17 foi usado para mapear coocorrências de palavras-chave, colaboração das universidades e análise de cocitação de periódicos. Os temas emergentes e agrupamento dos títulos foram identificados usando a análise de nuvem de palavras por meio do Iramuteq v0.7 alpha 2. A análise de estrutura conceitual foi realizada também por meio do “bibliometrix”). 3 RESULTADOS Os resultados da análise descritiva e bibliométrica são demonstrados nesta seção. 3.1 Análise descritiva e de citações das publicações por periódicos Uma análise descritiva dos arquivos exportados “BibTex” de 2013 a maio/2023 foi conduzida e exibida na Tabela 1, utilizando a função “summary” da biblioteca “bibliometrix”. Após consolidar as publicações da base de dados Scopus (964 documentos) e WoS (421 documentos), foram eliminadas 28 publicações duplicadas, resultando 1.357 publicações. Das 1.357 publicações, 773 são artigos de pesquisa, 53 são livros, 81 capítulos de livros, 272 artigos de conferências, 172 revisões e 6 materiais editoriais. A distribuição de frequência das palavras-chave por autor é 3.727, o que implica que estas palavras-chave são frequentemente utilizadas pelos autores em publicações de ML e BDA. A distribuição de palavras-chave extraídas dos artigos de periódicos no domínio é 4.407. O número de autores foi 4.205, com 5.233 aparições, incluindo autoria única e aparições de vários autores. Dos 4.205 autores, 89 autores publicaram artigos com um único autor, enquanto os 4.116 autores restantes publicaram artigos com vários autores, indicando alto grau de colaboração de pesquisa nos artigos publicados. O número de autoria única de documentos é de apenas 92, enquanto o restante de 1.265 é documentos com autoria múltipla. O número de documentos por autor, ou seja, a proporção do número total de documentos (1.357) para o número total de autores (4.205), é 0,323. A proporção recíproca desta métrica, o número de autores por documento (4.205/1.357), é 3,10, enquanto o número de coautores por documento é 3,86. O índice de colaboração, ou seja, a proporção do número total de autores em documentos de autoria múltipla para o número de documentos de autoria múltipla (4.116/1.265), é de 3,25, indicando, assim, que para um documento de autoria múltipla, há 10 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo aproximadamente três autores. Este achado corrobora um índice robusto na rede de colaboração. Tabela 1 Resumo da análise descritiva dos registros Descrição Resultados MAIN INFORMATION ABOUT DATA Timespan Documents Sources (Journals, Books, etc) Average citations per documents 2013:2023 1.357 828 21.58 DOCUMENT CONTENTS Keywords Plus (ID) 4.407 Author's Keywords (DE) 3.727 AUTHORS Authors 4.205 Author Appearances 5.233 Authors of single-authored documents 89 Authors of multi-authored documents 4.116 AUTHORS COLLABORATION Single-authored documents 92 Documents per Author 0.323 Authors per Document 3.10 Co-Authors per Documents 3.86 Collaboration Index 3.25 Fonte: Resultados da Pesquisa A média de citações por documento é de 21,58, o que implica que os artigos dos periódicos são citados em uma média de quase 22 vezes. Por meio da Figura 3 foi obtida uma perspectiva do número de artigos no domínio ML e BDA publicados ao longo de 10 anos de estudo, identificando a tendência de publicações (medida em termos de número de artigos) e a tendência de citações para o período de 2013 a maio/2023. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 11 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Figura 3 Tendência de publicações Fonte: Resultados da Pesquisa. A partir da Figura 4, Ciência da Computação é considerado o domínio predominante com 34% dos artigos nessa categoria, seguido por Ciência e Tecnologia (18%), Engenharia e Negócios (13%), Ciências de Decisão (11%), Gestão Empresarial (5%) e Saúde (2%). Outras áreas com uma contribuição marginal para ML e BDA incluem Química e Psicologia. Essas áreas possuem escopo de pesquisa mais interdisciplinar. Figura 4 Publicações por área de conhecimento Fonte: Resultados da Pesquisa 12 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo 3.1.2 Análise por autor Considerando o alto grau de colaboração, identificamos os autores mais citados em termos do número de publicações totais (NP), assim como o número de citações (TC), e o número de citações por publicação (C/P), como mostrado na Tabela 2, Yunhao Liu (abreviado como Liu Y) da China foi considerado um nome frequente e familiar com um alto valor de C/P de 294,7, seguido por Yogesh Kumar Dwivedi (Dwivedi Y.) do Reino Unido com um valor de C/P de 137,6. Os próximos autores mais produtivos em termos de C/P foram Kar A. da Polônia e Wang Y. da China. Esses autores são renomados estudiosos do campo de ML contribuindo com o estado da arte em artigos de pesquisa, promovendo aos pesquisadores e profissionais um grande arcabouço de conhecimento. Para analisar a produtividade dos autores em termos de citações totais (TC) ao longo do período analisado, foi extraído da biblioteca ‘Bibliometrix’ o gráfico apresentado na Figura 5. A função AuthorProdOverTime calcula e plota a produtividade dos autores em termos do número de publicações e o total de citações por ano. O h-index é medido em termos do número ‘h’ de publicações com citações mínimas de vezes 'h'. O g-index indica o número ‘g’ de artigos com pelo menos citações ‘g2’. O mindex do artigo é calculado com a razão entre o h-index e o número de anos desde que a primeira publicação do autor foi realizada. Os índices ‘h’, ‘g’ e ‘m’ são apresentados como medidas de citação e produtividade, com Wang Y., Wang X. e Chen G. tendo os maiores valores de h-index (6; 5 e 5) respectivamente, g-index (7; 5 e 5) e m-index (1,2; 0,625 e 0,8333333). Além disso, os resultados mostram que para Yunhao Liu, 4 artigos foram citados 4 vezes, e os 6 principais artigos foram citados em pelo menos 6^2 (36 vezes). Uma vez Yunhao Liu está ativo desde 2015 (8 anos ativos de publicação), seu m-index é (4/8) = 0,5. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 13 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Tabela 2 Os dez autores mais produtivos em publicações e citações Author Country CHEN G China NP TC C/P h-index g-index m-index PY-start 5 98 19,6 5 5 0,8333333 2016 United DWIVEDI Y Kingdom 5 688 137,6 4 5 1,3333333 2019 GUPTA S India 4 62 15,5 3 4 1,5000000 2020 KAR A Poland 3 311 103,7 3 3 0,6000000 2017 LI Z China 7 51 7,3 4 7 0,5714286 2015 LIU Y China 6 1768 294,7 4 6 0,5000000 2014 WANG J Japan 7 216 38,8 4 7 0,5000000 2014 WANG L China 6 553 92,2 4 6 0,8000000 2017 WANG X China 5 224 44,8 5 5 0,6250000 2014 WANG Y China 7 697 99,6 6 7 1,2000000 2017 Fonte: Resultados da Pesquisa Figura 5 Função AuthorProdOverTime da biblioteca Bibliometrix Fonte: Resultados da Pesquisa. 14 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo 3.1.3. Análise por país Para identificar os países com maior número de citações, é usado a métrica de citações por publicação (C/P), na qual indica que o Reino Unido, Canada e China são os três países que mais possuem citações com C/P de 55.9, 42.2 e 32.7 respectivamente conforme Tabela 3. Em termos de número de publicações (NP), os três principais países incluem India, China e Estados Unidos, enquanto Singapura e Corea são os menos citados. Tabela 3 Os dez países mais produtivos em publicações e citações Country NP TC C/P India 186 2502 13,4 China 154 5043 32,7 United States 110 2721 24,7 United Kingdom 65 3632 55,9 Germany 36 425 11,8 Canada 33 1393 42,2 Italy 33 425 12,9 Australia 30 626 20,9 Singapore 30 422 14,1 Korea 29 425 14,6 Fonte: Resultados da Pesquisa 3.1.4 Análise por universidade Foi realizada uma análise por universidade, exibida na Tabela 4. As universidades mais produtivas são: Universidade de Michigan, Universidade Estadual da Pensilvânia e a Universidade King Saud, em termos de números de publicações (NP) e citações (TC). A contribuição da Universidade de Hong Kong e da Universidade da Carolina do Sul é mais escasso. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 15 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Tabela 4 Publicações por universidades Short-name University Country NP TC UNIV MICHIGAN University of Michigan United States 15 232 PENN STATE UNIV The Pennsylvania State University United States 11 105 KING SAUD UNIV King Saud University Saudi Arabia 10 107 SWANSEA UNIVERSITY Swansea University United Kingdom 9 1217 England 8 156 Hong Kong 8 417 UNIV WEST ENGLAND University of the West of England, Bristol THE HONG KONG The Hong Kong Polytechnic POLYTECHNIC UNIVERSITY University TSINGHUA UNIVERSITY Tsinghua University China 7 2115 SEJONG UNIV Sejong University South Korea 7 142 UNIV SOUTH CAROLINA University of South Carolina United States 7 70 CITY UNIV HONG KONG City University of Hong Kong China 7 14 Fonte: Resultados da Pesquisa. 3.1.5 Análise por periódico Os 10 principais periódicos em termos de número de publicações (NP) e total de citações (TC) estão resumidos na Tabela 5. “IEEE Access” e “International Journal of Information Management” aparecem com 34 e 12 publicações respectivamente e com 1662 e 827 citações, demonstrando que tais periódicos possuem grande relevância no domínio de ML e BDA. Por meio de uma análise descritiva em conjunto com uma análise bibliométrica e de rede, a próxima seção abordará a identificação de acoplamento bibliográfico, cocitações, e coocorrências de tópicos. 16 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Tabela 5 Publicações por periódico Periódico NP TC IEEE Access 34 1662 International Journal of Information Management 12 827 Journal of Big Data 11 55 International Journal of Production Research 11 297 Annals Of Operations Research 10 132 Sustainability (Switzerland) 9 75 Decision Support Systems 5 139 Journal of Business Research 5 73 Computers and Industrial Engineering 5 37 Industrial Management and Data Systems 5 10 Fonte: Resultados da Pesquisa. 3.2 Análise bibliométrica e de rede Foi realizada uma análise de acoplamento por autor e uma rede de cocitações para analisar a colaboração e dependência mútua de pesquisa das citações entre autores, universidades e periódicos. Forma identificados os temas emergentes e tópicos relevantes utilizando análise de coocorrências de palavras-chave e agrupamento bibliométrico dos documentos. Além disso, uma análise de série temporal de clusters é apresentada para reconhecer temas emergentes com escopo para pesquisas futuras. Os resultados foram validados por um gráfico de coocorrências de palavras chaves, junto com uma nuvem de palavras dos títulos, resumos e temas. Foi realizada uma análise de rede de cocitação para identificar a direção de novas pesquisas com base em artigos anteriores com alto número de citações. 3.2.1 Acoplamento bibliométrico de autores Foi desenvolvido o acoplamento bibliométrico entre os autores para identificar a colaboração entre os mesmos para analisar informações de ML e BDA, conforme apresentado na Tabela 6 e Figura 6. Em termos de acoplamento bibliográfico, Wang, Y. e Dwivedi estão em clusters diferentes, porém é por meio destes dois autores que os demais grupos conseguem se relacionar em termos de colaboração. Ao mesmo tempo, Rana, N. P. e Tamilmani, K. estão International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 17 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo no mesmo cluster e são colaboradores ativos. Tabela 6 Os principais autores em termos de acoplamento bibliográfico Autor Total Link Strength Rana, N. P. 13 Dwivedi, Y. K. 12 Tamilmani, K. 9 Kar, A. K. 8 Wang, Y. 8 Duan, Y. 7 Misra, S. 6 Sharma, S. K. 6 Chen, Q. 5 Kang, C. 5 Fonte: Resultados da Pesquisa Figura 6 Acoplamento por Autor Fonte: Resultados da Pesquisa 3.2.2 Análise de rede de cocitação Foi elaborada uma rede de cocitação utilizando o software R para analisar a força de citação entre os principais autores. Na Figura 7 é apresentada, por meio de círculos, o número 18 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo de citações por autor, ou seja, quanto maior o tamanho do círculo, maior será a força de citação. Além disso, o número ao lado do ano indica a força da citação. Por exemplo, Chen M. (2014) é denotado como “Chen M. 2014-1”, devido a sua força de citação ser igual ao “Bleid D.M. 2003-1”. Com relação às citações locais, ou seja, a frequência de dois autores sendo citados no mesmo artigo, são indicados por linhas sólidas. Em contrapartida, as citações globais mútuas entre dois diferentes artigos, quando ambos são citados em um terceiro artigo, são indicados por linhas tracejadas. Verifica-se que Gandomi (2015) e Sivarajah (2017) são frequentemente citados e são indicados por grandes círculos verde e vermelho respectivamente. As linhas sólidas indicam as citações locais dos autores, por exemplo, Waller (2013) tem sido frequentemente citado por Sivarajah (2017) no mesmo artigo, como fica evidente pela linha sólida vermelha. As linhas pontilhadas, indicam citações globais, por exemplo, Tranfield (2003) e Chen (2012) são frequentemente citados pelo terceiro Gandomi (2015), e, portanto, uma linha tracejada é desenhada de Tranfield e Chen para Gandomi, indicando a citação mútua global. Figura 7 Rede de cocitação Fonte: Resultados da Pesquisa. 3.2.4 Análise de coocorrências de palavras-chaves Na Figura 8, as coocorrências de palavras-chaves medidas em termos de força total de ligação são consideradas elevadas entre o “Machine Learning” e “Supply Chains” (círculos International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 19 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo violetas), enquanto o termo como “Big Data” ocorre frequentemente com “Data Analytics”, “Advanced Analytics” e “Data Handling” (círculos vermelhos), indicando que “Advanced Analytics” e “Data Handling” estão surgindo em áreas de pesquisa em “Big Data”. Os termos “Artificial Intelligence”, “Learning Systems” e “Deep Learning” são temas com coocorrências frequentes (círculos amarelos). Além disso, os termos “Big Data Analytics”, “Decision Making” e “Supply Chain Management” estão correlacionados (círculos azuis), enquanto os termos “Data Mining”, “Forecasting”, “Sales”, “Commerce” e “Predictive Analytics” estão correlacionados (círculos verdes). As palavras-chaves que ocorrem com frequência em um determinado tema são identificadas pelos círculos que possuem a mesma cor. Coocorrências entre temas (indicados por linhas tracejadas de cores diferentes como violeta, vermelha, amarela e verde) são encontrados entre o “Big Data” e todos os demais grupos, indicando uma forte ligação. As principais palavras-chaves por autor, medido pelo “Total Link Strength” são: Machine Learning, Big Data, Big Data Analytics, Artificial Intelligence, Data Mining, Deep Learning, Data Analytics, Analytics, Internet of Things e Prediction. As principais palavras-chaves de índice medido pelo “Total Link Strength” são: Big Data, Data Analytics, Learning Systems, Artificila Intellingence, Forecasting, Decision Making, Data Mining, Machine Learning, Sales e Advanced Analytics. O gráfico de coocorrências de palavras-chaves apresentado na Figura 8, também pode ser interpretado para destacar os tópicos específicos que aparecem com frequência, assim como os tópicos baseados em palavras-chaves gerais que possuem um escopo de cobertura maior. O tamanho dos círculos indica a frequência em que determinada palavra-chave ocorre. É observado que tópicos sobre Big Data, Data Analytics, Artificial Intelligence e Machine Learning são recorrentes. Ao mesmo tempo, Deep Learning e Data Handling são tópicos menos frequentes, ou seja, com menor número de artigos, mas com alto interesse para pesquisas futuras. Além disso, o agrupamento bibliográfico é realizado para compreender as diferentes áreas de pesquisas emergentes, fornecendo insights em direção de futuras pesquisas. 20 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Figura 8 Coocorrência de palavras-chaves Fonte: Resultados da Pesquisa Fonte: Resultados da Pesquisa. 3.2.5 Agrupamento bibliográfico por meio de mapa de estrutura conceitual O agrupamento bibliográfico é adotado para agrupar a pesquisa no domínio de ML e Big Data em diferentes áreas temáticas. Temas semelhantes são agrupados no mesmo cluster. Além disso, a densidade dos clusters podem servir como medida da extensão da pesquisa realizada na área temática em particular. Os agrupamentos considerados densos são considerados áreas saturadas para pesquisa, enquanto clusters com dados escassos são considerados como tendo espaço para pesquisas futuras. A análise do cluster bibliográfico é realizada por meio do mapa de estrutura conceitual utilizando a escala multidimensional (MCA), cujos gráficos de dendrograma estão representados na Figura 9. Os temas estão agrupados em 5 grupos (clusters). Cluster 1: Machine Learning Techniques, Decision Makes, Sales e Forecasting Estudos, que tratam de ML estão no cluster mais denso, destacado em verde na Figura 9. Conforme relatam L´Heureux et al (2017), a revolução do Big Data promete transformar a forma como vivemos, trabalhamos e pensamos, permitindo a otimização de processos, capacitando a descoberta de insights e melhorando a tomada de decisões. A realização desse grande potencial depende da capacidade de extrair valor desses dados massivos por meio da International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 21 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo análise de dados; o aprendizado de máquina é fundamental por causa de sua capacidade de aprender com os dados e fornecer insights, decisões e previsões baseadas em dados. No entanto, as abordagens tradicionais de aprendizado de máquina foram desenvolvidas em uma era diferente e, portanto, são baseadas em várias suposições, como o conjunto de dados se encaixando inteiramente na memória, o que infelizmente não é mais verdadeiro neste novo contexto. A inteligência artificial (IA) existe há mais de seis décadas e vem amadurecendo com o tempo. A ascensão do superpoder da computação e das tecnologias de Big Data parecem ter potencializado a IA nos últimos anos. A nova geração de IA, está se expandindo rapidamente e voltou a ser um tópico atraente para pesquisa. Duan et al. (2019), investigam os desafios associados ao uso e impacto de sistemas baseados em IA revitalizados para a tomada de decisões e oferecem um conjunto de propostas de pesquisa para pesquisadores de sistemas de informação (SI). Mesmo com mais de duas décadas de desenvolvimento contínuo, a aprendizagem de dados desequilibrados ainda é um foco intenso de pesquisa. Com a expansão do aprendizado de máquina e mineração de dados, combinado com a chegada da era do Big Data, foi possível obter uma visão mais profunda sobre a natureza da aprendizagem desequilibrada, ao mesmo tempo que enfrenta novos desafios emergentes. Métodos de nível de dados e de algoritmo estão constantemente sendo melhorados e abordagens híbridas ganham popularidade crescente. As tendências recentes se concentram em analisar não apenas a desproporção entre os aprendizados, mas também outras dificuldades embutidas na natureza dos dados. Novos problemas da vida real motivam os pesquisadores para se concentrar em eficiência computacional, adaptável e métodos em tempo real. Krawczyk (2016), discuti questões e desafios em aberto que precisam ser resolvidos para desenvolver ainda mais o campo de aprendizagem desequilibrada. Foram identificadas algumas áreas vitais de pesquisa neste tópico, cobrindo todo o espectro de aprendizagem de dados desequilibrados: classificação, regressão, agrupamento, fluxos de dados, análise de Big Data e aplicativos, por exemplo, em mídia social e visão computacional. Cluster 2: Business Intelligence (BI) e Big Data Analytics (BDA) Estudos que examinam BI e BDA estão no cluster em vermelho mostrado na Figura 9. Os resultados indicam que muitas pesquisas emergentes aceitas e publicadas em periódicos se 22 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo enquadram nesta categoria. Este cluster é, portanto, altamente dominante. Os estudos neste grupo temático examinam a necessidade de adoção BI e técnicas de BDA. Mais notavelmente, Chen, Mao e Liu (2014) revisam os antecedentes e o estado da arte do Big Data focando nas quatro fases da cadeia de valor do BD: geração de dados, aquisição de dados, armazenamento de dados e análise de dados. Foram analisados artigos neste domínio em termos de tópicos de pesquisa emergentes, como também os maiores pesquisadores e as contribuições mais importantes. Além disso, BD apresenta uma característica única, comparando com dados tradicionais, ele é comumente não estruturado, necessitando de mais análise em tempo real, conforme relato por (HU et al, 2014). A importância do Big Data na melhoria do desempenho de uma empresa é corroborada no estudo de Choi et al. (2018), que explorou as grandes técnicas de análise relacionadas a dados, identificando seus pontos fortes e fracos, bem como as principais funcionalidades. Desta forma, foram discutidas estratégias de análise de BD para superar os respectivos desafios computacionais e de dados. Cluster 3: IoT, Data Handling e Cloud Computing Estudos em IoT, Data Handling e Cloud Computing foram amplamente pesquisados, marcado em violeta na Figura 9. Gill, Tuli e Xu (2019), exploram como os três paradigmas emergentes (Blockchain, IoT, e IA), influenciarão os futuros sistemas de computação em nuvem e propuseram um modelo conceitual para a futurologia da nuvem para explorar a influência de paradigmas e tecnologias emergentes na evolução da computação em nuvem. Calatayud, Mangan e Christopher (2019), exploram como a cadeia de abastecimento do futuro será autônoma e terá capacidades preditivas, trazendo ganho de eficiência em um ambiente cada vez mais complexo e incerto. O estudo é realizado através de uma revisão sistemática e multidisciplinar da literatura, revisando 126 artigos publicados no período de 1950-2018. Ahmadi et al (2019), relatam que IoT é um ecossistema que integra objetos físicos, software e hardware para interagir com outros objetos. O envelhecimento da população, escassez de recursos de saúde e custos médicos crescentes tornam as tecnologias baseadas em IoT necessárias, as quais podem ser adaptadas para enfrentar estes desafios na área da saúde, sendo assim, esta revisão sistemática da literatura foi realizada para determinar a principal área de aplicação de IoT em saúde. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 23 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Cluster 4: Activity Recognition, Health, Medicine, Service Quality, Therapy, Heart Failure, Classification e Risk. Artigos que investigam as novas tecnologias relacionadas à área de saúde, são marcados em azul na Figura 9. Com o crescimento do Big Data na área biomédica e de saúde, está sendo possível realizar análises precisas dos benefícios dos dados médicos de forma antecipada para detecção de doenças. Contudo, a precisão da análise é reduzida quando a qualidade dos dados médicos está incompleta. Além disso, diferentes regiões exibem características de certas doenças regionais, que podem enfraquecer a previsão de surtos de doenças. Desta forma, Chen et al (2017), simplificam os algoritmos de aprendizado de máquina para previsão eficaz de doenças crônicas e surto de doenças frequentes em comunidades. Razavian et al (2015), apresentaram uma nova abordagem para a saúde da população, na qual modelos preditivos baseados em dados são aprendidos com base nos resultados de diabetes tipo 2. A abordagem permite a avaliação de risco a partir de dados de sinistros eletrônicos prontamente disponíveis em grandes populações. O modelo proposto revela os fatores de risco em estágio inicial e final. Foram coletados: reclamações, registros de farmácia, utilização de serviços de saúde e resultados laboratoriais de 4,1 milhões de indivíduos entre 2005 e 2009, em um conjunto inicial de 42.000 variáveis que juntas descrevem o estado de saúde completo e histórico de cada Indivíduo. O aprendizado de máquina foi então usado para aprimorar metodicamente o conjunto de variáveis preditivas e modelos de ajuste que preveem o início da diabetes tipo 2 Cluster 5: Data Acquisition e Predictive Analytics Estudos com o objetivo de analisar o impacto da aquisição de dados e da análise preditiva (marcado em laranja na Figura 9), são escassos, ou seja, demonstram que estudar o impacto da classificação e análises preditivas representam um amplo escopo para pesquisas futuras. Tomar decisões adequadas é, de fato, um fator chave para ajudar as empresas que enfrentam os desafios das cadeias de abastecimento. Nguyen et al (2021), relatam duas abordagens baseadas em dados que permitem tomar melhores decisões na gestão da cadeia de fornecimento. É sugerido o método Long Short Term Memory (LSTM) baseado em rede de previsão de dados de série temporal multivariada e um método LSTM Autoencoder 24 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo combinado com a classe de algoritmo suporte de máquina de vetor (SVM) para detecção de anomalias nas vendas. Figura 9 Mapa de estrutura conceitual (grupos de tópicos iniciais k = 5) Fonte: Resultados da Pesquisa Desta forma, os clusters 1, 2 e 3 são densos, ou seja, continuarão a emergir no futuro. Os cluster 4 e 5 estão com poucas pesquisas, mas são áreas de pesquisas emergentes. Uma visão geral dos 5 clusters é apresentada na Tabela 7. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 25 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Tabela 7 Visão geral dos 5 clusters Cluster 1 2 Foco Central ML, Decision Makes BI, Analytics 4 5 Machine Learning Techniques, Decision Makes, Sales, Forecasting Business intelligence, Big Data Analytics Total Artigos Artigo mais citado em cada cluster Título do Artigo Principal autor Total de citações 353 Learning from imbalanced data open challenges and future directions Krawczyk (2016) 1788 239 Big data: A survey Chen et al. (2014) 4227 Gill et al. (2019) 265 Ivanov (2020) 1550 Korfiatis et al (2019) 109 IoT, Data Handling, Cloud Computing 102 Activity Recognition, Health, Medicine, Activity Service Quality, Recognition Therapy, Heart Failure, Classification, Risk. 48 Data Data Acquisition, Acquisition Predictive Analytics 31 IoT 3 Principais temas explorados Transformative effects of IoT, Blockchain and Artificial Intelligence on cloud computing: Evolution, vision, trends and open challenges Predicting the impacts of epidemic outbreaks on global supply chains: A simulationbased analysis on the coronavirus outbreak (COVID-19/SARS-CoV-2) case Measuring service quality from unstructured data: A topic modeling application on airline passengers’ online reviews Fonte: Resultados da Pesquisa A evolução dos grupos de temas em forma de linha do tempo foi traçada para 10 anos, em 5 intervalos (2013–2014, 2015–2016, 2017-2018, 2019-2020, 2021-2023), como mostrado na Figura 10. O Cluster 1 possui um agrupamento altamente denso com interesse contínuo e crescente, ou seja, indicando um aumento de artigos publicados no domínio de ML, confirmando seu domínio. O Cluster 2 também é considerado significativo devido ao crescimento na utilização de BI e BDA. Os Clusters 3 e 4 continuam ganhando tração devido a utilização de dispositivos IoT, Cloud Computing, assim como a detecção de doenças de forma antecipada. No entanto, no Cluster 5 estão os tópicos com escassa cobertura indicando baixo interesse nos temas dos artigos, ou seja, demonstram que estudar o impacto da classificação e análises preditivas representam uma área com baixa exploração acadêmica. A Figura 10 ilustra o mapa de evolução temática para os anos de 2013-2023. O período de 2013 a 2014 gira em torno do tema “Big Data” e métodos de classificação para 26 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo tratar a grande quantidade de dados. Gradualmente, outros temas evoluíram no período 2015 a 2016, por exemplo “Learning Systems” e “Classification (of information)”, indicando a necessidade de utilizar sistemas de aprendizagem para classificar as informações. O período de 2017 a 2018 se destacam os termos “Artificial Intelligence”, “Decision Making”, “Deep Learning” e “Prediction”, indicando a busca de mecanismos para apoiar a indústria na tomada de decisão e a predição de eventos. Em 2019 a 2020, os termos “Prediction”, “Machine Learning”, “Big Data” e “Decision Making”, ganham tração, indicando, assim, a demanda por utilização de métodos de aprendizado de máquina para tomada de decisão. No período de 2021 a 2023, fica evidenciado que os termos IoT, Big Data, Decision Making e Prediction continuam dominando os temas dos artigos acadêmicos. Figura 10 Mapa de evolução temática para os anos 2013-2023 Fonte: Resultados da Pesquisa 3.2.6 Coocorrências de títulos Na Figura 11 são analisadas as palavras que ocorrem com frequência e de forma concomitantes nos artigos, formando uma rede. As palavras com maior ocorrência incluem Machine Learning, Big Data, Data Analytics, Deep Learning, Artificial Intelligence. Outros domínios de pesquisa também são identificados como Healthcare, Blockchain, Covid-19 e Supply Chain Management. Na verdade Machine Learning tem sido frequentemente usado International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 27 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo com Big Data e Data Analytics, uma vez que ML depende de um conjunto de dados “Data Set” para ser treinado e aplicado. Figura 11 Coocorrência de títulos Fonte: Resultados da Pesquisa. 4 DISCUSSÃO Para abordar a primeira questão de pesquisa, ou seja, o foco da pesquisa sobre ML, foi conduzida uma análise descritiva no corpus bibliométrico. Os resultados são resumidos nos 7 itens abaixo: (a) Principais autores: Em termos de número de citações e resultados de acoplamento bibliográfico ilustrados nas Tabelas 2 e 6, foi descoberto que Yunhao Liu da China 28 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo é um nome frequentemente citado, seguido por Yogesh K. Dwivedia do Reino Unido. Em termos de número de publicações (NP), verifica-se que Zhenhua Li da China, J.W. Wang. do Japão e Yi Wang da China são os autores mais produtivos. Nripendra P. Rana, Yogesh K. Dwivedia, Kuttimani Tamilmani, Arpan Kumar Kar, Yi Wang, Yanqing Duan, Santosh Misra, Sujeet Kumar Sharma, Qixin Chen, e Chongqing Kang são os 10 principais autores em termos de acoplamento bibliográfico. (b) Países-chaves: Os países mais produtivos para o domínio de ML em termos de número total de publicações (NP) são EUA, Índia, China e Reino Unido, seguido pela Alemanha e Canada conforme ilustrado na Tabela 3. Para citações por publicação, Polonia, Egito e Singapura são os três principais países com a métrica C/P mais elevada, enquanto China, EUA e Reino Unido aparecem com o maior número de citações totais TC (c) Principais universidades: As 3 universidades mais produtivas são University of Michigan, The Pennsylvania State University e King Saud University conforme demostrado na Tabela 4. Em termos de colaboração de pesquisa, o Indian Institute of Technology, Swansea University e Copenhagen Business School estão engajados em uma ampla colaboração de pesquisa no domínio de ML. (d) Principais periódicos: Os 10 periódicos com maior número de publicações e citações são: IEEE Access, International Journal of Information Management, Journal of Big Data, International Journal of Production Research, Annals Of Operations Research, Sustainability (Switzerland), Decision Support Systems, Journal of Business Research, Computers and Industrial Engineering e Industrial Management and Data Systems. Baseado em acoplamento bibliográfico, os 10 principais periódicos são: IEEE Access, International Journal of Information Management, International Journal of Production, Research Annals of Operations Research, Sustainability (Switzerland), Industrial Management and Data Systems, British Journal of Management, Journal of Business Research, Journal of Enterprise Information Management e International Journal of Production Economics. (e) Áreas de conhecimento: Na Figura 4, é evidenciado que as áreas de conhecimento com maior número de publicações são: “Computer Science”, “Engineering”, “Decision Sciences”, “Social Sciences”, “Business, Management and Accounting” e “Mathematics”. International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 29 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo (f) Análise da rede de cocitação por Autor: É inferida a partir da Figura 6, no qual (DWIVEDI et al, 2021) e (WANG et al, 2019) são altamente citados, estes autores são responsáveis pela ligação entre as duas redes de cocitação. Do lado esquerdo é evidenciado que os autores Sharma S.K., Misra S, Duan Y. e Kar A.K, citam com frequência o Dwivedi Y.K. e do lado direito Chen Q., Kang C. e Choi T.-M. citam com frequência o Wang Y. (g) Análise de prestígio: Os três artigos de maior prestígio são (LIU Y. et al, 2020), (LI Z. et al, 2020) e (WANG Y. et al, 2019). No entanto o artigo de (CHEN M. et al, 2014) recebeu o maior número de citações. Para a segunda questão de pesquisa, ou seja, a análise temática da evolução do ML, foi realizado um agrupamento de coocorrências de palavras-chaves, com os seguintes resultados: (a) Principais coocorrências de palavras-chaves: “Artificial Intelligence” (AI), “Learning Systems” e “Deep Learning”, estão frequentemente correlacionadas, enquanto o termo “Big Data” frequentemente ocorre conjuntamente com “Data Analytics”, “Internet of Things”, “Advanced Analytics”. Os termos “Data Mining”, “Predictive Analytics”, “Forecasting”, “Commerce”, e “Sales” são frequentemente correlacionados. Os termos “Decision Making”, “Big Data Analytics”, “Prediction” e “Supply Chain Management” estão relacionados diretamente. Apesar do termo “Machine Learning” apresentar uma relação direta com “Supply Chains”, é observado no VOSViewer, que ML tem uma forte coocorrência com todos os demais grupos: “Big Data”, “IA”, “Decision Making”, “Data Mining” e “Learning Systems”. (b) Informações dos Clusters: A partir da Figura 15 e da Tabela 7 os temas emergentes foram agrupados em cinco clusters bibliográficos, sendo o Cluster 1 (Machine Learning Techniques, Decision Makes, Sales e Forecasting), que apresenta maior densidade, seguido pelo Cluster 2 (BI e BDA), Cluster 3 (IoT, Data Handling e Cloud Computing), Cluster 4 (Activity Recognition, Health, Medicine, Service Quality, Therapy, Heart Failure, Classification e Risk) e o Cluster 5 (Data Acquisition e Predictive Analytics), que apresenta artigos diversos e possui baixa exploração em análises preditivas. 30 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo (c) Análise da nuvem de palavras por título e por resumo: Big, Learn, Machine, Prediction, Analysis, Intelligence e Retail são palavras frequentes nos títulos das publicações, enquanto Big, Learn, Prediction, Algorithm, Model, Method, Analysis e Technique são palavras frequentes nos resumos o que corrobora os temas cobertos pelos periódicos. Para a terceira questão de pesquisa, ou seja, a identificação de futuras áreas de pesquisa, teóricas e/ou práticas, os resultados da análise de cluster e da análise de cocitação evidenciaram que DBA, ML e Deep Learning estão essencialmente ligados para resolver problemas de previsão de negócios e tomadas de decisão e áreas de aplicação como mercado de ações, marketing e gestão na cadeia de suprimentos. O papel da computação em nuvem e da IoT também são citados para servir como infraestrutura e gerar uma grande quantidade de dados a partir de sensores e atuadores. CONCLUSÃO O presente estudo apresentou uma análise bibliométrica sobre ML, considerando artigos de periódicos da Scopus e Web Of Science no período de 2013 a maio/2023. Em termos de contribuições teóricas, os resultados alcançados podem auxiliar futuros pesquisadores a identificar temas emergentes para pesquisa e potenciais colaborações. Em primeiro lugar, o estudo examinou o foco da atual utilização do ML. O foco ilustrou as principais contribuições em termos de autores, universidades, periódicos e países para o domínio do ML. Em segundo lugar, destacou as principais áreas temáticas, agrupando-as bibliograficamente em cinco clusters. Sobre o escopo para pesquisas futuras, observou-se que em estudos anteriores, como Batistic e Van (2019), foi adotado o mesmo protocolo bibliométrico para estudar o impacto das técnicas de BDA nas empresas. Este estudo estende a pesquisa existente para estreitar o foco para aplicações preditivas de grandes bases de dados em um contexto de ML. A literatura existente sobre análise de ML também foi detalhada, com um mapa de evolução temática indicando os temas emergentes. Assim, esses temas fornecem direcionamento para futuras pesquisas no domínio do ML. Com relação às contribuições práticas, o estudo forneceu uma visão dos diferentes temas publicados nos últimos dez anos no domínio do ML. Esta evolução temática evidencia que ML está se tornando um domínio procurado por pesquisadores e profissionais de sistema International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 31 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo de informação. Hoje, os dados são novas comodities e esta pesquisa pode auxiliar empresas que desejam investir na adoção de técnicas de ML para obter vantagem competitiva por meio de um diagnóstico mais assertivo. Equipes de pesquisa e desenvolvimento podem adotar este protocolo bibliométrico com pequenos ajustes na string de pesquisa, podendo aprofundar futuras pesquisas, recuperando documentos relevantes como pontos de verificação de referência para outras abordagens relacionadas ao Big Data e ML. Embora o estudo revele algumas descobertas interessantes e forneça insights úteis, também existem algumas limitações. Primeiro, a amostra de dados foi limitada aos bancos de dados Scopus e Web of Science devido a disponibilidade de acesso para extração de artigos relevantes dos últimos dez anos. Em segundo lugar, uma combinação específica de palavraschave foi utilizada para análise bibliométrica, a qual pode ser ajustada para derivar diferentes percepções. Além disso, o período para a extração pode ser variado para revelar diferentes tendências de publicações e citações. A necessidade de análise preditiva é encontrada não só no setor corporativo para diagnóstico, mas também como uma área de pesquisa emergente. O principal motivador para a pesquisa neste campo é a necessidade de desenvolver ferramentas altamente precisas com alta capacidade de previsão recursos obtidos em diferentes segmentos, como bancos e serviços financeiros, marketing, cadeia de suprimentos, gestão de pessoas e predição de vendas. CONTRIBUIÇÃO DOS AUTORES Contribuição Contextualização Metodologia Software Validação Análise formal Investigação Recursos Curadoria de dados Original Revisão e edição Visualização Supervisão Administração do projeto Aquisição de financiamento Martins, E. 60% 40% 60% 60% 60% 60% 60% 60% 60% 60% 60% 40% 40% --- Galegale, N. V. 40% 60% 40% 40% 40% 40% 40% 40% 40% 40% 40% 60% 60% --- 32 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo REFERÊNCIAS Ahani A., Nilashi M., Ibrahim O., Sanzogni L., Weaven S., (2019) - Market segmentation and travel choice prediction in Spa hotels through TripAdvisors online reviews https://doi.org/10.1016/j.ijhm.2019.01.003 Ahmadi H., Arji G., Shahmoradi L., Safdari R., Nilashi M., Alizadeh M., (2019) - The application of internet of things in healthcare a systematic literature review and classification. https://doi.org/10.1007/s10209-018-0618-4 Ali M.A.M., Bashar A., Rabbani M.R., Abdulla Y., (2020) - Transforming Business Decision Making with Internet of Things IoT and Machine Learning ML. https://doi.org/10.1109/dasa51403.2020.9317174 Alonso-Betanzos A., Bolon-Canedo V., (2018) - Big-Data Analysis, Cluster Analysis, and Machine-Learning Approaches. https://doi.org/10.1007/978-3-319-77932-4_37 Antonopoulos I., Robu V., Couraud B., Et Al (2020) - Artificial intelligence and machine learning approaches to energy demand-side response: A systematic review. https://doi.org/10.1016/j.rser.2020.109899 Athmaja S.; Hanumanthappa M., Kavitha V., (2017) - A Survey of Machine Learning Algorithms for Big Data Analytics. https://doi.org/10.1109/iciiecs.2017.8276028 Baryannis G., Validi S., Dani S., Antoniou G., (2019) - Supply chain risk management and artificial intelligence state of the art and future research directions. https://doi.org/10.1080/00207543.2018.1530476 Batistic S., Van D.L.P., (2019) - History Evolution and Future of Big Data and Analytics A Bibliometric Analysis of Its Relationship to Performance in Organizations. https://doi.org/10.1111/1467-8551.12340 Bhavnani S.P., Parakh K., Atreja A., Et Al (2017) - 2017 Roadmap for Innovation - ACC Health Policy Statement on Healthcare Transformation in the Era of Digital Health, International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 33 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Big Data and Precision Health. https://doi.org/10.1016/j.jacc.2017.10.018 Bilgic E., Cakir O., Kantardzic M., Duan Y., Cao G., (2021) - Retail analytics: store segmentation using Rule-Based Purchasing behavior analysis. https://doi.org/10.1080/09593969.2021.1915847 Böse J.-H., Flunkert V., Gasthaus J., Et Al (2017) - Probabilistic demand forecasting at scale. https://doi.org/10.14778/3137765.3137775 Bui T.D., Tsai F.M., Tseng M.L., Tan R.R., Yu K.D.S., Lim M.K., (2021) - Sustainable supply chain management towards disruption and organizational ambidexterity A data driven analysis. https://doi.org/10.1016/j.spc.2020.09.017 Calatayud A., Mangan J., Christopher M., (2019) - The self-thinking supply chain - Supply Chain Management - Emerald Group Holdings Ltd. - United Kingdom. https://doi.org/10.1108/SCM-03-2018-0136 Cerruela García G., Luque Ruiz I., Gómez-Nieto M., (2016) - State of the art trends and future of bluetooth low energy near field communication and visible light communication in the development of smart cities - Sensors (Switzerland) - MDPI AG – Spain. https://doi.org/10.3390/s16111968 Chandra S. E Verma S., (2021) - Big Data and Sustainable Consumption A Review and Research Agenda – Vision - Sage Publications India Pvt. Ltd – India. https://doi.org/10.1177/09722629211022520 Chang, P.C., Liu, C.H., And Fan, C.Y. (2009) - Data clustering and fuzzy neural network for sales forecasting: A case study in printed circuit board industry. https://doi.org/10.1016/j.knosys.2009.02.005 Chen M., Mao S., Liu Y., (2014) - Big data: A survey - Mobile Networks and Applications. https://doi.org/10.1007/s11036-013-0489-0 34 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Chen M., Hao Y.X., Hwang K., Wang L., Wang L., (2017) - Disease Prediction by Machine Learning Over Big Data From Healthcare Communities. https://doi.org/10.1109/access.2017.2694446 Choi T.-M., Wallace S.W., Wang Y., (2018) - Big Data Analytics in Operations Management. https://doi.org/10.1111/poms.12838 Dinov I.D., Heavner B., Tang M., et al (2016) - Predictive Big Data Analytics A Study of Parkinsons Disease Using Large Complex Heterogeneous Incongruent MultiSource and Incomplete Observations - Plos One - Public Library Science - United States. https://doi.org/10.1371/journal.pone.0157077 Duan Y., Edwards J.S., Dwivedi Y.K., (2019) - Artificial Intelligence for Decision Making In The Era Of Big Data Evolution Challenges And Research Agenda. https://doi.org/10.1016/j.ijinfomgt.2019.01.021 Dwivedi Y.K., Hughes L., Ismagilova E., et al (2021) - Artificial Intelligence AI Multidisciplinary perspectives on emerging challenges opportunities and agenda for research practice and policy. https://doi.org/10.1016/j.ijinfomgt.2019.08.002 George G., Osinga E., Lavie D., Scott B., (2016) - Big data and data science methods for management research. https://doi.org/10.5465/amj.2016.4005 Gill S. S., Tuli S., Xu M., et al, (2019) - Transformative effects of IoT Blockchain and Artificial Intelligence on cloud computing Evolution vision trends and open challenges. https://doi.org/10.1016/j.iot.2019.100118 Gupta N., Ahuja N., Malhotra S., Bala A., Kaur G., (2017) - Intelligent heart disease prediction in cloud environment through ensembling - Expert Systems – Wiley – India. https://doi.org/10.1111/exsy.12207 Hashimoto D.A., Rosman G., Rus D., Meireles O.R., (2018) - Artificial Intelligence in International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 35 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Surgery Promises and Perils - Annals of Surgery - Lippincott Williams & Wilkins United States. http://dx.doi.org/10.1097/SLA.0000000000002693 Hassija V., Chamola V., Saxena V., Jain D., Goyal P., Sikdar B., (2019) - A Survey on IoT Security Application Areas Security Threats and Solution Architectures. https://doi.org/10.1109/access.2019.2924045 Hu H., Wen Y., Chua T-S., Li X., (2014) - Toward scalable systems for big data analytics A technology tutorial - IEEE Access - Institute of Electrical and Electronics Engineers Inc. https://doi.org/10.1109/access.2014.2332453 Kitchens B., Dobolyi D., Li J., Abbasi A., (2018) - Advanced Customer Analytics Strategic Value Through Integration of RelationshipOriented Big Data. https://doi.org/10.1080/07421222.2018.1451957 Kou G., Chao X., Peng Y., Alsaadi F.E., Herrera-Viedma E., (2019) - Machine learning methods for systemic risk analysis in financial sectors. https://doi.org/10.3846/tede.2019.8740 Kousis A. E Tjortjis C., (2021) - Data mining algorithms for smart cities A bibliometric analysis - Algorithms - MDPI AG – Greece. https://doi.org/10.3390/a14080242 Lichman, M. (2013) - UCI Machine Learning Repository. Disponível em: https://archive.ics.uci.edu/ml/datasets/wine Johnson A.E.W., Ghassemi M.M., Nemati S., Niehaus K.E., Clifton D.A., Clifford G.D., (2016) - Machine Learning and Decision Support in Critical Care. https://doi.org/10.1109/jproc.2015.2501978 Jordan, M.I. E Mitchell, T.M. (2015) - Machine learning: Trends perspectives and prospects. Science, 349:255–260. https://doi.org/10.1126/science.aaa8415 36 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Ke J., Zheng H., Yang H., Chen X. (2017) - Short-term forecasting of passenger demand under on-demand ride services: A spatio-temporal deep learning approach. https://doi.org/10.1016/j.trc.2017.10.016 Krawczyk B., (2016) - Learning from imbalanced data open challenges and future directions Progress in Artificial Intelligence – Springernature – Poland. https://doi.org/10.1007/s13748-016-0094-0 L'heureux A., Grolinger K., Elyamany H.F., Capretz M.A.M., (2017) - Machine Learning with Big Data Challenges and Approaches - IEEE Access - Institute of Electrical and Electronics https://doi.org/10.1109/access.2017.2696365 Levy, Y.; Ellis, T.J. A system approach to conduct an effective literature review in support of information systems research. Informing Science Journal, v.9, p.181-212, 2006. https://doi.org/10.28945/479 Ma C., Zhang H.H., Wang X.F., (2014) - Machine learning for Big Data analytics in plants Trends in Plant Science - Elsevier Science London – China. https://doi.org/10.1016/j.tplants.2014.08.004 Mishra D., Gunasekaran A., Papadopoulos T., Childe S.J., (2018) - Big Data and supply chain management a review and bibliometric analysis. https://doi.org/10.1007/s10479-0162236-y Moher, D., Shamseer, L., Clarke, M., Ghersi, D., Liberati, A., Stewart, L. A. (2015) Preferred reporting items for systematic review and meta-analysis protocols (PRISMA-P) 2015 statement. Systematic Reviews, 4(1). https://doi.org/10.1186/20464053-4-1 Moreira Mwl., Rodrigues Jjpc., Kumar N., Saleem K., Illin Iv, (2019) - Postpartum depression prediction through pregnancy data analysis for emotionaware smart systems updates. https://doi.org/10.1016/j.inffus.2018.07.001 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 37 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Nguyen H.D., Tran K.P., Thomassey S., Hamad M., (2021) - Forecasting and Anomaly Detection approaches using LSTM and LSTM Autoencoder techniques with the applications in supply chain management. https://doi.org/10.1016/j.ijinfomgt.2020.102282 Nguyen T., Zhou L., Spiegler V., Ieromonachou P., Lin Y., (2018) - Big data analytics in supply chain management A stateoftheart literature review. https://doi.org/10.1016/j.cor.2017.07.004 Qian T.Q., Zhu S.J., Hoshida Y., (2019) - Use of big data in drug development for precision medicine an update. https://doi.org/10.1080/23808993.2019.1617632 Razavian N., Blecker S., Schmidt A.M., Smith-Mclallen A., Nigam S., Sontag D., (2015) PopulationLevel Prediction of Type 2 Diabetes From Claims Data and Analysis of Risk Factors https://doi.org/10.1089/big.2015.0020 Sahoo S., (2021) - Big data analytics in manufacturing a bibliometric analysis of research in the field of business management. https://doi.org/10.1080/00207543.2021.1919333 Sharma, R., Kamble, S.S., Gunasekaran, A., Kumar, V., Kumar, A., (2020) - A systematic literature review on machine learning applications for sustainable agriculture supply chain performance - Computers & Operations Research - Pergamon-Elsevier Science Ltd – England. https://doi.org/10.1016/j.cor.2020.104926 Shokouhyar S., Shokoohyar S., Sobhani A., Gorizi A.J., (2021) - Shared mobility in postCOVID era: New challenges and opportunities - Sustainable Cities and Society Elsevier Ltd https://doi.org/10.1016/j.scs.2021.102714 Silver, D., Huang, A. E Guez, A. (2016) - Mastering the game of go with deep neural networks and tree search - Nature, 529:484–489. https://doi.org/10.1038/nature16961 Silver, D., Schrittwieser, J., Simonyan, K. E Antonoglou, I. (2017) - Mastering the game of go 38 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo without human knowledge - Nature, 550:354–359. https://doi.org/10.1038/nature24270 Raschka, S. E Mirjalili, V. (2017) - Python Machine Learning, 2nd Ed.- Packt Publishing, Birmingham, UK, 2 edition. Trieu V.-H., (2017) - Getting value from Business Intelligence systems A review and research agenda - Decision Support Systems - Elsevier B.V. – Australia. https://doi.org/10.1016/j.dss.2016.09.019 Tzeng G.-H., Shen K.-Y., (2017) - New concepts and trends of hybrid multiple criteria decision making - ISBN 9780367573133 Wanasinghe T.R., Wroblewski L., Petersen B.K., et al (2020) - Digital Twin for the Oil and Gas Industry Overview Research Trends Opportunities and Challenges. https://doi.org/10.1109/access.2020.2998723 Wang D., Liu X., Wang, M., (2013) - A dt-svm strategy for stock futures prediction with big data - IEEE 16th International Conference on Computational Science and Engineering. https://doi.org/10.1109/cse.2013.147 Wang J.L., Zhao P.L., Hoi S.C.H., Jin R., (2014) - Online Feature Selection and Its Applications - IEEE Transactions on Knowledge and Data Engineering - IEEE Computer Soc - United States. https://doi.org/10.1109/tkde.2013.32 Wang W., Gao J.Y., Zhang M.H., et al (2018) - Rafiki Machine Learning as an Analytics Service System - Proceedings of The Vldb Endowment - Assoc Computing Machinery – China. https://doi.org/10.48550/arXiv.1804.06087 Wang Y., Chen Q., Hong T., Kang C., (2019) - Review of Smart Meter Data Analytics Applications Methodologies and Challenges. https://doi.org/10.1109/tsg.2018.2818167 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez. 39 de 40 Martins, E., & Galegale, N. V. (2023, set./dez.). Machine learning: uma análise bibliométrica Seção: Artigo Xu J., Huang E., Chen C.-H., Lee L.H., (2015) - Simulation optimization A review and exploration in the new era of cloud computing and big data. https://doi.org/10.1142/s0217595915500190 40 de 40 International Journal of Innovation - IJI, São Paulo, 11(3), p. 1-40, e24056, set./dez.