Abordagem de desenvolvimento de uma pipeline de migração de dados utilizando inteligência artificial

José Vítor Donassolo Correa dos Santos; Evandro Miguel Kuszera

doi:10.5753/latinoware.2024.245349

José Vítor Donassolo Correa dos Santos UTFPR http://orcid.org/0009-0001-9240-8913
Evandro Miguel Kuszera UTFPR https://orcid.org/0000-0002-4040-0151

DOI: https://doi.org/10.5753/latinoware.2024.245349

Resumo

Os grandes modelos de linguagem (LLM) e a inteligência artificial estão cada vez mais servindo como ferramenta para auxiliar os usuários em diferentes funções e aumentar a produtividade. Tendo em vista também o grande crescimento da disponibilidade de dados e da necessidade de explorá-los, a manipulação de dados utilizando de técnicas de engenharia de dados é um assunto que se faz latente. Portanto este trabalho tem como finalidade unir estes dois aspectos para avaliar, através de diferentes critérios, a capacidade das ferramentas de código aberto que integram a aplicação com modelos de inteligência artificial em gerar códigos para migração e transformação de dados. A expectativa é que esta abordagem contribua para mitigar desafios latentes na área, como a escassez de profissionais qualificados no mercado de trabalho e a complexidade intrínseca a essas tarefas, que, com o emprego dessas técnicas, podem ser simplificadas.

Palavras-chave: engenharia de dados, inteligência artificial, processamento de linguagem natural

Referências

Forbes. (2023) As 25 profissões em alta neste ano, segundo o linkedin. [link]. Acessado em: 14 de novembro de 2023.

J. ANDERSON. (2020) Data teams. [link] Chapter DataTeams.pdf. Acessado em:12 de julho de 2024.

M. Mendonça, “Metodologia de migração de dados em um contexto de migração de sistemas legados,” Master’s thesis, Universidade Federal de Pernambuco, 2009.

Brasscom, “Demanda de talentos em TIC e estratégia TCEM.” [link], 2021. Acessado em: 5 de setembro de 2023.

N. P. Russell, S., “Artificial Intelligence: A Modern Approach,” 1995.

J. Okerlund, E. Klasky, A. Middha, S. Kim, H. Rosenfeld, M. Kleinman, e S. Parthasarathy, “Large language models, why they matter, and what we should do about them,” University of Michigan, Tech. Rep., 2022. Acesso em 14 de dezembro de 2022. [Online]. Disponível em: [link]

J. White, Q. Fu, S. Hays, M. Sandborn, C. Olea, H. Gilbert, A. Elnashar, J. Spencer-Smith, e D. C. Schmidt, “A prompt pattern catalog to enhance prompt engineering with ChatGPT,” 2023. [Online]. Disponível em: [link]

M. Ross e R. Kimball, The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. Wiley, 2013.

R. A. Pazos R, J. J. González B, M. A. Aguirre L, J. A. Martínez F, e H. J. Fraire H, “Natural language interfaces to databases: an analysis of the state of the art,” Recent Advances on Hybrid Intelligent Systems, pp. 463–480, 2013.

A. Liu, X. Hu, L. Wen, e P. S. Yu, “A comprehensive evaluation of ChatGPT’s zero-shot text-to-SQL capability,” 2023.

G. d. M. Evangelista, “Uso de LLM open source na tradução de linguagem natural para SQL,” B.S. thesis, 2023.

C. V. der Putten, “Transforming data flow: Generative AI in ETL pipeline automatization,” Master Degree Thesis, Politecnico di Torino, 2024.

C. C. Pimentel, “Bancos de dados relacionais: uma análise comparativa entre ferramentas SGBD livre e proprietária,” Tecnologia em Gestão da Tecnologia da Informação-Unisul Virtual, 2019.

Oracle, Understanding Explain Plan. [link]. Acessado em: 8 de junho de 2024.

A. Souza, “Comparando capacidades de LLMs (Large Language Models),” [link], 2023. Acessado em: 30 de agosto de 2024.