Querying Databases with Natural Language: The use of Large Language Models for Text-to-SQL tasks

  • Eduardo Roger S. Nascimento Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio) http://orcid.org/0009-0005-3391-7813
  • Marco Antonio Casanova Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio)

Resumo


A tarefa de Texto-para-SQL envolve a geração de consultas SQL com base em um banco de dados relacional e uma pergunta em Linguagem Natural (LN). Embora os Modelos de Linguagem Grandes (LLMs) apresentem bom desempenho em benchmarks conhecidos, eles são avaliados em bancos de dados com esquemas mais simples. Esta dissertação avalia inicialmente sua eficácia em um banco de dados complexo e disponível publicamente (Mondial) utilizando GPT-3.5 e GPT-4. Os resultados indicam que os modelos baseados em LLM têm desempenho inferior e dificuldades com a vinculação de esquemas e joins. Para melhorar a precisão, este trabalho propõe o uso de views e descrições de dados amigáveis para LLMs. Um segundo experimento, em um banco de dados do mundo real, confirma que essa abordagem aumenta a precisão na tarefa de Texto-para-SQL.

Palavras-chave: Text-to-SQL, Large Language Models, LangChain, GPT

Referências

Dettmers, T., Pagnoni, A., Holtzman, A., and Zettlemoyer, L. (2023). Qlora: Efficient finetuning of quantized llms. Available at: [link].

Dong, X., Zhang, C., Ge, Y., Mao, Y., Gao, Y., lu Chen, Lin, J., and Lou, D. (2023). C3 zero-shot text-to-sql with chatgpt. Available at: [link].

Gao, D., Wang, H., Li, Y., Sun, X., Qian, Y., Ding, B., and Zhou, J. (2023). Text-to-sql empowered by large language models a benchmark evaluation. Available at: [link].

Groff, J. R. and Weinberg, P. N. (1999). SQL: The Complete Reference. Osborne/McGraw-Hill.

Guo, C., Tian, Z., Tang, J., Li, S., Wen, Z., Wang, K., and Wang, T. (2023). Retrieval-augmented gpt-3.5-based text-to-sql framework with sample-aware prompting and dynamic revision chain. Available at: [link].

Langchain (2024). Langchain is a framework for developing applications powered by language models. Available at: [link].

Li, J., Hui, B., Qu, G., Yang, J., Li, B., Li, B., Wang, B., Qin, B., Cao, R., Geng, R., Huo, N., Zhou, X., Ma, C., Li, G., Chang, K. C. C., Huang, F., Cheng, R., and Li, Y. (2023). Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sqls. Available at: [link].

May, W. (1999). Information extraction and integration with FLORID: The MONDIAL case study. Technical Report 131, Universität Freiburg, Institut für Informatik. Available at: [link].

OpenAI (2024). Openai blog. Available at: [link].

Pourreza, M. and Rafiei, D. (2023). Din-sql: Decomposed in-context learning of text-to-sql with self-correction. Available at: [link].

Quamar, A., Efthymiou, V., Lei, C., and Özcan, F. (2022). Natural language interfaces to data. Foundations and Trends in Databases, 11(4):319–414.

Saravia, E. (2022). Prompt Engineering Guide. Available at: [link].

Singh, A. (2023). Large language models: A guide on its benefits, use cases, and types. Available at: [link].

Yu, T., Zhang, R., Yang, K., Yasunaga, M., Wang, D., Li, Z., Ma, J., Li, I., Yao, Q., Roman, S., Zhang, Z., and Radev, D. (2018). Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task. In Riloff, E., Chiang, D., Hockenmaier, J., and Tsujii, J., editors, Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3911–3921, Brussels, Belgium. Association for Computational Linguistics. Available at: [link].
Publicado
14/10/2024
NASCIMENTO, Eduardo Roger S.; CASANOVA, Marco Antonio. Querying Databases with Natural Language: The use of Large Language Models for Text-to-SQL tasks. In: CONCURSO DE TESES E DISSERTAÇÕES (CTDBD) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 196-201. DOI: https://doi.org/10.5753/sbbd_estendido.2024.240552.