Projeto SARA: Sistema Automatizado de Resposta a Recursos dos Pedidos de Acesso à Informação

Douglas Rolins Santana; Livia Mancine Coelho Campos; Kairo Antônio Lopes Silva; Danilo Silva Ramos; Valdemar Vicente Graciano Neto; Leonardo Andrade Ribeiro

doi:10.5753/sbbd.2024.242899

Douglas Rolins Santana Universidade Federal de Goiás
Livia Mancine Coelho Campos Universidade Federal de Goiás
Kairo Antônio Lopes Silva Universidade Federal de Goiás
Danilo Silva Ramos Universidade Federal de Goiás
Valdemar Vicente Graciano Neto Universidade Federal de Goiás
Leonardo Andrade Ribeiro Universidade Federal de Goiás

DOI: https://doi.org/10.5753/sbbd.2024.242899

Resumo

A Controladoria-Geral da União (CGU) enfrenta desafios na gestão e resposta a um volume crescente de recursos relacionadas aos pedidos de acesso à informação. Para abordar este problema, este artigo apresenta o projeto "SARA" (Sistema Automatizado de Resposta a Recursos), uma solução baseada em Processamento de Linguagem Natural que utiliza de Geração Aumentada de Recuperação para identificar recursos e pedidos similares, prever decisões e gerar respostas automatizadas aos recursos. Experimentos preliminares indicam que o projeto SARA tem o potencial de melhorar a eficiência e a velocidade de resposta, sugerindo um mecanismo robusto e escalável para o tratamento de recursos na CGU.

Palavras-chave: geração aumentada de recuperação, processamento de linguagem natural, aprendizado de máquina, sistemas de recomendação, embeddings

Referências

Bonifacio, L., Abonizio, H., Fadaee, M., and Nogueira, R. (2022). Inpars: Unsupervised dataset generation for information retrieval. In Proceedings of the 45th International ACM SIGIR, SIGIR ’22, page 2387–2392, New York, NY, USA.

Brandão, M., Silva, M., Oliveira, G., Hott, H., Lacerda, A., and Pappa, G. (2023). Impacto do Pré-processamento e Representação Textual na Classificação de Documentos de Licitações. In Anais do XXXVIII Simpósio Brasileiro de Bancos de Dados, pages 102–114, Porto Alegre, RS, Brasil. SBC.

Brasil (2011). Lei nº 12.527, de 18 de Novembro de 2011. Lei de Acesso à Informação.

Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., and Xie, X. (2024). A Survey on Evaluation of Large Language Models. ACM Trans. Intell. Syst. Technol.

Ding, Y., Fan, W., Ning, L., Wang, S., Li, H., Yin, D., Chua, T.-S., and Li, Q. (2024). A Survey on RAG Meets LLMs: Towards Retrieval-Augmented Large Language Models. arXiv preprint arXiv:2405.06211.

Eisenstein, J. (2019). Introduction to Natural Language Processing. MIT Press.

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., and Wang, H. (2023). Retrieval-Augmented Generation for Large Language Models: A Survey. arXiv pre-print arXiv:2312.10997.

Johnson, J., Douze, M., and Jégou, H. (2019). Billion-Scale Similarity Search with GPUs. IEEE Transactions on Big Data, 7(3):535–547.

Mangaravite, V., Carvalho, M., Cantelli, L., Ponce, L., Campoi, B., Nunes, G., Laender, A., and Gonçalves, M. (2022). DedupeGov: Uma Plataforma para Integração de Grandes Volumes de Dados de Pessoas Físicas e Jurídicas em Âmbito Governamental. In Anais do XXXVII SBBD, pages 90–102, Porto Alegre, RS, Brasil. SBC.

Muennighoff, N., Tazi, N., Magne, L., and Reimers, N. (2023). MTEB: Massive Text Embedding Benchmark. In Proceedings of the 17th Conference of the European Chapter of the Association for Computational Linguistics, pages 2014–2037, Dubrovnik, Croatia. Association for Computational Linguistics.

Reimers, N. and Gurevych, I. (2019). Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing. ACL.

Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. (2023). Llama: Open and Efficient Foundation Language Models. arXiv preprint arXiv:2302.13971.

Tunstall, L., Beeching, E., Lambert, N., Rajani, N., Rasul, K., Belkada, Y., Huang, S., von Werra, L., Fourrier, C., Habib, N., et al. (2023). Zephyr: Direct Distillation of LM Alignment. arXiv preprint arXiv:2310.16944.