Indexação Semântica Modular para Recuperação Colaborativa de Conhecimento em Sistemas RAG

Emelyn C. Freire; Karolayne S. Azevedo; Sérgio N. Silva; Marcelo A. C. Fernandes

doi:10.5753/sbsc.2026.20073

Emelyn C. Freire Universidade Federal do Rio Grande do Norte (UFRN)
Karolayne S. Azevedo Universidade Federal do Rio Grande do Norte (UFRN)
Sérgio N. Silva Universidade Federal de Campina Grande (UFCG)
Marcelo A. C. Fernandes Universidade Federal do Rio Grande do Norte (UFRN)

DOI: https://doi.org/10.5753/sbsc.2026.20073

Resumo

Sistemas de Recuperação Aumentada por Geração (RetrievalAugmented Generation – RAG) dependem fortemente das estratégias de indexação e segmentação dos documentos para garantir respostas precisas e confiáveis. Este trabalho apresenta um estudo comparativo entre duas arquiteturas de indexação para sistemas RAG: uma abordagem tradicional monolítica, baseada em chunking uniforme, e uma abordagem modular com enriquecimento semântico, que incorpora segmentação estrutural e metadados contextuais. Os experimentos foram conduzidos sobre um corpus real de 20 dissertações de mestrado, utilizando dois modelos de embedding e diferentes valores de recuperação de contexto (K), totalizando 120 execuções em um protocolo experimental controlado. A avaliação foi realizada por meio de múltiplas métricas do framework RAGAS, abrangendo fidelidade, relevância da resposta, precisão e recall do contexto, similaridade semântica e correção da resposta. Os resultados mostram que a arquitetura modular supera consistentemente a abordagem monolítica em todas as métricas analisadas, apresentando ganhos de desempenho e menor variabilidade entre execuções. Esses achados indicam que decisões arquiteturais no processo de indexação exercem impacto direto na qualidade, robustez e confiabilidade das respostas geradas por sistemas RAG.

Palavras-chave: RAG, indexação semântica, chunking, recuperação de informação, embeddings, RAGAS

Referências

Abo El-Enen, M., Saad, S., and Nazmy, T. (2025). A survey on retrieval-augmentation generation (rag) models for healthcare applications. Neural Computing and Applications, 37(33):28191–28267.

Chase, H. (2023). Langchain: Building applications with large language models. arXiv preprint arXiv:2308.00000.

Chroma (2024). Chroma: The open-source embedding database. [link]. Accessed: 2025-02.

Es, S., James, J., Espinosa Anke, L., and Schockaert, S. (2024). RAGAs: Automated evaluation of retrieval augmented generation. In Aletras, N. and De Clercq, O., editors, Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pages 150–158, St. Julians, Malta. Association for Computational Linguistics.

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., and Wang, H. (2024). Retrieval-augmented generation for large language models: A survey.

Guu, K., Lee, K., Tung, Z., Pasupat, P., and Chang, M. (2020). Retrieval augmented language model pre-training. In III, H. D. and Singh, A., editors, Proceedings of the 37th International Conference on Machine Learning, volume 119 of Proceedings of Machine Learning Research, pages 3929–3938. PMLR.

Hearst, M. A. (1997). Text tiling: Segmenting text into multi-paragraph subtopic passages. Computational Linguistics, 23(1):33–64.

Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., and Fung, P. (2023). Survey of hallucination in natural language generation. ACM Comput. Surv., 55(12).

Karpukhin, V., Oguz, B., Min, S., Lewis, P., Wu, L., Edunov, S., Chen, D., and Yih, W.-t. (2020). Dense passage retrieval for open-domain question answering. In Webber, B., Cohn, T., He, Y., and Liu, Y., editors, Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 6769–6781, Online. Association for Computational Linguistics.

Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., Riedel, S., and Kiela, D. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. In Larochelle, H., Ranzato, M., Hadsell, R., Balcan, M., and Lin, H., editors, Advances in Neural Information Processing Systems, volume 33, pages 9459–9474. Curran Associates, Inc.

Liu, N. F., Lin, K., Hewitt, J., Paranjape, A., Bevilacqua, M., Petroni, F., and Liang, P. (2024). Lost in the middle: How language models use long contexts. Transactions of the Association for Computational Linguistics, 12:157–173.

Setty, S., Thakkar, H., Lee, A., Chung, E., and Vidra, N. (2024). Improving retrieval for rag based question answering models on financial documents. arXiv preprint arXiv:2404.07221.