Arquitetura Assíncrona e Escalável para Recuperação de Informação Multimodal com RAG
Resumo
A expansão da frota veicular intensificou a necessidade de diagnósticos precisos em sistemas automotivos. Este artigo propõe uma arquitetura RAG multimodal para indexar manuais técnicos, utilizando VLMs, OCR e bancos vetoriais. A solução é baseia-se em arquitetura orientada a eventos, garantindo escalabilidade e resiliência no processamento de documentos complexos. O sistema extrai e organiza metadados, tabelas e textos, viabilizando consultas semânticas por agentes inteligentes. Testes iniciais demonstram eficácia na preservação do contexto multimodal. Como próximos passos, propõe-se avaliação quantitativa e integração com fluxos de assistência técnica.
Palavras-chave:
RAG Multimodal, Manutenção Veicular, Diagnóstico Automotivo, VLMs
Referências
Abelein, U., Lochner, H., Hahn, D., and Straube, S. (2012). Complexity, quality and robustness-the challenges of tomorrow’s automotive electronics. In 2012 Design, Automation & Test in Europe Conference & Exhibition (DATE), pages 870–871. IEEE.
Denton, T. (2020). Advanced automotive fault diagnosis: automotive technology: vehicle maintenance and repair. Routledge.
Faysse, M., Sibille, H., Wu, T., Omrani, B., Viaud, G., Hudelot, C., and Colombo, P. (2024). Colpali: Efficient document retrieval with vision language models.
Ji, Z., Yu, T., Xu, Y., Lee, N., Ishii, E., and Fung, P. (2023). Towards mitigating llm hallucination via self reflection. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 1827–1843.
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. arXiv preprint arXiv:2005.11401.
Soudani, H., Kanoulas, E., and Hasibi, F. (2024). Fine tuning vs. retrieval augmented generation for less popular knowledge. In Proceedings of the 2024 Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, pages 12–22.
Wang, Q., Ding, R., Chen, Z., Wu, W., Wang, S., Xie, P., and Zhao, F. (2025). Vidorag: Visual document retrieval-augmented generation via dynamic iterative reasoning agents. arXiv preprint arXiv:2502.18017.
Zhang, J., Huang, J., Jin, S., and Lu, S. (2024). Vision-language models for vision tasks: A survey. IEEE transactions on pattern analysis and machine intelligence, 46(8):5625–5644.
Zhang, P., Li, X., Hu, X., Yang, J., Zhang, L., Wang, L., Choi, Y., and Gao, J. (2021). Vinvl: Revisiting visual representations in vision-language models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5579–5588.
Denton, T. (2020). Advanced automotive fault diagnosis: automotive technology: vehicle maintenance and repair. Routledge.
Faysse, M., Sibille, H., Wu, T., Omrani, B., Viaud, G., Hudelot, C., and Colombo, P. (2024). Colpali: Efficient document retrieval with vision language models.
Ji, Z., Yu, T., Xu, Y., Lee, N., Ishii, E., and Fung, P. (2023). Towards mitigating llm hallucination via self reflection. In Findings of the Association for Computational Linguistics: EMNLP 2023, pages 1827–1843.
Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., et al. (2020). Retrieval-augmented generation for knowledge-intensive nlp tasks. arXiv preprint arXiv:2005.11401.
Soudani, H., Kanoulas, E., and Hasibi, F. (2024). Fine tuning vs. retrieval augmented generation for less popular knowledge. In Proceedings of the 2024 Annual International ACM SIGIR Conference on Research and Development in Information Retrieval in the Asia Pacific Region, pages 12–22.
Wang, Q., Ding, R., Chen, Z., Wu, W., Wang, S., Xie, P., and Zhao, F. (2025). Vidorag: Visual document retrieval-augmented generation via dynamic iterative reasoning agents. arXiv preprint arXiv:2502.18017.
Zhang, J., Huang, J., Jin, S., and Lu, S. (2024). Vision-language models for vision tasks: A survey. IEEE transactions on pattern analysis and machine intelligence, 46(8):5625–5644.
Zhang, P., Li, X., Hu, X., Yang, J., Zhang, L., Wang, L., Choi, Y., and Gao, J. (2021). Vinvl: Revisiting visual representations in vision-language models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5579–5588.
Publicado
04/12/2025
Como Citar
MATOS, João P. A. F.; CARAÍBA, André F. dos S.; DOS SANTOS, Paulo V.; BARRETO, Maria C. S.; DUTRA, Guilherme C.; OLIVEIRA, Sávio S. T. de.
Arquitetura Assíncrona e Escalável para Recuperação de Informação Multimodal com RAG. In: ESCOLA REGIONAL DE INFORMÁTICA DE GOIÁS (ERI-GO), 13. , 2025, Luziânia/GO.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 374-377.
DOI: https://doi.org/10.5753/erigo.2025.17133.
