Análise comparativa do impacto de ataques à memória persistente no desempenho de sistemas baseados em LLMs

Paulo Henrique Gomes de Senna; Charles Christian Miers

doi:10.5753/eradrs.2026.20430

Paulo Henrique Gomes de Senna UDESC
Charles Christian Miers UDESC

DOI: https://doi.org/10.5753/eradrs.2026.20430

Resumo

Com a crescente implementação de Large Language Models (LLMs) em sistemas reais, a incorporação de memória persistente tem sido adotada para ampliar a continuidade contextual e a autonomia das aplicações, ao custo de maior complexidade computacional e expansão da superfície de ataque. Este trabalho analisa, sob a perspectiva de Red Team, como ataques direcionados à memória externa podem impactar o desempenho operacional de sistemas baseados em LLMs considerando métricas como latência de Entrada/Saída (E/S), Time to first token (TTFT), latência total e throughput. A partir de uma análise comparativa, discute-se como a persistência maliciosa pode ocasionar degradação progressiva de desempenho e comprometer a eficiência do sistema ao longo do tempo.

Referências

Cuconasu, F., Trappolini, G., Filice, S., Campagnano, C., and Tonellotto, N. (2024). The power of noise: Redefining retrieval for rag systems. In Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 719–729.

Derczynski, L., Galinkin, E., Lyles, J. R., and Oh, A. (2024). garak: A framework for security probing large language models. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 3: System Demonstrations). Association for Computational Linguistics.

Dong, S., Xu, S., He, P., Li, Y., Tang, J., Liu, T., Liu, H., and Xiang, Z. (2025). Minja: A practical memory injection attack against llm agents.

Douze, M., Guzhva, A., Deng, C., Johnson, J., Szilvasy, G., Mazaré, P.-E., Lomeli, M., Hosseini, L., and Jégou, H. (2024). The faiss library.

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., and Wang, H. (2023). Retrieval-augmented generation for large language models: A survey.

Kwon, W., Li, Z., Zhuang, S., Sheng, Y., Zheng, L., Yu, C. H., Gonzalez, J. E., Zhang, H., and Stoica, I. (2023). Efficient memory management for large language model serving with pagedattention. In Proceedings of the 29th Symposium on Operating Systems Principles (SOSP ’23), pages 611–626.

Liang, X., Niu, S., Li, Z., Zhang, S., Wang, H., Xiong, F., Fan, J. Z., Tang, B., Zhao, J., Yang, J., Song, S., and Wang, M. (2025). Saferag: Benchmarking security in retrieval-augmented generation of large language models.

OpenAI (2024). Memory faq — openai help center. [link].

OWASP (2025). Owasp top 10 for large language model applications.

Senna, P. (2026). Projeto erad-rs: Repositório de reprodutibilidade para análise de segurança em llms.

Wang, L., Ma, C., Feng, X., Zhang, Z., Yang, H., Zhang, J., Chen, Z., Tang, J., Chen, X., Lin, Y., Zhao, W. X., Wei, Z., and Wen, J. (2024). A survey on large language model based autonomous agents. Frontiers of Computer Science, 18(6):186345.

Zou, W., Geng, R., Wang, B., and Jia, J. (2025). Poisonedrag: Knowledge corruption attacks to retrieval-augmented generation of large language models. In 34th USENIX Security Symposium.