Agentes Autônomos Baseados em LLM para Detecção de Vulnerabilidades de Segurança Cibernética: um Estudo Experimental com Decepticon
Resumo
A crescente complexidade dos ambientes de TI corporativos e a ampliação da superfície de ataque demandam soluções de segurança mais ágeis e escaláveis. Nesse contexto, a identificação eficiente de vulnerabilidades permanece um desafio relevante. Este trabalho investiga a hipótese de que agentes autônomos baseados em modelos de linguagem de grande porte (LLMs) podem apoiar a detecção de vulnerabilidades de forma eficaz. O objetivo é avaliar a capacidade desses agentes em identificar vulnerabilidades em ambientes computacionais. Para isso, foi conduzido um estudo experimental com dois ambientes Linux virtualizados: um agente ofensivo (Vibe Hacking Agent) e um ambiente alvo com vulnerabilidades conhecidas. Foram executadas seis solicitações de varredura e análise por diferentes LLMs, com coleta de métricas e relatórios. Os resultados indicam que a escolha do LLM influencia o comportamento técnico do agente. No cenário avaliado, o Qwen3 apresentou melhor desempenho relativo em profundidade de varredura, correlação com ferramentas auxiliares e priorização de riscos. Como contribuição, o trabalho demonstra o potencial de agentes baseados em LLMs para aumentar a eficiência e a escalabilidade em operações de segurança cibernética.
Palavras-chave:
Agentes autônomos, Grandes Modelos de Linguagem, Varredura de vulnerabilidades, Segurança cibernética, Decepticon
Referências
Anthropic (2026). Claude models overview. Acesso em: 2026-02-06.
Deng, G., L. Y. M.-V. V. L. P. L. Y. X. Y. Z. T. L. Y. P. M. and Rass, S. (2024). Pentestgpt: Evaluating and harnessing large language models for automated penetration testing. In: 33rd USENIX Security Symposium, pages 847–864. Acesso em: 2026-03-05.
LangChain (2024). Langgraph: Overview. Official documentation. Acesso em: 2026-03-05.
Li, H., Dong, Q., Chen, J., Su, H., Zhou, Y., Ai, Q., Ye, Z., and Liu, Y. (2024). Llms-as-judges: A comprehensive survey on llm-based evaluation methods. Acesso em: 2025-11-03.
Meta (2024). Introducing meta llama 3: The most capable openly available llm to date. Acesso em: 2026-02-06.
Offensive Security Services Limited (2025). What is kali linux? Kali Linux Documentation, Acesso em: 2025-11-03.
OpenAI (2023). Gpt-4 research. Acesso em: 2026-02-06.
Perplexity AI (2026). Models. Acesso em: 2026-02-08.
PurpleAILAB (2025). Decepticon – vibe hacking agent. GitHub repository. Updated: 2025-09-15. Acesso em: 2025-11-03.
Qwen Team (2025). Qwen3: Think deeper, act faster. Acesso em: 2026-02-08.
Schick, T., Dwivedi-Yu, J., Dessı̀, R., Rau, F., Pandolfi, E., Moruzzi, R., Gerevini, A., Goldfarb-Tarr, N., Bhagat, S., and Schütze, H. (2023). Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761. Acesso em: 2026-03-05.
Yao, S., Zhao, J., Yu, D., Du, N., Shrestha, A., Narasimhan, K., Rao, J. R., and Liang, P. (2022). React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629. Acesso em: 2026-03-05.
Deng, G., L. Y. M.-V. V. L. P. L. Y. X. Y. Z. T. L. Y. P. M. and Rass, S. (2024). Pentestgpt: Evaluating and harnessing large language models for automated penetration testing. In: 33rd USENIX Security Symposium, pages 847–864. Acesso em: 2026-03-05.
LangChain (2024). Langgraph: Overview. Official documentation. Acesso em: 2026-03-05.
Li, H., Dong, Q., Chen, J., Su, H., Zhou, Y., Ai, Q., Ye, Z., and Liu, Y. (2024). Llms-as-judges: A comprehensive survey on llm-based evaluation methods. Acesso em: 2025-11-03.
Meta (2024). Introducing meta llama 3: The most capable openly available llm to date. Acesso em: 2026-02-06.
Offensive Security Services Limited (2025). What is kali linux? Kali Linux Documentation, Acesso em: 2025-11-03.
OpenAI (2023). Gpt-4 research. Acesso em: 2026-02-06.
Perplexity AI (2026). Models. Acesso em: 2026-02-08.
PurpleAILAB (2025). Decepticon – vibe hacking agent. GitHub repository. Updated: 2025-09-15. Acesso em: 2025-11-03.
Qwen Team (2025). Qwen3: Think deeper, act faster. Acesso em: 2026-02-08.
Schick, T., Dwivedi-Yu, J., Dessı̀, R., Rau, F., Pandolfi, E., Moruzzi, R., Gerevini, A., Goldfarb-Tarr, N., Bhagat, S., and Schütze, H. (2023). Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761. Acesso em: 2026-03-05.
Yao, S., Zhao, J., Yu, D., Du, N., Shrestha, A., Narasimhan, K., Rao, J. R., and Liang, P. (2022). React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629. Acesso em: 2026-03-05.
Publicado
19/07/2026
Como Citar
SANTOS, Leandro R.; LARIUCCI, Ciro G.; SILVA, Cleriston L.; SENE JUNIOR, Iwens Gervasio; BARBOSA, Jacson Rodrigues.
Agentes Autônomos Baseados em LLM para Detecção de Vulnerabilidades de Segurança Cibernética: um Estudo Experimental com Decepticon. In: SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO UBÍQUA E PERVASIVA (SBCUP), 18. , 2026, Gramado/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2026
.
p. 35-45.
ISSN 2595-6183.
DOI: https://doi.org/10.5753/sbcup.2026.23606.
