Agentes Autônomos Baseados em LLM para Detecção de Vulnerabilidades de Segurança Cibernética: um Estudo Experimental com Decepticon

Leandro R. Santos; Ciro G. Lariucci; Cleriston L. Silva; Iwens Gervasio Sene Junior; Jacson Rodrigues Barbosa

doi:10.5753/sbcup.2026.23606

Leandro R. Santos UFG / POSITIVO Tecnologia
Ciro G. Lariucci UFG / POSITIVO Tecnologia
Cleriston L. Silva UFG / POSITIVO Tecnologia
Iwens Gervasio Sene Junior UFG
Jacson Rodrigues Barbosa UFG

DOI: https://doi.org/10.5753/sbcup.2026.23606

Resumo

A crescente complexidade dos ambientes de TI corporativos e a ampliação da superfície de ataque demandam soluções de segurança mais ágeis e escaláveis. Nesse contexto, a identificação eficiente de vulnerabilidades permanece um desafio relevante. Este trabalho investiga a hipótese de que agentes autônomos baseados em modelos de linguagem de grande porte (LLMs) podem apoiar a detecção de vulnerabilidades de forma eficaz. O objetivo é avaliar a capacidade desses agentes em identificar vulnerabilidades em ambientes computacionais. Para isso, foi conduzido um estudo experimental com dois ambientes Linux virtualizados: um agente ofensivo (Vibe Hacking Agent) e um ambiente alvo com vulnerabilidades conhecidas. Foram executadas seis solicitações de varredura e análise por diferentes LLMs, com coleta de métricas e relatórios. Os resultados indicam que a escolha do LLM influencia o comportamento técnico do agente. No cenário avaliado, o Qwen3 apresentou melhor desempenho relativo em profundidade de varredura, correlação com ferramentas auxiliares e priorização de riscos. Como contribuição, o trabalho demonstra o potencial de agentes baseados em LLMs para aumentar a eficiência e a escalabilidade em operações de segurança cibernética.

Palavras-chave: Agentes autônomos, Grandes Modelos de Linguagem, Varredura de vulnerabilidades, Segurança cibernética, Decepticon

Referências

Anthropic (2026). Claude models overview. Acesso em: 2026-02-06.

Deng, G., L. Y. M.-V. V. L. P. L. Y. X. Y. Z. T. L. Y. P. M. and Rass, S. (2024). Pentestgpt: Evaluating and harnessing large language models for automated penetration testing. In: 33rd USENIX Security Symposium, pages 847–864. Acesso em: 2026-03-05.

LangChain (2024). Langgraph: Overview. Official documentation. Acesso em: 2026-03-05.

Li, H., Dong, Q., Chen, J., Su, H., Zhou, Y., Ai, Q., Ye, Z., and Liu, Y. (2024). Llms-as-judges: A comprehensive survey on llm-based evaluation methods. Acesso em: 2025-11-03.

Meta (2024). Introducing meta llama 3: The most capable openly available llm to date. Acesso em: 2026-02-06.

Offensive Security Services Limited (2025). What is kali linux? Kali Linux Documentation, Acesso em: 2025-11-03.

OpenAI (2023). Gpt-4 research. Acesso em: 2026-02-06.

Perplexity AI (2026). Models. Acesso em: 2026-02-08.

PurpleAILAB (2025). Decepticon – vibe hacking agent. GitHub repository. Updated: 2025-09-15. Acesso em: 2025-11-03.

Qwen Team (2025). Qwen3: Think deeper, act faster. Acesso em: 2026-02-08.

Schick, T., Dwivedi-Yu, J., Dessı̀, R., Rau, F., Pandolfi, E., Moruzzi, R., Gerevini, A., Goldfarb-Tarr, N., Bhagat, S., and Schütze, H. (2023). Toolformer: Language models can teach themselves to use tools. arXiv preprint arXiv:2302.04761. Acesso em: 2026-03-05.

Yao, S., Zhao, J., Yu, D., Du, N., Shrestha, A., Narasimhan, K., Rao, J. R., and Liang, P. (2022). React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629. Acesso em: 2026-03-05.