Efetividade vs. Custo Computacional: Uma proposta para análise de ataques de sufixo adversarial GCG e nanoGCG

Carlos D. S Bunn; Matheus R. S. Corrêa; Charles C. Miers

doi:10.5753/eradrs.2026.20391

Carlos D. S Bunn UDESC
Matheus R. S. Corrêa UDESC
Charles C. Miers UDESC

DOI: https://doi.org/10.5753/eradrs.2026.20391

Resumo

Com a adoção de Large Language Models (LLMs) em tarefas cotidianas, é necessário avaliar os riscos de segurança e conformidades de desempenho. Analisar estes sistemas é essencial para verificar seu alinhamento às diretrizes regulatórias. Este artigo apresenta uma proposta de análise comparativa entre os métodos de ataque adversarial baseados em sufixo Greedy Coordinate Gradients (GCGs) e nanoGCGs (nanoGCGs), mensurando custo computacional e efetividade adversarial no ambiente Python Risk Identification Tool (PyRIT) por meio de métricas como tempo de execução, consumo de memória e taxa de sucesso de ataque.

Referências

Alliance, C. S. and Exchange, O. A. (2025). Agentic AI Red Teaming Guide. Cloud Security Alliance. Disponível em: [link]. Acesso em: 14 out. 2025.

Microsoft AI Red Team (2026). Pyrit documentation: The python risk identification tool for generative ai. [link]. Acesso em: 20 fev. 2026.

Vassilev, A., Oprea, A., Fordyce, A., Anderson, H., Davies, X., and Hamin, M. (2025). Adversarial machine learning: A taxonomy and terminology of attacks and mitigations. NIST Technical Series Publication NIST AI 100-2e2025, National Institute of Standards and Technology, Gaithersburg, MD.

Winninger, T., Addad, B., and Kapusta, K. (2025). Using mechanistic interpretability to craft adversarial attacks against large language models. arXiv preprint arXiv:2503.06269.

Zou, A., Wang, Z., Carlini, N., Nasr, M., Kolter, J. Z., and Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.