Efetividade vs. Custo Computacional: Uma proposta para análise de ataques de sufixo adversarial GCG e nanoGCG
Resumo
Com a adoção de Large Language Models (LLMs) em tarefas cotidianas, é necessário avaliar os riscos de segurança e conformidades de desempenho. Analisar estes sistemas é essencial para verificar seu alinhamento às diretrizes regulatórias. Este artigo apresenta uma proposta de análise comparativa entre os métodos de ataque adversarial baseados em sufixo Greedy Coordinate Gradients (GCGs) e nanoGCGs (nanoGCGs), mensurando custo computacional e efetividade adversarial no ambiente Python Risk Identification Tool (PyRIT) por meio de métricas como tempo de execução, consumo de memória e taxa de sucesso de ataque.
Referências
Microsoft AI Red Team (2026). Pyrit documentation: The python risk identification tool for generative ai. [link]. Acesso em: 20 fev. 2026.
Vassilev, A., Oprea, A., Fordyce, A., Anderson, H., Davies, X., and Hamin, M. (2025). Adversarial machine learning: A taxonomy and terminology of attacks and mitigations. NIST Technical Series Publication NIST AI 100-2e2025, National Institute of Standards and Technology, Gaithersburg, MD.
Winninger, T., Addad, B., and Kapusta, K. (2025). Using mechanistic interpretability to craft adversarial attacks against large language models. arXiv preprint arXiv:2503.06269.
Zou, A., Wang, Z., Carlini, N., Nasr, M., Kolter, J. Z., and Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.
