Challenging the Scale Paradigm: Small Language Models in Multi-Agent Architectures for Enterprise Business Intelligence
Resumo
A suposição predominante de que modelos de linguagem maiores oferecem desempenho superior impulsionou uma corrida insustentável em direção a arquiteturas com trilhões de parâmetros. Este estudo desafia esse paradigma por meio da avaliação empírica de Modelos de Linguagem Pequenos (SLMs, de 1 a 8 bilhões de parâmetros) em comparação com seus equivalentes maiores (até 30 bilhões de parâmetros) em configurações multiagentes para inteligência de negócios. Avaliando 7 modelos em 10 categorias de tarefas e 24 configurações multiagentes, demonstramos que os SLMs atingem taxas de sucesso de 100% nos cenários avaliados enquanto reduz o custo computacional em até 97%. De forma crucial, descobrimos que o aumento do número de agentes não garante um desempenho melhor: configurações com 7 modelos alcançaram apenas 50% de taxa de sucesso com latência 20 vezes maior do que configurações com dois SLMs. Nossa métrica agnóstica à infraestrutura (token-segundos) revela que o menor modelo (Gemma-1B) atinge uma eficiência 44 vezes maior do que o maior (Phi-4-Reasoning+). Essas descobertas corroboram o ”Princípio da Suficiência Mínima” e sugerem uma redução significativa na latência (aproximadamente 94% mais rápida) e na eficiência de tokens (aproximadamente 55% menos tokens) por meio da adoção do SLM, com implicações significativas para a implantação sustentável e acessível de IA.
Referências
Dietterich, T. G. (2000). Ensemble methods in machine learning. In MCS, pages 1–15.
European Parliament (2018). General data protection regulation. Official Journal of the EU L119.
Gartner Research (2023). Magic quadrant for analytics and business intelligence platforms. Technical report, Gartner Inc.
Hoffmann, J., Borgeaud, S., et al. (2022). Training compute-optimal large language models. arXiv:2203.15556.
Hsieh, C.-Y., Li, C.-L., et al. (2023). Distilling step-by-step! outperforming larger language models with less training data and smaller model sizes. In Findings of ACL, pages 6403–6424.
Hu, S., Tu, Y., et al. (2024). MiniCPM: Unveiling the potential of small language models with scalable training strategies. arXiv:2404.06395.
Jiang, A. Q., Sablayrolles, A., et al. (2023). Mistral 7b. arXiv:2310.06825.
Kaplan, J., McCandlish, S., et al. (2020). Scaling laws for neural language models. arXiv:2001.08361.
Khatchadourian, R. and Franco, R. (2025). LLM output drift: Cross-provider validation and mitigation for financial workflows. arXiv:2511.07585.
McKinsey & Company (2023). The state of ai in 2023: Generative ai’s breakout year. Technical report, McKinsey Global Institute.
Menshawy, A. and Fahmy, M. (2025a). LLMs in Enterprise: Design strategies and best practices. Packt Publishing.
Menshawy, A. and Fahmy, M. (2025b). LLMs in Enterprise: Design Strategies, Patterns, and Best Practices for Large Language Model Development. Packt Publishing Ltd.
Moralles, C., Da Costa, L. A. L. F., Rigo, S. J., Kunst, R., Souza, V. C. D., Silva, E. P., Prado, G. L. E., Schardosim, T. D. C., and Roehrs, A. (2026). A systematic literature review of agentic ai: Definitions, architectures, and challenges. IEEE Access, pages 1–1.
Riviere, M., Pathak, S., et al. (2024). Gemma 2: Improving open language models at a practical size. arXiv:2408.00118.
Strubell, E., Ganesh, A., and McCallum, A. (2019). Energy and policy considerations for deep learning in nlp. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3645–3650.
Wang, Z., Chu, Z., et al. (2025). History, development, and principles of large language models: an introductory survey. AI and Ethics, 5(3):1955–1971.
Wu, Q., Bansal, G., et al. (2023). AutoGen: Enabling next-gen LLM applications via multi-agent conversation. arXiv:2308.08155.
