Projeto de Redes Ciente de Gargalos para Otimização do Treinamento de Modelos Distribuídos de IA

  • Vitor F. Zanotelli UFES
  • Arthur T. Sampaio UFES
  • Magnos Martinello UFES
  • Jordi Ros-Giralt Qualcomm Europe, Inc
  • Giovanni Comarela UFES

Resumo


O treinamento distribuído de modelos de IA impõe uma demanda crescente por comunicação eficiente tanto dentro quanto entre datacenters. Com base na Teoria dos Gargalos (BST), este trabalho visa projetar uma rede ciente dos gargalos, buscando minimizar o tempo total de treinamento utilizando a menor largura de banda possível. Propomos uma metodologia para otimizar as configurações de rede, promovendo eficiência e evitando desperdício de recursos. Esse projeto de rede otimizado estabelece uma linha de base robusta de desempenho, a ser considerada antes da adoção de qualquer estratégia de superprovisionamento.

Referências

DeepSeek-AI, Liu, A., and et al, B. F. (2025). Deepseek-v3 technical report.

Meta AI (2024). Introducing llama 4: Advancing open, multimodal intelligence. Disponível em: [link]. Acesso em: 01 ago. 2025.

Rajbhandari, S., Rasley, J., Ruwase, O., and He, Y. (2020). Zero: memory optimizations toward training trillion parameter models. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’20. IEEE Press.

Ros-Giralt, J., Amsel, N., Yellamraju, S., Ezick, J., Lethin, R., Jiang, Y., Feng, A., and Tassiulas, L. (2022). A quantitative theory of bottleneck structures for data networks.

Ros-Giralt, J., Amsel, N., Yellamraju, S., Ezick, J., Lethin, R., Jiang, Y., Feng, A., Tassiulas, L., Wu, Z., Teh, M. Y., and Bergman, K. (2021). Designing data center networks using bottleneck structures. SIGCOMM ’21.

Ros-Giralt, J., Yellamraju, S., Bohara, A., Lethin, R., Li, J., Lin, Y., Tan, Y., Veeraraghavan, M., Jiang, Y., and Tassiulas, L. (2019). G2: A network optimization framework for high-precision analysis of bottleneck and flow performance. In INDIS ’19.

xAI (2024). Grok is now open source. Disponível em: [link]. Acesso em: 01 ago. 2025.
Publicado
16/10/2025
ZANOTELLI, Vitor F.; SAMPAIO, Arthur T.; MARTINELLO, Magnos; ROS-GIRALT, Jordi; COMARELA, Giovanni. Projeto de Redes Ciente de Gargalos para Otimização do Treinamento de Modelos Distribuídos de IA. In: ESCOLA REGIONAL DE INFORMÁTICA DO ESPÍRITO SANTO (ERI-ES), 10. , 2025, Espírito Santo/ES. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 158-161. DOI: https://doi.org/10.5753/eries.2025.16023.