Investigando o Impacto dos Algoritmos de Controle de Congestionamento na execução do Apache Spark

  • Enzo B. Boscatto UDESC
  • Anderson H. da S. Marcondes UDESC
  • Guilherme P. Koslovski UDESC

Resumo


O Apache Spark é um framework de processamento distribuído que supera limitações de modelos como o Hadoop MapReduce, através de otimizações como a execução em memória e suporte a operações iterativas. Sua capacidade de processar dados, transmiti-los e aplicar algoritmos de machine learning o torna essencial para as demandas computacionais atuais. No entanto, ao lidar com grandes volumes de dados, o Apache Spark enfrenta desafios oriundos do congestionamento de rede em momentos importantes, como na redistribuição de dados entre nós, que pode saturar a largura de banda existente. O presente estudo percorre diferentes cenários, replicando tráfego de rede utilizando da ferramenta iPerf, para comparar a eficácia dos protocolos de controle de congestionamento TCP, em específico: Cubic, Reno e DCTCP, na execução de uma aplicação Spark com características determinantes para comparação.

Referências

Alizadeh, M., Greenberg, A., Maltz, D. A., Padhye, J., Patel, P., Prabhakar, B., Sengupta, S., and Sridharan, M. (2010). Data center tcp (dctcp). In Proceedings of the ACM SIGCOMM 2010 Conference, pages 63–74.

Foundation, T. A. S. (2024). Apache spark documentation. Disponível em: [link]. Acesso em: 15 jan. 2025.

Ha, S., Rhee, I., and Xu, L. (2008). Cubic: a new tcp-friendly high-speed tcp variant. ACM SIGOPS operating systems review, 42(5):64–74.

IBM (2021). What is apache spark? Disponível em: [link]. Acesso em: 12 jan. 2025.

iPerf (2024). iperf - iperf3 and iperf2 user documentation. Disponível em: [link]. Acesso em: 15 jan. 2025.

Jacobson, V. (1988). Congestion avoidance and control. ACM SIGCOMM computer communication review, 18(4):314–329.

Salloum, S., Dautov, R., Chen, X., Peng, P. X., and Huang, J. Z. (2016). Big data analytics on apache spark. International Journal of Data Science and Analytics, 1:145–164. DOI: 10.1007/s41060-016-0027-9.
Publicado
23/04/2025
BOSCATTO, Enzo B.; MARCONDES, Anderson H. da S.; KOSLOVSKI, Guilherme P.. Investigando o Impacto dos Algoritmos de Controle de Congestionamento na execução do Apache Spark. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DA REGIÃO SUL (ERAD-RS), 25. , 2025, Foz do Iguaçu/PR. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 89-92. ISSN 2595-4164. DOI: https://doi.org/10.5753/eradrs.2025.6820.