Avaliação do Desempenho de Aplicações CUDA em um Ambiente com a Tecnologia Multi-Instance GPU

Pablo H. S. de Faria; Marcelo Lobosco

doi:10.5753/sscad_estendido.2024.244350

Pablo H. S. de Faria UFJF
Marcelo Lobosco UFJF

DOI: https://doi.org/10.5753/sscad_estendido.2024.244350

Resumo

Clusters de computadores fornecem recursos computacionais, principalmente CPUs e GPUs, para seus usuários para diversos fins. Um dos principais desafios no gerenciamento de clusters é otimizar a vazão, especialmente quando aplicativos são executados em recursos disputados com poucas unidades disponíveis, como GPUs. Multi-Instance GPU (MIG), desenvolvido pela NVIDIA, é uma das técnicas utilizadas para abordar esse problema. MIG permite que uma única GPU física seja virtualizada em várias GPUs virtuais, permitindo que ela atenda a vários usuários simultaneamente. Este artigo utiliza o benchmark paralelo NAS para avaliar as diferenças de desempenho entre executar um aplicativo em uma GPU com e sem virtualização habilitada. Os resultados mostram uma degradação no desempenho de até 54 vezes com a redução dos recursos computacionais.

Referências

Araujo, G., Griebler, D., Rockenbach, D. A., Danelutto, M., and Fernandes, L. G. (2021). NAS parallel benchmarks with CUDA and beyond. Software: Practice and Experience, 53(1):53–80.

Bailey, D., Barszcz, E., Barton, J., Browning, D., Carter, R., Dagum, L., Fatoohi, R., Fineberg, S., Frederickson, P., Lasinski, T., et al. (2010). The NAS parallel benchmarks,”. Technical report, Technical Report RNR-94-007, NASA Ames Research Center,(March 1994).

Choquette, J., Gandhi, W., Giroux, O., Stam, N., and Krashinsky, R. (2021). NVIDIA A100 tensor core GPU: Performance and innovation. IEEE Micro, 41(2):29–35.

Hu, Q., Sun, P., Yan, S., Wen, Y., and Zhang, T. (2021). Characterization and prediction of deep learning workloads in large-scale GPU datacenters. In Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC ’21. ACM.

Li, B., Gadepally, V., Samsi, S., and Tiwari, D. (2022a). Characterizing multi-instance gpu for machine learning workloads. In 2022 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW), pages 724–731.

Li, B., Patel, T., Samsi, S., Gadepally, V., and Tiwari, D. (2022b). MISO: exploiting multi-instance GPU capability on multi-tenant GPU clusters. In Proceedings of the 13th Symposium on Cloud Computing, SoCC ’22. ACM.

NVIDIA Corporation (2024). NVIDIA multi-instance GPU user guide. NVIDIA Corporation.

Oberholzer, Pascal (2021). Scheduling for MIG-capable GPUs: Accelerator-aware operating system scheduling. Master’s thesis, ETH Zurich.