Análise de Desempenho entre Arquiteturas TPU e GPU utilizando PyTorch e JAX para IA e HPC

Jose Augusto M. de Lima; Calebe P. Bianchini

doi:10.5753/erad-ne.2026.26645

Jose Augusto M. de Lima UPM
Calebe P. Bianchini UPM / CESAR

DOI: https://doi.org/10.5753/erad-ne.2026.26645

Resumo

Este trabalho apresenta uma análise técnica da arquitetura Tensor Processing Unit (TPU), comparando-a com aceleradores GPU tradicionais em tarefas de computação de alto desempenho. Além de microbenchmarks de multiplicação de matrizes densas via JAX e PyTorch sobre o compilador XLA, o estudo introduz uma avaliação da largura de banda de memória (HBM High Bandwidth Memory). Os resultados demonstram que a TPU supera a GPU de referência não apenas no tempo de execução, mas também na vazão de dados, consolidando se como uma infraestrutura eficiente para aplicações científicas intensivas em dados.

Referências

Jouppi, N. P. et al. (2017). In-datacenter performance analysis of a tensor processing unit. In Proceedings of the 44th Annual International Symposium on Computer Architecture, ISCA ’17, pages 1–12. ACM.

Jouppi, N. P., Yoon, D. H., Kurian, G., Li, S., Patil, N., Laudon, J., Young, C., and Patterson, D. (2020). A domain-specific supercomputer for training deep neural networks. Commun. ACM, 63(7):67–78.

Kumar, N. and Kasivajhula, V. (2022). Cloud tpu v4 records fastest training times on five mlperf 2.0 benchmarks.

Nikolić, G. S., Dimitrijević, B. R., Nikolić, T. R., and Stojcev, M. K. (2022). A survey of three types of processing units: Cpu, gpu and tpu. In 2022 57th International Scientific Conference on Information, Communication and Energy Systems and Technologies (ICEST), pages 1–6.

Silva, G. P., Bianchini, C. P., and Costa, E. B. (2022). Programação Paralela e Distribuída com MPI, OpenMP e OpenACC para computação de alto desempenho. CasaDoCodigo.

Suhan, A., Libenzi, D., Zhang, A., Schuh, P., Saeta, B., Sohn, J. Y., and Shabalin, D. (2021). Lazytensor: combining eager execution with domain-specific compilers.

Wang, Y. E., Wei, G.-Y., and Brooks, D. (2019). Benchmarking tpu, gpu, and cpu platforms for deep learning. arXiv preprint arXiv:1907.10701.