Avaliação Experimental dos Trade-offs entre Precisão Numérica, Desempenho e Eficiência Energética em Inferência com TensorRT

Murilo Salem; Daniel Pontes; Luísa Bohm; Henrique dos Reis; Gerson Geraldo H. Cavalheiro

doi:10.5753/eradrs.2026.21456

Murilo Salem UFPel
Daniel Pontes UFPel
Luísa Bohm UFPel
Henrique dos Reis UFPel
Gerson Geraldo H. Cavalheiro UFPel

DOI: https://doi.org/10.5753/eradrs.2026.21456

Resumo

A inferência eficiente de modelos de aprendizado profundo em GPU depende fortemente da representação numérica adotada. Este trabalho avalia os efeitos de FP16, BF16 e INT8 sobre acurácia, latência, throughput, energia por amostra e tamanho do engine, tomando FP32 como baseline, em inferência com ResNet-50, ImageNet-100, TensorRT e trtexec em uma NVIDIA GeForce RTX 5090. A campanha principal gerou 364 registros brutos, e a análise inferencial considerou 30 repetições por precisão nos lotes 1, 8 e 32. Os resultados mostram que INT8 obteve o maior desempenho bruto e a melhor eficiência energética, mas com perda de 2,92 p.p. em Top-1 em relação ao FP32. Sob o critério de aceitação adotado — speedup ≥ 1,15× e ∆Top-1 ≥ −1,0 p.p. — FP16 e BF16 foram classificadas como vantajosas em todos os tamanhos de lote. Entre elas, FP16 apresentou o melhor compromisso global, com speedup entre 4,22× e 4,54× e redução energética entre 70,5% e 78,4%, sem perda observável de Top-1 nesta campanha. A análise inferencial confirmou diferenças estatisticamente significativas entre as precisões para latência, throughput e energia em todos os lotes avaliados (p < 0,05).

Referências

He, K., Zhang, X., Ren, S., and Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770–778.

Jacob, B., Kligys, S., Chen, B., Zhu, M., Tang, M., Howard, A., Adam, H., and Kalenichenko, D. (2018). Quantization and training of neural networks for efficient integer-arithmetic-only inference. In 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2704–2713. IEEE.

Micikevicius, P., Narang, S., Alben, J., Diamos, G., Elsen, E., Garcia, D., Ginsburg, B., Houston, M., Kuchaiev, O., Venkatesh, G., and Wu, H. (2018). Mixed precision training. In International Conference on Learning Representations (ICLR).

NVIDIA (2026). Command-line programs — nvidia tensorrt documentation. [link]. Acesso em: 6 mar. 2026.

Reddi, V. J., Cheng, C., Kanter, D., Mattson, P., Schmuelling, G., Wu, C.-J., Anderson, B., Khailo, M., Jan, J.-W., Esmaeilzadeh, H., et al. (2020). Mlperf inference benchmark. In Proceedings of the 2020 ACM/IEEE 47th Annual International Symposium on Computer Architecture (ISCA), pages 446–459. IEEE.