Análise do Impacto da Precisão de Quantização no Decodificador de Hyperprior do SSF

Ruhan Conceição; Érick Radmann; Bruno Zatt; Wen-Hsiao Peng; Marcelo Porto; Luciano Agostini

doi:10.5753/eramiars.2025.16636

Ruhan Conceição UFPel / NYCU
Érick Radmann UFPel
Bruno Zatt UFPel
Wen-Hsiao Peng NYCU
Marcelo Porto UFPel
Luciano Agostini UFPel

DOI: https://doi.org/10.5753/eramiars.2025.16636

Resumo

Este trabalho apresenta um estudo sobre o impacto da quantização no decodificador de hyperprior do codec SSF, com foco exclusivo na análise da precisão dos pesos e ativações. Consideramos apenas cenários em que pesos e ativações possuem a mesma precisão de bits (W4A4, W8A8, W12A12, W16A16. Resultados nos datasets HEVC-B e UVG demonstram que: (i) INT4 degrada severamente a eficiência (BD-rate >200%); (ii) INT8 oferece trade-off atrativo, com penalidade média ≤7% em termos de BD-rate; (iii) INT12 atinge praticamente a paridade com FP32 (perda ≈0.2%); e (iv) INT16 não agrega ganhos relevantes. Esses achados indicam que a quantização do decodificador de hyperprior não apenas garante consistência entre plataformas, mas também viabiliza implantação eficiente em hardware.

Referências

(2024). Quantization. [link]. PyTorch Documentation.

Agustsson, E., Minnen, D., Johnston, N., Ballé, J., Hwang, S. J., and Toderici, G. (2020). Scale-space flow for end-to-end optimized video compression. In IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA.

Ballé, J., Johnston, N., and Minnen, D. (2019). Integer networks for data compression with latent-variable models. In Proc. Int. Conf. Learn. Representations (ICLR), New Orleans, LA, USA.

Ballé, J., Minnen, D., Singh, S., Hwang, S. J., and Johnston, N. (2018). Variational image compression with a scale hyperprior. [link]. arXiv preprint arXiv:1802.01436.

Begaint, F., Mentzer, F., Agustsson, E., and Van Gool, L. (2020). Compressai: A pytorch library and evaluation platform for end-to-end compression research. arXiv preprint arXiv:2011.03029.

Bjøntegaard, G. (2001). Calculation of average psnr differences between rd-curves. ITU-T VCEG-M33.

Bossen, F. et al. (2013). Common test conditions and software reference configurations. JCTVC-L1100, 12(7).

Conceição, R., Porto, M., Peng, W.-H., and Agostini, L. (2025). Cross-platform neural video coding: A case study. In 2025 IEEE International Symposium on Circuits and Systems (ISCAS), pages 1–5.

Mercat, J., Viitanen, V., and Vanne, J. (2020). Uvg dataset: 50/120fps 4k sequences for video codec analysis and development. In Proc. ACM Multimedia Syst. Conf. (MMSys), pages 297–302, Istanbul, Turkey.

Qualcomm Innovation Center, Inc. (2024). Ai model efficiency toolkit (aimet). [link]. Accessed: 2025-08-12.