Classificação Multi-Classe de Imagens Endoscópicas Gastrointestinais com GhostNetV3: Uma Abordagem Eficiente para Diagnóstico por Imagem

Beneilton Martins Leite; Alexandre Cesar Pinto Pessoa; Carlos Eduardo Veras Gomes; Darlan Bruno Pontes Quintanilha

doi:10.5753/sbcas.2026.21698

Beneilton Martins Leite UFMA
Alexandre Cesar Pinto Pessoa UFMA
Carlos Eduardo Veras Gomes UFMA
Darlan Bruno Pontes Quintanilha UFMA

DOI: https://doi.org/10.5753/sbcas.2026.21698

Resumo

Este trabalho explora o uso da arquitetura GhostNetV3 para a classificação multiclasse de imagens endoscópicas gastrointestinais, abordando a crescente necessidade de ferramentas de suporte ao diagnóstico clínico em ambientes com recursos computacionais limitados. A análise automática de exames do trato digestivo é fundamental para intervenções precoces, tornando essencial a implementação de metodologias automatizadas para auxiliar na triagem. Esta pesquisa utiliza o dataset HyperKvasir, com foco em um subconjunto de 16 classes clínicas, para treinar e avaliar o desempenho dessa rede convolucional leve e eficiente, ajustada a partir de pesos pré-treinados no ImageNet. Os resultados demonstram que a GhostNetV3 apresenta desempenho competitivo quando comparada a Vision Transformers significativamente maiores, evidenciando o potencial de CNNs compactas na classificação de patologias médicas sem a necessidade de infraestrutura computacional robusta. A aplicação da técnica de Random Erasing como estratégia de regularização resultou em um F1-Score Macro de 85,72% e um MCC de 91,29% utilizando apenas 8,1 milhões de parâmetros, demonstrando a eficácia e a eficiência da abordagem proposta.

Referências

Aburass, S., Dorgham, O., Al Shaqsi, J., Abu Rumman, M., and Al-Kadi, O. (2025). Vision transformers in medical imaging: a comprehensive review of advancements and applications across multiple diseases. Journal of Imaging Informatics in Medicine, 38(6):3928–3971.

Azizi, S., Mustafa, B., Ryan, F., Beaver, Z., Freyberg, J., Deaton, J., Loh, A., Karthikesalingam, A., Kornblith, S., Chen, T., et al. (2021). Big self-supervised models advance medical image classification. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 3478–3488, Montreal, Canada.

Borgli, H., Thambawita, V., Smedsrud, P. H., Hicks, S., Jha, D., Eskeland, S. L., Randel, K. R., Pogorelov, K., Lux, M., Nguyen, D. T. D., Johansen, D., Griwodz, C., Stensland, H. K., Garcia-Ceja, E., Schmidt, P. T., Hammer, H. L., Riegler, M. A., Halvorsen, P., and de Lange, T. (2020). Hyperkvasir, a comprehensive multi-class image and video dataset for gastrointestinal endoscopy. Scientific Data, 7(1):283.

Bravo, D., Ruano, J., Gómez, M., González, F. A., and Romero, E. (2025). Self-supervised learning for multi-category endoscopy classification and data quality evaluation using masked autoencoders. In 2025 IEEE 22nd International Symposium on Biomedical Imaging (ISBI), pages 1–5.

Choi, M., Kim, S., and Lee, J. (2025). Edgesrie: A hybrid deep learning framework for real-time speckle reduction and image enhancement on portable ultrasound systems. arXiv preprint arXiv:2507.03937.

Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 248–255, Miami, FL, USA.

Espantaléon-Pérez, R. et al. (2023). Attention-based models for gastrointestinal endoscopy image classification. In Computer Analysis of Images and Patterns (CAIP), volume 14185 of Lecture Notes in Computer Science, Cham. Springer.

Geirhos, R., Jacobsen, J.-H., Michaelis, C., Zemel, R., Brendel, W., Bethge, M., and Wichmann, F. A. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11):665–673.

Guo, H., Somayajula, S. A., Hosseini, R., and Xie, P. (2024). Improving image classification of gastrointestinal endoscopy using curriculum self-supervised learning. Scientific Reports, 14(1):6100.

Han, K., Wang, Y., Tian, Q., Guo, J., Xu, C., and Xu, C. (2020). Ghostnet: More features from cheap operations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 1580–1589, Seattle, WA, USA.

He, K., Chen, X., Xie, S., Li, Y., Dollár, P., and Girshick, R. (2022). Masked autoencoders are scalable vision learners. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 16000–16009, New Orleans, LA, USA.

Liu, Z. et al. (2024). Ghostnetv3: Exploring training strategies for compact models. arXiv preprint arXiv:2404.xxxxx.

Loshchilov, I. and Hutter, F. (2019). Decoupled weight decay regularization.

Pandian, V. (2025). A comprehensive survey of deep learning methods in gastro-intestinal wireless capsule endoscopy images. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 15(2):e70052.

Selvaraju, R. R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., and Batra, D. (2019). Grad-cam: Visual explanations from deep networks via gradient-based localization. International Journal of Computer Vision, 128(2):336–359.

Shobayo, O. and Saatchi, R. (2025). Developments in deep learning artificial neural network techniques for medical image analysis and interpretation. Diagnostics, 15(9).

Smith, L. N. and Topin, N. (2017). Super-convergence: Very fast training of neural networks using large learning rates. arXiv preprint arXiv:1708.07120.

Tang, F., Yao, Q., Ma, W., Wu, C., Jiang, Z., and Zhou, S. K. (2025). Hi-end-mae: Hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation.

Thambawita, V., Strümke, I., Hicks, S. A., Halvorsen, P., Parasa, S., and Riegler, M. A. (2021). Impact of image resolution on deep learning performance in endoscopy image classification: An experimental study using a large dataset of endoscopic images. Diagnostics, 11(12):2183.

Wang, Y.-Y., Liu, B., and Wang, J.-H. (2025). Application of deep learning-based convolutional neural networks in gastrointestinal disease endoscopic examination. World Journal of Gastroenterology, 31(36):111137.

Zhong, Z., Zheng, L., Kang, G., Li, S., and Yang, Y. (2020). Random erasing data augmentation. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 13001–13008, New York, NY, USA.

Zhuang, J., Wu, L., Wang, Q., Fei, P., Vardhanabhuti, V., Luo, L., and Chen, H. (2025). Advancing volumetric medical image segmentation via global-local masked autoencoders. IEEE Transactions on Medical Imaging, 44(11):4226–4238.

Classificação Multi-Classe de Imagens Endoscópicas Gastrointestinais com GhostNetV3: Uma Abordagem Eficiente para Diagnóstico por Imagem

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)