Detecção e diagnóstico automático de patologias na retina utilizando arquitetura baseada em Transformers
Resumo
Globalmente, mais de 2,2 bilhões de pessoas têm deficiência visual, com cerca de um bilhão desses casos podendo ser evitados. A detecção precoce de doenças oculares é crucial para prevenir a evolução para estados irreversíveis, como a cegueira. Assim, este estudo apresenta um novo método para detectar múltiplas patologias oculares em imagens de fundo de olho, com a utilização de uma arquitetura de rede neural baseada em transformers, denominada Query2Label. Os experimentos foram realizados no conjunto de dados público RFMiD, revelando resultados promissores, com destaque para uma precisão média de 99,8% na categoria “D. Risk”. Em comparação com o estado da arte, o método mostrou excelente desempenho na detecção da classe “ODP” e superou a precisão em outras categorias específicas, como “CSR”,“LS”, destacando sua viabilidade e eficácia na classificação de patologias oftalmológicas.Referências
Araújo, J., de Paiva, A., de Almeida, J., Neto, O. P. S., de Sousa, J., Silva, A., and Júnior, G. B. (2017). Diagnóstico de glaucoma em imagens de fundo de olho utilizando os Índices de diversidade de shannon e mcintosh. In Anais do XVII Workshop de Informática Médica, Porto Alegre, RS, Brasil. SBC.
Ceschini, L., Policarpo, L., Rodrigues, V., Righi, R., and Ramos, G. (2022). Otimizando o diagnóstico automatizado de glaucoma a partir de imagens de fundo de olho. In Anais da XXII Escola Regional de Alto Desempenho da Região Sul, pages 9–12, Porto Alegre, RS, Brasil. SBC.
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee.
Dominik Müller, I. S.-R. and Kramer, F. (2021). Multi-disease detection in retinal imaging based on ensembling heterogeneous deep learning models.
Farnell, D. J., Hatfield, F. N., Knox, P., Reakes, M., Spencer, S., Parry, D., and Harding, S. P. (2008). Enhancement of blood vessels in digital fundus photographs via the application of multiscale line operators. Journal of the Franklin institute, 345(7):748–765.
Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4700–4708.
IBGE (2010). Censo demográfico.
Kaur, P. and Gosain, A. (2018). Issues and challenges of class imbalance problem in classification. International Journal of Information Technology, pages 1–7.
Liu, S., Zhang, L., Yang, X., Su, H., and Zhu, J. (2021). Query2label: A simple transformer way to multi-label classification. arXiv preprint arXiv:2107.10834.
Mittal, K. and Rajam, V. (2020). Computerized retinal image analysis-a survey. Multimedia Tools and Applications, 79(31):22389–22421.
Oh, Y.-t. and Park, H. (2022). End-to-end two-branch classifier for retinal imaging analysis. In 2022 International Conference on Electronics, Information, and Communication (ICEIC), pages 1–3. IEEE.
Organization, W. H. et al. (2019). World report on vision.
Pachade, S., Porwal, P., Thulkar, D., Kokare, M., Deshmukh, G., Sahasrabuddhe, V., Giancardo, L., Quellec, G., and Mériaudeau, F. (2021). Retinal fundus multi-disease image dataset (rfmid): a dataset for multi-disease detection research. Data, 6(2):14.
Ridnik, T., Lawen, H., Noy, A., Ben Baruch, E., Sharir, G., and Friedman, I. (2021). Tresnet: High performance gpu-dedicated architecture. In proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 1400–1409.
Rodriguez, M., AlMarzouqi, H., and Liatsis, P. (2022). Multi-label retinal disease classification using transformers. arXiv preprint arXiv:2207.02335.
Silva, M., Pessoa, A., de Almeida, J., Júnior, G. B., and de Paiva, A. (2018). Diagnóstico do glaucoma em imagens de retinografia usando variantes de padrões locais binários. In Anais do XVIII Simpósio Brasileiro de Computação Aplicada à Saúde, Porto Alegre, RS, Brasil. SBC.
Umbelino, C. C. and Ávila, M. P. (2023). As condições de saúde ocular no brasil. São Paulo: Conselho Brasileiro de Oftalmologia.
Zhang, M.-L., Li, Y.-K., Liu, X.-Y., and Geng, X. (2018). Binary relevance for multi-label learning: an overview. Frontiers of Computer Science, 12(2):191–202.
Ceschini, L., Policarpo, L., Rodrigues, V., Righi, R., and Ramos, G. (2022). Otimizando o diagnóstico automatizado de glaucoma a partir de imagens de fundo de olho. In Anais da XXII Escola Regional de Alto Desempenho da Região Sul, pages 9–12, Porto Alegre, RS, Brasil. SBC.
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee.
Dominik Müller, I. S.-R. and Kramer, F. (2021). Multi-disease detection in retinal imaging based on ensembling heterogeneous deep learning models.
Farnell, D. J., Hatfield, F. N., Knox, P., Reakes, M., Spencer, S., Parry, D., and Harding, S. P. (2008). Enhancement of blood vessels in digital fundus photographs via the application of multiscale line operators. Journal of the Franklin institute, 345(7):748–765.
Huang, G., Liu, Z., Van Der Maaten, L., and Weinberger, K. Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4700–4708.
IBGE (2010). Censo demográfico.
Kaur, P. and Gosain, A. (2018). Issues and challenges of class imbalance problem in classification. International Journal of Information Technology, pages 1–7.
Liu, S., Zhang, L., Yang, X., Su, H., and Zhu, J. (2021). Query2label: A simple transformer way to multi-label classification. arXiv preprint arXiv:2107.10834.
Mittal, K. and Rajam, V. (2020). Computerized retinal image analysis-a survey. Multimedia Tools and Applications, 79(31):22389–22421.
Oh, Y.-t. and Park, H. (2022). End-to-end two-branch classifier for retinal imaging analysis. In 2022 International Conference on Electronics, Information, and Communication (ICEIC), pages 1–3. IEEE.
Organization, W. H. et al. (2019). World report on vision.
Pachade, S., Porwal, P., Thulkar, D., Kokare, M., Deshmukh, G., Sahasrabuddhe, V., Giancardo, L., Quellec, G., and Mériaudeau, F. (2021). Retinal fundus multi-disease image dataset (rfmid): a dataset for multi-disease detection research. Data, 6(2):14.
Ridnik, T., Lawen, H., Noy, A., Ben Baruch, E., Sharir, G., and Friedman, I. (2021). Tresnet: High performance gpu-dedicated architecture. In proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 1400–1409.
Rodriguez, M., AlMarzouqi, H., and Liatsis, P. (2022). Multi-label retinal disease classification using transformers. arXiv preprint arXiv:2207.02335.
Silva, M., Pessoa, A., de Almeida, J., Júnior, G. B., and de Paiva, A. (2018). Diagnóstico do glaucoma em imagens de retinografia usando variantes de padrões locais binários. In Anais do XVIII Simpósio Brasileiro de Computação Aplicada à Saúde, Porto Alegre, RS, Brasil. SBC.
Umbelino, C. C. and Ávila, M. P. (2023). As condições de saúde ocular no brasil. São Paulo: Conselho Brasileiro de Oftalmologia.
Zhang, M.-L., Li, Y.-K., Liu, X.-Y., and Geng, X. (2018). Binary relevance for multi-label learning: an overview. Frontiers of Computer Science, 12(2):191–202.
Publicado
25/06/2024
Como Citar
SILVA, Thalisson J. C.; FERNANDES, Saulo E. R.; ALMEIDA, João D. S. de; QUINTANILHA, Darlan B. P.; BRAZ JUNIOR, Geraldo.
Detecção e diagnóstico automático de patologias na retina utilizando arquitetura baseada em Transformers. In: SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO APLICADA À SAÚDE (SBCAS), 24. , 2024, Goiânia/GO.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 178-189.
ISSN 2763-8952.
DOI: https://doi.org/10.5753/sbcas.2024.2134.