A DBSCAN-Based Approach for Evaluating Protein Clusters Using Embeddings Generated from k-mer Images with Vision Transformer

  • Giovanna A. P. Soares UFRN
  • Hannah I. S. Marques UFRN
  • Raquel de M. Barbosa Granada University
  • Marcelo A. C. Fernandes UFRN

Resumo


Este trabalho apresenta uma abordagem para análise de agrupamentos de proteínas a partir de embeddings vetoriais gerados por imagens de kmers processadas por um modelo Vision Transformer (ViT). A abordagem, independente de alinhamento, permite o uso de métodos de agrupamento baseados em densidade, como o DBSCAN, aplicado aos conjuntos UniRef100 e UniRef90. Foram propostas duas métricas: contaminação, que mede a pureza dos clusters em relação aos rótulos originais, e espalhamento, que quantifica a fragmentação de um rótulo em múltiplos grupos. Os resultados mostram que o UniRef100 apresentou baixa contaminação, enquanto o UniRef90 apresentou maior dispersão. A metodologia possibilita identificar subestruturas e divisões internas em rótulos e fornecer medidas para curadoria, refinamento e anotação funcional de bases biológicas.

Referências

Consortium, T. U. (2023). Uniprot: the universal protein knowledge-base in 2023. Nucleic Acids Research, 51(D1):D523–D531.

Coutinho, M. G. F., Câmara, G. B. M., Barbosa, R. d. M., and Fernandes, M. A. C. (2023). Sars-cov-2 virus classification based on stacked sparse autoencoder. Computational and Structural Biotechnology Journal, 21:284–298.

Câmara, G. B. M., Coutinho, M. G. F., Silva, L. M. D. d., Gadelha, W. V. d. N., Torquato, M. F., Barbosa, R. d. M., and Fernandes, M. A. C. (2022). Convolutional neural network applied to sars-cov-2 sequence classification. Sensors, 22(15):5730.

De Souza, J. G., Fernandes, M. A., and de Melo Barbosa, R. (2022). A novel deep neural network technique for drug–target interaction. Pharmaceutics, 14(3):625.

Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.

Karim, M. R., Beyan, O., Zappa, A., Costa, I. G., Rebholz-Schuhmann, D., Cochez, M., and Decker, S. (2021). Deep learning-based clustering approaches for bioinformatics. Briefings in bioinformatics, 22(1):393–415.

Kulkarni, O. and Burhanpurwala, A. (2024). A survey of advancements in dbscan clustering algorithms for big data. In 2024 3rd International conference on Power Electronics and IoT Applications in Renewable Energy and its Control (PARC), pages 106–111. IEEE.

Ma, S., Gao, X., Jiang, L., and Xu, R. (2023). A review of visual transformer research. In International Conference on Image, Vision and Intelligent Systems, pages 349–356. Springer.

Singh, H. V., Girdhar, A., and Dahiya, S. (2022). A literature survey based on dbscan algorithms. In 2022 6th International Conference on Intelligent Computing and Control Systems (ICICCS), pages 751–758. IEEE.

Wang, J., Li, Z., and Zhang, J. (2022). Visualizing the knowledge structure and evolution of bioinformatics. BMC bioinformatics, 23(Suppl 8):404.

Yang, Q., Bai, Y., Liu, F., and Zhang, W. (2024). Integrated visual transformer and flash attention for lip-to-speech generation gan. Scientific Reports, 14(1):4525.

Yin, Y., Tang, Z., and Weng, H. (2024). Application of visual transformer in renal image analysis. BioMedical Engineering OnLine, 23(1):27.
Publicado
29/09/2025
SOARES, Giovanna A. P.; MARQUES, Hannah I. S.; BARBOSA, Raquel de M.; FERNANDES, Marcelo A. C.. A DBSCAN-Based Approach for Evaluating Protein Clusters Using Embeddings Generated from k-mer Images with Vision Transformer. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 22. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 451-462. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2025.13638.

Artigos mais lidos do(s) mesmo(s) autor(es)