Classification of SARS-CoV-2 Variants from Amino Acid Substitution Embeddings Using Supervised Learning
Resumo
Este trabalho propõe uma abordagem supervisionada para a classificação de variantes do SARS-CoV-2 (VOCs) a partir de embeddings vetoriais derivados de substituições de aminoácidos. Utilizando o modelo pré-treinado all-MiniLM-L6-v2, foram gerados vetores de alta dimensionalidade que codificam mutações sem necessidade de alinhamento genômico. Esses embeddings alimentaram classificadores como SVM, Random Forest, XGBoost e k-NN, avaliados por validação cruzada e em um teste externo com quase 288 mil amostras. O XGBoost obteve os melhores resultados, com acurácia de 99,83%, F1 macro de 99,83% e logLoss de 0,0068, mantendo desempenho elevado mesmo em dados não vistos. Os resultados evidenciam que modelos baseados em árvores superam alternativas como SVM, especialmente na variante Gamma. A proposta se mostra robusta, precisa e escalável para aplicação em sistemas automatizados de vigilância genômica, fornecendo uma segunda perspectiva de análise complementar à abordagem clínica e laboratorial, e superando métodos tradicionais e híbridas da literatura recente.
Referências
Azevedo, K. S., de Souza, L. C., Coutinho, M. G. F., Barbosa, R. d. M., and Fernandes, M. A. C. (2024). Deepvirusclassifier: a deep learning tool for classifying sars-cov-2 based on viral subtypes within the coronaviridae family. BMC Bioinformatics, 25(231).
Beduk, D., de Oliveira Filho, J. I., Beduk, T., Harmanci, D., Zihnioglu, F., Cicek, C., Sertoz, R., Arda, B., Goksel, T., Turhan, K., et al. (2022). ’all in one’sars-cov-2 variant recognition platform: Machine learning-enabled point of care diagnostics. Biosensors and Bioelectronics: X, 10:100105.
Chourasia, P., Murad, T., Tayebi, Z., Ali, S., Khan, I. U., and Patterson, M. (2023). Efficient classification of sars-cov-2 spike sequences using federated learning. In Annual International Conference on Information Management and Big Data, pages 80–96. Springer.
Coutinho, M. G. F., Câmara, G. B. M., Barbosa, R. d. M., and Fernandes, M. A. C. (2023). Sars-cov-2 virus classification based on stacked sparse autoencoder. Computational and Structural Biotechnology Journal, 21:284–298.
Câmara, G. B. M., Coutinho, M. G. F., Silva, L. M. D. d., Gadelha, W. V. d. N., Torquato, M. F., Barbosa, R. d. M., and Fernandes, M. A. C. (2022). Convolutional neural network applied to sars-cov-2 sequence classification. Sensors, 22(15):5730.
de Souza, L. C., Azevedo, K. S., de Souza, J. G., Barbosa, R. d. M., and Fernandes, M. A. C. (2023). New proposal of viral genome representation applied in the classification of sars-cov-2 with deep learning. BMC Bioinformatics, 24(92).
Fatima, N. and Ahmad, A. (2024). Sars-cov-2 virus variant detection and mortality prediction through symptom analysis using machine learning. Engineering Applications of Artificial Intelligence, 130:107743.
Khare, S., Gurry, C., Freitas, L., Schultz, M. B., Bach, G., Diallo, A., Akite, N., Ho, J., Lee, R. T., Yeo, N. K., Team, C., and Maurer-Stroh, S. (2021). Gisaid’s role in pandemic response. China CDC Weekly, 3(49):1049–1051.
Promja, S., Puenpa, J., Achakulvisut, T., Poovorawan, Y., Lee, S. Y., Athamanolap, P., and Lertanantawong, B. (2023). Machine learning-assisted real-time polymerase chain reaction and high-resolution melt analysis for sars-cov-2 variant identification. Analytical Chemistry, 95(3):2102–2109.
Qin, J., Tian, X., Liu, S., Yang, Z., Shi, D., Xu, S., and Zhang, Y. (2024). Rapid classification of sars-cov-2 variant strains using machine learning-based label-free sers strategy. Talanta, 267:125080.
Ran, L., Tan, X., and Zhang, Y. (2022). Precise community-based public health management: Crucial experience responding to covid-19 in wuhan, china. Risk Management and Healthcare Policy, pages 171–178.
Singh, R., Nagpal, S., Pinna, N. K., and Mande, S. S. (2022). Tracking mutational semantics of sars-cov-2 genomes. Scientific Reports, 12(1):15704.
Sokhansanj, B. A., Zhao, Z., and Rosen, G. L. (2022). Interpretable and predictive deep neural network modeling of the sars-cov-2 spike protein sequence to predict covid-19 disease severity. Biology, 11(12).
