Breaking Barriers: Democratizing Machine Learning for RNA-Protein Interaction Prediction in Life Sciences

  • Bruno R. Florentino USP
  • Robson P. Bonidia USP / UTFPR
  • André C. P. L. F. de Carvalho USP

Resumo


À medida que o armazenamento de sequências biológicas aumenta, extrair informações torna-se crucial para avanços na saúde. A complexidade dessas sequências exige técnicas sofisticadas, como Aprendizado de Máquina (AM). No entanto, desenvolver soluções fortes de AM demanda conhecimento especializado, muitas vezes fora do alcance de muitos pesquisadores das ciências da vida, ampliando ainda mais as disparidades. Considerando isso, apresentamos o BioPrediction, um framework de AM ponta a ponta que cria modelos para identificar interações entre sequências, como pares de RNA não codificante e proteínas, sem intervenção humana. Os resultados destacam seu desempenho superior sobre modelos criados por especialistas em múltiplos conjuntos de dados. Essa automação abre novos caminhos para desvendar interações complexas e explorar mecanismos de doenças.

Referências

Armaos, A., Zacco, E., Sanchez de Groot, N., and Tartaglia, G. G. (2021). Rna-protein interactions: Central players in coordination of regulatory networks. BioEssays, 43(2):2000118.

Bonidia, R. P., Santos, A. P. A., de Almeida, B. L. S., Stadler, P. F., da Rocha, U. N., Sanches, D. S., and de Carvalho, A. C. P. L. F. (2022). BioAutoML: automated feature engineering and metalearning to predict noncoding RNAs in bacteria. Briefings in Bioinformatics, 23(4).

Cantile, M., Di Bonito, M., Tracey De Bellis, M., and Botti, G. (2021). Functional interaction among lncrna hotair and micrornas in cancer and other human diseases. Cancers, 13(3).

Chicco, D. (2017). Ten quick tips for machine learning in computational biology. BioData Mining, 10(35).

Dwivedi, Y. K., Kshetri, N., Hughes, L., Slade, E. L., Jeyaraj, A., Kar, A. K., Baabdullah, A. M., Koohang, A., Raghavan, V., Ahuja, M., et al. (2023). ”so what if chatgpt wrote it?” multidisciplinary perspectives on opportunities, challenges and implications of generative conversational ai for research, practice and policy. International Journal of Information Management, 71:102642.

Ferre, F., Colantoni, A., and Helmer-Citterich, M. (2016). Revealing protein–lncrna interaction. Briefings in bioinformatics, 17(1):106–116.

Jiang, P., Sinha, S., Aldape, K., et al. (2022). Big data in basic and translational cancer research. Nature Reviews Cancer, 22:625–639.

Kopp, F. and Mendell, J. T. (2018). Functional classification and experimental dissection of long noncoding rnas. Cell, 172(3):393–407.

P, B. and M., G. (2021). Worldwide protein data bank (wwpdb): A virtual treasure for research in biotechnology. Eur J Microbiol Immunol (Bp), 11(4):77–86.

Peng, C., Han, S., Zhang, H., and Li, Y. (2019). Rpiter: A hierarchical deep learning framework for ncrnaprotein interaction prediction. Int J Mol Sci, 20(5):1070.

Qin, W., Cho, K. F., Cavanagh, P. E., and Ting, A. Y. (2021). Deciphering molecular interactions by proximity labeling. Nature methods, 18(2):133–143.

Seger, E., Ovadya, A., Siddarth, D., Garfinkel, B., and Dafoe, A. (2023). Democratising ai: Multiple meanings, goals, and methods. In Proceedings of the 2023 AAAI/ACM Conference on AI, Ethics, and Society, AIES ’23, page 715–722, New York, NY, USA. Association for Computing Machinery.

Shaath, H., Vishnubalaji, R., Elango, R., Kardousha, A., Islam, Z., Qureshi, R., Alam, T., Kolatkar, P. R., and Alajez, N. M. (2022). Long non-coding rna and rna-binding protein interactions in cancer: Experimental and machine learning approaches. In Seminars in Cancer Biology, volume 86, pages 325–345. Elsevier.

Thirunavukarasu, A., Elangovan, K., Gutierrez, L., Li, Y., Tan, I., Keane, P., Korot, E., and Ting, D. (2023). Democratizing artificial intelligence imaging analysis with automated machine learning: Tutorial. J Med Internet Res, 25:e49949.

Vanschoren, J. (2023). Democratising artificial intelligence to accelerate scientific discovery. In Artificial Intelligence in Science: Challenges, Opportunities and the Future of Research. OECD Publishing, Paris.

Wang, Y., Wang, Y., Luo, W., Song, X., Huang, L., Xiao, J., Jin, F., Ren, Z., and Wang, Y. (2020). Roles of long non-coding rnas and emerging rna-binding proteins in innate antiviral responses. Theranostics, 10(20):9407.

Waring, J., Lindvall, C., and Umeton, R. (2020). Automated machine learning: Review of the state-of-the-art and opportunities for healthcare. Artificial Intelligence in Medicine, 104:101822.

Zhang, W., Wang, J., Li, B., Sun, B., Yu, S., Wang, X., and Zan, L. (2023). Long noncoding rna bnip3 inhibited the proliferation of bovine intramuscular preadipocytes via cell cycle. International Journal of Molecular Sciences, 24(4).

Zhong, Y., Xu, F., Wu, J., Schubert, J., and Li, M. M. (2021). Application of next generation sequencing in laboratory medicine. Ann Lab Med, 41(1):25–43.
Publicado
25/06/2024
FLORENTINO, Bruno R.; BONIDIA, Robson P.; CARVALHO, André C. P. L. F. de. Breaking Barriers: Democratizing Machine Learning for RNA-Protein Interaction Prediction in Life Sciences. In: CONCURSO DE TRABALHOS DE INICIAÇÃO CIENTÍFICA - SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO APLICADA À SAÚDE (SBCAS), 24. , 2024, Goiânia/GO. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 7-12. ISSN 2763-8987. DOI: https://doi.org/10.5753/sbcas_estendido.2024.2238.