Modelo semântico de recuperação da informação para recomendação de revistas científicas

  • Renan C. Batista Instituto Federal de Educação, Ciência e Tecnologia do Ceará (IFCE) / Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
  • Fabio L. Canto Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
  • Washington L. R. C. Segundo Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)
  • Thiago M. R. Dias Instituto Brasileiro de Informação em Ciência e Tecnologia (IBICT)

Resumo


Este trabalho descreve a abordagem empregada no desenvolvimento de um sistema de recomendação de revistas científicas. São utilizadas técnicas de processamento de linguagem natural e aprendizado de máquina aplicadas a um grande volume de dados de artigos científicos. Foram extraídos do repositório OpenAlex dados textuais de mais de 10 milhões de artigos publicados aproximadamente 140 mil revistas. A arquitetura do sistema combina recursos de pré-processamento textual, geração de embeddings semânticos e recuperação vetorial otimizada, permitindo recomendações de revistas a partir do escore de similaridade com o resumo de um manuscrito fornecido pelo usuário.
Palavras-chave: Sistemas de recomendação, Recuperação semântica da informação, Banco de dados científicos

Referências

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391–407.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Burstein, J., Doran, C., and Solorio, T., editors, Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

Entrup, E., Eppelin, A., Ewerth, R., Hartwig, J., Tullney, M., Wohlgemuth, M., and Hoppe, A. (2022). B!SON: A Tool for Open Access Journal Recommendation. In Silvello, G., Corcho, O., Manghi, P., Di Nunzio, G. M., Golub, K., Ferro, N., and Poggi, A., editors, Linking Theory and Practice of Digital Libraries, volume 13541, pages 357–364. Springer International Publishing, Cham. Series Title: Lecture Notes in Computer Science.

Gündoğan, E., Kaya, M., and Daud, A. (2023). Deep learning for journal recommendation system of research papers. Scientometrics, 128(1):461–481.

Kamalloo, E., Zhang, X., Ogundepo, O., Thakur, N., Alfonso-Hermelo, D., Rezagholizadeh, M., and Lin, J. (2023). Evaluating Embedding APIs for Information Retrieval. arXiv:2305.06300 [cs].

Malkov, Y. A. and Yashunin, D. A. (2020). Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(4):824–836.

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781 [cs].

Monir, S. S., Lau, I., Yang, S., and Zhao, D. (2024). VectorSearch: Enhancing Document Retrieval with Semantic Embeddings and Optimized Search. arXiv:2409.17383 [cs].

Ogunde, A. O., Odim, M. O., Olaniyan, O. O., Ojewumi, T. O., Oguntunde, A. O., Fayemiwo, M. A., Olowookere, T. A., and Bolanle, T. H. (2020). The Design of a Hybrid Model-Based Journal Recommendation System. Advances in Science, Technology and Engineering Systems Journal, 5(6):1153–1162.

Pennington, J., Socher, R., and Manning, C. (2014). Glove: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 1532–1543, Doha, Qatar. Association for Computational Linguistics.

Peters, M., Neumann, M., Iyyer, M., Gardner, M., Clark, C., Lee, K., and Zettlemoyer, L. (2018). Deep Contextualized Word Representations. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227–2237, New Orleans, Louisiana. Association for Computational Linguistics.

Priem, J., Piwowar, H., and Orr, R. (2022). OpenAlex: A fully-open index of scholarly works, authors, venues, institutions, and concepts. arXiv:2205.01833 [cs].

Rollins, J., McCusker, M., Carlson, J., and Stroll, J. (2017). Manuscript Matcher: A Content and Bibliometrics-based Scholarly Journal Recommendation System.

Salton, G., Wong, A., and Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11):613–620.

Van Eck, N. J. and Waltman, L. (2024). An open approach for classifying research publications.

Wong, S. K. M., Ziarko, W., and Wong, P. C. N. (1985). Generalized vector spaces model in information retrieval. In Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR ’85, pages 18–25, Montreal, Quebec, Canada. ACM Press.
Publicado
29/09/2025
BATISTA, Renan C.; CANTO, Fabio L.; C. SEGUNDO, Washington L. R.; DIAS, Thiago M. R.. Modelo semântico de recuperação da informação para recomendação de revistas científicas. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 19. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 97-104. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2025.248233.