Predição Numérica de Avaliações em Português: Comparando BERTimbau e Modelos Multilíngues

  • Emanuelle Marreira Universidade do Estado do Amazonas
  • Tiago de Melo Universidade do Estado do Amazonas

Resumo


Este estudo analisa variantes do modelo BERT para a tarefa de predição de ratings. Com mais de 50 mil comentários de usuários da Amazon em português brasileiro, compararam-se os desempenhos dos modelos BERTimbau, BERT multilingue, DistilBERT multilingue, ALBERT multilingue e a versão multilingue do RoBERTa. O BERTimbau obteve os melhores resultados, com MAE, RMSE e AUC de 0,559, 0,910 e 0,933, respectivamente. A eficiência do modelo varia entre categorias de produtos, sendo as categorias com melhores resultados a de Alimentos e Automotivo. Como contribuição, este estudo amplia o conhecimento sobre predição de ratings no contexto da Língua Portuguesa.

Palavras-chave: Rating Prediction, Processamento de Linguagem Natural, BERTimbau

Referências

Almeida Neto, J. and de Melo, T. (2023). Exploring supervised learning models for multilabel text classification in brazilian restaurant reviews. Anais do Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), pages 126–140.

Antonio, N., de Almeida, A. M., Nunes, L., Batista, F., and Ribeiro, R. (2018). Hotel online reviews: creating a multi-source aggregated index. International Journal of Contemporary Hospitality Management, 30(12):3574–3591.

Chambua, J. and Niu, Z. (2021). Review text based rating prediction approaches: preference knowledge learning, representation and utilization. Artificial Intelligence Review, 54:1171–1200.

Cunha, W., Rocha, L., and Gonçalves, M. A. (2025). A thorough benchmark of automatic text classification: From traditional approaches to large language models. arXiv preprint arXiv:2504.01930.

de Melo, T. (2022). Sentilexbr: An automatic methodology of building sentiment lexicons for the portuguese language. Journal of Information and Data Management, 13(3).

de Melo, T., da Silva, A. S., de Moura, E. S., and Calado, P. (2019). Opinionlink: Leveraging user opinions for product catalog enrichment. Information Processing & Management, 56(3):823–843.

Eleyan, D., Othman, A., and Eleyan, A. (2020). Enhancing software comments readability using flesch reading ease score. Information, 11(9):430.

Gardazi, N. M., Daud, A., Malik, M. K., Bukhari, A., Alsahfi, T., and Alshemaimri, B. (2025). Bert applications in natural language processing: a review. Artificial Intelligence Review, 58(6):1–49.

Hanić, S., Bagić Babac, M., Gledec, G., and Horvat, M. (2024). Comparing machine learning models for sentiment analysis and rating prediction of vegan and vegetarian restaurant reviews. Computers, 13(10):248.

Hossain, M. I. e. a. (2021). Rating prediction of product reviews in bangla using machine learning. In Proc. Int. Conf. on AI and Mechatronics Systems (AIMS), pages 1–6. IEEE.

Kang, W.-C., Ni, J., Mehta, N., Sathiamoorthy, M., Hong, L., Chi, E., and Cheng, D. Z. (2023). Do llms understand user preferences? evaluating llms on user rating prediction. arXiv preprint arXiv:2305.06474.

Kettunen, K. (2014). Can type-token ratio be used to show morphological complexity of languages? Journal of Quantitative Linguistics, 21(3):223–245.

Khan, R. A., Mannan, A., and Aslam, N. (2022). Prediction of product rating based on polarized reviews using supervised machine learning. VFAST Transactions on Software Engineering, 10(4):01–09.

Li, J., Wang, Y., and Tao, Z. (2022a). A rating prediction recommendation model combined with the optimizing allocation for information granularity of attributes. Information, 13(1):21.

Li, S., Liu, F., Zhang, Y., Zhu, B., Zhu, H., and Yu, Z. (2022b). Text mining of user-generated content (ugc) for business applications in e-commerce: A systematic review. Mathematics, 10(19):3554.

Pak, A., Ziyaden, A., Saparov, T., Akhmetov, I., and Gelbukh, A. (2024). Word embeddings: A comprehensive survey. Computación y Sistemas, 28(4):2005–2029.

Pereira, D. A. (2021). A survey of sentiment analysis in the portuguese language. Artificial Intelligence Review, 54(2):1087–1115.

Shi, W., Wang, L., and Qin, J. (2020). Extracting user influence from ratings and trust for rating prediction in recommendations. Scientific reports, 10(1):13592.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Publicado
29/09/2025
MARREIRA, Emanuelle; DE MELO, Tiago. Predição Numérica de Avaliações em Português: Comparando BERTimbau e Modelos Multilíngues. In: WORKSHOP DE TRABALHOS DE ALUNOS DA GRADUAÇÃO (WTAG) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 57-63. DOI: https://doi.org/10.5753/sbbd_estendido.2025.247518.