Identificação de Temas em Comentários de Restaurantes usando BERT e Modelos de Linguagem Generativa

José A. de Almeida Neto; Tiago de Melo

doi:10.5753/sbbd_estendido.2024.242780

José A. de Almeida Neto Universidade do Estado do Amazonas
Tiago de Melo Universidade do Estado do Amazonas

DOI: https://doi.org/10.5753/sbbd_estendido.2024.242780

Resumo

Este estudo investiga a aplicação de técnicas avançadas de processamento de linguagem natural (PLN) para classificar comentários sobre restaurantes de alta gastronomia no Brasil. Utilizando 4.000 sentenças de plataformas como Google Reviews, TripAdvisor e Yelp, são comparados os desempenhos de Regressão Logística Multirrótulo, BERTimbau e Sabia. O BERTimbau apresentou melhor desempenho, com macro F1-Score de 0.88 e micro F1-Score de 0.92. A análise revela variações temáticas significativas quando se observam os restaurantes individualmente, destacando a eficácia dos modelos pré-treinados em PLN e sugerindo direções para pesquisas futuras.

Palavras-chave: Processamento de Linguagem Natural, Modelos de Linguagem Generativa, BERT

Referências

da Silva Oliveira, A., de Carvalho Cecote, T., Alvarenga, J. P. R., da Silva Luz, E. J., et al. (2024). Toxic speech detection in portuguese: A comparative study of large language models. In Proceedings of the 16th International Conference on Computational Processing of Portuguese, pages 108–116.

de Almeida Neto, J. A. and de Melo, T. (2023). Exploring supervised learning models for multi-label text classification in brazilian restaurant reviews. In Anais do XX Encontro Nacional de Inteligência Artificial e Computacional, pages 126–140. SBC.

de Melo, T. (2021). Análise de comentários das plataformas online de restaurante michelin no brasil. In A produção do conhecimento nas ciências da comunicação, pages 226–238.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.

Fang, L. (2022). The effects of online review platforms on restaurant revenue, consumer learning, and welfare. Management Science, 68(11):8116–8143.

Gan, Q., Ferns, B. H., Yu, Y., and Jin, L. (2017). A text mining and multidimensional sentiment analysis of online restaurant reviews. Journal of Quality Assurance in Hospitality & Tourism, 18(4):465–492.

Hammes, L. and Freitas, L. (2021). Utilizando bertimbau para a classificação de emoções em português. Anais do Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), pages 56–63.

Ioscote, F. C. (2023). Produção de notícia ou de texto? um estudo exploratório sobre potenciais e limitações do chatgpt, bard ai e maritalk para o jornalismo.

Pires, R., Abonizio, H., Almeida, T. S., and Nogueira, R. (2023). Sabiá: Portuguese large language models. In Brazilian Conference on Intelligent Systems, pages 226–240. Springer.

Serras, F. R. and Finger, M. (2021). verbert: Automating brazilian case law document multi-label categorization using bert. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL 2021), STIL 2021. Sociedade Brasileira de Computação.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: Pretrained bert models for brazilian portuguese. In Cerri, R. and Prati, R. C., editors, Intelligent Systems, pages 403–417, Cham. Springer International Publishing.

Tedjojuwono, S. M. and Neonardi, C. (2021). Aspect based sentiment analysis: Restaurant online review platform in indonesia with unsupervised scraped corpus in indonesian language. In 1st International Conference on Computer Science and Artificial Intelligence, volume 1, pages 213–218. IEEE.

Yu, C.-E. and Zhang, X. (2020). The embedded feelings in local gastronomy: a sentiment analysis of online reviews. Journal of Hospitality and Tourism Technology, 11(3):461–478.