Cross-Domain Sentiment Analysis in Portuguese using BERT
Resumo
O Cruzamento de Domínios tem se tornado uma abordagem comum para lidar com a escassez de dados rotulados na Análise de Sentimentos (AS). No entanto, a dependência de domínio da AS e as particularidades associadas a cada domínio podem impactar, negativamente, o desempenho dos modelos de classificação. Neste trabalho, avaliamos a capacidade de generalização do modelo BERT na tarefa de Classificação de Polaridade com Cruzamento de Domínios em Português. Para fins de comparação, classificadores tradicionais de Aprendizagem de Máquina e métodos para extração de características são analisados. O BERT apresentou resultados promissores mesmo com a mudança de domínio, chegando a alcançar 92% de acurácia.
Referências
Belisário, L. B., Ferreira, L. G., and Pardo, T. A. S. (2020). Evaluating Methods of Different Paradigms for Subjectivity Classification in Portuguese. In Quaresma, P., Vieira, R., Aluísio, S., Moniz, H., Batista, F., and Gonçalves, T., editors, Computational Processing of the Portuguese Language, pages 261-269, Cham. Springer International Publishing.
Bergsma, S., Jung, D., Lau, R., Wang, Y., and Wang, S. (2005). Machine learning approaches to sentiment classification cmput 551 : Course project winter, 2005.
Blitzer, J., McDonald, R., and Pereira, F. (2006). Domain adaptation with structural correspondence learning. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, EMNLP '06, page 120-128, USA. Association for Computational Linguistics.
Britto, L. and Pacífico, L. (2019). Análise de sentimentos para revisões de aplicativos mobile em português brasileiro. In Anais do XVI Encontro Nacional de Inteligência Artificial e Computacional, pages 1080-1090, Porto Alegre, RS, Brasil. SBC.
Britto, L. F., Lima, R., and Pacífico, L. D. S. (2019). Structural correspondence learning for cross-domain sentiment analysis in brazilian portuguese. In 2019 8th Brazilian Conference on Intelligent Systems (BRACIS), pages 812-817.
Brum, H. B. and das Graças Volpe Nunes, M. (2017). Building a sentiment corpus of tweets in brazilian portuguese. CoRR, abs/1712.08917.
Canvas8 and Trustpilot (2020). The critical role of reviews in internet trust. [link]. (Accessed on 07/09/2022).
Chen, Y. and Xie, J. (2008). Online consumer review: Word-of-mouth as a new element of marketing communication mix. Management Science, 54(3):477-491.
Criminisi, A., Konukoglu, E., and Shotton, J. (2011). Decision forests for classification, regression, density estimation, manifold learning and semi-supervised learning.
DataReportal (2022). Digital 2022 global digital overview. https://datareportal.com/reports/digital-2022-global-overview-report. (Accessed on 07/09/2022).
Devlin, J., Chang, M., Lee, K., and Toutanova, K. (2018). BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805.
Freitas, C., Motta, E., Milidiú, R., and César, J. (2014). Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus, pages 128-146.
Gonçalves, P., Dalip, D., Reis, J., Messias, J., Ribeiro, F., Melo, P., Araújo, L., Gonçalves, M., and Benevenuto, F. (2015). Bazinga! caracterizando e detectando sarcasmo e ironia no twitter. In Anais do IV Brazilian Workshop on Social Network Analysis and Mining, page, Porto Alegre, RS, Brasil. SBC.
Hartmann, N., Avanço, L., Balage, P., Duran, M., das Graças Volpe Nunes, M., Pardo, T., and Aluísio, S. (2014). A large corpus of product reviews in Portuguese: Tackling out-of-vocabulary words. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14), pages 3865-3871, Reykjavik, Iceland. European Language Resources Association (ELRA).
Hossain, M. M., Kabir, S., and Rezvi, R. (2017). Influence of Word of Mouth on Consumer Buying Decision: Evidence from Bangladesh Market. International Journal of Business and Management, 9:38-45.
Insights, B. (2021). Customer reviews' impact on purchase decisions - bizrate insights. [link]. (Accessed on 07/09/2022).
Júnior, E. A. C., Marinho, V. Q., dos Santos, L. B., Bertaglia, T. F. C., Treviso, M. V., and Brum, H. B. (2017). Pelesent: Cross-domain polarity classification using distant supervision. CoRR, abs/1707.02657.
Koppel, M. and Schler, J. (2006). The Importance of Neutral Examples for Learning Sentiment. Computational Intelligence, 22(2):100-109.
Liu, H., Chatterjee, I., Zhou, M., Lu, X. S., and Abusorrah, A. (2020). Aspect-based sentiment analysis: A survey of deep learning methods. IEEE Transactions on Computational Social Systems, 7(6):1358-1375.
Neotrust (2022). Com pandemia, vendas pela internet crescem 27% e atingem r$ 161 bi em 2021. [link]. (Accessed on 07/09/2022).
O. Plath, H., O. Paiva, M. E., L. Pinto, D., and D. P. Costa, P. (2022). Detecção de Discurso de Ódio Contra Mulheres em Textos em Português Brasileiro: Construção da Base MINA-BR e Modelo de Classificação. Revista Eletrônica de Iniciação Científica em Computação, 20(3 SE Edição Especial: CTIC/CSBC).
Peng, M., Jiang, Y.-g., and Huang, X. (2018). Cross-Domain Sentiment Classification with Target Domain Specific Information. pages 2505-2513.
Pennington, J., Socher, R., and Manning, C. D. (2014). GloVe: Global Vectors for Word Representation. In Empirical Methods in Natural Language Processing (EMNLP), pages 1532-1543.
Salton, G. and McGill, M. (1983). Introduction to Modern Information Retrieval. International student edition. McGraw-Hill.
Schubert, G. and de Freitas, L. (2020). A construção de um corpus para detecção de ironia e sarcasmo em português. In Anais do XVII Encontro Nacional de Inteligência Artificial e Computacional, pages 709-717, Porto Alegre, RS, Brasil. SBC.
Shekhar, S., Bansode, A., and Salim, A. (2022). A comparative study of hyper-parameter optimization tools. CoRR, abs/2201.06433.
Soto, C., Nunes, G., and Gomes, J. (2019). Avaliação de técnicas de word embedding na tarefa de detecção de discurso de ódio. In Anais do XVI Encontro Nacional de Inteligência Artificial e Computacional, pages 1020-1031, Porto Alegre, RS, Brasil. SBC.
Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: Pretrained bert models for brazilian portuguese. In Intelligent Systems: 9th Brazilian Conference, BRACIS 2020, Rio Grande, Brazil, October 20-23, 2020, Proceedings, Part I, page 403-417, Berlin, Heidelberg. Springer-Verlag.
Yang, L. and Shami, A. (2020). On hyperparameter optimization of machine learning algorithms: Theory and practice. CoRR, abs/2007.15745.