Modelos Transformers para a Análise Automática de Satisfação na Plataforma Consumidor.gov.br
Resumo
A plataforma Consumidor.gov.br é um recurso relevante para os Direitos do Consumidor, no Brasil: consumidores contatam os fornecedores para resolver conflitos entre as partes; ao final, o consumidor escreve sua opinião sobre o processo. Este trabalho propõe um modelo de análise de sentimentos via Aprendizado por Transferência, realizando o fine-tuning de um modelo BERT em um conjunto de treino que agrega reconhecidas bases de dados de avaliações de consumidores em português. A seguir, avalia-se o modelo na classificação das reclamações do Consumidor.gov.br, por meio de um conjunto de testes exclusivamente rotulado para este fim. O modelo é implantado no ambiente de análise de dados da SENACON, onde consegue realizar análise de sentimentos das reclamações finalizadas, diariamente, com F1-score de 0,72.
Referências
Brasil (2018). Lei 13.709. Diário Oficial da República Federativa do Brasil. Lei Geral de Proteção de Dados Pessoais (LGPD).
Brasil (2021a). Decreto 8.777. Diário Oficial da República Federativa do Brasil. Institui a Política de Dados Abertos do Poder Executivo federal.
Brasil (2021b). Lei 12.527. Diário Oficial da República Federativa do Brasil. Regula o acesso a informações previsto no inciso XXXIII do art. 5º , no inciso II do § 3º do art. 37 e no § 2º do art. 216 da Constituição Federal; altera a Lei nº 8.112, de 11 de dezembro de 1990; revoga a Lei nº 11.111, de 5 de maio de 2005, e dispositivos da Lei nº 8.159, de 8 de janeiro de 1991; e dá outras providências.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North, volume 1, pages 4171–4186. Association for Computational Linguistics.
Hajiali, M. (2020). Big data and sentiment analysis: A comprehensive and systematic literature review. Concurrency and Computation: Practice and Experience, 32(14):e5671.
Hartmann, N., Avanço, L., Balage, P., Duran, M., das Graças Volpe Nunes, M., Pardo, T., and Aluísio, S. (2014). A large corpus of product reviews in portuguese: Tackling out-of-vocabulary words. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), pages 3865–3871. European Language Resources Association (ELRA).
K.V.N, R., HOD, Department of Information Technology, Vignan’s Institute of Information Technology, Visakhapatnam, India., K.V.N., R., and Project Manager, Tech Mahindra, Visakhapatnam, India. (2016). An introduction to data lake. i-manager’s Journal on Information Technology, 5(2):1.
Liu, Y. and Wan, Y. (2023). Consumer satisfaction with the online dispute resolution on a second-hand goods-trading platform. Sustainability, 15(4).
Olist and Sionek, A. (2018). Brazilian e-commerce public dataset by Olist. [link].
SENACON (2021). Página da SENACON Secretaria Nacional do Consumidor. [link].
SENACON (2023a). Boletim Consumidor.gov.br. Technical report, Ministério da Justiça e Segurança Pública. [link].
SENACON (2023b). Plataforma Consumidor.gov.br. [link].
Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: Pretrained BERT models for brazilian portuguese. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 12319 LNAI:403–417.
Souza, F. D. and Filho, J. B. d. O. e. S. (2022). BERT for sentiment analysis: Pre-trained and fine-tuned alternatives. In Pinheiro, V., Gamallo, P., Amaro, R., Scarton, C., Batista, F., Silva, D., Magro, C., and Pinto, H., editors, Computational Processing of the Portuguese Language, Lecture Notes in Computer Science, pages 209–218. Springer International Publishing.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., and Polosukhin, I. (2017). Attention is all you need. In Guyon, I., Luxburg, U. V., Bengio, S., Wallach, H., Fergus, R., Vishwanathan, S., and Garnett, R., editors, Advances in Neural Information Processing Systems, volume 30, pages 5998–6008. Curran Associates, Inc.
Wagner Filho, J. A., Wilkens, R., Idiart, M., and Villavicencio, A. (2018). The brWaC corpus: A new open resource for Brazilian Portuguese. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
Zhou, S., Qiao, Z., Du, Q., Wang, G. A., Fan, W., and Yan, X. (2018). Measuring customer agility from online reviews using big data text analytics. Journal of management information systems, 35(2):510–539.