DepreBERTBR: Um Modelo de Linguagem Pré-treinado para o Domínio da Depressão no Idioma Português Brasileiro

  • Ayrton Douglas Rodrigues Herculano Instituto Federal de Educação, Ciência e Tecnologia da Paraíba (IFPB)
  • Damires Yluska de Souza Souza Instituto Federal de Educação, Ciência e Tecnologia da Paraíba (IFPB)
  • Alex Sandro da Cunha Rego Instituto Federal de Educação, Ciência e Tecnologia da Paraíba (IFPB)

Resumo


A depressão tem sido alvo de preocupação na sociedade moderna e, conforme a OMS, pode se tornar a doença mais comum até 2030. Antes restritos aos consultórios, sentimentos com teor depressivo têm sido compartilhados em redes como a Reddit. Neste cenário, este trabalho propõe uma abordagem para classificação de postagens de redes sociais com sinais de depressão, que se apoia na construção de um corpus e de um modelo de linguagem pré-treinado chamado DepreBERTBR, considerando o idioma português brasileiro. O DepreBERTBR foi ajustado para a tarefa citada conforme três graus de depressão: ausente, moderada ou grave. Os resultados demonstram que o DepreBERTBR é competitivo com respeito a outros modelos de linguagem em português.
Palavras-chave: Modelos de linguagem, Aprendizado por transferência, BERT, Classificação de textos, Depressão, Reddit

Referências

American Psychiatric Association (2013). Diagnostic and statistical manual of mental disorders: DSM-5, volume 5. American psychiatric association Washington, DC.

Azam, F., Agro, M., Sami, M., Abro, M. H., and Dewani, A. (2021). Identifying depression among twitter users using sentiment analysis. In 2021 international conference on artificial intelligence (ICAI), pages 44–49. IEEE.

Cacheda, F., Fernandez, D., Novoa, F. J., Carneiro, V., et al. (2019). Early detection of depression: social network analysis and random forest techniques. Journal of medical Internet research, 21(6):e12554.

Caseli, H. d. M. and Nunes, M. d. G. V. (2023). Processamento de linguagem natural: conceitos, técnicas e aplicações em português. BPLN, 2a edition.

Costa, P. B., Pavan, M. C., Santos, W. R., Silva, S. C., and Paraboni, I. (2023). Bertabaporu: assessing a genre-specific language model for portuguese nlp. In Proceedings of the 14th International Conference on Recent Advances in Natural Language Processing, pages 217–223.

da Silva Nascimento, R., Parreira, P., dos Santos, G. N., and Guedes, G. P. (2018). Identificando sinais de comportamento depressivo em redes sociais. In Anais do VII Brazilian Workshop on Social Network Analysis and Mining. SBC.

de Psiquiatria, A. A. (2022). Manual Diagnóstico e Estatístico de Transtornos Mentais - DSM-5-TR. Artmed.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171–4186. NAACL.

Ji, S., Zhang, T., Ansari, L., Fu, J., Tiwari, P., and Cambria, E. (2022). MentalBERT: Publicly available pretrained language models for mental healthcare. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 7184–7190. European Language Resources Association.

Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., and Kang, J. (2020). Biobert: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics, 36(4):1234–1240.

Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., and Neubig, G. (2023). Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing. ACM Comput. Surv., 55(9).

Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692.

Low, D. M., Rumker, L., Talkar, T., Torous, J., Cecchi, G., and Ghosh, S. S. (2020). Natural language processing reveals vulnerable mental health support groups and heightened health anxiety on reddit during covid-19: Observational study. Journal of medical Internet research, 22(10):e22635.

Oliveira, B. S. N., do Rêgo, L. G. C., Peres, L., da Silva, T. L. C., and de Macêdo, J. A. F. (2022). Processamento de linguagem natural via aprendizagem profunda. Sociedade Brasileira de Computação.

OMS (2023). Organização mundial de saúde (oms): Desordem depressiva (depressão). [link]. Último Acesso 28 de Mai 2024.

Pan, S. J. and Yang, Q. (2009). A survey on transfer learning. IEEE Transactions on knowledge and data engineering, 22(10):1345–1359.

Poświata, R. and Perełkiewicz, M. (2022). Opi@ lt-edi-acl2022: Detecting signs of depression from social media text using roberta pre-trained language models. In Proceedings of the Second Workshop on Language Technology for Equality, Diversity and Inclusion, pages 276–282.

Sampath, K. and Durairaj, T. (2022). Data set creation and empirical analysis for detecting signs of depression from social media postings. In International Conference on Computational Intelligence in Data Science, pages 136–151. Springer.

Santos, W. R. d., de Oliveira, R. L., and Paraboni, I. (2023). Setembrobr: a social media corpus for depression and anxiety disorder prediction. Language Resources and Evaluation, pages 1–28.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: pretrained bert models for brazilian portuguese. In Intelligent Systems: 9th Brazilian Conference, BRACIS 2020, Rio Grande, Brazil, October 20–23, 2020, Proceedings, Part I 9, pages 403–417. Springer.

Uban, A.-S., Chulvi, B., and Rosso, P. (2021). An emotion and cognitive based analysis of mental health disorders from social media data. Future Generation Computer Systems, 124:480–494.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.

Wagner Filho, J. A., Wilkens, R., Idiart, M., and Villavicencio, A. (2018). The brwac corpus: a new open resource for brazilian portuguese. In Proceedings of the eleventh international conference on language resources and evaluation (LREC 2018).

Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., et al. (2016). Google’s neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144.
Publicado
14/10/2024
HERCULANO, Ayrton Douglas Rodrigues; SOUZA, Damires Yluska de Souza; REGO, Alex Sandro da Cunha. DepreBERTBR: Um Modelo de Linguagem Pré-treinado para o Domínio da Depressão no Idioma Português Brasileiro. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 181-194. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2024.240807.