Sentiment Analysis in Portuguese Texts from Online Health Community Forums: Data, Model and Evaluation

  • Yohan Bonescki Gumiel UFMG / PUCPR
  • Isabela Lee UFMG
  • Tayane Arantes Soares UFMG
  • Thiago Castro Ferreira UFMG
  • Adriana Pagano UFMG


Este estudo apresenta dados e modelos para a Análise de Sentimentos de textos em português sobre Diabetes Mellitus. O corpus é composto por 1290 posts, extraídos de forums online sobre tópicos de saúde e anotados por dois estudandes de acordo com 3 categorias (e.g. Positivo, Neutro e Negativo). A avaliação de classificadores de Aprendizagem de Máquina (classificadores Support Vector Machine, Decision Tree, Random Forest e Logistic Regression) tradicionais e estado-da-arte (modelos baseados em BERT) mostrou a vantagem em performance do segundo tipo como esperado. Os dados e modelos estão disponíveis para a comunidade por meio de solicitação.


