A Data Augmentation and Validation Pipeline for Improving Emotion Classification in Mobile App Reviews

  • Kalidsa B. de Oliveira Universidade Federal de Santa Maria (UFSM)
  • Gabriel M. Lunardi Universidade Federal de Santa Maria (UFSM) https://orcid.org/0000-0001-6655-184X
  • Williamsom Silva Universidade Federal do Cariri (UFCA)
  • Thiago L. T. da Silveira Universidade Federal de Santa Maria (UFSM)
  • Adriano Q. Oliveira Universidade Federal de Santa Maria (UFSM)

Resumo


This paper examines GPT-2 based data augmentation to improve sentiment classification of Portuguese mobile app reviews, employing the BERTimbau model. A pipeline is proposed, integrating synthetic data generation with semantic analysis, UMAP for dimensionality reduction, and HDBSCAN for clustering and validation. Results show validated and balanced synthetic augmentation boosts model performance in sparse or imbalanced data scenarios.
Palavras-chave: Data Augmentation, Emotion Classification, Mobile App Reviews, GPT-2, BERTimbau, Sentiment Analysis, Large Language Models (LLMs), Data Validation, UMAP, HDBSCAN

Referências

Aguiar, M. S. (2025). Comparative analysis of the performance of large language models in the classification of legal texts.

Barbosa, M., Valle, P., Nakamura, W., Guerino, G., Finger, A., Lunardi, G., and Silva, W. (2022). Um estudo exploratório sobre métodos de avaliaçao de user experience em chatbots. In Escola Regional de Engenharia de Software (ERES), pages 21–30. SBC.

Borges, W. A. (2025). Uso do bertimbau para o pré-processamento e agrupamento de comentários de notícias. Informática na Educação: teoria e prática, 28(1):1–20.

Carmo, I., Rêgo, A. L. C., Barreto, M., Schuler, M., Heine, A., Villas, M. V., and Lifschitz, S. (2023). Gerenciamento de dados de redes sociais com análise de redes e modelagem de tópicos. In Anais do Simpósio Brasileiro de Banco de Dados (SBBD).

Costa, R. L. H., Soares, T. S., Lunardi, G. M., Valle, P. H. D., and Silva, W. (2024). Professionals’ perceptions of the interaction between user experience and machine learning. In 20th Brazilian Symposium on Information Systems, pages 1–9.

de Almeida Neto, J. A. and de Melo, T. (2023). Identificação de temas em comentários de restaurantes usando bert e modelos de linguagem generativa. In Anais do Simpósio Brasileiro de Banco de Dados (SBBD).

de Oliveira, K. B., Lunardi, G. M., and Silva, W. (2025). Avaliação de sentimentos de aplicativos: Uma comparação entre modelos de linguagem de grande escala. In Escola Regional de Banco de Dados (ERBD), pages 145–148. SBC.

Ding, B., Qin, C., Zhao, R., Luo, T., Li, X., Chen, G., Xia, W., Hu, J., Luu, A. T., and Joty, S. (2024). Data augmentation using llms: Data perspectives, learning paradigms and challenges.

Feng, F., Yang, Y., Cer, D., Arivazhagan, N., and Wang, W. (2022). Language-agnostic bert sentence embedding.

Gartner, Inc. (2025). Gartner data & analytics summit 2025 orlando: Destaques do terceiro dia. Orlando, Flórida, 5 de março de 2025.

Moreira, L. S., Lunardi, G. M., de Oliveira Ribeiro, M., Silva, W., and Basso, F. P. (2023). A study of algorithm-based detection of fake news in brazilian election: Is bert the best. IEEE Latin America Transactions, 21(8):897–903.

Murthy, D., Kurz, S. E., Anand, T., Hornick, S., Lakuduva, N., and Sun, J. (2025). Examining hurricane–related social media topics longitudinally and at scale: A transformer-based approach. PLOS ONE, 20(1).

Silva, M. O., Oliveira, G. P., Costa, L. G. L., and Pappa, G. L. (2023). Evaluating domain-adapted language models for governmental text classification tasks in portuguese. In Anais do Simpósio Brasileiro de Banco de Dados (SBBD).

Siqueira, V. X., Costa, R. L. H., Soares, T. S., Lunardi, G. M., and Silva, W. (2024). Dataset anotado de sentimentos a partir de comentários de aplicativos móveis. In Dataset Showcase Workshop (DSW), pages 65–76. SBC.

Soares, T. S., Costa, R. L. H., Soares, E., Calderon, I., Lunardi, G. M., Valle, P. H. D., Guedes, G. T., and Silva, W. (2025). Machine learning-assisted tools for user experience evaluation: A systematic mapping study. Simpósio Brasileiro de Sistemas de Informaçao (SBSI), pages 379–388.

Sujana, Y. and Kao, H.-Y. (2023). Lida: Language-independent data augmentation for text classification. IEEE Access, 11:10933–10945.

Wankhade, M., Rao, A. C. S., and Kulkarni, C. (2022). A survey on sentiment analysis methods, applications, and challenges. Artificial Intelligence Review, 55(7):5731–5780.
Publicado
29/09/2025
OLIVEIRA, Kalidsa B. de; LUNARDI, Gabriel M.; SILVA, Williamsom; SILVEIRA, Thiago L. T. da; OLIVEIRA, Adriano Q.. A Data Augmentation and Validation Pipeline for Improving Emotion Classification in Mobile App Reviews. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 865-871. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247774.