Avaliação do uso de embeddings para o reconhecimento de emoções na fala

  • Pedro Munhoz PUCRS
  • Guilherme Cavazzotto PUCRS
  • Larissa Guder PUCRS
  • Luan Dopke PUCRS
  • Dalvan Griebler PUCRS

Resumo


O presente artigo tem como objetivo avaliar o uso de métodos de extração de atributos baseados em embeddings para a tarefa de reconhecimento de emoções. Para isso, foi utilizado o conjunto de dados IEMOCAP e 9 modelos classificadores foram treinados e testados com 11 conjuntos de atributos diferentes. Como resultado, foi observado que o modelo trillsson5 de extração de atributos resultou na combinação de melhor acurácia, o que sugere que os modelos baseados em embeddings podem superar os demais na tarefa.

Referências

Busso, C., Bulut, M., Lee, C.-C., Kazemzadeh, A., Mower, E., Kim, S., Chang, J. N., Lee, S., and Narayanan, S. S. (2008). Iemocap: Interactive emotional dyadic motion capture database. Language resources and evaluation, 42(4):335–359.

Feng, T., Hebbar, R., and Narayanan, S. (2024). Trust-ser: On the trustworthiness of fine-tuning pre-trained speech embeddings for speech emotion recognition. In ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 11201–11205.

Guder, L., Aires, J., Meneguzzi, F., and Griebler, D. (2024). Dimensional Speech Emotion Recognition from Bimodal Features. In Anais do XXIV Simpósio Brasileiro de Computação Aplicada à Saúde, pages 579–590, Porto Alegre, RS, Brasil. SBC.

Hashem, A., Arif, M., and Alghamdi, M. (2023). Speech emotion recognition approaches: A systematic review. Speech Communication, 154:102974.

Lieskovská, E., Jakubec, M., Jarina, R., and Chmulík, M. (2021). A review on speech emotion recognition using deep learning and attention mechanism. Electronics, 10(10):1163.

Purohit, T., Vlasenko, B., and Magimai-Doss, M. (2023). Implicit phonetic information modeling for speech emotion recognition. In INTERSPEECH 2023, Interspeech, pages 1883–1887. Interspeech Conference, Dublin, IRELAND, AUG 20-24, 2023.

Russell, J. (1980). A circumplex model of affect. Journal of personality and social psychology, 39:1161–1178.

Shor, J. and Venugopalan, S. (2022). Trillsson: Distilled universal paralinguistic speech representations. arXiv preprint arXiv:2203.00236.
Publicado
12/11/2025
MUNHOZ, Pedro; CAVAZZOTTO, Guilherme; GUDER, Larissa; DOPKE, Luan; GRIEBLER, Dalvan. Avaliação do uso de embeddings para o reconhecimento de emoções na fala. In: ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL DA REGIÃO SUL (ERAMIA-RS), 1. , 2025, Porto Alegre/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 268-271. DOI: https://doi.org/10.5753/eramiars.2025.16638.