Automatic Sentence Classification Model Using Convolutional Neural Networks
Abstract
The article presents an automatic classification model of spoken sentences for Portuguese using convolutional neural networks (CNNs). The methodology involves the analysis of MFCC spectrograms as input to the CNN, treating the acoustic analysis. The model results are analyzed in terms of precision, recall, f-score, and accuracy for diff erent categories. The study concludes that, although the model shows promising performance in some classifications, it still presents significant challenges in identifying canonical and anti-topic sentences, needing more audio data and future adjustments.
References
Barbosa, P. A. (2022). Manual de Prosódia Experimental, 1 ed, Editora da Abralin.
Berlinck, R. A.; Duarte, M. E. L. and Oliveira, M. (2009). Predicação. In Castilho, A. T., Kato, M. A., Nascimento, M., Gramática do português culto falado no Brasil, Campinas, Editora da Unicamp. Casanova et al. (2024). Recursos para o Processamento de Fala. In Caseli, H. M. and Nunes, M.G.V. (org.) Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, 2 ed, BPLN. Disponível em: [link].
Catarino, M. H (2025). Redes Neurais. Rio de Janeiro, Editora Freitas Bastos.
Lira, Z. (2009). A entoação modal em cinco falares do Nordeste brasileiro, Tese (Doutorado) UFPB, João Pessoa.
Lucente, L. (2022). Notação Entoacional. In Oliveira Júnior, M. Prosódia, Prosódias, Editora Contexto, pages 45-66.
Pontes, E. (1987). O Tópico no Português do Brasil. Campinas, Editora Pontes.
Raso, T.; Teixeira, B.; Barbosa, P. (2020). Modelling automatic detection of prosodic boundaries for Brazilian Portuguese spontaneous speech. Journal of Speech Sciences, Campinas, SP, v. 9, n. 00, pages 105–128. DOI: 10.20396/joss.v9i00.14957. Disponível em: [link].
Srivastava, N. et al. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting, Journal of Machine Learning Research, 15, pages 1929-1958. [link].
Wibawa, I.D.G.Y.A; Darmawan, I.D.M.B.A (2021). Implementation of audio recognition using mel frequency cepstrum coefficient and dynamic time warping in wirama praharsini, Journal of Physics: Conference Series, DOI: 10.1088/1742-6596/1722/1/012014.
Wightman, C.W.; Ostendorf, M. (1994). Automatic labeling of prosodic patterns, EEE Transactions on Speech and Audio Processing, 2(4), pages 469–481.
Wagner, A. (2008). Automatic labeling of prosody, ITRW on Experimental Linguisriucs, ExLing 2008, 25-27 August 2008, Athens, Greece. Disponível em: [link].
