Modelo de Classificação Automática de Frases Faladas com Abordagem em Redes Neurais Convolucionais
Resumo
O artigo apresenta um modelo de classificação automática de frases faladas para o português utilizando redes neurais convolucionais (CNNs). A metodologia envolve a análise de espectrogramas MFCCs como entrada para a CNN. Os resultados do modelo foram analisados em termos de precisão, recall, f-score e acurácia para diferentes categorias. O estudo conclui que, embora o modelo se mostre com desempenho promissor em algumas classificações, ele ainda apresenta desafios significativos na identificação de frases canônicas e anti topicalizadas, necessitando de mais dados de áudios e ajustes futuros.
Referências
Barbosa, P. A. (2022). Manual de Prosódia Experimental, 1 ed, Editora da Abralin.
Berlinck, R. A.; Duarte, M. E. L. and Oliveira, M. (2009). Predicação. In Castilho, A. T., Kato, M. A., Nascimento, M., Gramática do português culto falado no Brasil, Campinas, Editora da Unicamp. Casanova et al. (2024). Recursos para o Processamento de Fala. In Caseli, H. M. and Nunes, M.G.V. (org.) Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, 2 ed, BPLN. Disponível em: [link].
Catarino, M. H (2025). Redes Neurais. Rio de Janeiro, Editora Freitas Bastos.
Lira, Z. (2009). A entoação modal em cinco falares do Nordeste brasileiro, Tese (Doutorado) UFPB, João Pessoa.
Lucente, L. (2022). Notação Entoacional. In Oliveira Júnior, M. Prosódia, Prosódias, Editora Contexto, pages 45-66.
Pontes, E. (1987). O Tópico no Português do Brasil. Campinas, Editora Pontes.
Raso, T.; Teixeira, B.; Barbosa, P. (2020). Modelling automatic detection of prosodic boundaries for Brazilian Portuguese spontaneous speech. Journal of Speech Sciences, Campinas, SP, v. 9, n. 00, pages 105–128. DOI: 10.20396/joss.v9i00.14957. Disponível em: [link].
Srivastava, N. et al. (2014). Dropout: A Simple Way to Prevent Neural Networks from Overfitting, Journal of Machine Learning Research, 15, pages 1929-1958. [link].
Wibawa, I.D.G.Y.A; Darmawan, I.D.M.B.A (2021). Implementation of audio recognition using mel frequency cepstrum coefficient and dynamic time warping in wirama praharsini, Journal of Physics: Conference Series, DOI: 10.1088/1742-6596/1722/1/012014.
Wightman, C.W.; Ostendorf, M. (1994). Automatic labeling of prosodic patterns, EEE Transactions on Speech and Audio Processing, 2(4), pages 469–481.
Wagner, A. (2008). Automatic labeling of prosody, ITRW on Experimental Linguisriucs, ExLing 2008, 25-27 August 2008, Athens, Greece. Disponível em: [link].
