Processamento e Transcrição de Voz em Língua Portuguesa voltado para Assistente Inteligente
Resumo
Inserido no contexto de assistentes inteligentes, e parte do projeto Assistente Distribuída Avançada (ADA), este trabalho propõe a adaptação de um sistema de reconhecimento de fala que permita a interação do usuário por meio de comandos de voz, transcrevendo seus comandos para texto em língua portuguesa. É adotada uma arquitetura de sistema baseada em modelos ocultos de Markov. O sistema preliminar registrou taxa de palavras erradas de 44.3%. Posteriormente, este sistema terá uma etapa de otimização de hiper-parâmetros do modelo acústico e experimentos com abordagens mais complexas, assim como a introdução de um modelo de linguagem específico para assistentes.Referências
Ashby, S., Barbosa, S., Brandão, S., Ferreira, J. P., Janssen, M., Silva, C., and Viaro, M. E. (2012). A rule based pronunciation generator and regional accent databank for portuguese. In Thirteenth Annual Conference of the International Speech Communication Association.
Batista, C. T., Dias, A. L., and Neto, N. C. S. (2018). Baseline acoustic models for brazilian portuguese using kaldi tools. In IberSPEECH, pages 77–81.
Bisani, M. and Ney, H. (2008). Joint-sequence models for grapheme-to-phoneme conversion. Speech communication, 50(5):434–451.
Coucke, A., Saade, A., Ball, A., Bluche, T., Caulier, A., Leroy, D., Doumouro, C., Gisselbrecht, T., Caltagirone, F., Lavril, T., et al. (2018). Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces. arXiv preprint arXiv:1805.10190.
Gales, M., Young, S., et al. (2008). The application of hidden markov models in speech recognition. Foundations and Trends R(cid:13) in Signal Processing, 1(3):195–304.
Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., et al. (2011). The kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society.
Stolcke, A. (2002). Srilm-an extensible language modeling toolkit. In Seventh internati- onal conference on spoken language processing.
Batista, C. T., Dias, A. L., and Neto, N. C. S. (2018). Baseline acoustic models for brazilian portuguese using kaldi tools. In IberSPEECH, pages 77–81.
Bisani, M. and Ney, H. (2008). Joint-sequence models for grapheme-to-phoneme conversion. Speech communication, 50(5):434–451.
Coucke, A., Saade, A., Ball, A., Bluche, T., Caulier, A., Leroy, D., Doumouro, C., Gisselbrecht, T., Caltagirone, F., Lavril, T., et al. (2018). Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces. arXiv preprint arXiv:1805.10190.
Gales, M., Young, S., et al. (2008). The application of hidden markov models in speech recognition. Foundations and Trends R(cid:13) in Signal Processing, 1(3):195–304.
Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., et al. (2011). The kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society.
Stolcke, A. (2002). Srilm-an extensible language modeling toolkit. In Seventh internati- onal conference on spoken language processing.
Publicado
19/08/2020
Como Citar
DE ANDRADE, Acácio; MOURA, Shayenne; GOLDMAN, Alfredo.
Processamento e Transcrição de Voz em Língua Portuguesa voltado para Assistente Inteligente. In: ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL DE SÃO PAULO, 1. , 2020, São Paulo.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2020
.
p. 1-4.