Processamento e Transcrição de Voz em Língua Portuguesa voltado para Assistente Inteligente

Acácio de Andrade; Shayenne Moura; Alfredo Goldman

Acácio de Andrade USP
Shayenne Moura USP
Alfredo Goldman USP

Resumo

Inserido no contexto de assistentes inteligentes, e parte do projeto Assistente Distribuída Avançada (ADA), este trabalho propõe a adaptação de um sistema de reconhecimento de fala que permita a interação do usuário por meio de comandos de voz, transcrevendo seus comandos para texto em língua portuguesa. É adotada uma arquitetura de sistema baseada em modelos ocultos de Markov. O sistema preliminar registrou taxa de palavras erradas de 44.3%. Posteriormente, este sistema terá uma etapa de otimização de hiper-parâmetros do modelo acústico e experimentos com abordagens mais complexas, assim como a introdução de um modelo de linguagem específico para assistentes.

Referências

Ashby, S., Barbosa, S., Brandão, S., Ferreira, J. P., Janssen, M., Silva, C., and Viaro, M. E. (2012). A rule based pronunciation generator and regional accent databank for portuguese. In Thirteenth Annual Conference of the International Speech Communication Association.

Batista, C. T., Dias, A. L., and Neto, N. C. S. (2018). Baseline acoustic models for brazilian portuguese using kaldi tools. In IberSPEECH, pages 77–81.

Bisani, M. and Ney, H. (2008). Joint-sequence models for grapheme-to-phoneme conversion. Speech communication, 50(5):434–451.

Coucke, A., Saade, A., Ball, A., Bluche, T., Caulier, A., Leroy, D., Doumouro, C., Gisselbrecht, T., Caltagirone, F., Lavril, T., et al. (2018). Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces. arXiv preprint arXiv:1805.10190.

Gales, M., Young, S., et al. (2008). The application of hidden markov models in speech recognition. Foundations and Trends R(cid:13) in Signal Processing, 1(3):195–304.

Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., et al. (2011). The kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding. IEEE Signal Processing Society.

Stolcke, A. (2002). Srilm-an extensible language modeling toolkit. In Seventh internati- onal conference on spoken language processing.