Comparação de Serviços em Nuvem para Transcrição de Fala na Língua Portuguesa em áudios com Sotaques Regionais Brasileiros

  • Thalles Vargas Ribeiro Lopes Instituto Federal do Espírito Santo
  • Jefferson Oliveira Andrade Instituto Federal do Espírito Santo
  • Karin S. Komati Instituto Federal do Espírito Santo

Resumo


Neste trabalho, foi realizada uma análise de dois serviços em nuvem, Google Cloud e Wit.ai, que realizam a transcrição de áudio em língua portuguesa, com o objetivo de determinar qual é a melhor ferramenta quando submetida aos diferentes sotaques brasileiros. Foi utilizada a base de dados Braccent, em um conjunto de 1.648 áudios, com sete sotaques: nortista, baiano, fluminense, mineiro, carioca, nordestino e sulista. A média da métrica de Levenshtein Normalizado para o Wit.ai é de 0,96, e para o Google Cloud é de 0,89, e em ambas as ferramentas os piores resultados foram para o sotaque carioca. Ao final, o Wit.ai apresentou resultados melhores em todos os cenários, além de transcrever os símbolos de pontuação.

Referências

Ahmed, A. et al. (2019). Vfnet: A convolutional architecture for accent classification. In 2019 IEEE 16th India Council International Conference (INDICON), pages 1–4. IEEE.

Batista, N. A. R. (2019). Estudo sobre identificação automática de sotaques regionais brasileiros baseada em modelagens estatísticas e técnicas de aprendizado de máquina. Dissertação, Curso de Mestrado em Engenharia Elétrica, na Área de Telecomunicações e Telematica, Faculdade de Engenharia Elétrica e de Computação, Universidade Esta-dual de Campinas, Campinas.

Batista, N. A. R. et al. (2018). Detecção automática de sotaques regionais brasileiros: A importancia da validação cross-datasets. In Anais do XXXVI Simposio Brasileiro de Telecomunicações e Processamento de Sinais (SbrT), pages 939–944, Campina Grande, PB. Sociedade Brasileira de Telecomunicações.

Beijering, K., Gooskens, C., and Heeringa, W. (2008). Predicting intelligibility and perceived linguistic distance by means of the levenshtein algorithm. Linguistics in the Netherlands, 25(1):13–24.

Guan, N., Zhou, Y., Tian, L., Sun, G., and Shi, J. (2011). Qos guaranteed resource block allocation algorithm for lte systems. In 2011 IEEE 7th International Conference on Wireless and Mobile Computing, Networking and Communications (WiMob), pages 307–312.

Biadsy, F., Hirschberg, J., and Habash, N. (2009). Spoken arabic dialect identification using phonotactic modeling. In Proceedings of the eacl 2009 workshop on computational approaches to semitic languages, pages 53–61.

Cieri, C., Miller, D., and Walker, K. (2004). The fisher corpus: a resource for the next generations of speech-to-text. In LREC, volume 4, pages 69–71.

de Lima, M., Coelho, B., and Takigawa, F. (2021). Ferramentas e recursos disponíveis para reconhecimento de fala em portugues brasileiro. Anais do Computer on the Beach,12:475–479.

Iinuma, N. M. and de Oliveira Igarashi, M. (2019). Speech-to-text em ligações telefônicas. In Proceedings of Brazilian Technology Symposium 2019 (BTSym’19), volume 1.

Juang, B.-H. and Rabiner, L. R. (2005). Automatic speech recognition – a brief history of the technology development. Georgia Institute of Technology. Atlanta Rutgers University and the University of California. Santa Barbara, 1:67.

Kessler, B. (1995). Computational dialectology in irish gaelic. arXiv preprint cmp-lg/9503002.

Lazaridis, A., el Khoury, E., Goldman, J.-P., Avanzi, M., Marcel, S., and Garner, P. N. (2014). Swiss french regional accent identification. In Odyssey.

Lima, J. R., da Costa Chagas, L. B., de Lira Tavares, O., and Cury, D. (2015). Re-conhecimento de voz para inclusao de deficientes visuais em ambientes virtuais de aprendizagem. Nuevas Ideas en Informatica Educativa TISE, pages 23–29.

López Herrera, G., Quesada Quirós, L., and Guerrero Blanco, L. A. (2017). Alexa vs. siri vs. cortana vs. google assistant: a comparison of speech-based natural user interfaces. In International Conference on Applied Human Factors and Ergonomics, pages 241–250. Springer.

Opidi, A. (2019). Top 10 best speech recognition apis: Google speech, ibm watson, spe-echapi, and others. [link]. Acesso em: 02 dez. 2020.

Raju, A., Hedayatnia, B., Liu, L., Gandhe, A., Khatri, C., Metallinou, A., Venkatesh, A., and Rastrow, A. (2018). Contextual language model adaptation for conversational agents. arXiv preprint arXiv:1806.10215.

Salau, A. O., Olowoyo, T. D., and Akinola, S. O. (2020). Accent classification of the three major nigerian indigenous languages using 1d cnn lstm network model. In Advances in Computational Intelligence Techniques, pages 1–16. Springer.

Sharan, R. V. and Moir, T. J. (2016). An overview of applications and advancements in automatic sound recognition. Neurocomputing, 200:22–34.

Shi, X. et al. (2021). The accented english speech recognition challenge 2020: open data-sets, tracks, baselines, results and methods. In ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 6918–6922. IEEE.

Viglino, T., Motlicek, P., and Cernak, M. (2019). End-to-end accented speech recognition. In INTERSPEECH, pages 2140–2144.

Wang, W., Zhang, C., and Wu, X. (2020). Sar-net: A end-to-end deep speech accent recognition network. arXiv preprint arXiv:2011.12461.

Weninger, F. et al. (2019). Deep learning based mandarin accent identification for accent robust ASR. In Proceedings of INTERSPEECH, pages 510–514.

Ynoguti, C. (1999). Reconhecimento de Fala Contínua Utilizando Modelos Ocultos de Markov. PhD thesis, Faculdade de Engenharia Elétrica, Unicamp.

Zelasko, P., Szymanski, P., Mizgajski, J., Szymczak, A., Carmiel, Y., and Dehak, N. (2018). Punctuation prediction model for conversational speech. arXiv preprint arXiv:1807.00543.

Zhang, A. (2019). Speechrecognition 3.8.1. https://pypi.org/project/SpeechRecognition/. Acesso em: 01 nov. 2020.

Zhang, Z. et al. (2021). Accent recognition with hybrid phonetic features. arXiv preprint arXiv:2105.01920.
Publicado
25/10/2021
LOPES, Thalles Vargas Ribeiro; ANDRADE, Jefferson Oliveira; KOMATI, Karin S.. Comparação de Serviços em Nuvem para Transcrição de Fala na Língua Portuguesa em áudios com Sotaques Regionais Brasileiros. In: ESCOLA REGIONAL DE INFORMÁTICA DE GOIÁS (ERI-GO), 9. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 96-109. DOI: https://doi.org/10.5753/erigo.2021.18436.