Avaliação do Desempenho de Ferramentas de Transcrição de Áudio em Português para Análise de Dados da Web

Jonatas Santos; Marcelo M. R. Araujo; Josemar Caetano; Yago Santos; Julio C. S. Reis; Ana P. C. Silva; Jussara M. Almeida

doi:10.5753/brasnam.2023.230512

Jonatas Santos UFMG
Marcelo M. R. Araujo UFMG
Josemar Caetano UFMG
Yago Santos UFV
Julio C. S. Reis UFV
Ana P. C. Silva UFMG
Jussara M. Almeida UFMG

DOI: https://doi.org/10.5753/brasnam.2023.230512

Resumo

Neste trabalho apresentamos uma avaliação do desempenho de ferramentas de transcrição de áudio em Português utilizados para análise de dados da Web. Para isso, exploramos um conjunto de dados de acesso público, e realizamos análises a partir de duas dimensões principais: número (total) de falhas e precisão. Nossos resultados apresentam descobertas interessantes que podem ser úteis para guiar pesquisadores na escolha de métodos de transcrição de áudio para estudos focados no idioma Português.

Referências

Filippidou, F. and Moussiades, L. (2020). A benchmarking of ibm, google and wit automatic speech recognition systems. In IFIP Int’l Conference AIAI.

Guerra, P. A. C., Silveira, S. R., Bertolini, C., Parreira, F. J., and Ulbricht, V. R. (2020). Aplicativo mobile para avaliar a acessibilidade de objetos de aprendizagem utilizando um sistema especialista. Revista Educação Especial, 33:1–26.

Kolobov, R., Okhapkina, O., Omelchishina, O., Platunov, A., Bedyakin, R., Moshkin, V., Menshikov, D., and Mikhaylovskiy, N. (2021). Mediaspeech: Multilanguage asr benchmark and dataset. arXiv preprint arXiv:2103.16193.

Lops, P., Jannach, D., Musto, C., Bogers, T., and Koolen, M. (2019). Trends in content-based recommendation. User Modeling and User-Adapted Interaction, 29(2):239–249.

Maros, A., Almeida, J., Benevenuto, F., and Vasconcelos, M. (2020). Analyzing the use of audio messages in whatsapp groups. In Proc. of the WWW.

McCleary, L. and Viotti, E. (2007). Transcrição de dados de uma língua sinalizada: um estudo piloto da transcrição de narrativas na língua de sinais brasileira (lsb).

Qiang, J., Qian, Z., Li, Y., Yuan, Y., and Wu, X. (2020). Short text topic modeling techniques, applications, and performance: a survey. IEEE TKDE.

Ratcliff, J. W. and Metzener, D. E. (1988). Pattern-matching-the gestalt approach. Dr Dobbs Journal, 13(7):46.

Resende, G., Melo, P., Sousa, H., Messias, J., Vasconcelos, M., Almeida, J., and Benevenuto, F. (2019). (mis)information dissemination in whatsapp: Gathering, analyzing and countermeasures. In Proc. of the WWW.

Riggs, E. E. and Knobloch-Westerwick, S. (2022). Beyond the text: Testing narrative persuasion mechanisms with audio messages. Mass Communication and Society.

Rumsey, F. (2012). Spatial audio. Routledge.

Saha, P., Mathew, B., Garimella, K., and Mukherjee, A. (2021). “short is the road that leads from fear to hate”: Fear speech in indian whatsapp groups. In Proc. of the WWW.

Sampaio, M. X., Magalhães, R. P., da Silva, T. L. C., Cruz, L. A., de Vasconcelos, D. R., de Macêdo, J. A. F., and Ferreira, M. G. F. (2021). Evaluation of automatic speech recognition systems. In Proc. of the SBBD.

Verma, J. P., Agrawal, S., Patel, B., and Patel, A. (2016). Big data analytics: Challenges and applications for text, audio, video, and social media data. IJSCAI, 5(1):41–51.

Wang, Y., Luan, H., Yuan, J., Wang, B., and Lin, H. (2020). Laix corpus of chinese learner english: Towards a benchmark for l2 english asr. In Proc. of the INTERSPEECH.

Avaliação do Desempenho de Ferramentas de Transcrição de Áudio em Português para Análise de Dados da Web

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)