Restauração de Pontuação em Textos Traduzidos no Idioma pt-BR a partir de Transcrição de Áudios

  • Angel G. de S. Sales IFAM
  • Brenda C. D. Moura IFAM
  • José E. B. de S. Linhares IFAM
  • Fabiann M. D. Barbosa IFAM

Resumo


Este trabalho propõe um modelo para restaurar automaticamente a pontuação em textos coloquiais em português do Brasil, originados de transcrições de áudio, com foco na melhoria da legibilidade e usabilidade em tarefas de PLN. A metodologia envolve duas etapas principais: treinamento e inferência. Utiliza-se o corpus IWSLT (2014–2016), que contém transcrições de palestras TED traduzidas, e um modelo híbrido com Bi-LSTM, self-attention e CRF. O pré-processamento inclui mapeamento de sinais, construção de vocabulário, embeddings GloVe e rede highway. Quatro cenários de avaliação foram aplicados, revelando que a combinação dos dados dos três anos gera os melhores resultados, com melhorias progressivas nas métricas de precisão, recall e F1-score.

Referências

Caseli, H. M. and Nunes, M. G. V., editors (2023). Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português. BPLN. [link].

Chordia, V. (2021). Punktuator: A multilingual punctuation restoration system for spoken and written text. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pages 312–320. Association for Computational Linguistics.

de Lima, T. B., Rodrigues, L., Macario, V., Freitas, E., and Mello, R. F. (2023). Automatic punctuation verification of school students’ essay in portuguese. In Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), pages 58–70. SBC.

de Lima, T. B., Rolim, V., Nascimento, A. C., Miranda, P., Macario, V., Rodrigues, L., Freitas, E., Gašević, D., and Mello, R. F. (2024). Towards explainable automatic punctuation restoration for portuguese using transformers. Expert Systems with Applications, 257:125097.

Gris, L. R. S., Marcacini, R., Junior, A. C., Casanova, E., Soares, A., and Aluísio, S. M. (2023). Evaluating openai’s whisper asr for punctuation prediction and topic modeling of life histories of the museum of the person.

Guerreiro, N. M., Rei, R., and Batista, F. (2021). Towards better subtitles: A multilingual approach for punctuation restoration of speech transcripts. In Expert Systems with Applications, volume 186, page 115740.

Lima, T. B. D., Miranda, P., Mello, R. F., Wenceslau, M., Bittencourt, I. I., Cordeiro, T. D., and José, J. (2022). Sequence labeling algorithms for punctuation restoration in brazilian portuguese texts. In 2022 11th Brazilian Conference( BRACIS), pages 616–630.

Moura, B. C. D., de S. Sales, A. G., de S. Linhares, J. E. B., Barbosa, F. M. D., and Neto, A. A. (2025). Avaliação in-domain e cross-domain em restauração de pontuação utilizando processamento de linguagem natural. Anais do Computer on the Beach, 16:45–52.

Olive, J., Christianson, C., and McCary, J. (2011). Handbook of natural language processing and machine translation: DARPA global autonomous language exploitation. Springer Science & Business Media.

Pennington, J., Socher, R., and Manning, C. D. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP-2014), volume 12, pages 1532–1543.

Srivastava, R. K., Greff, K., and Schmidhuber, J. (2015). Highway networks. arXiv preprint arXiv:1505.00387.
Publicado
29/09/2025
SALES, Angel G. de S.; MOURA, Brenda C. D.; LINHARES, José E. B. de S.; BARBOSA, Fabiann M. D.. Restauração de Pontuação em Textos Traduzidos no Idioma pt-BR a partir de Transcrição de Áudios. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 16. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 374-384. DOI: https://doi.org/10.5753/stil.2025.37839.