FakeBrAccent: uma Base de Dados de Deepfakes de Áudios em Português com Diferentes Sotaques Brasileiros

  • Erick M. B. Santos IFES
  • Katarina Veljovic IFES
  • Karin S. Komati IFES

Resumo


O artigo apresenta a base de dados FakeBrAccent, voltada para a detecção de deepfakes de áudio em português do Brasil. Criada a partir do corpus BrAccent, a base inclui amostras originais e versões sintéticas geradas com a ferramenta Speechify (zero-shot TTS e clonagem de voz). Contempla cinco sotaques brasileiros — sulista, nordestino, fluminense, carioca e baiano — e está disponível em duas versões: FakeBrAccent-B, balanceada (746 áudios), e FakeBrAccent-D, desbalanceada (1.545 áudios).

Referências

Azizah, K. (2024). Zero-shot voice cloning text-to-speech for dysphonia disorder speakers. IEEE Access, 12:63528–63547.

Ballesteros, D. M., Rodriguez, Y., and Renza, D. (2020). A dataset of histograms of original and fake voice recordings (H-Voice). Data in brief, 29:105331.

Batista, N. A. R. et al. (2018). Detecção automática de sotaques regionais brasileiros: A importância da validação cross-datasets. In Anais do XXXVI Simpósio Brasileiro de Telecomunicações e Processamento de Sinais (SBrT), pages 939–944, Campina Grande, PB. Sociedade Brasileira de Telecomunicações.

Cuccovillo, L., Papastergiopoulos, C., Vafeiadis, A., Yaroshchuk, A., Aichroth, P., Votis, K., and Tzovaras, D. (2022). Open challenges in synthetic speech detection. In 2022 IEEE International Workshop on Information Forensics and Security (WIFS), pages 1–6. IEEE.

Khanjani, Z., Watson, G., and Janeja, V. P. (2023). Audio deepfakes: A survey. Frontiers in Big Data, 5:1001063.

Lopes, T., Andrade, J., and Komati, K. (2021). Comparação de serviços em nuvem para transcrição de fala na língua portuguesa em áudios com sotaques regionais brasileiros. In Anais da IX Escola Regional de Informática de Goiás, pages 96–109, Porto Alegre, RS, Brasil. SBC.

Seow, J. W., Lim, M. K., Phan, R. C., and Liu, J. K. (2022). A comprehensive overview of deepfake: Generation, detection, datasets, and opportunities. Neurocomputing (Amsterdam), 513:351–371.
Publicado
16/10/2025
SANTOS, Erick M. B.; VELJOVIC, Katarina; KOMATI, Karin S.. FakeBrAccent: uma Base de Dados de Deepfakes de Áudios em Português com Diferentes Sotaques Brasileiros. In: ESCOLA REGIONAL DE INFORMÁTICA DO ESPÍRITO SANTO (ERI-ES), 10. , 2025, Espírito Santo/ES. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 166-169. DOI: https://doi.org/10.5753/eries.2025.16040.