Evaluation of speaker identification performance with the X-Vector and ECAPA models and different speech corpora

  • José G. A. de Almeida CPQD
  • Marcelo P. Duarte CPQD
  • Thiago Kosciuk CPQD
  • Mário Uliani Neto CPQD
  • Fernando O. Runstein CPQD
  • Ricardo P. V. Violato CPQD
  • Marcus Lima PUC-Campinas


A performance de sistemas de identificação de locutor em condições diferentes daquelas do treinamento do modelo é de interesse para se prever o comportamento do sistema em condições reais. Neste artigo avaliou-se o desempenho dos modelos de identificação de locutores ECAPA-TDNN e X-Vector com três corpora distintos: RedDots, VCTK e CN-Celeb. Estes corpora tem condições de gravação, tipo de fala e idiomas diferentes, sendo ideais para estresse dos modelos. Usando as métricas TOP 1, TOP 3 e TOP 5 e EER, os resultados mostram que o ECAPA-TDNN superou o X-Vector em todas as condições testadas, mas ambos os modelos foram impactados pela língua da base de dados, pelo tipo de elocução e pela variabilidade de fala.
Palavras-chave: Biometria de voz, reconhecimento de locutor, identificação de locutor


ALMEIDA, José G. A. de; DUARTE, Marcelo P.; KOSCIUK, Thiago; ULIANI NETO, Mário; RUNSTEIN, Fernando O.; VIOLATO, Ricardo P. V.; LIMA, Marcus. Evaluation of speaker identification performance with the X-Vector and ECAPA models and different speech corpora. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 21. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 284-292. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2024.245053.

