Evaluation of speaker identification performance with the X-Vector and ECAPA models and different speech corpora

  • José G. A. de Almeida CPQD
  • Marcelo P. Duarte CPQD
  • Thiago Kosciuk CPQD
  • Mário Uliani Neto CPQD
  • Fernando O. Runstein CPQD
  • Ricardo P. V. Violato CPQD
  • Marcus Lima PUC-Campinas

Resumo


A performance de sistemas de identificação de locutor em condições diferentes daquelas do treinamento do modelo é de interesse para se prever o comportamento do sistema em condições reais. Neste artigo avaliou-se o desempenho dos modelos de identificação de locutores ECAPA-TDNN e X-Vector com três corpora distintos: RedDots, VCTK e CN-Celeb. Estes corpora tem condições de gravação, tipo de fala e idiomas diferentes, sendo ideais para estresse dos modelos. Usando as métricas TOP 1, TOP 3 e TOP 5 e EER, os resultados mostram que o ECAPA-TDNN superou o X-Vector em todas as condições testadas, mas ambos os modelos foram impactados pela língua da base de dados, pelo tipo de elocução e pela variabilidade de fala.
Palavras-chave: Biometria de voz, reconhecimento de locutor, identificação de locutor

Referências

Desplanques, B., Thienpondt, J., and Demuynck, K. (2020). ECAPA-TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification. In Meng, H., Xu, B., and Zheng, T. F., editors, Interspeech 2020, pages 3830–3834. ISCA. arXiv:2005.07143.

Fairbanks, G. (1960). Voice and articulation drillbook 2nd edn. New York: Harper & Row. pages 124-139.ISBN-10:0060419903.

Gao, S., Cheng, M.-M., Zhao, K., Zhang, X., Yang, M.-H., and Torr, P. H. S. (2019). Res2net: A new multi-scale backbone architecture. IEEE TPAMI. arXiv:1904.01169.

Lee, K. A., Larcher, A., Guangsen, W., Patrick, K., Brummer, N., van Leeuwen, D., Aronowitz, H., Kockmann, M., Vaquero, C., Ma, B., Li, H., Stafylakis, T., Alam, J., Swart, A., and Perez, J. (2015). The the reddots data collection for speaker recognition. In Interspeech, pages 2996–3000.

Li, L., Liu, R., Kang, J., Fan, Y., Cui, H., Cai, Y., Vipperla, R., Zheng, T. F., and Wang, D. (2022). Cn-celeb: multi-genre speaker recognition. Speech Communication.

Nagrani, A., Chung, J. S., Xie, W., and Zisserman, A. (2019). Voxceleb: Large-scale speaker verification in the wild. Computer Science and Language.

Ravanelli, M., Parcollet, T., Plantinga, P., Rouhe, A., Cornell, S., Lugosch, L., Subakan, C., Dawalatabad, N., Heba, A., Zhong, J., Chou, J.-C., Yeh, S.-L., Fu, S.-W., Liao, C.-F., Rastorgueva, E., Grondin, F., Aris, W., Na, H., Gao, Y., Mori, R. D., and Bengio, Y. (2021). SpeechBrain: A general-purpose speech toolkit. arXiv:2106.04624.

Snyder, D., Garcia-Romero, D., McCree, A., Sell, G., Povey, D., and Khudanpur, S. (2018a). Spoken Language Recognition using X-vectors. In Proc. The Speaker and Language Recognition Workshop (Odyssey 2018), pages 105–111.

Snyder, D., Garcia-Romero, D., Sell, G., Povey, D., and Khudanpur, S. (2018b). X-vectors: Robust dnn embeddings for speaker recognition. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 5329–5333.

Snyder, D., Ghahremani, P., Povey, D., Garcia-Romero, D., Carmiel, Y., and Khudanpur, S. (2016). Deep neural network-based speaker embeddings for end-to-end speaker verification. In 2016 IEEE Spoken Language Technology Workshop (SLT), pages 165–170.

Veaux, C., Yamagishi, J., and King, S. (2013). The voice bank corpus: Design, collection and data analysis of a large regional accent speech database. In Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE), 2013 International Conference, United States. Institute of Electrical and Electronics Engineers (IEEE). DOI: 10.1109/ICSDA.2013.6709856.

Veaux, C., Yamagishi, J., and MacDonald, K. (2019). Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit (version 0.92). DOI: 10.7488/ds/2645.

Weinberger, S. (2015). Speech accent archive. [link]. George Mason University.
Publicado
17/11/2024
ALMEIDA, José G. A. de; DUARTE, Marcelo P.; KOSCIUK, Thiago; ULIANI NETO, Mário; RUNSTEIN, Fernando O.; VIOLATO, Ricardo P. V.; LIMA, Marcus. Evaluation of speaker identification performance with the X-Vector and ECAPA models and different speech corpora. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 21. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 284-292. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2024.245053.

Artigos mais lidos do(s) mesmo(s) autor(es)