Avaliação de arquiteturas de síntese de fala generativa com abordagens de espectrograma e fim-a-fim em cenários low-resource para clonagem de voz

Bruno C. dos S. Ribeiro; Gustavo H. dos S. Figueiredo; Leonardo H. da S. Correia; Mário Uliani Neto; Fernando O. Runstein; Ricardo P. V. Violato; Marcus Lima

doi:10.5753/stil.2024.245291

Bruno C. dos S. Ribeiro CPQD
Gustavo H. dos S. Figueiredo CPQD
Leonardo H. da S. Correia CPQD
Mário Uliani Neto CPQD
Fernando O. Runstein CPQD
Ricardo P. V. Violato CPQD
Marcus Lima PUC-Campinas

DOI: https://doi.org/10.5753/stil.2024.245291

Resumo

O artigo compara modelos de síntese de fala com arquiteturas baseadas em espectrograma e fim-a-fim, com o objetivo de determinar a capacidade de clonagem de voz em cenário low-resource. Foram avaliados conjuntos de treinamento de adaptação com diferentes quantidades de fala para clonagem de uma voz alvo, e o tempo necessário para realizar o treinamento. O modelo VITS mostrou-se mais eficiente, alcançando os melhores resultados no teste de qualidade perceptual no cenário low-resource com dados no idioma português, e completou o treinamento em menos tempo, quando comparado com o Tacotron2.

Palavras-chave: síntese de fala, clonagem de voz, low-resource

Referências

Casanova, E., Junior, A. C., Shulby, C., Oliveira, F. S. d., Teixeira, J. P., Ponti, M. A., and Aluísio, S. (2022). Tts-portuguese corpus: a corpus for speech synthesis in brazilian portuguese. Language Resources and Evaluation, 56(3):1043–1055. [link] DOI: 10.48550/arXiv.2005.05144

Hayashi, T., Yamamoto, R., Yoshimura, T., Wu, P., Shi, J., Saeki, T., Ju, Y., Yasuda, Y., Takamichi, S., and Watanabe, S. (2021). Espnet2-tts: Extending the edge of tts research. DOI: 10.48550/arXiv.2110.07840

Kim, J., Kong, J., and Son, J. (2021). Conditional variational autoencoder with adversarial learning for end-to-end text-to-speech. DOI: 10.48550/arXiv.2106.06103

Kong, J., Kim, J., and Bae, J. (2020). Hifi-gan: Generative adversarial networks for efficient and high fidelity speech synthesis. [link] DOI: 10.48550/arXiv.2010.05646

Lux, F., Koch, J., and Vu, N. T. (2022). Low-resource multilingual and zero-shot multispeaker tts. DOI: 10.48550/arXiv.2210.12223

Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang, Y., Skerry-Ryan, R., Saurous, R. A., Agiomyrgiannakis, Y., and Wu, Y. (2018). Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. DOI: 10.1109/ICASSP.2018.8461368

van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., and Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. DOI: 10.48550/arXiv.1609.03499

Wang, Y., Skerry-Ryan, R., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., Yang, Z., Xiao, Y., Chen, Z., Bengio, S., Le, Q., Agiomyrgiannakis, Y., Clark, R., and Saurous, R. A. (2017). Tacotron: Towards end-to-end speech synthesis DOI: 10.48550/arXiv.1703.10135