Síntese Gestual Zero-Shot: Transferência de Estilo Comportamental Multimodal de Poses Tridimensionais

  • Anna Carolina Souza Bispo GPITCS / UNIT
  • Breno Ramon Santana dos Santos GPITCS
  • Erick Marck de Barros Menezes GPITCS / UNIT / INCT-SANI
  • Lívia Pereira Guimarães GPITCS
  • Melyssa Maria Macedo Tatum GPITCS
  • Rafael José Mecenas Silva GPITCS / UNIT
  • Victor Flávio Araujo GPITCS / UNIT / INCT-SANI

Resumo


Introdução: Este trabalho apresenta um modelo de síntese multimodal para a geração de gestos corporais tridimensionais a partir de dados de fala e texto. Objetivo: O objetivo deste trabalho é projetar e avaliar um modelo de síntese gestual multimodal capaz de gerar movimentos 3D a partir de fala e texto, permitindo a transferência de estilo zero-shot entre diferentes falantes, visando desacoplar o conteúdo semântico do estilo do locutor. Metodologia ou Etapas: A arquitetura neural, baseada em GANs, emprega um codificador de conteúdo, um codificador de estilo e um gerador sequência-a-sequência para desacoplar efetivamente o conteúdo semântico das características estilísticas do falante. O modelo processa características acústicas de Mel-espectrogramas e representações semânticas de vetores BERT, utilizando uma perda de reconstrução fisicamente fundamentada com uma camada diferenciável de Forward Kinematics (FK) para minimizar o erro posicional das articulações no espaço 3D, combinada com uma representação de rotação 6D contínua para movimentos estáveis. Resultados: Os experimentos demonstram a geração de gestos coerentes, validados por métricas quantitativas e análise qualitativa, confirmando a capacidade do modelo de transferir estilo preservando a intenção semântica.
Palavras-chave: Síntese de gestos, Geração de gestos, Redes Adversariais Generativas (GANs), Movimentos 3D, Transferência de estilo

Referências

Ahuja, C., Lee, D. W., Ishii, R., e Morency, L.-P. (2020). No gestures left behind: Learning relationships between spoken language and freeform gestures. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 1884–1895.

Bishop, C. (2006). Pattern Recognition and Machine Learning, volume 16. Springer.

Campbell-Kibler, K. (2009). The nature of sociolinguistic perception. Language Variation and Change, 21(1):135–156.

Cassell, J., Vilhjálmsson, H., e Bickmore, T. (2001). Beat: the behavior expression animation toolkit. ACM SIGGRAPH, 2001:477–486.

Ferstl, Y., Neff, M., e McDonnell, R. (2021). Expressgesture: Expressive gesture generation from speech through database matching. Computer Animation and Virtual Worlds, page e2016.

Kebe, G. Y., Birlikci, M. D., Boudin, A., Ishii, R., Girard, J. M., e Morency, L.-P. (2024). Gestics: A multimodal corpus for studying gesture synthesis in two-party interactions with contextualized speech. In Proceedings of the ACM International Conference on Intelligent Virtual Agents (IVA ’24), page 10, Glasgow, United Kingdom. ACM.

Kucherenko, T., Hasegawa, D., Kaneko, N., Henter, G. E., e and, H. K. (2021). Moving fast and slow: Analysis of representations and post-processing in speech-driven automatic gesture generation. International Journal of Human–Computer Interaction, 37(14):1300–1316.

Lugrin, B., Pelachaud, C., e Traum, D. (2022). The Handbook on Socially Interactive Agents: 20 years of Research on Embodied Conversational Agents, Intelligent Virtual Agents, and Social Robotics Volume 2: Interactivity, Platforms, Application. ACM.

Mcneill, D. (1994). Hand and mind: What gestures reveal about thought. Bibliovault OAI Repository, the University of Chicago Press, 27.

Mehta, S., Tu, R., Alexanderson, S., Beskow, J., Székely, , e Henter, G. E. (2024). Unified speech and gesture synthesis using flow matching. arXiv preprint arXiv:2310.05181.

Obin, N., Lacheret, A., e Rodet, X. (2011). Stylization and trajectory modelling of short and long term speech prosody variations. In Interspeech 2011, pages 2029–2032.

Yoon, Y., Ko, W.-R., Jang, M., Lee, J., Kim, J., e Lee, G. (2018). Robots learn social skills: End-to-end learning of co-speech gesture generation for humanoid robots. arXiv preprint arXiv:1810.12541.

Zhou, Y., Barnes, C., Lu, J., Yang, J., e Li, H. (2019). On the continuity of rotation representations in neural networks. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5745–5753.
Publicado
30/09/2025
BISPO, Anna Carolina Souza; SANTOS, Breno Ramon Santana dos; MENEZES, Erick Marck de Barros; GUIMARÃES, Lívia Pereira; TATUM, Melyssa Maria Macedo; SILVA, Rafael José Mecenas; ARAUJO, Victor Flávio. Síntese Gestual Zero-Shot: Transferência de Estilo Comportamental Multimodal de Poses Tridimensionais. In: WORKSHOP MAGICA - GAMES NA GRADUAÇÃO E NA EDUCAÇÃO BÁSICA - SIMPÓSIO BRASILEIRO DE JOGOS E ENTRETENIMENTO DIGITAL (SBGAMES), 14. , 2025, Salvador/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 492-497. DOI: https://doi.org/10.5753/sbgames_estendido.2025.14888.