Transferindo movimentos humanos de vídeos para robôs com Aprendizado por Reforço Profundo

  • Nayari Marrie Lessa Unesp / Deutsches Forschungszentrum fuer Kuenstliche Intelligenz
  • Esther Luna Colombini Unicamp
  • Alexandre da Silva Simões Unesp

Resumo


Treinar robôs para aprender políticas complexas tem se mostrado um desafio monumental. Nesse contexto, o Aprendizado por Imitação (IL) tem como foco extrair políticas de referência de um especialista e transferi-las para robôs com a máxima fidelidade possível, geralmente através do Aprendizado por Reforço Profundo (DRL). Este trabalho apresenta um novo processo de imitação para robôs bípedes, composto por três fases distintas: i) extração de poses de especialistas humanos a partir de vídeos; ii) geração de trajetórias de referência de movimento para o robô; e iii) treinamento do robô utilizando DRL para adaptar os movimentos considerando a anatomia e dinâmica específicas do robô. Nos experimentos conduzidos em um ambiente simulado, um robô humanoide foi capaz de chutar uma bola a uma distância de 1 metro, utilizando como referência vídeos de movimentos similares realizados por humanos e extraídos do YouTube.
Palavras-chave: Aprendizado por Imitação, Robôs humanoides, Aprendizado por Reforço Profundo, Estimativa de postura humana

Referências

Arulkumaran, K., Deisenroth, M. P., Brundage, M., and Bharath, A. A. (2017). Deep reinforcement learning: A brief survey. IEEE Signal Processing Magazine, 34(6):26–38.

Benbrahim, H. and Franklin, J. A. (1997). Biped dynamic walking using reinforcement learning. Robotics and Autonomous Systems, 22(3-4):283–302.

Cao, Z., Hidalgo, G., Simon, T., Wei, S.-E., and Sheikh, Y. (2019). Openpose: realtime multi-person 2d pose estimation using part affinity fields. IEEE transactions on pattern analysis and machine intelligence, 43(1):172–186.

Chenatti, S. F., Previato, G., Tomazela, R., Kopp, V. G., Begazo, M. F. T., Salaro, L. G., Rohmer, E., Colombini, E. L., and da Silva Simoes, A. (2018). Larocs+ unesp team description paper for the ieee humanoid racing 2018. Latin American Robotics Competition IEEE Humanoid Racing.

Cheng, Z., Liu, L., Liu, A., Sun, H., Fang, M., and Tao, D. (2021). On the guaranteed almost equivalence between imitation learning from observation and demonstration. IEEE Transactions on Neural Networks and Learning Systems.

Dong, H., Ding, Z., and Zhang, S. (2020). Deep Reinforcement Learning: Fundamentals, Research and Applications. Springer Nature.

Haarnoja, T., Zhou, A., Hartikainen, K., Tucker, G., Ha, S., Tan, J., Kumar, V., Zhu, H., Gupta, A., Abbeel, P., et al. (2018). Soft actor-critic algorithms and applications. arXiv preprint arXiv:1812.05905.

Hudson, E., Warnell, G., Torabi, F., and Stone, P. (2021). Skeletal feature compensation for imitation learning with embodiment mismatch. arXiv preprint arXiv:2104.07810.

Kanazawa, A., Zhang, J. Y., Felsen, P., and Malik, J. (2019). Learning 3d human dynamics from video. In Computer Vision and Pattern Recognition (CVPR).

Kim, D., Lee, J., and Sentis, L. (2017). Robust dynamic locomotion via reinforcement learning and novel whole body controller. arXiv preprint arXiv:1708.02205.

Lessa, N. M., Colombini, E. L., and Da Silva Simões, A. (2021a). Soccerkicks: a dataset of 3d dead ball kicks reference movements for humanoid robots. In 2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC), pages 3472–3478.

Lessa, N. M., Colombini, E. L., and Simões, A. D. S. (2021b). Soccerkicks: a dataset of 3d dead ball kicks reference movements for humanoid robots. In 2021 IEEE International Conference on Systems, Man, and Cybernetics (SMC), pages 3472–3478. IEEE.

Peng, X. B., Kanazawa, A., Malik, J., Abbeel, P., and Levine, S. (2018). Sfv: Reinforcement learning of physical skills from videos. ACM Transactions on Graphics (TOG), 37(6):1–14.

Peng, X. B., Ma, Z., Abbeel, P., Levine, S., and Kanazawa, A. (2021). Amp: Adversarial motion priors for stylized physics-based character control. ACM Trans. Graph., 40(4).

Soares, Y. C. P. et al. (2020). Deep reinforcement learning for bipedal locomotion: Aprendizado por reforço profundo para locomoção bípede. PhD thesis, Universidade Estadual de Campinas, Instituto de Computação.

Tejada Begazo, M. F. (2020). A learning-based model-free controller for decoupled humanoid robot walking.

Tomazela, R. M. (2019). A combined model-based planning and model-free reinforcement learning approach for biped locomotion: Uma abordagem combinada de planejamento baseado em modelo e aprendizado por reforço para locomoção bípede. Master’s thesis, Universidade Estadual de Campinas, Instituto de Computação, Campinas,SP.

Xiu, Y., Li, J., Wang, H., Fang, Y., and Lu, C. (2018). Pose Flow: Efficient online pose tracking. In BMVC.
Publicado
09/10/2023
Como Citar

Selecione um Formato
LESSA, Nayari Marrie; COLOMBINI, Esther Luna; SIMÕES, Alexandre da Silva. Transferindo movimentos humanos de vídeos para robôs com Aprendizado por Reforço Profundo. In: CONCURSO DE TESES E DISSERTAÇÕES EM ROBÓTICA - CTDR (MESTRADO) - SIMPÓSIO BRASILEIRO DE ROBÓTICA E SIMPÓSIO LATINO-AMERICANO DE ROBÓTICA (SBR/LARS), 15. , 2023, Salvador/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 13-24. DOI: https://doi.org/10.5753/sbrlars_estendido.2023.233374.