Integration of Artificial Intelligence and Voice Cloning to Maintain Authenticity and Enhance Interaction with Otto Robot for Children with ASD

  • Maria Vittória S. R. Palma UFMT
  • Aldalice R. Dias UFMT
  • Nathalia D. Borges UFMT
  • Thais Reggina Kempner UFMT
  • Luciana C. L. de Faria Borges UFMT
  • Eunice P. dos Santos Nunes UFMT

Abstract


Voice cloning through Artificial Intelligence (AI) has advanced significantly, with applications in entertainment, assistive technology, and education. This study, in particular, focuses on the use of voice cloning as a tool to improve the interaction and rehabilitation of children with Autism Spectrum Disorder (ASD). The objective was to explore how this technology can be used to expand the vocabulary of the therapeutic robot Otto, through software such as Eleven Labs and Audacity, which allow the creation of natural voices. Using AI techniques, a boy's voice was recreated in a way that maintained the naturalness and appropriateness of the audios, resulting in a richer vocal interaction and promoting significant advances in the treatment of children.

References

Amador, C., Dario Junior, R., Rossetes, R., Josue, J., Suárez, M., & Ángel, O. (2021). Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo. Barranquilla, Universidad Del Norte.

Andrade, F., Fagundes, E. M., Van Der, I., et al. (2023). Resultado do uso do robô Otto em terapias com crianças autistas. Semana Acadêmica de Engenharia da Automação e Computação – SEMAC, Cuiabá. Even3, 1(978-85-5722-948-8), 1. [link].

Axelsson, M., Racca, M., Weir, D., & Kyrki, V. (2019). A participatory design process of a robotic tutor of assistive sign language for children with autism. In 2019 28th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) (pp. 1-8). IEEE.

Barbosa, P. A. (2012). Conhecendo melhor a prosódia: aspectos teóricos e metodológicos daquilo que molda nossa enunciação. Revista de Estudos da Linguagem, 20(1), 11-27.

Casanova, E., Santos, V. G. D., Svartman, F. R. F., Leite, M. Q., Candido Junior, A., Marcacini, R. M., Aluísio, S. M. (2023). Recursos para o processamento de fala. Processamento de linguagem natural: conceitos, técnicas e aplicações em português.

Chen, W., & Jiang, X. (2023). Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. DOI: 10.20944/preprints202312.0807.v1

Cristófaro-Silva, T., & Guimarães, D. O. (2013). A aquisição da linguagem falada e escrita: o papel da consciência linguística. Letras De Hoje, 48(3), 316–323.

Dias, A. R., Marques, F. A. P., Borges, N. D., Kempner, T. R., Borges, L. C. L. de F., & Nunes, E. P. dos S. (2023). Tecnologias assistivas: Cartões RFID como ferramenta de auxílio na comunicação de crianças com TEA. 12ª Escola Regional de Informática de Mato Grosso (ERI-MT), Cuiabá/MT. Anais (pp. 97-106). Porto Alegre: SBC.

Galdino, J. C., & Oliveira Jr, M. (2023). Prosódia e síntese da fala: uma revisão integrativa da literatura. Revista da ABRALIN, 1-15.

Gomes, E., Pedroso, F. S., & Wagner, M. B. (2008). Hipersensibilidade auditiva no transtorno do espectro autístico. Pró-Fono Revista de Atualização Científica, 20, 279-284.

Jaworski, N., & Thibeault, M. D. (2011). Technology for teaching: Audacity. Free and open-source software. Music Educators Journal, 98(2), 39-40.

Kuo, F. Y., Aryal, S., Degottex, G., Kang, S., Lanchantin, P., & Ouyang, I. (2018, December). Data selection for improving naturalness of TTS voices trained on small found corpuses. In 2018 IEEE Spoken Language Technology Workshop (SLT) (pp. 319-324). IEEE.

Neekhara, P., Hussain, S., Dubnov, S., Koushanfar, F., & McAuley, J. (2021, November). Expressive neural voice cloning. Asian Conference on Machine Learning (pp. 252-267). PMLR.

Otto-Meyer, S., Krizman, J., White-Schwoch, T., & Kraus, N. (2018). Children with autism spectrum disorder have unstable neural responses to sound. Experimental Brain Research, 236, 733-743.

Rebouças, G. R. B. S., Neves, I. V. D. S., Lima, E. M., Kempner, T. R., Nunes, E. P. S., & Borges, L. C. L. F. (2023). O potencial da robótica no tratamento terapêutico de crianças com Transtorno do Espectro Autista. SBC.

Riera, PO, Passano, N., Paez, D., Bach, F., Pupkin, I., Sacerdoti, E., ... & San Martín, H. (2023). Implementação e Avaliação de um Sistema de Clonagem de Voz Rio de la Plata para Assistência na Comunicação Oral. Conferência de Acústica, Áudio e Som (JAAS), Universidade Nacional de Tres de Febrero.

Rosa, A. C. G. (2023). A tutela da voz no mundo da inteligência artificial: aspectos atuais da sua regulamentação no Brasil e na Europa (Trabalho de Conclusão de Curso, Universidade Federal do Rio de Janeiro). Pantheon.

Salviato, J. V. (2023). Geração semi-automática de audiodescrição : utilização de Inteligência Artificial na narração. Bdm.unb.br. [link].

Seong, J., Lee, W., & Lee, S. (2021). Síntese de fala multilíngue para clonagem de voz. Em 2021 IEEE International Conference on Big Data and Smart Computing (BigComp) (pp. 313-316). IEEE.

Zen, H., Senior, A., & Schuster, M. (2016). Listen, attend and spell: A neural network for large vocabulary speech recognition. In Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4778-4782).
Published
2024-11-07
PALMA, Maria Vittória S. R.; DIAS, Aldalice R.; BORGES, Nathalia D.; KEMPNER, Thais Reggina; BORGES, Luciana C. L. de Faria; NUNES, Eunice P. dos Santos. Integration of Artificial Intelligence and Voice Cloning to Maintain Authenticity and Enhance Interaction with Otto Robot for Children with ASD. In: REGIONAL SCHOOL ON INFORMATICS OF MATO GROSSO (ERI-MT), 13. , 2024, Alto Araguaia/MT. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 102-107. ISSN 2447-5386. DOI: https://doi.org/10.5753/eri-mt.2024.245842.