Integração de Inteligência Artificial e Clonagem de Voz para Manter a Autenticidade e Aperfeiçoar a Interação do Robô Otto com Crianças com TEA

Maria Vittória S. R. Palma; Aldalice R. Dias; Nathalia D. Borges; Thais Reggina Kempner; Luciana C. L. de Faria Borges; Eunice P. dos Santos Nunes

doi:10.5753/eri-mt.2024.245842

Maria Vittória S. R. Palma UFMT
Aldalice R. Dias UFMT
Nathalia D. Borges UFMT
Thais Reggina Kempner UFMT
Luciana C. L. de Faria Borges UFMT
Eunice P. dos Santos Nunes UFMT

DOI: https://doi.org/10.5753/eri-mt.2024.245842

Resumo

A clonagem de voz por Inteligência Artificial (IA) tem apresentado avanços significativos, com diversas aplicações nas áreas de entretenimento, tecnologias assistivas e educação. Este estudo, em particular, foca no uso da clonagem de voz como ferramenta para melhorar a interação e reabilitação de crianças com Transtorno do Espectro Autista (TEA). O objetivo foi explorar como essa tecnologia pode ser utilizada para expandir o vocabulário do robô terapêutico Otto, através de softwares como Eleven Labs e Audacity, que permitem a criação de vozes naturais. Utilizando técnicas de IA, a voz de um menino foi recriada de forma a manter a naturalidade e adequação dos áudios, resultando em uma interação vocal mais rica e promovendo avanços significativos no tratamento das crianças.

Referências

Amador, C., Dario Junior, R., Rossetes, R., Josue, J., Suárez, M., & Ángel, O. (2021). Implementación de clonador de voz en tiempo real para la lengua española usando algoritmos de aprendizaje profundo. Barranquilla, Universidad Del Norte.

Andrade, F., Fagundes, E. M., Van Der, I., et al. (2023). Resultado do uso do robô Otto em terapias com crianças autistas. Semana Acadêmica de Engenharia da Automação e Computação – SEMAC, Cuiabá. Even3, 1(978-85-5722-948-8), 1. [link].

Axelsson, M., Racca, M., Weir, D., & Kyrki, V. (2019). A participatory design process of a robotic tutor of assistive sign language for children with autism. In 2019 28th IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) (pp. 1-8). IEEE.

Barbosa, P. A. (2012). Conhecendo melhor a prosódia: aspectos teóricos e metodológicos daquilo que molda nossa enunciação. Revista de Estudos da Linguagem, 20(1), 11-27.

Casanova, E., Santos, V. G. D., Svartman, F. R. F., Leite, M. Q., Candido Junior, A., Marcacini, R. M., Aluísio, S. M. (2023). Recursos para o processamento de fala. Processamento de linguagem natural: conceitos, técnicas e aplicações em português.

Chen, W., & Jiang, X. (2023). Voice-Cloning Artificial-Intelligence Speakers Can Also Mimic Human-Specific Vocal Expression. DOI: 10.20944/preprints202312.0807.v1

Cristófaro-Silva, T., & Guimarães, D. O. (2013). A aquisição da linguagem falada e escrita: o papel da consciência linguística. Letras De Hoje, 48(3), 316–323.

Dias, A. R., Marques, F. A. P., Borges, N. D., Kempner, T. R., Borges, L. C. L. de F., & Nunes, E. P. dos S. (2023). Tecnologias assistivas: Cartões RFID como ferramenta de auxílio na comunicação de crianças com TEA. 12ª Escola Regional de Informática de Mato Grosso (ERI-MT), Cuiabá/MT. Anais (pp. 97-106). Porto Alegre: SBC.

Galdino, J. C., & Oliveira Jr, M. (2023). Prosódia e síntese da fala: uma revisão integrativa da literatura. Revista da ABRALIN, 1-15.

Gomes, E., Pedroso, F. S., & Wagner, M. B. (2008). Hipersensibilidade auditiva no transtorno do espectro autístico. Pró-Fono Revista de Atualização Científica, 20, 279-284.

Jaworski, N., & Thibeault, M. D. (2011). Technology for teaching: Audacity. Free and open-source software. Music Educators Journal, 98(2), 39-40.

Kuo, F. Y., Aryal, S., Degottex, G., Kang, S., Lanchantin, P., & Ouyang, I. (2018, December). Data selection for improving naturalness of TTS voices trained on small found corpuses. In 2018 IEEE Spoken Language Technology Workshop (SLT) (pp. 319-324). IEEE.

Neekhara, P., Hussain, S., Dubnov, S., Koushanfar, F., & McAuley, J. (2021, November). Expressive neural voice cloning. Asian Conference on Machine Learning (pp. 252-267). PMLR.

Otto-Meyer, S., Krizman, J., White-Schwoch, T., & Kraus, N. (2018). Children with autism spectrum disorder have unstable neural responses to sound. Experimental Brain Research, 236, 733-743.

Rebouças, G. R. B. S., Neves, I. V. D. S., Lima, E. M., Kempner, T. R., Nunes, E. P. S., & Borges, L. C. L. F. (2023). O potencial da robótica no tratamento terapêutico de crianças com Transtorno do Espectro Autista. SBC.

Riera, PO, Passano, N., Paez, D., Bach, F., Pupkin, I., Sacerdoti, E., ... & San Martín, H. (2023). Implementação e Avaliação de um Sistema de Clonagem de Voz Rio de la Plata para Assistência na Comunicação Oral. Conferência de Acústica, Áudio e Som (JAAS), Universidade Nacional de Tres de Febrero.

Rosa, A. C. G. (2023). A tutela da voz no mundo da inteligência artificial: aspectos atuais da sua regulamentação no Brasil e na Europa (Trabalho de Conclusão de Curso, Universidade Federal do Rio de Janeiro). Pantheon.

Salviato, J. V. (2023). Geração semi-automática de audiodescrição : utilização de Inteligência Artificial na narração. Bdm.unb.br. [link].

Seong, J., Lee, W., & Lee, S. (2021). Síntese de fala multilíngue para clonagem de voz. Em 2021 IEEE International Conference on Big Data and Smart Computing (BigComp) (pp. 313-316). IEEE.

Zen, H., Senior, A., & Schuster, M. (2016). Listen, attend and spell: A neural network for large vocabulary speech recognition. In Proceedings of the 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4778-4782).