IA na Preservação da Língua Guarani: Um Estudo com Modelos Leves Inspirados no LLaMA em Comunidades Indígenas
Resumo
O desenvolvimento da Inteligência Artificial está modificando a forma como as pessoas interagem com a tecnologia. Em todos os lugares, há uma enxurrada de modelos treinados e disponíveis para uso. Diante dos desafios enfrentados pelas comunidades indígenas, em especial a preservação da língua e das tradições culturais, surge a oportunidade de utilizar a IA, como o modelo LLaMA, especificamente modelos leves como Phi-2, Phi-3-mini e TinyLlama, com o objetivo de apoiar o ensino e a preservação da língua e cultura indígena. Este estudo explora o uso de modelos de linguagem de grande porte (LLMs) no desenvolvimento de um assistente virtual bilíngue (Guarani–Português), dedicado à língua e às tradições Guarani, com o objetivo de apoiar o ensino de crianças e jovens, com foco nas aldeias Tekoha Añetete e Tekoha Itamarã, localizadas em Diamante do Oeste, Paraná.
Referências
FUNAI – Fundação Nacional do Índio, Lições de gramática Nhandewa/Tupi-Guarani, L. D. de Oliveira Djatsy et al., Eds. Brasília, DF: FUNAI, 2018.
IBGE – Instituto Brasileiro de Geografia e Estatística, “Censo demográfico 2022: população residente em territórios indígenas por sexo e idade – resultados do universo. tabela 03,” Rio de Janeiro, 2023, acesso em: 18 maio 2025. [Online]. Available: [link]
S. Isotani et al., “Chatgpt pode ser aliado no processo de ensino-aprendizagem, avalia especialista,” acesso em: 01 maio 2025. [Online]. Available: [link]
E. M. B. Nagoudi, W.-R. Chen, M. Abdul-Mageed, and H. Cavusoglu, “Indt5: A text-to-text transformer for 10 indigenous languages,” 2021, acesso em: 01 maio 2025. [Online]. Available: [link]
A. Lucas, A. Baladón, V. Pardiñas, M. Agüero-Torales, S. Góngora, and L. Chiruzzo, “Grammar-based data augmentation for lowresource languages: The case of guarani-spanish neural machine translation,” in Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics, vol. 1. Mexico City: Association for Computational Linguistics, 2024, pp. 6385–6397, acesso em: 01 maio 2025. [Online]. Available: [link]
L. T. Mota and V. S. de Assis, Populações indígenas no Brasil: histórias, culturas e relações interculturais. Maringá, Brasil: EDUEM, 2008, acesso em: 18 maio 2025. [Online]. Available: [link]
T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S. Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei, “Language models are few-shot learners,” arXiv preprint arXiv:2005.14165, 2020, acesso em: 01 maio 2025. [Online]. Available: [link]
H. Touvron, T. Lavril, G. Izacard, E. Grave, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, and G. Lample, “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023, acesso em: 01 maio 2025. [Online]. Available: [link]
E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen, “Lora: Low-rank adaptation of large language models,” arXiv preprint arXiv:2106.09685, 2021, acesso em: 01 maio 2025. [Online]. Available: [link]
I. Musa, T. Abebe, S. Ndlovu, and J. Adeola, “Lugha-llama: Large language models for african languages,” arXiv preprint arXiv:2504.06536, 2025, acesso em: 01 maio 2025. [Online]. Available: [link]
M. Khan, S. Ahmed, A. Rehman, and F. Ali, “Urdullama 1.0: A pretrained language model for the urdu language,” arXiv preprint arXiv:2502.16961, 2025, acesso em: 01 maio 2025. [Online]. Available: [link]
M. de Souza Oliveira and A. M. A. Maciel, “Proposta de arquitetura utilizando o paradigma soa para o avatar educação,” Revista de Engenharia e Pesquisa Aplicada, vol. 3, no. 1, 2016.
FUNAI – Fundação Nacional do Índio, Lições de gramática Nhandewa-Guarani, C. Marcolino et al., Eds. Campinas, SP: Curt Nimuendajú, 2016.
R. Díaz, D. Díaz, E. Díaz, M. Ruiz-Olazar, and M. A. Torales, “Building a large language model for guarani-jopara? methodology, challenges, and preliminary results,” 2025, acesso em: 2 maio 2025. [Online]. DOI: 10.13140/RG.2.2.32323.52006
B. Deferia, “Uso y aplicación de la inteligencia artificial en el entorno educativo indígena,” Ciencia Latina Revista Científica Multidisciplinar, vol. 8, no. 4, pp. 10 805–10 812, 2024, acesso em: 01 maio 2025. [Online]. DOI: 10.37811/cl_rcm.v8i4.13227
A. C. B. Cabral, “Os guarani – o tempo das andanças acabou? conflitos entre ficar e partir,” Dissertação (Mestrado em Ciências Sociais), Universidade Estadual do Oeste do Paraná, Toledo, 2016, acesso em: 17 maio 2025. [Online]. Available: [link]
