Aspects of the development of a morphosyntactic tagger for the Asuriní do Trocará language
Abstract
This article addresses the preservation of indigenous languages and the development of Natural Language Processing (NLP) tools for linguistic analysis, with a focus on the Asuriní do Trocará language. Based on a compiled corpus, the research implemented a computational morphosyntactic tagger to identify arguments and predicates in the language. Linguistic patterns, manual labeling and data processing with Python were explored. After evaluation, the tagger was submitted to the F-Score calculation, suggesting the need for future optimization.
References
Alexandre, D. M.; Araripe, L. F. A.; Gurgel, J. L. (2021). Nheentiquetador: um etiquetador morfossintático para o sintagma nominal do nheengatu. Revista Encontros Universitários da UFC, XL Encontro de Iniciação Científica, v. 6, n. 2.
Asuriní, M.; Rodrigues, A. D.; Cabral, A. S. A. C. (2007). Livro de Relatos Asurini 2. Brasília: LALI/UnB.
Bird, S.; Klein, E.; Loper, E. (2009). Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol, CA: O’Reilly.
Cabral, A. S. A. C. (2016). Prefixos relacionais no Asuriní do Tocantins. Moara – Revista Eletrônica do Programa de Pós-Graduação em Letras, v. 2, n. 8, p. 7–24.
Cabral, A. S. A. C.; Silva, A. P. do C. e; Sousa, S. A. (2013). Expressão do caso argumentativo em três línguas Tupí-Guaraní: Asuriní do Tocantins, Avá-Canoeiro e Zo’é. In: SILEL, v.3, n.1. Anais. Uberlândia: EDUFU.
Cabral, A. S. A. C. et al. (2011). Esboço gramatical do Asuriní do Tocantins. In: Contribuições para o inventário da língua Asuriní do Tocantins. [S.l.: s.n.], p. 25–35.
Cabral, A. S. A. C.; Rodrigues, A. D. (2003). Dicionário Asuriní do Tocantins–Português. Belém: Universidade Federal do Pará.
Duchier, D.; Parmentier, Y. (2015). High-level methodologies for grammar engineering, introduction to the special issue. Journal of Language Modelling, v. 3, n. 1, p. 5-19.
Freitas, L.; Alexandre, D.; Gurgel, J.; Alencar, L. (2021). Nheentiquetador: um etiquetador morfossintático para o sintagma nominal do nheengatu. Encontros Universitários da UFC, [S. l.], v. 6, n. 2, p. 1481. Disponível em: [link].
GLOBAL action plan of the International Decade of Indigenous Languages (IDIL 2022–2032) – UNESCO Digital Library. (2023). Disponível em: [link]. Acesso em: 14 jul.
Harrison, C. H. (1975). Gramática Asurini: aspectos de uma gramática transformacional e discursos monologados da língua Asurini, família tupi-guarani. Série Linguística, v. 4. Brasília: Summer Institute of Linguistics.
Pimentel, C. (2022). Avaliação de um etiquetador automático para sintagmas verbais da língua Asuriní do Tocantins. In: Congresso de Iniciação Científica da UnB e Congresso de Iniciação Científica do DF, Brasil. Disponível em: [link]. Acesso em: 14 jul. 2023.
Rodrigues, A. D. (2011). Argumento e predicado em Tupinambá. Revista Brasileira de Linguística Antropológica, v. 3, n. 1, p. 93–102.
Rodrigues, A. D. (2001). Sobre a natureza do caso argumentativo. In: QUEIXALOS, Francesc (resp.), Des Noms et des Verbes en Tupí-Guaraní: État de la Question. Studies in Native America Linguistics. München: LINCOM.
Silvério, P. (2023). Um etiquetador para sintagmas nominais da língua Asuriní do Tocantins. In: Congresso de Iniciação Científica da UnB e Congresso de Iniciação Científica do DF, Brasil. Disponível em: [link]. Acesso em: 14 jul. 2023.
Voutilainen, A. (2004). Part-of-speech tagging. In: MITKOV, R. (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, p. 219–232.
