Aspects of the development of a morphosyntactic tagger for the Asuriní do Trocará language

  • Izabel Nunes Dias UnB
  • Thiago Blanch Pires UnB

Abstract


This article addresses the preservation of indigenous languages and the development of Natural Language Processing (NLP) tools for linguistic analysis, with a focus on the Asuriní do Trocará language. Based on a compiled corpus, the research implemented a computational morphosyntactic tagger to identify arguments and predicates in the language. Linguistic patterns, manual labeling and data processing with Python were explored. After evaluation, the tagger was submitted to the F-Score calculation, suggesting the need for future optimization.

References

Alencar, L. F. de. (2024). Uma gramática computacional de um fragmento do nheengatu. Revista de Estudos da Linguagem, [S. l.], v. 29, n. 3, p. 1717–1777.

Alexandre, D. M.; Araripe, L. F. A.; Gurgel, J. L. (2021). Nheentiquetador: um etiquetador morfossintático para o sintagma nominal do nheengatu. Revista Encontros Universitários da UFC, XL Encontro de Iniciação Científica, v. 6, n. 2.

Asuriní, M.; Rodrigues, A. D.; Cabral, A. S. A. C. (2007). Livro de Relatos Asurini 2. Brasília: LALI/UnB.

Bird, S.; Klein, E.; Loper, E. (2009). Natural language processing with Python: analyzing text with the Natural Language Toolkit. Sebastopol, CA: O’Reilly.

Cabral, A. S. A. C. (2016). Prefixos relacionais no Asuriní do Tocantins. Moara – Revista Eletrônica do Programa de Pós-Graduação em Letras, v. 2, n. 8, p. 7–24.

Cabral, A. S. A. C.; Silva, A. P. do C. e; Sousa, S. A. (2013). Expressão do caso argumentativo em três línguas Tupí-Guaraní: Asuriní do Tocantins, Avá-Canoeiro e Zo’é. In: SILEL, v.3, n.1. Anais. Uberlândia: EDUFU.

Cabral, A. S. A. C. et al. (2011). Esboço gramatical do Asuriní do Tocantins. In: Contribuições para o inventário da língua Asuriní do Tocantins. [S.l.: s.n.], p. 25–35.

Cabral, A. S. A. C.; Rodrigues, A. D. (2003). Dicionário Asuriní do Tocantins–Português. Belém: Universidade Federal do Pará.

Duchier, D.; Parmentier, Y. (2015). High-level methodologies for grammar engineering, introduction to the special issue. Journal of Language Modelling, v. 3, n. 1, p. 5-19.

Freitas, L.; Alexandre, D.; Gurgel, J.; Alencar, L. (2021). Nheentiquetador: um etiquetador morfossintático para o sintagma nominal do nheengatu. Encontros Universitários da UFC, [S. l.], v. 6, n. 2, p. 1481. Disponível em: [link].

GLOBAL action plan of the International Decade of Indigenous Languages (IDIL 2022–2032) – UNESCO Digital Library. (2023). Disponível em: [link]. Acesso em: 14 jul.

Harrison, C. H. (1975). Gramática Asurini: aspectos de uma gramática transformacional e discursos monologados da língua Asurini, família tupi-guarani. Série Linguística, v. 4. Brasília: Summer Institute of Linguistics.

Pimentel, C. (2022). Avaliação de um etiquetador automático para sintagmas verbais da língua Asuriní do Tocantins. In: Congresso de Iniciação Científica da UnB e Congresso de Iniciação Científica do DF, Brasil. Disponível em: [link]. Acesso em: 14 jul. 2023.

Rodrigues, A. D. (2011). Argumento e predicado em Tupinambá. Revista Brasileira de Linguística Antropológica, v. 3, n. 1, p. 93–102.

Rodrigues, A. D. (2001). Sobre a natureza do caso argumentativo. In: QUEIXALOS, Francesc (resp.), Des Noms et des Verbes en Tupí-Guaraní: État de la Question. Studies in Native America Linguistics. München: LINCOM.

Silvério, P. (2023). Um etiquetador para sintagmas nominais da língua Asuriní do Tocantins. In: Congresso de Iniciação Científica da UnB e Congresso de Iniciação Científica do DF, Brasil. Disponível em: [link]. Acesso em: 14 jul. 2023.

Voutilainen, A. (2004). Part-of-speech tagging. In: MITKOV, R. (Org.). The Oxford handbook of computational linguistics. Oxford: Oxford University Press, p. 219–232.
Published
2025-09-29
DIAS, Izabel Nunes; PIRES, Thiago Blanch. Aspects of the development of a morphosyntactic tagger for the Asuriní do Trocará language. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY (STIL), 16. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 618-626. DOI: https://doi.org/10.5753/stil.2025.37864.