Compilation, modernization, and morphosyntactic annotation of a historical nheengatu corpus according to the Universal Dependencies model
Abstract
This work presents the compilation, orthographic adaptation, and morphosyntactic annotation of the Nheengatu variant spoken in the Solimões River region in the 19th century. Nheengatu, the only living language descended from Old Tupi, like many minority languages, lacked syntactically annotated corpora until 2022, the year the UD_Nheengatu-CompLin treebank was released as part of the Universal Dependencies (UD) collection. The findings described here indicate the expansion of this treebank, contributing to the strengthening of resources available for the linguistic description and computational processing of Nheengatu.References
Aguiar, C. (1898). Doutrina christã destinada aos naturaes do amazonas em nhihingatú com traducção portugueza em face. Pap. e Tip. Pacheco, Silva & C., Petrópolis.
Avila, M. T. (2021). Proposta de dicionário nheengatu-português. PhD thesis, Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo.
de Alencar, L. F. (2023). Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 135–145, Porto Alegre, RS, Brasil. SBC.
de Alencar, L. F. (2024a). Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo dependências universais. Texto Livre, 17:e52653.
de Alencar, L. F. (2024b). Aspectos léxico-gramaticais do nheengatu na obra christu muhençáua, de dom josé lourenço. Projeto de pesquisa de Iniciação Científica (PIBIC), não publicado.
de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., and Zeman, D. (2024). Conll-u format. Accessed: 2024-01-09.
de Marneffe, M.-C., Manning, C. D., Nivre, J., and Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2):255–308.
Galves, C., Sandalo, F., de Sena, T. A., and Veronesi, L. (2017). Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, 59(3):631–648.
Martín Rodríguez, L. et al. (2022). Tupían language ressources: Data, tools, analyses. In Melero, M., Sakti, S., and Soria, C., editors, Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on UnderResourced Languages, pages 48–58, Marseille, France. European Language Resources Association.
Sandalo, M. F. S. and Galves, C. M. C. (2023). Anotando sintaticamente uma língua originária do brasil: O problema de anchieta. Cadernos de Estudos Linguísticos, 65(00).
Santos, L. L., Aragon, C. C., and Gerardi, F. (2024). Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, 59(1):1–9.
Tyers, F. M. and Henderson, R. (2021). A corpus of k’iche’ annotated for morphosyntactic structure. In Proceedings of the First Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP).
Avila, M. T. (2021). Proposta de dicionário nheengatu-português. PhD thesis, Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo.
de Alencar, L. F. (2023). Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 135–145, Porto Alegre, RS, Brasil. SBC.
de Alencar, L. F. (2024a). Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo dependências universais. Texto Livre, 17:e52653.
de Alencar, L. F. (2024b). Aspectos léxico-gramaticais do nheengatu na obra christu muhençáua, de dom josé lourenço. Projeto de pesquisa de Iniciação Científica (PIBIC), não publicado.
de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., and Zeman, D. (2024). Conll-u format. Accessed: 2024-01-09.
de Marneffe, M.-C., Manning, C. D., Nivre, J., and Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2):255–308.
Galves, C., Sandalo, F., de Sena, T. A., and Veronesi, L. (2017). Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, 59(3):631–648.
Martín Rodríguez, L. et al. (2022). Tupían language ressources: Data, tools, analyses. In Melero, M., Sakti, S., and Soria, C., editors, Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on UnderResourced Languages, pages 48–58, Marseille, France. European Language Resources Association.
Sandalo, M. F. S. and Galves, C. M. C. (2023). Anotando sintaticamente uma língua originária do brasil: O problema de anchieta. Cadernos de Estudos Linguísticos, 65(00).
Santos, L. L., Aragon, C. C., and Gerardi, F. (2024). Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, 59(1):1–9.
Tyers, F. M. and Henderson, R. (2021). A corpus of k’iche’ annotated for morphosyntactic structure. In Proceedings of the First Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP).
Published
2025-09-29
How to Cite
NOGUEIRA, Antônio Levy Melo; NUNES, Letícia Farias; ALEXANDRE, Dominick Maia; ALENCAR, Leonel Figueiredo de.
Compilation, modernization, and morphosyntactic annotation of a historical nheengatu corpus according to the Universal Dependencies model. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY (STIL), 16. , 2025, Fortaleza/CE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 708-712.
DOI: https://doi.org/10.5753/stil.2025.37876.
