Universal Dependencies for 19th-Century Nheengatu from the Lower Amazon Region

  • Dominick Maia Alexandre UFC
  • Leonel Figueiredo de Alencar UFC

Resumo


We present the morphosyntactic annotation of Nheengatu as spoken in the 19th century in the Lower Amazon region. The annotated data expand the UD Nheengatu-CompLin treebank, the first for Nheengatu in the Universal Dependencies project, by incorporating forms and syntactic patterns characteristic of that region and time. We describe the corpus source, the orthographic normalization process, and the main annotation strategies used. So far, 345 sentences have been annotated, with 310 already integrated into the current version of the treebank. This historical data annotation enhances the lexical and morphosyntactic coverage, supporting the documentation and computational modeling of Nheengatu.

Referências

Avila, M. T. (2021). Proposta de dicionário nheengatu-português. PhD thesis, Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo.

Borges, L. C. (1996). O nheengatú: uma língua amazônica. Papia, 4(2):44–55.

da Cruz, A. (2011). Fonologia e gramática do nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa. LOT, Utrecht.

da Silva, D. P. G. and Pardo, T. A. S. (2024). Grammar induction for Brazilian indigenous languages. In Gamallo, P., Claro, D., Teixeira, A., Real, L., Garcia, M., Oliveira, H. G., and Amaro, R., editors, Proceedings of the 16th International Conference on Computational Processing of Portuguese Vol. 2, pages 64–72, Santiago de Compostela, Galicia/Spain. Association for Computational Lingustics.

de Alencar, L. F. (2021). Uma gramática computacional de um fragmento do nheengatu / A computational grammar for a fragment of nheengatu. Revista de Estudos da Linguagem, 29(3):1717–1777.

de Alencar, L. F. (2023). Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 135–145, Porto Alegre, RS, Brasil. SBC.

de Alencar, L. F. (2024a). Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo dependências universais. Texto Livre, 17:e52653.

de Alencar, L. F. (2024b). A Universal Dependencies treebank for Nheengatu. In Gamallo, P., Claro, D., Teixeira, A. J. S., Real, L., García, M., Oliveira, H. G., and Amaro, R., editors, Proceedings of the 16th International Conference on Computational Processing of Portuguese, PROPOR 2024, Santiago de Compostela, Galicia/Spain, 12-15 March, 2024, volume 2, pages 37–54, Stroudsburg, PA, USA. Association for Computational Linguistics.

de Almeida Navarro, E. (2005). Método Moderno de Tupi Antigo: a Língua do Brasil dos Primeiros Séculos. Global, São Paulo, 3 edition.

de Magalhães, J. V. C. (1876). O selvagem. Typographia da Reforma, Rio de Janeiro.

de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., Zeldes, A., and Zeman, D. (2024). Universal Dependencies Guidelines. Accessed: 2025-08-06.

de Marneffe, M.-C., Manning, C. D., Nivre, J., and Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2):255–308.

Eberhard, D. M., Simons, G. F., and Fennig, C. D., editors (2025). Ethnologue: Languages of the World. SIL International, Dallas, 28 edition.

Freire, J. R. B. (2011). Rio Babel: A história das línguas na Amazônia. EdUERJ, Rio de Janeiro, 2 edition.

Galves, C., Sandalo, F., de Sena, T. A., and Veronesi, L. (2017). Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, 59(3):631–648.

Hartt, C. F. (1872). Notes on the Lingoa Geral or Modern Tupi of the Amazonas. Transactions of the American Philological Association, 3:58–76.

Hartt, C. F. (1938). Notas sobre a língua geral, ou tupímoderno do Amazonas. Anais da Biblioteca Nacional do Rio de Janeiro, LI:305–390. [1929].

Martín Rodríguez, L. et al. (2022). Tupían language ressources: Data, tools, analyses. In Melero, M., Sakti, S., and Soria, C., editors, Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on Under-Resourced Languages, pages 48–58, Marseille, France. European Language Resources Association.

Moore, D. (2014). Historical development of Nheengatu (Língua Geral Amazônica). In Mufwene, S. S., editor, Iberian Imperialism and Language Evolution in Latin America, pages 108–142. University of Chicago Press, Chicago.

Navarro, E. d. A. (2012). O último refúgio da língua geral no Brasil. Estudos Avançados, 26(76):245–254.

Navarro, E. d. A. (2015). Dicionário tupi antigo, a língua indígena clássica do Brasil: vocabulário português-tupi e dicionário tupi-português, tupinismos no português do Brasil, etimologias de topônimos e antropônimos de origem tupi. Global.

Navarro, E. d. A. (2016). Curso de Língua Geral (nheengatu ou tupi moderno): A língua das origens da civilização amazônica. Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, São Paulo, 2 edition.

Navarro, E. d. A., Ávila, M. T., and Trevisan, R. G. (2017). O Nheengatu, entre a vida e a morte: A tradução literária como possível instrumento de sua revitalização lexical. Revista Letras Raras, 6(2):9–29.

Park, H. H., Schwartz, L., and Tyers, F. M. (2021). Expanding universal dependencies for polysynthetic languages: A case of st. lawrence island yupik. In Proceedings of the 1st Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP), Online. Association for Computational Linguistics.

Pinhanez, C., Cavalin, P., and Nogima, J. (2024). Human evaluation of the usefulness of fine-tuned English translators for the Guarani mbya and nheengatu indigenous languages. In Gamallo, P., Claro, D., Teixeira, A., Real, L., Garcia, M., Oliveira, H. G., and Amaro, R., editors, Proceedings of the 16th International Conference on Computational Processing of Portuguese Vol. 2, pages 32–36, Santiago de Compostela, Galicia/Spain. Association for Computational Lingustics.

Popel, M., Žabokrtský, Z., and Vojtek, M. (2017). Udapi: Universal API for Universal Dependencies. In Proceedings of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017), pages 96–101, Gothenburg, Sweden. Association for Computational Linguistics.

Pugh, R. and Tyers, F. (2024). A Universal Dependencies treebank for Highland Puebla Nahuatl. In Duh, K., Gomez, H., and Bethard, S., editors, Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pages 1393–1403, Mexico City, Mexico. Association for Computational Linguistics.

Rodrigues, A. D. (1996). As línguas gerais sul-americanas. Papia, 4(2):6–18.

Rodrigues, A. D. and Cabral, A. S. A. C. (2011). A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, 55(2).

Rodrigues, J. B. (1890). Poranduba amazonense ou kochiyma-uara porandub, 18721887. Typ. de G. Leuzinger & Filhos, Rio de Janeiro.

Rueter, J. et al. (2021). Apurinã Universal Dependencies treebank. In Mager, M. et al., editors, Proceedings of the First Workshop on Natural Language Processing for Indigenous Languages of the Americas, pages 28–33, Online. Association for Computational Linguistics.

Sandalo, M. F. S. and Galves, C. M. C. (2023). Anotando sintaticamente uma língua originária do brasil: O problema de anchieta. Cadernos de Estudos Linguísticos, 65(00).

Santos, L. L., Aragon, C. C., and Gerardi, F. (2024). Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, 59(1):1–9.

Seixas, M. J. d. (1853). Vocabulario da lingua indigena geral para o uso do Seminario Episcopal do Pará. Typ. de Mattos e Compª., Pará.

Studart, J. (1926). Ligeiras noções de língua geral. Revista do Instituto do Ceará, 40:26–38.

Thomas, G. (2019). Universal Dependencies for Mbyá Guaraní. In Proceedings of the Third Workshop on Universal Dependencies (UDW, SyntaxFest 2019), pages 70–77, Paris, France. Association for Computational Linguistics.

Tyers, F. M. and Henderson, R. (2021). A corpus of K’iche’ annotated for morphosyntactic structure. In Proceedings of the First Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP).

Vasquez, A. et al. (2018). Toward Universal Dependencies for Shipibo-konibo. In Proceedings of the Second Workshop on Universal Dependencies (UDW 2018), pages 151–161, Brussels, Belgium. Association for Computational Linguistics.

Zariquiey, R., Alvarado, C., Echevarría, X., Gomez, L., Gonzales, R., Illescas, M., Oporto, S., Blum, F., Oncevay, A., and Vera, J. (2022). Building an endangered language resource in the classroom: Universal Dependencies for kakataibo. In Calzolari, N., Béchet, F., Blache, P., Choukri, K., Cieri, C., Declerck, T., Goggi, S., Isahara, H., Maegaard, B., Mariani, J., Mazo, H., Odijk, J., and Piperidis, S., editors, Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 3840–3851, Marseille, France. European Language Resources Association.
Publicado
29/09/2025
ALEXANDRE, Dominick Maia; ALENCAR, Leonel Figueiredo de. Universal Dependencies for 19th-Century Nheengatu from the Lower Amazon Region. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 16. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 588-598. DOI: https://doi.org/10.5753/stil.2025.37861.