Compilação, modernização e anotação morfossintática de um corpus histórico do nheengatu segundo o modelo das Dependências Universais

  • Antônio Levy Melo Nogueira UFC
  • Letícia Farias Nunes UFC
  • Dominick Maia Alexandre UFC
  • Leonel Figueiredo de Alencar UFC

Resumo


Este trabalho apresenta a compilação, a adaptação ortográfica e a anotação morfossintática da variante do nheengatu falada na região do rio Solimões no século XIX. O nheengatu, única língua viva descendente do tupi antigo, assim como muitas línguas minoritárias, não dispunha de corpora anotados sintaticamente até 2022, ano em que foi lançado o treebank UD_NheengatuCompLin na coleção Universal Dependencies (UD). As etapas aqui descritas indicam a expansão desse treebank, contribuindo para o fortalecimento dos recursos disponíveis para a descrição linguística e o processamento computacional do nheengatu.

Referências

Aguiar, C. (1898). Doutrina christã destinada aos naturaes do amazonas em nhihingatú com traducção portugueza em face. Pap. e Tip. Pacheco, Silva & C., Petrópolis.

Avila, M. T. (2021). Proposta de dicionário nheengatu-português. PhD thesis, Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo.

de Alencar, L. F. (2023). Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 135–145, Porto Alegre, RS, Brasil. SBC.

de Alencar, L. F. (2024a). Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo dependências universais. Texto Livre, 17:e52653.

de Alencar, L. F. (2024b). Aspectos léxico-gramaticais do nheengatu na obra christu muhençáua, de dom josé lourenço. Projeto de pesquisa de Iniciação Científica (PIBIC), não publicado.

de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., and Zeman, D. (2024). Conll-u format. Accessed: 2024-01-09.

de Marneffe, M.-C., Manning, C. D., Nivre, J., and Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2):255–308.

Galves, C., Sandalo, F., de Sena, T. A., and Veronesi, L. (2017). Annotating a polysynthetic language: From Portuguese to Kadiwéu. Cadernos de Estudos Linguísticos, 59(3):631–648.

Martín Rodríguez, L. et al. (2022). Tupían language ressources: Data, tools, analyses. In Melero, M., Sakti, S., and Soria, C., editors, Proceedings of the 1st Annual Meeting of the ELRA/ISCA Special Interest Group on UnderResourced Languages, pages 48–58, Marseille, France. European Language Resources Association.

Sandalo, M. F. S. and Galves, C. M. C. (2023). Anotando sintaticamente uma língua originária do brasil: O problema de anchieta. Cadernos de Estudos Linguísticos, 65(00).

Santos, L. L., Aragon, C. C., and Gerardi, F. (2024). Línguas minoritárias e anotações sintáticas de corpora: experiências de pesquisa na iniciação científica. Letras de hoje, 59(1):1–9.

Tyers, F. M. and Henderson, R. (2021). A corpus of k’iche’ annotated for morphosyntactic structure. In Proceedings of the First Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP).
Publicado
29/09/2025
NOGUEIRA, Antônio Levy Melo; NUNES, Letícia Farias; ALEXANDRE, Dominick Maia; ALENCAR, Leonel Figueiredo de. Compilação, modernização e anotação morfossintática de um corpus histórico do nheengatu segundo o modelo das Dependências Universais. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 16. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 708-712. DOI: https://doi.org/10.5753/stil.2025.37876.