Enhancing a Nheengatu Morphosyntactic Analyzer for Word Formation and Non-standard Language
Resumo
UD_Nheengatu-CompLin is the highest-rated and second-largest Amerindian language treebank in Universal Dependencies. It is annotated with Yauti, an analyzer for Nheengatu that uses special tags to handle unknown words. This paper presents a major revision of the special tag mechanism, extending coverage to phenomena such as reduplication, typos, and stylistic variation. A multi-level validator was implemented and passed 416 test cases. All 231 treebank sentences with special tags parsed, yielding a macro F1 score of 0.92 and both weighted and micro F1 scores of 0.96 in feature assignment.
Referências
Avila, M. T. (2021). Proposta de dicionário nheengatu-português. PhD thesis, Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo.
Beck, D. (2017). The typology of morphological processes: Form and function. In Aikhenvald, A. Y. and Dixon, R. M. W., editors, The Cambridge Handbook of Linguistic Typology, pages 325–360. Cambridge University Press, Cambridge.
Borges, L. C. (1996). O nheengatú: uma língua amazônica. Papia, 4(2):44–55.
da Cruz, A. (2011). Fonologia e gramática do nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa. LOT, Utrecht.
da Cruz, A. (2014). Reduplication in nheengatu. In Gómez, G. G. and van der Voort, H., editors, Reduplication in Indigenous Languages of South America, pages 115–141. Brill, Leiden, The Netherlands.
de Alencar, L. F. (2023). Yauti: A tool for morphosyntactic analysis of Nheengatu within the Universal Dependencies framework. In Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 135–145, Porto Alegre, RS, Brasil. SBC.
de Alencar, L. F. (2024a). Aspectos da construção de um corpus sintaticamente anotado do nheengatu no modelo dependências universais. Texto Livre, 17:e52653.
de Alencar, L. F. (2024b). A Universal Dependencies treebank for Nheengatu. In Gamallo, P., Claro, D., Teixeira, A. J. S., Real, L., García, M., Oliveira, H. G., and Amaro, R., editors, Proceedings of the 16th International Conference on Computational Processing of Portuguese, PROPOR 2024, Santiago de Compostela, Galicia/Spain, 12-15 March, 2024, volume 2, pages 37–54, Stroudsburg, PA, USA. Association for Computational Linguistics.
de Amorim, A. B. (1928). Lendas em Nheêngatu e em Portuguez. Revista do Instituto Historico e Geographico Brasileiro, 154(100):9–475. Tomo 100, vol. 154 (2º de 1926).
de Magalhães, J. V. C. (1876). O selvagem. Typographia da Reforma, Rio de Janeiro.
de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., and Zeman, D. (2024a). CoNLL-U format. Accessed: 2024-01-09.
de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., and Zeman, D. (2024b). MISC attributes in CoNLL-U. Accessed: 2025-06-07.
de Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajič, J., Manning, C., McDonald, R., Nivre, J., Petrov, S., Pyysalo, S., Schuster, S., Silveira, N., Tsarfaty, R., Tyers, F., and Zeman, D. (2024c). Typos and other errors in underlying text. Accessed: 2025-06-07.
de Marneffe, M.-C., Manning, C. D., Nivre, J., and Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47(2):255–308.
Dixon, R. M. W. and Aikhenvald, A. Y. (1999). The Amazonian Languages. Cambridge Language Surveys. Cambridge University Press, Cambridge.
do Brasil, M. N. T., editor (2019). Novo Testamento na língua Nyengatu. Sociedade Bíblica do Brasil, Barueri, SP, 2nd edition. Original work published in 1973.
Eberhard, D. M., Simons, G. F., and Fennig, C. D., editors (2025). Ethnologue: Languages of the World. SIL International, Dallas, 28 edition.
Faria, P., Galves, C., and Magro, C. (2024). Syntactic annotation for portuguese corpora: standards, parsers, and search interfaces. Language Resources and Evaluation, 58(1):301–346.
Freire, J. R. B. (2011). Rio Babel: A história das línguas na Amazônia. EdUERJ, Rio de Janeiro, 2 edition.
Freitas, C. and de Souza, E. (2024). A study on methods for revising dependency tree-banks: in search of gold. Language Resources and Evaluation, 58(1):111–131.
Futrell, R., Mahowald, K., and Gibson, E. (2015). Quantifying word order freedom in dependency corpora. In Nivre, J. and Hajičová, E., editors, Proceedings of the Third International Conference on Dependency Linguistics (Depling 2015), pages 91–100, Uppsala, Sweden. Uppsala University, Uppsala, Sweden.
Gómez, G. G. and van der Voort, H., editors (2014). Reduplication in Indigenous Languages of South America. Brill, Leiden, The Netherlands.
Hartt, C. F. (1938). Notas sobre a língua geral, ou tupí moderno do Amazonas. Anais da Biblioteca Nacional do Rio de Janeiro, LI:305–390. [1929].
Inkelas, S. and Downing, L. J. (2015). What is reduplication? typology and analysis part 1/2: The typology of reduplication. Language and Linguistics Compass, 9(12):502–515.
Kondratyuk, D. and Straka, M. (2019). 75 languages, 1 model: Parsing Universal Dependencies universally. In Inui, K., Jiang, J., Ng, V., and Wan, X., editors, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 2779–2795, Hong Kong, China. Association for Computational Linguistics.
Li, W. (2025). Evaluating the effectiveness of linguistic knowledge in pretrained language models: A case study of universal dependencies.
Moore, D., Facundes, S., and Pires, N. (1994). Nheengatu (Língua Geral Amazônica), its history, and the effects of language contact. In Proceedings of the Meeting of the Society for the Study of the Indigenous languages of the Americas, July 2-4, 1993 and the Hokan-Penutian Workshop, July 3, 1993, pages 93–118, Berkeley, CA. [University of California]. Acesso em: 26 jul. 2024.
Navarro, E. d. A. (2016). Curso de Língua Geral (nheengatu ou tupi moderno): A língua das origens da civilização amazônica. Centro Angel Rama da Faculdade de Filosofia, Letras e Ciências Humanas da Universidade de São Paulo, São Paulo, 2 edition.
Navarro, E. d. A., Ávila, M. T., and Trevisan, R. G. (2017). O Nheengatu, entre a vida e a morte: A tradução literária como possível instrumento de sua revitalização lexical. Revista Letras Raras, 6(2):9–29.
Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.
Rio-Torto, G. (2015). Formação de avaliativos. In Rio-Torto, G., Rodrigues, A. S., Pereira, I., Pereira, R., and Ribeiro, S., editors, Gramática Derivacional do Português, pages 357–389. Imprensa da Universidade de Coimbra, Coimbra, 2 edition.
Rodrigues, A. D. (1986). Línguas brasileiras: Para o conhecimento das línguas indígenas. Loyola, São Paulo.
Rodrigues, A. D. (1996). As línguas gerais sul-americanas. Papia, 4(2):6–18.
Rodrigues, A. D. and Cabral, A. S. A. C. (2011). A contribution to the linguistic history of the Língua Geral Amazônica. ALFA: Revista de Linguística, 55(2).
Rodrigues, J. B. (1890). Poranduba amazonense ou kochiyma-uara porandub, 1872-1887. Typ. de G. Leuzinger & Filhos, Rio de Janeiro.
Santos, D. and Mota, C. (2010). Experiments in human-computer cooperation for the semantic annotation of Portuguese corpora. In Calzolari, N., Choukri, K., Maegaard, B., Mariani, J., Odijk, J., Piperidis, S., Rosner, M., and Tapias, D., editors, Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC’10), Valletta, Malta. European Language Resources Association (ELRA).
Schuster, S. and Manning, C. D. (2016). Enhanced English Universal Dependencies: An improved representation for natural language understanding tasks. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016).
Taylor, G. (1985). Apontamentos sobre o nheengatu falado no rio negro, brasil. Amérindia: revue d’ethnolinguistique amérindienne, 10:5–23.
Zeman, D. (2023). Cross-Language Harmonization of Linguistic Resources. Institute of Formal and Applied Linguistics (ÚFAL), Prague. Habilitation thesis.
Zeman, D., Nivre, J., Abrams, M., Ackermann, E., Adolphe, J., Aepli, N., Aghaei, H., Agić, Ž., Ahmadi, A., Ahrenberg, L., Ajede, C. K., Akhundjanova, A., Akkurt, F., Aleksandravičiūtė, G., Alfina, I., Algom, A., Alnajjar, K., Alzetta, C., Anastasopoulos, A., Andersen, E., Andrews, M., Antonsen, L., Aoyama, T., Aplonova, K., Aquino, A., Aragon, C., Aranes, G., Aranzabe, M. J., Arıcan, B. N., Arnardóttir, -H., Arutie, G., Arwidarasti, J. N., Asahara, M., Ásgeirsdóttir, K., Aslan, D. B., Asmazoğlu, C., Ateyah, L., Atmaca, F., Attia, M., Atutxa, A., Augustinus, L., Avelãs, M., Badmaeva, E., Bajorat, J., Balasubramani, K., Ballesteros, M., Banerjee, E., Bank, S., Barbosa, B. K. d. S., Barbu Mititelu, V., Barkarson, S., Basile, R., Basmov, V., Batchelor, C., Bauer, J., Bedir, S. T., Behzad, S., Belieni, J., Bémová, A., Bengoetxea, K., Benli, I., Ben Moshe, Y., Benzerrak, M., Berg, A., Berk, G., Bhat, R. A., Biagetti, E., Bick, E., Bielinskienė, A., Bilgin Taşdemir, E. F., Binici, H., Bjarnadóttir, K., Blaschke, V., Blokland, R., Böbel, N., Bobicev, V., Boizou, L., Bompolas, S., Bonilla, J., Borges Völker, E., Börstell, C., Bosco, C., Bouma, G., Bowman, S., Boyd, A., Braggaar, A., Branco, A., Bras, M., Brokaitė, K., Bu, L., Buráňová, E., Burchardt, A., Cabeza, C., Cáceres Arandia, N., Campos, M., Candito, M., Caron, B., Caron, G., Carvalheiro, C., Carvalho, R., Cassidy, L., Castro, M. C., Castro, S., Cavalcanti, T., Cebiroğlu Eryiğit, G., Cecchini, F. M., Celano, G. G. A., Çepani, A., Čéplö, S., Cesur, N., Cetin, S., Çetinoğlu, Ö., Chalub, F., Chamila, L., Chamoreau, C., Chauhan, S., Chen, Y., Chi, E., Chika, T., Cho, Y., Choi, J., Chontaeva, B., Chun, J., Chung, J., Cignarella, A. T., Cinková, S., Collomb, A., Çöltekin, Ç., Connor, M., Corbetta, C., Corbetta, D., Costa, F., Courtin, M., Crabbé, B., Cristescu, M., Cvetkoski, V., Dahan, N., Dale, I. L., Daniel, P., Daoudi, K., Dash, B., Dash, S. R., Davidson, E., de Alencar, L. F., Dehouck, M., de Laurentiis, M., de Marneffe, M.-C., Demir, A., de Paiva, V., Derin, M. O., de Souza, E., Diaz de Ilarraza, A., Díaz Hernández, R. A., Dickerson, C., Di Felippo, A., Dinakaramani, A., Di Nuovo, E., Dione, B., Dirix, P., Do, H., Dobrovoljc, K., Döhmer, C., Doyle, A., Dozat, T., Droganova, K., Duran, M. S., Dwivedi, P., Ebert, C., Eckhoff, H., Eguchi, M., Eiche, S., Eiselen, R., Eli, M., Elkahky, A., Ephrem, B., Erina, O., Erjavec, T., Esher, L., Eslami, S., Essaidi, F., Etienne, A., Evelyn, W., Facundes, S., Farkas, R., Faryad, J., Favero, F., Ferdaousi, J., Fernanda, M., Fernandez Alcalde, H., Fethi, A., Foster, J., Francioni, B., Fransen, T., Freitas, C., Fujita, K., Gajdošová, K., Galbraith, D., Galy, E., Gamba, F., Garcia, M., García-Miguel, J. M., Gärdenfors, M., Gaustad, T., Genç, E. E., Gerardi, F. F., Gerdes, K., Gessler, L., Ginter, F., Godoy, G., Goenaga, I., Gojenola, K., Gökırmak, M., Goldberg, Y., Goldin, G., Gómez Guinovart, X., González Saavedra, B., Griciūtė, B., Grioni, M., Grobol, L., Grūzı̄tis, N., Guillaume, B., Guiller, K., Guillot-Barbance, C., Güngör, T., Gurevich, V., Habash, N., Hafsteinsson, H., Hahn, M., Hajič, J., Hajič jr., J., Hajičová, E., Hämäläinen, M., Hà Mỹ, L., Han, N.-R., Hanifmuti, M. Y., Harada, T., Hardwick, S., Harris, K., Hassert, N., Haug, D., Havelka, J., Heinecke, J., Hellwig, O., Hennig, F., Hladká, B., Hlaváčová, J., Hociung, F., Hoefels, D., Hohle, P., Howell, N., Huang, Y., Huerta Mendez, M., Hwang, J., Ikeda, T., Iliadou, I., Ingason, A. K., Ion, R., Irimia, E., Ishola, O. ., Islamaj, A., Ito, K., Iurescia, F., Ivani, J. K., Jagodzińska, S., Jannat, S., Jelínek, T., Jha, A., Jiang, K., Job, S., Jobanputra, M., Johannsen, A., Jónsdóttir, H., Jørgensen, F., Ju, Z., Juutinen, M., Kaşıkara, H., Kabaeva, N., Kahane, S., Kanayama, H., Kanerva, J., Kara, N., Karahóǧa, R., Kárník, J., Kåsen, A., Kayadelen, T., Kengatharaiyer, S., Kettnerová, V., Kharatyan, L., Kirchner, J., Klementieva, E., Klyachko, E., Kocharov, P., Köhn, A., Köksal, A., Kolářová, V., Kopacewicz, K., Korkiakangas, T., Köse, M., Koshevoy, A., Kote, N., Kotsyba, N., Kovačić, B., Kovalevskaitė, J., Kowner, E., Krek, S., Krishnamurthy, P., Kübler, S., Kučová, L., Kuqi, A., Kuyrukçu, O., Kuzgun, A., Kwak, S., Kyle, K., Laan, K., Laippala, V., Lambertino, L., Landau, I., Lando, T., Larasati, S. D., Larrivée, P., Lavrentiev, A., Lee, J., Lê Hồng, P., Lenci, A., Lertpradit, S., Leung, H., Levina, M., Levine, L., Li, C. Y., Li, J., Li, K., Li, Y., Li, Y., Lim, K., Lima Padovani, B., Lin, Y.-J. J., Lindén, K., Liu, Y. J., Liu, Z., Ljubešić, N., Lobzhanidze, I., Loginova, O., Lopatková, M., Lopes, L., Luftiu, E., Lukashevskyi, A., Lusito, S., Lutgen, A.-M., Luthfi, A., Luukko, M., Lyashevskaya, O., Lynn, T., Macketanz, V., Mahamdi, M., Maillard, J., Makarchuk, I., Makazhanov, A., Mambrini, F., Mandl, M., Manning, C., Manurung, R., Marşan, B., Mărănduc, C., Mareček, D., Marheinecke, K., Markantonatou, S., Martínez Alonso, H., Martín Rodríguez, L., Martins, A., Martins, C., Mašek, J., Matsuda, H., Matsumoto, Y., Mazzei, A., McDonald, R., McGuinness, S., Mehta, M., Ménard, P. A., Mendonça, G., Merhav, H., Merzhevich, T., Meurer, P., Miekka, N., Mikulová, M., Milano, E., Miletić, A., Miller, A., Min, J., Minerbi, Y., Mírovský, J., Mischenkova, K., Missilä, A., Mititelu, C., Mitrofan, M., Miyao, Y., Mohapatra, B., Mojiri Foroushani, A., Molnár, J., Moloodi, A., Montemagni, S., More, A., Moreno Romero, L., Moretti, G., Mori, S., Morioka, T., Moro, S., Mortensen, B., Moskalevskyi, B., Muischnek, K., Munro, R., Murawaki, Y., Mus, N., Müürisep, K., Nainwani, P., Nakhlé, M., Navarro Horñiacek, J. I., Nedoluzhko, A., Nešpore-Bērzkalne, G., Nevaci, M., Nguyễn Thi., L., Nguyễn Thi. Minh, H., Nikaido, Y., Nikolaev, V., Nitisaroj, R., Norrman, V., Nourian, A., Novák, M., Nunes, M. d. G. V., Nurmi, H., Ojala, S., Ojha, A. K., Óladóttir, H., Olúòkun, A., Omura, M., Onwuegbuzia, E., Ordan, N., Osenova, P., Östling, R., Ott, A., Øvrelid, L., Oya, M., Özateş, Ş. B., Özçelik, M., Özgür, A., Öztürk Başaran, B., Paccosi, T., Pajas, P., Palmero Aprosio, A., Panevová, J., Panova, A., Pardo, T. A. S., Parida, S., Park, H. H., Partanen, N., Pascual, E., Passarotti, M., Patejuk, A., Paulino-Passos, G., Pedonese, G., Peeters, O., Peljak-Łapińska, A., Peng, S., Peng, S. L., Pereira, R., Pereira, S., Perez, C.-A., Perkova, N., Perrier, G., Petrov, S., Petrova, D., Peverelli, A., Phelan, J., Pierre-Louis, C., Piitulainen, J., Pinter, Y., Pinto, C., Pintucci, R., Pirinen, T. A., Pitler, E., Plamada, M., Plank, B., Plum, A., Poibeau, T., Ponomareva, L., Popel, M., Poujade, C., Pretkalnin, a, L., Pretorius, R., Prévost, S., Prokopidis, P., Przepiórkowski, A., Pugh, R., Puolakainen, T., Purschke, C., Pyysalo, S., Qi, P., Querido, A., Rääbis, A., Rabinovich, E., Rademaker, A., Rahman, M.-u., Rahoman, M., Rama, T., Ramasamy, L., Ramisch, C., Ramos, J., Rashel, F., Rasooli, M. S., Ravishankar, V., Real, L., Rebeja, P., Reddy, S., Regnault, M., Rehm, G., Riabi, A., Riabov, I., Rießler, M., Rimkutė, E., Rinaldi, L., Rituma, L., Rizqiyah, P., Rocha, L., Rögnvaldsson, E., Roksandic, I., Roman, N. T., Romanenko, M., Romanova, N., Rosa, R., Ros, ca, V., Roulon, P., Rovati, D., Rozonoyer, B., Rudina, O., Rueter, J., Ruffolo, P., Rúnarsson, K., Rushiti, R., Sadde, S., Safari, P., Sahala, A., Sahoo, K., Sahoo, S., Saleh, S., Salomoni, A., Samardžić, T., Sampanis, K., Samson, S., Sánchez-Rodríguez, X., Sanguinetti, M., Sanıyar, E., Särg, D., Sartor, M., Sarymsakova, A., Sasaki, M., Saulı̄te, B., Savary, A., Sawanakunanon, Y., Saxena, S., Scannell, K., Scarlata, S., Schang, E., Schneider, N., Schuster, S., Schwartz, L., Seddah, D., Seeker, W., Sellmer, S., Seraji, M., Ševčíková, M., Sgall, P., Shahzadi, S., Shen, M., Shimada, A., Shin, G.-H., Shirasu, H., Shishkina, Y., Shohibussirri, M., Shvedova, M., Sibille, J., Siewert, J., Sigurðsson, E. F., Silva, J., Silveira, A., Silveira, N., Silveira, S., Simi, M., Simionescu, R., Simkó, K., Šimková, M., Símonarson, H. B., Simov, K., Sitchinava, D., Sither, T., Smith, A., Soares-Bastos, I., Solberg, P. E., Sollberger, D., Sonnenhauser, B., Sourov, S., Speransky, N., Sprugnoli, R., Stamou, V., Steingrímsson, S., Stella, A., Štěpánek, J., Štěpánková, B., Stephen, A., Straka, M., Strass, O., Strickland, E., Strnadová, J., Suhr, A., Sulestio, Y. L., Sulubacak, U., Sung, H., Suzuki, S., Swanson, D., Szántó, Z., Taguchi, C., Taji, D., Talamo, L., Tamburini, F., Tan, M. A. C., Tanaka, T., Tanaya, D., Tavoni, M., Teker, N., Tella, S., Tellier, I., Testori, M., Thomas, G., Tıraş, T. E., Tollersrud, T., Tonelli, S., Torga, L., Toribio, L., Toska, M., Trosterud, T., Trukhina, A., Tsarfaty, R., Tulchynska, K., Türk, U., Tyers, F., Ĥórðarson, S., Ĥorsteinsson, V., Uematsu, S., Untilov, R., Urešová, Z., Uria, L., Uszkoreit, H., Utka, A., Vagnoni, E., Vajjala, S., Vak, S., Vakirtzian, S., van der Goot, R., Vanhove, M., van Niekerk, D., van Noord, G., Varga, V., Vedenina, U., Venturi, G., Vergez-Couret, M., Vidová Hladká, B., Villemonte de la Clergerie, E., Vincze, V., Vissamsetty, A., Vlasova, N., Vligouridou, E., Wakasa, A., Wallenberg, J. C., Wallin, L., Walsh, A., Wang, J., Washington, J. N., Weissweiler, L., Wendt, M., Widmer, P., Wigderson, S., Wijono, S. H., Wille, V. B., Williams, S., Winkler, M., Wintner, S., Wirén, M., Wittern, C., Witzlack-Makarevich, A., Woldemariam, T., Wong, T.-s., Wróblewska, A., Wu, Q., Yako, M., Yamashita, K., Yamazaki, N., Yan, C., Yang, X., Yasuoka, K., Yavrumyan, M. M., Yenice, A. B., Yılandiloğlu, E., Yıldız, O. T., Yu, Z., Yuliawati, A., Žabokrtský, Z., Zahra, S., Zeldes, A., Zhou, H., Zhu, H., Zhu, Y., Zhuravleva, A., Ziane, R., and Znotin, š, A. (2025). Universal dependencies 2.16. LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University.
