Universal Dependencies and Language Contact Annotation: Experience from Warao refugees signs in Brazil
Resumo
O objetivo do presente artigo é apresentar um trabalho em andamento que se propõe a descrever, a partir do projeto das Universal Dependencies (UD), o contato linguístico entre a língua warao, o espanhol venezuelano e o português brasileiro nas placas de refugiados Warao no Brasil. No presente trabalho, além de apresentar-se uma breve descrição do contato entre os três idiomas na migração indígena venezuelana para o Brasil, discute-se sobre a descrição de línguas de contato valendo-se das UD, além de reflexões iniciais acerca de escolhas metodológicas motivadas pelos fenômenos linguísticos observados no corpus.
Referências
Braggaar, A. and van der Goot, R. (2021). Challenges in annotating and parsing spoken, code-switched, Frisian-Dutch data. In Proceedings of the Second Workshop on Domain Adaptation for NLP, pages 50–58, Kyiv, Ukraine. Association for Computational Linguistics.
Buzato, D. and Vital, Á. (2023). O contato linguístico em placas de refugiados venezuelanos em belo horizonte e regiao metropolitana: observações preliminares. In; Anais do Congresso Nacional Universidade, EAD e Software Livre, volume 1.
Caron, B., Courtin, M., Gerdes, K., and Kahane, S. (2019). A surface-syntactic ud treebank for naija. In Proceedings of the 18th International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2019), pages 13–24. Association for Computational Linguistics.
Çetinoǧlu, Ö. and Çöltekin, Ç . (2019). Challenges of annotating a code-switching treebank. In: Proceedings of the 18th International Workshop on Treebanks and Linguistic Theories (TLT, SyntaxFest 2019), pages 82–90, Paris, France. Association for Computational Linguistics.
Crystal, D. (1987). The cambridge encyclopedia of language. UK: Cambridge University.
Duran, M. S. (2021). Manual de anotação de relações de dependência: Orientações para anotação de relações de dependência sintática em língua portuguesa, seguindo as diretrizes da abordagem universal dependencies (ud). Technical Report ICMC 435, Instituto de Ciencias Matematicas e de Computação, Universidade de São Paulo, São Carlos-SP.
García-Castro, Á. (2006). Migración de indígenas warao para formar barrios marginales en la periferia de ciudades de guayana, venezuela. De Quito a Burgos: migraciones y ciudadanía. Burgos: Gran Vía.
Holm, J. (2000). An introduction to pidgins and creoles. Cambridge University Press
Luft, C. P. (2010). Dicionário Prático de Regência Verbal: Nova Ortografia. Ática, São Paulo, 9 edition.
Mesquita, R. (2020). Diaria o fixo: fotografias sociolinguísticas de Boa Vista–Roraima e as novas perspectivas para as pesquisas do contato linguístico na fronteira. In Cruz, A. and Aleixo, F., editors, Roraima entre línguas: contatos linguísticos no universo da tríplice fronteira do extremo-norte brasileiro. Editora da UFRR.
Nivre, J., De Marneffe, M.-C., Ginter, F., Goldberg, Y., Hajic, J., Manning, C. D., McDonald, R., Petrov, S., Pyysalo, S., Silveira, N., et al. (2016). Universal dependencies v1: A multilingual treebank collection. In: Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), pages 1659–1666.
Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., and De Paiva, V. (2017). Universal dependencies for Portuguese. In: Proceedings of the fourth international conference on dependency linguistics (Depling 2017), pages 197–206.
Romero-Figueroa, A. (1985). Osv as the basic order in warao. Lingua, 66:115–134.
Romero-Figueroa, A. (1997). A Reference Grammar of Warao. Lincom Europa, München.
Romero-Figueroa, A. (2020). El contacto warao-espanol: Consideraciones sobre el proceso de aculturacion léxica de la lengua nativa del delta del Orinoco. Editorial Academica Espanola.
Seddah, D., Essaidi, F., Fethi, A., Futeral, M., Muller, B., Suarez, P. O., Sagot, B., and Srivastava, A. (2020). Building a user-generated content north-african arabizi treebank: Tackling hell. In: Proceedings of the 58th annual meeting of the Association for Computational Linguistics, pages 1139–1150.
Straka, M., Hajic, J., and Straková, J. (2016). Udpipe: trainable pipeline for processing conll-u files performing tokenization, morphological analysis, pos tagging and parsing. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), pages 4290–4297.
Taulé, M., Martí, M. A., and Recasens, M. (2008). Ancora: Multilevel annotated corpora for Catalan and Spanish. In: Lrec, volume 2008, pages 96–101.
UNHCR (2021a). Os warao no Brasil - contribuições da antropologia para a proteção de indígenas refugiados e migrantes. Technical report, Brasília.
UNHCR (2021b). Perfil socioeconômico da população indígena refugiada e migrante abrigada em Roraima. Technical report, Brasília.