Compilação de um corpus etiquetado da Língua Geral Amazônica

  • Dominick M. Alexandre UFC
  • Juliana L. Gurgel UFC
  • Leonel F. de A. Araripe UFC

Resumo


Este trabalho apresenta as etapas de compilação de um corpus da Língua Geral Amazônica (LGA), ou nheengatu, desenvolvido para a posterior implementação de um etiquetador morfossintático para o sintagma nominal dessa língua. O estudo representa um avanço na construção de banco de dados para línguas indígenas e na inclusão dessas línguas minoritárias no atual contexto científico e tecnológico. Os resultados confirmam a aplicabilidade do corpus compilado para etiquetadores e outros algoritmos de processamento de linguagem natural.

Referências

Alencar, L. F. de. (2020). Projeto de pesquisa. “Técnicas em softwares livres para linguística de corpus (12ª Etapa)”. Fortaleza: Universidade Federal do Ceará. Não publicado.

Alencar, L. F. de. (2021). “Uma gramática computacional de um fragmento do nheengatu”. Revista Estudos da Linguagem, Belo Horizonte, v. 29, n. 3, p. 1717-1777.

Casasnovas, A. (2006). “Noções de língua geral ou nheengatú: gramática, lendas e vocabulário”. 2. ed. Manaus: Editora da Universidade Federal do Amazonas; Faculdade Salesiana Dom Bosco.

Cruz, A. (2011). “Fonologia e Gramática do Nheengatú: A língua falada pelos povos Baré, Warekena e Baniwa”. Utrecht: LOT.

Eberhard, D. M.; Simons, G. F.; Fennig, C. D. (org.). (2021). “Ethnologue: Languages of the World”. 24. ed. Dallas: SIL International. Disponível em: http://www.ethnologue.com. Acesso em: 04 jul. 2021.

Guinovart, X. G. (2000). “Lingüística computacional”. In: Ramallo, F.; Rei-Doval, G.; Yáñez, X. P. R. (org.). Manual de Ciencias da Linguaxe. Edicións Xerais de Galicia.

Gurgel, J. L. (2021). “Nheenga-Tagger: um etiquetador morfossintático para o nheengatu” (working title). Projeto de dissertação (Mestrado em Linguística) - Universidade Federal do Ceará, Fortaleza. Não publicado.

Jurafsky, D.; Martin, J. H. (2009). “Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition”. 2. ed. Upper Saddle River: Prentice Hall.

Lewis, M. P.; Simons, G. F.; Fennig, C. D. (org.). (2016). “Ethnologue: Languages of the World”. 19. ed. Dallas: SIL International. Disponível em: http://www.ethnologue.com. Acesso em: 04 jul. 2021.

Mikheev, A. (2004). “Text segmentation”. In: Mitkov, R. (Org.). The Oxford handbook of computational linguistics. Oxford, Oxford University Press, p. 209-221.

Navarro, E. D. A. (2011). “Curso de Língua Geral (Nheengatu ou Tupi moderno): A Língua das origens da civilização amazônica”. São Bernardo do Campo: Paym Gráfica e Editora.

Navarro, E. D. A. (2012). “O último refúgio da língua geral no Brasil”. Estudos Avançados, v. 26, p. 245-254.

Voutilainen, A. (2004). “Part-of-speech tagging”. In: Mitkov, R. (Org.). The Oxford handbook of computational linguistics. Oxford, Oxford University Press, p. 219-232
Publicado
29/11/2021
ALEXANDRE, Dominick M.; GURGEL, Juliana L.; ARARIPE, Leonel F. de A.. Compilação de um corpus etiquetado da Língua Geral Amazônica. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 427-431. DOI: https://doi.org/10.5753/stil.2021.17823.