Em Direção à Anotação Sintática - UD de Tweets do Mercado Financeiro
Resumo
Muitos córpus têm sido atualmente construídos com base no modelo gramatical Universal Dependencies (UD), inclusive os tweebanks – córpus compostos por tweets. No que diz respeito à língua portuguesa, já há diretrizes segundo esse modelo para anotação de textos que seguem a norma-padrão. Neste artigo, apresentam-se diretrizes para a anotação sintática-UD de alguns fenômenos linguísticos identificados em tweets do mercado financeiro, cuja linguagem se caracteriza pela fragmentação, informalidade e ocorrência de elementos veiculados a plataforma e ao domínio. Com isso, busca-se contribuir para a elaboração de um manual de anotação sintática via UD para tweets e para a construção do primeiro tweebank em português.
Referências
Duran, M. S. (2022). Manual de Anotação de Relações de Dependência – Versão Revisada e Estendida.
Duran, M. S., Oliveira, H., and Scandarolli, C. (2022). Que simples que nada: a anotação da palavra que em corpus de UD. In Proceedings of the Universal Dependencies Brazilian Festival, pages 1–11, Fortaleza, Brazil. Association for Computational Linguistics.
Guibon, G., Courtin, M., Gerdes, K., and Guillaume, B. (2020). When collaborative treebank curation meets graph grammars. In Proceedings of The 12th Language Resources and Evaluation Conference, pages 5293–5302, Marseille, France. European Language Resources Association.
Liu, Y., Zhu, Y., Che, W., Qin, B., Schneider, N., and Smith, N. A. (2018). Parsing tweets into Universal Dependencies. In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 965–975, New Orleans, Louisiana. Association for Computational Linguistics.
Nivre, J. et al. (2020). Universal dependencies v2: An evergrowing multilingual treebank collection. Proceedings of the Twelfth International Conference on Language Resources and Evaluation (LREC 2020).
Sanguinetti, M., Bosco, C., Cassidy, L., Çetinoǧlu, Ö., Cignarella, A. T., Lynn, T., Rehbein, I., Ruppenhofer, J., Seddah, D., and Zeldes, A. (2020). Treebanking usergenerated content: A proposal for a unified representation in Universal Dependencies. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 5240–5250, Marseille, France. European Language Resources Association.
Sanguinetti, M., Bosco, C., Cassidy, L., Özlem Çetinoǧlu, Cignarella, A. T., Lynn, T., Rehbein, I., Ruppenhofer, J., Seddah, D., and Zeldes, A. (2022). Treebanking usergenerated content: a UD based overview of guidelines, corpora and unified recommendations. Language Resources and Evaluation, 57(2):493–544.
Sanguinetti, M., Bosco, C., Mazzei, A., Lavelli, A., and Tamburini, F. (2017). Annotating Italian social media texts in Universal Dependencies. In Proceedings of the Fourth International Conference on Dependency Linguistics (Depling 2017), pages 229–239, Pisa,Italy. Linköping University Electronic Press.
Silva, F. J. V., Roman, N. T., and Carvalho, A. M. (2020). Stock market tweets annotated with emotions. Corpora, 15(3):343–354.
Silveira, N., Dozat, T., de Marneffe, M.-C., Bowman, S., Connor, M., Bauer, J., and Manning, C. D. (2014). A gold standard dependency corpus for English. In Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC-2014).