Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies

  • Ariani Di Felippo UFSCar
  • Caroline Postali UFSCar
  • Gabriel Ceregatto UFSCar
  • Laura S. Gazana UFSCar
  • Emanuel H. da Silva USP
  • Norton T. Roman USP
  • Thiago A. S. Pardo USP


A anotação de textos informais segundo a Universal Dependencies requer dois processos de segmentação: delimitação da unidade relevante para a análise sintática e identificação das palavras sintáticas. Neste artigo, apresentam-se as idiossincrasias linguísticas do corpus DANTEStocks, composto por tweets do mercado financeiro, escritos em Português, e as estratégias gerais de segmentação automática. Assim, contribui-se para a descrição de aspectos linguísticos dos tweets e para o desenvolvimento de recursos e ferramentas de processamento automático desse subgênero de "user-generated content".


Bosco, C., Tamburini, F., Bolioli, A., Mazzei, A. (2016). Overview of the EVALITA 2016 Part of Speech tagging on TWitter for ITAlian task. In: Anas do 5º EVALITA.

Cignarella, A.T., Bosco, C., Rosso, P. (2019). Presenting TWITTIRO-UD: an Italian twitter treebank in Universal Dependencies. In: Anais do 5º Depling, p.190-7. Paris, França, ACL.

Duran, M.S. (2021). Manual de anotação de PoS tags. Relatório Técnico, n. 434. NILC-ICMC/USP, 54p. Disponível em: Acesso em: 20/09/2021.

Eisenstein, J. (2013). What to do about bad language on the internet. In: Anais do NAACL-HLT, p. 359–369. Atlanta, EUA, ACL.

Foster, J. (2010). “cba to check the spelling”: investigating parser performance on discussion forum posts. In: Anais do NAACL-HLT, p. 381–384. LA, EUA, ACL.

Freitas, E. C.; Barth, P. A. (2015) Gênero ou suporte? O entrelaçamento de gêneros no Twitter. Revista (Con)Textos Linguísticos, 9(12), p. 08-26.

Kong, L., Schneider, N., Swayamdipta, S., Bhatia, A., Dyer, C., Smith, N. A. (2014). A dependency parser for tweets. In: Anais do EMNLP, p. 1001–12. Doha, Qatar.

Lyddy, F., Farina, F., Hanney, J., Farrell, L., O'Neill, N.K. (2014). An analysis of language in university students' text messages. Journal of Computer-Mediated Communication, 19(3), p. 546-561. Wiley Online Library.

Lynn, T., Scannell, K., Maguire, E. (2015). Minority language Twitter: part-of-speech tagging and analysis of Irish tweets. In: Anais do ACL’15 Workshop on Noisy User-generated Text, p. 1–8. July 31. Beijing, China, ACL.

Liu, Y., Zhu, Y., Che, W., Qin, B., Schneider, N., Smith, N.A. (2018). Parsing tweets into Universal Dependencies. In: Anais do NAACL-HLT, p. 965–975. LA, EUA, ACL.

Marcuschi, L.A. Produção textual, análise de gêneros e compreensão. Parábola Ed., 2008.

De Marneffe, M-C., Manning, C. D., Nivre, J. Zeman, D. (2021). Universal Dependencies. In Computational Linguistics, 47(2), p. 255-308. ACL. Online ISSN 1530-9312.

Nivre, J. (2015). Towards a Universal Grammar for Natural Language Processing. In: Anais do CICLing 2015. Lecture Notes in Computer Science, vol 9041, p. 3-16, Ed. by A. Gelbukh. Springer, Cham.

Nivre, J. et al. (2020). Universal Dependencies v2: an evergrowing multilingual treebank collection. In: Anais do 12o LREC. P. 4034-4043. Marseille, França. ELRA.

Owoputi, O., O’Connor, B., Dyer, C., Gimpel, K., Schneider, N., Smith, N.A. (2013). Improved part-of-speech tagging for online conversational text with word clusters. In: Anais do NAACL-HLT, p. 380–390. 9-14 de junho. Atlanta, Georgia. ACL.

Petrov, S., Das, D., McDonald, R. (2012). A universal part-of-speech tagset. In: Anais do 8o LREC, p. 2089–2096. 21-27 de maio. Istanbul, Turquia. ELRA.

Proisl, T. (2018). Someweta: A part-of-speech tagger for German social media and web texts. In: Anais do 11º LREC, p. 665–670. May 7-12. Miyazaki, Japão. ELRA.

Plutchik R., Kellerman, H. (eds). 1986. Emotion: theory, research and experience. Nova Iorque: Acad. Press

Rademaker, A.; Chalub, F., Real, L., Freitas, C., Bick, E., Paiva, V. (2017). Universal Dependencies for Portuguese. In: Anais do 4o Depling, p. 197-206. Pisa, Itália.

Rehbein, I., Ruppenhofer, J., Bich-Ngoc, D. (2019). tweeDe – a Universal Dependencies treebank for German tweets. In: Anais do 18º TLT, p. 100-108. Paris, França. ACL.

Reynar, J., Ratnaparkhi, A. (1997). A maximum entropy approach to identifying sentence boundaries. In: Anais do 5o ANLP, p. 16-19. Washington, EUA, ACL.

Seddah, D., Sagot, B., Candito, M., Mouilleron, V., Combet, V. (2012). The French social media bank: a treebank of noisy user generated content. In: Anais do 24º COLING, p. 2441–2458, Mumbai, Índia, ACL.

Sanguinetti, M. et al. (2018). PoSTWITA-UD: An Italian twitter treebank in Universal Dependencies. In: Anais do 11º LREC. p. 1768–75. Miyazaki, Japão. ELRA

Sanguinetti, M. et al. (2020a). Treebanking user-generated content: a proposal for a unified representation in universal dependencies. In: Anais do 12º LREC. p. 5240-50. Marseille, França. ELRA

Sanguinetti, M. et al. (2020b). Treebanking user-generated contente: a UD based overview of guidelines, corpora and unified recommendations. Available in: Access in: 25/09/2021.

Silva, F. J. V., Roman, N. T., Carvalho, A. M. B. R. (2020). Stock market tweets annotated with emotions. In: Corpora, 15(3), p. 343-354. Online ISSN: 1755-1676.

Silva, E. H., Pardo, T. A. S., Roman. N. T, Di-Felippo, A. Universal Dependencies for tweets in Brazilian Portuguese: tokenization and part of speech tagging. In: Anais do XVIII ENIAC 2021. 29 de nov. a 3 de dez., 2021. No prelo
FELIPPO, Ariani Di; POSTALI, Caroline; CEREGATTO, Gabriel; GAZANA, Laura S.; SILVA, Emanuel H. da; ROMAN, Norton T.; PARDO, Thiago A. S.. Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 335-343. DOI: