A Dependency Treebank of Tweets in Brazilian Portuguese: Syntactic Annotation Issues and Approach

Resumo


Amplia-se a análise de dependência do português brasileiro (pt-br) para lidar com “conteúdo-gerado por usuários” ao desenvolver e anotar o primeiro treebank de tweets (atuais posts do X) em pt-br segundo o modelo Universal Dependencies. O DANTEStocks possui 4,048 tweets do mercado financeiro e anotação-UD de tags PoS e traços morfológicos. Neste artigo, descreve-se a estratégia de anotação sintática adotada para lidar com as idiossincrasias do Twitter e do domínio desse corpus. A versão do DANTEStocks enriquecida com as relações de dependência-UD e as diretrizes de anotação já estão publicamente disponíveis.

Palavras-chave: corpus annotation, tweet, stock market, Universal Dependencies

Referências

Barbosa, B. K. S. (2024). Descrição sintático-semântica de nomes predicadores em tweets do mercado financeiro em português. Dissertação de Mestrado. Programa de Pós-graduação em Linguística, Universidade Federal de São Carlos, São Carlos/SP, 208p.

Carletta, J. (1996). Assessing agreement on classification tasks: The kappa statistic. In Computational Linguistics, Volume 22, Number 2, pages 249–254. MIT Press.

Cohen, J. (1960). A coefficient of agreement for nominal scales. In Educational and Psychological Measurement, Volume 20, Issue 1, pages 37-46.

Di-Felippo, A.; Postali, C.; Ceregatto, G.; Gazana, L. S.; Roman, N. T. (2022). Diretrizes de anotação de PoS tags em tweets do mercado financeiro: orientações para anotação em língua portuguesa segundo a abordagem Universal Dependencies. Relatório Técnico do ICMC 438. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, 24p.

Di-Felippo, A., Nunes, M. G. V., Barbosa, B. K. S. (2024). Diretrizes de anotação de relações de dependência em tweets do mercado financeiro. Relatório Técnico do ICMC 446. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Abril, 70p.

Duran, M.S. (2021). Manual de Anotação de PoS tags: orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 434. ICMC, USP. São Carlos-SP, 55p.

Duran, M.S. (2022). Manual de Anotação de Relações de Dependência - Versão Revisada e Estendida: Orientações para anotação de relações de dependência sintática em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 440. ICMC, USP. São Carlos-SP, 166p.

Duran, M. S., Lopes, L., Nunes, M.G.V., Pardo, T. A. S. (2023). The Dawn of the Porttinari Multigenre Treebank: Introducing its Journalistic Portion. In Proceedings of the 14th Symposium in Information and Human Language Technology, pages 115-124. Belo Horizonte/MG. SBC.

Krumm, J., Davis, N. Narayanaswami, C. (2009). User-Generated Content. In IEEE Pervasive Computing, Volume 7, Issue 4, pages. 10 – 11, IEEE, 2009.

Lopes, L., Duran, M. S.; Fernandes, P. H. L.; Pardo, T. A. S. (2022). PortiLexicon-UD: a Portuguese Lexical Resource according to Universal Dependencies Model. In Proceedings of the 13th International Conference on Language Resources and Evaluation (LREC), pages 6635 6643, Marseille, France. ELRA.

Lopes, L.; Pardo, T. A. S. Towards Portparser - a highly accurate parsing system for Brazilian Portuguese following the Universal Dependencies framework. In Proceedings of the 16th International Conference on Computational Processing of Portuguese (PROPOR), pages 401-410, Santiago de Compostela, Galiza. ACL.

Luhn, H.P. (1957). A statistical approach to mechanized encoding and searching of literary information. In IBM Journal of Research and Development, Volume 1, Issue 4, pages 309-317. ISSN 0018-8646. DOI: 10.1147/rd.14.0309

Macqueen, J. (1967) Some methods for classification and analysis of multivariate observations. In Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. [S.l.], v. 1, n. 14, p. 281–297.

Nivre, J., Fang, C.-T. (2017). Universal Dependency evaluation. In Proceedings of the NoDaLiDa 2017 Workshop on Universal Dependencies (UDW 2017), pages 86–95, Gothenburg, Sweden. ACL.

Nivre, J., et al. (2016). Universal dependencies v1: A multilingual treebank collection. In Proceedings of the 10th International Conference on Language Resources and Evaluation (LREC), pages 1659–1666, Portorož, Eslovênia. ELRA.

Nivre, J. et al. (2020). Universal Dependencies v2: an evergrowing multilingual treebank collection. In Proceedings of the 12th International Conference on Language Resources and Evaluation Conference (LREC), pages 4034-4043. Marseille, França. ELRA.

Qi, P., Zhang, Y., Zhang, Y, Bolton, J., Manning, C. D. (2020). Stanza: A Python natural language processing toolkit for many human languages. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (ACL) (System Demonstrations), pages 101-108. Online. ACL.

Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., Paiva, V. de. (2017). Universal Dependencies for Portuguese. In Proceedings of the 4th International Conference on Dependency Linguistics (Depling), pages 197–206, Pisa, Italy. Linköping University Electronic Press.

Sanguinetti, M. et al. (2023). Treebanking user-generated content: a UD based overview of guidelines, corpora and unified recommendations. In Lang Resources & Evaluation, Volume. 57, Issue 2, pages 493–544. Springer-Verlag, Berlin, Heidelberg.

Silva, E.H.; Pardo, T.A.S.; Roman, N.T.; Di Felippo, A. (2021). Universal Dependencies for tweets in Brazilian Portuguese: tokenization and Part-of-Speech tagging. In Proceedings of the 18th National Meeting on Artificial and Computational Intelligence (ENIAC), pages. 434-445, Online. SBC.

Scandarolli, C. L., Di-Felippo, A., Roman, N. T., Pardo, T. A. S. (2023). Tipologia de fenômenos ortográficos e lexicais em CGU: o caso dos tweets do mercado financeiro. In Anais da VIII Jornada de Descrição do Português (JDP) (Evento integrante do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana-STIL), p. 240-248, Belo Horizonte/MG, Brasil. SBC.

Sobrevilla Cabezudo, M.A., Maziero, E.G., Souza, J.W.C., Dias, M.S., Cardoso, P.C.F., Balage Filho, P.P., Agostini, V., Nóbrega, F.A.A., Barros, C.D., Di Felippo, A., Pardo, T.A.S. (2015). Anotação de sentidos de verbos em textos jornalísticos do corpus CSTNews. In Revista de Estudos da Linguagem (RELIN), Volume 23, Número 3, p. 797-832.

Straka, M. (2018). UDPipe 2.0 prototype at CoNLL 2018 UD shared task. In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 197–207. Brussels, Belgium. ACL.
Publicado
17/11/2024
DI FELIPPO, Ariani; NUNES, Maria das Graças V.; BARBOSA, Bryan K. da Silva. A Dependency Treebank of Tweets in Brazilian Portuguese: Syntactic Annotation Issues and Approach. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 192-201. DOI: https://doi.org/10.5753/stil.2024.245383.