Tipologia de fenômenos ortográficos e lexicais em CGU: o caso dos tweets do mercado financeiro

Clarissa Lenina Scandarolli; Ariani Di Felippo; Norton Trevisan Roman; Thiago A. S. Pardo

doi:10.5753/stil.2023.233948

Clarissa Lenina Scandarolli NILC / UFSCar http://orcid.org/0009-0009-9142-6771
Ariani Di Felippo NILC / UFSCar https://orcid.org/0000-0002-4566-9352
Norton Trevisan Roman NILC / USP http://orcid.org/0000-0002-0563-2045
Thiago A. S. Pardo NILC / USP https://orcid.org/0000-0003-2111-1319

DOI: https://doi.org/10.5753/stil.2023.233948

Resumo

Twitter é uma fonte atrativa de informação para várias aplicações do Processamento Automático das Línguas Naturais (PLN), especialmente análise de sentimento e mineração de opinião. Neste artigo, apresenta-se uma descrição de fenômenos ortográficos e lexicais em um corpus de tweets do mercado financeiro em português. Como resultado, propõe-se uma tipologia dos fenômenos que pode auxiliar na definição de diretrizes de anotação segundo o modelo gramatical Universal Dependencies e no desenvolvimento de aplicações de PLN que façam a desambiguação de termos ou a ordenação probabilística de opções, como ocorre com a escolha das sugestões ortográficas apresentadas ao usuário em um corretor ortográfico.

Palavras-chave: corpus, tweet, fenômeno linguístico

Referências

Bertaglia, T.F.C. (2017). Normalização textual de conteúdo gerado por usuário. Dissertação, Instituto de Ciências Matemáticas e de Computação, USP, São Carlos.

Damerau, F. J. (1964). A technique for computer detection and correction of spelling errors. Communications of the ACM, 7(3):171–176.

Di-Felippo, A.; Postali, C.; Ceregatto, G.; Gazana, L.S.; Silva, E.H.; Roman, N.T.; Pardo, T.A.S. (2021). Descrição preliminar do corpus DANTEStocks: diretrizes de segmentação para anotação segundo Universal Dependencies. In the Proceedings of the 7th Workshop on Portuguese Description (JDP), p. 335-343.

Faraco, C. A. (2008). Norma culta brasileira: desatando alguns nós. SP: Parábola Editorial.

Gimenes, P., Roman, N. T., Carvalho, A. M. B. R. (2015). Spelling error patterns in Brazilian Portuguese. Computational Linguistics, 41(1): 175–183.

Luotolahti, J., et al. (2015). Towards universal web parsebanks. In the Proceedings of the 3rd Depling 2015, p. 211–220. Uppsala University.

Nivre, J. et al. (2016). Universal Dependencies v1: a multilingual treebank collection. In the Proceedings of the 10th LREC, p.1659-66. Portorož. ELRA

Plutchik R., Kellerman, H. (ed.) (1986) Emotion: theory, research and experience. NY: Acad. Press.

Sanguinetti, M., Bosco, C., Cassidy, L., Çetinoğlu, Ö., Cignarella, A.T., Lynn, T., Rehbein, I. Ruppenhofer, J., Seddah, D., Zeldes, A. (2020). Treebanking user-generated content: a proposal for a unified representation in universal dependencies. In the Proceedings of the 12th LREC. p. 5240-50. Marseille, France. ELRA

Silva, F.J.V., Roman, N.T., Carvalho, A.M.B.R. (2020). Stock market tweets annotated with emotions. In Corpora, 15(3), p. 343-354. Online ISSN: 1755-1676.

Straka, M. (2018) UDPipe 2.0 prototype at CoNLL 2018 UD shared task. In the Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 197–207, Brussels, Belgium. ACL.