Subsídios Linguísticos para Classificação Automática de Textos de User-Generated Content
Resumo
Este estudo visa classificar as estruturas de textos User-Generated Content (UGC), usando o corpus DANTE-stocks, composto por tweets sobre o mercado financeiro. Os textos foram analisados e classificados manualmente com critérios semânticos, coesivos e de coerência em função da estrutura linguística, resultando em três classes: (i) bem, (ii) mediamente e (iii) mal estruturado. A integração dessas abordagens oferece embasamento para o desenvolvimento de aplicações no âmbito do Processamento de Linguagem Natural com relação a textos de UGC.
Palavras-chave:
User-Generated Content (UGC), Classificação automática, Linguística computacional, Tweets, Processamento de Linguagem Natural (PLN)
Referências
Androutsopoulos, J. (2011). Language Change and Digital Media: A Review of Conceptions and Evidence. Standard languages and language standards in a changing Europe, 1, pp.145-159.
Di-Felippo et al. (2021). Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies. In Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), (pp. 335-343). Porto Alegre: SBC. DOI: 10.5753/stil.2021.17813
Eisenstein, J. (2013). Phonological Factors in Social Media Writing. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP), (pp.11-19). Atlanta: Association for Computational Linguistics.
Krumm, J.; Davies, N. e Narayanaswami, C. (2018) User-generated content. IEEE Pervasive Computing, v. 7, n. 4, pp.10-11.
Longaretti, R. B. (2021). O difícil de dizer em texto de instrução ao sósia sobre o trabalho docente: uma análise de fenômenos linguísticos prosódicos. 163f. Dissertação (Mestrado em Letras) – Programa de Pós-Graduação em Letras – Universidade Tecnológica Federal do Paraná, Pato Branco, Paraná, 2021.
Steinhauser, V. L. F., e Botassini, J. O. M. (2023). Vem sabonetar aqui fora! Um estudo multissistêmico do verbo Sabonetar sob influência do twitter e dos reality shows. Papéis: Revista do Programa de Pós-Graduação em Estudos de Linguagens -UFMS, 27(53), pp.114-138.
Tagg, C. (2012). Discourse of Text Messaging: Analysis of SMS Communication. London: Continuum.
Di-Felippo et al. (2021). Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies. In Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), (pp. 335-343). Porto Alegre: SBC. DOI: 10.5753/stil.2021.17813
Eisenstein, J. (2013). Phonological Factors in Social Media Writing. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP), (pp.11-19). Atlanta: Association for Computational Linguistics.
Krumm, J.; Davies, N. e Narayanaswami, C. (2018) User-generated content. IEEE Pervasive Computing, v. 7, n. 4, pp.10-11.
Longaretti, R. B. (2021). O difícil de dizer em texto de instrução ao sósia sobre o trabalho docente: uma análise de fenômenos linguísticos prosódicos. 163f. Dissertação (Mestrado em Letras) – Programa de Pós-Graduação em Letras – Universidade Tecnológica Federal do Paraná, Pato Branco, Paraná, 2021.
Steinhauser, V. L. F., e Botassini, J. O. M. (2023). Vem sabonetar aqui fora! Um estudo multissistêmico do verbo Sabonetar sob influência do twitter e dos reality shows. Papéis: Revista do Programa de Pós-Graduação em Estudos de Linguagens -UFMS, 27(53), pp.114-138.
Tagg, C. (2012). Discourse of Text Messaging: Analysis of SMS Communication. London: Continuum.
Publicado
17/11/2024
Como Citar
PEREIRA, Mateus Araújo; SOUZA, Jackson Wilke da Cruz.
Subsídios Linguísticos para Classificação Automática de Textos de User-Generated Content. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 429-433.
DOI: https://doi.org/10.5753/stil.2024.245132.