Linguistic Subsidies for Automatic Classification of User-Generated Content Texts
Abstract
This study aims to classify the structures of User-Generated Content (UGC) texts using the DANTE-stocks corpus, which consists of tweets about the financial market. The texts were manually analyzed and classified based on semantic, cohesive, and coherence criteria according to their linguistic structure, resulting in three classes: (i) well-structured, (ii) moderately structured, and (iii) poorly structured. The integration of these approaches provides a foundation for developing applications in the field of Natural Language Processing related to UGC texts.
Keywords:
User-Generated Content (UGC), Automatic classification, Computational linguistics, Tweets, Natural Language Processing (NLP)
References
Androutsopoulos, J. (2011). Language Change and Digital Media: A Review of Conceptions and Evidence. Standard languages and language standards in a changing Europe, 1, pp.145-159.
Di-Felippo et al. (2021). Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies. In Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), (pp. 335-343). Porto Alegre: SBC. DOI: 10.5753/stil.2021.17813
Eisenstein, J. (2013). Phonological Factors in Social Media Writing. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP), (pp.11-19). Atlanta: Association for Computational Linguistics.
Krumm, J.; Davies, N. e Narayanaswami, C. (2018) User-generated content. IEEE Pervasive Computing, v. 7, n. 4, pp.10-11.
Longaretti, R. B. (2021). O difícil de dizer em texto de instrução ao sósia sobre o trabalho docente: uma análise de fenômenos linguísticos prosódicos. 163f. Dissertação (Mestrado em Letras) – Programa de Pós-Graduação em Letras – Universidade Tecnológica Federal do Paraná, Pato Branco, Paraná, 2021.
Steinhauser, V. L. F., e Botassini, J. O. M. (2023). Vem sabonetar aqui fora! Um estudo multissistêmico do verbo Sabonetar sob influência do twitter e dos reality shows. Papéis: Revista do Programa de Pós-Graduação em Estudos de Linguagens -UFMS, 27(53), pp.114-138.
Tagg, C. (2012). Discourse of Text Messaging: Analysis of SMS Communication. London: Continuum.
Di-Felippo et al. (2021). Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies. In Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL), (pp. 335-343). Porto Alegre: SBC. DOI: 10.5753/stil.2021.17813
Eisenstein, J. (2013). Phonological Factors in Social Media Writing. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing (EMNLP), (pp.11-19). Atlanta: Association for Computational Linguistics.
Krumm, J.; Davies, N. e Narayanaswami, C. (2018) User-generated content. IEEE Pervasive Computing, v. 7, n. 4, pp.10-11.
Longaretti, R. B. (2021). O difícil de dizer em texto de instrução ao sósia sobre o trabalho docente: uma análise de fenômenos linguísticos prosódicos. 163f. Dissertação (Mestrado em Letras) – Programa de Pós-Graduação em Letras – Universidade Tecnológica Federal do Paraná, Pato Branco, Paraná, 2021.
Steinhauser, V. L. F., e Botassini, J. O. M. (2023). Vem sabonetar aqui fora! Um estudo multissistêmico do verbo Sabonetar sob influência do twitter e dos reality shows. Papéis: Revista do Programa de Pós-Graduação em Estudos de Linguagens -UFMS, 27(53), pp.114-138.
Tagg, C. (2012). Discourse of Text Messaging: Analysis of SMS Communication. London: Continuum.
Published
2024-11-17
How to Cite
PEREIRA, Mateus Araújo; SOUZA, Jackson Wilke da Cruz.
Linguistic Subsidies for Automatic Classification of User-Generated Content Texts. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY (STIL), 15. , 2024, Belém/PA.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2024
.
p. 429-433.
DOI: https://doi.org/10.5753/stil.2024.245132.
