Classificação automática de textos de User-Generated Content utilizando Aprendizagem de Máquina Supervisionado
Resumo
Este estudo visa a construção de um classificador automático de textos User-Generated Content do corpus DANTE-Stocks. O algoritmo de classificação foi treinado de forma supervisionada, utilizando rótulos propostos por anotadores humanos e, posteriormente, associado a diferentes métodos de vetorização. Ao final, gerou-se um classificador que performa bastante próximo ao desempenho humano, ao identificar três classes propostas de organização dos tweets, a saber: (i) bem, (ii) mediamente e (iii) mal estruturado.
Referências
Di Felippo, A. et al. (2021). “Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies”. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre, Brasil: SBC, p. 335-343. DOI: 10.5753/stil.2021.17813
Haykin, S. (1994). Neural Networks: A Comprehensive Foundation. Prentice Hall PTR
Kramer, O., e Kramer, O. (2016) Scikit-learn. Machine learning for evolution strategies, p. 45-53
Mann, W. C., e Thompson, S. A. (1988). Rhetorical Structure Theory: Toward a Functional Theory of Text Organization. Text-interdisciplinary Journal for the Study of Discourse, 8(3), pp. 243–281 [link]
Mikolov, T. et al. (2013). Efficient Estimation of Word Representations in Vector Space. Preprint [link] DOI: 10.48550/arXiv.1301.3781
Monard, M. C., E Baranauskas, J. A. (2003). Conceitos sobre Aprendizado de Máquina. Sistemas Inteligentes: Fundamentos e Aplicações, 1(1), p. 1.
MOREIRA, V. P. (2024). Recuperação de Informação. In: NUNES, M. G. (Org.), Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, 2. ed. [s.l.]: BPLN. [link]
NETTO, A., e MACIEL, F. (2021). Python para Data Science e Machine Learning Descomplicado. Rio de Janeiro: Editora Alta Books, 397p.
Pereira, M.A., Souza, J.W.C. (2024). Subsídios Linguísticos para classificação automática de textos de User-Generated Content. In Anais do XV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre: SBC.
Rodrigues, R., Souza, J. W. C., e Santos, R. L. S. (2022). “Descrição Linguística e Aprendizado de Máquina: Análise de Verbos Locativos do Espanhol”. Cadernos de Estudos Linguísticos, Campinas, SP, 64(00), p. e022038. DOI: 10.20396/cel.v64i00.8666995
Souza, F., Nogueira, R., E Lotufo, R. (2020). BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Cerri, R., and Prati, R. C. (Eds.), Intelligent Systems. BRACIS 2020. Lecture Notes in Computer Science, vol. 12319, Springer, Cham. DOI: 10.1007/978-3-030-61377-8_28
Wyrwoll, C. (2014). User-Generated Content. Social Media,.In C. Wyrwoll (Ed.), Social Media: Fundamentals, Models, and Ranking of User-Generated Content. Springer Fachmedien, p 11–45 DOI: 10.1007/978-3-658-06984-1_2
Zhang, H. (2004). The Optimality of Naive Bayes. In: Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference. Florida/USA: American Association for Artificial Intelligence. p.1-6.