Classificação automática de textos de User-Generated Content utilizando Aprendizagem de Máquina Supervisionado

Iolanda Victoria Morais Ramos; Jackson Wilke da Cruz Souza

doi:10.5753/stil.2024.245304

Iolanda Victoria Morais Ramos UFBA http://orcid.org/0009-0009-1136-7282
Jackson Wilke da Cruz Souza UFBA https://orcid.org/0000-0003-1881-6780

DOI: https://doi.org/10.5753/stil.2024.245304

Resumo

Este estudo visa a construção de um classificador automático de textos User-Generated Content do corpus DANTE-Stocks. O algoritmo de classificação foi treinado de forma supervisionada, utilizando rótulos propostos por anotadores humanos e, posteriormente, associado a diferentes métodos de vetorização. Ao final, gerou-se um classificador que performa bastante próximo ao desempenho humano, ao identificar três classes propostas de organização dos tweets, a saber: (i) bem, (ii) mediamente e (iii) mal estruturado.

Palavras-chave: Aplicações do processamento de linguagem natural, Linguística de corpus, Ferramentas e recursos de linguagem natural

Referências

Breiman, L. (2001). Random Forests. Machine Learning, 45, pp. 5–32. DOI: 10.1023/A:1010933404324

Di Felippo, A. et al. (2021). “Descrição Preliminar do Corpus DANTEStocks: Diretrizes de Segmentação para Anotação segundo Universal Dependencies”. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre, Brasil: SBC, p. 335-343. DOI: 10.5753/stil.2021.17813

Haykin, S. (1994). Neural Networks: A Comprehensive Foundation. Prentice Hall PTR

Kramer, O., e Kramer, O. (2016) Scikit-learn. Machine learning for evolution strategies, p. 45-53

Mann, W. C., e Thompson, S. A. (1988). Rhetorical Structure Theory: Toward a Functional Theory of Text Organization. Text-interdisciplinary Journal for the Study of Discourse, 8(3), pp. 243–281 [link]

Mikolov, T. et al. (2013). Efficient Estimation of Word Representations in Vector Space. Preprint [link] DOI: 10.48550/arXiv.1301.3781

Monard, M. C., E Baranauskas, J. A. (2003). Conceitos sobre Aprendizado de Máquina. Sistemas Inteligentes: Fundamentos e Aplicações, 1(1), p. 1.

MOREIRA, V. P. (2024). Recuperação de Informação. In: NUNES, M. G. (Org.), Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, 2. ed. [s.l.]: BPLN. [link]

NETTO, A., e MACIEL, F. (2021). Python para Data Science e Machine Learning Descomplicado. Rio de Janeiro: Editora Alta Books, 397p.

Pereira, M.A., Souza, J.W.C. (2024). Subsídios Linguísticos para classificação automática de textos de User-Generated Content. In Anais do XV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre: SBC.

Rodrigues, R., Souza, J. W. C., e Santos, R. L. S. (2022). “Descrição Linguística e Aprendizado de Máquina: Análise de Verbos Locativos do Espanhol”. Cadernos de Estudos Linguísticos, Campinas, SP, 64(00), p. e022038. DOI: 10.20396/cel.v64i00.8666995

Souza, F., Nogueira, R., E Lotufo, R. (2020). BERTimbau: Pretrained BERT Models for Brazilian Portuguese. In: Cerri, R., and Prati, R. C. (Eds.), Intelligent Systems. BRACIS 2020. Lecture Notes in Computer Science, vol. 12319, Springer, Cham. DOI: 10.1007/978-3-030-61377-8_28

Wyrwoll, C. (2014). User-Generated Content. Social Media,.In C. Wyrwoll (Ed.), Social Media: Fundamentals, Models, and Ranking of User-Generated Content. Springer Fachmedien, p 11–45 DOI: 10.1007/978-3-658-06984-1_2

Zhang, H. (2004). The Optimality of Naive Bayes. In: Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference. Florida/USA: American Association for Artificial Intelligence. p.1-6.