Avaliando contribuições na substituição de termos informais em classificação de texto de redes sociais com NetSpeak-BR

  • Rodolpho da Silva Nascimento CEFET/RJ
  • Gabriel dos Santos CEFET/RJ
  • Flávio Carvalho CEFET/RJ
  • Gustavo Guedes CEFET/RJ

Resumo


NetSpeak (NS) é um conjunto de palavras informais caracterizadas por uma variação criativa na escrita, com o uso abreviaturas, grafia fonética e outros neologismos. Os termos NS são muito comuns em comunicações escritas em plataformas de redes sociais online, sendo assim tratados em tarefas de pré-processamento para obter melhores resultados nas tarefas de classificação. Este trabalho analisa a contribuição da normalização de dados considerando a troca de termos informais (NS) por termos formais, utilizando o léxico NetSpeak-BR. Embora os resultados tenham indicado um aumento de desempenho usando diferentes algoritmos de classificação de aprendizado de máquina, essa melhoria não foi consistente para diferentes redes sociais.

Palavras-chave: NetSpeak, mineração de textos, redes sociais

Referências

Aleksic-Maslac, K., Bulatovic, V., and Biocina, Z. (2019). Netspeak in asynchronous student-student discussion among different faculty, gender and language groups. In 2019 IEEE Frontiers in Education Conference (FIE), pages 1–6.

Danet, B. and Herring, S. C. (2007). The multilingual internet. Journal of Computer Mediated Communication.

Gehan, E. A. (1965). A generalized wilcoxon test for comparing arbitrarily singlycensored samples. Biometrika, 52(1-2):203–224.

Kerby, D. S. (2014). The simple difference formula: An approach to teaching nonparametric correlation. Comprehensive Psychology, 3:11–IT.

Liu, H. and Setiono, R. (1995). Chi2: Feature selection and discretization of numeric attributes. In Proceedings of 7th IEEE International Conference on Tools with Artificial Intelligence, pages 388–391. IEEE.

Liu, W. and Liu, W. (2014). Analysis on the word-formation of english netspeak neologism. Journal of Arts and Humanities, 3(12):22–30.

Mamgain, N., Pant, B., and Mittal, A. (2016). Categorical data analysis and pattern mining of top colleges in india by using Twitter data. In 2016 8th International Conference on Computational Intelligence and Communication Networks (CICN), pages 341–345.

Nascimento, R., Santos, L. F., and Guedes, G. P. (2019). Netspeak-br: Um léxico sobre expressões criadas na língua portuguesa brasileira para a internet. Conference: STIL 2019 - XII Symposium in Information and Human Language Technology At: Salvador, BA, Brazil.

Olagunju, T., Oyebode, O., and Orji, R. (2020). Exploring key issues affecting african mobile ecommerce applications using sentiment and thematic analysis. IEEE Access, 8:114475–114486.

Ott, B. L. (2017). The age of Twitter: Donald J. Trump and the politics of debasement. Critical studies in media communication, 34(1):59–68.

Oyong, I., Utami, E., and Luthfi, E. T. (2018). Natural language processing and lexical approach for depression symptoms screening of indonesian twitter user. 2018 10th International Conference on Information Technology and Electrical Engineering (ICITEE).

Setiyaningrum, Y. D., Herdajanti, A. F., Supriyanto, C., and Muljono (2019). Classification of Twitter contents using chi-square and k-nearest neighbour algorithm. In 2019 International Seminar on Application for Technology of Information and Communication (iSemantic), pages 1–4.

Tadesse, M. M., Lin, H., Xu, B., and Yang, L. (2019). Detection of depression-related posts in reddit social media forum. IEEE Access, 7:44883–44893.

Wang, Z. and Qu, Z. (2017). Research on web text classification algorithm based on improved CNN and SVM. In 2017 IEEE 17th International Conference on Communication Technology (ICCT), pages 1958–1961.
Publicado
18/07/2021
NASCIMENTO, Rodolpho da Silva; SANTOS, Gabriel dos; CARVALHO, Flávio; GUEDES, Gustavo. Avaliando contribuições na substituição de termos informais em classificação de texto de redes sociais com NetSpeak-BR. In: BRAZILIAN WORKSHOP ON SOCIAL NETWORK ANALYSIS AND MINING (BRASNAM), 10. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 181-186. ISSN 2595-6094. DOI: https://doi.org/10.5753/brasnam.2021.16137.