A Portuguese Textual Data Pre-Processing Pipeline for Social Network Analysis
Abstract
Preprocessing is a fundamental step in processing textual data, especially when working with text analysis, data mining or machine learning. In particular, textual data from social networks offers challenges to pre-processing, mainly due to its informal structure. This article presents a pipeline to perform 9 basic processing activities to guarantee the quality and consistency of brazilian Portuguese textual data sets extracted from social networks. Tests were conducted on datasets containing 8,000, 20,000, and 60,000 tweets, demonstrating the pipeline's performance in terms of accuracy, noise reduction, and processing time.
References
Di Felippo, A., Postali, C., Ceregatto, G., Gazana, L. S., Silva, E. H., Roman,N. T., Pardo, T. A. S. (2021). Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC. DOI: 10.5753/stil.2021.17813
França, T. C. e Oliveira, J. (2014) “Análise de Sentimento de Tweets Relacionados aos Protestos que ocorreram no Brasil entre Junho e Agosto de 2013”. Em: Brazilian Workshop on Social Network Analysis and Mining. Brasília. Sociedade Brasileira de Computação. p. 128-139.
Garcia, L. Q., Chinellato, M. H., Caseli, H. M., Oliveira, L. H. M. (2023) “Pipeline para identificação de erros lexicais e geração de sugestões de correção”. Em: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Belo Horizonte/MG. Sociedade Brasileira de Computação. p. 357-361. DOI: 10.5753/stil.2023.234034
Kansaon, D. P., Brandão, M. A. e Pinto, S. A. P. (2018). “Análise de Sentimentos em Tweets em Português Brasileiro” Em: Brazilian Workshop on Social Network Analysis and Mining. Natal. Sociedade Brasileira de Computação, 2018. DOI: 10.5753/brasnam.2018.3578
Kurniawan, S., Gata, W., Puspitawati, D.A., Parthama, I.K.S, Setiawan, H. e Hartini, S. (2020) “Text Mining Pre-Processing Using Gata Framework and RapidMiner for Indonesian Sentiment Analysis” Em: IOP Conference Series: Materials Science and Engineering. IOP Publishing. p. 012057. DOI: 10.1088/1757-899X/835/1/012057
Medeiros, M. C. e Borges, V. R. P.(2019) “Tweet Sentiment Analysis Regarding the Brazilian Stock Market” En: Brazilian Workshop on Social Network Analysis and Mining. Belém. Sociedade Brasileira de Computação. p. 71-82. DOI: 10.5753/brasnam.2019.6550
Nascimento, R. S., Santos, G., Carvalho, F e Guedes, G. (2021) “Avaliando contribuições na substituição de termos informais em classificação de texto de redes sociais com NetSpeak-BR”. Em: Brazilian Workshop on Social Network Analysis and Mining. Evento Online. Sociedade Brasileira de Computação. p. 181-186. DOI: 10.5753/brasnam.2021.16137
Osakwe, Z. T. e Cortés, Y. I. (2021) “Impact of COVID-19: a text mining analysis of Twitter data in Spanish language” Em: Hispanic Health Care International, v. 19, n. 4, p. 239-245. DOI: 10.1177/15404153211020453
Sanguinetti, M., Bosco, C., Cassidy, L., Çetinoğlu, Ö., Cignarella, A. T., Lynn, T., Rehbein, I., Ruppenhofer, J., Seddah, D. e Zeldes, A. (2020). “Treebanking user-generated content: a UD based overview of guidelines, corpora and unified recommendations”. Available in: [link]. DOI: 10.48550/arXiv.2011.02063
Shen, C., Chen, M. e Wang, C. (2019) “Analyzing the trend of O2O commerce by bilingual text mining on social media” Em: Computers in Human Behavior, v. 101, p. 474-483 DOI: 10.1016/j.chb.2018.09.031
Souza, B. Á., Almeida, T. G., Menezes, A. A., Figueired, C. M. S., Nakamura, F. G. e Nakamura, E. F. (2017) “Uma Abordagem para Detecção de Tópicos Relevantes em Redes Sociais Online” En: Brazilian Workshop on Social Network Analysis and Mining. São Paulo. Sociedade Brasileira de Computação. DOI: 10.5753/brasnam.2017.3264
Yang, Sidi, Zhang, Haiyi. (2018) “Text mining of Twitter data using a latent Dirichlet allocation topic model and sentiment analysis” Em: International Journal of Computer and Information Engineering, v. 12, n. 7, p. 525-529.
