Um Pipeline de Pré-Processamento de Dados Textuais em Português para Análise de Redes Sociais
Resumo
O pré-processamento é uma etapa fundamental no processamento de dados textuais, especialmente quando se trabalha com análise de textos, mineração de dados ou aprendizagem de máquina. Em particular, os dados textuais provenientes das redes sociais oferecem desafios ao pré-processamento, principalmente devido a sua estrutura informal. Este artigo apresenta um pipeline compreendendo 9 atividades básicas de processamento para garantia da qualidade e consistência de conjuntos de dados textuais em português brasileiro extraídos de redes sociais. O pipeline foi testado em conjuntos de 8 mil, 20 mil e 60 mil tweets, demonstrando sua eficácia em termos de precisão, redução de ruído e tempo de processamento.
Referências
Di Felippo, A., Postali, C., Ceregatto, G., Gazana, L. S., Silva, E. H., Roman,N. T., Pardo, T. A. S. (2021). Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC. DOI: 10.5753/stil.2021.17813
França, T. C. e Oliveira, J. (2014) “Análise de Sentimento de Tweets Relacionados aos Protestos que ocorreram no Brasil entre Junho e Agosto de 2013”. Em: Brazilian Workshop on Social Network Analysis and Mining. Brasília. Sociedade Brasileira de Computação. p. 128-139.
Garcia, L. Q., Chinellato, M. H., Caseli, H. M., Oliveira, L. H. M. (2023) “Pipeline para identificação de erros lexicais e geração de sugestões de correção”. Em: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Belo Horizonte/MG. Sociedade Brasileira de Computação. p. 357-361. DOI: 10.5753/stil.2023.234034
Kansaon, D. P., Brandão, M. A. e Pinto, S. A. P. (2018). “Análise de Sentimentos em Tweets em Português Brasileiro” Em: Brazilian Workshop on Social Network Analysis and Mining. Natal. Sociedade Brasileira de Computação, 2018. DOI: 10.5753/brasnam.2018.3578
Kurniawan, S., Gata, W., Puspitawati, D.A., Parthama, I.K.S, Setiawan, H. e Hartini, S. (2020) “Text Mining Pre-Processing Using Gata Framework and RapidMiner for Indonesian Sentiment Analysis” Em: IOP Conference Series: Materials Science and Engineering. IOP Publishing. p. 012057. DOI: 10.1088/1757-899X/835/1/012057
Medeiros, M. C. e Borges, V. R. P.(2019) “Tweet Sentiment Analysis Regarding the Brazilian Stock Market” En: Brazilian Workshop on Social Network Analysis and Mining. Belém. Sociedade Brasileira de Computação. p. 71-82. DOI: 10.5753/brasnam.2019.6550
Nascimento, R. S., Santos, G., Carvalho, F e Guedes, G. (2021) “Avaliando contribuições na substituição de termos informais em classificação de texto de redes sociais com NetSpeak-BR”. Em: Brazilian Workshop on Social Network Analysis and Mining. Evento Online. Sociedade Brasileira de Computação. p. 181-186. DOI: 10.5753/brasnam.2021.16137
Osakwe, Z. T. e Cortés, Y. I. (2021) “Impact of COVID-19: a text mining analysis of Twitter data in Spanish language” Em: Hispanic Health Care International, v. 19, n. 4, p. 239-245. DOI: 10.1177/15404153211020453
Sanguinetti, M., Bosco, C., Cassidy, L., Çetinoğlu, Ö., Cignarella, A. T., Lynn, T., Rehbein, I., Ruppenhofer, J., Seddah, D. e Zeldes, A. (2020). “Treebanking user-generated content: a UD based overview of guidelines, corpora and unified recommendations”. Available in: [link]. DOI: 10.48550/arXiv.2011.02063
Shen, C., Chen, M. e Wang, C. (2019) “Analyzing the trend of O2O commerce by bilingual text mining on social media” Em: Computers in Human Behavior, v. 101, p. 474-483 DOI: 10.1016/j.chb.2018.09.031
Souza, B. Á., Almeida, T. G., Menezes, A. A., Figueired, C. M. S., Nakamura, F. G. e Nakamura, E. F. (2017) “Uma Abordagem para Detecção de Tópicos Relevantes em Redes Sociais Online” En: Brazilian Workshop on Social Network Analysis and Mining. São Paulo. Sociedade Brasileira de Computação. DOI: 10.5753/brasnam.2017.3264
Yang, Sidi, Zhang, Haiyi. (2018) “Text mining of Twitter data using a latent Dirichlet allocation topic model and sentiment analysis” Em: International Journal of Computer and Information Engineering, v. 12, n. 7, p. 525-529.