Um Pipeline de Pré-Processamento de Dados Textuais em Português para Análise de Redes Sociais

Livia A. dos Santos; Orlando B. Coelho; Renata Araujo; Ivan Carlos A. Oliveira

doi:10.5753/stil.2024.245373

Livia A. dos Santos UPM http://orcid.org/0009-0008-8409-0272
Orlando B. Coelho UPM https://orcid.org/0000-0002-8631-1090
Renata Araujo UPM / USP https://orcid.org/0000-0002-8674-1728
Ivan Carlos A. Oliveira UPM https://orcid.org/0000-0002-6020-7535

DOI: https://doi.org/10.5753/stil.2024.245373

Resumo

O pré-processamento é uma etapa fundamental no processamento de dados textuais, especialmente quando se trabalha com análise de textos, mineração de dados ou aprendizagem de máquina. Em particular, os dados textuais provenientes das redes sociais oferecem desafios ao pré-processamento, principalmente devido a sua estrutura informal. Este artigo apresenta um pipeline compreendendo 9 atividades básicas de processamento para garantia da qualidade e consistência de conjuntos de dados textuais em português brasileiro extraídos de redes sociais. O pipeline foi testado em conjuntos de 8 mil, 20 mil e 60 mil tweets, demonstrando sua eficácia em termos de precisão, redução de ruído e tempo de processamento.

Palavras-chave: Aplicações de processamento de linguagem natural, Ferramentas e recursos de linguagem natural, Pré-processamento de texto, Redes sociais, Português brasileiro, Normalização

Referências

Cardozo, L. S. e Freitas, L. A. (2021) “Análise de Sentimentos: Avaliando o Desempenho de Pré-Processamento e de Algoritmos de Aprendizagem de Máquina sobre o Dataset TweetSentBR”, Em: Brazilian Workshop on Social Network Analysis and Mining. Evento Online. Sociedade Brasileira de Computação. p. 169-174. DOI: 10.5753/brasnam.2021.16135.

Di Felippo, A., Postali, C., Ceregatto, G., Gazana, L. S., Silva, E. H., Roman,N. T., Pardo, T. A. S. (2021). Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In: Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. SBC. DOI: 10.5753/stil.2021.17813

França, T. C. e Oliveira, J. (2014) “Análise de Sentimento de Tweets Relacionados aos Protestos que ocorreram no Brasil entre Junho e Agosto de 2013”. Em: Brazilian Workshop on Social Network Analysis and Mining. Brasília. Sociedade Brasileira de Computação. p. 128-139.

Garcia, L. Q., Chinellato, M. H., Caseli, H. M., Oliveira, L. H. M. (2023) “Pipeline para identificação de erros lexicais e geração de sugestões de correção”. Em: Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana (STIL). Belo Horizonte/MG. Sociedade Brasileira de Computação. p. 357-361. DOI: 10.5753/stil.2023.234034

Kansaon, D. P., Brandão, M. A. e Pinto, S. A. P. (2018). “Análise de Sentimentos em Tweets em Português Brasileiro” Em: Brazilian Workshop on Social Network Analysis and Mining. Natal. Sociedade Brasileira de Computação, 2018. DOI: 10.5753/brasnam.2018.3578

Kurniawan, S., Gata, W., Puspitawati, D.A., Parthama, I.K.S, Setiawan, H. e Hartini, S. (2020) “Text Mining Pre-Processing Using Gata Framework and RapidMiner for Indonesian Sentiment Analysis” Em: IOP Conference Series: Materials Science and Engineering. IOP Publishing. p. 012057. DOI: 10.1088/1757-899X/835/1/012057

Medeiros, M. C. e Borges, V. R. P.(2019) “Tweet Sentiment Analysis Regarding the Brazilian Stock Market” En: Brazilian Workshop on Social Network Analysis and Mining. Belém. Sociedade Brasileira de Computação. p. 71-82. DOI: 10.5753/brasnam.2019.6550

Nascimento, R. S., Santos, G., Carvalho, F e Guedes, G. (2021) “Avaliando contribuições na substituição de termos informais em classificação de texto de redes sociais com NetSpeak-BR”. Em: Brazilian Workshop on Social Network Analysis and Mining. Evento Online. Sociedade Brasileira de Computação. p. 181-186. DOI: 10.5753/brasnam.2021.16137

Osakwe, Z. T. e Cortés, Y. I. (2021) “Impact of COVID-19: a text mining analysis of Twitter data in Spanish language” Em: Hispanic Health Care International, v. 19, n. 4, p. 239-245. DOI: 10.1177/15404153211020453

Sanguinetti, M., Bosco, C., Cassidy, L., Çetinoğlu, Ö., Cignarella, A. T., Lynn, T., Rehbein, I., Ruppenhofer, J., Seddah, D. e Zeldes, A. (2020). “Treebanking user-generated content: a UD based overview of guidelines, corpora and unified recommendations”. Available in: [link]. DOI: 10.48550/arXiv.2011.02063

Shen, C., Chen, M. e Wang, C. (2019) “Analyzing the trend of O2O commerce by bilingual text mining on social media” Em: Computers in Human Behavior, v. 101, p. 474-483 DOI: 10.1016/j.chb.2018.09.031

Souza, B. Á., Almeida, T. G., Menezes, A. A., Figueired, C. M. S., Nakamura, F. G. e Nakamura, E. F. (2017) “Uma Abordagem para Detecção de Tópicos Relevantes em Redes Sociais Online” En: Brazilian Workshop on Social Network Analysis and Mining. São Paulo. Sociedade Brasileira de Computação. DOI: 10.5753/brasnam.2017.3264

Yang, Sidi, Zhang, Haiyi. (2018) “Text mining of Twitter data using a latent Dirichlet allocation topic model and sentiment analysis” Em: International Journal of Computer and Information Engineering, v. 12, n. 7, p. 525-529.