Extração de Notícias sobre Segurança Pública para Desenvolvimento de Corpora em português: uma análise preliminar em cidades do nordeste brasileiro

  • Matheus Ryan da Silva Nascimento UFAL
  • Vagner Alves Ferreira da Silva UFAL
  • Gabriel Souza UFAL
  • Kauã Gabriel Silva de Lima UFAL
  • Ericlécio Thiago Morais de Araújo UFAL
  • Everton Reis de Souza UFAL
  • Jean Turet UFAL
  • Victor Diogho Heuer de Carvalho UFAL

Resumo


Esta pesquisa concentra-se na coleta de artigos de notícias relacionados à segurança pública para a construção de um corpus abrangente em português. Atualmente, o estudo está na fase de aquisição e processamento de textos noticiosos por meio de web scraping em sites e blogs, trazendo uma análise preliminar sobre os dados levando em consideração algumas cidades Brasileiras, adotando como metodologia a compreensão e estrutura dos sites, definição dos termos e buscas, armazenamento, processamento e análise dos dados. O principal objetivo é criar um recurso linguístico que possa ser utilizado em diversas aplicações de processamento de linguagem natural (PLN) no futuro. O corpus resultante servirá de base para o desenvolvimento de ferramentas e tecnologias capazes de analisar e compreender temas relacionados à segurança pública na língua portuguesa, contribuindo para avanços na área e para uma melhor compreensão desse cenário.

Referências

Carnaz, G.; Antunes, M.; Nogueira, V.B. An Annotated Corpus of Crime-Related Portuguese Documents for NLP and Machine Learning Processing. Data 2021, 6(7), 71.

de Carvalho, V.D.H.; Costa, A. Towards Corpora Creation from Social Web in Brazilian Portuguese to Support Public Security Analyses and Decisions. Libr. HI TECH 2022, DOI: 10.1108/LHT-08-2022-0401.

de Carvalho, V.D.H.; Nepomuceno, T.C.C.; Poleto, T.; Turet, J.G.; Costa, A.P.C.S. Mining Public Opinions on COVID-19 Vaccination: A Temporal Analysis to Support Combating Misinformation. Trop. Med. Infect. Dis. 2022, 7, 256, DOI: 10.3390/tropicalmed7100256.

de Carvalho, V. D. H., Costa, A. P. C. S.(2023). Exploring Text Mining and Analytics for Applications in Public Security: an in-depth dive into a Systematic Literature Review.Socioeconomic Analytics,1(1), 5-55.

FÓRUM BRASILEIRO DE SEGURANÇA PÚBLICA. Atlas da Violência 2023. São Paulo: FBSP; Ipea, 2023. Disponível em: [link]. Acesso em: 15 maio 2025.

FÓRUM BRASILEIRO DE SEGURANÇA PÚBLICA. Atlas da Violência 2024. São Paulo: FBSP; Ipea, 2024. Disponível em: [link]. Acesso em: 15 maio 2025.

FÓRUM BRASILEIRO DE SEGURANÇA PÚBLICA. Atlas da Violência 2025. São Paulo: FBSP; Ipea, 2025. Disponível em: [link]. Acesso em: 15 maio 2025.

Gomes, R.; Ferreira, S.; Almeida, P. Using Machine Learning to Detect Cyberbullying in Social Media: A Study in Portuguese. Cyberpsychol. Behav. Soc. Netw. 2021, 24, 78, DOI: 10.1089/cyber.2020.0456

Silva, J.R.; Santos, M.P.; Oliveira, L.F. Sentiment Analysis of Social Media Data for Crime Prediction: A Case Study in Brazil. J. Comput. Sci. 2021, 15, 45, DOI: 10.3390/jcs15020045

Suhaimin, M.S.M.; Hashim, H.; Zainol, Z.; Chien, S.F. Social Media Sentiment Analysis and Opinion Mining in Public Security: Taxonomy, Trend Analysis, Issues and Future Directions. Libr. HI TECH 2022, DOI: 10.1108/LHT-08-2022-0401.

Turet, J.; Costa, A.P.C.S. Hybrid Methodology for Analysis of Structured and Unstructured Data to Support Decision-Making in Public Security. Data 2022, 6, 91, DOI: 10.3390/data06010091.
Publicado
20/07/2025
NASCIMENTO, Matheus Ryan da Silva; SILVA, Vagner Alves Ferreira da; SOUZA, Gabriel; LIMA, Kauã Gabriel Silva de; ARAÚJO, Ericlécio Thiago Morais de; SOUZA, Everton Reis de; TURET, Jean; CARVALHO, Victor Diogho Heuer de. Extração de Notícias sobre Segurança Pública para Desenvolvimento de Corpora em português: uma análise preliminar em cidades do nordeste brasileiro. In: WORKSHOP SOBRE AS IMPLICAÇÕES DA COMPUTAÇÃO NA SOCIEDADE (WICS), 6. , 2025, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 267-276. ISSN 2763-8707. DOI: https://doi.org/10.5753/wics.2025.8540.