Classificação de boletins de ocorrência de crimes digitais com Aprendizado de Máquina

Resumo


O estudo investigou o crescimento do estelionato virtual em Cuiabá no ano de 2024. Para auxiliar no enfrentamento desse crime, foram aplicadas técnicas de Processamento de Linguagem Natural (PLN) e desenvolvidos quatro modelos de Aprendizado de Máquina com as representações TF-IDF e Word2Vec, utilizando os algoritmos Random Forest e Naive Bayes. O melhor resultado foi obtido com Random Forest e TF-IDF (acurácia de 0.95), enquanto o pior foi com Naive Bayes e Word2Vec (0.59). Os resultados demonstram o potencial do uso de Aprendizado de Máquina na classificação de crimes cibernéticos, contribuindo para o avanço da segurança digital.
Palavras-chave: Estelionato Digital, Processamento de Linguagem Natural, Aprendizado de Máquina, Classificação

Referências

AHMED, W.; NAFIS, M. T.; BISWAS, S. S. Performance analysis of naı̈ve bayes algorithm on crime data using rapid miner. International Journal of Advanced Research in Computer Science, v. 8, n. 5, May–June 2017. ISSN 0976-5697.

ALCADIPANI et al. Anuário Brasileiro de Segurança Pública 2024. São Paulo: Fórum Brasileiro de Segurança Pública, 2024. ISSN 1983-7364.

ALMEIDA, M. G. de et al. Utilização de machine learning para classificaç ao de crimes de morte no estado de são paulo. 2022.

BRANDENBURG, M. Text Classification of Dutch police records. Dissertação (Mestrado) — Utrecht University, 2017.

BRASIL. Lei nº 14.155, de 27 de maio de 2021. Brasília, DF, 2021. Disponível em: [link].

CHAWLA, N. V. et al. Smote: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, AI Access Foundation and Morgan Kaufmann Publishers, v. 16, p. 321–357, 2002.

CHIEW, K. L.; YONG, K. S. C.; TAN, C. L. A survey of phishing attacks: Their types, vectors and technical approaches. Expert Systems with Applications, v. 106, p. 1–20, 2018. ISSN 0957-4174. Disponível em: [link].

CHINGMUANKIM; JINDAL, R. Classification and analysis of textual data using naive bayes with tf-idf. New Delhi, India, 2023.

FERREIRA, M. F. G. Estelionato e ambiente virtual: Desafios para agências policiais em Minas Gerais a partir do olhar da complexidade e das Ciências Policiais. Dissertação (Mestrado) — Universidade do Estado de Minas Gerais, 2024.

HADLINGTON, L. et al. A qualitative exploration of police officers’ experiences, challenges, and perceptions of cybercrime. Policing: A Journal of Policy and Practice, v. 15, n. 1, p. 34–43, 12 2018.

HARKIN, D.; WHELAN, C.; CHANG, L. The challenges facing specialist police cybercrime units: an empirical analysis. Police Practice and Research, Routledge, v. 19, n. 6, p. 519–536, 2018. DOI: 10.1080/15614263.2018.1507889.

HENRIQUES, T. A.; GONçALVES, S. M. Crimes digitais: análise sobre o estelionato virtual. Revista Eletrônica de Ciências Jurídicas, v. 14, n. 1, out. 2024. Disponível em: [link].

KUMAR, K. B. S.; BHALAJI, N. A study on classification algorithms for crime records. In: UNAL, A. et al. (Ed.). Smart Trends in Information Technology and Computer Communications. Singapore: Springer Nature Singapore, 2016. p. 873–880. ISBN 978-981-10-3433-6.

LAL, S. et al. Analysis and classification of crime tweets. Procedia Computer Science, v. 167, p. 1911–1919, 2020. ISSN 1877-0509. International Conference on Computational Intelligence and Data Science. Disponível em: [link].

LIMA, R. S. d.; BUENO, S. Anuário Brasileiro de Segurança Pública 2023. São Paulo: Fórum Brasileiro de Segurança Pública, 2023. ISSN 1983-7364.

MANDALAPU, V. et al. Crime prediction using machine learning and deep learning: A systematic review and future directions. IEEE Access, v. 11, p. 60153–60170, 2023.

MIKOLOV, T. et al. Efficient Estimation of Word Representations in Vector Space. 2013. Disponível em: [link].

NIVETTE, A. E. et al. A global analysis of the impact of covid-19 stay-at-home restrictions on crime. Nature Human Behaviour, v. 5, n. 7, p. 868–877, 2021. ISSN 2397-3374. DOI: 10.1038/s41562-021-01139-z.

PADIRAYON, L. M. et al. Mining the crime data using naı̈ve bayes model. Indonesian Journal of Electrical Engineering and Computer Science, v. 23, n. 2, p. 1084–1092, August 2021. ISSN 2502-4752.

PASSOS, E. H. d. S. et al. Identificação e classificação de dados sensíveis usando técnicas de processamento de linguagem natural (pln). Revista Direitos Democráticos & Estado Moderno, v. 3, n. 12, 2024.

RAMOS, J. Using tf-idf to determine word relevance in document queries. In: CITESEER. Proceedings of the first instructional conference on machine learning. [S.l.], 2003. v. 242, n. 1, p. 29–48.

RIEGO, N. C. R.; VILLARBA, D. B. Utilization of multinomial naive bayes algorithm and term frequency-inverse document frequency (tf-idf vectorizer) in checking the cre dibility of news tweet in the philippines. General Luna, corner Muralla St, Intramuros, Manila, 1002 Metro Manila, 2023.
Publicado
12/11/2025
DIAS, Ana Paula Vieira; ARAUJO, Nelcileno Virgilio de Souza. Classificação de boletins de ocorrência de crimes digitais com Aprendizado de Máquina. In: ESCOLA REGIONAL DE INFORMÁTICA DE MATO GROSSO (ERI-MT), 14. , 2025, Pontes e Lacerda/MT. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 273-282. ISSN 2447-5386. DOI: https://doi.org/10.5753/eri-mt.2025.17201.