Classificação de boletins de ocorrência de crimes digitais com Aprendizado de Máquina
Resumo
O estudo investigou o crescimento do estelionato virtual em Cuiabá no ano de 2024. Para auxiliar no enfrentamento desse crime, foram aplicadas técnicas de Processamento de Linguagem Natural (PLN) e desenvolvidos quatro modelos de Aprendizado de Máquina com as representações TF-IDF e Word2Vec, utilizando os algoritmos Random Forest e Naive Bayes. O melhor resultado foi obtido com Random Forest e TF-IDF (acurácia de 0.95), enquanto o pior foi com Naive Bayes e Word2Vec (0.59). Os resultados demonstram o potencial do uso de Aprendizado de Máquina na classificação de crimes cibernéticos, contribuindo para o avanço da segurança digital.
Palavras-chave:
Estelionato Digital, Processamento de Linguagem Natural, Aprendizado de Máquina, Classificação
Referências
AHMED, W.; NAFIS, M. T.; BISWAS, S. S. Performance analysis of naı̈ve bayes algorithm on crime data using rapid miner. International Journal of Advanced Research in Computer Science, v. 8, n. 5, May–June 2017. ISSN 0976-5697.
ALCADIPANI et al. Anuário Brasileiro de Segurança Pública 2024. São Paulo: Fórum Brasileiro de Segurança Pública, 2024. ISSN 1983-7364.
ALMEIDA, M. G. de et al. Utilização de machine learning para classificaç ao de crimes de morte no estado de são paulo. 2022.
BRANDENBURG, M. Text Classification of Dutch police records. Dissertação (Mestrado) — Utrecht University, 2017.
BRASIL. Lei nº 14.155, de 27 de maio de 2021. Brasília, DF, 2021. Disponível em: [link].
CHAWLA, N. V. et al. Smote: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, AI Access Foundation and Morgan Kaufmann Publishers, v. 16, p. 321–357, 2002.
CHIEW, K. L.; YONG, K. S. C.; TAN, C. L. A survey of phishing attacks: Their types, vectors and technical approaches. Expert Systems with Applications, v. 106, p. 1–20, 2018. ISSN 0957-4174. Disponível em: [link].
CHINGMUANKIM; JINDAL, R. Classification and analysis of textual data using naive bayes with tf-idf. New Delhi, India, 2023.
FERREIRA, M. F. G. Estelionato e ambiente virtual: Desafios para agências policiais em Minas Gerais a partir do olhar da complexidade e das Ciências Policiais. Dissertação (Mestrado) — Universidade do Estado de Minas Gerais, 2024.
HADLINGTON, L. et al. A qualitative exploration of police officers’ experiences, challenges, and perceptions of cybercrime. Policing: A Journal of Policy and Practice, v. 15, n. 1, p. 34–43, 12 2018.
HARKIN, D.; WHELAN, C.; CHANG, L. The challenges facing specialist police cybercrime units: an empirical analysis. Police Practice and Research, Routledge, v. 19, n. 6, p. 519–536, 2018. DOI: 10.1080/15614263.2018.1507889.
HENRIQUES, T. A.; GONçALVES, S. M. Crimes digitais: análise sobre o estelionato virtual. Revista Eletrônica de Ciências Jurídicas, v. 14, n. 1, out. 2024. Disponível em: [link].
KUMAR, K. B. S.; BHALAJI, N. A study on classification algorithms for crime records. In: UNAL, A. et al. (Ed.). Smart Trends in Information Technology and Computer Communications. Singapore: Springer Nature Singapore, 2016. p. 873–880. ISBN 978-981-10-3433-6.
LAL, S. et al. Analysis and classification of crime tweets. Procedia Computer Science, v. 167, p. 1911–1919, 2020. ISSN 1877-0509. International Conference on Computational Intelligence and Data Science. Disponível em: [link].
LIMA, R. S. d.; BUENO, S. Anuário Brasileiro de Segurança Pública 2023. São Paulo: Fórum Brasileiro de Segurança Pública, 2023. ISSN 1983-7364.
MANDALAPU, V. et al. Crime prediction using machine learning and deep learning: A systematic review and future directions. IEEE Access, v. 11, p. 60153–60170, 2023.
MIKOLOV, T. et al. Efficient Estimation of Word Representations in Vector Space. 2013. Disponível em: [link].
NIVETTE, A. E. et al. A global analysis of the impact of covid-19 stay-at-home restrictions on crime. Nature Human Behaviour, v. 5, n. 7, p. 868–877, 2021. ISSN 2397-3374. DOI: 10.1038/s41562-021-01139-z.
PADIRAYON, L. M. et al. Mining the crime data using naı̈ve bayes model. Indonesian Journal of Electrical Engineering and Computer Science, v. 23, n. 2, p. 1084–1092, August 2021. ISSN 2502-4752.
PASSOS, E. H. d. S. et al. Identificação e classificação de dados sensíveis usando técnicas de processamento de linguagem natural (pln). Revista Direitos Democráticos & Estado Moderno, v. 3, n. 12, 2024.
RAMOS, J. Using tf-idf to determine word relevance in document queries. In: CITESEER. Proceedings of the first instructional conference on machine learning. [S.l.], 2003. v. 242, n. 1, p. 29–48.
RIEGO, N. C. R.; VILLARBA, D. B. Utilization of multinomial naive bayes algorithm and term frequency-inverse document frequency (tf-idf vectorizer) in checking the cre dibility of news tweet in the philippines. General Luna, corner Muralla St, Intramuros, Manila, 1002 Metro Manila, 2023.
ALCADIPANI et al. Anuário Brasileiro de Segurança Pública 2024. São Paulo: Fórum Brasileiro de Segurança Pública, 2024. ISSN 1983-7364.
ALMEIDA, M. G. de et al. Utilização de machine learning para classificaç ao de crimes de morte no estado de são paulo. 2022.
BRANDENBURG, M. Text Classification of Dutch police records. Dissertação (Mestrado) — Utrecht University, 2017.
BRASIL. Lei nº 14.155, de 27 de maio de 2021. Brasília, DF, 2021. Disponível em: [link].
CHAWLA, N. V. et al. Smote: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, AI Access Foundation and Morgan Kaufmann Publishers, v. 16, p. 321–357, 2002.
CHIEW, K. L.; YONG, K. S. C.; TAN, C. L. A survey of phishing attacks: Their types, vectors and technical approaches. Expert Systems with Applications, v. 106, p. 1–20, 2018. ISSN 0957-4174. Disponível em: [link].
CHINGMUANKIM; JINDAL, R. Classification and analysis of textual data using naive bayes with tf-idf. New Delhi, India, 2023.
FERREIRA, M. F. G. Estelionato e ambiente virtual: Desafios para agências policiais em Minas Gerais a partir do olhar da complexidade e das Ciências Policiais. Dissertação (Mestrado) — Universidade do Estado de Minas Gerais, 2024.
HADLINGTON, L. et al. A qualitative exploration of police officers’ experiences, challenges, and perceptions of cybercrime. Policing: A Journal of Policy and Practice, v. 15, n. 1, p. 34–43, 12 2018.
HARKIN, D.; WHELAN, C.; CHANG, L. The challenges facing specialist police cybercrime units: an empirical analysis. Police Practice and Research, Routledge, v. 19, n. 6, p. 519–536, 2018. DOI: 10.1080/15614263.2018.1507889.
HENRIQUES, T. A.; GONçALVES, S. M. Crimes digitais: análise sobre o estelionato virtual. Revista Eletrônica de Ciências Jurídicas, v. 14, n. 1, out. 2024. Disponível em: [link].
KUMAR, K. B. S.; BHALAJI, N. A study on classification algorithms for crime records. In: UNAL, A. et al. (Ed.). Smart Trends in Information Technology and Computer Communications. Singapore: Springer Nature Singapore, 2016. p. 873–880. ISBN 978-981-10-3433-6.
LAL, S. et al. Analysis and classification of crime tweets. Procedia Computer Science, v. 167, p. 1911–1919, 2020. ISSN 1877-0509. International Conference on Computational Intelligence and Data Science. Disponível em: [link].
LIMA, R. S. d.; BUENO, S. Anuário Brasileiro de Segurança Pública 2023. São Paulo: Fórum Brasileiro de Segurança Pública, 2023. ISSN 1983-7364.
MANDALAPU, V. et al. Crime prediction using machine learning and deep learning: A systematic review and future directions. IEEE Access, v. 11, p. 60153–60170, 2023.
MIKOLOV, T. et al. Efficient Estimation of Word Representations in Vector Space. 2013. Disponível em: [link].
NIVETTE, A. E. et al. A global analysis of the impact of covid-19 stay-at-home restrictions on crime. Nature Human Behaviour, v. 5, n. 7, p. 868–877, 2021. ISSN 2397-3374. DOI: 10.1038/s41562-021-01139-z.
PADIRAYON, L. M. et al. Mining the crime data using naı̈ve bayes model. Indonesian Journal of Electrical Engineering and Computer Science, v. 23, n. 2, p. 1084–1092, August 2021. ISSN 2502-4752.
PASSOS, E. H. d. S. et al. Identificação e classificação de dados sensíveis usando técnicas de processamento de linguagem natural (pln). Revista Direitos Democráticos & Estado Moderno, v. 3, n. 12, 2024.
RAMOS, J. Using tf-idf to determine word relevance in document queries. In: CITESEER. Proceedings of the first instructional conference on machine learning. [S.l.], 2003. v. 242, n. 1, p. 29–48.
RIEGO, N. C. R.; VILLARBA, D. B. Utilization of multinomial naive bayes algorithm and term frequency-inverse document frequency (tf-idf vectorizer) in checking the cre dibility of news tweet in the philippines. General Luna, corner Muralla St, Intramuros, Manila, 1002 Metro Manila, 2023.
Publicado
12/11/2025
Como Citar
DIAS, Ana Paula Vieira; ARAUJO, Nelcileno Virgilio de Souza.
Classificação de boletins de ocorrência de crimes digitais com Aprendizado de Máquina. In: ESCOLA REGIONAL DE INFORMÁTICA DE MATO GROSSO (ERI-MT), 14. , 2025, Pontes e Lacerda/MT.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 273-282.
ISSN 2447-5386.
DOI: https://doi.org/10.5753/eri-mt.2025.17201.
