Classification of Police Reports Using BERT-Based Language Models
Abstract
The Public Security sector has adopted trends in the application of data science and mining, driven by the volume of data generated daily and the automation and improvement of internal processes. This study proposes the application of language models based on BERT to classify crimes in police reports in Marabá, Pará. The results highlighted that BERT and RoBERTa achieved the best performances, with accuracy between 89% and 90% for ten classes related to more frequent crimes. This classification automation can speed up the process of consolidating police reports, reducing the need for manual work.
References
CASTRO, U. R. M. (2020). Explorando aprendizagem supervisionada em dados heterogêneos para predição de crimes. Dissertação de Mestrado, Programa de Pós-Graduação em Informática, Pontifícia Universidade Católica de Minas Gerais.
DEVLIN, J., Chang, M., Lee, K., and Toutanova, K. (2018). BERT: pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, USA.
LAN, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., and Soricut, R. (2019). ALBERT: a lite BERT for self-supervised learning of language representations. In Proceedings of the 37th International Conference on Machine Learning (ICML), Vienna, Austria.
LIU, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). RoBERTa: a robustly optimized bert pretraining approach. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China.
MATOS, H. M. R. (2022). Um Classificador Supervisionado para Relatos Policiais no Estado do Pará. Trabalho de Conclusão de Curso, Curso de Ciência da Computação, Universidade Federal do Pará.
PADUA, M. (2020). Machine Learning Métricas de avaliação: Acurácia, Precisão e Recall, F1-score. Disponível em: [link] (Acesso em: 02/04/2024).
PASZKE, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Kopf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., and Chintala, S. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library. In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E., and Garnett, R., editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. Curran Associates, Inc.
PEDREGOSA, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.
REGATEIRO, H. A. S. (2021). Avaliação da criminalidade em Belém e no Estado do Pará. Dissertação de Mestrado, Programa de Pós-Graduação em Segurança Pública, Universidade Federal do Pará, Universidade Federal do Pará.
SOUZA, S. (2022). Mineração de Dados em Bancos de Dados de Segurança Pública no Estado do Pará. Dissertação de Mestrado, Programa de Pós-Graduação em Ciência da Computação, Universidade Federal do Pará.
SOUZA, S., Matos, H., Costa, C., and Filho, R. S. (2022a). Data Mining in Public Security Databases in Belém, Pará, Brazil. Anais da Escola Regional de Alto Desempenho Norte 2 (ERAD-NO2) e Escola Regional de Aprendizado de Máquina e Inteligência Artificial Norte 2 (ERAMIA-NO2), pages 33–36.
SOUZA, S., Matos, H., Filho, R., and Costa, J. (2022b). Data Mining and Analysis Applied to Public Security Data in Belém of Pará, Brazil. CONTECSI USP - International Conference on Information Systems and Technology Management - ISSN 2448-1041.
