Classificação de Boletins de Ocorrências através de Modelos de Linguagem baseados em BERT

  • Dhênnifer Alves UNIFESSPA
  • Marcílio Marques UNIFESSPA
  • Reginaldo Santos UFPA
  • Adam Santos UNIFESSPA

Resumo


O setor da Segurança Pública tem adotado as tendências de aplicação de ciência e mineração de dados, impulsionado pelo volume de dados gerados diariamente e pela automatização e aprimoramento dos processos internos. Este estudo propõe a aplicação de modelos de linguagem baseados em BERT para classificar crimes em relatos de boletins de ocorrências em Marabá, Pará. Os resultados mostraram que BERT e RoBERTa alcançaram as melhores performances, com acurácia entre 89% e 90% para dez classes relacionadas com crimes de maior ocorrência. Tal automação da classificação pode agilizar o processo de consolidação de boletins de ocorrências, reduzindo a necessidade de trabalho manual.

Referências

BRASIL (2019). O Sistema Nacional de Informações de Segurança Pública, Prisionais, de Rastreabilidade de Armas e Munições, de Material Genético, de Digitais e de Drogas (Sinesp). Disponível em: [link].

CASTRO, U. R. M. (2020). Explorando aprendizagem supervisionada em dados heterogêneos para predição de crimes. Dissertação de Mestrado, Programa de Pós-Graduação em Informática, Pontifícia Universidade Católica de Minas Gerais.

DEVLIN, J., Chang, M., Lee, K., and Toutanova, K. (2018). BERT: pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, USA.

LAN, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., and Soricut, R. (2019). ALBERT: a lite BERT for self-supervised learning of language representations. In Proceedings of the 37th International Conference on Machine Learning (ICML), Vienna, Austria.

LIU, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. (2019). RoBERTa: a robustly optimized bert pretraining approach. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), Hong Kong, China.

MATOS, H. M. R. (2022). Um Classificador Supervisionado para Relatos Policiais no Estado do Pará. Trabalho de Conclusão de Curso, Curso de Ciência da Computação, Universidade Federal do Pará.

PADUA, M. (2020). Machine Learning Métricas de avaliação: Acurácia, Precisão e Recall, F1-score. Disponível em: [link] (Acesso em: 02/04/2024).

PASZKE, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., Desmaison, A., Kopf, A., Yang, E., DeVito, Z., Raison, M., Tejani, A., Chilamkurthy, S., Steiner, B., Fang, L., Bai, J., and Chintala, S. (2019). PyTorch: An Imperative Style, High-Performance Deep Learning Library. In Wallach, H., Larochelle, H., Beygelzimer, A., d'Alché-Buc, F., Fox, E., and Garnett, R., editors, Advances in Neural Information Processing Systems 32, pages 8024–8035. Curran Associates, Inc.

PEDREGOSA, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830.

REGATEIRO, H. A. S. (2021). Avaliação da criminalidade em Belém e no Estado do Pará. Dissertação de Mestrado, Programa de Pós-Graduação em Segurança Pública, Universidade Federal do Pará, Universidade Federal do Pará.

SOUZA, S. (2022). Mineração de Dados em Bancos de Dados de Segurança Pública no Estado do Pará. Dissertação de Mestrado, Programa de Pós-Graduação em Ciência da Computação, Universidade Federal do Pará.

SOUZA, S., Matos, H., Costa, C., and Filho, R. S. (2022a). Data Mining in Public Security Databases in Belém, Pará, Brazil. Anais da Escola Regional de Alto Desempenho Norte 2 (ERAD-NO2) e Escola Regional de Aprendizado de Máquina e Inteligência Artificial Norte 2 (ERAMIA-NO2), pages 33–36.

SOUZA, S., Matos, H., Filho, R., and Costa, J. (2022b). Data Mining and Analysis Applied to Public Security Data in Belém of Pará, Brazil. CONTECSI USP - International Conference on Information Systems and Technology Management - ISSN 2448-1041.
Publicado
21/07/2024
ALVES, Dhênnifer; MARQUES, Marcílio; SANTOS, Reginaldo; SANTOS, Adam. Classificação de Boletins de Ocorrências através de Modelos de Linguagem baseados em BERT. In: WORKSHOP DE COMPUTAÇÃO APLICADA EM GOVERNO ELETRÔNICO (WCGE), 12. , 2024, Brasília/DF. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 169-179. ISSN 2763-8723. DOI: https://doi.org/10.5753/wcge.2024.3112.

Artigos mais lidos do(s) mesmo(s) autor(es)