Classificação Automática de Relatos de Ocorrências Policiais para Crimes Cibernéticos em Português Brasileiro: Uma Abordagem Comparativa com Modelos Transformer
Resumo
Este trabalho investiga o uso de Transformers para classificar automaticamente boletins de ocorrência de crimes cibernéticos em português brasileiro. Foram ajustados os modelos BERTimbau-large e XLM-RoBERTa-large com amostras balanceadas de mais de 10 mil registros da polícia do Piauí. A avaliação mostrou que o BERTimbau-large teve desempenho superior e mais estável, sobretudo em cenários com forte desbalanceamento. Os principais erros decorrem da sobreposição semântica entre tipos de crime semelhantes. Os resultados indicam que modelos especializados em português são uma solução robusta para automação de triagem policial.
Referências
Amorim, M. d. S. and Pereira, J. R. S. (2019). Tipificação de ocorrências policiais utilizando machine learning.
Araújo, J. A. F. (2023). Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso.
Cer, D., Yang, Y., yi Kong, S., Hua, N., Limtiaco, N., John, R. S., Constant, N., Guajardo-Cespedes, M., Yuan, S., Tar, C., Sung, Y.-H., Strope, B., and Kurzweil, R. (2018). Universal sentence encoder.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., and Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale.
de Castro, U. R. M. (2020). Explorando aprendizagem supervisionada em dados heterogêneos para predição de crimes.
de Sousa, R. F. and Moura, R. S. (2025). Avaliação preliminar de técnicas de pln para classificação de relatos em boletins de ocorrência policial. In Encontro Unificado de Computação do Piauí(ENUCOMPI), pages 79–88. SBC.
Lin, T.-Y., Goyal, P., Girshick, R., He, K., and Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988.
Matos, H., Souza, S., Santos, R., Costa, J. W., and Costa, C. (2022). A supervised classifier for police reports at the state of pará, brazil. In ERAD-NO2 e ERAMIA-NO2.
Reimers, N. and Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks.
Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: pretrained bert models for brazilian portuguese. In Brazilian conference on intelligent systems. Springer.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
