Classificação Automática de Relatos de Ocorrências Policiais para Crimes Cibernéticos em Português Brasileiro: Uma Abordagem Comparativa com Modelos Transformer

  • Victor Carvalho Soares de Araujo UFPI
  • José Victor Vieira de Oliveira UFPI
  • Pedro Feitosa Soares UFPI
  • Yasmine Martins da Costa e Silva UFPI
  • Rogério Figueredo Sousa IFPI
  • Raimundo Santos Moura UFPI

Resumo


Este trabalho investiga o uso de Transformers para classificar automaticamente boletins de ocorrência de crimes cibernéticos em português brasileiro. Foram ajustados os modelos BERTimbau-large e XLM-RoBERTa-large com amostras balanceadas de mais de 10 mil registros da polícia do Piauí. A avaliação mostrou que o BERTimbau-large teve desempenho superior e mais estável, sobretudo em cenários com forte desbalanceamento. Os principais erros decorrem da sobreposição semântica entre tipos de crime semelhantes. Os resultados indicam que modelos especializados em português são uma solução robusta para automação de triagem policial.

Palavras-chave: Informática Pública, Inteligência Artificial, Processamento da Linguagem Natural (PLN)

Referências

Alves, D., Marques, M., Santos, R., and Santos, A. (2024). Classificaçao de boletins de ocorrências através de modelos de linguagem baseados em bert. In Workshop de Computação Aplicada em Governo Eletrônico (WCGE), pages 169–179. SBC.

Amorim, M. d. S. and Pereira, J. R. S. (2019). Tipificação de ocorrências policiais utilizando machine learning.

Araújo, J. A. F. (2023). Busca por similaridade de boletins de ocorrência via embeddings: um estudo de caso.

Cer, D., Yang, Y., yi Kong, S., Hua, N., Limtiaco, N., John, R. S., Constant, N., Guajardo-Cespedes, M., Yuan, S., Tar, C., Sung, Y.-H., Strope, B., and Kurzweil, R. (2018). Universal sentence encoder.

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., and Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale.

de Castro, U. R. M. (2020). Explorando aprendizagem supervisionada em dados heterogêneos para predição de crimes.

de Sousa, R. F. and Moura, R. S. (2025). Avaliação preliminar de técnicas de pln para classificação de relatos em boletins de ocorrência policial. In Encontro Unificado de Computação do Piauí(ENUCOMPI), pages 79–88. SBC.

Lin, T.-Y., Goyal, P., Girshick, R., He, K., and Dollár, P. (2017). Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988.

Matos, H., Souza, S., Santos, R., Costa, J. W., and Costa, C. (2022). A supervised classifier for police reports at the state of pará, brazil. In ERAD-NO2 e ERAMIA-NO2.

Reimers, N. and Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: pretrained bert models for brazilian portuguese. In Brazilian conference on intelligent systems. Springer.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Publicado
04/12/2025
DE ARAUJO, Victor Carvalho Soares; DE OLIVEIRA, José Victor Vieira; SOARES, Pedro Feitosa; DA COSTA E SILVA, Yasmine Martins; SOUSA, Rogério Figueredo; MOURA, Raimundo Santos. Classificação Automática de Relatos de Ocorrências Policiais para Crimes Cibernéticos em Português Brasileiro: Uma Abordagem Comparativa com Modelos Transformer. In: ESCOLA REGIONAL DE COMPUTAÇÃO DO CEARÁ, MARANHÃO E PIAUÍ (ERCEMAPI), 13. , 2025, São Luís/MA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 61-70. DOI: https://doi.org/10.5753/ercemapi.2025.17493.