Techniques of Natural Language Processing in Criminal Reports: Automation and Classification of Text in Colloquial Portuguese

Abstract


This article presents the investigation of Natural Language Processing Techniques (PLN) in Criminal reports, from the application of the Disque Denúncia RJ service for smartphone. It presents the automation process, evaluating and classifying reports, aiming to reduce the time of analysis of the content of messages, which has, as its main challenge, texts written in very informal language, containing many morphosyntactic errors. To achieve these goals, an investigation of preprocessing techniques was necessary to improve the accuracy of the classification, which was performed by a Support Vector Machine (SVM). The results found are very promising for the type of denunciation texts, reaching an accuracy of 76.11%.
Keywords: Text Mining, Machine Learning, Portuguese Colloquial, Criminal Reports

References

Aggarwal, C. C., and Zhai, C. X. (2012). A survey of text classification algorithms. In Mining Text Data (Vol. 9781461432234, pp. 163-222). Springer US.

Andrade, P.H.M.A. (2015) Aplicação de Técnicas de Mineração de Textos para Classificação de Documentos: um Estudo da Automatização da Triagem de Denúncias na CGU, Dissertação em Computação Aplicada da UnB.

Bloom, B.H., (1970). “Space/time trade-offs in hash coding with allowable errors,” In: Commun. ACM, vol. 13, no. 7, pp. 422–426.

Carta Capital. (2020) Número de mortos por bala perdida no Rio de Janeiro sobe 23% em 2019. Disponível em: https://www.cartacapital.com.br/sociedade/numero-de-mortos-por-bala-perdida-no-rio-de-janeiro-sobe-23-em-2019/ Acesso em 20-01-20.

Cesar, M. V. G., Vellasco, M. and Figueiredo, K. (2019). Classificação de falhas de equipamentos de unidade de intervenção em construção de poços marítimos por meio de mineração textual. In: XVI Encontro Nacional de Inteligência Artificial e Computacional, 2020, Salvador. Anais do Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), 2019. p. 401-412.

Cortes, C.; Vapnik, V. (1995). Support-vector networks. Machine Learning, v. 20, n. 3, p. 273-297.

Disque-Denúncia (2020) Números. Disponível em: https://disquedenuncia.org.br/o-disque-denuncia/N%C3%BAmeros, Acesso em: 20-02-28.

Ferreira, H.H. (2019) Processamento de Linguagem Natural e Classificação de textos em Sistemas Modulares, Monografia do Departamento de Ciência da Computação da UnB.

Han, J., Kamber, M. and Pei, J. 2011. “Data Mining: Concepts and Techniques” 3rd edition.

Jurasfsky, D.; Martin, J. H. (2008) Speech and Language Processing: An Introduction to Natural Language Processing, Comp. Linguistics, and Speech Recognition. 2st. ed., Prentice Hall USA.

Mendonça, A.V. (2007). Solução de crimes depende de ajuda da população. G1. Rio de Janeiro, p. 00-00. 10 mar. 2007. Disponível em: http://g1.globo.com/Noticias/Rio/0,,MUL9408-5606,00-SOLUCAO+DE+CRIMES+DEPENDE+DE+AJUDA+DA+POPULACAO.html. Acesso em: 12 abril 2021.

Nascimento, R.M.F. (2019).Classificação automática de discursos de ódio em textos do twitter. 2019. 47 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Unidade Acadêmica de Serra Talhada, Universidade Federal Rural de Pernambuco, Serra Talhada.

Norvig, P. (2016) How to Write a Spelling Corrector. Disponível em: http://norvig.com/spell-correct.html, Acessado em 2020-06-29.

Pasqualini, B.F. (2018). CorPop: um corpus de referência do português popular escrito do Brasil” Tese Doutorado. Inst. de Letras, Prog. de Pós-grad. em Letras, UFRGS.

Pinho, R., Brito, W., Motta, C. and Lima, P. (2017) Automatic Crime Report Classification through a Weightless Neural Network, European Symp. on Artificial Neural Networks, Comp. Intel. and Mach. Learn., Bruges (Belgium), ISBN 978-287587039-1.

Rossi, R. G. (2015). Classificação automática de textos por meio de aprendizado de máquina baseado em redes. Tese de Doutorado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. doi:10.11606/T.55.2016.tde-05042016-105648.

Smola, A. and Schölkopf, B. (2002) “Learning with Kernels”. The MIT Press, Cambridge, MA.

Stiilpen Jr, M. (2016). Um Arcabouço de Processamento de Textos Informais em Português Brasileiro para Aplicações de Mineração de Dados, Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Ouro Preto.

Zhang, A., Lipton, Z., Li, M., and Smola, A.J. (2020). Dive into Deep Learning. https://d2l.ai.
Published
2021-07-18
GUSMÃO, Camila; FIGUEIREDO, Karla; BRITO, Walkir A. T.. Techniques of Natural Language Processing in Criminal Reports: Automation and Classification of Text in Colloquial Portuguese. In: INTEGRATED SOFTWARE AND HARDWARE SEMINAR (SEMISH), 48. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 172-182. ISSN 2595-6205. DOI: https://doi.org/10.5753/semish.2021.15820.