Técnicas de Processamento de Linguagem Natural em Denúncias Criminais: Automatização e Classificação de Texto em Português Coloquial
Resumo
Este artigo apresenta a investigação de Técnicas de Processamento de Linguagem Natural (PLN) em Denúncias Criminais, provenientes do aplicativo do serviço do Disque Denúncia RJ para smartphone. Nele é apresentado o processo de automatização, avaliando e classificando as denúncias, objetivando reduzir o tempo de análise do conteúdo das mensagens, que possui, como principal desafio, textos escritos em linguagem muito informal, contendo muitos erros morfossintáticos. Para alcançar tais objetivos foi necessária uma investigação de técnicas de pré-processamento visando melhorar a acurácia da classificação, que foi realizada por Support Vector Machine (SVM). Os resultados encontrados são bastante promissores para o tipo de textos de denúncias, atingindo uma precisão de 76,11%.
Palavras-chave:
Mineração de Texto, Máquina de Aprendizado, Português Coloquial, Denúncias Criminais
Referências
Aggarwal, C. C., and Zhai, C. X. (2012). A survey of text classification algorithms. In Mining Text Data (Vol. 9781461432234, pp. 163-222). Springer US.
Andrade, P.H.M.A. (2015) Aplicação de Técnicas de Mineração de Textos para Classificação de Documentos: um Estudo da Automatização da Triagem de Denúncias na CGU, Dissertação em Computação Aplicada da UnB.
Bloom, B.H., (1970). “Space/time trade-offs in hash coding with allowable errors,” In: Commun. ACM, vol. 13, no. 7, pp. 422–426.
Carta Capital. (2020) Número de mortos por bala perdida no Rio de Janeiro sobe 23% em 2019. Disponível em: https://www.cartacapital.com.br/sociedade/numero-de-mortos-por-bala-perdida-no-rio-de-janeiro-sobe-23-em-2019/ Acesso em 20-01-20.
Cesar, M. V. G., Vellasco, M. and Figueiredo, K. (2019). Classificação de falhas de equipamentos de unidade de intervenção em construção de poços marítimos por meio de mineração textual. In: XVI Encontro Nacional de Inteligência Artificial e Computacional, 2020, Salvador. Anais do Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), 2019. p. 401-412.
Cortes, C.; Vapnik, V. (1995). Support-vector networks. Machine Learning, v. 20, n. 3, p. 273-297.
Disque-Denúncia (2020) Números. Disponível em: https://disquedenuncia.org.br/o-disque-denuncia/N%C3%BAmeros, Acesso em: 20-02-28.
Ferreira, H.H. (2019) Processamento de Linguagem Natural e Classificação de textos em Sistemas Modulares, Monografia do Departamento de Ciência da Computação da UnB.
Han, J., Kamber, M. and Pei, J. 2011. “Data Mining: Concepts and Techniques” 3rd edition.
Jurasfsky, D.; Martin, J. H. (2008) Speech and Language Processing: An Introduction to Natural Language Processing, Comp. Linguistics, and Speech Recognition. 2st. ed., Prentice Hall USA.
Mendonça, A.V. (2007). Solução de crimes depende de ajuda da população. G1. Rio de Janeiro, p. 00-00. 10 mar. 2007. Disponível em: http://g1.globo.com/Noticias/Rio/0,,MUL9408-5606,00-SOLUCAO+DE+CRIMES+DEPENDE+DE+AJUDA+DA+POPULACAO.html. Acesso em: 12 abril 2021.
Nascimento, R.M.F. (2019).Classificação automática de discursos de ódio em textos do twitter. 2019. 47 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Unidade Acadêmica de Serra Talhada, Universidade Federal Rural de Pernambuco, Serra Talhada.
Norvig, P. (2016) How to Write a Spelling Corrector. Disponível em: http://norvig.com/spell-correct.html, Acessado em 2020-06-29.
Pasqualini, B.F. (2018). CorPop: um corpus de referência do português popular escrito do Brasil” Tese Doutorado. Inst. de Letras, Prog. de Pós-grad. em Letras, UFRGS.
Pinho, R., Brito, W., Motta, C. and Lima, P. (2017) Automatic Crime Report Classification through a Weightless Neural Network, European Symp. on Artificial Neural Networks, Comp. Intel. and Mach. Learn., Bruges (Belgium), ISBN 978-287587039-1.
Rossi, R. G. (2015). Classificação automática de textos por meio de aprendizado de máquina baseado em redes. Tese de Doutorado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. doi:10.11606/T.55.2016.tde-05042016-105648.
Smola, A. and Schölkopf, B. (2002) “Learning with Kernels”. The MIT Press, Cambridge, MA.
Stiilpen Jr, M. (2016). Um Arcabouço de Processamento de Textos Informais em Português Brasileiro para Aplicações de Mineração de Dados, Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Ouro Preto.
Zhang, A., Lipton, Z., Li, M., and Smola, A.J. (2020). Dive into Deep Learning. https://d2l.ai.
Andrade, P.H.M.A. (2015) Aplicação de Técnicas de Mineração de Textos para Classificação de Documentos: um Estudo da Automatização da Triagem de Denúncias na CGU, Dissertação em Computação Aplicada da UnB.
Bloom, B.H., (1970). “Space/time trade-offs in hash coding with allowable errors,” In: Commun. ACM, vol. 13, no. 7, pp. 422–426.
Carta Capital. (2020) Número de mortos por bala perdida no Rio de Janeiro sobe 23% em 2019. Disponível em: https://www.cartacapital.com.br/sociedade/numero-de-mortos-por-bala-perdida-no-rio-de-janeiro-sobe-23-em-2019/ Acesso em 20-01-20.
Cesar, M. V. G., Vellasco, M. and Figueiredo, K. (2019). Classificação de falhas de equipamentos de unidade de intervenção em construção de poços marítimos por meio de mineração textual. In: XVI Encontro Nacional de Inteligência Artificial e Computacional, 2020, Salvador. Anais do Encontro Nacional de Inteligência Artificial e Computacional (ENIAC), 2019. p. 401-412.
Cortes, C.; Vapnik, V. (1995). Support-vector networks. Machine Learning, v. 20, n. 3, p. 273-297.
Disque-Denúncia (2020) Números. Disponível em: https://disquedenuncia.org.br/o-disque-denuncia/N%C3%BAmeros, Acesso em: 20-02-28.
Ferreira, H.H. (2019) Processamento de Linguagem Natural e Classificação de textos em Sistemas Modulares, Monografia do Departamento de Ciência da Computação da UnB.
Han, J., Kamber, M. and Pei, J. 2011. “Data Mining: Concepts and Techniques” 3rd edition.
Jurasfsky, D.; Martin, J. H. (2008) Speech and Language Processing: An Introduction to Natural Language Processing, Comp. Linguistics, and Speech Recognition. 2st. ed., Prentice Hall USA.
Mendonça, A.V. (2007). Solução de crimes depende de ajuda da população. G1. Rio de Janeiro, p. 00-00. 10 mar. 2007. Disponível em: http://g1.globo.com/Noticias/Rio/0,,MUL9408-5606,00-SOLUCAO+DE+CRIMES+DEPENDE+DE+AJUDA+DA+POPULACAO.html. Acesso em: 12 abril 2021.
Nascimento, R.M.F. (2019).Classificação automática de discursos de ódio em textos do twitter. 2019. 47 f. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) – Unidade Acadêmica de Serra Talhada, Universidade Federal Rural de Pernambuco, Serra Talhada.
Norvig, P. (2016) How to Write a Spelling Corrector. Disponível em: http://norvig.com/spell-correct.html, Acessado em 2020-06-29.
Pasqualini, B.F. (2018). CorPop: um corpus de referência do português popular escrito do Brasil” Tese Doutorado. Inst. de Letras, Prog. de Pós-grad. em Letras, UFRGS.
Pinho, R., Brito, W., Motta, C. and Lima, P. (2017) Automatic Crime Report Classification through a Weightless Neural Network, European Symp. on Artificial Neural Networks, Comp. Intel. and Mach. Learn., Bruges (Belgium), ISBN 978-287587039-1.
Rossi, R. G. (2015). Classificação automática de textos por meio de aprendizado de máquina baseado em redes. Tese de Doutorado, Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos. doi:10.11606/T.55.2016.tde-05042016-105648.
Smola, A. and Schölkopf, B. (2002) “Learning with Kernels”. The MIT Press, Cambridge, MA.
Stiilpen Jr, M. (2016). Um Arcabouço de Processamento de Textos Informais em Português Brasileiro para Aplicações de Mineração de Dados, Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Ciência da Computação da Universidade Federal de Ouro Preto.
Zhang, A., Lipton, Z., Li, M., and Smola, A.J. (2020). Dive into Deep Learning. https://d2l.ai.
Publicado
18/07/2021
Como Citar
GUSMÃO, Camila; FIGUEIREDO, Karla; BRITO, Walkir A. T..
Técnicas de Processamento de Linguagem Natural em Denúncias Criminais: Automatização e Classificação de Texto em Português Coloquial. In: SEMINÁRIO INTEGRADO DE SOFTWARE E HARDWARE (SEMISH), 48. , 2021, Evento Online.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2021
.
p. 172-182.
ISSN 2595-6205.
DOI: https://doi.org/10.5753/semish.2021.15820.