Data Mining using Naive Bayes classifier: an application in short news

  • Thais Neubauer Universidade de São Paulo
  • Sarajane Peres Universidade de São Paulo

Resumo


In the information age, a plethora of content is available on a wide range of subjects, requiring an organization capable of making that content more accessible and engaging. An interesting application of classification tasks was identified in the Index project, developed by the Amsterdam-based company The Next Web. To solve this classification task, the Naive Bayes (NB) technique was applied to classify short news in four topics. To evaluate the results produced by such a classifier, a series of tests using cross-validation were carried out. It was possible to conclude that the NB classifier had satisfactory performance, achieving about 70% of accuracy in the best cases. In this paper, we intend to present the context of the Index project and discuss the results obtained with the NB classifiers. Despite the good results, the project is still in progress, as it is necessary to test variations as classification techniques and text representation approaches.

Palavras-chave: Mineração de dados, Classificação de texto, Classificação Estatistica, Naive Bayes

Referências

Brasil. Lei nº 9.883, de 07 de Dezembro de 1999. Institui o Sistema Brasileiro de Inteligência, cria a Agência Brasileira de Inteligência – ABIN, e dá outras providências.

Brasil. Ministério da Justiça. Secretaria Nacional de Segurança Pública. Doutrina Nacional de Inteligência de Segurança Pública. Brasília, 2014.

H. Chen, W. Chung, J. J. Xu, G. Wang, Y. Qin, and M. Chau. Crime Data Mining: a general framework and some examples. Computer, 37(4):50- 56, 2004.

J. K. G. Costa, I. P. O. Santos, M. C. Junior, and A. V. R. Nascimento. Um experimento em um ambiente de business intelligence industrial para melhoria da manutenção de cargas de dados. SBSI, 2016.

I. H. Witten, E. Frank, M. A. Hall, and C. J. Pal. Data Mining: Practical machine learning tools and techniques. Morgan Kaufmann, 2016.

A. McAfee, E. Brynjolfsson, T. H. Davenport, D. Patil, and D. Barton. Big data. The management revolution. Harvard Bus Rev, 90(10):61-67, 2012.

V. R. Basili and D. M. Weiss. A methodology for collecting valid software engineering data. Technical report, DTIC Document, 1983.

R. Van Solingen and E. Berghout. The Goal/Question/Metric Method, McGraw-Hill, 1999.

SPSS Inc. Released 2017. SPSS for Windows, Version 24.0. Chicago, SPSS Inc.

R. L. Plackett. Karl pearson and the chi-squared test. International Statistical Review/Revue Internationale de Statistique, pages 59-72, 1983.

R. Kimball and M. Ross. The data warehouse toolkit: the complete guide to dimensional modeling. John Wiley & Sons, 2011.

F. J. Braz, W. S. Coan, and A. Rosseti. Uma proposta de solução de mineração de dados aplicada à segurança pública. SBSI, 2012.

V. Lourenço, P. Mann, A. Paes, and D. de Oliveira. Siapp: Um sistema para análise de ocorrências de crimes baseado em aprendizado lógico-relacional. SBSI, 2016.

A. B. Leite, E. P. R. Souza, J. d. S. C. Neto, and M. I. de Sousa Oliveira. Aplicação olap para segurança pública: um estudo de caso a partir de dados governamentais abertos do estado do Rio de Janeiro. São Paulo. SBSI, 2012.
Publicado
17/05/2017
NEUBAUER, Thais; PERES, Sarajane. Data Mining using Naive Bayes classifier: an application in short news. In: SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 13. , 2017, Lavras. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2017 . p. 543-546. DOI: https://doi.org/10.5753/sbsi.2017.6096.