Automatic Classification of NCM Codes Using the Naïve Bayes Algorithm

Authors

  • Rodrigo de Abreu Batista Universidade de Santa Cruz do Sul (UNISC)
  • Daniela D. S. Bagatini Universidade de Santa Cruz do Sul (UNISC)
  • Rejane Frozza Universidade de Santa Cruz do Sul (UNISC)

DOI:

https://doi.org/10.5753/isys.2018.361

Keywords:

Machine Learning, Consumer Product Classification, NCM, Text classification, Naïve Bayes Algorithm

Abstract

This paper consists of the development of a classifier for the automatic categorization of product item descriptions into their appropriate Common Mercosul Nomenclature (NCM) codes. This classifier was developed using the Naïve Bayes supervised learning algorithm. For training, data from items of consumer invoices belonging to chapters 22 and 90 of the NCM were used. The results evidenced the capacity of the model to correctly classify the instances. For the simpler and easier data set, based on chapter 22, an accuracy of 98% was obtained, while for the medium and difficult sets, based on chapters 22 and 90, the accuracy obtained was 90% and 83%, respectively.

Downloads

Download data is not yet available.

Author Biographies

Rodrigo de Abreu Batista, Universidade de Santa Cruz do Sul (UNISC)

Possui Mestrado em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (2015) e Bacharelado em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (2010). Tem experiência na área de Ciência da Computação com ênfase em Sistemas Multiagentes, atuando principalmente nos seguintes temas: simulação, medidas de centralidade, sistemas inteligentes de transporte, redes complexas e medidas de centralidade. Tem interesse nas áreas de inteligência artificial, aprendizagem de máquina e mineração de dados.

Daniela D. S. Bagatini, Universidade de Santa Cruz do Sul (UNISC)

Mestre em Ciência da Computação pela Universidade Federal do Rio Grande do Sul (UFRGS). Graduada em Ciência da Computação pela Universidade Católica de Pelotas (UCPel). Professora da Universidade de Santa Cruz do Sul - UNISC (desde 2001): Professora dos cursos Licenciatura em Computação, Bacharelado em Engenharia da Computação e Ciência da Computação; Professora da Pós-Graduação e Coordenadora da Especialização EaD em Gestão por Processos de Negócios; Professora de extensão EaD do curso de Educação e Tecnologias; foi Coordenadora de Extensão a Assessoria de Educação a Distância - AEAD UNISC; foi participante do REGESD - Rede Gaúcha de Ensino Superior a Distância. Professora da Faculdade de Desenvolvimento do Rio Grande do Sul - FADERGS - Laureate International Universities (desde 2009): Professora do curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas; Coordenadora do Núcleo de Educação a Distância - NEaD FADERGS. Investigadora no Núcleo de Estudos em Subjetivação, Tecnologia e Arte - NESTA da Universidade Federal do Rio Grande do Sul - UFRGS (doutoranda). Tem experiência na área de Ciência da Computação, atuando principalmente nos seguintes temas: educação a distância, sistemas inteligentes, engenharia de software, estruturas de dados, projeto de sistemas de informação e qualidade de software.

Rejane Frozza, Universidade de Santa Cruz do Sul (UNISC)

Possui graduação em Informática pela Pontifícia Universidade Católica do Rio Grande do Sul (1993), mestrado em Computação pela Universidade Federal do Rio Grande do Sul (1997) e doutorado em Computação pela Universidade Federal do Rio Grande do Sul (2004). Atualmente é professora adjunta da Universidade de Santa Cruz do Sul, Santa Cruz do Sul, RS, no Departamento de Computação e no Programa de Pós-Graduação em Sistemas e Processos Industriais - Mestrado. Tem experiência na área de Computação, com ênfase em Inteligência Artificial, atuando principalmente nos seguintes temas: Sistemas Tutores Inteligentes, Agentes Pedagógicos em Sistemas Virtuais de Aprendizagem, Gestão do Conhecimento, Sistemas Multiagentes, Redes Neurais Artificiais, Sistemas Difusos, Sistemas de Raciocínio Baseado em Casos.

References

Bird, S., Klein, E., Loper, E. (2009) “Natural language processing with Python: analyzing text with the natural language toolkit”, O'Reilly Media, Inc.

Ding, L., Fan, Z., Chen, D. (2015) “Auto-Categorization of HS Code Using Background Net Approach”, Procedia Computer Science, v. 60, p. 1462-1471.

Flick, U. (2012) “Introdução à metodologia de pesquisa: um guia para iniciantes”, Penso Editora.

Indurkhya, N., Damerau, F. J. (Ed.). (2010) “Handbook of natural language processing”, CRC Press.

Kohavi, R. (1995) “A study of cross-validation and bootstrap for accuracy estimation and model selection”, International joint Conference on artificial intelligence. [S.l.: s.n.). v. 14, p. 1137–1145.

Leskovec, J., Rajaraman, A., Ullman, J. D. (2014) “Mining of massive datasets”, Cambridge University Press.

Luhn, H. P. (1957) “A statistical approach to mechanized encoding and searching of literary information”, IBM Journal of research and development, v. 1, n. 4, p. 309-317.

Manning, C. D., Raghavan, P., Schütze, H. (2008) “Introduction to information retrieval”, v. 1, n. 1. Cambridge: Cambridge university press.

Ministério da Indústria, Comércio Exterior e Serviços. (2016) “TEC em Excel Completa”, Disponível em: . Acesso em: 2 de Abr. 2017.

Mitchell, T. M. (1997) “Machine learning”, Burr Ridge, IL: McGraw Hill, v. 45, p. 37.

Orengo, V. M., Huyck, C. R. “RSLP Stemmer (Removedor de Sufixos da Língua Portuguesa)”, Disponível em: . Acesso em: 2 de Abr. 2017.

Orengo, V. M., Huyck, C. R. (2001) “A Stemming Algorithm for the Portuguese Language”, In: spire. 2001. p. 186-193.

Pedregosa, F., Buitinck, L., Louppe, G., Blondel, M., Mueller, A., Grisel, O., Niculae, V., Prettenhofer, P., Gramfort, A., Grobler, J., Layton, R., Vanderplas, J., Joly, A., Holt, B., Varoquaux, G. (2011) “Scikit-learn: Machine Learning in Python”, JMLR 12, pp. 2825-2830.

Receita Federal. (2015) “Sistema harmonizado de designação e de codificação de mercadorias”. Disponível em: . Acesso em: 2 de Abr. 2017.

Russell, S. J., Norvig, P. (2003) “Artificial intelligence: a modern approach”, Upper Saddle River: Prentice hall.

Sparck Jones, K. (1972) “A statistical interpretation of term specificity and its application in retrieval”, Journal of documentation, v. 28, n. 1, p. 11-21.

Tong, S., Koller, D. (2001) “Support vector machine active learning with applications to text classification”, Journal of machine learning research, v. 2, n. Nov, p. 45-66.

Triola, M. F. (2008) “Bayes’ Theorem”. Disponível em: . Acesso em: 2 de Abr. 2017.

Published

2018-06-30

How to Cite

Batista, R. de A., Bagatini, D. D. S., & Frozza, R. (2018). Automatic Classification of NCM Codes Using the Naïve Bayes Algorithm. ISys - Brazilian Journal of Information Systems, 11(2), 4–29. https://doi.org/10.5753/isys.2018.361

Issue

Section

Regular articles