A Four-Step Cascade Methodology to Classify MCN Codes Using NLP Techniques

  • Pedro Pinheiro UFPA
  • Luan Siqueira UFPA
  • Marcos Amaris UFPA

Resumo


A NCM é uma Nomenclatura regional para categorização de mercadorias adotada por países do Mercosul. Essa nomenclatura divide produtos usando 8 dígitos, separados em 4 partes, Capítulo, Posição, Subposição e item/Subitem. Há indícios que cerca de 30% das mercadorias enviadas globalmente estão com seu código errado por ser um processo manual. Esse trabalho tem como objetivo desenvolver um processo para classificar as descrições textuais dos produtos presentes nas Notas Ficais eletrônicas (NF-e). A classificação foi feita utilizando as técnicas de Processamento de Linguagem Natural (PLN) e testada usando 2 diferentes algoritmos de aprendizado de máquina, Máquina de Vetores de Suporte (SVM) e Naive Bayes. Para os experimentos foi usada uma base de dados de 340.000 produtos distintos. Dividimos o processo em 4 modelos de classificação, feitos para classificar as 4 partes da NCM. Os dados foram divididos em 80% treinamento e 20% teste e Obteve-se um acurácia de 89% para um total de 98 classes dos 2 primeiros dígitos, e 76% de utilizando uma técnica de cascata para classificar os 8 dígitos.

Palavras-chave: Processamento de Linguagem Natural, Aprendizagem de máquina, Classificação de Texto, Nomenclatura Comum do Mercosul

Referências

Andre Dieb Martins, Bruno B. Albert, E. C. G. (2013). Classificador de textos otimizado utilizando lei de potencia para palavras raras. XXXI SIMPOSIO BRASILEIRO DE TELECOMUNICAÇÕES.

Bonfim, D. P., Moraes, D., Machado, H., Amorim, M. O., and Raimundini, S. L. (2012). Nota fiscal eletrônica: uma mudança de paradigma sob a perspectiva do fisco estadual. ConTexto, 12(21):17-28.

Brasil (2003). Emenda constitucional n. 42.

de Abreu Batista, R., Bagatini, D. D., and Frozza, R. (2018). Classificação automática de códigos ncm utilizando o algoritmo naïve bayes. iSys-Revista Brasileira de Sistemas de Informação, 11(2):4-29.

de Lima, R. R., Fernandes, A. M. R., Bombasar, J. R., da Silva, B. A., Crocker, P., and Leithardt, V. R. Q. (2022). An empirical comparison of portuguese and multilingual bert models for auto-classification of ncm codes in international trade. Big Data and Cognitive Computing, 6(1).

Ding, L., Fan, Z., and Chen, D. (2015). Auto-categorization of hs code using background net approach. Procedia Computer Science, 60:1462-1471.

Kadhim, A. I. (2019). Survey on supervised machine learning techniques for automatic text classification. Artificial Intelligence Review, 52(1):273-292.

Li, G. and Li, N. (2019). Customs classification for cross-border e-commerce based on text-image adaptive convolutional neural network. Electronic Commerce Research, 19(4):779-800.

Luppes, J., de Vries, A. P., and Hasibi, F. (2019). Classifying short text for the harmonized system with convolutional neural networks. Radboud University.

Neto, J. L., Santos, A. D., Kaestner, C. A., Alexandre, N., Santos, D., A, C. A., Alex, K., Freitas, A. A., and Parana, C. (2000). Document clustering and text summarization.

Orengo, V. M. and Huyck, C. R. (2001). A stemming algorithmm for the portuguese language. In spire, volume 8, pages 186-193.

Prati, R. C. (2006). Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos. PhD thesis, Universidade de São Paulo.

Roberto Scalco, P., Klaold Lippi, M., and de Almeida, M. I. S. (2015). Preço e renda como determinantes da demanda por bens de luxo no brasil: Um estudo econométrico com produtos importados da nomenclatura comum do mercosul. Brazilian Journal of Management/Revista de Administração da UFSM, 8(3).

Russell, S. J. and Norvig, P. (2003). Instructor's solution manual for artificial intelligence: a modern approach.

Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1):1-47.

SEFAZ (2021). Sobre a nf-e.

Sousa, J. P. R. d. (2010). Impactos da utilização da nota fiscal eletrônica nas atividades de monitoramento e fiscalização do icms: um estudo na secretaria da fazenda do estado do ceará. Master's thesis, Universidade Federal do Ceará,.

Wang, J., Wang, Z., Zhang, D., and Yan, J. (2017). Combining knowledge with deep convolutional neural networks for short text classification. In IJCAI, volume 350.

Yu, H.-F., Ho, C.-H., Arunachalam, P., Somaiya, M., and Lin, C.-J. (2012). Product title classification versus text classification. Csie. Ntu. Edu. Tw, pages 1-25.
Publicado
28/11/2022
PINHEIRO, Pedro; SIQUEIRA, Luan; AMARIS, Marcos. A Four-Step Cascade Methodology to Classify MCN Codes Using NLP Techniques. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 19. , 2022, Campinas/SP. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 389-400. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2022.227652.

##plugins.generic.recommendByAuthor.heading##