Classificação dos Códigos de NCM Usando Processamento de Linguagem Natural

  • Pedro Pinheiro UFPA
  • Marcos Amaris UFPA

Resumo


Esse artigo tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação é feita sobre os Capítulos (primeiros dois dígitos) da Nomenclatura Comum do Mercosul (NCM). A classificação foi realizada utilizando o algorítimo de Máquina de vetores de suporte (SVM), com uma base de dados de 340.000 produtos distintos, que foram tratados usando as técnicas de Processamento natural de linguagem. Obteve-se um acurácia de 87% para um total de 50 classes.

Palavras-chave: Processamento de Linguagem Natural, Aprendizagem de máquina, Classificação de Texto, Nomenclatura Comum do Mercosul

Referências

Che, J., Xing, Y., and Zhang, L. (2018). A comprehensive solution for deep-learning based cargo inspection to discriminate goods in containers. In Proceedings of the CVPR IEEE Conference, pages 1206–1213.

de Abreu Batista, R., Bagatini, D. D., and Frozza, R. (2018). Classificação automática de códigos ncm utilizando o algoritmo naïve bayes. iSys - Revista Brasileira de Sistemas de Informação, 11(2):4–29.

Luppes, J., de Vries, A. P., and Hasibi, F. (2019). Classifying short text for the harmonized system with convolutional neural networks. Radboud University.

Prati, R. C. (2006). Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos. PhD thesis, Universidade de São Paulo.
Publicado
18/11/2021
PINHEIRO, Pedro; AMARIS, Marcos. Classificação dos Códigos de NCM Usando Processamento de Linguagem Natural. In: ESCOLA REGIONAL DE ALTO DESEMPENHO NORTE 2 (ERAD-NO2) E ESCOLA REGIONAL DE APRENDIZADO DE MÁQUINA E INTELIGÊNCIA ARTIFICIAL NORTE 2 (ERAMIA-NO2), 1. , 2021, Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 9-12. DOI: https://doi.org/10.5753/erad-no2.2021.18671.