Classificação dos Códigos de NCM Usando Processamento de Linguagem Natural

Pedro Pinheiro; Marcos Amaris

doi:10.5753/erad-no2.2021.18671

Pedro Pinheiro UFPA
Marcos Amaris UFPA

DOI: https://doi.org/10.5753/erad-no2.2021.18671

Resumo

Esse artigo tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação é feita sobre os Capítulos (primeiros dois dígitos) da Nomenclatura Comum do Mercosul (NCM). A classificação foi realizada utilizando o algorítimo de Máquina de vetores de suporte (SVM), com uma base de dados de 340.000 produtos distintos, que foram tratados usando as técnicas de Processamento natural de linguagem. Obteve-se um acurácia de 87% para um total de 50 classes.

Palavras-chave: Processamento de Linguagem Natural, Aprendizagem de máquina, Classificação de Texto, Nomenclatura Comum do Mercosul

Referências

Che, J., Xing, Y., and Zhang, L. (2018). A comprehensive solution for deep-learning based cargo inspection to discriminate goods in containers. In Proceedings of the CVPR IEEE Conference, pages 1206–1213.

de Abreu Batista, R., Bagatini, D. D., and Frozza, R. (2018). Classificação automática de códigos ncm utilizando o algoritmo naïve bayes. iSys - Revista Brasileira de Sistemas de Informação, 11(2):4–29.

Luppes, J., de Vries, A. P., and Hasibi, F. (2019). Classifying short text for the harmonized system with convolutional neural networks. Radboud University.

Prati, R. C. (2006). Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos. PhD thesis, Universidade de São Paulo.