Classificação dos Códigos de NCM Usando Processamento de Linguagem Natural
Resumo
Esse artigo tem como objetivo desenvolver um processo para classificar as descrições dos produtos presentes nas Notas Ficais eletrônicas (NF-e). Essa classificação é feita sobre os Capítulos (primeiros dois dígitos) da Nomenclatura Comum do Mercosul (NCM). A classificação foi realizada utilizando o algorítimo de Máquina de vetores de suporte (SVM), com uma base de dados de 340.000 produtos distintos, que foram tratados usando as técnicas de Processamento natural de linguagem. Obteve-se um acurácia de 87% para um total de 50 classes.
Referências
de Abreu Batista, R., Bagatini, D. D., and Frozza, R. (2018). Classificação automática de códigos ncm utilizando o algoritmo naïve bayes. iSys - Revista Brasileira de Sistemas de Informação, 11(2):4–29.
Luppes, J., de Vries, A. P., and Hasibi, F. (2019). Classifying short text for the harmonized system with convolutional neural networks. Radboud University.
Prati, R. C. (2006). Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos. PhD thesis, Universidade de São Paulo.