Agrupamento de itens de notas fiscais referentes a produtos similares

  • João Pedro D. da Silva Universidade Federal de Santa Catarina (UFSC)
  • Diogo Soares Universidade Federal de Santa Catarina (UFSC)
  • Andre Wüst Zibetti Universidade Federal de Santa Catarina (UFSC)
  • Matheus M. dos Santos Universidade Federal de Santa Catarina (UFSC)
  • Renato Fileto Universidade Federal de Santa Catarina (UFSC)
  • Simone Simaria Werner Universidade Federal de Santa Catarina (UFSC)

Resumo


Aplicações como a investigação de preços praticados em compras públicas e possíveis irregularidades requerem a identificação de itens similares de notas fiscais eletrônicas (NFe). Este é um problema desafiador devido à falta de padronização das descrições textuais dos produtos nos ítens. Este artigo apresenta e compara 4 métodos para agrupamento de itens de NFe usando técnicas de modelagem de tópicos e campos como unidade de medida e código NCM(Nomenclatura Comum do Mercosul). Os resultados indicam que a proposta permite agrupar alguns produtos com descrições relativamente simples e podem auxiliar no agrupamento de itens com maior variabilidade de descrições.
Palavras-chave: Aprendizado de máquina para detecção de fraudes e corrupção, Processamento de Linguagem Natural em documentos públicos para monitoramento e transparência governamental, Ferramentas para análise e investigação de fraude e corrupção, Métodos para análise de Notas Fiscais Eletrônicas, Clusterização

Referências

Angelov, D. (2020). Top2vec: Distributed representations of topics. [link].

Brasil (2021). Lei nº 14.133, de 1º de abril de 2021. [link]. Lei de Licitações e Contratos Administrativos.

Brinkmann, A., Baumann, N., and Bizer, C. (2024). Using llms for the extraction and normalization of product attribute values.

Kieckbusch, D. S. (2022). Scan-nf: a machine learning system for invoice product transaction classification through short-text processing. Master’s thesis, Univerty of Brasília (UnB).

Krieger, F., Drews, P., and Funk, B. (2023). Automated invoice processing: Machine learning-based information extraction for long tail suppliers. Intelligent Systems with Applications, 20:200285.

Novaes, L. P., Vianna, D., and da Silva, A. (2023). Modelagem de tópicos para a tarefa de recuperação de casos legais. In Anais do XXXVIII Simpósio Brasileiro de Bancos de Dados, pages 128–140, Porto Alegre, RS, Brasil. SBC.

Paalman, J., Mullick, S., Zervanou, K., and Zhang, Y. (2019). Term based semantic clusters for very short text classification. In Mitkov, R. and Angelova, G., editors, Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2019), pages 878–887, Varna, Bulgaria. INCOMA Ltd.

Silva, M. O., Costa, L. L., de Barros Bezerra, G. F., Gomide, L. D., Hott, H. R., Oliveira, G. P., Brandão, M. A., Lacerda, A., and Pappa, G. L. (2023). Análise de sobrepreço em itens de licitações públicas. Anais do XI Workshop de Computação Aplicada em Governo Eletrônico (WCGE 2023).

Yao, X., Sun, H., Li, S., and Lu, W. (2022). Invoice detection and recognition system based on deep learning. Security and Communication Networks, 2022(1):8032726.
Publicado
14/10/2024
DA SILVA, João Pedro D.; SOARES, Diogo; ZIBETTI, Andre Wüst; M. DOS SANTOS, Matheus; FILETO, Renato; WERNER, Simone Simaria. Agrupamento de itens de notas fiscais referentes a produtos similares. In: WORKSHOP ON DATA SCIENCE AGAINST CORRUPTION IN THE PUBLIC SECTOR (DS-COPS) - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 39. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 273-279. DOI: https://doi.org/10.5753/sbbd_estendido.2024.244219.