Estratégias Computacionais Baseadas em Similaridade de Textos e Visualização Exploratória para a Identificação de Inconsistências em Notas Fiscais Eletrônicas

Resumo


A detecção de fraudes em notas fiscais é um desafio considerável para os órgãos de controle, dada a quantidade expressiva de documentos gerados diariamente. Buscando soluções para esse desafio, esta pesquisa propõe uma abordagem inovadora que combina rotulação automática de notas fiscais baseada em similaridade de texto e técnicas de visualização exploratória. O objetivo é auxiliar especialistas na tarefa de auditoria fiscal, trazendo equilíbrio entre automatização e autonomia por meio de um sistema de visualização web interativo denominado NFViz. O NFViz permite investigar as notas fiscais em busca de incompatibilidades que podem sinalizar possíveis fraudes, otimizando as atividades de auditoria fiscal ao reduzir o escopo de busca por notas suspeitas.
Palavras-chave: visualização, detecção de fraudes, notas fiscais, similaridade, projeção multidimensional, análise visual

Referências

Bolton, R. and Hand, D. (2001). Unsupervised profiling methods for fraud detection. Conference on Credit Scoring and Credit Control, 7.

Bowyer, K. W., Chawla, N. V., Hall, L. O., and Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. CoRR, abs/1106.1813.

Cox, M. A. and Cox, T. F. (2008). Multidimensional scaling. In Handbook of Data Visualization, pages 315–347.

Di Oliveira, V., Weigang, L., and Filho, G. (2022). Eleven data-set: A labeled set of descriptions of goods captured from brazilian electronic invoices. In 18th International Conference on Web Information Systems and Technologies, pages 257–264.

Gower, J. C. (1971). A general coefficient of similarity and some of its properties. Bio-metrics, pages 857–871.

Hajek, P. and Henriques, R. (2017). Mining corporate annual reports for intelligent detection of financial statement fraud – a comparative study of machine learning methods. Knowledge-Based Systems, 128:139–152.

Khurana, D., Koli, A., Khatter, K., and Singh, S. (2023). Natural language processing: state of the art, current trends and challenges, pages 1573–7721.

Kieckbusch, D., Filho, G., Di Oliveira, V., and Weigang, L. (2021). Scan-nf: A cnn-based system for the classification of electronic invoices through short-text product description. In Proceedings of the 17th International Conference on Web Information Systems and Technologies, pages 501–508.

Kieckbusch, D., Filho, G. P. R., Oliveira, V. D., and Weigang, L. (2020). Towards intelligent processing of electronic invoices: The general framework and case study of short text deep learning in Brazil. In International Conference on Web Information Systems and Technologies, pages 74–92.

Le, Q. and Mikolov, T. (2014). Distributed representations of sentences and documents. In International Conference on Machine Learning, pages 1188–1196. PMLR.

Marinho, M., Oliveira, V., Neto, S., Weigang, L., and Borges, V. (2022). Visual analysis of electronic invoices to identify suspicious cases of tax frauds. In International Conference on Information Technology & Systems, pages 185–195. Springer.

Matos, T., de Macedo, J. A. F., and Monteiro, J. M. (2015). An empirical method for discovering tax fraudsters: A real case study of brazilian fiscal evasion. In Proceedings of the 19th International Database Engineering & Applications Symposium, page 41–48. Association for Computing Machinery.

McInnes, L., Healy, J., and Melville, J. (2018). Umap: Uniform manifold approximation and projection for dimension reduction. arXiv preprint arXiv:1802.03426.

Resck, L. E., Ponciano, J. R., Nonato, L. G., and Poco, J. (2023). LegalVis: Exploring and inferring precedent citations in legal documents. IEEE Transactions on Visualization and Computer Graphics, 29.

Van der Maaten, L. and Hinton, G. (2008). Visualizing data using t-sne. Journal of Machine Learning Research, 9.

Zha, Z. (2020). Taxaa: A reliable tax auditor assistant for exploring suspicious transactions. In Companion Proceedings of the Web Conference 2020, pages 240–244.
Publicado
20/05/2024
MARINHO, Mayara C.; WEIGANG, Li; OLIVEIRA, Vinícius Di; OLIVEIRA, Maria Cristina F.; BORGES, Vinicius R. P.. Estratégias Computacionais Baseadas em Similaridade de Textos e Visualização Exploratória para a Identificação de Inconsistências em Notas Fiscais Eletrônicas. In: CONCURSO DE TRABALHOS DE CONCLUSÃO DE CURSO EM SISTEMAS DE INFORMAÇÃO - SIMPÓSIO BRASILEIRO DE SISTEMAS DE INFORMAÇÃO (SBSI), 20. , 2024, Juiz de Fora/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 212-221. DOI: https://doi.org/10.5753/sbsi_estendido.2024.238709.