Avaliação de Algoritmos de Clusterização para Agrupamento de Descrições de Produtos em Notas Fiscais Eletrônicas

Resumo


A nota fiscal eletrônica é essencial para o processo de auditoria fiscal. Este artigo avalia a eficácia de algoritmos de clusterização para agrupar descrições de produtos em notas fiscais eletrônicas, um desafio devido à falta de padronização nos registros. Usando similaridade de strings e ajustes para unidades de medida, foram testados DBSCAN, HDBSCAN, OPTICS e Agglomerative Clustering. As métricas de avaliação incluíram o Coeficiente de Silhueta, Índice de Calinski-Harabasz e a porcentagem de produtos agrupados. O HDBSCAN apresentou o melhor desempenho inicial, e a subclusterização, apesar de melhorar as métricas, introduziu inconsistências nos agrupamentos.

Palavras-chave: Algoritmos de Clusterização, Notas Fiscais Eletrônicas, Similaridade de Strings, Descrições de Produtos, Auditoria Fiscal

Referências

Ahmed, M., Tiun, S., Omar, N., and Sani, N. S. (2022). Short text clustering algorithms, application and challenges: A survey. Applied Sciences. [link]

Ankerst, M., Breunig, M. M., Kriegel, H.-P., and Sander, J. (1999). Optics: ordering points to identify the clustering structure. SIGMOD Rec., 28(2):49–60. DOI: 10.1145/304182.304187

Caliński, T. and JA, H. (1974). A dendrite method for cluster analysis. Communications in Statistics - Theory and Methods, 3:1–27. DOI: 10.1080/03610927408827101

Campello, R. J. G. B., Moulavi, D., and Sander, J. (2013). Density-based clustering based on hierarchical density estimates. In Pei, J., Tseng, V. S., Cao, L., Motoda, H., and Xu, G., editors, Advances in Knowledge Discovery and Data Mining, pages 160–172, Berlin, Heidelberg. Springer Berlin Heidelberg. DOI: 10.1007/978-3-642-37456-2_14

Ester, M., Kriegel, H.-P., Sander, J., Xu, X., et al. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In kdd, volume 96, pages 226–231

Jaro, M. A. (1989). Advances in record-linkage methodology as applied to matching the 1985 census of tampa, florida. Journal of the American Statistical Association, 84(406):414–420.

Lucena, L. F., de Menezes e Silva Filho, T., do Rêgo, T. G., and Malheiros, Y. (2022). Automatic recognition of units of measurement in product descriptions from tax invoices using neural networks. In Pinheiro, V., Gamallo, P., Amaro, R., Scarton, C., Batista, F., Silva, D., Magro, C., and Pinto, H., editors, Computational Processing of the Portuguese Language, pages 15+6–165, Cham. Springer International Publishing. DOI: 10.1007/978-3-030-98305-5_15

Marinho, M., Weigang, L., Oliveira, V., and Borges, V. (2024). Estratégias computacionais baseadas em similaridade de textos e visualização exploratória para a identificação de inconsistências em notas fiscais eletrônicas. DOI: 10.5753/sbsi_estendido.2024.238709

Mazzarolo, J., Steinmetz, R., and Mergen, S. (2022). Um estudo sobre a falta de padronização na descrição de produtos em notas fiscais eletrônicas. In Anais da XVII Escola Regional de Banco de Dados, pages 31–40, Porto Alegre, RS, Brasil. SBC. [link] DOI: 10.5753/erbd.2022.223526

Neto, H. and Lopo Martinez, A. (2016). Nota fiscal de serviÇos eletrÔnica: Uma anÁlise dos impactos na arrecadaÇÃo em municÍpios brasileiros. Revista de Contabilidade e Organizações, 10:49. DOI: 10.11606/rco.v10i26.107117

Ribeiro, L., Brandão, W., Marques, I., Andrade, P., Júnior, R., Oliveira, F., and Kelles, R. (2018). Reconhecimento de entidades nomeadas em itens de produto da nota fiscal eletrônica. 36:116–126.

Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20:53–65. [link] DOI: 10.1016/0377-0427(87)90125-7

Schulte, J. P., Giuntini, F. T., Nobre, R. A., Nascimento, K. C. d., Meneguette, R. I., Li, W., Gonçalves, V. P., and Rocha Filho, G. P. (2022). Elinac: Autoencoder approach for electronic invoices data clustering. Applied Sciences, 12(6). [link]

Steinbach, M., Karypis, G., and Kumar, V. (2000). A comparison of document clustering techniques.

Vieira, Patrícia & Pimenta, Daiana & Ferreira da Cruz, Aletheia & Souza, Eliane. (2019). Efeitos do programa de Nota Fiscal eletrônica sobre o aumento da arrecadação do Estado. Revista de Administração Pública. 53. 481-491. DOI: 10.1590/0034-761220170077.
Publicado
17/11/2024
DE ARAÚJO, Jonas Gabriel L.; DO RÊGO, Thaís G.; BARBOSA, Yuri de A. M.. Avaliação de Algoritmos de Clusterização para Agrupamento de Descrições de Produtos em Notas Fiscais Eletrônicas. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 81-86. DOI: https://doi.org/10.5753/stil.2024.245372.