Avaliação de Algoritmos de Clusterização para Agrupamento de Descrições de Produtos em Notas Fiscais Eletrônicas
Resumo
A nota fiscal eletrônica é essencial para o processo de auditoria fiscal. Este artigo avalia a eficácia de algoritmos de clusterização para agrupar descrições de produtos em notas fiscais eletrônicas, um desafio devido à falta de padronização nos registros. Usando similaridade de strings e ajustes para unidades de medida, foram testados DBSCAN, HDBSCAN, OPTICS e Agglomerative Clustering. As métricas de avaliação incluíram o Coeficiente de Silhueta, Índice de Calinski-Harabasz e a porcentagem de produtos agrupados. O HDBSCAN apresentou o melhor desempenho inicial, e a subclusterização, apesar de melhorar as métricas, introduziu inconsistências nos agrupamentos.
Referências
Ankerst, M., Breunig, M. M., Kriegel, H.-P., and Sander, J. (1999). Optics: ordering points to identify the clustering structure. SIGMOD Rec., 28(2):49–60. DOI: 10.1145/304182.304187
Caliński, T. and JA, H. (1974). A dendrite method for cluster analysis. Communications in Statistics - Theory and Methods, 3:1–27. DOI: 10.1080/03610927408827101
Campello, R. J. G. B., Moulavi, D., and Sander, J. (2013). Density-based clustering based on hierarchical density estimates. In Pei, J., Tseng, V. S., Cao, L., Motoda, H., and Xu, G., editors, Advances in Knowledge Discovery and Data Mining, pages 160–172, Berlin, Heidelberg. Springer Berlin Heidelberg. DOI: 10.1007/978-3-642-37456-2_14
Ester, M., Kriegel, H.-P., Sander, J., Xu, X., et al. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. In kdd, volume 96, pages 226–231
Jaro, M. A. (1989). Advances in record-linkage methodology as applied to matching the 1985 census of tampa, florida. Journal of the American Statistical Association, 84(406):414–420.
Lucena, L. F., de Menezes e Silva Filho, T., do Rêgo, T. G., and Malheiros, Y. (2022). Automatic recognition of units of measurement in product descriptions from tax invoices using neural networks. In Pinheiro, V., Gamallo, P., Amaro, R., Scarton, C., Batista, F., Silva, D., Magro, C., and Pinto, H., editors, Computational Processing of the Portuguese Language, pages 15+6–165, Cham. Springer International Publishing. DOI: 10.1007/978-3-030-98305-5_15
Marinho, M., Weigang, L., Oliveira, V., and Borges, V. (2024). Estratégias computacionais baseadas em similaridade de textos e visualização exploratória para a identificação de inconsistências em notas fiscais eletrônicas. DOI: 10.5753/sbsi_estendido.2024.238709
Mazzarolo, J., Steinmetz, R., and Mergen, S. (2022). Um estudo sobre a falta de padronização na descrição de produtos em notas fiscais eletrônicas. In Anais da XVII Escola Regional de Banco de Dados, pages 31–40, Porto Alegre, RS, Brasil. SBC. [link] DOI: 10.5753/erbd.2022.223526
Neto, H. and Lopo Martinez, A. (2016). Nota fiscal de serviÇos eletrÔnica: Uma anÁlise dos impactos na arrecadaÇÃo em municÍpios brasileiros. Revista de Contabilidade e Organizações, 10:49. DOI: 10.11606/rco.v10i26.107117
Ribeiro, L., Brandão, W., Marques, I., Andrade, P., Júnior, R., Oliveira, F., and Kelles, R. (2018). Reconhecimento de entidades nomeadas em itens de produto da nota fiscal eletrônica. 36:116–126.
Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20:53–65. [link] DOI: 10.1016/0377-0427(87)90125-7
Schulte, J. P., Giuntini, F. T., Nobre, R. A., Nascimento, K. C. d., Meneguette, R. I., Li, W., Gonçalves, V. P., and Rocha Filho, G. P. (2022). Elinac: Autoencoder approach for electronic invoices data clustering. Applied Sciences, 12(6). [link]
Steinbach, M., Karypis, G., and Kumar, V. (2000). A comparison of document clustering techniques.
Vieira, Patrícia & Pimenta, Daiana & Ferreira da Cruz, Aletheia & Souza, Eliane. (2019). Efeitos do programa de Nota Fiscal eletrônica sobre o aumento da arrecadação do Estado. Revista de Administração Pública. 53. 481-491. DOI: 10.1590/0034-761220170077.