Engenharia e Avaliação de Features para Extração de Informação em Notas Fiscais

Eduardo Darrazão; Victor Amorim; Krerley Oliveira; Luiz Gomes-Jr

doi:10.5753/erbd.2023.229441

Eduardo Darrazão UTFPR
Victor Amorim UTFPR
Krerley Oliveira UFAL
Luiz Gomes-Jr UTFPR

DOI: https://doi.org/10.5753/erbd.2023.229441

Resumo

A correta identificação dos elementos constantes em notas fiscais eletrônicas é importante para diversas questões de fiscalização e transparência governamental, como identificação de sobrepreço em licitações públicas. Porém, esta identificação é um desafio tanto pela diversidade de produtos, quanto pelas variações e erros de preenchimento. Este artigo aplica técnicas de estado-da-arte em extração de informação para avaliar os melhores conjuntos de features para se aplicar em notas fiscais eletrônicas brasileiras. Os testes utilizaram dados de notas fiscais de medicamentos emitidas no Piauí em 2021.

Referências

Alshammari, N. and Alanazi, S. (2021). The impact of using different annotation schemes on named entity recognition. Egyptian Informatics Journal, 22(3):295-302.

Cortez, E., Oliveira, D., da Silva, A. S., de Moura, E. S., and Laender, A. H. F. (2011). Joint unsupervised structure discovery and information extraction. In Proc. SIGMOD.

F. N. de Oliveira, L. P. G. d. S. (2020). Estratégias para combater a sonegação fiscal: Um modelo para o icms baseado em redes neurais artificiais. Revista de Gestão, Finanças e Contabilidade, 10:42-64.

John Lafferty, Andrew McCallum, F. C. P. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. Proc. ICML.

Pereira, R. d. S. (2020). Redes heterogêneas para classificação de produtos em notas fiscais eletrônicas de compras públicas [tcc]. CGU.

Seymore, K. and Rosenfeld, R. (1999). Learning hidden markov model structure for information extraction.

Tjong Kim Sang, E. F. and De Meulder, F. (2003). Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition. In Proc. Conference on Natural Language Learning at HLT-NAACL.

Tourille, J., Doutreligne, M., Ferret, O., Névéol, A., Paris, N., and Tannier, X. (2018). Evaluation of a sequence tagging tool for biomedical texts. In Proc. International Workshop on Health Text Mining and Information Analysis.

Veras Carvalho Menezes, A. P. (2022). Inteligência artificial para identificação de indícios de fraude e corrupção em compras públicas no tcu. Revista Debates em Administração Pública - REDAP, 3(2).

Weijun FU, L. L. (2009). A method and application of automatic term extraction using conditional random fields. Proc. NLP-KE.