ICPSet: Um Conjunto de Dados Estruturados de Itens de Compras Públicas

  • Gabriel P. Oliveira Universidade Federal de Minas Gerais (UFMG) http://orcid.org/0000-0002-7210-6408
  • Mariana O. Silva Universidade Federal de Minas Gerais (UFMG)
  • Lucas G. L. Costa Universidade Federal de Minas Gerais (UFMG)
  • Marco Túlio Dutra Universidade Federal de Minas Gerais (UFMG) / Universidade Federal de Ouro Preto (UFOP) https://orcid.org/0009-0000-3865-5799
  • Gisele L. Pappa Universidade Federal de Minas Gerais

Resumo


A transparência e a eficiência na gestão de compras públicas são essenciais para assegurar a utilização adequada dos recursos públicos. No entanto, a complexidade e a diversidade dos itens licitados representam um desafio significativo para a análise e monitoramento desses dados. Nesse contexto, este trabalho apresenta o ICPSet, um conjunto de dados estruturado que visa facilitar a análise de dados de compras públicas. Contendo mais de 30 milhões de itens padronizados e estruturados, o ICPSet oferece uma base robusta para diversas análises e o desenvolvimento de ferramentas.
Palavras-chave: dados governamentais, compras públicas, governo eletrônico

Referências

Brum, P. P. V. et al. (2024). Unsupervised grouping of public procurement similar items: Which text representation should I use? In LREC-COLING, pages 17176–17185. ELRA and ICCL.

Costa, L. G. L. et al. (2024). Quanto Custa: Banco de Preços de Compras Públicas do Estado de Minas Gerais. In DS-CoPS. SBC.

da Mata, W. R. R. et al. (2019). JusBD: Um banco de dados para obtenção de informações do poder judiciário. In DSW, pages 398–407. SBC.

Davis, P. (2022). Indicadores e dados municipais: Um banco de dados para avaliar a eficiência das despesas públicas. In DSW, pages 79–90. SBC.

Ghani, R., Probst, K., Liu, Y., Krema, M., and Fano, A. E. (2006). Text mining for product attribute extraction. SIGKDD Explorations, 8(1):41–48.

Lucena, L. F. et al. (2022). Automatic recognition of units of measurement in product descriptions from tax invoices using neural networks. In PROPOR, volume 13208, pages 156–165. Springer.

Oliveira, G. P. et al. (2022). Detecting inconsistencies in public bids: An automated and data-based approach. In WebMedia, pages 182–190. ACM.

Oliveira, G. P. et al. (2023). Assessing data quality inconsistencies in brazilian governmental data. Journal of Information and Data Management (JIDM), 14(1).

Silva, F. et al. (2021). Named entity recognition for brazilian portuguese product titles. In BRACIS, volume 13074, pages 526–541. Springer.

Silva, M. O. et al. (2022). LiPSet: Um conjunto de dados com documentos rotulados de licitações públicas. In DSW, pages 13–24. SBC.

Silva, M. O. et al. (2023). Análise de sobrepreço em itens de licitações públicas. In WCGE, pages 118–129. SBC.

Silva, M. O. et al. (2024). Overpricing analysis in brazilian public bidding items. Journal on Interactive Systems (JIS), 15(1):130–142.

Silva Junior, D. et al. (2022). Criação de conjuntos de dados textuais jurídicos em português a partir de processo de extração e heurística. In DSW, pages 91–100. SBC.

Sousa, A. W. and Del Fabro, M. D. (2019). Iudicium textum dataset uma base de textos jurıdicos para NLP. In DSW, pages 1–11. SBC.

Yang, L. et al. (2022). MAVE: A product dataset for multi-source attribute value extraction. In WSDM, pages 1256–1265. ACM.
Publicado
14/10/2024
OLIVEIRA, Gabriel P.; SILVA, Mariana O.; COSTA, Lucas G. L.; DUTRA, Marco Túlio; PAPPA, Gisele L.. ICPSet: Um Conjunto de Dados Estruturados de Itens de Compras Públicas. In: DATASET SHOWCASE WORKSHOP (DSW), 6. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 103-113. DOI: https://doi.org/10.5753/dsw.2024.243826.