LiPSet: A Dataset with Labeled Public Bidding Documents
Abstract
In this work, we present LiPSet, a dataset with labeled documents from public bids from Minas Gerais. After an overview of the manual collection and labeling process, we present a brief exploratory data analysis to summarize the main features and contributions of the proposed dataset. In addition, we discuss potential applications and main challenges involving the use of LiPSet.
Keywords:
dataset, open government data, public bidding, labeled data, meta-class
References
Abidi, W. U. H. et al. (2021). Real-time shill bidding fraud detection empowered with fussed machine learning. IEEE Access, 9:113612–113621.
Anowar, F. and Sadaoui, S. (2019). Multi-class ensemble learning of imbalanced bidding fraud data. In Canadian AI, volume 11489 of Lecture Notes in Computer Science, pages 352–358. Springer.
Araújo, L. R. and Souza, J. F. (2011). Aumentando a transparência do governo por meio da transformação de dados governamentais abertos em dados ligados. RESI, 10(1).
Clarindo, J. P. et al. (2020). Qualisus: um dataset sobre dados da saúde pública no brasil. SBBD DSW, pages 418–428.
Costa, L., Reis, A., Bacha, C. A., Oliveira, G. P., Silva, M. O., Teixeira, M. C., Brandão, M. A., Lacerda, A., and Pappa, G. (2022). Alertas de fraude em licitações: Uma abordagem baseada em redes sociais. In Anais do XI Brazilian Workshop on Social Network Analysis and Mining, pages 37–48, Porto Alegre, RS, Brasil. SBC.
Gabardo, A. C. and Lopes, H. S. (2014). Using social network analysis to unveil cartels in public bids. In ENIC, pages 17–21. IEEE.
Lima, M. et al. (2020). Inferring about fraudulent collusion risk on brazilian public works contracts in official texts using a bi-lstm approach. In EMNLP, pages 1580–1588.
Lyra, M. S. et al. (2021). Characterization of the firm–firm public procurement co-bidding network from the State of Ceará (Brazil) municipalities. Appl. Network Sci., 6(1):1–10.
Mata, W. R. R. et al. (2019). JusBD: Um Banco de Dados para Obtenção de Informações do Poder Judiciário. pages 398–407.
Meera, S. and Geerthik, S. (2022). Natural language processing. Artificial Intelligent Techniques for Wireless Communication and Networking, pages 139–153.
Muniz, R. I. V. C. S. and Lóscio, B. F. (2018). Publicação de Dados Abertos Conectados Sobre os Transplantes Realizados no IMIP. In SBBD WTDBD, Rio de Janeiro, Brasil.
Oliveira, E. F. and Silveira, M. S. (2018). Open government data in brazil a systematic review of its uses and issues. In dg.o, pages 1–9.
Pereira, L. S. (2022). Caracterização da comunidade que utiliza dados abertos governamentais sobre a educação brasileira. Master’s thesis, Universidade Federal de Campina Grande, Campina Grande, Brasil.
Pereira, R. and Murai, F. (2021). Quão efetivas são redes neurais baseadas em grafos na detecção de fraude para dados em rede? In BraSNAM, pages 205–210. SBC.
Shimron, E. et al. (2022). Implicit data crimes: Machine learning bias arising from misuse of public data. the National Academy of Sciences, 119(13):e2117203119.
Silva, L. C. et al. (2020). Utilização de técnicas de mineração de dados para detectar possíveis relacionamentos entre empresas participantes de licitações nas forças armadas. Acanto em Revista, 7(7):85–85.
van Erven, G. C. G. et al. (2017). Detecting evidence of fraud in the brazilian government using graph databases. In WorldCIST, pages 464–473. Springer.
Velasco, R. B. et al. (2021). A decision support system for fraud detection in public procurement. Int. Trans. Oper. Res., 28(1):27–47.
Anowar, F. and Sadaoui, S. (2019). Multi-class ensemble learning of imbalanced bidding fraud data. In Canadian AI, volume 11489 of Lecture Notes in Computer Science, pages 352–358. Springer.
Araújo, L. R. and Souza, J. F. (2011). Aumentando a transparência do governo por meio da transformação de dados governamentais abertos em dados ligados. RESI, 10(1).
Clarindo, J. P. et al. (2020). Qualisus: um dataset sobre dados da saúde pública no brasil. SBBD DSW, pages 418–428.
Costa, L., Reis, A., Bacha, C. A., Oliveira, G. P., Silva, M. O., Teixeira, M. C., Brandão, M. A., Lacerda, A., and Pappa, G. (2022). Alertas de fraude em licitações: Uma abordagem baseada em redes sociais. In Anais do XI Brazilian Workshop on Social Network Analysis and Mining, pages 37–48, Porto Alegre, RS, Brasil. SBC.
Gabardo, A. C. and Lopes, H. S. (2014). Using social network analysis to unveil cartels in public bids. In ENIC, pages 17–21. IEEE.
Lima, M. et al. (2020). Inferring about fraudulent collusion risk on brazilian public works contracts in official texts using a bi-lstm approach. In EMNLP, pages 1580–1588.
Lyra, M. S. et al. (2021). Characterization of the firm–firm public procurement co-bidding network from the State of Ceará (Brazil) municipalities. Appl. Network Sci., 6(1):1–10.
Mata, W. R. R. et al. (2019). JusBD: Um Banco de Dados para Obtenção de Informações do Poder Judiciário. pages 398–407.
Meera, S. and Geerthik, S. (2022). Natural language processing. Artificial Intelligent Techniques for Wireless Communication and Networking, pages 139–153.
Muniz, R. I. V. C. S. and Lóscio, B. F. (2018). Publicação de Dados Abertos Conectados Sobre os Transplantes Realizados no IMIP. In SBBD WTDBD, Rio de Janeiro, Brasil.
Oliveira, E. F. and Silveira, M. S. (2018). Open government data in brazil a systematic review of its uses and issues. In dg.o, pages 1–9.
Pereira, L. S. (2022). Caracterização da comunidade que utiliza dados abertos governamentais sobre a educação brasileira. Master’s thesis, Universidade Federal de Campina Grande, Campina Grande, Brasil.
Pereira, R. and Murai, F. (2021). Quão efetivas são redes neurais baseadas em grafos na detecção de fraude para dados em rede? In BraSNAM, pages 205–210. SBC.
Shimron, E. et al. (2022). Implicit data crimes: Machine learning bias arising from misuse of public data. the National Academy of Sciences, 119(13):e2117203119.
Silva, L. C. et al. (2020). Utilização de técnicas de mineração de dados para detectar possíveis relacionamentos entre empresas participantes de licitações nas forças armadas. Acanto em Revista, 7(7):85–85.
van Erven, G. C. G. et al. (2017). Detecting evidence of fraud in the brazilian government using graph databases. In WorldCIST, pages 464–473. Springer.
Velasco, R. B. et al. (2021). A decision support system for fraud detection in public procurement. Int. Trans. Oper. Res., 28(1):27–47.
Published
2022-09-19
How to Cite
SILVA, Mariana O. et al.
LiPSet: A Dataset with Labeled Public Bidding Documents. In: DATASET SHOWCASE WORKSHOP (DSW), 4. , 2022, Búzios.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2022
.
p. 13-24.
DOI: https://doi.org/10.5753/dsw.2022.224925.
