Construção do Dataset Semântico de Pessoas Jurídicas

  • Tulio Vidal Rolim Universidade Federal do Ceará (UFC) / Instituto Federal de Educação, Ciência e Tecnologia do Piauí (IFPI)
  • Caio Viktor Silva Avila Universidade Federal do Ceará (UFC)
  • Renato Freitas Universidade Federal do Ceará (UFC)
  • Roberval Gomes Mariano Universidade Federal do Ceará (UFC)
  • Vania Maria Ponte Vidal Universidade Federal do Ceará (UFC)

Resumo


A Receita Federal do Brasil disponibiliza dados cadastrais de empresas, estabelecimentos e quadros societários através do Cadastro Nacional de Pessoas Jurídicas (CNPJ), servindo como uma fonte de dados confiável e acessível. Entretanto, obter e gerenciar esses dados não é uma tarefa trivial. Esse trabalho realiza a primeira iniciativa para construção de um dataset semântico ($DS$) de Pessoas Jurídicas baseado em uma arquitetura de Data Lakehouses e semântica. No decorrer deste artigo é descrito processo de construção do dataset, fornecendo também os recursos, scripts e artefatos utilizados, além de uma exploração através do GraphDB e apresentação de possíveis casos de uso.

Palavras-chave: Dataset, Grafo de Conhecimento, Pessoas Jurídicas, RFB, Semântica

Referências

Armbrust, M., Das, T., Sun, L., Yavuz, B., Zhu, S., Murthy, M., Torres, J., van Hovell, H., Ionescu, A., Łuszczak, A., et al. (2020). Delta lake: high-performance acid table storage over cloud object stores. Proceedings of the VLDB, 13(12):3411–3424.

Armbrust, M., Ghodsi, A., Xin, R., and Zaharia, M. (2021). Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics. In Proceedings of CIDR, volume 8, page 28.

Barbosa, R. P. C. (2023). Potencializando o uso de dados em políticas públicas através do primeiro datalake municipal no mundo no rio de janeiro. Enepcp.

Bertails, A. and Prud’hommeaux, E. G. (2011). Interpreting relational databases in the rdf domain. In Proceedings of the sixth international conference on Knowledge capture, pages 129–136.

Braz, C. S., Mendes, B. M., Oliveira, G. P., Costa, L. L., Silva, M. O., Brandao, M. A., Lacerda, A., and Pappa, G. L. (2023). Análise de irregularidades em licitações públicas com foco em empresas de pequeno porte. In Anais do XI Workshop de Computação Aplicada em Governo Eletrônico, pages 94–105. SBC.

Cherradi, M. (2024). Data lakehouse: Next generation information system. In Seminars in Medical Writing and Education, volume 3, pages 67–67.

Databricks (2021). What is a medallion architecture. [link]. Acessado em: 15-07-2024.

de Oliveira Araújo, L. S., Santos, M. T., and Silva, D. A. (2015). The brazilian federal budget ontology: a semantic web case of public open data. In Proceedings of the 7th International Conference on Management of computational and collective intElligence in Digital EcoSystems, pages 85–89.

do Prado Pagotto, D., da Silva Marques, W., de Oliveira, D. S., Ferreira, V. d. R. S., de Azevedo, V. N., and Júnior, C. V. B. (2024). Inovação em saúde: a implementação de um data lake para armazenamento, sistematização e disponibilização de dados em saúde no brasil. InCID: Revista de Ciência da Informação e Documentação, 15(1).

Ehrlinger, L. and Wöß, W. (2016). Towards a definition of knowledge graphs. SEMANTiCS (Posters, Demos, SuCCESS), 48(1-4):2.

Haelen, B. and Davis, D. (2023). Delta Lake: Up and Running. ”O’Reilly Media, Inc.”.

Nascimento, L. M. (2017). Utilizando linked data para publicação e cruzamento de dados governamentais abertos. Master’s thesis, Universidade Federal Fluminense.

W3C (2012a). A direct mapping of relational data to rdf.

W3C (2012b). R2rml: Rdb to rdf mapping language.
Publicado
14/10/2024
ROLIM, Tulio Vidal; AVILA, Caio Viktor Silva; FREITAS, Renato; MARIANO, Roberval Gomes; VIDAL, Vania Maria Ponte. Construção do Dataset Semântico de Pessoas Jurídicas. In: DATASET SHOWCASE WORKSHOP (DSW), 6. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 41-52. DOI: https://doi.org/10.5753/dsw.2024.243713.