Em Busca de uma Infraestrutura Aberta para Experimentos de Aprendizado Profundo: Integração da DLProv e Dataverse

  • Débora Pina Universidade Federal do Rio de Janeiro
  • Liliane Kunstmann Mendelics Análise Genômica
  • Marta Mattoso Universidade Federal do Rio de Janeiro
  • Marcos Lage Universidade Federal Fluminense
  • Daniel de Oliveira Universidade Federal Fluminense

Resumo


A Ciência Aberta exige auditoria e reúso, o que traz desafios à gestão de dados em dataflows de treinamento de Aprendizado Profundo (AP). Para isso, é fundamental capturar dados de proveniência, como transformações executadas e ambiente de execução. Contudo, apenas capturar não basta, é preciso disponibilizar essas informações. O artigo propõe integrar a ferramenta DLProv, que coleta dados de proveniência em AP, ao repositório Dataverse. A proposta automatiza a publicação de dados, modelos e metadados. A viabilidade foi demonstrada com o treinamento de uma CNN baseada na AlexNet.
Palavras-chave: Proveniência, Dataverse, DLProv

Referências

Blanco, G. et al. (2020). A superpixel-driven deep learning approach for the analysis of dermatological wounds. Computer Methods and Programs in Biomedicine, 183:105079.

Borges, G. C., dos Reis, J. C., and Medeiros, C. B. (2021). Addressing search in scientific open data repositories: A semantic metasearch platform. In BreSci, pages 81–88. SBC.

Crosas, M. (2011). The dataverse network®: An open-source application for sharing, discovering and preserving data. DLib Mag., 17(1/2).

Dalgali, A. and Crowston, K. (2019). Sharing open deep learning models. In Proceedings of the 52nd Hawaii International Conference on System Sciences.

Demchenko, Y. et al. (2012). Addressing big data challenges for scientific data infrastructure. In CloudCom’12, pages 614–617. IEEE.

Flemisch, B. et al. (2024). Research data management in simulation science: Infrastructure, tools, and applications. Datenbank-Spektrum, 24(2):97–105.

Herschel, M., Diestelkämper, R., and Ben Lahmar, H. (2017). A survey on provenance: What for? what form? what from? VLDB J., 26(6):881–906.

Kocak, B. et al. (2023). Transparency in artificial intelligence research: a systematic review of availability items related to open science in radiology and nuclear medicine. Academic Radiology, 30(10):2254–2266.

Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In NeurIPS, pages 1097–1105.

Li, Z., Mao, F., and Wu, C. (2022). Can we share models if sharing data is not an option? Patterns, 3(11).

Moreau, L. and Groth, P. (2013). Provenance: an introduction to prov. Synthesis Lectures on the Semantic Web: Theory and Technology, 3(4):1–129.

Nilsback, M.-E. and Zisserman, A. (2006). A visual vocabulary for flower classification. In CVPR’06, volume 2, pages 1447–1454. IEEE.

Pina, D. et al. (2024). Dlprov: A data-centric support for deep learning workflow analyses. In DEEM’24, DEEM ’24, page 77–85, New York, NY, USA. ACM.

Pina, D., Kunstmann, L., et al. (2025). Dlprov: a suite of provenance services for deep learning workflow analyses. PeerJ Comp. Sci., 11:e2985.

Ravi, N. et al. (2022). Fair principles for ai models with a practical application for accelerated high energy diffraction microscopy. Scientific Data, 9(1):657.

Schackart III, K. E., Imker, H. J., and Cook, C. E. (2024). Detailed implementation of a reproducible machine learning-enabled workflow. Data Science Journal.

Schlegel, M. and Sattler, K.-U. (2023). Mlflow2prov: Extracting provenance from machine learning experiments. DEEM ’23, New York, NY, USA. ACM.

Waskita, A. A. et al. (2023). Open science progress: A literature assessment of open access articles. In IC3INA’22, page 271–275, New York, NY, USA. ACM.

Wilkinson, M. D. o. (2016). The fair guiding principles for scientific data management and stewardship. Scientific data, 3(1):1–9.
Publicado
29/09/2025
PINA, Débora; KUNSTMANN, Liliane; MATTOSO, Marta; LAGE, Marcos; DE OLIVEIRA, Daniel. Em Busca de uma Infraestrutura Aberta para Experimentos de Aprendizado Profundo: Integração da DLProv e Dataverse. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 19. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 73-80. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2025.248217.