Captura Automática de Dados de Proveniência de Experimentos de Aprendizado de Máquina com Keras-Prov

Débora Pina; Liliane Neves; Daniel de Oliveira; Marta Mattoso

doi:10.5753/sbbd_estendido.2021.18165

Débora Pina Universidade Federal do Rio de Janeiro (UFRJ)
Liliane Neves Universidade Federal do Rio de Janeiro (UFRJ)
Daniel de Oliveira Universidade Federal Fluminense (UFF)
Marta Mattoso Universidade Federal do Rio de Janeiro (UFRJ)

DOI: https://doi.org/10.5753/sbbd_estendido.2021.18165

Resumo

Neste artigo apresentamos a Keras-Prov, uma extensão à biblioteca de aprendizado profundo Keras para prover dados de proveniência. A Keras-Prov captura, armazena e gerencia metadados e dados de proveniência de experimentos de aprendizado de máquina (ML), em especial de aprendizado profundo. A Keras-Prov identifica automaticamente as transformações de dados mais comuns, como, treinamento, teste, e adaptação, para capturar os dados de proveniência. A Keras-Prov flexibiliza a captura automática, permitindo que novos dados de proveniência sejam definidos, como valores adicionais de hiperparâmetros. À gerência de proveniência por meio do SGBD colunar MonetDB, Keras-Prov adiciona uma interface de monitoramento visual e um gerador de SQL para consultas analíticas aos dados durante a evolução do treinamento e a escolha de modelos. A análise de dados da Keras-Prov, durante o treinamento, subsidia decisões de sintonia fina de hiperparâmetros. A base de dados segue a recomendação W3C PROV, favorecendo a comparação, explicação e reprodução de tais experimentos de ML. A Keras-Prov é uma solução de código aberto e pode ser obtida em https://github.com/dbpina/keras-prov.

Palavras-chave: Aprendizado Profundo, Proveniência, Ciência de Dados, Transparência, W3C PROV

Referências

Almeida, R. F., da Silva, W. M. C., Castro, K., de Araújo, A. P. F., Walter, M. E. T., Lifschitz, S., and Holanda, M. (2019). Managing data provenance for bioinformatics workflows using aprovbio. Int. J. Comput. Biol. Drug Des., 12(2):153–170.

Fairweather, E., Wittner, R., Chapman, M., Holub, P., and Curcin, V. (2021). Non-repudiable provenance for clinical decision support systems. In IPAW, pages 165–182.

Fekete, J., Freire, J., and Rhyne, T. (2020). Exploring reproducibility in visualization. IEEE Computer Graphics and Applications, 40(5):108–119.

Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computational tasks: A survey. Computing in Science & Engineering, 10(3):11–21.

Goodfellow, I., Bengio, Y., Courville, A., and Bengio, Y. (2016). Deep learning, volume 1. MIT press Cambridge.

Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In NeurIPS, pages 1097–1105.

Moreau, L. and Groth, P. (2013). Provenance: an introduction to prov. Synthesis Lectures on the Semantic Web: Theory and Technology, 3(4):1–129.

Orr, G. B. and Müller, K.-R. (2003). Neural networks: tricks of the trade. Springer.

Pimentel, J. F., Murta, L., Braganholo, V., and Freire, J. (2017). noworkflow: a tool for collecting, analyzing, and managing provenance from python scripts. VLDB, 10(12):1841–1844.

Pina, D., Kunstmann, L., de Oliveira, D., Valduriez, P., and Mattoso, M. (2021). Provenance supporting hyperparameter analysis in deep neural networks. In IPAW, pages 20–38.

Raissi, M., Perdikaris, P., and Karniadakis, G. (2019). Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations. Journal of Computational Physics, 378:686–707.

Russell, S. J. and Norvig, P. (2020). Artificial Intelligence: A Modern Approach (4th Edition). Pearson.

Silva, V., de Oliveira, D., Valduriez, P., and Mattoso, M. (2018). Dfanalyzer: runtime dataflow analysis of scientific applications using provenance. VLDB, 11:2082–2085.

Souza, R., Azevedo, L., Lourenço, V., Soares, E., Thiago, R., Brandão, R., Civitarese, D., Brazil, E. V., Moreno, M., Valduriez, P., Mattoso, M., Cerqueira, R., and Netto, M. A. S. (2019). Provenance data in the machine learning lifecycle in computational science and engineering. In WORKS, pages 1–10. IEEE.