Flower-PROV: Captura Distribuída de Dados de Proveniência em Experimentos de Aprendizado Federado

Camila Lopes; Alan L. Nunes; Cristina Boeres; Lúcia M. A. Drummond; Daniel de Oliveira

doi:10.5753/sbbd_estendido.2023.233337

Camila Lopes Universidade Federal Fluminense
Alan L. Nunes Universidade Federal Fluminense
Cristina Boeres Universidade Federal Fluminense
Lúcia M. A. Drummond Universidade Federal Fluminense
Daniel de Oliveira Universidade Federal Fluminense

DOI: https://doi.org/10.5753/sbbd_estendido.2023.233337

Resumo

O Aprendizado Federado (AF) é uma técnica descentralizada que possibilita que vários usuários treinem modelos de Aprendizado de Máquina de forma colaborativa, sem precisar acessar dados privados ou sensíveis. O treinamento de um modelo pode exigir várias iterações, e a duração de cada iteração depende diretamente das configurações definidas, como os valores dos hiper-parâmetros. Analisar os hiperparâmetros durante o treinamento permite uma melhor compreensão do modelo treinado e abre oportunidades para melhorias. Este artigo apresenta o arcabouço Flower-PROV que tem como objetivo capturar dados de proveniência durante o treinamento para rastrear configurações e métricas de avaliação, possibilitando a análise dos hiperparâmetros em tempo real. O banco de dados de proveniência segue a recomendação W3C PROV, facilitando a comparação, explicação e reprodução desses experimentos.

Palavras-chave: Aprendizado federado, Dados de Proveniência

Referências

Beutel, D. J. et al. (2020). Flower: A Friendly Federated Learning Research Framework. arXiv preprint arXiv:2007.14390.

Chapman, A., Lauro, L., Missier, P., and Torlone, R. (2022). DPDS: assisting data science with data provenance. Proc. VLDB Endow., 15(12):3614–3617.

Dwork, C. (2006). Differential privacy. 33rd ICALP 2006, Proceedings, Part II, volume 4052, pages 1–12. Springer.

Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for Computational Tasks: A Survey. Computing in Science & Engineering, 10(3):11–21.

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press

Groth, P. and Moreau, L. (2013). W3C PROV - An Overview of the PROV Family of Documents. Available at https://www.w3.org/TR/prov-overview/.

Krizhevsky, A. (2009). Learning Multiple Layers of Features from Tiny Images. Technical report, University of Toronto.

Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A., and Smith, V. (2020). Federated Optimization in Heterogeneous Networks. Proceedings of Machine Learning and Systems (MLSys). mlsys.org.

McMahan, H. B., Moore, E., Ramage, D., Hampson, S., and y Arcas, B. A. (2017). Communication-Efficient Learning of Deep Networks from Decentralized Data. Proc. of 20th AISTATS, pages 1273–1282.

Peregrina, J.A.,Ortiz,G.,andZirpins,C.(2022). Towards a Metadata Management System for Provenance, Reproducibility and Accountability in Federated Machine Learning. Advances in Service-Oriented and Cloud Computing, pages 5–18. Springer.

Pina, D., Chapman, A., Oliveira, D., and Mattoso, M. (2023). Deep learning provenance data integration: a practical approach. IPAW, pages 1542–1550. ACM.

Sandler, M., A. Howard, M. Z., Zhmoginov, A., and Chen, L. (2018). MobileNetV2: Inverted Residuals and Linear Bottlenecks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4510–4520.

Silva, V., Campos, V., Guedes, T., Camata, J., de Oliveira, D., Coutinho, A. L., Valduriez, P., and Mattoso, M. (2020). Dfanalyzer: Runtime dataflow analysis tool for computational science and engineering applications. SoftwareX, 12:100592.