Integrador de metadados modular para aprendizado de máquina com visualização em tempo de execução

Filipe Silva; Marta Mattoso

doi:10.5753/sbbd.2023.233424

Filipe Silva Universidade Federal do Rio de Janeiro http://orcid.org/0000-0003-3994-8627
Marta Mattoso Universidade Federal do Rio de Janeiro

DOI: https://doi.org/10.5753/sbbd.2023.233424

Resumo

Nos últimos anos, a visualização de dados durante o treinamento de um modelo de aprendizado de máquina (ML), bem como o armazenamento estruturado dos metadados para análises futuras, tem emergido como uma abstração fundamental para ajudar o humano na seleção de um modelo. As soluções existentes possuem duas limitações: a primeira relaciona-se aos frameworks utilizados no treinamento, que tendem a possuir um aspecto fortemente acoplado, enquanto a segunda, aos riscos à governança de dados. Desta forma, os humanos, cientistas e analistas de dados, deparam-se com as seguintes barreiras i) aprisionamento tecnológico e ii) gerenciamento da aplicação em nível comercial. O objetivo deste trabalho é apresentar uma arquitetura de referência para ambientes de ML, que pode ser aplicada à disposição gráfica de dados. Assim, tem-se três principais focos: modularização, interoperabilidade e governança de dados. Essa arquitetura é baseada em computação sem servidor, pois favorece o acoplamento fraco, simples e interoperável. Um experimento de instanciação da arquitetura mostra a visualização em tempo de execução com base em componentes independentes.

Palavras-chave: machine learning metadata, ml experiment tracking, runtime data visualization

Referências

De Bie, T., De Raedt, L., Hernández-Orallo, J., Hoos, H. H., Smyth, P., and Williams, C. K. (2022). Automating data science. Communications of the ACM, 65(3):76–87. ACM New York, NY, USA.

Gil, Y., Honaker, J., Gupta, S., Ma, Y., D’Orazio, V., Garijo, D., Gadewar, S., Yang, Q., and Jahanshad, N. (2019). Towards human-guided machine learning. In Proceedings of the 24th International Conference on Intelligent User Interfaces, pages 614–624.

Kumar, A., McCann, R., Naughton, J., and Patel, J. M. (2016). Model selection management systems: The next frontier of advanced analytics. ACM SIGMOD Record, 44(4):17–22. ACM New York, NY, USA.

LeCun, Y., Bengio, Y., and Hinton, G. (2015). Deep learning. Nature, 521(7553):436–444. Publisher: Nature Publishing Group UK London.

Lee, D. and Macke, S. (2020). A Human-in-the-loop Perspective on AutoML: Milestones and the Road Ahead. IEEE Data Engineering Bulletin. National Science Foundation. NSF-PAR ID: 10161752.

Pang, B., Nijkamp, E., and Wu, Y. N. (2020). Deep learning with tensorflow: A review. Journal of Educational and Behavioral Statistics, 45(2):227–248. SAGE Publications, Los Angeles, CA.

Schelter, S., Boese, J.-H., Kirschnick, J., Klein, T., and Seufert, S. (2017). Automatically tracking metadata and provenance of machine learning experiments. In NeurIPS 2017, pages 27–29.

Schlegel, M. and Sattler, K.-U. (2023). Management of Machine Learning Lifecycle Artifacts: A Survey. SIGMOD Record, 51(4).

Spinner, T., Schlegel, U., Schäfer, H., and El-Assady, M. (2020). explAIner: A visual analytics framework for interactive and explainable machine learning. IEEE transactions on visualization and computer graphics, 26(1):1064–1074. Publisher: IEEE.

Victorino, M. and Bräscher, M. (2009). Organização da informação e do conhecimento, engenharia de software e arquitetura orientada a serviços: uma abordagem holı́stica para o desenvolvimento de sistemas de informação computadorizados. Revista de Ciência da Informação, 10(3).

Wang, J., Liu, S., and Zhang, W. (2023). Visual Analytics For Machine Learning: A Data Perspective Survey. arXiv e-prints, page arXiv:2307.07712.

Yuan, J., Chen, C., Yang, W., Liu, M., Xia, J., and Liu, S. (2021). A survey of visual analytics techniques for machine learning. Computational Visual Media, 7(1):3–36. Publisher: Springer.