Proposal for comparison and measurement of parallel and distributed file systems for training ML models in the healthcare

João V. Vargas; Cristiano A. Künas; Thiago Araújo; Bruno Morales; Philippe O. A. Navaux

doi:10.5753/eradrs.2025.6807

João V. Vargas UFRGS
Cristiano A. Künas UFRGS
Thiago Araújo UFRGS
Bruno Morales UFRGS
Philippe O. A. Navaux UFRGS

DOI: https://doi.org/10.5753/eradrs.2025.6807

Resumo

Diversas áreas da ciência passam a depender cada vez mais da computação de alto desempenho (HPC) para processar e analisar grandes volumes de dados experimentais. Ao mesmo tempo, os sistemas de armazenamento em ambientes modernos de HPC devem se adaptar a diferentes padrões de acesso. Esses padrões envolvem operações frequentes de metadados, inúmeras solicitações de E/S pequenas e acesso aleatório a arquivos, enquanto os sistemas tradicionais de arquivos paralelos foram otimizados principalmente para acesso sequencial e compartilhado a arquivos grandes. Nesta pesquisa, compararemos o GekkoFS e avaliaremos seu desempenho em relação ao Lustre, um sistema de arquivos paralelo amplamente utilizado que atende aos exigentes requisitos dos ambientes de simulação em HPC. Nossa comparação tem como objetivo destacar os pontos fortes e as limitações de cada sistema para treinar modelos de machine learning.

Palavras-chave: Aprendizado de Máquina e Computação de Alto Desempenho, Sistemas de Arquivos de Alto Desempenho e Entrada/Saída

Referências

Braam, P. (2019). The lustre storage architecture. arXiv preprint [link].

Dos Reis, M. A., Kunas, C. A., da Silva Araújo, T., Schneiders, J., de Azevedo, P. B., Nakayama, L. F., Rados, D. R., Umpierre, R. N., Berwanger, O., Lavinsky, D., et al. (2024). Advancing healthcare with artificial intelligence: diagnostic accuracy of machine learning algorithm in diagnosis of diabetic retinopathy in the brazilian population. Diabetology & Metabolic Syndrome, 16(1):209.

Gupta, A., Dhakshinamoorthy, D., and Paul, A. K. (2024). Studying the effects of asynchronous i/o on hpc i/o patterns. In 2024 IEEE International Conference on Cluster Computing Workshops (CLUSTER Workshops), pages 109–112. IEEE.

Macedo, R., Miranda, M., Tanimura, Y., Haga, J., Ruhela, A., Harrell, S. L., Evans, R. T., Pereira, J., and Paulo, J. (2023). Taming metadata-intensive hpc jobs through dynamic, application-agnostic qos control. In 2023 IEEE/ACM 23rd International Symposium on Cluster, Cloud and Internet Computing (CCGrid), pages 47–61. IEEE.

Samsi, S., Zhao, D., McDonald, J., Li, B., Michaleas, A., Jones, M., Bergeron, W., Kepner, J., Tiwari, D., and Gadepally, V. (2023). From words to watts: Benchmarking the energy costs of large language model inference. In 2023 IEEE High Performance Extreme Computing Conference (HPEC), pages 1–9. IEEE.

Vef, M.-A., Moti, N., Suß, T., Tacke, M., Tocci, T., Nou, R., Miranda, A., Cortes, T., and Brinkmann, A. (2020). Gekkofs—a temporary burst buffer file system for hpc applications. Journal of Computer Science and Technology, 35:72–91.