Desenvolvimento de um Framework de Aprendizado de Máquina no Apoio a Gateways Científicos Verdes, Inteligentes e Eficientes: BioinfoPortal como Caso de Estudo Brasileiro

  • Micaella Coelho LNCC
  • Guilherme Freire LNCC
  • Kary Ocaña LNCC
  • Carla Osthoff LNCC
  • Marcelo Galheigo LNCC
  • André R. Carneiro LNCC
  • Francieli Boito Univ. Bordeaux
  • Philippe Navaux UFRGS
  • Douglas O. Cardoso Instituto Politécnico de Tomar

Resumo


Gateways científicos trazem enormes benefícios para usuários finais, simplificando o acesso e ocultando a complexidade da infraestrutura de computação distribuída subjacente. O gateway científico de bioinformática, BioinfoPortal, por meio do seu middleware CSGrid, usufrui dos recursos heterogêneos do Santos Dumont. No entanto, a submissão de tarefas ainda exige um esforço significativo, no que tange à decisão da melhor configuração que leve a uma execução eficiente. O framework de aprendizado de máquina, em desenvolvimento, ao ser integrado ao gateway, viabilizará essa decisão. No presente trabalho apresentamos um estudo de desempenho com caso de estudo da bioinformática visando analisar o comportamento de variáveis de saída do slurm/sacct dado valores das variáveis de entrada obtidas da configuração de tarefas do SDumont, o que pôde ser realizado pela modelagem deste cenário como uma tarefa de classificação binária. Os nossos resultados indicam ser possível extrair regras e avaliar a influência das variáveis de entrada Bootstrap, Nó e Thread, sendo Bootstrap a mais significativa e aquela com mais peso para o sistema de recomendação de alocação de recursos no BioinfoPortal.

Referências

Alves, M., Teylo, L., Frota, Y., and Drummond, L. (2020). An Interference-Aware Strategy for Co-locating High Performance Computing Applications in Clouds, pages 3-20.

Gesing, S., Dooley, R., Pierce, M., Krüger, J., Grunzke, R., Herres-Pawlis, S., and Hoffmann, A. (2018). Gathering requirements for advancing simulations in hpc infrastructures via science gateways. Future Generation Computer Systems, 82:544-554.

Geurts, P., Ernst, D., and Wehenkel, L. (2006). Extremely randomized trees. Machine Learning, 63(1):3-42.

Gomes, A. T. A., Bastos, B. F., Medeiros, V., and Moreira, V. M. (2015). Experiences of the brazilian national high-performance computing network on the rapid prototyping of science gateways. Concurrency and Computation: Practice and Experience, 27(2):271-289.

Izquierdo-Carrasco, F., Gagneur, J., and Stamatakis, A. (2012). Trading running time for memory in phylogenetic likelihood computations. In Bioinformatics, pages 86-95.

Johnson, J. M. and Khoshgoftaar, T. M. (2019). Survey on deep learning with class imbalance. Journal of Big Data, 6(1):27.

Lemey, P., Salemi, M., and Vandamme, A.-M. (2009). The phylogenetic handbook: a practical approach to phylogenetic analysis and hypothesis testing. Cambridge University Press.

Ocaña, K. A. and Dávila, A. M. (2011). Phylogenomics-based reconstruction of protozoan species tree. Evolutionary Bioinformatics, 7:EBO-S6861.

Ocaña, K. A., Galheigo, M., Osthoff, C., Gadelha Jr, L. M., Porto, F., Gomes, A. T. A., de Oliveira, D., and Vasconcelos, A. T. (2020). Bioinfoportal: a scientific gateway for integrating bioinformatics applications on the brazilian national high-performance computing network. Future Generation Computer Systems, 107:192-214.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, É. (2011). Scikit-learn: Machine Learning in Python. Journal of Machine Learning Research, 12(85):2825-2830.

Pierantoni, G., Kiss, T., Bolotov, A., Kagialis, D., DesLauriers, J., Ullah, A., Chen, H., Fee, D. C. Y., Dang, H.-V., Kovacs, J., et al. (2022). Toward a reference architecture based science gateway framework with embedded e-learning support. Concurrency and Computation: Practice and Experience, page e6872.

Ribeiro, R. P. and Moniz, N. (2020). Imbalanced regression and extreme value prediction. Machine Learning, 109(9):1803-1835.

Stamatakis, A. (2014). Raxml version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics, 30(9):1312-1313.
Publicado
19/10/2022
COELHO, Micaella et al. Desenvolvimento de um Framework de Aprendizado de Máquina no Apoio a Gateways Científicos Verdes, Inteligentes e Eficientes: BioinfoPortal como Caso de Estudo Brasileiro. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 23. , 2022, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 205-216. DOI: https://doi.org/10.5753/wscad.2022.226377.