Monitoramento em Tempo Real de Workflows Científicos Executados em Paralelo em Ambientes Distribuídos
Resumo
A maioria dos workflows científicos de larga escala apresenta execução de longa duração, tornando inviável para o cientista monitorar o estado da execução durante todo o tempo em um terminal. Neste artigo, apresentamos uma nova abordagem para monitoramento em tempo real de workflows científicos executados em paralelo, baseado em consultas aos dados de proveniência gerados em tempo real, que identifica eventos pré-configurados e notifica o cientista através de tecnologias de dispositivos móveis e redes sociais. A avaliação da solução proposta, chamada SciLightning, foi realizada através do monitoramento da execução em paralelo do workflow de análise filogenética chamado SciPhy no ambiente de nuvem Amazon EC2 usando a máquina de execução de workflows em nuvem chamada SciCumulus. A avaliação mostrou que esta nova abordagem é eficaz no que tange o monitoramento e notificação de eventos, e pode ser facilmente acoplada a abordagens para a gerência de execução de workflows e que a notificação de eventos do workflow em tempo real é fundamental, uma vez que permite ajustes de execução de forma online.
Referências
Balis, B., Bubak, M., Łabno, B., (2008), "Monitoring of Grid scientific workflows", Sci. Program., v. 16, n. 2-3 (abr.), p. 205–216.
Cruz, S. M. S. da, Silva, F. N. da, Gadelha Jr., L. M. R., Cavalcanti, M. C. R., Campos, M. L. M., Mattoso, M., (2008), "A Lightweight Middleware Monitor for Distributed Scientific Workflows". In: CCGRID ’08, p. 693–698
Dean, J., Ghemawat, S., (2010), "MapReduce: a flexible data processing tool", Commun. ACM, v. 53 (jan.), p. 72–77.
Dias, J., Ogasawara, E., Oliveira, D., Porto, F., Coutinho, A., Mattoso, M., (2011), "Supporting Dynamic Parameter Sweep in Adaptive and User-Steered Workflow". In: 6th WORKS, p. 31–36, Seattle, WA, USA.
Freedman, D., Pisani, R., Purves, R., (2007), Statistics, 4th Edition. 4th ed. W. W. Norton.
Freire, J., Koop, D., Santos, E., Silva, C. T., (2008), "Provenance for Computational Tasks: A Survey", Computing in Science and Engineering, v.10, n. 3, p. 11–21.
Gil, Y., Deelman, E., Ellisman, M., Fahringer, T., Fox, G., Gannon, D., Goble, C., Livny, M., Moreau, L., et al., (2007), "Examining the Challenges of Scientific Workflows", Computer, v. 40, n. 12, p. 24–32.
Ocaña, K. A. C. S., Oliveira, D., Ogasawara, E., Dávila, A. M. R., Lima, A. A. B., Mattoso, M., (2011), "SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes", Advances in Bioinformatics and Computational Biology, , chapter 6832, Berlin, Heidelberg: Springer, p. 66–70.
Oliveira, D., Ogasawara, E., Ocana, K., Baiao, F., Mattoso, M., (2011), "An Adaptive Parallel Execution Strategy for Cloud-based Scientific Workflows", Concurrency and Computation: Practice and Experience, v. (online)
Taylor, I. J., Deelman, E., Gannon, D. B., Shields, M., (2007), Workflows for e-Science: Scientific Workflows for Grids. 1 ed. Springer.
Vaquero, L. M., Rodero-Merino, L., Caceres, J., Lindner, M., (2009), "A break in the clouds: towards a cloud definition", SIGCOMM Comput. Commun. Rev., v. 39, n. 1, p. 50–55.
Zhao, Y., Hategan, M., Clifford, B., Foster, I., von Laszewski, G., Nefedova, V., Raicu, I., Stef-Praun, T., Wilde, M., (2007), "Swift: Fast, Reliable, Loosely Coupled Parallel Computation". In: 3rd IEEE World Congress on Services, p. 206, 199, Salt Lake City, USA
Zvelebil, Marketa, e Jeremy Baum. 2007. Understanding Bioinformatics. 1o ed. Garland Science.