Integração de Ganglia, libRastro e Pajé para o Monitoramento de Aplicações Paralelas
Resumo
Este artigo trata do uso integrado de diferentes ferramentas de monitoramento a fim de aprimorar a capacidade de análise das execuções de aplicações paralelas. Em particular, descreve-se o processo de integração dos dados coletados por Ganglia, que é uma ferramenta para monitoramento de clusters, aos rastros de execução gerados por libRastro, que é uma biblioteca para instrumentação de aplicações paralelas. A visualização dos dados integrados é feita com a ferramenta Pajé. Através de alguns exemplos de visualizações integradas, demonstra-se que as informações sobre o estado do cluster complementam os rastros de execução da aplicação, permitindo inclusive detectar eventuais problemas na execução da aplicação.
Referências
M. Baker. Cluster computing white paper. http://dsg.port.ac.uk/mab/tfcc/WhitePaper/final-paper.pdf, 2000.
Z. Balaton, P. Kacsuk, and N. Podhorszki. Application monitoring in the grid with grm and prove. In Proc. of the lnt. Conf. on Computational Science, pages 253-262, San Francisco, 2001.
R. Buyya. PARMON: a portable and scalable monitoring Software Practice and Experience, system for clusters. 30(7):723-739, June 2000.
J. Chassin de Kergommeaux and B. de Oliveira Stein. Pajé: An extensible environment for visualizing multi-threaded programs executions. Lecture Notes in Computer Science, 1900:133-153, 2001.
G. J. da Silva and B. de Oliveira Stein. Uma biblioteca genérica de geração de rastros de execução para visualização de programas. Anais do I Simpósio de Informática da Região Centro, 2002.
G. J. da Silva, L. M. Schnorr, and B. de Oliveira Stein. Jrastro: A trace agent for debugging multithreaded and distributed java programs. 15th Symposium on Computer Architecture and High Performance Computing, page 46, 2003.
T. C. Ferreto, C. A. F. de Rose, and L. de Rose. Revision: An open and high configurable tool for cluster monitoring. 2nd IEEE/ACM International Symposium on Cluster Computing and the Grid (CCGRID'02), page 75,2002.
Z. Liang, Y. Sun, and C. Wang. Clusterprobe: An open, flexible and scalable cluster monitoring tool. International Workshop on Cluster Computing, pages 261-268, 1999.
M. Massie, B. Chun, and D. Culler. The ganglia distributed monitoring system: Design, implementation, and experience. Technical report, University of California, Berkeley Technical Report, 2003.
M. Pasin and D. Kreutz. Arquiteturas e administração de aglomerados. Escola Regional de Alto Desempenho, 3(3):434, Jan. 2003.
D. A. Reed and alii. Scalable performance analysis: The Pablo performance analysis environment. Proceedings of the Scalable Parallel Libraries Conference, pages 104-113, 1993.
B. Wilkinson and M. Allen. parallel programming: techniques and applications using networked workstations and parallel computers. Prentice-Hall, Inc., 1999.