Biblioteca de Comunicação Coletiva para Ambientes Distribuídos Dinâmicos
Resumo
Usualmente, sistemas distribuídos apresentam características dinâmicas, tais como variações no desempenho, falhas e recuperações dos canais de comunicação. Existem vários trabalhos que propõem a utilização de uma árvore geradora para a realização de operações coletivas em ambientes distribuídos. Na maior parte deles, a criação desta topologia ocorre no início da execução da aplicação e não considera posteriores alterações no ambiente de execução. Este trabalho apresenta uma ferramenta que disponibiliza operações coletivas para o MPI, considerando características dinâmicas do sistema. Para isso, além da construção inicial de uma árvore geradora de custo mínimo para a representação da topologia, a ferramenta também realiza a sua constante adaptação, através de dados coletados pelo NWS Network Weather Service. Tanto a geração como a adaptação da árvore geradora de custo mínimo são realizadas através de algoritmos distribuídos.Referências
C. Cheng, I. Cimet, and S. Kumar. A protocol to maintain a minimum spanning tree in a dynamic topology. SIGCOMM Comput. Commun. Rev., 18(4):330–337, 1988.
M. den Burger, T. Kielmann, and H. E. Bal. Topomon: A monitoring tool for grid network topology. In ICCS ’02: Proceedings of the International Conference on Computational Science-Part II, pages 558–567, London, UK, 2002. Springer-Verlag.
R. G. Gallager, P. A. Humblet, and P. M. Spira. A distributed algorithm for minimum-weight spanning trees. ACM Trans. Program. Lang. Syst., 5(1):66–77, 1983.
P. J. Husbands and J. C. Hoe. MPI-StarT: Delivering network performance to numerical applications. In SC’98, Nov, 1998.
N. Karonis, B. Toonen, and I. Foster. Mpich-g2: A gridenabled implementation of the message passing interface. ArXiv Computer Science e-prints, June 2002.
N. T. Karonis, B. de Supinski, I. Foster, W. Gropp, and E. Lusk. A multilevel approach to topology-aware collective operations in computational grids. ArXiv Computer Science e-prints, June 2002.
T. Kielmann, R. F. H. Hofman, H. E. Bal, A. Plaat, and R. A. F. Bhoedjang. MAGPIE: MPI’s collective communication operations for clustered wide area systems. ACM SIGPLAN Notices, 34(8):131–140, Aug. 1999.
T. L. M. O. S. Lab. Lam/mpi user’s guide - version 7.1.1. 2004.
S. Lacour. Mpich-g2 collective operations: Performance evaluation, optimizations. September 2001.
I. F. Nicholas T. Karonis, Bronis R. De Supinski and W. Gropp. Exploiting hierarchy in parallel computer networks to optimize collective operation performance. pages 377–384, 2000.
N. T. S. RichWolski and J. Hayes. The network weather service: a distributed resource performance forecasting service for metacomputing. Future Generation Computer Systems, 15:757–768, 1999.
H. Saito, K. Taura, and T. Chikayama. Collective operations for wide-area message passing systems using adaptive spanning trees. 6th IEEE/ACM International Workshop on Grid Computing, pages 40–48, 2005.
R. Wolski. Dynamically forecasting network performance using the network weather service. Cluster Computing, 1(1):119–132, 1998.
R. Wolski. Experiences with predicting resource performance on-line in computational grid settings. SIGMETRICS Perform. Eval. Rev., 30(4):41–49, 2003.
R. Wolski, N. Spring, and C. Peterson. Implementing a performance forecasting system for metacomputing: the network weather service. In Supercomputing ’97: Proceedings of the 1997 ACM/IEEE conference on Supercomputing (CDROM), pages 1–19, New York, NY, USA, 1997. ACM Press.
M. den Burger, T. Kielmann, and H. E. Bal. Topomon: A monitoring tool for grid network topology. In ICCS ’02: Proceedings of the International Conference on Computational Science-Part II, pages 558–567, London, UK, 2002. Springer-Verlag.
R. G. Gallager, P. A. Humblet, and P. M. Spira. A distributed algorithm for minimum-weight spanning trees. ACM Trans. Program. Lang. Syst., 5(1):66–77, 1983.
P. J. Husbands and J. C. Hoe. MPI-StarT: Delivering network performance to numerical applications. In SC’98, Nov, 1998.
N. Karonis, B. Toonen, and I. Foster. Mpich-g2: A gridenabled implementation of the message passing interface. ArXiv Computer Science e-prints, June 2002.
N. T. Karonis, B. de Supinski, I. Foster, W. Gropp, and E. Lusk. A multilevel approach to topology-aware collective operations in computational grids. ArXiv Computer Science e-prints, June 2002.
T. Kielmann, R. F. H. Hofman, H. E. Bal, A. Plaat, and R. A. F. Bhoedjang. MAGPIE: MPI’s collective communication operations for clustered wide area systems. ACM SIGPLAN Notices, 34(8):131–140, Aug. 1999.
T. L. M. O. S. Lab. Lam/mpi user’s guide - version 7.1.1. 2004.
S. Lacour. Mpich-g2 collective operations: Performance evaluation, optimizations. September 2001.
I. F. Nicholas T. Karonis, Bronis R. De Supinski and W. Gropp. Exploiting hierarchy in parallel computer networks to optimize collective operation performance. pages 377–384, 2000.
N. T. S. RichWolski and J. Hayes. The network weather service: a distributed resource performance forecasting service for metacomputing. Future Generation Computer Systems, 15:757–768, 1999.
H. Saito, K. Taura, and T. Chikayama. Collective operations for wide-area message passing systems using adaptive spanning trees. 6th IEEE/ACM International Workshop on Grid Computing, pages 40–48, 2005.
R. Wolski. Dynamically forecasting network performance using the network weather service. Cluster Computing, 1(1):119–132, 1998.
R. Wolski. Experiences with predicting resource performance on-line in computational grid settings. SIGMETRICS Perform. Eval. Rev., 30(4):41–49, 2003.
R. Wolski, N. Spring, and C. Peterson. Implementing a performance forecasting system for metacomputing: the network weather service. In Supercomputing ’97: Proceedings of the 1997 ACM/IEEE conference on Supercomputing (CDROM), pages 1–19, New York, NY, USA, 1997. ACM Press.
Publicado
17/10/2006
Como Citar
THOMÉ, Viviane; DRUMMOND, Lúcia.
Biblioteca de Comunicação Coletiva para Ambientes Distribuídos Dinâmicos. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 7. , 2006, Ouro Preto.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2006
.
p. 41-48.
DOI: https://doi.org/10.5753/wscad.2006.18945.