Mecanismos de detecção e propagação de falhas aprimorados para MPI

  • Pedro Henrique Di Francia Rosso UFABC
  • Emilio Francesquini UFABC

Resumo


O padrão MPI é amplamente usado em sistemas CAD. Esses sistemas empregam um grande número de nós de computação. Portanto, tolerância a falhas (TF) é uma preocupação, uma vez que um grande número de nós, torna falhas no sistema mais frequentes. Dois componentes essenciais de TF são a detecção de falhas (DF) e a propagação de falhas (PF). Este artigo propõe melhorias nos mecanismos DF e PF existentes, como a aleatorização da posição inicial, detecção de falhas falso-positivas e propagação semelhante ao algoritmo Chord, a fim de fornecer mais portabilidade, escalabilidade e baixa sobrecarga computacional. Os resultados mostram que os métodos propostos podem alcançar resultados melhores ou pelo menos semelhantes aos métodos existentes, proporcionando portabilidade para qualquer distribuição que seja compatível com o padrão MPI.

Palavras-chave: Linguagens, Compiladores e Ferramentas de Computação Paralela e Distribuída, Software Básico para Computação Paralela e Distribuída, Tolerância a Falhas

Referências

George Bosilca, Aurelien Bouteiller, Amina Guermouche, Thomas Herault, Yves Robert, Pierre Sens, and Jack Dongarra. A failure detector for hpc platforms. The International Journal of High Performance Computing Applications, 32(1):139–158, 2018.

Sourav Chakraborty, Ignacio Laguna, Murali Emani, Kathryn Mohror, Dhabaleswar K Panda, Martin Schulz, and Hari Subramoni. Ereinit: Scalable and efficient fault-tolerance for bulk-synchronous mpi applications. Concurrency and Computation: Practice and Experience, 32(3):e4863, 2020.

Abhinandan Das, Indranil Gupta, and Ashish Motivala. Swim: Scalable weakly-consistent infection-style process group membership protocol. In Proceedings International Conference on Dependable Systems and Networks, pages 303–312. IEEE, 2002.

Ifeanyi P Egwutuoha, David Levy, Bran Selic, and Shiping Chen. A survey of fault tolerance mechanisms and checkpoint/restart implementations for high performance computing systems. The Journal of Supercomputing, 65(3):1302–1326, 2013.

Giorgis Georgakoudis, Luanzheng Guo, and Ignacio Laguna. Reinit++: Evaluating the performance of global-restart recovery methods for mpi fault tolerance. In International Conference on High Performance Computing, pages 536–554. Springer, 2020.

Ion Stoica, Robert Morris, David Karger, M Frans Kaashoek, and Hari Balakrishnan. Chord: A scalable peer-to-peer lookup service for internet applications. ACM SIGCOMM Computer Communication Review, 31(4):149–160, 2001.

Dong Zhong, Aurelien Bouteiller, Xi Luo, and George Bosilca. Runtime level failure detection and propagation in hpc systems. In Proceedings of the 26th European MPI Users’ Group Meeting, pages 1–11, 2019.
Publicado
06/05/2021
ROSSO, Pedro Henrique Di Francia; FRANCESQUINI, Emilio. Mecanismos de detecção e propagação de falhas aprimorados para MPI. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DE SÃO PAULO (ERAD-SP), 12. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 45-48. DOI: https://doi.org/10.5753/eradsp.2021.16702.

Artigos mais lidos do(s) mesmo(s) autor(es)

1 2 3 > >>