Improved Failure Detection and Propagation Mechanisms for MPI

Pedro Henrique Di Francia Rosso; Emilio Francesquini

doi:10.5753/eradsp.2021.16702

Pedro Henrique Di Francia Rosso UFABC
Emilio Francesquini UFABC

DOI: https://doi.org/10.5753/eradsp.2021.16702

Resumo

O padrão MPI é amplamente usado em sistemas CAD. Esses sistemas empregam um grande número de nós de computação. Portanto, tolerância a falhas (TF) é uma preocupação, uma vez que um grande número de nós, torna falhas no sistema mais frequentes. Dois componentes essenciais de TF são a detecção de falhas (DF) e a propagação de falhas (PF). Este artigo propõe melhorias nos mecanismos DF e PF existentes, como a aleatorização da posição inicial, detecção de falhas falso-positivas e propagação semelhante ao algoritmo Chord, a fim de fornecer mais portabilidade, escalabilidade e baixa sobrecarga computacional. Os resultados mostram que os métodos propostos podem alcançar resultados melhores ou pelo menos semelhantes aos métodos existentes, proporcionando portabilidade para qualquer distribuição que seja compatível com o padrão MPI.

Palavras-chave: Linguagens, Compiladores e Ferramentas de Computação Paralela e Distribuída, Software Básico para Computação Paralela e Distribuída, Tolerância a Falhas

Referências

George Bosilca, Aurelien Bouteiller, Amina Guermouche, Thomas Herault, Yves Robert, Pierre Sens, and Jack Dongarra. A failure detector for hpc platforms. The International Journal of High Performance Computing Applications, 32(1):139–158, 2018.

Sourav Chakraborty, Ignacio Laguna, Murali Emani, Kathryn Mohror, Dhabaleswar K Panda, Martin Schulz, and Hari Subramoni. Ereinit: Scalable and efficient fault-tolerance for bulk-synchronous mpi applications. Concurrency and Computation: Practice and Experience, 32(3):e4863, 2020.

Abhinandan Das, Indranil Gupta, and Ashish Motivala. Swim: Scalable weakly-consistent infection-style process group membership protocol. In Proceedings International Conference on Dependable Systems and Networks, pages 303–312. IEEE, 2002.

Ifeanyi P Egwutuoha, David Levy, Bran Selic, and Shiping Chen. A survey of fault tolerance mechanisms and checkpoint/restart implementations for high performance computing systems. The Journal of Supercomputing, 65(3):1302–1326, 2013.

Giorgis Georgakoudis, Luanzheng Guo, and Ignacio Laguna. Reinit++: Evaluating the performance of global-restart recovery methods for mpi fault tolerance. In International Conference on High Performance Computing, pages 536–554. Springer, 2020.

Ion Stoica, Robert Morris, David Karger, M Frans Kaashoek, and Hari Balakrishnan. Chord: A scalable peer-to-peer lookup service for internet applications. ACM SIGCOMM Computer Communication Review, 31(4):149–160, 2001.

Dong Zhong, Aurelien Bouteiller, Xi Luo, and George Bosilca. Runtime level failure detection and propagation in hpc systems. In Proceedings of the 26th European MPI Users’ Group Meeting, pages 1–11, 2019.

Mecanismos de detecção e propagação de falhas aprimorados para MPI

Resumo

Referências

Artigos mais lidos do(s) mesmo(s) autor(es)