Desempenho de operações de checkpoint/restart em aplicações MPI

  • Fabrice Dupros Bureau de Recherches Géologiques et Minieres
  • Alexandre Carissimi UFRGS
  • Jean-François Méhaut Laboratoire Informatique et Distribution (ID)-IMAG/ENSIMAG


É comum em intranets coorporativas que as máquinas usadas como ponto de trabalho fiquem ociosas fora do horário de expediente. O projeto RNTL-IGGI tem por objetivo recuperar as máquinas em seus períodos de ociosidade para comporem um cluster virtual e executarem aplicações durante esse período. Entretanto, se a aplicação possuir uma duração de execução superior ao período de ociosidade é necessário salvar o processamento feito até então para retomá-lo no próximo período de ociosidade. Nesse contexto, o uso de mecanismos de checkpoint/restart surge como uma possibilidade para solucionar o problema de discontinuidade do período de processamento. Neste artigo é apresentado a solução proposta no projeto IGGI e discute se os principais fatores que influenciam o tempo necessário ao checkpointing, em especial, em aplicações paralelas baseadas em MPI.


DUPROS, Fabrice; CARISSIMI, Alexandre; MÉHAUT, Jean-François. Desempenho de operações de checkpoint/restart em aplicações MPI. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 7. , 2006, Ouro Preto. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2006 . p. 33-40. DOI: