Desempenho de operações de checkpoint/restart em aplicações MPI

  • Fabrice Dupros Bureau de Recherches Géologiques et Minieres
  • Alexandre Carissimi UFRGS
  • Jean-François Méhaut Laboratoire Informatique et Distribution (ID)-IMAG/ENSIMAG

Abstract

É comum em intranets coorporativas que as máquinas usadas como ponto de trabalho fiquem ociosas fora do horário de expediente. O projeto RNTL-IGGI tem por objetivo recuperar as máquinas em seus períodos de ociosidade para comporem um cluster virtual e executarem aplicações durante esse período. Entretanto, se a aplicação possuir uma duração de execução superior ao período de ociosidade é necessário salvar o processamento feito até então para retomá-lo no próximo período de ociosidade. Nesse contexto, o uso de mecanismos de checkpoint/restart surge como uma possibilidade para solucionar o problema de discontinuidade do período de processamento. Neste artigo é apresentado a solução proposta no projeto IGGI e discute se os principais fatores que influenciam o tempo necessário ao checkpointing, em especial, em aplicações paralelas baseadas em MPI.

References

Germain,C et alli.; XtremWeb: an experimental platform for Global Computing. Grid2000, Dec.2000, IEEE Press.

SETI. SetiHome Project. http://setiathome.berkeley.edu

SPiank, J.S .; Beck, M.; Kingsley, G.; Li, K .. Libckp: Transparent Checkpoint Under UNIX. Conference Proceedings, Usenix Winter'95. Tech. Conference. pg.213-33,jan. 1995.

Litzkow, M.; Tannenbaum, T.; Basney, J.: Livny, M.. Checkpoint and Migration of UNIX Process in the Condor Distributed System. http://www.cs.wisc.edulcondor/doc/ckpt97.ps

Takahashi, T.: Sunimoto, S.; Hori, A.; Harada, H.: lshikawa, Y .. PM2: Hight Performance Communication Middleware for Heterogeneous Network Envrionments. http://www.sc2fXXl.org/techpapr/papers/pap.pap205.pdf

Dietcr, W.; Lumpp, J.. User-level Checkpointing for Linux Threads Programs. FREENIX Track. USENIX 2001 Annual Technical Conference. pp-81-92, junc, 200 I.

Hendricks, E .. VMADump. http://bproc.sourceforge.net

Zhong, H.; Nieh, J.; CRACK: Linux Checkpointing/Restart As a Kernel Module. TR CUCS-014-01. Department of Computer Science. Columbia University, November 2002.

Duell, J., Hargrove, P., and Roman., E. The Design and Implementation of Berkeley Lab's Linux Checkpointing/Restart. Berkeley Lab Technical Report LBNL-54941 .

Cryopid.CryoPID - A Process Freezer for Linux. http://cryopid.berlios.der

Snoeren, A. C; BALAKRISHNANH, H.; An End-to-end Approach to Host Mobility. In: Proc. of 6th Int. Conference on Mobile Computing and Networking, 2fXXl, New York, NY, USA, ACM Press, p.155-166. r 121 Perkins, C; Mobile IP. Communications Magazine. IEEE, v. 40, n. 5, pg. 66-82, may, 2002.

Su, G.; Nieh, J.: Mobile Communication with Virtual Network Address Translation. TR CUCS-003-02. Dept. of Computer Science, Columbia University, Feb. 2002.

Almesberger, W .. TCP Connection Passi ng.http://tcpcp.sourceforge.net

Sankaran, S.; Squyres, J,; Barreu,B.: Lumsdaine, A.: Duell, J.; Paul Hargrove, and Eric Roman. The LAMIMPI Checkpointing/Restart Framework: System-Initiated Checkpointing. lo LACSI Symposium, Oct. 2003.

MPICH-V MPI implementation for volatile resources. http://www.lri.frlboutci11/MPICH-V

Cappclo, F.; et alli.; Grid'5000: A Largc Scalc, Rcconfigurablc, Controlablc and Monitorable Grid Platform. Procecdings of the 6th IEEFJACM International Workshop on Grid Computing, Grid'2005. Seattle, Washington, USA.

Plank, J.S.; An overview of checkpointing in uniprocessor and distributed systems focosing on implementation and performance. Technical Report UT-CS-97-372. Department of Computer Science. University of Tennessee, Knoxville.
Published
2006-10-17
How to Cite
DUPROS, Fabrice; CARISSIMI, Alexandre; MÉHAUT, Jean-François. Desempenho de operações de checkpoint/restart em aplicações MPI. Proceedings of the Symposium on High Performance Computing Systems (SSCAD), [S.l.], p. 33-40, oct. 2006. ISSN 0000-0000. Available at: <https://sol.sbc.org.br/index.php/sscad/article/view/18944>. Date accessed: 17 may 2024. doi: https://doi.org/10.5753/wscad.2006.18944.