Desempenho de operações de checkpoint/restart em aplicações MPI
Resumo
É comum em intranets coorporativas que as máquinas usadas como ponto de trabalho fiquem ociosas fora do horário de expediente. O projeto RNTL-IGGI tem por objetivo recuperar as máquinas em seus períodos de ociosidade para comporem um cluster virtual e executarem aplicações durante esse período. Entretanto, se a aplicação possuir uma duração de execução superior ao período de ociosidade é necessário salvar o processamento feito até então para retomá-lo no próximo período de ociosidade. Nesse contexto, o uso de mecanismos de checkpoint/restart surge como uma possibilidade para solucionar o problema de discontinuidade do período de processamento. Neste artigo é apresentado a solução proposta no projeto IGGI e discute se os principais fatores que influenciam o tempo necessário ao checkpointing, em especial, em aplicações paralelas baseadas em MPI.
Referências
SETI. SetiHome Project. http://setiathome.berkeley.edu
SPiank, J.S .; Beck, M.; Kingsley, G.; Li, K .. Libckp: Transparent Checkpoint Under UNIX. Conference Proceedings, Usenix Winter'95. Tech. Conference. pg.213-33,jan. 1995.
Litzkow, M.; Tannenbaum, T.; Basney, J.: Livny, M.. Checkpoint and Migration of UNIX Process in the Condor Distributed System. http://www.cs.wisc.edulcondor/doc/ckpt97.ps
Takahashi, T.: Sunimoto, S.; Hori, A.; Harada, H.: lshikawa, Y .. PM2: Hight Performance Communication Middleware for Heterogeneous Network Envrionments. http://www.sc2fXXl.org/techpapr/papers/pap.pap205.pdf
Dietcr, W.; Lumpp, J.. User-level Checkpointing for Linux Threads Programs. FREENIX Track. USENIX 2001 Annual Technical Conference. pp-81-92, junc, 200 I.
Hendricks, E .. VMADump. http://bproc.sourceforge.net
Zhong, H.; Nieh, J.; CRACK: Linux Checkpointing/Restart As a Kernel Module. TR CUCS-014-01. Department of Computer Science. Columbia University, November 2002.
Duell, J., Hargrove, P., and Roman., E. The Design and Implementation of Berkeley Lab's Linux Checkpointing/Restart. Berkeley Lab Technical Report LBNL-54941 .
Cryopid.CryoPID - A Process Freezer for Linux. http://cryopid.berlios.der
Snoeren, A. C; BALAKRISHNANH, H.; An End-to-end Approach to Host Mobility. In: Proc. of 6th Int. Conference on Mobile Computing and Networking, 2fXXl, New York, NY, USA, ACM Press, p.155-166. r 121 Perkins, C; Mobile IP. Communications Magazine. IEEE, v. 40, n. 5, pg. 66-82, may, 2002.
Su, G.; Nieh, J.: Mobile Communication with Virtual Network Address Translation. TR CUCS-003-02. Dept. of Computer Science, Columbia University, Feb. 2002.
Almesberger, W .. TCP Connection Passi ng.http://tcpcp.sourceforge.net
Sankaran, S.; Squyres, J,; Barreu,B.: Lumsdaine, A.: Duell, J.; Paul Hargrove, and Eric Roman. The LAMIMPI Checkpointing/Restart Framework: System-Initiated Checkpointing. lo LACSI Symposium, Oct. 2003.
MPICH-V MPI implementation for volatile resources. http://www.lri.frlboutci11/MPICH-V
Cappclo, F.; et alli.; Grid'5000: A Largc Scalc, Rcconfigurablc, Controlablc and Monitorable Grid Platform. Procecdings of the 6th IEEFJACM International Workshop on Grid Computing, Grid'2005. Seattle, Washington, USA.
Plank, J.S.; An overview of checkpointing in uniprocessor and distributed systems focosing on implementation and performance. Technical Report UT-CS-97-372. Department of Computer Science. University of Tennessee, Knoxville.