Arquitetura de um Núcleo para Programação de Aplicações Distribuídas Tolerantes a Falhas

  • Marcelo Migueletto de Andrade UFMG
  • Oswaldo S. F. Carvalho UFMG

Resumo


Em uma rede de computadores, o ganho de desempenho obtido na execução de aplicações em paralelo pode ser comprometido por uma diminuição da sua confiabilidade diretamente proporcional ao número de estações usadas. Este trabalho apresenta a arquitetura de um núcleo de programação distribuída cuja principal característica é a tolerância a falhas. São empregadas duas técnicias retroativas de recuperação de erros em conjunto, uma otimista e outra pessimista, baseadas, respectivamente, na gravação de pontos de recuperação consistentes e em réplicas de processos.

Referências

Massimo Ancona et al. A System Architecture for Fault Tolerance in Concurrent Software. Computer, 23(10):23-32, October 1990.

Algirdas Azivienis. The N-Version Approach to Fault-Tolerant Software. IEEE Transactions on Software Engineering, SE-11(12):1491-1501, December 1985.

P. A. Bernstein, V. Hadzilacos, and N. Goodman. Concurrency Control and Recovery on Database Systems. Addison-Wesley, Reading, Mass., 1987.

Anita Borg et al. Fault Tolerance under Unix. ACM Transactions on Computer Systems, 7(1):1-24, February 1989.

Wilton S. Caldas et al. SPD: Um Núcleo de Programação Distribuída em Redes de Computadores. In Anais do IV Simpósio Brasileiro de Arquitetura de Computadores - Processamento de Alto Desempenho, pages 445-457, Sao Paulo, 1992.

R. H. Campbell and B. Randell. Error Recovery in Assynchronous Systems. IEEE Transactions on Software Engineering, SE-12(8):811-826, August 1986.

K. M. Chandy and L. Lamport. Distributed Snapshots: Determining Global States of Distributed Systems. ACM Transactions on Computer Systems, 3(1):63-75, February 1985.

Roger S. Chin and Samuel T. Chanson. Distributed Object-Based Programming Systems. ACM Computing Surveys, 23(1):91-124, March 1991.

Elmootazbellah N. Elnozahy and Willy Zwaenepoel. Manetho: Transparent Rollback-Recovery with Low Overhead, Limited Rollback, and Fast Output Commit. IEEE Transactions on Computers, 41(5):526-531, May 1992.

J. Gray et al. The Recovery Manager of the System R Database Manager. ACM Computing Surveys, 13(2):223-242, June 1981.

Jim Gray and Andreas Reuter. Transaction Processing: Concepts and Techniques. Morgan Kaufmann Publishers, USA, 1993.

Frans M. Kaashoek and Andrew S. Tanenbaum. Fault Tolerance Using Group Communication. ACM Operating Systems Review, 25(2):71-74, April 1991.

K. H. Kim. Programmer-Transparent Coordination of Recovering Concurrent Processes: Philosophy and Rules for Efficient Implementation. IEEE Transactions on Software Engineering, 14(6):810-821, June 1988.

Richard Koo and Sam Toueg. Checkpointing and Rollback-Recovery for Distributed Systems. IEEE Transactions on Software Engineering, SE-13(1):23-31, January 1987.

L. Lamport, R. Shostak, and M. Pease. The Byzantine Generals Problem. ACM Transactions on Programming Languages and Systems, 4(3):382-401, July 1982.

Victor P. Nelson. Fault-Tolerant Computing: Fundamental Concepts. Computer, 23(7):1925, July 1990.

Dorgival O. G. Neto and Osvaldo S. F. Carvalho. Um Núcleo Linda para o Desenvolvimento de Aplicações Distribuídas em uma Rede Unix. In Anais do X Simpósio Brasileiro de Redes de Computadores, pages 573-585, Recife, 1992.

Ozalp Babaoglu. Fault Tolerant Computing Based on Mach. ACM Operating Systems Review, 24(1):27-39, January 1990.

W. Richard Stevens. Uniz Network Programming. Software Series. Prentice-Hall, Englewood Cliffs, New Jersey 07632, 1990.

Robert E. Strom and Shaula Yemini. Optmistic Recovery in Distributed Systems. ACM Transactions on Computer Systems, 3(3):204-226, August 1985.

Andrew S. Tanenbaum. Computer Networks. Prentice-Hall, Englewood Cliffs, New Jersey 07632, second edition, 1989.

Andrew S. Tanenbaum and Robert van Renesse. Distributed Operating Systems. ACM Computing Surveys, 17(4):419-470, December 1985.

Marvin Theimer and Keith A. Lantz. Finding Idle Machines in a Workstation-Based Distributed System. IEEE Transactions on Software Engineering, 15(11):1444-1458, November 1989.

John Turek and Dennis Shasha. The Many Faces of Consensus in Distributed Systems. Computer, 25(6):8-16, June 1992.
Publicado
07/09/1993
ANDRADE, Marcelo Migueletto de; CARVALHO, Oswaldo S. F.. Arquitetura de um Núcleo para Programação de Aplicações Distribuídas Tolerantes a Falhas. In: INTERNATIONAL SYMPOSIUM ON COMPUTER ARCHITECTURE AND HIGH PERFORMANCE COMPUTING (SBAC-PAD), 5. , 1993, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 1993 . p. 368-382. DOI: https://doi.org/10.5753/sbac-pad.1993.23045.