A Fault Tolerant Scheduling Model for Directed Acyclic Graphs in Cloud

Resumo


Diversas aplicações de computação de alto desempenho (CAD) e de uso intensivo de recursos, têm sido testadas e migradas para a computação em nuvem. Essas aplicações podem ter um conjunto de dados de entrada muito grande, o que geralmente tem uma alta correlação com o desempenho e o tempo de execução. A migração para a nuvem exige adaptação de abordagens de tolerância a falhas (TF) e escalonamento. Embora esses tópicos estejam bem conectados, eles geralmente são tratados separadamente. Este trabalho propõe um novo escalonador e modelo de TF integrados que leva em consideração as características das tarefas e os nós de execução de destino. Os resultados preliminares indicam um bom potencial para melhorar a confiabilidade do sistema e a forma de execução dos fluxos de trabalho científicos.
Palavras-chave: Tolerância a falhas, Escalonamento, Grafos Acíclicos Direcionados, Computação em Nuvem, Computação de Alto Desempenho

Referências

Amoon, M. (2016). Adaptive framework for reliable cloud computing environment. IEEE Access, 4:9469–9478.

Elliott, J., Kharbas, K., Fiala, D., Mueller, F., Ferreira, K., and Engelmann, C. (2012). Combining partial redundancy and checkpointing for HPC. In 32nd Intl. Conference on Distributed Computing Systems, pages 615–626. IEEE.

Hasan, M. and Goraya, M. S. (2018). Fault tolerance in cloud computing environment: Asystematic survey. Computers in Industry, 99:156–172.

Hayyolalam, V. and Kazem, A. A. P. (2018). A systematic literature review on qos-aware service composition and selection in cloud environment. Journal of Network and Computer Applications, 110:52–74.

Jadeja, Y. and Modi, K. (2012). Cloud computing-concepts, architecture and challenges. In 2012 International Conference on Computing, Electronics and Electrical Technologies (ICCEET), pages 877–880. IEEE.

Kathpal, C. and Garg, R. (2019). Survey on fault-tolerance-aware scheduling in cloudcomputing. In Information and Communication Technology for Competitive Strategies,pages 275–283. Springer.

Mell, P., Grance, T., et al. (2011). The NIST definition of cloud computing.

Tiwari, D., Gupta, S., and Vazhkudai, S. S. (2014). Lazy checkpointing: Exploiting temporal locality in failures to mitigate checkpointing overheads on extreme-scale systems. In 2014 44th Annual IEEE/IFIP International Conference on Dependable Systems and Networks, pages 25–36. IEEE.
Publicado
19/08/2020
ROSSO, Pedro Henrique Di Francia; FRANCESQUINI, Emilio. A Fault Tolerant Scheduling Model for Directed Acyclic Graphs in Cloud. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DE SÃO PAULO (ERAD-SP), 11. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 46-49. DOI: https://doi.org/10.5753/eradsp.2020.16883.