Hardening Strategies for HPC Applications

  • Daniel Oliveira Universidade Federal do Rio Grande do Sul
  • Paolo Rech Universidade Federal do Rio Grande do Sul
  • Philippe Olivier Navaux Universidade Federal do Rio Grande do Sul

Resumo


A confiabilidade de dispositivos de Processamentos de Alto Desempenho (PAD) é umadas principais preocupações dos supercomputadores hoje e para a próxima geração. Defato, o alto número de dispositivos em grandes centros de dados faz com que a proba-bilidade de ter pelo menos um dispositivo corrompido seja muito alta. Neste trabalho,primeiro avaliamos o problema realizando experimentos de radiação. Os dados dos expe-rimentos nos dão uma taxa de erro realista de dispositivos PAD. Além disso, avaliamosum conjunto representativo de algoritmos que derivam entendimentos gerais de algorit-mos paralelos e a confiabilidade de abordagens de programação.Para entender melhor o problema, propomos uma nova metodologia para ir além da quan-tificação do problema. Qualificamos o erro avaliando a importância de cada execuçãocorrompida por meio de um conjunto dedicado de métricas. Mostramos que em relação acomputação imprecisa, a simples detecção de incompatibilidade não é suficiente para ava-liar e comparar a sensibilidade à radiação de dispositivos e algoritmos PAD. Nossa análisequantifica e qualifica os efeitos da radiação na saída das aplicações, correlacionando o nú-mero de elementos corrompidos com sua localidade espacial. Também fornecemos o errorelativo médio (em nível do conjunto de dados) para avaliar a magnitude do erro induzidopela radiação.Além disso, desenvolvemos um injetor de falhas, CAROL-FI, para entender melhor oproblema coletando informações usando campanhas de injeção de falhas, o que não épossível através de experimentos de radiação. Injetamos diferentes modelos de falha paraanalisar a sensitividade de determinadas aplicações. Mostramos que partes de aplicaçõespodem ser classificadas com diferentes criticalidades. As técnicas de mitigação podementão ser relaxadas ou enrobustecidas com base na criticalidade de partes específicas daaplicação.Este trabalho também avalia a confiabilidade de seis arquiteturas diferentes, variando dedispositivos PAD a embarcados, com o objetivo de isolar comportamentos dependentesde código e arquitetura. Para esta avaliação, apresentamos e discutimos experimentos deradiação que abrangem um total de mais de 352.000 anos de exposição natural e análisede injeção de falhas com base em um total de mais de 120.000 injeções.Por fim, as estratégias de ECC, ABFT e de duplicação com comparação são apresentadas e avaliadas em dispositivos PAD por meio de experimentos de radiação. Apresentamos ecomparamos a melhoria da confiabilidade e a sobrecarga imposta das soluções de enro-bustecimento selecionadas. Em seguida, propomos e analisamos o impacto do enrobus-tecimento seletivo para algoritmos de PAD. Realizamos campanhas de injeção de falhaspara identificar as variáveis de código-fonte mais críticas e apresentamos como selecionaros melhores candidatos para maximizar a relação confiabilidade/sobrecarga.

Publicado
12/11/2019
OLIVEIRA, Daniel; RECH, Paolo; NAVAUX, Philippe Olivier. Hardening Strategies for HPC Applications. In: CONCURSO DE TESES E DISSERTAÇÕES - SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 20. , 2019, Campo Grande. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 112-113. DOI: https://doi.org/10.5753/wscad_estendido.2019.8708.