Parâmetros de Configuração Relevantes para o Tempo de Execução de Tarefas no Apache Spark

  • Maria Carolina Lins Nunes UNIVASF
  • Jairson Barbosa Rodrigues UNIVASF


Sistemas tradicionais centralizados não conseguem lidar com o contexto big data. Plataformas de computação distribuída como o Apache Spark têm sido amplamente adotadas, mas a configuração de seus parâmetros é desafiante face ao número de fatores e suas interações. Este trabalho emprega técnicas de Design of Experiments (DoE) para triar fatores de software mais relevantes para o tempo de execução de uma tarefa distribuída de aprendizagem de máquina Naı̈ve Bayes sobre um subconjunto do Corpus PT7 WEB, com 14.88 GB de dados. Empregando um projeto fatorial fracionado com 192 unidades experimentais e técnicas de regressão linear com backward elimination obteve-se um modelo capaz de identificar os fatores mais relevantes para o tempo de execução de tarefas no contexto analisado.


