Definição de Parâmetros do Spark por meio de Aprendizado de Máquina: um Estudo com Dataflows de Astronomia
Resumo
O Apache Spark tem se mostrado um framework promissor para auxiliar na execução de experimentos científicos baseados em simulação e que demandam execuções em ambientes de alto desempenho. Entretanto, o Spark possui mais de 180 parâmetros para serem configurados, o que torna a tarefa de configuração entediante e propensa a erros, se realizada manualmente. O presente artigo explora a utilização de múltiplos métodos de aprendizado de máquina para auxiliar na configuração dos parâmetros do Spark. Tais modelos foram treinados na plataforma Orange e posteriormente incorporados a ferramenta SpaCE, desenvolvida em um trabalho anterior. Os modelos foram treinados a partir de um dataset com dados de proveniência de mais de 500 execuções de dataflows de astronomia. Os resultados mostraram que o uso de métodos de aprendizado de máquina nesse contexto é promissor. Além disso, os resultados mostraram que a estratégia de partição dos dados de entrada do dataflow é o atributo que que tem maior relevância na obtenção de menores tempos de execução e que as Redes Neurais Artificiais são o método de aprendizado de máquina que traz os melhores resultados.
Referências
de Oliveira, D. C. M., Liu, J., and Pacitti, E. (2019).Data-Intensive Workflow Manage-ment: For Clouds and Data-Intensive and Scalable Computing Environments. Synthesis Lectures on Data Management. Morgan & Claypool Publishers.
de Oliveira, D. E. M., Porto, F., Boeres, C., and de Oliveira, D. (2021). Towards optimizing the execution of spark scientific workflows using machine learning-based parameter tuning.Concurr. Comput. Pract. Exp., 33(5).
Demsar, J., Zupan, B., Leban, G., and Curk, T. (2004). Orange: From experimentalmachine learning to interactive data mining. InEuropean conference on principles ofdata mining and knowledge discovery, pages 537–539. Springer.
Freire, J., Koop, D., Santos, E., and Silva, C. T. (2008). Provenance for computationaltasks: A survey.Comput. Sci. Eng., 10(3):11–21.
Gottin, V., Pacheco, E., Dias, J., Ciarlini, A., Costa, B., Vieira, W., Souto, Y. M., Pires,P., Porto, F., and Rittmeyer, J. G. (2018). Automatic caching decision for scientificdataflow execution in apache spark. InProceedings of the 5th ACM SIGMOD Work-shop on Algorithms and Systems for MapReduce and Beyond (BeyondMR).
Han, J., Kamber, M., and Pei, J. (2011).Data Mining: Concepts and Techniques. MorganKaufmann Publishers Inc., San Francisco, CA, USA, 3rd edition.
Herodotou, H., Chen, Y., and Lu, J. (2020). A survey on automatic parameter tuning forbig data processing systems.ACM Computing Surveys (CSUR), 53(2):1–37.
Herodotou, H., Lim, H., Luo, G., Borisov, N., Dong, L., Cetin, F. B., and Babu, S. (2011).Starfish: A self-tuning system for big data analytics. In5th Biennial Conference onInnovative Data Systems Research (CIDR 11), pages 261–272. (www.cidrdb.org).
Hey, T., Tansley, S., and Tolle, K., editors (2009).The Fourth Paradigm: Data-IntensiveScientific Discovery. Microsoft Research, Redmond, Washington.
Porto, F., Khatibi, A., Nobre, J. R., Ogasawara, E. S., Valduriez, P., and Shasha, D. E.(2017). Constellation queries over big data.CoRR, abs/1703.02638.
Silva, V., de Oliveira, D., Valduriez, P., and Mattoso, M. (2016). Analyzing related rawdata files through dataflows.Concurrency and Computation: Practice and Experience,28(8):2528–2545.
Wang, G., Xu, J., and He, B. (2016). A novel method for tuning configuration parametersof spark based on machine learning. In2016 IEEE 18th International Conference onHigh Performance Computing and Communications; IEEE 14th International Confer-ence on Smart City; IEEE 2nd International Conference on Data Science and Systems(HPCC/SmartCity/DSS), pages 586–593. IEEE.
Yigitbasi, N., Willke, T., Liao, G., and Epema, D. (2013). Towards machine learning-based auto-tuning of MapReduce. In21st IEEE International Symposium on Modeling,Analysis and Simulation of Computer and Telecommunication Systems (MASCOTS),pages 11–20. (IEEE).
Zaharia, M., Chowdhury, M., Franklin, M., Shenker, S., and Stoica, I. (2010). Spark:Cluster Computing with Working Sets. InProceedings of the 2Nd USENIX Conferenceon Hot Topics in Cloud Computing, HotCloud’10, pages 10–10, Berkeley, CA, USA.USENIX Association.