Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable

  • Matheus Marotti Pereira UFF
  • Thiago do Prado Silva UFF
  • Lúcia Maria de A. Drummond UFF

Resumo


A presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as máquinas EC2 burstable. O framework define um cluster misto, com instâncias burstable fixas e temporárias, que pode variar o número de instâncias, adicionando ou removendo VMs, para garantir o SLA das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema.

Referências

Baarzi, A. F., Zhu, T., and Urgaonkar, B. (2019). Burscale: Using burstable instances for cost-effective autoscaling in the public cloud. In Proceedings of the ACM Symposium on Cloud Computing, SoCC '19, page 126-138, New York, NY, USA. Association for Computing Machinery.

Chaulagain, R. S., Pandey, S., Basnet, S. R., and Shakya, S. (2017). Cloud based web scraping for big data applications. In 2017 IEEE International Conference on Smart Cloud (SmartCloud), pages 138-143.

Dantas, J., Khazaei, H., and Litoiu, M. (2021). Bias autoscaler: Leveraging burstable instances for cost-effective autoscaling on cloud systems. In Proceedings of the Seventh International Workshop on Serverless Computing (WoSC7) 2021, WoSC '21, page 9-16, New York, NY, USA. Association for Computing Machinery.

Jiang, Y., Shahrad, M., Wentzlaff, D., Tsang, D. H., and Joe-Wong, C. (2019). Burstable instances for clouds: Performance modeling, equilibrium analysis, and revenue maximization. In IEEE INFOCOM 2019 IEEE Conference on Computer Communications, pages 1576-1584.

Teylo, L., Arantes, L., Sens, P., and Drummond, L. (2021). Scheduling bag-of-tasks in clouds using spot and burstable virtual machines. IEEE Transactions on Cloud Computing, pages 1-1.

Wang, C., Urgaonkar, B., Nasiriani, N., and Kesidis, G. (2017). Using burstable instances in the public cloud: Why, when and how? Proc. ACM Meas. Anal. Comput. Syst., 1(1).

Woodall, R., Kline, D., Modaresnezhad, M., and Vetter, R. (2021). A cloud-based system for scraping data from amazon product reviews at scale. In Proceedings of the Conference on Information Systems Applied Research, Washington DC, USA.

Zhao, B. (2017). Web scraping. In Schintler, L. A. and McNeely, C. L., editors, Encyclopedia of Big Data, pages 1-3, Cham. Springer International Publishing.
Publicado
19/10/2022
PEREIRA, Matheus Marotti; SILVA, Thiago do Prado; DRUMMOND, Lúcia Maria de A.. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. In: SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 23. , 2022, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2022 . p. 25-36. DOI: https://doi.org/10.5753/wscad.2022.225866.