Estudo comparativo de web scraping tradicional e integrado com inteligências artificiais
Resumo
A integração de técnicas de Inteligência Artificial (AI) ao web scraping tem transformado a forma como dados são coletados e analisados na web. Enquanto métodos tradicionais enfrentam limitações frente a barreiras como CAPTCHA, conteúdos dinâmicos e mudanças estruturais em sites, abordagens assistidas por AI permitem maior robustez, adaptabilidade e precisão. Modelos de linguagem de larga escala (LLM), machine learning, natural language processing (NLP) e visão computacional possibilitam desde a interpretação de textos não estruturados até a análise multimodal e previsão de alterações em páginas. Tais avanços ampliam o potencial do scraping em áreas como pesquisa, negócios e monitoramento em tempo real, embora levantem questões éticas e legais relacionadas à privacidade, vieses culturais e uso responsável das informações. Este estudo analisa comparativamente o scraping tradicional e o assistido por AI, destacando benefícios, desafios e implicações sociais.
Palavras-chave:
Dados, Bots web, LLM
Referências
K. Weerasinghe, M. Maduranga, and M. Kawya, “Enhancing web scraping with artificial intelligence: A review,” Department of Information Technology, Faculty of Computing, General Sir John Kotelawala Defence University, Ratmalana, Sri Lanka, 2024.
E. Andreasen, L. Gong, A. MØller, M. Pradel, M. Selakovic, K. Sen, and C.-A. Staicu, “A survey of dynamic analysis and test generation for javascript,” ACM Computing Surveys, Vol. 50, No. 5, Article 66. Publication date: September 2017., 2017.
E. Persson, “Evaluating tools and techniques for web scraping,” 2019, acessado em 16 jun. 2025. [Online]. Available: [link]
M. A. Khder, “Web scraping or web crawling: State of art, techniques, approaches and application,” Int. J. Advance Soft Compu. Appl, Vol. 13, No. 3, November 2021, 2021.
H. Vijaykumar, “Techniques to prevent attacks caused through web scraping - a review approach,” Journal of Nonlinear Analysis and Optimization Vol. 14, Issue. 2, No. 4: 2023 ISSN : 1906-9685, 2023.
Henrique, Pedro, “Web semântica: a informação tornandose conhecimento,” 2022, acessado em 16 jun. 2025. [Online]. Available: [link]
C. Iliou, T. Kostoulas, T. Tsikrika, V. Katos, S. Vrochidis, and I. Kompatsiaris, “Web bot detection evasion using deep reinforcement learning,” Association for Computing Machinery, New York, NY, USA, Article 15, 1–10, 2022.
G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, “Deep learning for anomaly detection: A review,” ACM Comput. Surv., Vol. 1, No. 1, Article 1., 2020.
D. Kanneganti, “Using recurrent neural networks and web crawlers to scrape open data from the internet,” The Young Researcher, 6(1), 60-71, 2022.
E. Andreasen, L. Gong, A. MØller, M. Pradel, M. Selakovic, K. Sen, and C.-A. Staicu, “A survey of dynamic analysis and test generation for javascript,” ACM Computing Surveys, Vol. 50, No. 5, Article 66. Publication date: September 2017., 2017.
E. Persson, “Evaluating tools and techniques for web scraping,” 2019, acessado em 16 jun. 2025. [Online]. Available: [link]
M. A. Khder, “Web scraping or web crawling: State of art, techniques, approaches and application,” Int. J. Advance Soft Compu. Appl, Vol. 13, No. 3, November 2021, 2021.
H. Vijaykumar, “Techniques to prevent attacks caused through web scraping - a review approach,” Journal of Nonlinear Analysis and Optimization Vol. 14, Issue. 2, No. 4: 2023 ISSN : 1906-9685, 2023.
Henrique, Pedro, “Web semântica: a informação tornandose conhecimento,” 2022, acessado em 16 jun. 2025. [Online]. Available: [link]
C. Iliou, T. Kostoulas, T. Tsikrika, V. Katos, S. Vrochidis, and I. Kompatsiaris, “Web bot detection evasion using deep reinforcement learning,” Association for Computing Machinery, New York, NY, USA, Article 15, 1–10, 2022.
G. Pang, C. Shen, L. Cao, and A. V. D. Hengel, “Deep learning for anomaly detection: A review,” ACM Comput. Surv., Vol. 1, No. 1, Article 1., 2020.
D. Kanneganti, “Using recurrent neural networks and web crawlers to scrape open data from the internet,” The Young Researcher, 6(1), 60-71, 2022.
Publicado
22/10/2025
Como Citar
LAURINDO, Amanda de Oliveira; CARDOSO, Luciano Santos; BUSSADOR, Alessandra.
Estudo comparativo de web scraping tradicional e integrado com inteligências artificiais. In: CONGRESSO LATINO-AMERICANO DE SOFTWARE LIVRE E TECNOLOGIAS ABERTAS (LATINOWARE), 22. , 2025, Foz do Iguaçu/PR.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2025
.
p. 909-912.
DOI: https://doi.org/10.5753/latinoware.2025.16563.
