Aprimoramento de Modelos de Classificação com Dados Enriquecidos via Web Scraping: Um Estudo de Caso da Competição Dog Breed Identification
Este artigo apresenta um estudo sobre o uso de Web Scraping para a extração automatizada de dados da web, visando aprimorar modelos de classificação por meio do enriquecimento da base de dados de treinamento. Nos experimentos, utilizamos duas bases de dados: uma proveniente da competição “Dog Breed Identification” do Kaggle, que serviu de estudo de caso, e uma resultante da fusão desta com a base de dados extraída via scraping. No processo de extração, empregamos a biblioteca Puppeteer e outras ferramentas auxiliares em determinadas etapas do processo. O modelo de classificação adotado foi o Xception. Os resultados das bases de dados foram comparados através das métricas de Acurácia, Recall, Precisão e F1 Score. Concluímos que a adição de dados via web scraping pode melhorar o desempenho de classificação, desde que uma limpeza dos dados seja aplicada.Referências
Como Citar
FARIA, Marcos V. M.; DIAS, Ludmila; FERREIRA, Eduardo O. P.; PAIXÃO, Thiago M.; BOLDT, Francisco A..
Aprimoramento de Modelos de Classificação com Dados Enriquecidos via Web Scraping: Um Estudo de Caso da Competição Dog Breed Identification. In: ESCOLA REGIONAL DE INFORMÁTICA DO ESPÍRITO SANTO (ERI-ES), 9. , 2024, Vitória/ES.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
p. 127-136.
DOI: https://doi.org/10.5753/eries.2024.244695.