Aprimoramento de Modelos de Classificação com Dados Enriquecidos via Web Scraping: Um Estudo de Caso da Competição Dog Breed Identification

  • Marcos V. M. Faria IFES
  • Ludmila Dias IFES
  • Eduardo O. P. Ferreira IFES
  • Thiago M. Paixão IFES
  • Francisco A. Boldt IFES

Resumo


Este artigo apresenta um estudo sobre o uso de Web Scraping para a extração automatizada de dados da web, visando aprimorar modelos de classificação por meio do enriquecimento da base de dados de treinamento. Nos experimentos, utilizamos duas bases de dados: uma proveniente da competição “Dog Breed Identification” do Kaggle, que serviu de estudo de caso, e uma resultante da fusão desta com a base de dados extraída via scraping. No processo de extração, empregamos a biblioteca Puppeteer e outras ferramentas auxiliares em determinadas etapas do processo. O modelo de classificação adotado foi o Xception. Os resultados das bases de dados foram comparados através das métricas de Acurácia, Recall, Precisão e F1 Score. Concluímos que a adição de dados via web scraping pode melhorar o desempenho de classificação, desde que uma limpeza dos dados seja aplicada.

Referências

Chen, J., Bai, G., Liang, S., and Li, Z. (2016). Automatic image cropping : A computational complexity study. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

Chollet, F. (2017). Xception: Deep learning with depthwise separable convolutions.

Chollet, F. (2021). Deep learning with Python. Simon and Schuster.

Correia, C. H. G., Komati, K. S., and Boldt, F. d. A. (2021). Reconhecimento de gestos de mão em sequência a partir de sensores inerciais. Journal of Health Informatics, 12.

Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee.

Deng, L. (2012). The mnist database of handwritten digit images for machine learning research [best of the web]. IEEE signal processing magazine, 29(6):141–142.

Jocher, G., Chaurasia, A., Stoken, A., Borovec, J., NanoCode012, Kwon, Y., Michael, K., TaoXie, Fang, J., imyhxy, Lorna, Yifu), Wong, C., V, A., Montes, D., Wang, Z., Fati, C., Nadar, J., Laughing, UnglvKitDe, Sonck, V., tkianai, yxNONG, Skalski, P., Hogan, A., Nair, D., Strobel, M., and Jain, M. (2022). ultralytics/yolov5: v7.0 - YOLOv5 SOTA Realtime Instance Segmentation.

Kaggle (2024). Kaggle datasets.

Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., and Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer.

Munappy, A., Bosch, J., Olsson, H. H., Arpteg, A., and Brinne, B. (2019). Data management challenges for deep learning. In 2019 45th Euromicro Conference on Software Engineering and Advanced Applications (SEAA), pages 140–147.

Puppeteer (2024). Puppeteer.

R, R. R. N., S, N. R., and M., V. (2023). Web scrapping tools and techniques: A brief survey. In 2023 4th International Conference on Innovative Trends in Information Technology (ICITIIT), pages 1–4.

Russel, S. and Norving, P. (2022). Inteligência Artificial - Uma Abordagem Moderna. GEN LTC, 4th edition.

Sager, C., Janiesch, C., and Zschech, P. (2021). A survey of image labelling for computer vision applications. Journal of Business Analytics, 4(2):91–110.

Sirisuriya, S. D. S. (2023). Importance of web scraping as a data source for machine learning algorithms - review. In 2023 IEEE 17th International Conference on Industrial and Information Systems (ICIIS), pages 134–139.

Srinivasan, K., Raman, K., Chen, J., Bendersky, M., and Najork, M. (2021). Wit: Wikipedia-based image text dataset for multimodal multilingual machine learning. In Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’21. ACM.

Torralba, A., Russell, B. C., and Yuen, J. (2010). Labelme: Online image annotation and applications. Proceedings of the IEEE, 98(8):1467–1484.

University of California, I. (2024). Uci machine learning repository.

Valarmathi, B., Gupta, N. S., Prakash, G., Reddy, R. H., Saravanan, S., and Shanmuga-sundaram, P. (2023). Hybrid deep learning algorithms for dog breed identification—a comparative analysis. IEEE Access, 11:77228–77239.

Voulodimos, A., Doulamis, N., Doulamis, A., and Protopapadakis, E. (2018). Deep learning for computer vision: A brief review. Computational intelligence and neuroscience, 2018.

Wikipedia (2024). List of dog breeds.

with Code, P. (2024). Papers with code.

Zhang, D., Islam, M. M., and Lu, G. (2012). A review on automatic image annotation techniques. Pattern Recognition, 45(1):346–362.
Publicado
17/10/2024
FARIA, Marcos V. M.; DIAS, Ludmila; FERREIRA, Eduardo O. P.; PAIXÃO, Thiago M.; BOLDT, Francisco A.. Aprimoramento de Modelos de Classificação com Dados Enriquecidos via Web Scraping: Um Estudo de Caso da Competição Dog Breed Identification. In: ESCOLA REGIONAL DE INFORMÁTICA DO ESPÍRITO SANTO, 9. , 2024, Vitória/ES. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 127-136. DOI: https://doi.org/10.5753/eries.2024.244695.