Aplicação de técnicas de Co-Teaching para Limpeza de Dados e Treinamento Robusto de Redes Neurais: um Estudo de Caso de Modelagem de Distribuição de Espécies

  • Renato O. Miyaji Universidade de São Paulo (USP) https://orcid.org/0000-0002-7279-4546
  • Felipe V. de Almeida Universidade de São Paulo (USP)
  • Pedro L. P. Corrêa Universidade de São Paulo (USP)

Resumo


Em tarefas de Classificação, quando existem incertezas associadas aos rótulos do conjunto de dados, o ajuste de Redes Neurais pode ser comprometido. Nesse contexto, técnicas algorítmicas para limpeza de dados são efetivas. Assim, neste trabalho foram aplicadas técnicas de Co-Teaching, em conjunto com métodos para tratar o desbalanceamento entre classes, para identificar instâncias com menor confiança em seus rótulos, limpar os dados e permitir o treinamento robusto de Redes Neurais. Essas técnicas se baseiam no treinamento conjunto de múltiplos modelos e foram aplicadas em um Estudo de Caso de Modelagem de Distribuição de Espécies na região da Bacia Amazônica com um modelo de Redes Neurais, atingindo um incremento de ROC-AUC de 11,8% (aumento de 75,8% para 84,5%).

Palavras-chave: Co-Teaching, Redes Neurais, Modelagem de Distribuição de Espécies

Referências

Beery, S., Cole, E., Parker, J., Perona, P., and Winner, K. (2021). Species distribution modeling for machine learning practitioners: A review. In Proceedings of ACM SIGCAS Conference on Computing and Sustainable Societies (COMPASS) 2021.

GBIF (2024). Gbif | global biodiversity information facility. [link]. Acesso em: 2024-05-14

Hamid, O. H. (2022). From model-centric to data-centric ai: A paradigm shift or rather a complementary approach? In Proceedings of 2022 8th International Conference on Information Technology Trends (ITT), pages 45–54. IEE.

Han, B., Yao, Q., Yu, X., Niu, G., Xu, M., Hu, W., Tsang, I., and Sugiyama, M (2018). Co-teaching: Robust training of deep neural networks with extremely noisy labels. In Proceeding of the 32nd Conference on Neural Information Processing Systems (NeurIPS 2018).

ICMBio (2024). Portal da biodiversidade do instituto chico mendes de conservação da biodiversidade. [link]. Acesso em: 2024-05-14.

Jiang, L., Zhou, Z., Leung, T., Li, L., and Fei-Fei, L. (2018). Mentornet: Learning data-driven curriculum for very deep neural networks on corrupted labels. In Proceeding of the International Conference on Machine Learning (ICML 2018).

Malach, E. and Shalev-Shwartz, S. (2017). Decoupling “when to update” from “how to update”. In Proceeding of the Conference on Neural Information Processing Systems (NIPS 2017)

Martin, S. T., Artaxo, P., Machado, L. A. T., Manzi, A. O., Souza, R. A. F. d., Schumacher, C., Wang, J., Andreae, M. O., Barbosa, H., Fan, J., et al. (2016). Introduction:observations and modeling of the green ocean amazon (goamazon2014/5). Atmospheric Chemistry and Physics, 16(8):4785 4797.

Martin, T. G., Kuhnert, P. M., Mengersen, K., and Possingham, H. P. (2005). The power of expert opinion in ecological models using bayesian methods: Impact of grazing on birds. Ecological Applications, 15:266–280.

Miyaji, R. O., Almeida, F. V., Bauer, L. O., Ferrari, V., Corrêa, P. L. P., Rizzo, L. V., and Prakash, G. (2021). Spatial interpolation of air pollutant and meteorological variables in central amazonia. Data, 6(12).

Rew, J., Cho, U., and Hwang, E. (2021). A robust prediction model for species distribution using bagging ensembles with deep neural networks. Remote Sensing, 13(8):1945.

Vos, B., Jansen, G., and Isgum, I. (2023). Stochastic co-teaching for training neural networks with unknown levels of label noise. Scientifc Reports, 13(16875).
Publicado
14/10/2024
MIYAJI, Renato O.; ALMEIDA, Felipe V. de; CORRÊA, Pedro L. P.. Aplicação de técnicas de Co-Teaching para Limpeza de Dados e Treinamento Robusto de Redes Neurais: um Estudo de Caso de Modelagem de Distribuição de Espécies. In: BRAZILIAN E-SCIENCE WORKSHOP (BRESCI), 18. , 2024, Florianópolis/SC. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 16-23. ISSN 2763-8774. DOI: https://doi.org/10.5753/bresci.2024.244114.