Geração de Imagens Aéreas com Modelos de Difusão Controláveis: Um Estudo de Caso de Data Augmentation com Fine-Tuning de ControlNet para Florestas Contendo Pinus

  • Thiago Innani Justus UTFPR
  • Amanda Gonsalves UTFPR
  • Gilson Giraldi UTFPR
  • Rodrigo Minetto UTFPR
  • Mauren Louise Sguario Coelho de Andrade UTFPR

Resumo


Este trabalho apresenta um método para a expansão de datasets de imagens aéreas através do fine-tuning de modelos de difusão controláveis, com foco no monitoramento de florestas de pinus no Brasil. Partindo do modelo pré-treinado Seg2Sat, que combina Stable Diffusion com ControlNet, este estudo realiza um processo de fine-tuning com um dataset customizado de 29 imagens de alta resolução. O trabalho introduz uma nova classe semântica, “pinus”, através de máscaras de segmentação multi-classe e prompts de texto correspondentes. Os resultados, avaliados pelas métricas FID (Fréchet Inception Distance) e CLIP Score, demonstram que o modelo aprende com sucesso a gerar a nova classe de acordo com o controlo espacial da máscara. O estudo conclui que, mesmo com um dataset extremamente limitado, o fine-tuning do ControlNet é uma abordagem viável e promissora para data augmentation em aplicações de sensoriamento remoto e monitoramento florestal.

Referências

W.-X. Peng, Y. Liu, Y.-Q. Wu, J.-Z. Qiao, and W.-B. Wei, “Determination of biomedicine resource of benzene/ethanol extractives of masson pine(pinus massoniana l.) wood by py-gc/ms,” in 2008 2nd International Conference on Bioinformatics and Biomedical Engineering, 2008, pp. 1241–1243.

M. P. dos Santos, M. J. de Araujo, and P. H. M. da Silva, “Natural establishment of pinus spp. around seed production areas and orchards,” Forest Ecology and Management, vol. 494, p. 119333, 2021. [Online]. Available: [link]

J. M. Moreira, E. Oliveira, D. Liebsch, and S. Mikich, “Avaliação econômica do cultivo de pinus spp. para um sistema de produção modal no sul do brasil,” 10 2015.

A. N. Dias, M. E. G. P. Gianisella, A. D. S. Gonçalves, R. Minetto, and M. L. S. Coelho de Andrade, “Exploring machine learning and remote sensing techniques for mapping pinus invasion beyond crop areas,” in Proceedings of the 20th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications - Volume 3: VISAPP, INSTICC. SciTePress, 2025, pp. 873–879.

R. Huang, Y. Shi, Y. He, Y. Zheng, G. Xiao, and Z. Liu, “Semantic circle detection and circle-inner segmentation for tree-wise citrus summer shoot management in aerial images,” in 2023 IEEE International Conference on Image Processing (ICIP), 2023, pp. 1090–1094.

H.-T. Chen, C.-H. Liu, and W.-J. Tsai, “Data augmentation for cnn-based people detection in aerial images,” in 2018 IEEE International Conference on Multimedia Expo Workshops (ICMEW), 2018, pp. 1–6.

M. Hassaballah and A. I. Awad, Deep Learning in Computer Vision: Principles and Applications, 03 2020.

S. Yang, W. Xiao, M. Zhang, S. Guo, J. Zhao, and F. Shen, “Image data augmentation for deep learning: A survey,” 2023. [Online]. Available: [link]

S. Yun, D. Han, S. J. Oh, S. Chun, J. Choe, and Y. Yoo, “Cutmix: Regularization strategy to train strong classifiers with localizable features,” 2019. [Online]. Available: [link]

M. Pereira and J. Santos, “Chessmix: Spatial context data augmentation for remote sensing semantic segmentation,” in Anais da XXXIV Conference on Graphics, Patterns and Images. Porto Alegre, RS, Brasil: SBC, 2021. [Online]. Available: [link]

A. Biswas, M. A. A. Nasim, A. Imran, A. T. Sejuty, F. Fairooz, S. Puppala, and S. Talukder, “Generative adversarial networks for data augmentation,” 2023. [Online]. Available: [link]

I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial networks,” 2014. [Online]. Available: [link]

A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow, and B. Frey, “Adversarial autoencoders,” 2016. [Online]. Available: [link]

M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “Gans trained by a two time-scale update rule converge to a local nash equilibrium,” in Advances in Neural Information Processing Systems, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, Eds., vol. 30. Curran Associates, Inc., 2017. [Online]. Available: [link]

R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-resolution image synthesis with latent diffusion models,” 2022. [Online]. Available: [link]

L. Zhang, A. Rao, and M. Agrawala, “Adding conditional control to text-to-image diffusion models,” 2023. [Online]. Available: [link]

R. Gres, “Seg2sat - segmentation to aerial view using pretrained diffuser models,” 2023. [Online]. Available: [link]

I. Água e Terra Governo do Estado do Paraná. (2004) Plano de manejo parque estadual de vila velha - 2004. [Online]. Available: [link]

IGN, “Flair: French land cover from aerospace imagery.” [Online]. Available: [link]

M. Park, J. Yun, S. Choi, and J. Choo, “Learning to generate semantic layouts for higher text-image correspondence in text-to-image synthesis,” 08 2023.

A. Abid, A. Abdalla, A. Abid, D. Khan, A. Alfozan, and J. Zou, “Gradio: Hassle-free sharing and testing of ml models in the wild,” 2019. [Online]. Available: [link]

J. Hessel, A. Holtzman, M. Forbes, R. L. Bras, and Y. Choi, “Clipscore: A reference-free evaluation metric for image captioning,” 2022. [Online]. Available: [link]
Publicado
30/09/2025
JUSTUS, Thiago Innani; GONSALVES, Amanda; GIRALDI, Gilson; MINETTO, Rodrigo; ANDRADE, Mauren Louise Sguario Coelho de. Geração de Imagens Aéreas com Modelos de Difusão Controláveis: Um Estudo de Caso de Data Augmentation com Fine-Tuning de ControlNet para Florestas Contendo Pinus. In: WORKSHOP DE TRABALHOS EM ANDAMENTO - CONFERENCE ON GRAPHICS, PATTERNS AND IMAGES (SIBGRAPI), 38. , 2025, Salvador/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 168-173.