Detectando Deepfakes em vídeos: Uma abordagem simples e eficiente utilizando Redes Neurais Residuais Profundas

  • Flavio de Barros Vidal UnB
  • Christian Cruvinel França UnB
  • Carla M. C. Cavalcante Koike UnB

Resumo


A proliferação de deepfakes representa um desafio significativo com impactos negativos na sociedade. Este trabalho propõe uma abordagem eficiente para a detecção automática de deepfakes utilizando aprendizado profundo e redes neurais residuais (ResNets). Um modelo ResNet18 foi treinado de forma supervisionada com o conjunto de dados Deepfake Detection Challenge (DFDC). A metodologia incluiu pré-processamento de imagens e estratégias de treinamento como transferência de aprendizado e ajuste de pesos de classe. A avaliação demonstrou uma acurácia superior a 90% na classificação de imagens e acima de 92% na classificação de vídeos, indicando a eficácia da abordagem para aplicações reais.

Referências

Afchar, D., Nozick, V., Yamagishi, J., and Echizen, I. (2018). Mesonet: a compact facial video forgery detection network.

Benpflaum, G, B., djdj, Kofman, I., Tester, J., JLElliott, Metherd, J., Elliott, J., Mozaic, Culliton, P., Dane, S., and Kim, W. (2019). Deepfake detection challenge. [link]. Kaggle.

Chicco, D. and Jurman, G. (2020). The advantages of the matthews correlation coefficient (mcc) over f1 score and accuracy in binary classification evaluation. BMC Genomics, 21.

Dang, H., Liu, F., Stehouwer, J., Liu, X., and Jain, A. (2020). On the detection of digital face manipulation.

Dolhansky, B., Bitton, J., Pflaum, B., Lu, J., Howes, R., Wang, M., and Canton-Ferrer, C. (2020). The deepfake detection challenge dataset. ArXiv, abs/2006.07397.

Fawcett, T. (2006). An introduction to roc analysis. Pattern Recognition Letters, 27(8):861–874. ROC Analysis in Pattern Recognition.

Floridi, L. (2018). Artificial intelligence, deepfakes and a future of ectypes. Philosophy and Technology, 31.

Frith, C. (2009). Role of facial expressions in social interactions. Philosophical transactions of the Royal Society of London. Series B, Biological sciences, 364:3453–8.

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press. [link].

Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014). Generative adversarial networks.

He, K., Zhang, X., Ren, S., and Sun, J. (2015). Deep residual learning for image recognition.

Hinton, G. E. and Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507.

Matern, F., Riess, C., and Stamminger, M. (2019). Exploiting visual artifacts to expose deepfakes and face manipulations. In 2019 IEEE Winter Applications of Computer Vision Workshops (WACVW), pages 83–92.

Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C., and Fei-Fei, L. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 115(3):211–252.

Rössler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., and Nießner, M. (2019). Faceforensics++: Learning to detect manipulated facial images.

Sabir, E., Cheng, J., Jaiswal, A., AbdAlmageed, W., Masi, I., and Natarajan, P. (2019). Recurrent convolutional strategies for face manipulation detection in videos.

Smith, L. N. (2017). Cyclical learning rates for training neural networks.

Smith, L. N. and Topin, N. (2018). Super-convergence: Very fast training of neural networks using large learning rates.

Suwajanakorn, S., Seitz, S. M., and Kemelmacher-Shlizerman, I. (2017). Synthesizing obama: Learning lip sync from audio. ACM Trans. Graph., 36(4).

Thies, J., Zollhöfer, M., Stamminger, M., Theobalt, C., and Nießner, M. (2018). Face2face: Real-time face capture and reenactment of rgb videos. Commun. ACM, 62(1):96–104.

Yang, X., Li, Y., and Lyu, S. (2018). Exposing deep fakes using inconsistent head poses.

Zollhöfer, M., Thies, J., Garrido, P., Bradley, D., Beeler, T., Pérez, P., Stamminger, M., Nießner, M., and Theobalt, C. (2018). State of the art on monocular 3d face reconstruction, tracking, and applications. Computer Graphics Forum, 37.
Publicado
20/07/2025
VIDAL, Flavio de Barros; FRANÇA, Christian Cruvinel; KOIKE, Carla M. C. Cavalcante. Detectando Deepfakes em vídeos: Uma abordagem simples e eficiente utilizando Redes Neurais Residuais Profundas. In: SEMINÁRIO INTEGRADO DE SOFTWARE E HARDWARE (SEMISH), 52. , 2025, Maceió/AL. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 121-132. ISSN 2595-6205. DOI: https://doi.org/10.5753/semish.2025.7512.