Deep Learning and Mel-spectrograms for Physica Violence Detection in Audio

  • Tiago B. Lacerda CESAR School
  • Péricles Miranda UFRPE
  • André Câmara UFRPE
  • Ana Paula C. Furtado CESAR School / UFRPE


Há um crescente interesse em sistemas de detecção de violência de forma automática por meio do áudio ambiente. Neste trabalho, construímos e avaliamos 4 classificadores com essa proposta. Porém, em vez de processar diretamente os sinais de áudio, nós os convertemos para imagens, conhecidas como mel-spectrograms, e em seguida utilizamos Redes Neurais Convolucionais (CNN) para tratar como um problema de classificação de imagens utilizando-se de redes pre-treinadas neste contexto. Testou-se as arquiteturas Inception v3, VGG-16, MobileNet v2 e ResNet152 v2, tendo o classificador oriundo da arquitetura MobileNet obtido os melhores resultados de classificação, quando avaliado no HEAR Dataset, criado para a realização desta pesquisa.


LACERDA, Tiago B.; MIRANDA, Péricles; CÂMARA, André; FURTADO, Ana Paula C.. Deep Learning and Mel-spectrograms for Physica Violence Detection in Audio. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 18. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 268-279. ISSN 2763-9061. DOI:

