An acoustic scene classification approach involving domestic violence using machine learning

  • Helton Souto Centro de Estudos e Sistemas Avançados do Recife
  • Rafael Mello Universidade Federal Rural de Pernambuco
  • Ana Furtado Centro de Estudos e Sistemas Avançados do Recife / Universidade Federal Rural de Pernambuco

Resumo


A classificação e detecção de cenas acústicas é uma área de pesquisa em rápido desenvolvimento, pois o sinal produzido pelo som de um áudio contém informações que dados visuais não podem representar. Neste artigo lidamos com o problema de detecção de cenas acústicas envolvendo violência doméstica. Para tanto, propomos a utilização de um método de aprendizado de máquina utilizando o classificador SVM para detectar cenas de violência doméstica de um homem contra uma mulher utilizando o som. Apresentamos análises de experimentos com três diferentes parâmetros extraídos dos áudios. Como resultado, obtemos o melhor desempenho utilizando o parâmetro MFCC conseguindo uma acurácia de 73,14%.

Palavras-chave: classificação de cenas acústicas, aprendizado de máquina, violência doméstica

Referências

Kotti, M., Ververidis, D., Evangelopoulos, G., Panagakis, I., Kotropoulos, C.,Maragos, P., Pitas, I. (2008) “Audio-Assisted Movie Dialogue Detection”, In: IEEE Transactions on Circuits and Systems for Video Technology, vol. 18, no. 11, pp. 1618-1627, Nov. 2008.

Clavel, C., Vasilescu, I.,Devillers, L., Richard, G., Ehrette, T. (2008) “Fear-type emotion recognition for future audio-based surveillance systems”. Speech Communication. Volume 50, Issue 6, June 2008, Pages 487-503.

Guo, F., Shan, S., Wang, X. (2010) “Using One-Class SVMs and MP for Audio Recognition of Action Scenes”, Second International Workshop on Education Technology and Computer Science, 2010,401-404.

Schuller, B., Batliner, A., Steidl, S., Seppi, D. (2011) “Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge”. Speech Communication, vol. 53, no. 9/10, pp. 1062–1087, 2011.

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., Duchesnay, É. (2011) “Scikit-learn: Machine Learning in Python”, JMLR 12, pp. 2825-2830, 2011.

Hwang, K., Lee, S. (2012) “Environmental Audio Scene and Activity Recognition through Mobile-based Crowdsourcing”, In: IEEE Transactions on Consumer Electronics, 2012,58(2):700-705.

Kishore, K. V. K., Satish, P. K. (2013) “Emotion recognition in speech using MFCC and wavelet features”, In: 3rd IEEE International Advance Computing Conference (IACC), Ghaziabad, 2013, pp. 842-847.

Su, F. (2014) “Auditory scene analysis and recognition with LDA topic model”, In: IEEE International Conference on Multimedia and Expo,2014,1-6.

Ooi, C. S., Seng, K. P., Ang, L. M., Chew, L. W. (2014) “A new approach of audio emotion recognition”. Expert Systems with Applications 41 (13) (2014) 5858–5869.

Fernández-Delgado, M., Cernadas, E., Barro, S., and Amorim, D. (2014) “Do we need hundreds of classifiers to solve real world classification problems?”, The Journal of Machine Learning Research, 15(1), 3133-3181.

Iriya, R. (2014) “Análise de sinais de voz para reconhecimento de emoções”, Dissertação (Mestrado) — Curso de Engenharia e Sistemas Eletrônicos, Universidade de São Paulo, 2014.

Giannakopoulos, T. (2015) “pyAudioAnalysis: An Open-Source Python Library for Audio Signal Analysis”, PLoS ONE 10(12): e0144610. doi:10.1371/ journal.pone.0144610.

Stowell, D., Giannoulis, D., Benetos, E., Lagrange, M., Plumbley, M. D. (2015) “Detection and Classification of Acoustic Scenes and Events”, In: IEEE Transactions on Multimedia, vol. 17, no. 10, pp. 1733-1746, Oct. 2015.

Goodfellow, I., Bengio, Y., Courville, A. (2016) “Deep Learning”. MIT Press http://www.deeplearningbook.org.

Yang, J., Cai, M., Li M., Jin, H. (2016) “Movie audio scene recognition based on WFST”, In: International Conference on Audio, Language and Image Processing (ICALIP), Shanghai, 2016, pp. 77-80.

Elizalde, B., Kumar, A., Shah, A., Badlani, R., Vincent, E., Raj, B., Lane, I. (2016) “Experiments on the DCASE Challenge 2016: Acoustic scene classification and sound event detection in real life recording”, In: Proc. Workshop Detection Classification Acoust. Scenes Events, Budapest, Hungary, Sep. 2016, pp. 20-24.

Mu, G., Cao, H., Jin, Q. (2016) “Violent Scene Detection Using Convolutional Neural Networks and Deep Audio Features”. In: Tan T., Li X., Chen X., Zhou J., Yang J., Cheng H. (eds) Pattern Recognition. CCPR 2016. Communications in Computer and Information Science, vol 663. Springer, Singapore.

Mesaros, A., Heittola, T., Benetos, E., Foster, P., Lagrange, M., Virtanen, T., Plumbley, M. D. (2018) “Detection and classification of acoustic scenes and events: Outcome of the dcase 2016 challenge”, In: IEEE/ACM Transactions on Audio Speech and Language Processing vol. 26 no. 2 pp. 379-393 Feb 2018.

Gharib, S., Derrar, H., Niizumi, D., Senttula, T., Tommola, J., Heittola, T., Virtanen, T., Huttunen, H. (2018) “Acoustic scene classification: A competition review”. In: IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP), pages 1–6. IEEE, 2018.

OO, M. M. (2018) “Comparative Study of MFCC Feature with Different Machine Learning Techniques in Acoustic Scene Classification”, In: International Journal of Research and Engineering ISSN: 2348-7860 (O) | 2348-7852 (P) | Vol. 5 No. 7 | July 2018 | PP. 439-444.

Sarman, S. e Sert, M. (2018) “Audio based violent scene classification using ensemble learning”, In: 6th International Symposium on Digital Forensic and Security (ISDFS), Antalya, 2018, pp. 1-5.

Dorogyy, Y., Kolisnichenko, V., Levchenko, K. (2018) “Violent Crime Detection System”, In: IEEE 13th International Scientific and Technical Conference on Computer Sciences and Information Technologies (CSIT), Lviv, 2018, pp. 352-355.

Andrade, R. O. (2019) “Faces da violência doméstica”, Revista Pesquisa FAPESP. Edição 277, Março, 2019. Disponível em: . Acesso em: 07 de maio de 2019.

Oliveira, C. A. B., Alencar, L. N., Cardena, R. R., Moreira, K. F. A., Pereira, P. P. S., Fernandes, D. E. R. (2019) “Perfil da vítima e características da violência contra a mulher no estado de Rondônia”, Brasil. Rev Cuid. 2019; 10(1): e573.
Publicado
15/10/2019
SOUTO, Helton; MELLO, Rafael; FURTADO, Ana. An acoustic scene classification approach involving domestic violence using machine learning. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 16. , 2019, Salvador. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 705-716. ISSN 2763-9061. DOI: https://doi.org/10.5753/eniac.2019.9327.