Classificação de gêneros a partir de letras de músicas em português

Resumo


Associar canções a gêneros não é fácil. A subjetividade e diversidade das obras musicais tornam a atribuição de rótulos inequívocos uma tarefa desafiadora. Porém, atributos textuais podem contribuir para a caracterização de gêneros. Este trabalho propõe um sistema para classificar letras de músicas em português, explorando modelos de Aprendizado Profundo, tais como Redes LSTM e Transformers. São também incluídas estratégias mais simples como a classificação por Regressão Logística de representações geradas por TF-IDF. Experimentos demonstraram que o modelo Transformer apresentou o melhor desempenho, alcançando uma acurácia de 61,6% para dez gêneros musicais.

Palavras-chave: gênero musical, português, aprendizado profundo, processamento de linguagem natural, letras de música

Referências

Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M., Kudlur, M., Levenberg, J., Monga, R., Moore, S., Murray, D. G., Steiner, B., Tucker, P., Vasudevan, V., Warden, P., Wicke, M., Yu, Y., and Zheng, X. (2016). TensorFlow: A system for Large-Scale machine learning. In 12th USENIX Symposium on Operating Systems Design and Implementation (OSDI 16), pages 265–283, Savannah, GA. USENIX Association. https://doi.org/10.48550/arXiv.1605.08695

Bird, S., Klein, E., and Loper, E. (2009). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit. O’Reilly.

Bonds, M. E. (2018). Listen to This. Pearson, 4th edition.

Chollet, F. et al. (2015). Keras. https://keras.io.

da Silva Muniz, V. H. and de Oliveira e Souza Filho, J. B. (2023). Robust handcrafted features for music genre classification. Neural Computing and Applications, 35(13):9335–9348. https://doi.org/10.1007/s00521-022-08069-5

de Araújo Lima, R., de Sousa, R. C. C., Lopes, H., and Barbosa, S. D. J. (2020). Brazilian lyrics-based music genre classification using a blstm network. In Artificial Intelligence and Soft Computing: 19th International Conference, ICAISC 2020, Zakopane, Poland, October 12-14, 2020, Proceedings, Part I, page 525–534. Springer-Verlag. https://doi.org/10.1007/978-3-030-61401-0_49

de Oliveira, M. B. (2023). Conjunto de dados para classificação de gêneros a partir de letras de músicas em português. GitHub. [link]. [Accessed: 2023-08-11].

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics. https://doi.org/10.18653/v1/n19-1423

Gjerdingen, R. and Perrott, D. (2008). Scanning the dial: The rapid recognition of music genres. Journal of New Music Research, 37(2):93–100. https://doi.org/10.1080/09298210802479268

Goodfellow, I., Bengio, Y., and Courville, A. (2016). Deep Learning. MIT Press. http://www.deeplearningbook.org.

Guimarães, P., Froes, J., Costa, D., and Freitas, L. (2020). A comparison of identification methods of Brazilian music styles by lyrics. In Proceedings of the The Fourth Widening Natural Language Processing Workshop, pages 61–63, Seattle, USA. Association for Computational Linguistics. http://doi.org/10.18653/v1/2020.winlp-1.16

Hastie, T., Tibshirani, R., and Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer, 2nd edition. https://doi.org/10.1007/978-0-387-84858-7

Hochreiter, S. and Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8):1735–1780. https://doi.org/10.1162/neco.1997.9.8.1735

HuggingFace (2018). Bert for sequence classification. Hugging Face Transformers Documentation. [link]. [Accessed: 2023-06-19].

Japkowicz, N. and Shah, M. (2011). Evaluating Learning Algorithms: A Classification Perspective. Cambridge University Press, USA. https://doi.org/10.1017/CBO9780511921803

Jeong, I. and Lee, K. (2016). Learning temporal features using a deep neural network and its application to music genre classification. In Proceedings of the 17th International Society for Music Information Retrieval Conference, ISMIR 2016, New York City, United States, pages 434–440.

Kingma, D. P. and Ba, J. (2015). Adam: A method for stochastic optimization. In Bengio, Y. and LeCun, Y., editors, 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings. https://doi.org/10.48550/arXiv.1412.6980

Neisse, A. (2022). Song lyrics from 79 musical genres. Kaggle. [link]. [Accessed: 2023-06-19].

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., Vanderplas, J., Passos, A., Cournapeau, D., Brucher, M., Perrot, M., and Duchesnay, E. (2011). Scikit-learn: Machine learning in Python. Journal of Machine Learning Research, 12:2825–2830. https://doi.org/10.48550/arXiv.1201.0490

Pimenta, M. F. and Pugliesi, J. B. (2022). Reconhecimento de gêneros musicais com técnicas de aprendizagem de máquina supervisionada. Revista Eletrônica de Computação Aplicada, 3(1):23–46.

Salton, G. and Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing Management, 24(5):513–523. https://doi.org/10.1016/0306-4573(88)90021-0

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: pretrained BERT models for Brazilian Portuguese. In 9th Brazilian Conference on Intelligent Systems, BRACIS, Rio Grande do Sul, Brazil, October 20-23, page 403–417. https://doi.org/10.1007/978-3-030-61377-8_28

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2014). Dropout: A simple way to prevent neural networks from overfitting. J. Mach. Learn. Res., 15(1):1929–1958.

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008. https://doi.org/10.48550/arXiv.1706.03762

Vicente, D. (2022). Nem pagode, nem sertanejo: pisadinha faz o brasil dançar na pandemia. [link]. [Accessed: 2023-06-19].

Wes McKinney (2010). Data Structures for Statistical Computing in Python. In Stéfan van der Walt and Jarrod Millman, editors, Proceedings of the 9th Python in Science Conference, pages 56 – 61. http://dx.doi.org/10.25080/Majora-92bf1922-00a
Publicado
25/09/2023
DE OLIVEIRA, Matheus Bastos; E SOUZA FILHO, João Baptista de Oliveira. Classificação de gêneros a partir de letras de músicas em português. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 43-52. DOI: https://doi.org/10.5753/stil.2023.233839.