Três Datasets criados a partir de um banco de Canções Populares Brasileiras de Sucesso e Não-Sucesso de 2014 a 2019

Resumo


Este trabalho trata da criação e otimização de um grande conjunto de características extraídas de um banco de 881 canções populares brasileiras de Sucesso e Não-Sucesso, entre janeiro de 2014 a maio de 2019. A partir desse banco de canções, criou-se três DataSets de características (features) distintas, sendo que o primeiro contém 3215 características estatísticas; o segundo e o terceiro são totalmente inéditos, pois foram formados a partir da Melodia Vocal das canções (Melodia Predominante da Voz), não havendo banco semelhante disponível para pesquisa. O segundo banco representa um gráfico de espectrograma, formado a partir dos 90 segundos iniciais de cada canção. O terceiro banco é o mais peculiar de todos, pois representa uma análise semântica musical do segundo banco, onde a finalidade principal foi construir uma tabela composta pelas sequências melódicas mais frequentes de cada canção. Nossos Datasets usam apenas canções brasileiras e concentram seus dados em um período limitado e contemporâneo. A ideia da criação desses conjuntos de dados é estimular o estudo de técnicas de Aprendizado de Máquina que requeiram informações musicais. Os recursos extraídos podem auxiliar no desenvolvimento de novas pesquisas nas áreas da música e computação no futuro.

Palavras-chave: Extração de características, Ciência das Canções de Sucesso, Recuperação de Informações Musicais, Melodia Predominante, Canções Brasileiras de Sucesso

Referências

Ay., Y. E. (2018). Spotify dataset 1921-2020, 160k+ tracks.

Bertin-Mahieux, T., Ellis, D. P., Whitman, B., and Lamere, P. (2011). The million song dataset.

Blume, J. (2019). What makes a song a hit?

Bogdanov, D., Wack, N., Gómez, E., Gulati, S., Herrera, P., Mayor, O., Roma, G., Salamon, J., Zapata, J. R., and Serra, X. (2013). Essentia: an audio analysis library for music information retrieval. In International Society for Music Information Retrieval Conference (ISMIR’13), pages 493–498, Curitiba, Brazil.

ConnectMIX (2019). Connectmix, monitoramento, auditoria e gestão de áudio em tempo real em rádios e tvs.

IBGE (2021). População do brasil.

Olteanu, A. (2020). Gtzan dataset - music genre classification.

Raieli, R. (2013). Multimedia Information Retrieval: theory and techniques. Elsevier.

Salamon, J. (2013). Melody Extraction from Polyphonic Music Signals. PhD thesis, Universitat Pompeu Fabra, Barcelona, Spain.
Publicado
04/10/2021
Como Citar

Selecione um Formato
BERTONI, André Augusto; LEMOS, Rodrigo Pinto. Três Datasets criados a partir de um banco de Canções Populares Brasileiras de Sucesso e Não-Sucesso de 2014 a 2019. In: DATASET SHOWCASE WORKSHOP (DSW), 3. , 2021, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 11-20. DOI: https://doi.org/10.5753/dsw.2021.17410.