Redução de Dimensionalidade para Árvores Aleatórias

  • Walter Bueno UFV
  • Olavo Silva UFV
  • José A. Nacif UFV
  • Ricardo Ferreira UFV

Resumo


A redução de dimensionalidade pode simplificar os modelos de aprendizado de máquina, melhorando o desempenho computacional sem perda de informações relevantes. Este artigo investiga a aplicação de métodos de redução de dimensionalidade em conjuntos de dados utilizados para a construção de árvores aleatórias, uma técnica amplamente empregada em aprendizado de máquina. Foram analisadas várias abordagens, incluindo Análise de Componentes Principais (PCA), t-Distributed Stochastic Neighbor Embedding (t-SNE), técnicas de compressão com K-means e coeficiente Gini, avaliando os impactos nos modelos de árvores aleatórias. Os resultados indicam que é possível realizar a redução de dimensionalidade sem perdas na acurácia das árvores aleatórias. A implementação fez uso do pacote scikitlearn para as técnicas e a base dados sendo load digit. Os experimentos estão disponíveis em um repositório público. Utilizando K-means, obtivemos uma redução de 7,6 vezes no número de nodos das árvores preservando a acurácia.

Referências

Bueno, W., Barros, O., Nacif, J., and Ferreira, R. (2024). Implementação paralela de múltiplos k-means em gpu. In Simpósio em Sistemas Computacionais de Alto Desempenho.

Canesche, M., Bragança, L., Neto, O. P. V., Nacif, J. A., and Ferreira, R. (2021). Google colab cad4u: Hands-on cloud laboratories for digital design. In 2021 IEEE International Symposium on Circuits and Systems (ISCAS), pages 1–5. IEEE.

da Silva Alves, M., Silva, L. B., Penha, J., Ferreira, R., and Nacif, J. A. M. (2023). Kcgra– uma arquitetura reconfigurável de domínio específico para k-means. In Simpósio em Sistemas Computacionais de Alto Desempenho (SSCAD), pages 25–36. SBC.

Laber, E. and Murtinho, L. (2019). Minimization of gini impurity: Np-completeness and approximation algorithm via connections with the k-means problem. Electronic Notes in Theoretical Computer Science, 346:567–576.

Pearson, K. (1901). Liii. on lines and planes of closest fit to systems of points in space. London, Edinburgh, and Dublin philosophical magazine and journal of science, 2(11).

Pedregosa, F., Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., Blondel, M., Prettenhofer, P., Weiss, R., Dubourg, V., et al. (2011). Scikit-learn: Machine learning in python. the Journal of machine Learning research, 12:2825–2830.

Penha, J., da Silva, A. K., Barros, O., Moreira, I., Nacif, J. A. M., and Ferreira, R. (2023). Avaliação de estilos de código para árvores de decisão em gpu com microbenchmarks. In Anais do XXIV Simpósio em Sistemas Computacionais de Alto Desempenho.

Penha, J. C., Bragança, L., Coelho, K., Canesche, M., Silva, J., Comarela, G., Nacif, J. A. M., and Ferreira, R. (2018). A gpu/fpga-based k-means clustering using a parameterized code generator. In Symp on High Performance Computing Systems (WSCAD).

Silva, A., Barros, O., Moreira, I. Nacif, J., and Ferreira, R. (2024). Implementações eficientes de random forest em fpga de baixo custo para internet das coisas e computação de borda. In Simpósio em Sistemas Computacionais de Alto Desempenho.

Silva, O. A., Silva, A. K., Moreira, Í. G., Nacif, J. A., and Ferreira, R. S. (2023). Rdsf: Everything at same place all at once-a random decision single forest. In 2023 XIII Brazilian Symposium on Computing Systems Engineering (SBESC), pages 1–6. IEEE.

Van der Maaten, L. and Hinton, G. (2008). Visualizing data using t-sne. Journal of machine learning research, 9(11).
Publicado
23/10/2024
BUENO, Walter; SILVA, Olavo; NACIF, José A.; FERREIRA, Ricardo. Redução de Dimensionalidade para Árvores Aleatórias. In: WORKSHOP DE INICIAÇÃO CIENTÍFICA - SIMPÓSIO EM SISTEMAS COMPUTACIONAIS DE ALTO DESEMPENHO (SSCAD), 25. , 2024, São Carlos/SP. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 145-152. DOI: https://doi.org/10.5753/sscad_estendido.2024.244752.