Construção de Árvores Aleatórias em Paralelo usando Conjuntos Textuais

  • Julio C. B. Pires IF Goiano
  • Wellington S. Martins UFG

Resumo


A grande quantidade de informação disponível desperta o interesse para o aprendizado de padrões importantes dos dados, que em sua maioria estão em formato de texto e são desestruturados. Desse modo, surgem novos desafios para lidar com esse tipo de dado, como a carga computacional ligada a alta dimensionalidade e ruídos atrelados a natureza dos dados. Assim, no presente trabalho é abordada a paralelização de um algoritmo de aprendizado, uma combinação de bagging de árvores aleatórias com boosting para a classificação automática de texto. O objetivo é acelerar a construção das árvores na GPU.
Palavras-chave: Classificação, Árvores Extremamente Aleatórias, Paralelismo

Referências

Breiman, L. (1996). Bagging predictors. Machine Learning, 24(2):123–140.

Breiman, L. (2001). Random forests. Mach. Learn., 45(1):5–32.

Campos, R., Canuto, S., Salles, T., de Sa, C. C., and Gonçalves, M. A. (2017). Stacking bagged and boosted forests for effective automated classification. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’17, pages 105–114, New York, NY, USA. ACM.

Freund, Y. and Schapire, R. E. (1997). A decision-theoretic generalization of on-line learning and an application to boosting. Journal of Computer and System Sciences, 55(1):119 – 139.

Geurts, P., Ernst, D., and Wehenkel, L. (2006). Extremely randomized trees. Machine Learning, 63(1):3–42.

Han, J., Kamber, M., and Pei, J. (2012). Data mining concepts and techniques, third edition.

Jansson, K., Sundell, H., and Bostrom, H. (2014). gpurf and gpuert: Efficient and scalable gpu algorithms for decision tree ensembles. In 2014 IEEE International Parallel Distributed Processing Symposium Workshops, pages 1612–1621.

Pires, J. and Martins, W. (2019). Impulsionando Árvores extremamente aleatórias em paralelo para a classificação de dados textuais. In Anais Principais do XX Simposio em Sistemas Computacionais de Alto Desempenho, pages 312–323, Porto Alegre, RS, Brasil. SBC.

Tan, P.-N., Steinbach, M., and Kumar, V. (2013). Introduction to Data Mining: Pearson New International Edition (English Edition). Pearson Education Limited, Harlow, ESX, UK.
Publicado
14/09/2020
PIRES, Julio C. B.; MARTINS, Wellington S.. Construção de Árvores Aleatórias em Paralelo usando Conjuntos Textuais. In: ESCOLA REGIONAL DE ALTO DESEMPENHO DO CENTRO-OESTE (ERAD-CO), 3. , 2020, Campo Grande. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 1-4. DOI: https://doi.org/10.5753/eradco.2020.12643.