Fast CUDA-based Implementations of Automatic Document Classification Algorithms
Resumo
Com a Web 2.0, observamos um novo cenário: existe mais dados do que podemos analisar e organizá-los é um dos grandes problemas em Ciência da Computação. Existem muitos algoritmos com este propósito, destacando os de Classificação Automática de Documentos (CAD). Muitas propostas visam tornar esses algoritmos computacionalmente viáveis, sendo os melhores resultados obtidos pela paralelização em GPUs (Graphics Processing Units). Neste trabalho apresentamos duas versões paralelas em GPU de algoritmos de CAD, o GPU-NB, baseado no Naïve Bayes, e o G-KNN, baseado no KNN. Mostramos que, além de alcançarem a mesma eficácia, nossas propostas são mais rápidas que suas versões em CPU.
Referências
Garcia, V., Debreuve, E., and Barlaud, M. (2008). Fast k nearest neighbor search using gpu. In IEEE CVPRW.
Grahn, H., Lavesson, N., Lapajne, M. H., and Slat, D. (2011). Cudarf: A cuda-based implementation of random forests. In AICCSA, pages 95–101.
Kato, K. and Hosino, T. (2010). Solving k-nearest neighbor problem on multiple graphics processors. In IEEE/ACM CCGrid.
Kumarihamy, D. and Arundhati, L. (2009). Implementing data mining algorithms using NVIDIA CUDA.
Lin, T.-K. and Chien, S.-Y. (2010). Support vector machines on gpu with sparse matrix format. In Ninth ICML, pages 313–318.
University, T. D., editor (2010). Reducing the Energy Consumption of Embedded Systems by Integrating General Purpose GPUs. Technical report.
Viegas, F., Andrade, G., Almeida, J., Gonçalves, M., Ferreira, R., Ramos, G., and da Rocha, L. C. (2013). Gpu-nb: A fast cuda-based implementation of naïve bayes. In SBAC-PAD, pages 369–378.
Zheng, Z., Wu, X., and Srihari, R. (2004). Feature selection for text categorization on imbalanced data. ACM SIGKDD Explorations Newsletter, 6:80–89.