Fast CUDA-based Implementations of Automatic Document Classification Algorithms

Gabriel Ramos; Guilherme Andrade; Felipe Viegas; Daniel Madeira; Leonardo Rocha

Gabriel Ramos UNESP
Guilherme Andrade UNESP
Felipe Viegas UNESP
Daniel Madeira UNESP
Leonardo Rocha UNESP

Resumo

Com a Web 2.0, observamos um novo cenário: existe mais dados do que podemos analisar e organizá-los é um dos grandes problemas em Ciência da Computação. Existem muitos algoritmos com este propósito, destacando os de Classificação Automática de Documentos (CAD). Muitas propostas visam tornar esses algoritmos computacionalmente viáveis, sendo os melhores resultados obtidos pela paralelização em GPUs (Graphics Processing Units). Neste trabalho apresentamos duas versões paralelas em GPU de algoritmos de CAD, o GPU-NB, baseado no Naïve Bayes, e o G-KNN, baseado no KNN. Mostramos que, além de alcançarem a mesma eficácia, nossas propostas são mais rápidas que suas versões em CPU.

Referências

Christen, P. (2012). A survey of indexing techniques for scalable record linkage and deduplication. IEEE Transactions on Knowledge and Data Engineering.

Garcia, V., Debreuve, E., and Barlaud, M. (2008). Fast k nearest neighbor search using gpu. In IEEE CVPRW.

Grahn, H., Lavesson, N., Lapajne, M. H., and Slat, D. (2011). Cudarf: A cuda-based implementation of random forests. In AICCSA, pages 95–101.

Kato, K. and Hosino, T. (2010). Solving k-nearest neighbor problem on multiple graphics processors. In IEEE/ACM CCGrid.

Kumarihamy, D. and Arundhati, L. (2009). Implementing data mining algorithms using NVIDIA CUDA.

Lin, T.-K. and Chien, S.-Y. (2010). Support vector machines on gpu with sparse matrix format. In Ninth ICML, pages 313–318.

University, T. D., editor (2010). Reducing the Energy Consumption of Embedded Systems by Integrating General Purpose GPUs. Technical report.

Viegas, F., Andrade, G., Almeida, J., Gonçalves, M., Ferreira, R., Ramos, G., and da Rocha, L. C. (2013). Gpu-nb: A fast cuda-based implementation of naïve bayes. In SBAC-PAD, pages 369–378.

Zheng, Z., Wu, X., and Srihari, R. (2004). Feature selection for text categorization on imbalanced data. ACM SIGKDD Explorations Newsletter, 6:80–89.