Acelerando o pré-processamento de consultas em sistemas de classificação automática de documentos usando aprendizado postergado

Paulo Henrique da Silva; Wellington  Santos  Martins

Paulo Henrique da Silva UFG
Wellington Santos Martins UFG

Resumo

Apesar de todos os esforços, a classificação automática de documentos ainda é uma tarefa desafiadora. Isto porque os algoritmos de aprendizado devem lidar com dados esparsos, ruído e a ambiguidade inerentes à linguagem humana, assimetria da distribuição de dados, entre outros fatores. Alguns trabalhos defendem o uso de um aprendizado postergado no qual somente características relacionadas ao documento sendo classificado sejam levadas em consideração. Um modelo local e customizado é aprendido para cada documento sendo classificado. Esta abordagem requer um alto custo computacional pois deve operar no momento da classificação. Este trabalho propõe o uso de paralelismo para viabilizar operações de filtragem e engenharia de características em uma etapa anterior à classificação do documento.

Palavras-chave: Dados esparsos, ruído, ambiguidade, classificação automática de documentos

Referências

Amorin, L. A., Freitas, M. F., Silva, P. H., and Martins, W. S. (2018). A fast similarity search knn for textual datasets. In In Proceedings of the XIX Simpósio em Sistemas Computacionais de Alto Desempenho (WSCAD 18), page 421–432. SBC.

Canuto, S., Gonçalves, M., Santos, W., Rosa, T., and Martins, W. (2015). An efficient and scalable metafeature-based document classification approach based on massively parallel computing. In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 333–342. ACM.

Manning, C., Raghavan, P., and Schütze, H. (2010). Introduction to information retrieval.Natural Language Engineering, 16(1):100–103.

Mendes, L. F., Gonçalves, M., Salles, T., Rocha, L., Ottoni, R., Couto, T., Resende, E., Cunha, W., Freitas, M., Martins, W., and Silva, P. H. (2019). “keep it simple, lazy” – metalazy: a new metastrategy for lazy text classification. In Relatório Técnico. DCC/UFMG.