Acelerando o pré-processamento de consultas em sistemas de classificação automática de documentos usando aprendizado postergado
Resumo
Apesar de todos os esforços, a classificação automática de documentos ainda é uma tarefa desafiadora. Isto porque os algoritmos de aprendizado devem lidar com dados esparsos, ruído e a ambiguidade inerentes à linguagem humana, assimetria da distribuição de dados, entre outros fatores. Alguns trabalhos defendem o uso de um aprendizado postergado no qual somente características relacionadas ao documento sendo classificado sejam levadas em consideração. Um modelo local e customizado é aprendido para cada documento sendo classificado. Esta abordagem requer um alto custo computacional pois deve operar no momento da classificação. Este trabalho propõe o uso de paralelismo para viabilizar operações de filtragem e engenharia de características em uma etapa anterior à classificação do documento.
Referências
Canuto, S., Gonçalves, M., Santos, W., Rosa, T., and Martins, W. (2015). An efficient and scalable metafeature-based document classification approach based on massively parallel computing. In Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 333–342. ACM.
Manning, C., Raghavan, P., and Schütze, H. (2010). Introduction to information retrieval.Natural Language Engineering, 16(1):100–103.
Mendes, L. F., Gonçalves, M., Salles, T., Rocha, L., Ottoni, R., Couto, T., Resende, E., Cunha, W., Freitas, M., Martins, W., and Silva, P. H. (2019). “keep it simple, lazy” – metalazy: a new metastrategy for lazy text classification. In Relatório Técnico. DCC/UFMG.