Uma extensa avaliação empírica de técnicas de pré-processamento e algoritmos de aprendizado supervisionado de uma classe para classificação de texto

Marcos Gôlo; Ricardo Marcacini; Rafael Rossi

doi:10.5753/eniac.2019.9289

Marcos Gôlo Universidade Federal do Mato Grosso do Sul
Ricardo Marcacini Universidade Federal do Mato Grosso do Sul
Rafael Rossi Universidade Federal do Mato Grosso do Sul

DOI: https://doi.org/10.5753/eniac.2019.9289

Resumo

Dado o volume massivo de textos sendo produzido nos dias atuais, a classificação automática de textos tem se tornado interessante tanto para fins acadêmicos quanto empresariais. Tradicionalmente, a classificação automática de textos é realizada por meio de aprendizado de máquina multi-classe, o qual requer que o usuário apresente textos rotulados de todas as classes de um domínio. Entretanto, em cenários onde deseja-se classificar apenas se um documento pertence ou não a uma classe de interesse, é mais adequada a utilização do aprendizado baseado em uma única classe (AMUC), o qual requer apenas textos rotulados da classe de interesse para se gerar um modelo de classificação. Apesar da aplicabilidade do AMUC, não há trabalhos na literatura que considerem avaliações experimentais envolvendo algoritmos de diferentes categorias, diferentes técnicas de pré-processamento de textos, e diferentes coleções de textos, de forma a indicar quais são as técnicas e algoritmos a serem utilizados em determinadas situações. Com isso, esse artigo visa sanar essa lacuna. Nos resultados é demonstrado que o algoritmo de AMUC baseado no k-Means obteve as melhores performances de classificação para a maioria dos experimentos realizados. Além disso, o uso de técnicas de redução de dimensionalidade, as quais são comumente empregadas na literatura, não proveram aumento na performance de classificação.

Palavras-chave: Aprendizado baseado em uma única classe, classificação de textos, pré-processamento de textos

Referências

Aggarwal, C. C. (2018). Machine Learning for Text. Springer Publishing Company, Incorporated, 1st edition.

Biemann, C. and Mehler, A. (2014). Text Mining: From Ontology Learning to Automated Text Processing Applications. Springer.

Kemmler, M., Rodner, E., Wacker, E.-S., and Denzler, J. (2013). One-class classification with gaussian processes. Pattern Recognition, 46(12):3507–3518.

Khan, S. S. and Madden, M. G. (2009). A survey of recent trends in one class classification. In Irish Conf. Artifici. Intelligence and Cognitive Science, pages 188–197.

Kim, H., Howland, P., and Park, H. (2005). Dimension reduction in text classification with support vector machines. Journal of Machine Learning Research, 6:37–53.

Kumar, B. S. and Ravi, V. (2017a). One-class text document classification with OCSVM and LSI. In Art. Intel. & Evolutionary Computations in Eng. Systems, pages 597–606.

Kumar, B. S. and Ravi, V. (2017b). Text document classification with PCA and one-class SVM. In Proc. Int. Conf. Frontiers in Intel. Computing: Theory and Applications, pages 107–115.

Manevitz, L. and Yousef, M. (2007). One-class document classification via neural networks. Neurocomput., 70(7-9):1466–1481.

Manevitz, L. M. and Yousef, M. (2001). One-class SVMs for document classification. Journal of machine Learning research, 2(Dec):139–154.

Marcacini, R. M., Rossi, R. G., Nogueira, B. M., Martins, L. V., Cherman, E. A., and Rezende, S. O. (2017). Websensors analytics: Learning to sense the real world using web news events. In Simp. Brasileiro de Sistemas Multimı́dia e Web, pages 169–173.

Muir, A. (2005). Lean Six Sigma Statistics: Calculating Process Efficiencies in Transactional Project. McGraw Hill professional – Six sigma operational methods series.

Pan, R., Zhou, Y., Cao, B., Liu, N. N., Lukose, R., Scholz, M., and Yang, Q. (2008). One-class collaborative filtering. In Proc Int. Conf. Data Mining, pages 502–511.

Rossi, R. G. (2016). Classificação automática de textos por meio de aprendizado de máquina baseado em redes. PhD thesis, Universidade de São Paulo.

Rossi, R. G., Marcacini, R. M., and Rezende, S. O. (2013). Benchmarking text collections for classification and clustering tasks. Institute of Mathematics and Computer Sciences, University of São Paulo.

Shin, H. J., Eom, D.-H., and Kim, S.-S. (2005). One-class support vector machines—an application in machine fault detection and classification. Computers & Industrial Engineering, 48(2):395–408.

Tan, P., Steinbach, M., and Kumar, V. (2013). Introduction to Data Mining: Pearson New International Edition. Pearson Education Limited.

Tax, D. M. J. (2001). One-class classification: Concept learning in the absence of counter-examples. PhD thesis, Technische Universiteit Delft.

Zhang, B. and Zuo, W. (2008). Learning from positive and unlabeled examples: A survey. In 2008 International Symposiums on Information Processing, pages 650–654. IEEE.