Uma abordagem na seleção de atributos usando a Lei de Zipf e a Medida TF-IDF para o processo de classificação de patentes
Resumo
O processamento de linguagem natural auxilia a compreensão dos dados por meio de uma métodos linguísticos aliados a técnicas e algoritmos de aprendizado de máquina e estatística. Neste trabalho estão sendo investigados algoritmos relacionados com a frequência de palavras, com o objetivo analisar a relevância das palavras para um conjunto de dados. A lei de Zipf combinadas com os cortes de Luhn e a medida TF-IDF são utilizadas na seleção dos atributos mais relevantes para o processo de classificação no domínio de dados de patentes.
Referências
Correa, L. M. S. (1999). “Aquisição da linguagem: uma retrospectiva dos últimos trinta anos”. Revista DELTA: Documentação de estudos em linguística teórica e aplicada. DOI: 10.1590/S0102-44501999000300014.
Fall, C. J., Tórcsvári, A., Benzineb, K., & Karetka, G. (2003). “Automated categorization in the international patent classification”. ACM SIGIRForum (37:1), pp. 10–25. URL [link].
Jing, L., Huang, H., and Shi, H. 2002. “Improved feature selection approach TFIDF in text mining”, in Proceedings. International Conference on Machine Learning and Cybernetics. IEEE. pp. 944-946.
Luhn, H. P. (1957). “A Statistical Approach to Mechanized Encoding and Searching of Literary Information”. IBM Journal of Research and Development. 1 (4): 309-317. ISSN 0018-8646. DOI: 10.1147/rd.14.0309
Wipo (2019). Guide to the International Patent Classification. Tech. rep. URL [link]
Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Addison-Wesley.