Uma abordagem na seleção de atributos usando a Lei de Zipf e a Medida TF-IDF para o processo de classificação de patentes

Carlos Gabriel S. Rodrigues; Claudia A. Martins

doi:10.5753/eri-mt.2023.236614

Carlos Gabriel S. Rodrigues UFMT
Claudia A. Martins UFMT

DOI: https://doi.org/10.5753/eri-mt.2023.236614

Resumo

O processamento de linguagem natural auxilia a compreensão dos dados por meio de uma métodos linguísticos aliados a técnicas e algoritmos de aprendizado de máquina e estatística. Neste trabalho estão sendo investigados algoritmos relacionados com a frequência de palavras, com o objetivo analisar a relevância das palavras para um conjunto de dados. A lei de Zipf combinadas com os cortes de Luhn e a medida TF-IDF são utilizadas na seleção dos atributos mais relevantes para o processo de classificação no domínio de dados de patentes.

Palavras-chave: Lei de Zipf, Cortes de Luhn, medida TF-IDF, processamento de linguagem natural

Referências

Allahverdyan, A. E., Deng, W., and Wang, Q. A. 2013. “Explaining Zipf's law via a mental léxicon”. Physical Review E, v. 88, n. 6, pp. 062804.

Correa, L. M. S. (1999). “Aquisição da linguagem: uma retrospectiva dos últimos trinta anos”. Revista DELTA: Documentação de estudos em linguística teórica e aplicada. DOI: 10.1590/S0102-44501999000300014.

Fall, C. J., Tórcsvári, A., Benzineb, K., & Karetka, G. (2003). “Automated categorization in the international patent classification”. ACM SIGIRForum (37:1), pp. 10–25. URL [link].

Jing, L., Huang, H., and Shi, H. 2002. “Improved feature selection approach TFIDF in text mining”, in Proceedings. International Conference on Machine Learning and Cybernetics. IEEE. pp. 944-946.

Luhn, H. P. (1957). “A Statistical Approach to Mechanized Encoding and Searching of Literary Information”. IBM Journal of Research and Development. 1 (4): 309-317. ISSN 0018-8646. DOI: 10.1147/rd.14.0309

Wipo (2019). Guide to the International Patent Classification. Tech. rep. URL [link]

Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Addison-Wesley.