Pasture degradation papers search: how can supervised and transdutive methods help on the process of classification?
Resumo
A recuperação de pastagens degradadas tem sido tema importante no que diz respeito à segurança alimentar. Apesar do grande volume de artigos científicos sobre “pastagens degradadas”, há um grande desafio em termos de recuperação desses documentos para extração de conhecimento. Neste artigo foram exploradas duas abordagens de classificação, uma supervisionada e outra transdutiva, visando melhorar a qualidade das buscas e reduzir o esforço de anotação manual. Os resultados mostraram que é possível separar os artigos de interesse com certo nível de precisão, com destaque para o método supervisionado SVM, que apresentou o melhor desempenho. Por outro lado, o algoritmo transdutivo GNetMine, que apresentou desempenho semelhante aos modelos supervisionados utilizando apenas um quarto dos dados rotulados. Uma vez que a anotação manual de dados para treinamento dos métodos supervisionados é trabalhosa e depende da colaboração de especialista, sendo fundamental o desenvolvimento de métodos de classificação que demandem menor número de dados rotulados. A partir da seleção de artigos de interesse, futuramente outras técnicas de Mineração de Textos poderão ser aplicadas para facilitar a extração de conhecimento e a determinação de recomendações para a recuperação de pastagens no campo, contribuindo para o aumento da produção de alimentos de forma sustentável.
Referências
Aranha, C. and Passos, E. (2006). A tecnologia de mineração de textos. Revista Eletrônica de Sistemas de Informação, 5(2).
Bird, S., Klein, E., and Loper, E. (2009). Natural language processing with Python: analyzing text with the natural language toolkit. ”O’Reilly Media, Inc.”.
Campbell, C. and Ying, Y. (2022). Learning with support vector machines. Springer Nature.
Carvalho, M. B. and Tsunoda, D. F. (2018). Data analysis on articles retrieved from web of science (wos). Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação; Edição Especial-v. 23, n. esp. 1 (2018); 112-125, 24(2):125–112.
Chollet, F. et al. (2015). Keras. [link]. Acessado em 20-06-2023.
Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3):273–297.
de Moraes, L. L. and Kafure, I. (2020). Bibliometria e ciência de dados: um exemplo de busca e análise de dados da web of science (wos). RDBCI: Revista Digital de Biblioteconomia e Ciência da Informação, 18:e020016–e020016.
de Morais, M. V. B. (2022). Comparação bibliográfica sobre ensino de matemática para pessoas com transtorno autista utilizando técnica de mineração de texto. REMAT: Revista Eletrônica da Matemática, 8(1):e2002–e2002.
Demšar, J. (2006). Statistical comparisons of classifiers over multiple data sets. Journal of Machine Learning Research, 7:1–30.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.
Ding, S. (2009). Feature selection based f-score and aco algorithm in support vector machine. In Second International Symposium on Knowledge Acquisition and Modeling, volume 1, pages 19–23.
dos Santos, B. N., Rossi, R. G., Rezende, S. O., and Marcacini, R. M. (2020). A two-stage regularization framework for heterogeneous event networks. Pattern Recognition Letters, 138:490–496.
dos Santos Neto, L. A., Maniesi, V., Querino, C. A. S., da Silva, M. J. G., and Brown, V. R. (2020). Modelagem hidroclimatologica utilizando redes neurais multi layer perceptron em bacia hidrográfica no sudoeste da amazônia. Revista Brasileira de Climatologia,26.
Haykin, S. (1994). Neural networks: a comprehensive foundation. Prentice Hall PTR.
Ji, M., Sun, Y., Danilevsky, M., Han, J., and Gao, J. (2010). Graph regularized transductive classification on heterogeneous information networks. In Machine Learning and Knowledge Discovery in Databases: European Conference, ECML PKDD, September 20-24, 2010, Proceedings, Part I 21, pages 570–586, Barcelona, Spain. Springer.
Koch, K.-R. (2006). Bayesian inference with geodetic applications, volume 31. Springer, Germany.
Limiro, R. M., Da Silva, N. R., and Cordeiro, D. F. (2022). Mineração de textos para agrupamento de teses e dissertações por meio de análise de similaridade. Revista Brasileira de Biblioteconomia e Documentação, 18:1–20.
Lorena, A. C. and De Carvalho, A. C. (2007). Uma introdução às support vector machines. Revista de Informática Teórica e Aplicada, 14(2):43–67.
Ma, Y. and Guo, G. (2014). Support vector machines applications, volume 649. Springer.
Porter, M. F. (1980). An algorithm for suffix stripping. Program, 14(3):130–137.
Rezende, S. O. (2003). Sistemas inteligentes: fundamentos e aplicações. Editora Manole Ltda.
Rodrigues, W. G. (2019). Predição de diâmetros e cálculo de volume de clones de eucalipto: uma abordagem com redes multi layer perceptron e long-short term memory. Master’s thesis, Universidade Federal de Goiás.
Rossi, R. G., de Andrade Lopes, A., and Rezende, S. O. (2016). Optimization and label propagation in bipartite heterogeneous networks to improve transductive classification of texts. Information Processing & Management, 52(2):217–257.
Searchinger, T., Waite, R., Hanson, C., Ranganathan, J., Dumas, P., Matthews, E., and Klirs, C. (2019). Creating a sustainable food future: A menu of solutions to feed nearly 10 billion people by 2050. final report. [link]. Accessado em 10 de Julho de 2023.
Semolini, R. (2002). Support Vector Machines, Inferência Transdutiva e o Problema de Classificação. PhD thesis, Universidade Estadual de Campinas.
Sinoara, R. A., Marcacini, R. M., and Rezende, S. O. (2021). Mineração de textos e semântica: desafios, abordagens e aplicações. Revista de Sistemas de Informação da FSMA, 27(2021):41–53.
Tan, P., Steinbach, M., and Kumar, V. (2006). Introduction to Data Mining. Always learning. Pearson Addison Wesley.
Telles, M. A. et al. (2016). Da produção do conhecimento científico à transferência de informações: análise da circulação de saberes no âmbito de duas redes de pesquisa agropecuária. PhD thesis, Instituto Brasileiro de Informação em Ciência e Tecnologia/Universidade Federal do Rio de Janeiro.
Van der Maaten, L. and Hinton, G. (2008). Visualizing data using t-sne. Journal of machine learning research, 9(11).