Filtragem Inteligente de Notícias: Uma Abordagem Baseada em Clusterização
Resumo
Com o grande volume de notícias disponíveis na Web, tornou-se essencial o uso de ferramentas que facilitem a busca por informações relevantes. A ferramenta ENoW (Extrator de Notícias da Web) foi desenvolvida para coletar automaticamente notícias com base em palavras-chave definidas pelo usuário, permitindo o armazenamento dos dados e aplicando um sistema de filtragem para exibir conteúdos de interesse. No entanto, o processo de filtragem exige que o usuário selecione manualmente as notícias mais relevantes para ele, dentro de uma amostra da coleta. Como essa amostra era obtida aleatoriamente, muitas vezes era necessário solicitar várias novas amostras até encontrar conteúdos pertinentes, tornando o processo demorado e exaustivo. Para mitigar esse problema, este artigo propõe a aplicação do algoritmo de clusterização K-Means para aprimorar a escolha da amostra, garantindo que ela seja mais diversificada e representativa dos diferentes tópicos extraídos. Os resultados mostraram uma redução significativa na quantidade de notícias analisadas pelo usuário, tornando a identificação de conteúdos relevantes mais rápida e eficiente. A abordagem foi incorporada à ferramenta ENoW, otimizando a experiência do usuário na filtragem de notícias.
Referências
Barbosa, S. D. J., Silva, B. d., Silveira, M. S., Gasparini, I., Darin, T., and Barbosa, G. D. J. (2021). Interação humano-computador e experiência do usuario. Auto publicação.
Bouras, C. and Tsogkas, V. (2012). A clustering technique for news articles using wordnet. Knowledge-Based Systems, 36:115–128.
Chapman, A. D. (2005). Principles and methods of data cleaning. GBIF.
Chawla, N. V. and Karakoulas, G. (2005). Learning from labeled and unlabeled data: An empirical study across techniques and domains. Journal of Artificial Intelligence Research, 23:331–366.
Lan, F. (2022). Research on text similarity measurement hybrid algorithm with term semantic information and tf-idf method. Advances in Multimedia, 2022(1):7923262.
Madhulatha, T. S. (2012). An overview on clustering methods. arXiv preprint arXiv:1205.1117.
Park, K., Hong, J. S., and Kim, W. (2020). A methodology combining cosine similarity with classifier for text classification. Applied Artificial Intelligence, 34(5):396–411.
Reips, L. (2023). Enow - um extrator de notícias da web. Dissertação de mestrado, Universidade Federal do Paraná, Curitiba, Brasil. Orientadora: Carmem Satie Hara.
Reips, L. and Hara, C. (2022). Integração e rotulação automatizada de dados sobre o cnidário physalia physalis, usando a geolocalização como referência. In Anais Estendidos do XXXVII Simpósio Brasileiro de Bancos de Dados, pages 105–111, Porto Alegre, RS, Brasil. SBC.
Reips, L., Musicante, M., Vargas-Solar, G., Pozo, A. T., and Hara, C. S. (2023). Enow-extrator de dados de notícias da web. In Anais Estendidos do XXXVIII Simpósio Brasileiro de Bancos de Dados, pages 78–83. SBC.
Xu, R. and Wunsch, D. (2005). Survey of clustering algorithms. IEEE Transactions on neural networks, 16(3):645–678.
Zhou, Z., Qin, J., Xiang, X., Tan, Y., Liu, Q., and Xiong, N. N. (2020). News text topic clustering optimized method based on tf-idf algorithm on spark. Computers, Materials & Continua, 62(1).
