ENoW - Extrator de Dados de Notícias da Web

  • Lisiane Reips Universidade Federal do Paraná
  • Martin Musicante Universidade Federal do Rio Grande do Norte
  • Genoveva Vargas-Solar CNRS / Univ Lyon / INSA Lyon / UCBL /LIRIS
  • Aurora T. R. Pozo Universidade Federal do Paraná
  • Carmem S. Hara Universidade Federal do Paraná

Resumo


Os dados disponíveis na Web desempenham um papel determinante nas tomadas de decisão, sejam elas pessoais ou corporativas. A coleta e armazenamento destes dados de forma estruturada permite que eles sejam integrados com outras fontes e utilizados em diversas aplicações, tais como detecção de eventos e monitoramento de sentimentos. Os jornais online são importantes fontes de informação, que são acessados diariamente por milhares de pessoas. Para facilitar a exploração destes dados, este artigo apresenta o ENoW - Extrator de Dados de Notícias da Web. O ENoW aceita como entrada strings de busca e armazena em uma base de dados relacional dados extraídos das notícias, bem como o texto da notícia em sua íntegra. O sistema foi implementado na linguagem Python, utilizando técnicas de Web Scraping. A demonstração apresenta as três principais funcionalidades da ferramenta: cadastro de jornais, cadastro de projetos e coleta de notícias.
Palavras-chave: Sensores, Web Scraping, Extração de Notícias

Referências

Bansal, A., Chaudhury, S., Roy, S. D., and Srivastava, J. (2014). Newspaper article extraction using hierarchical fixed point model. In 2014 11th IAPR International Workshop on Document Analysis Systems, pages 257–261. IEEE.

Franceschini, R., Rosi, A., Catani, F., and Casagli, N. (2022). Exploring a landslide inventory created by automated web data mining: the case of italy. Landslides, 19(4).

Johnson, J. A. (2014). From open data to information justice. Ethics and Information Technology, 16:263–274.

Krotov, V., Johnson, L., and Silva, L. (2020). Tutorial: Legality and ethics of web scraping. Communications of the Association for Information Systems.

Park, E., Park, J., and Hu, M. (2021). Tourism demand forecasting with online news data mining. Annals of Tourism Research, 90:103273.

Salem, H. and Mazzara, M. (2020). Pattern matching-based scraping of news websites. In Journal of Physics: Conference Series, page 012011. IOP Publishing.

Sarr, E. N., Ousmane, S., and Diallo, A. (2018). Factextract: automatic collection and aggregation of articles and journalistic factual claims from online newspaper. In 2018 Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pages 336–341. IEEE.
Publicado
25/09/2023
REIPS, Lisiane; MUSICANTE, Martin; VARGAS-SOLAR, Genoveva; POZO, Aurora T. R.; HARA, Carmem S.. ENoW - Extrator de Dados de Notícias da Web. In: DEMONSTRAÇÕES E APLICAÇÕES - SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 38. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 78-83. DOI: https://doi.org/10.5753/sbbd_estendido.2023.232480.