ENoW - Extrator de Dados de Notícias da Web

Lisiane Reips; Martin Musicante; Genoveva Vargas-Solar; Aurora T. R. Pozo; Carmem S. Hara

doi:10.5753/sbbd_estendido.2023.232480

Lisiane Reips Universidade Federal do Paraná
Martin Musicante Universidade Federal do Rio Grande do Norte
Genoveva Vargas-Solar CNRS / Univ Lyon / INSA Lyon / UCBL /LIRIS
Aurora T. R. Pozo Universidade Federal do Paraná
Carmem S. Hara Universidade Federal do Paraná

DOI: https://doi.org/10.5753/sbbd_estendido.2023.232480

Resumo

Os dados disponíveis na Web desempenham um papel determinante nas tomadas de decisão, sejam elas pessoais ou corporativas. A coleta e armazenamento destes dados de forma estruturada permite que eles sejam integrados com outras fontes e utilizados em diversas aplicações, tais como detecção de eventos e monitoramento de sentimentos. Os jornais online são importantes fontes de informação, que são acessados diariamente por milhares de pessoas. Para facilitar a exploração destes dados, este artigo apresenta o ENoW - Extrator de Dados de Notícias da Web. O ENoW aceita como entrada strings de busca e armazena em uma base de dados relacional dados extraídos das notícias, bem como o texto da notícia em sua íntegra. O sistema foi implementado na linguagem Python, utilizando técnicas de Web Scraping. A demonstração apresenta as três principais funcionalidades da ferramenta: cadastro de jornais, cadastro de projetos e coleta de notícias.

Palavras-chave: Sensores, Web Scraping, Extração de Notícias

Referências

Bansal, A., Chaudhury, S., Roy, S. D., and Srivastava, J. (2014). Newspaper article extraction using hierarchical fixed point model. In 2014 11th IAPR International Workshop on Document Analysis Systems, pages 257–261. IEEE.

Franceschini, R., Rosi, A., Catani, F., and Casagli, N. (2022). Exploring a landslide inventory created by automated web data mining: the case of italy. Landslides, 19(4).

Johnson, J. A. (2014). From open data to information justice. Ethics and Information Technology, 16:263–274.

Krotov, V., Johnson, L., and Silva, L. (2020). Tutorial: Legality and ethics of web scraping. Communications of the Association for Information Systems.

Park, E., Park, J., and Hu, M. (2021). Tourism demand forecasting with online news data mining. Annals of Tourism Research, 90:103273.

Salem, H. and Mazzara, M. (2020). Pattern matching-based scraping of news websites. In Journal of Physics: Conference Series, page 012011. IOP Publishing.

Sarr, E. N., Ousmane, S., and Diallo, A. (2018). Factextract: automatic collection and aggregation of articles and journalistic factual claims from online newspaper. In 2018 Fifth International Conference on Social Networks Analysis, Management and Security (SNAMS), pages 336–341. IEEE.