Projeto de um Sistema Web a Classificação de Fake News

Roger Oliveira Monteiro; Rodrigo Ramos Nogueira

doi:10.5753/latinoware.2019.10343

Roger Oliveira Monteiro UNIASSELVI
Rodrigo Ramos Nogueira UC

DOI: https://doi.org/10.5753/latinoware.2019.10343

Resumo

A internet soma mais de 2 bilhões de sites publicados, sendo a principal fonte de informação deste século. No entanto, cada vez mais sites implicam em diversos veículos que não produzem notícias verdadeiras, mas sim falsas, as ditas fakes news. Tendo em vista realizar a classificação automática de fake news este artigo apresenta um sistema que realiza a coleta e classificação de notícias. Para isto, utiliza métodos de aprendizado de máquina para descobrir, classificar e armazenar textos de notícias falsas para posterior aplicação a etapa ETL de um Data Warehouse e um ambiente de consulta que contribuirá com pesquisas futuras. Para isso, foi criado um dataset e os métodos Regressão Logística, Naive Bayes e SVM foram avaliados. Por fim, o melhor algoritmo foi acoplado a um sistema web que realiza a classificação de fake news baseado em aprendizado automático.

Palavras-chave: Fake News, Machine Learning, Data Warehouse

Referências

DELMAZO, Caroline; VALENTE, Jonas CL. Fake news nas redes sociais online: propagação e reações à desinformação em busca de cliques. Media & Jornalismo, v. 18, n. 32, p. 155-169, 2018.

FENG, Xiaoyue; LIANG, Yanchun; SHI, Xiaohu; XU, Dong; WANG, Xu; GUAN, Renchu. “Overfitting Reduction of Text Classification Based on AdaBELM”, 2017

GRUPPI, Maurício; HORNE, Benjamin D.; ADALI, Sibel. “An Exploration of Unreliable News Classification in Brazil and The U.S.” Rensselaer Polytechnic Institute, Troy, New York, USA.2018.

IDC. Gantz, J., & Reinsel, D. (2012). The digital universe in 2020: Big data, bigger digital shadows, and biggest growth in the far east. IDC iView: IDC Analyze the future, 2007(2012), 1-16.

Logistic Regression: Statnotes, from North Carolina State University, Public Administration Program. Acesso em 31 de maio de 2019.

MANSMANN, Svetlana; REHMAN, Nafees Ur; WEILER, Andreas; SCHOLL, Marc H. “Discovering OLAP dimensions in semi-structured data.” Information Systems, v. 44, p. 120-133, 2014.Writer’s Handbook. Mill Valley, CA: University Science, 1989.

MARON, M. E. (1961). "Automatic Indexing: An Experimental Inquiry" (PDF). Journal of the ACM. 8 (3): 404–417.

MARUMO, Fabiano Shiiti. “Deep Learning para classificação de Fake News por sumarização de texto.” - Londrina, 2018.

MONTEIRO, Rafael A.; SANTOS, Roney L. S.; PARDO, Thiago A. S.; ALMEIDA, Tiago A. de; RUIZ, Evandro E. S.; VALE, Oto A.. “Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results.” In: International Conference on Computational Processing of the Portuguese Language. Springer, Cham, 2018. p. 324-334.

NARASIMHA Murty, M.; SUSHEELA Devi, V. (2011). Pattern Recognition: An Algorithmic Approach.

NOGUEIRA, Rodrigo Ramos. O Poder do Data Warehouse em Aplicações ed Machine Learning: Newsminer: Um Data Warehouse Baseado em Textos de Notícias. São Paulo: Nea, 2018.

RUSSELL, Stuart; NORVIG, Peter (2003) [1995]. Artificial Intelligence: A Modern Approach (2nd ed.). Prentice Hall.

VAPNIK et al., 1997 e SARADHI et al., 2005).

VON LOCHTER, Johannes et al. Máquinas de classificação para detectar polaridade de mensagens de texto em redes sociais. 2015.