Ontologia aplicada à redução de ruído em base de dados de tweets sobre mercado financeiro

  • Wendel Marques de Jesus Souza Universidade Federal de Goiás
  • Deborah Silva Alves Fernandes Universidade Federal de Goiás
  • Márcio Giovane Cunha Fernandes Universidade Estadual de Goiás

Resumo


Big data é um conceito que trata sobre a manipulação e a análise de grandes volumes de dados de variedade diversa. A rede social Twitter é uma fonte de dados com tais características, responsável por gerar milhões de tweets por dia. Os mecanismos que permitem a extração dessas postagens resultam em bases de dados heterogêneas, isto é, compostas não apenas por textos sobre o tema de interesse, mas também sobre tópicos indesejados, o que prejudica o uso dessas bases de dados à tomada de decisão. Nesse contexto, o artigo propõe o desenvolvimento de uma ontologia de domínio para a redução de ruídos em base de dados de tweets para o mercado financeiro brasileiro. A ontologia desenvolvida deve ser capaz de identificar tweets, escritos em língua portuguesa, relacionados à Bolsa de Valores do Brasil e descartar publicações da rede social que não pertencem a esse domínio (ruídos). Devido à natureza informal dos textos da rede social, foram utilizadas técnicas tradicionais de pré-processamento textual. A ontologia foi criada com o auxílio de um roteiro que une as metodologias On-to-Knowledge, Methontology e o guia Ontology Development 101. Além disso, para avaliar a performance da filtragem, foi utilizado um algoritmo de classificação simples, a Regressão Logística. A base de dados utilizada neste trabalho é composta por 1.031.419 tweets, que foram publicados entre 01 de janeiro de 2019 e 12 de junho de 2019. Os resultados demonstram que o uso de ontologia para filtragem desses ruídos é promissor, tendo em vista que obteve acurácia de 81,58%.

Referências

Almeida, M. (2007). Roteiro para a construção de uma ontoligia bibliográfica através de ferramenta automatizada. Perspectivas em Ciência da Informação, 8(2).

Almeida, M. and Bax, M. (2003). Uma visão geral sobre ontologias: pesquisa sobre definições, tipos, aplicações, métodos de avaliação e de construção. Ciência da Informação, 32.

Alotaibi, S., Mehmood, R., Katib, I., Rana, O., and Albeshri, A. (2020). Sehaa: A big data analytics tool for healthcare symptoms and diseases detection using twitter, apache spark, and machine learning. Applied Sciences, 10(4).

Alves, D. S. (2015). Uso de técnicas de computação social para tomada de decisão de compra e venda de ações no mercado brasileiro de bolsa de valores.

Alzamil, Z., Appelbaum, D., and Nehmer, R. (2020). An ontological artifact for classifying social media: Text mining analysis for financial data. International Journal of Accounting Information Systems, 38.

Asadifar, S. and Kahani, M. (2017). Semantic association rule mining: A new approach for stock market prediction. pages 106–111.

Bennett, M. (2013). The financial industry business ontology: Best practice for big data. Journal of Banking Regulation, 14.

Chaves, P. H. (2016). Desenvolvimento de ontologia para estruturas organizacionais do governo brasileiro.

Fernandes, D. S. A., Fernandes, M. G. C., Borges, G. A., and Soares, F. A. (2019). Decision-making simulator for buying and selling stock market shares based on twitter indicators and technical analysis. In 2019 IEEE International Conference on Systems, Man and Cybernetics (SMC), pages 2626–2632.

Isotani, S. and Bittencourt, I. I. (2015). Dados Abertos Conectados. Novatec.

Kontopoulos, E., Berberidis, C., Dergiades, T., and Bassiliades, N. (2013). Ontology-based sentiment analysis of twitter posts. Expert Systems with Applications, 40:4065–4074.

Libralon, G., Lorena, A., and de Carvalho, A. (2016). Identificação de ruído em dados de expressão gênica. pages 1–8.

Mellouli, S., Bouslama, F., and Akande, A. (2010). An ontology for representing financial headline news. Journal of Web Semantics, 8:203–208.

Mizoguchi, R. (2004). Tutorial on ontological engineering: Part 3: Advanced course of ontological engineering. New Generation Comput., 22:193–220.

Morais, E. A. M. and Ambrósio, A. P. L. (2007). Ontologias: conceitos, usos, tipos, metodologias, ferramentas e linguagens. Technical report, Universidade Federal de Goiás.

Mujilahwati, S. (2016). Pre-processing text mining pada data twitter.

Murthy, D. (2016). The ontology of tweets: Mixed-method approaches to the study of twitter.

Novitsky, A. (2020). A little birdy told me: Analysis of the impact of public tweet sentiment on stock prices.

Polizel, F. R. (2016). Ontobacen: Uma ontologia para gestão de riscos do sistema financeiro brasileiro.

Qu, H., Sardelich, M., Qomariyah, N., and Kazakov, D. (2016). Integrating time series with social media data in an ontology for the modelling of extreme financial events.

Rautenberg, S., Todesco, J. L., Steil, A., and Gauthier, F. (2010). Uma metodologia para o desenvolvimento de ontologias. 10.

Salas-Zárate, M. D. P., Valencia-García, R., Ruiz-Martínez, A., and Colomo-Palacios, R.(2017). Feature-based opinion mining in financial news: An ontology-driven approach. Journal of Information Science, 43:458–479.

Singh, T. and Kumari, M. (2016). Role of text pre-processing in twitter sentiment analysis. volume 89, pages 549–554. Elsevier B.V.

Souza Júnior, M. B. d. (2015). Análise de tipos de ontologias nas áreas de ciência da informação e ciência da computação. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, 20(43).

Sowinska, K. and Madhyastha, P. (2020). A tweet-based dataset for company-level stock return prediction.

Symeonidis, S., Effrosynidis, D., and Arampatzis, A. (2018). A comparative evaluation of preprocessing techniques and their interactions for twitter sentiment analysis. Expert Systems with Applications, 110:298–310.

Wang, S., Xu, K., Liu, L., Fang, B., Liao, S., and Wang, H. (2011). An ontology based framework for mining dependence relationships between news and financial instruments. Expert Systems with Applications, 38:12044–12050.
Publicado
25/10/2021
SOUZA, Wendel Marques de Jesus; FERNANDES, Deborah Silva Alves; FERNANDES, Márcio Giovane Cunha. Ontologia aplicada à redução de ruído em base de dados de tweets sobre mercado financeiro. In: ESCOLA REGIONAL DE INFORMÁTICA DE GOIÁS (ERI-GO), 9. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 26-39. DOI: https://doi.org/10.5753/erigo.2021.18431.