Análise de Sentimento em Redes Sociais para a Língua Portuguesa Utilizando Algoritmos de Classificação
Resumo
A Análise de Sentimento em redes sociais vem sendo explorada em diferentes tipos de pesquisas, tendo como principal intuito extrair opiniões dos usuários sobre os mais diversos assuntos, possibilitando que informações significativas sejam obtidas. No Brasil, as pesquisas sobre Análise de Sentimento ainda estão se estabelecendo. Com base nesse contexto, este trabalho propõe um método para estimar sentimentos em redes sociais para a língua portuguesa, tendo como foco o Twitter. Para tal, é utilizado um Comitê, que é implementado por meio de um conjunto de algoritmos de aprendizagem de máquina para classificação. A avaliação do método proposto foi realizada utilizando testes estatísticos e de desempenho. Os resultados obtidos indicam que o Comitê teve melhor acurácia se comparado a outros algoritmos de aprendizagem de máquina para os testes de desempenho. Contudo, não foi comprovada diferença estatística entre o Comitê e alguns dos algoritmos, o que pode indicar que estes métodos podem alcançar acurácia equivalente ao Comitê em algumas situações específicas, como por exemplo, uma base de dados maior.
Referências
Benavoli, A., Corani, G., and Mangili, F. (2016). Should we really use post-hoc tests based on mean-ranks. Journal of Machine Learning Research, 17(5):1–10.
Bergstra, J. S., Bardenet, R., Bengio, Y., and Kégl, B. (2011). Algorithms for hyperparameter optimization. In Advances in Neural Information Processing Systems, pages 2546–2554.
Bespalov, D., Bai, B., Qi, Y., and Shokoufandeh, A. (2011). Sentiment classication based on supervised latent n-gram analysis. In Proceedings of the 20th ACM international conference on Information and knowledge management CIKM ’11, page 375, New York, New York, USA. ACM Press.
da Silva, N. F. F. (2016). Análise de sentimentos em textos curtos provenientes de redes sociais. PhD thesis, Universidade de São Paulo.
Demsar, J. (2006). Statistical comparisons of classiers over multiple data sets. J. Mach. Learn. Res., 7:1–30.
Ding, X., Liu, B., and Zhang, L. (2009). Entity discovery and assignment for opinion mining applications. In Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’09, pages 1125–1134, New York, NY, USA. ACM.
dos Santos, T. M. (2013). Avaliação do desempenho de modelos preditivos no contexto de análise de sobrevivência.
Faceli, K., Lorena, A. C., Gama, J., and Carvalho, A. (2011). Inteligência articial: Uma abordagem de aprendizado de máquina. Livros Técnicos e Cientícos.
Farias, V. A. E. d. (2016). Uma abordagem para a modelagem de desempenho e de elasticidade para bancos de dados em nuvem.
França, T. C., de Faria, F. F., Rangel, F. M., de Farias, C. M., and Oliveira, J. (2014). Big social data: Princípios sobre coleta, tratamento e análise de dados sociais. XXIX Simpósio Brasileiro de Banco de Dados–SBBD, 14.
Friedman, M. (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of the american statistical association, 32(200):675– 701.
Gonçalves, P., Dores, W., Benevenuto, F., and Preto-MG-Brasil, O. (2012). Panas-t: Uma escala psicométrica para mediç ao de sentimentos no twitter.
Grandin, P. and Adan, J. M. (2016). Piegas: A systems for sentiment analysis of tweets in portuguese. IEEE Latin America Transactions, 14(7):3467–3473.
Malhotra, R. (2015). Empirical Research in Software Engineering: Concepts, Analysis, and Applications. Chapman & Hall/CRC.
Mesquita Lopes, M., Branco, V. T. F. C., and Soares, J. B. (2013). Utilização dos testes estatísticos de kolmogorov-smirnov e shapiro-wilk para vericação da normalidade para materiais de pavimentação. Transportes, 21(1):59–66.
Oliveira, G. M. G. and Prati, R. C. (2013). Ajuste de parâmetros em algoritmos de aprendizado de máquina utilizando transferência de aprendizado. X Encontro Nacional de Inteligência Articial e Computacional (ENIAC), page 3.
Prati, R., Batista, A., and Monard, M. (2008). Curvas ROC para avaliação de classicadores.
Rios, R. A., S., L. C., Pagliosa, P. A., and Mello, R. F. (2017). Analyzing the public opinion on the brazilian political and corruption issues. In 6th Brazilian Conference on Intelligent Systems, BRACIS 2017.
Rosa, R. L. (2015). Análise de sentimentos e afetividade de textos extraídos das redes sociais. PhD thesis, Universidade de São Paulo.
Rossi, A. L. D. (2009). Ajuste de parâmetros de técnicas de classicação por algoritmos bioinspirados. PhD thesis, Universidade de São Paulo.
Silva, N. F. F. d. (2016). Análise de sentimentos em textos curtos provenientes de redes sociais. PhD thesis, Universidade de São Paulo.
Souza, E., Alves, T., Teles, I., Oliveira, A. L. I., and Gusmão, C. (2016a). TOPIE: An Open-Source Opinion Mining Pipeline to Analyze Consumers’ Sentiment in Brazilian Portuguese, pages 95–105. Springer International Publishing, Cham.
Souza, E., Castro, D., Vitório, D., Teles, I., Oliveira, A. L. I., and Gusmão, C. (2016b). Characterizing User-Generated Text Content Mining: A Systematic Mapping Study of the Portuguese Language, pages 1015–1024. Springer International Publishing, Cham.
Souza, E., Vitório, D., Castro, D., Oliveira, A. L. I., and Gusmão, C. (2016c). Characterizing Opinion Mining: A Systematic Mapping Study of the Portuguese Language, pages 122–127. Springer International Publishing, Cham.
Tavares, L. G., Lopes, H. S., and Lima, C. R. E. (2007). Estudo comparativo de métodos de aprendizado de máquina na detecção de regiões promotoras de genes de escherichia coli. Anais do I Simpósio Brasileiro de Inteligência Computacional, pages 8–11.
Torman, V. B. L., Coster, R., and Riboldi, J. (2012). Normalidade de variáveis: métodos de vericação e comparação de alguns testes não-paramétricos por simulação. Clinical & Biomedical Research, 32(2).