Uma abordagem computacional de análise de opinião para identificação de preconceito em redações
Resumo
Com a grande adoção da nota ENEM como instrumento para avaliar estudantes no ingresso do ensino superior, o número de pessoas que passou a fazer essa prova aumentou significativamente. Dentre as etapas da prova existe uma redação que avalia, entre outras coisas, se o estudante fez o seu texto respeitando os direitos humanos. Diante disto, este trabalho propõe a análise de diferentes algoritmos para identificação de frases preconceituosas em redações. Para isso, foi utilizada uma abordagem híbrida combinando técnicas de aprendizagem de máquina e dicionários léxicos. Foram realizados diversos experimentos, no melhor caso a proposta atingiu uma f-measure de 82,10%. Por fim, foi realizado um estudo qualitativo onde avaliadores de redação indicaram que a adoção da ferramenta proposta auxiliaria na correção de redações.
Palavras-chave:
ENEM, redações, preconceito, aprendizagem de máquina, dicionários léxicos
Referências
Agarwal, S. and Sureka, A. (2016). But i did not mean it! - intent classification of racist posts on tumblr. In Intelligence and Security Informatics, pages 124-127. IEEE.
Aggarwal, C.C. and Zhai, C. (2012). Mining text data. Springer Science & Business Media.
Arlot, S., Celisse, A., et al. (2010). A survey of cross-validation procedures for model selection. Statistics surveys, 4:40-79.
Baeza-Yates, R. and Ribeiro-Neto, B. (2013). Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. Bookman Editora.
Bermingham, A., Conway, M., McInerney, L., O'Hare, N., and Smeaton, A.F. (2009). Combining social network analysis and sentiment analysis to explore the potential for online radicalisation. In Social Network Analysis and Mining, 2009. ASONAM'09. International Conference on Advances in, pages 231-236. IEEE.
Berry, M.W. and Castellanos, M. (2008). Survey of text mining II, volume 6. Springer.
Coutinho, E., Moreira, L., Paillard, G., and de Lima, E.T. (2016). Análise do sentimento de mensagens de chat em uma turma de graduação de um curso de educação a distância. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação, volume 5, page 1019.
Dosciatti, M.M., Ferreira, L.P.C., and Paraiso, E.C. (2013). Identificando emoções em textos em português do Brasil usando máquina de vetores de suporte em solução multiclasse. ENIAC - Encontro Nacional de Inteligência Artificial e Computacional. Fortaleza, Brasil.
Gitari, N.D., Zuping, Z., Damien, H., and Long, J. (2015). A lexicon-based approach for hate speech detection. International Journal of Multimedia and Ubiquitous Engineering, 10(4):215-230.
Greevy, E. and Smeaton, A.F. (2004). Classifying racist texts using a support vector machine. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, pages 468-469. ACM.
Guia, A.R. (2012). Guia do participante. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Brasília.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I.H. (2009). The weka data mining software: an update. ACM SIGKDD explorations newsletter, 11(1):10-18.
INEP (2017). Inep - Instituto Nacional de Estudos e Pesquisas Educacionais - ENEM. Disponível em: [link]. Acesso em: 12 Julho 2017.
Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language technologies, 5(1):1-167.
Martin, J.H. and Jurafsky, D. (2000). Speech and language processing. International Edition, 710:25.
Nascimento, P.C. (2014). DICIONÁRIO DE POLARIDADES PARA APOIO À ANÁLISE DE SENTIMENTO. PhD thesis, Universidade Federal do Rio de Janeiro.
Nassif, L.F.d.C. (2012). Técnicas de agrupamento de textos aplicadas à computação forense.
Panceri, S. and de Menezes, C. (2015). Apoio à mediação pedagógica em um debate de teses utilizando técnicas de processamento de texto. In Simpósio Brasileiro de Informática na Educação, volume 26, page 977.
Pasqualotti, P.R. (2008). Reconhecimento de expressões de emoções na interação mediada por computador.
Pinheiro, R.H., Cavalcanti, G.D., and Ren, T.I. (2015). Data-driven global-ranking local feature selection methods for text categorization. Expert Systems with Applications, 42(4):1941-1949.
Rezende, S.O., Marcacini, R.M., and Moura, M.F. (2011). O uso da mineração de textos para extração e organização não supervisionada de conhecimento. Revista de Sistemas de Informação da FSMA, 7:7-21.
Tan, S. (2005). Neighbor-weighted k-nearest neighbor for unbalanced text corpus. Expert Systems with Applications, 28(4):667-671.
Tulkens, S., Hilte, L., Lodewyckx, E., Verhoeven, B., and Daelemans, W. (2015). The automated detection of racist discourse in dutch social media. Mirror.
Vapnik, V. (2013). The nature of statistical learning theory. Springer science & business media.
Aggarwal, C.C. and Zhai, C. (2012). Mining text data. Springer Science & Business Media.
Arlot, S., Celisse, A., et al. (2010). A survey of cross-validation procedures for model selection. Statistics surveys, 4:40-79.
Baeza-Yates, R. and Ribeiro-Neto, B. (2013). Recuperação de Informação: Conceitos e Tecnologia das Máquinas de Busca. Bookman Editora.
Bermingham, A., Conway, M., McInerney, L., O'Hare, N., and Smeaton, A.F. (2009). Combining social network analysis and sentiment analysis to explore the potential for online radicalisation. In Social Network Analysis and Mining, 2009. ASONAM'09. International Conference on Advances in, pages 231-236. IEEE.
Berry, M.W. and Castellanos, M. (2008). Survey of text mining II, volume 6. Springer.
Coutinho, E., Moreira, L., Paillard, G., and de Lima, E.T. (2016). Análise do sentimento de mensagens de chat em uma turma de graduação de um curso de educação a distância. In Anais dos Workshops do Congresso Brasileiro de Informática na Educação, volume 5, page 1019.
Dosciatti, M.M., Ferreira, L.P.C., and Paraiso, E.C. (2013). Identificando emoções em textos em português do Brasil usando máquina de vetores de suporte em solução multiclasse. ENIAC - Encontro Nacional de Inteligência Artificial e Computacional. Fortaleza, Brasil.
Gitari, N.D., Zuping, Z., Damien, H., and Long, J. (2015). A lexicon-based approach for hate speech detection. International Journal of Multimedia and Ubiquitous Engineering, 10(4):215-230.
Greevy, E. and Smeaton, A.F. (2004). Classifying racist texts using a support vector machine. In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval, pages 468-469. ACM.
Guia, A.R. (2012). Guia do participante. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Brasília.
Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I.H. (2009). The weka data mining software: an update. ACM SIGKDD explorations newsletter, 11(1):10-18.
INEP (2017). Inep - Instituto Nacional de Estudos e Pesquisas Educacionais - ENEM. Disponível em: [link]. Acesso em: 12 Julho 2017.
Liu, B. (2012). Sentiment analysis and opinion mining. Synthesis lectures on human language technologies, 5(1):1-167.
Martin, J.H. and Jurafsky, D. (2000). Speech and language processing. International Edition, 710:25.
Nascimento, P.C. (2014). DICIONÁRIO DE POLARIDADES PARA APOIO À ANÁLISE DE SENTIMENTO. PhD thesis, Universidade Federal do Rio de Janeiro.
Nassif, L.F.d.C. (2012). Técnicas de agrupamento de textos aplicadas à computação forense.
Panceri, S. and de Menezes, C. (2015). Apoio à mediação pedagógica em um debate de teses utilizando técnicas de processamento de texto. In Simpósio Brasileiro de Informática na Educação, volume 26, page 977.
Pasqualotti, P.R. (2008). Reconhecimento de expressões de emoções na interação mediada por computador.
Pinheiro, R.H., Cavalcanti, G.D., and Ren, T.I. (2015). Data-driven global-ranking local feature selection methods for text categorization. Expert Systems with Applications, 42(4):1941-1949.
Rezende, S.O., Marcacini, R.M., and Moura, M.F. (2011). O uso da mineração de textos para extração e organização não supervisionada de conhecimento. Revista de Sistemas de Informação da FSMA, 7:7-21.
Tan, S. (2005). Neighbor-weighted k-nearest neighbor for unbalanced text corpus. Expert Systems with Applications, 28(4):667-671.
Tulkens, S., Hilte, L., Lodewyckx, E., Verhoeven, B., and Daelemans, W. (2015). The automated detection of racist discourse in dutch social media. Mirror.
Vapnik, V. (2013). The nature of statistical learning theory. Springer science & business media.
Publicado
30/10/2017
Como Citar
DA S. NETO, Sebastião Rogério; PINHEIRO, Anderson; COSTA, Evandro de B.; FERREIRA, Rafael; FERREIRA, Máverick A. D..
Uma abordagem computacional de análise de opinião para identificação de preconceito em redações. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 28. , 2017, Recife/PE.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2017
.
p. 1187-1196.
DOI: https://doi.org/10.5753/cbie.sbie.2017.1187.
