Classificação ou Regressão? Avaliando Coesão Textual em Redações no contexto do ENEM

  • Hilário Oliveira IFES
  • Rafael Ferreira Mello UFRPE / UFAL
  • Péricles Miranda UFRPE
  • Bruno Alexandre CESAR School
  • Thiago Cordeiro UFAL
  • Ig Ibert Bittencourt UFAL / Harvard Graduate School of Education
  • Seiji Isotani USP / Harvard Graduate School of Education

Resumo


A produção textual de redações é uma etapa importante no processo de ensino-aprendizagem, pois permite aos alunos expressarem suas ideias. A coesão textual é um critério fundamental nesse contexto. Apesar do interesse em abordagens automatizadas para avaliação de redações, ainda existem poucos estudos que focam na coesão textual em redações escritas em português do Brasil. Este trabalho investiga três abordagens de aprendizado de máquina, comparando o uso de classificação e regressão, para estimar notas relacionadas à coesão de redações no contexto do ENEM. As abordagens investigadas utilizam a medida TF-IDF, representações contextuais multidimensionais e o uso de modelos baseados no BERT. Experimentos foram realizados usando 6.563 redações do corpus Essay-BR estendido. O modelo BERTimbau base para classificação obteve o melhor desempenho, com uma correlação moderada de Pearson e um nível razoável de concordância, com base no coeficiente linear de Kappa, em relação às notas dos avaliadores humanos.

Referências

Antunes, I. (2005). Lutar com palavras: coesão e coerência. Parábola Editorial, São Paulo.

Camelo, R., Justino, S., and Mello, R. (2020). Coh-metrix pt-br: Uma api web de análise textual para a educação. In Anais dos Workshops do IX Congresso Brasileiro de Informática na Educação, pages 179–186, Porto Alegre, RS, Brasil. SBC.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20:37 – 46.

Costa, L., Oliveira, E., and Júnior, A. C. (2020). Corretor automático de redações em língua portuguesa: um mapeamento sistemático de literatura. In Anais do XXXI Simpósio Brasileiro de Informática na Educação, pages 1403–1412, Porto Alegre, RS, Brasil. SBC.

Crossley, S. A. (2020). Linguistic features in writing quality and development: An overview. Journal of Writing Research, 11(3):415–443.

Crossley, S. A., Kyle, K., and McNamara, D. S. (2016). The tool for the automatic analysis of text cohesion (taaco): Automatic assessment of local, global, and text cohesion. Behavior research methods, 48(4):1227–1237.

de Lima, T. B., da Silva, I. L. A., Freitas, E. L. S. X., and Mello, R. F. (2023). Avaliação automática de redação: Uma revisão sistemática. Revista Brasileira de Informática na Educação, 31:205–221.

Ferreira-Mello, R., André, M., Pinheiro, A., Costa, E., and Romero, C. (2019). Text mining in education. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 9(6):e1332.

Graesser, A. C., McNamara, D. S., Louwerse, M. M., and Cai, Z. (2004). Coh-metrix: Analysis of text on cohesion and language. Behavior research methods, instruments, & computers, 36(2):193–202.

Johan Berggren, S., Rama, T., and Øvrelid, L. (2019). Regression or classification? automated essay scoring for Norwegian. In Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications, pages 92–102, Florence, Italy. Association for Computational Linguistics.

Ke, Z. and Ng, V. (2019). Automated essay scoring: A survey of the state of the art. In IJCAI, volume 19, pages 6300–6308.

King, G. and Zeng, L. (2001). Logistic regression in rare events data. Political analysis, 9(2):137–163.

Klein, R. and Fontanive, N. (2009). Uma nova maneira de avaliar as competências escritoras na redação do enem. Ensaio: Avaliação e Políticas Públicas em Educação, 17(65):585–598.

Landis, J. R. and Koch, G. G. (1977). The measurement of observer agreement for categorical data. biometrics, pages 159–174.

Li, Q., Peng, H., Li, J., Xia, C., Yang, R., Sun, L., Yu, P. S., and He, L. (2022). A survey on text classification: From traditional to deep learning. ACM Trans. Intell. Syst. Technol., 13(2).

Lima, F., Haendchen Filho, A., Prado, H., and Ferneda, E. (2018). Automatic evaluation of textual cohesion in essays. In 19th International Conference on Computational Linguistics and Intelligent Text Processing.

Marinho, J., Anchiêta, R., and Moura, R. (2021). Essay-br: a brazilian corpus of essays. In Anais do III Dataset Showcase Workshop, pages 53–64, Online. Sociedade Brasileira de Computação.

Marinho, J. C., Anchiêta, R. T., and Moura, R. S. (2022a). Essay-br: a brazilian corpus to automatic essay scoring task. Journal of Information and Data Management, 13(1).

Marinho, J. C., Cordeiro, F., Anchiêta, R. T., and Moura, R. S. (2022b). Automated essay scoring: An approach based on enem competencies. In Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional, pages 49–60. SBC.

Mathias, S. and Bhattacharyya, P. (2018). Asap++: Enriching the asap automated essay grading dataset with essay attribute scores. In Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), pages 1169–1173.

McNamara, D. S., Crossley, S. A., and Roscoe, R. (2013). Natural language processing in an intelligent writing strategy tutoring system. Behavior research methods, 45(2):499–515.

Oliveira, H., Ferreira Mello, R., Barreiros Rosa, B. A., Rakovic, M., Miranda, P., Cordeiro, T., Isotani, S., Bittencourt, I., and Gasevic, D. (2023). Towards explainable prediction of essay cohesion in portuguese and english. In LAK23: 13th International Learning Analytics and Knowledge Conference, pages 509–519.

Oliveira, H., Miranda, P., Isotani, S., Santos, J., Cordeiro, T., Bittencourt, I. I., and Mello, R. F. (2022). Estimando coesão textual em redações no contexto do enem utilizando modelos de aprendizado de máquina. In Anais do XXXIII Simpósio Brasileiro de Informática na Educação, pages 883–894. SBC.

Ramesh, D. and Sanampudi, S. K. (2022). An automated essay scoring systems: a systematic literature review. Artificial Intelligence Review, 55(3):2495–2527.

Ratner, B. (2009). The correlation coefficient: Its values range between+ 1/1, or do they? Journal of targeting, measurement and analysis for marketing, 17(2):139–142.

Reimers, N. and Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3982–3992, Hong Kong, China. Association for Computational Linguistics.

Souza, F., Nogueira, R., and Lotufo, R. (2020). Bertimbau: Pretrained bert models for brazilian portuguese. In Cerri, R. and Prati, R. C., editors, Intelligent Systems, pages 403–417, Cham. Springer International Publishing.
Publicado
06/11/2023
OLIVEIRA, Hilário; MELLO, Rafael Ferreira; MIRANDA, Péricles; ALEXANDRE, Bruno; CORDEIRO, Thiago; BITTENCOURT, Ig Ibert; ISOTANI, Seiji. Classificação ou Regressão? Avaliando Coesão Textual em Redações no contexto do ENEM. In: SIMPÓSIO BRASILEIRO DE INFORMÁTICA NA EDUCAÇÃO (SBIE), 34. , 2023, Passo Fundo/RS. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 1226-1237. DOI: https://doi.org/10.5753/sbie.2023.234516.