Combinação de Modelos de Aprendizado de Máquina utilizando Teoria de Resposta ao Item para Avaliação de Coesão Textual em Redações no contexto do ENEM

Bruno Alexandre Rosa; Hilário Oliveira; Rafael Ferreira Mello; Eduardo Araujo Oliveira

doi:10.5753/sbie.2024.242747

Bruno Alexandre Rosa Centro de Estudos e Sistemas Avançados do Recife / University of Melbourne http://orcid.org/0000-0002-2472-9280
Hilário Oliveira Instituto Federal do Espírito Santo https://orcid.org/0000-0003-0643-7206
Rafael Ferreira Mello Centro de Estudos e Sistemas Avançados do Recife / Universidade Federal Rural de Pernambuco https://orcid.org/0000-0003-3548-9670
Eduardo Araujo Oliveira University of Melbourne https://orcid.org/0000-0001-5063-8860

DOI: https://doi.org/10.5753/sbie.2024.242747

Resumo

A redação é considerada um mecanismo útil para a avaliação dos resultados da aprendizagem em escrita. A coesão é um aspecto fundamental do texto, visto que auxilia na relação de sentido entre suas diferentes partes. Este estudo teve como objetivo analisar o desempenho da previsão de pontuação de coesão usando a teoria de resposta ao item para ajustar as pontuações geradas pelos modelos de aprendizado de máquina. Para atingir esse objetivo, o corpus selecionado para o experimento é o Essay-BR estendido, que compreende 6.563 redações no estilo do Exame Nacional do Ensino Médio (ENEM). A pesquisa extraiu um total de 325 características linguísticas e tratou o problema como uma tarefa de regressão em aprendizado de máquina. Os resultados indicam que a abordagem proposta supera os modelos e os métodos de combinação convencionais de aprendizado de máquina em várias métricas de avaliação.

Palavras-chave: avaliação automatizada de redação, coesão textual, processamento de linguagem natural, teoria de resposta ao item

Referências

Balage Filho, P., Pardo, T. A. S., and Aluísio, S. (2013). An evaluation of the brazilian portuguese liwc dictionary for sentiment analysis. In Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology.

Camelo, R., Justino, S., and de Mello, R. F. L. (2020). Coh-metrix pt-br: uma api web de análise textual para a educação. In Anais dos Workshops do IX Congresso Brasileiro de Informática na Educação, pages 179–186. SBC.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and psychological measurement, 20(1):37–46.

Cohen, J. (1968). Weighted kappa: nominal scale agreement provision for scaled disagreement or partial credit. Psychological bulletin, 70(4):213.

Crossley, S. A., Kyle, K., and Dascalu, M. (2019). The tool for the automatic analysis of cohesion 2.0: Integrating semantic similarity and text overlap. Behavior research methods, 51(1):14–27.

de Lima, T. B., da Silva, I. L. A., Freitas, E. L. S. X., and Mello, R. F. (2023). Avaliação automática de redação: Uma revisão sistemática. Revista Brasileira de Informática na Educação, 31:205–221.

Embretson, S. E. and Reise, S. P. (2013). Item response theory. Psychology Press.

Ferreira-Junior, M., Reinaldo, J. T., Filho, T. M. S., Neto, E. A. L., and Prudencio, R. B. (2023). β4-irt: A new β3-irt with enhanced discrimination estimation. arXiv e-prints.

Ferreira-Mello, R., André, M., Pinheiro, A., Costa, E., and Romero, C. (2019). Text mining in education. WIREs: Data Mining and Knowledge Discovery, 9(6):e1332.

Ferreira Mello, R., Fiorentino, G., Oliveira, H., Miranda, P., Rakovic, M., and Gašević, D. (2022). Towards automated content analysis of rhetorical structure of written essays using sequential content-independent features in portuguese. In LAK22: 12th International Learning Analytics and Knowledge Conference, pages 404–414.

Graham, S. (2019). Changing how writing is taught. Review of Research in Education, 43(1):277–303.

Grama, D. F. (2022). Elementos coesivos do português brasileiro em córpus de redações nos moldes do Enem: um estudo para a elaboração da CoTex. PhD thesis.

Halliday, M. A. and Hasan, R. (1976). Cohesion in english. Longman.

Klebanov, B. B. and Madnani, N. (2022). Automated Essay Scoring. Springer Nature.

Klein, R. and Fontanive, N. (2009). Uma nova maneira de avaliar as competências escritoras na redação do enem. Ensaio: Avaliação e Políticas Públicas em Educação, 17(65):585–598.

Koch, I. G. V. (2010). A coesão textual, volume 22. São Paulo Contexto.

Landis, J. R. and Koch, G. G. (1977). The measurement of observer agreement for categorical data. biometrics, pages 159–174.

Leal, S., Duran, M., Scarton, C., Hartmann, N., and Aluísio, S. (2021). Nilc-metrix: assessing the complexity of written and spoken language in brazilian portuguese.

Lima, F., Haendchen Filho, A., Prado, H., and Ferneda, E. (2018). Automatic evaluation of textual cohesion in essays. In 19th International Conference on Computational Linguistics and Intelligent Text Processing.

Marinho, J., Anchiêta, R., and Moura, R. (2022a). Essay-br: a brazilian corpus to automatic essay scoring task. Journal of Information and Data Management, 13(1).

Marinho, J. C., Cordeiro, F., Anchiêta, R. T., and Moura, R. S. (2022b). Automated essay scoring: An approach based on enem competencies. In Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional, pages 49–60. SBC.

Moraes, J. V., Reinaldo, J. T., Ferreira-Junior, M., Silva Filho, T., and Prudêncio, R. B. (2022). Evaluating regression algorithms at the instance level using item response theory. Knowledge-Based Systems, 240:108076.

Oliveira, H., Ferreira Mello, R., Barreiros Rosa, B. A., Rakovic, M., Miranda, P., Cordeiro, T., Isotani, S., Bittencourt, I., and Gašević, D. (2023a). Towards explainable prediction of essay cohesion in portuguese and english. In LAK23: 13th International Learning Analytics and Knowledge Conference, pages 509–519.

Oliveira, H., Mello, R. F., Miranda, P., Alexandre, B., Cordeiro, T., Bittencourt, I. I., and Isotani, S. (2023b). Classificação ou regressão? avaliando coesão textual em redações no contexto do enem. In Anais do XXXIV Simpósio Brasileiro de Informática na Educação, pages 1226–1237. SBC.

Oliveira, H., Miranda, P., Isotani, S., Santos, J., Cordeiro, T., Bittencourt, I. I., and Mello, R. F. (2022). Estimando coesão textual em redações no contexto do enem utilizando modelos de aprendizado de máquina. In Anais do XXXIII Simpósio Brasileiro de Informática na Educação, pages 883–894. SBC.

Palma, D. and Atkinson, J. (2018). Coherence-based automatic essay assessment. IEEE Intelligent Systems, 33(5):26–36.

Pearson, K. (1896). Vii. mathematical contributions to the theory of evolution. —iii. regression, heredity, and panmixia. Philosophical Transactions of the Royal Society of London Series A, 187:253–318.

Sagi, O. and Rokach, L. (2018). Ensemble learning: A survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 8(4):e1249.

Shah, F. P. and Patel, V. (2016). A review on feature selection and feature extraction for text classification. In International conference on wireless communications, signal processing and networking (WiSPNET), pages 2264–2268. IEEE.

Travaglia, L. C. (2018). Tipologia textual e ensino de língua. Domínios de Lingu@gem, 12(3):1336–1400.

Uto, M., Aomi, I., Tsutsumi, E., and Ueno, M. (2023). Integration of prediction scores from various automated essay scoring models using item response theory. IEEE Transactions on Learning Technologies.