CLaRiCe: Uma abordagem neural para a correção automática de redações

João Tavares; Luiz Rodrigues; Diego Dermeval

doi:10.5753/sbie.2024.242576

João Tavares Universidade Federal de Alagoas
Luiz Rodrigues Universidade Federal de Alagoas https://orcid.org/0000-0003-0343-3701
Diego Dermeval Universidade Federal de Alagoas / Harvard University https://orcid.org/0000-0002-8415-6955

DOI: https://doi.org/10.5753/sbie.2024.242576

Resumo

Escrever é uma importante habilidade que adquirimos ao iniciar nossos estudos, sendo utilizada em diversas ocasiões para aquisição, representação, avaliação de conhecimentos, como realizado em meios avaliativos como o ENEM, e entretenimento como no meio literário. Diversos trabalhos anteriores realizaram uma exploração acerca de correção automática de textos dissertativos-argumentativos, mas não chegaram a realizar uma análise e comparação profundas acerca do uso de modelos neurais. A realização de experimentos com a base Extended Essay-BR demonstrou que os modelos convolucionais se sobressaem na tarefa de regressão, atingindo um Erro Absoluto Médio que varia de 15.24 a 21.48 dentre as cinco competências, proporcionando um modelo capaz de realizar uma boa correção simultânea das 5 competências.

Palavras-chave: Avaliação Automática de Redações, Processamento de Linguagem Natural, BERT, ENEM

Referências

Akiba, T., Sano, S., Yanase, T., Ohta, T., and Koyama, M. (2019). Optuna: A next-generation hyperparameter optimization framework. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Barbosa, A., and Campelo, C. (2020). Processamento de linguagem natural em artefatos textuais educacionais: Um mapeamento sistemático no contexto brasileiro. Anais do XXXI Simpósio Brasileiro de Informática na Educação, 1433–1442. Porto Alegre, RS, Brasil: SBC.

Barbosa, G., Batista, H., Miranda, P., Santos, J., Isotani, S., Cordeiro, T., Bittencourt, I. I., and Mello, R. F. (2022). Aprendizagem de máquina para classificação de tipos textuais: Estudo de caso em textos escritos em português brasileiro. Anais do XXXIII Simpósio Brasileiro de Informática na Educação, 920–931. Porto Alegre, RS, Brasil: SBC.

Filho, M. S., Nascimento, A., Miranda, P., Rodrigues, L., Cordeiro, T., Isotani, S., Bittencourt, I., and Mello, R. (2023). Automated formal register scoring of student narrative essays written in Portuguese. Anais do II Workshop de Aplicações Práticas de Learning Analytics em Instituições de Ensino no Brasil, 1–11. Porto Alegre, RS, Brasil: SBC.

Freitas, E., Falcão, T. P., and Mello, R. F. (2020). Desmistificando a adoção de learning analytics: Um guia conciso sobre ferramentas e instrumentos. Sociedade Brasileira de Computação.

Marinho, J., Anchiêta, R., and Moura, R. (2021). Essay-BR: A Brazilian corpus of essays. Anais do III Dataset Showcase Workshop, 53–64. Porto Alegre, RS, Brasil: SBC.

Mockus, J., Tiesis, V., and Zilinskas, A. (1978). The application of Bayesian methods for seeking the extremum. Towards Global Optimization, 2(117-129).

Oliveira, H., Miranda, P., Isotani, S., Santos, J., Cordeiro, T., Bittencourt, I. I., and Mello, R. F. (2022). Estimando coesão textual em redações no contexto do ENEM utilizando modelos de aprendizado de máquina. Anais do XXXIII Simpósio Brasileiro de Informática na Educação, 883–894. Porto Alegre, RS, Brasil: SBC.

Rosa, B. A., and Mello, R. F. (2022). Análise automatizada de coesão em redações do ensino fundamental por meio de técnicas de processamento de linguagem natural. Anais Estendidos do XI Congresso Brasileiro de Informática na Educação, 144–149. Porto Alegre, RS, Brasil: SBC.

Souza, F., Nogueira, R., and Lotufo, R. (2020). BERTimbau: Pretrained BERT models for Brazilian Portuguese. 9th Brazilian Conference on Intelligent Systems (BRACIS), Rio Grande do Sul, Brazil, October 20-23.

Watanabe, S. (2023). Tree-structured Parzen estimator: Understanding its algorithm components and their roles for better empirical performance.