Sumarização Automática de Artigos de Notícias em Português: Da Extração à Abstração com Abordagens Clássicas e Modelos de Neurais

Resumo


A sumarização automática de texto tem como objetivo a criação de um resumo com as informações mais relevantes extraídas de um ou mais documentos textuais. Apesar dos avanços obtidos na área, pesquisas envolvendo documentos escritos em português do Brasil ainda são escassas. Este artigo apresenta uma análise envolvendo diferentes abordagens de sumarização, desde baselines clássicas, passando por sistemas extrativos, o ajuste fino de diferentes arquiteturas dos modelos PPT5 e FLAN -T5, até o uso de modelos de linguagem de larga escala para sumarização abstrativa. Experimentos foram realizados considerando três bases de dados de artigos de notícias escritos em português. Os resultados demonstraram que os modelos ajustados para a tarefa de sumarização abstrativa obtiveram resultados competitivos com base nas medidas do ROUGE-L e do BERTScore com modelos maiores, como o GPT-4o.

Palavras-chave: Sumarização Automática de Texto (SAT), Processamento de Linguagem Natural (PLN), Redes Neurais, Artigos de Notícias, Português do Brasil, Modelos de Linguagem, Sumarização Extrativa, Sumarização Abstrativa, Large Language Models (LLMs)

Referências

Cardoso, P. C., Maziero, E. G., Jorge, M. L. C., Seno, E. M., Di Felippo, A., Rino, L. H. M., Nunes, M. d. G. V., and Pardo, T. A. (2011). Cstnews-a discourse-annotated corpus for single and multi-document summarization of news texts in Brazilian Portuguese. In Proceedings of the 3rd RST Brazilian Meeting, pages 88–105.

Carmo, D., Piau, M., Campiotti, I., Nogueira, R., and Lotufo, R. (2020). Ptt5: Pre-training and validating the T5 model on Brazilian Portuguese data. arXiv preprint arXiv:2008.09144.

Chung, H. W., Hou, L., Longpre, S., Zoph, B., Tay, Y., Fedus, W., Li, Y., Wang, X., Dehghani, M., Brahma, S., et al. (2024). Scaling instruction-finetuned language models. Journal of Machine Learning Research, 25(70):1–53.

Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

Gomes, L. and de Oliveira, H. (2019). A multi-document summarization system for news articles in Portuguese using integer linear programming. In Anais do XVI Encontro Nacional de Inteligência Artificial e Computacional, pages 622–633. SBC.

Leite, D. S. and Rino, L. H. M. (2008). Combining multiple features for automatic text summarization through machine learning. In International Conference on Computational Processing of the Portuguese Language, pages 122–132. Springer. DOI: 10.1007/978-3-540-85980-2_13

Levitin, D. J. (2014). Organized Mind: Thinking Straight in the Age of Information Overload (9780698157224). Barnes & Noble.

Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In Text summarization branches out, pages 74–81.

Lin, H. and Ng, V. (2019). Abstractive summarization: A survey of the state of the art. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 9815–9822. DOI: 10.1609/aaai.v33i01.33019815

Nenkova, A. and McKeown, K. (2012). A survey of text summarization techniques. In Mining Text Data, pages 43–76. Springer. DOI: 10.1007/978-1-4614-3223-4_3

Oliveira, H., Ferreira, R., Lima, R., Lins, R. D., Freitas, F., Riss, M., and Simske, S. J. (2016a). Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization. Expert Systems with Applications, 65:68–86. DOI: 10.1016/j.eswa.2016.08.030

Oliveira, H., Lima, R., Lins, R. D., Freitas, F., Riss, M., and Simske, S. J. (2016b). A concept-based integer linear programming approach for single-document summarization. In 2016 5th Brazilian Conference on Intelligent Systems (BRACIS), pages 403–408. IEEE. DOI: 10.1109/BRACIS.2016.079

OpenAI (2024). OpenAI models.

Paiola, P. H., de Rosa, G. H., and Papa, J. P. (2022). Deep learning-based abstractive summarization for Brazilian Portuguese texts. In Xavier-Junior, J. C. and Rios, R. A., editors, Intelligent Systems, pages 479–493, Cham. Springer International Publishing. DOI: 10.1007/978-3-031-21689-3_34

Paiola, P. H., Garcia, G. L., Jodas, D. S., Correia, J. V. M., Sugi, L. A., and Papa, J. P. (2024). Recognasumm: A novel Brazilian summarization dataset. In Proceedings of the 16th International Conference on Computational Processing of Portuguese, pages 575–579.

Pardo, T. A. S. and Rino, L. H. M. (2003). Temário: Um corpus para sumarização automática de textos. São Carlos: Universidade de São Carlos, Relatório Técnico.

Sodré, L. and de Oliveira, H. (2019). Avaliando algoritmos de regressão para sumarização automática de textos em português do Brasil. In Anais do XVI Encontro Nacional de Inteligência Artificial e Computacional, pages 634–645. SBC.

Team, G., Mesnard, T., Hardin, C., Dadashi, R., Bhupatiraju, S., Pathak, S., Sifre, L., Rivière, M., Kale, M. S., Love, J., et al. (2024). Gemma: Open models based on Gemini research and technology. arXiv preprint arXiv:2403.08295.

Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

Zhang, M., Zhou, G., Yu, W., Huang, N., and Liu, W. (2022). A comprehensive survey of abstractive text summarization based on deep learning. Computational Intelligence and Neuroscience, 2022(1):7132226. DOI: 10.1155/2022/7132226

Zhang, T., Kishore, V., Wu, F., Weinberger, K. Q., and Artzi, Y. (2019). Bertscore: Evaluating text generation with BERT. arXiv preprint arXiv:1904.09675.

Zhang, T., Ladhak, F., Durmus, E., Liang, P., McKeown, K., and Hashimoto, T. B. (2024). Benchmarking large language models for news summarization. Transactions of the Association for Computational Linguistics, 12:39–57. DOI: 10.1162/tacl_a_00632
Publicado
17/11/2024
SARMENTO, Marcio Alves; DE OLIVEIRA, Hilário Tomaz Alves. Sumarização Automática de Artigos de Notícias em Português: Da Extração à Abstração com Abordagens Clássicas e Modelos de Neurais. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 15. , 2024, Belém/PA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 139-148. DOI: https://doi.org/10.5753/stil.2024.245395.