Avaliando Algoritmos de Regressão para Sumarização Automática de Textos em Português do Brasil

  • Lucas Sodré Centro Universitário de João Pessoa
  • Hilário Oliveira Instituto Federal do Espirito Santo

Resumo


A Sumarização Automática de Textos (SAT) é uma proeminente área de pesquisa, cujo objetivo é a criação automática de um resumo contendo as informações mais relevantes a partir de um ou mais documentos. Um dos principais desafios da SAT é identificar as informações mais relevantes que devem ser inseridas no resumo a ser gerado. Este trabalho tem por objetivo analisar a aplicação de algoritmos de regressão para estimar um escore de relevância das frases de uma coleção de artigos de notícias escritos em português do Brasil na tarefa de sumarização. Experimentos foram executados para avaliar diferentes métodos de estimação de relevância das frases, algoritmos de regressão, e comparar os resultados obtidos com outros trabalhos da literatura. Os resultados experimentais demonstraram que o algoritmo de regressão Bayesiana obteve os melhores resultados com base nas medidas de avaliação do ROUGE, atingindo uma taxa de 62,09% de cobertura.

Palavras-chave: Sumarização Automática de Textos, Sumarização multidocumento, Métodos de Ponderação de Sentenças, Algoritmos de regressão

Referências

Cardoso, P. C. and Pardo, T. A. (2016). Multi-document summarization using semantic discourse models. Procesamiento del Lenguaje Natural, (56):57–64.

Castro Jorge, M. L. d. R. and Pardo, T. A. S. (2010). Experiments with cst-based multidocument summarization. In Proceedings of the 2010 Workshop on Graph-based Methods for Natural Language Processing, TextGraphs-5, pages 74–82, Stroudsburg, PA, USA. Association for Computational Linguistics.

Dias, M. S., Garay, A. Y. B., Chuman, C., Barros, C. D., Maziero, E. G., Nobrega, F. A. A., Souza, J. W. C., Cabezudo, M. A. S., Delege, M., Jorge, M. L. R. C., Silva, N. L., Cardoso, P. C. F., Balage Filho, P. P., Condori, R. E. L., Marcasso, V., Felippo, A. d., Nunes, M. d. G. V., and Pardo, T. A. S. (2014). Enriquecendo o córpus csnews: a criação de novos sumários multidocumento. In International Conference on Computational Processing of the Portuguese Language - PROPOR. SBC.

Leite, D. S. and Rino, L. H. (2008). Combining multiple features for automatic text summarization through machine learning. In Proceedings of the 8th International Conference on Computational Processing of the Portuguese Language, PROPOR ’08, pages 122–132, Berlin, Heidelberg. Springer-Verlag.

Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In MarieFrancine Moens, S. S., editor, Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, pages 74–81, Barcelona, Spain. Association for Computational Linguistics.

Lloret, E., Plaza, L., and Aker, A. (2017). The challenging task of summary evaluation: an overview. Language Resources and Evaluation.

Nenkova, A. and McKeown, K. (2012). A survey of text summarization techniques. In Aggarwal, C. C. and Zhai, C., editors, Mining Text Data, pages 43–76. Springer.

Oliveira, H., Ferreira, R., Lima, R., Lins, R. D., Freitas, F., Riss, M., and Simske, S. J. (2016). Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization. Expert Syst. Appl., 65(C):68–86.

Pardo, T. A. S. (2005). Gistsumm-gist summarizer: Extensões e novas funcionalidades. Série de Relatórios do NILC.

NAse comparados com outros idiomas, como o inglês. Um dos pontos que limitam o trabalho foi a opção de desenvolver um sistema de natureza extrativa, o que limita o processo por não poder realizar nenhuma alteração nas frases que irão compor o resumo gerado. A criação de resumos automaticamente é uma tarefa desafiadora e ainda existem muitos problemas de pesquisa a serem resolvidos. Diante disso, como futuros trabalhos pretendemos: (i) Incorporar mais métodos de ponderação de sentenças; (ii) Avaliar a aplicação de algoritmos de seleção de atributos para identificar os métodos de ponderação mais significativos; (iii) Analisar o impacto de ajustes nos hiperparâmetros dos algoritmos de regressão; e (iv) Analisar o uso de algoritmos de regressão baseados em redes neurais seguindo uma abordagem de aprendizado profundo (Deep learning);

Cardoso, P. C. and Pardo, T. A. (2016). Multi-document summarization using semantic discourse models. Procesamiento del Lenguaje Natural, (56):57–64.

Castro Jorge, M. L. d. R. and Pardo, T. A. S. (2010). Experiments with cst-based multidocument summarization. In Proceedings of the 2010 Workshop on Graph-based Methods for Natural Language Processing, TextGraphs-5, pages 74–82, Stroudsburg, PA, USA. Association for Computational Linguistics.

Dias, M. S., Garay, A. Y. B., Chuman, C., Barros, C. D., Maziero, E. G., Nobrega, F. A. A., Souza, J. W. C., Cabezudo, M. A. S., Delege, M., Jorge, M. L. R. C., Silva, N. L., Cardoso, P. C. F., Balage Filho, P. P., Condori, R. E. L., Marcasso, V., Felippo, A. d., Nunes, M. d. G. V., and Pardo, T. A. S. (2014). Enriquecendo o córpus csnews: a criação de novos sumários multidocumento. In International Conference on Computational Processing of the Portuguese Language - PROPOR. SBC.

Leite, D. S. and Rino, L. H. (2008). Combining multiple features for automatic text summarization through machine learning. In Proceedings of the 8th International Conference on Computational Processing of the Portuguese Language, PROPOR ’08, pages 122–132, Berlin, Heidelberg. Springer-Verlag.

Lin, C.-Y. (2004). Rouge: A package for automatic evaluation of summaries. In MarieFrancine Moens, S. S., editor, Text Summarization Branches Out: Proceedings of the ACL-04 Workshop, pages 74–81, Barcelona, Spain. Association for Computational Linguistics.

Lloret, E., Plaza, L., and Aker, A. (2017). The challenging task of summary evaluation: an overview. Language Resources and Evaluation.

Nenkova, A. and McKeown, K. (2012). A survey of text summarization techniques. In Aggarwal, C. C. and Zhai, C., editors, Mining Text Data, pages 43–76. Springer.

Oliveira, H., Ferreira, R., Lima, R., Lins, R. D., Freitas, F., Riss, M., and Simske, S. J. (2016). Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization. Expert Syst. Appl., 65(C):68–86.

Pardo, T. A. S. (2005). Gistsumm-gist summarizer: Extensões e novas funcionalidades. Série de Relatórios do NILC.
Publicado
15/10/2019
Como Citar

Selecione um Formato
SODRÉ, Lucas; OLIVEIRA, Hilário. Avaliando Algoritmos de Regressão para Sumarização Automática de Textos em Português do Brasil. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 16. , 2019, Salvador. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2019 . p. 634-645. DOI: https://doi.org/10.5753/eniac.2019.9321.