Sumarização Automática Multidocumento: Seleção de Conteúdo com Base no Modelo CST (Cross-document Structure Theory)

  • Maria Lucia del Rosario Castro Jorge USP
  • Thiago Alexandre Salgueiro Pardo USP

Resumo


Este artigo apresenta a definição, a formalização e a avaliação de estratégias de seleção de conteúdo para sumarização automática multidocumento com base na teoria discursiva CST (Cross-document Structure Theory). A tarefa de seleção de conteúdo foi modelada por meio de operadores que representam possíveis preferências do usuário para a sumarização. Nossos experimentos foram feitos usando um córpus jornalístico de textos escritos em português brasileiro e mostram que o uso da CST melhora a informatividade dos sumários. A abordagem mostra-se nova para a sumarização multidocumento em língua portuguesa por ser a primeira abordagem que explora conhecimento linguístico para esta tarefa, e, ao mesmo tempo, avança o estado da arte ao modelar e explorar de maneira diferenciada o conhecimento fornecido pela CST.

Referências

Afantenos, S.D.; Doura, I.; Kapellou, E.; Karkaletsis, V. (2004). Exploiting Cross-Document Relations for Multi-document Evolving Summarization. In the Proceedings of SETN, pp. 410-419.

Aleixo, P. and Pardo, T.A.S. (2008). CSTNews: Um Córpus de Textos Jornalísticos Anotados segundo a Teoria Discursiva Multidocumento CST (Cross-document Structure Theory). Série de Relatórios Técnicos do Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, N. 326.

Castro Jorge, M.L.R. (2010). Sumarização automática multidocumento: seleção de conteúdo com base no Modelo CST (Cross-document Structure Theory). Dissertação de Mestrado. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Abril, 86p.

Lin, C.Y. and Hovy, E. (2003). Automatic Evaluation of Summaries Using N-gram Co-occurrence Statistics. In the Proceedings of 2003 Language Technology Conference. Edmonton, Canada.

Mani, I. (2001). Automatic Summarization. John Benjamins Publishing Co. Amsterdam.

Mani, I. and Maybury, M. T. (1999). Advances in automatic text summarization. MIT Press, Cambridge, MA.

Maziero, E.G.; Jorge, M.L.C.; Pardo, T.A.S. (2010). Identifying Multidocument Relations. In the Proceedings of the 7th International Workshop on Natural Language Processing and Cognitive Science - NLPCS, pp.60-69. Funchal/Madeira, Portugal.

McKeown, K. and Radev, D.R. (1995). Generating summaries of multiple news articles. In the Proceedings of the 18th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval, pp. 74-82, Seattle/WA.

Otterbacher, J.C.; Radev, D.R.; Luo, A. (2002). Revisions that improve cohesion in multi-document summaries: a preliminary study. In the Proceedings of the Workshop on Automatic Summarization, pp 27-36.

Pardo, T.A.S. (2005). GistSumm - GIST SUMMarizer: Extensões e Novas Funcionalidades. Série de Relatórios do NILC. NILC-TR-05-05. São Carlos-SP/Brasil.

Radev, D.R. (2000). A common theory of information fusion from multiple text sources, step one: Cross-document structure. In the Proceedings of the 1st ACL SIGDIAL Workshop on Discourse and Dialogue.

Radev, D.R.; Blair-Goldensohn, S.; Zhang, Z. (2001). Experiments in single and multi-document summarization using MEAD. In the Proceedings of the First Document Understanding Conference. New Orleans/LA.

Zhang, Z.; Goldenshon, S.B.; Radev, D.R. (2002). Towards CST-Enhanced Sumarization. In the Proceedings of the 18th National Conference on Artificial Intelligence.
Publicado
19/07/2011
JORGE, Maria Lucia del Rosario Castro; PARDO, Thiago Alexandre Salgueiro. Sumarização Automática Multidocumento: Seleção de Conteúdo com Base no Modelo CST (Cross-document Structure Theory). In: CONCURSO DE TESES E DISSERTAÇÕES (CTD), 24. , 2011, Natal/RN. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2011 . p. 58-63. ISSN 2763-8820.