O uso de informações semânticas para tratar a informatividade de sumários automáticos com foco na clareza referencial
Resumo
Este artigo apresenta uma proposta de refinamento de um sumarizador automático pela inclusão de informações semânticas às heurísticas de seleção de conteúdo. O sistema – VeinSum – é baseado em três modelos complementares: a Teoria RST, o Modelo de Saliência de Marcu e a Teoria das Veias. As heurísticas atuais tentam evitar que anáforas sejam incluídas sem seus respectivos antecedentes. Porém, elas permitem a escolha de informações secundárias que prejudicam a informatividade e também a taxa de compressão do sumário. Tentamos eliminar informações supérfluas para que o sumarizador assegure uma melhor informatividade. Ilustramos casos que podem ser melhorados quando menos informação é considerada.Referências
Azzam, S., Humphreys, K. and Gaizauskas, R. (1999) "Using correference chains for text summarization", Workshop on Conference and its Applications, pp. 77-84, Baltimore.
Bick, E. (2000), "The Parsing System PALAVRAS: Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework", Arhus, Arhus University.
Carbonel, T. I. (2007) "Estudo e validação de teorias do domínio lingüístico com vistas à melhoria do tratamento de cadeias de correferência em Sumarização Automática", Dissertação de Mestrado, Departamento de Letras, Agosto, São Carlos, SP: UFSCar.
Carbonel, T. I., Pelizzoni, J. M. and Rino, L. H. M. (2007) "VEINSUM: Um Modelo de Sumarização Automática de Textos Baseado em Estruturas Retóricas", CoPG - Congresso de Pós-Graduação da USFCar, São Carlos - SP.
Collovini, S., Carbonel, T. I., Fuchs, J. T., Coelho, J. C., Rino, L. H. M. and Vieira, R. (2007) "Summ-it: Um corpus anotado com informações discursivas visando à sumarização automática", In: Proc. of the V Workshop on Information and Human Language Technology (TIL’2007, CD-ROM) Edited by V. Quental and C. Oliveira , XXVII Congresso da Sociedade Brasileira de Computação (SBC’2007), Rio de Janeiro - RJ.
Cristea, D., Ide, N. and Romary, L. (1998) "Veins Theory: A Model of Global Discourse Cohesion and Coherence", In: Proc. of the Coling/ACL 1998, pp. 281-285.
Cristea, D., Postolache, O. and Pistol, I. (2005) "Summarization through Discourse Structure", In: Computational Linguistics and Intelligent Text Processing, 6th International Conference CICLing 2005, Edited by A. Gelbukh, pp. 632-644, Mexico City, Mexico, Springer LNSC.
Fellbaum, C. D. (1998), WordNet: an electronic lexical database, Cambridge, The MIT Press.
Gonçalves, P. N. (2008) "CorrefSum: Revisão de Coesão Referencial em Sumários Extrativos", Dissertação de Mestrado, Departamento de Computação, Agosto, pp. 129. São Leopoldo, RS, Universidade do Vale do Rio dos Sinos.
Mann, W. C. and Thompson, S. A. (1988) "Rhetorical Structure Theory: Toward a Functional Theory of Text Organization". Text 8(3): 243-281.
Marcu, D. (1997) "The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts", Computer Science, pp. 351, Toronto, Canada, University of Toronto.
Marcu, D. (1999) "Discourse trees are good indicators of importance in text", In: Advances in Automatic Text Summarization, Edited by I. Mani and M. Maybury, pp. 123-136, The MIT Press.
Marcu, D. (2000), The Theory and Practice of Discourse Parsing and Summarization, Cambridge, MA, USA, The MIT Press.
O'Donnell, M. (1997) "Variable-length on-line document generation", In: Proceedings of the 6th European Workshop on Natural Language Generation, pp. 82-91, Gerhard-Mercator University, Duisburg, Germany.
Ono, K., Sumita, K. and Miike, S. (1994) "Abstract generation based on rhetorical structure extraction", In: Proceedings of 15th International Conference on Computational Linguistics (COLING'94), pp. 344-348, Kyoto, Japan.
Sparck Jones, K. (1993) "What might be in a summary?", In: Information Retrieval 93, Edited by G. Knorz, J. Krause and C. Womser-Hacker, pp. 9-26, Konstanz, Universitatsverlag Konstanz.
Bick, E. (2000), "The Parsing System PALAVRAS: Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework", Arhus, Arhus University.
Carbonel, T. I. (2007) "Estudo e validação de teorias do domínio lingüístico com vistas à melhoria do tratamento de cadeias de correferência em Sumarização Automática", Dissertação de Mestrado, Departamento de Letras, Agosto, São Carlos, SP: UFSCar.
Carbonel, T. I., Pelizzoni, J. M. and Rino, L. H. M. (2007) "VEINSUM: Um Modelo de Sumarização Automática de Textos Baseado em Estruturas Retóricas", CoPG - Congresso de Pós-Graduação da USFCar, São Carlos - SP.
Collovini, S., Carbonel, T. I., Fuchs, J. T., Coelho, J. C., Rino, L. H. M. and Vieira, R. (2007) "Summ-it: Um corpus anotado com informações discursivas visando à sumarização automática", In: Proc. of the V Workshop on Information and Human Language Technology (TIL’2007, CD-ROM) Edited by V. Quental and C. Oliveira , XXVII Congresso da Sociedade Brasileira de Computação (SBC’2007), Rio de Janeiro - RJ.
Cristea, D., Ide, N. and Romary, L. (1998) "Veins Theory: A Model of Global Discourse Cohesion and Coherence", In: Proc. of the Coling/ACL 1998, pp. 281-285.
Cristea, D., Postolache, O. and Pistol, I. (2005) "Summarization through Discourse Structure", In: Computational Linguistics and Intelligent Text Processing, 6th International Conference CICLing 2005, Edited by A. Gelbukh, pp. 632-644, Mexico City, Mexico, Springer LNSC.
Fellbaum, C. D. (1998), WordNet: an electronic lexical database, Cambridge, The MIT Press.
Gonçalves, P. N. (2008) "CorrefSum: Revisão de Coesão Referencial em Sumários Extrativos", Dissertação de Mestrado, Departamento de Computação, Agosto, pp. 129. São Leopoldo, RS, Universidade do Vale do Rio dos Sinos.
Mann, W. C. and Thompson, S. A. (1988) "Rhetorical Structure Theory: Toward a Functional Theory of Text Organization". Text 8(3): 243-281.
Marcu, D. (1997) "The Rhetorical Parsing, Summarization, and Generation of Natural Language Texts", Computer Science, pp. 351, Toronto, Canada, University of Toronto.
Marcu, D. (1999) "Discourse trees are good indicators of importance in text", In: Advances in Automatic Text Summarization, Edited by I. Mani and M. Maybury, pp. 123-136, The MIT Press.
Marcu, D. (2000), The Theory and Practice of Discourse Parsing and Summarization, Cambridge, MA, USA, The MIT Press.
O'Donnell, M. (1997) "Variable-length on-line document generation", In: Proceedings of the 6th European Workshop on Natural Language Generation, pp. 82-91, Gerhard-Mercator University, Duisburg, Germany.
Ono, K., Sumita, K. and Miike, S. (1994) "Abstract generation based on rhetorical structure extraction", In: Proceedings of 15th International Conference on Computational Linguistics (COLING'94), pp. 344-348, Kyoto, Japan.
Sparck Jones, K. (1993) "What might be in a summary?", In: Information Retrieval 93, Edited by G. Knorz, J. Krause and C. Womser-Hacker, pp. 9-26, Konstanz, Universitatsverlag Konstanz.
Publicado
20/07/2009
Como Citar
TOMAZELA, Élen Cátia; RINO, Lucia Helena Machado.
O uso de informações semânticas para tratar a informatividade de sumários automáticos com foco na clareza referencial. In: ENCONTRO NACIONAL DE INTELIGÊNCIA ARTIFICIAL E COMPUTACIONAL (ENIAC), 7. , 2009, Bento Gonçalves/RS.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2009
.
p. 172-181.
ISSN 2763-9061.
