Estratégias Automáticas para Análise da Concordância da Anotação de Sinalizadores Discursivos
Resumo
O processo de anotação de um corpus utilizando a Teoria da estrutura retórica (RST) possui etapas bem claras e definidas, dentre as quais destaca-se a análise da concordância entre os anotadores. Neste trabalho apresentamos duas estratégias de análise da concordância (gold e silver) com base na medida de Krippendorff Alpha. Os resultados apontam significativos avanços para esse tipo de análise e a possibilidade de replicação por outros trabalhos nesse segmento.
Referências
Cardoso, P. C., Maziero, E. G., Jorge, M. L. C., Seno, E. M., Di Felippo, A., Rino, L. H. M., ... & Pardo, T. A. (2011). CSTnews-a discourse-annotated corpus for single and multi-document summarization of news texts in Brazilian Portuguese. In Proceedings of the 3rd RST Brazilian Meeting (pp. 88-105). Cuiabá/MT.
Cardoso, P.C.F., Souza, J.W.C., Rodrigues, R. Dantas, E., Cruz, G.S.B., Bárbara, L. de J. S., Gama, N. S., Almeida, T. J. A. Pereira, M.A. 2024. Percursos metodológicos e práticos sobre a anotação de sinalizadores discursivos no corpus CSTNews. In Anais do XV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana. Porto Alegre: SBC.
Dantas, E., Bárbara, L.J.S., Pereira, M.A., Gama, N.S., Almeida, T.J.A., Souza, J.W.C., Cardoso, P.C.F., Rodrigues, R. (2024). Manual de anotação de sinalizadores discursivos em textos jornalísticos. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. Disponível em [link]
Hovy, E., Lavid, J. (2010). Towards a Science of Corpus Annotation: A New Methodological Challenge for Corpus Linguistics. International Journal of Translation, 22, p.13-36.
Krippendorff, K. (2011). Computing Krippendorff's Alpha-Reliability. Departmental paper, Annenberg School for Communication, University of Pennsylvania.
Mann, W.C., Thompson, S. A. (1987). Rhetorical structure theory: Description and construction of text structures. In: Natural language generation: New results in artificial intelligence, psychology and linguistics. Dordrecht: Springer Netherlands. p. 85-95.
McHugh, M.L. (2012). Interrater reliability: The kappa statistic. Biochemia Medica, 22(3), 276–282
Passonneau R. (2006) Measuring agreement on set-valued items (MASI) for semantic and pragmatic annotation. In: Proceedings of the international conference on language resources and evaluation (LREC). Genoa/Italia: European Language Resources Association. p. 831-836.
Zeldes, A. (2016) rstWeb-a browser-based annotation interface for Rhetorical Structure Theory and discourse relations. In: Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations. p. 1-5.