Corpus collection, composition and pre-processing steps: procedures for the multimodal annotation of FrameNet Brazil

Abstract


This work presents the preparation of a corpus focused on multimodal annotation in FrameNet Brazil. The annotation, developed from the theory of Semantics of Frames, allows the integration of different communicative modes, building a linguistic technology base applicable to multiple areas. The stages of collection, composition and pre-processing of the corpus are the first steps for the development of multimodal annotation research.

Keywords: Multimodal annotation, FrameNet Brazil, Frame Semantics, Audiodescription, Corpora, Pre-processing

References

Aluísio, S. M. e Almeida, G. M. de B. (2021). “O que é e como se constrói um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguística”, Calidoscópio, 4(3), p. 156–178. Disponível em: [link]. Acesso em: 1 de jul. 2023.

Belcavello, F., Viridiano, M., Matos, E. E. d. S., e Torrent, T. T. (2022). Charon: a FrameNet Annotation Tool for Multimodal Corpora. In Proceedings of the 16th Linguistic Annotation Workshop, páginas 91–96, Marseille, France, June. European Language Resources Association (ELRA). Disponível em: [link]. Acesso em: 28 de jun. 2023.

Charon [FNBr]. Disponível em: https://charon.frame.net.br/ Acesso em: 21 de jun. 2023.

Fillmore, C. J. Semântica de Frames. In Cadernos de Tradução. Porto Alegre, nº 25, jul-dez, 2009.

Pety; As Aventuras de. Direção: Anahí Borges. Produção:Anahí Borges. YouTube. 16 de jun. 2021. 14 min. Disponível em: https://www.youtube.com/watch?v=h0TbaPIDkFI. Acesso em: 21 de jun. 2023.

Torrent T. T., Matos E.E. dos S., Belcavello F., Viridiano M., Gamonal M.A., Costa A.D. da, e Marim M.C. (2022). Representing Context in FrameNet: A Multidimensional, Multimodal Approach. Front. Psychol.

Webtool [FNBr]. Disponível em: https://webtool.framenetbr.ufjf.br/. Acesso em: 21 de jun. 2023.

Xiao, Richard. Empirical and Statistical Approaches. In: Handbook of Natural Language Processing. Nova York, 2ª Edição, 2010, p. 161.
Published
2023-09-25
SILVA, Anna Beatriz C.; RABELO, Iasmin; OLIVEIRA, Igor M.; SOUZA, Mariana; GAMONAL, Maucha; ROZA, Raquel. Corpus collection, composition and pre-processing steps: procedures for the multimodal annotation of FrameNet Brazil. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 362-366. DOI: https://doi.org/10.5753/stil.2023.234126.