The Dawn of the Porttinari Multigenre Treebank: Introducing its Journalistic Portion

Resumo


This paper introduces the journalistic portion of the Porttinari treebank, which aims to be a multigenre NLP resource for Brazilian Portuguese. We report the construction of the treebank, in particular, the human-revised portion with 8,418 sentences, whose annotation process lasted almost three years and involved more than a dozen trained annotators. The full treebank offers to the Portuguese-speaking NLP community nearly 4 million sentences annotated according to the Universal Dependencies framework.
Palavras-chave: Portuguese treebank, Universal Dependencies, Porttinari multigenre corpus

Referências

Branco, A.; Silva, J.R.; Gomes, L.; Rodrigues, J.R. (2022). Universal grammatical dependencies for Portuguese with CINTIL data, LX processing and CLARIN support. In the Proceedings of the Thirteenth Language Resources and Evaluation Conference (LREC), pages 5617-5626.

de Marneffe, M.-C.; Manning, C.D.; Nivre, J.; Zeman, D. (2021). Universal Dependencies. Computational Linguistics 47(2), 255-308.

Duran, M.S.; Rassi, A.P.; Pagano, A.S.; Pardo, T.A.S. (2021a). On auxiliary verb in Universal Dependencies: untangling the issue and proposing a systematized annotation strategy. In the Proceedings of the Sixth International Conference on Dependency Linguistics (Depling), pages 10-21.

Duran, M.S.; Lopes, L.; Pardo, T.A.S. (2021b). Descrição de numerais segundo modelo Universal Dependencies e sua anotação no português. In the Proceedings of the VII Workshop on Portuguese Description (JDP), pages 344-352.

Duran, M.S. (2021). Manual de Anotação de PoS tags: Orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD). Relatório Técnico do ICMC 434. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Setembro, 55p.

Duran, M.S.; Lopes, L.; Nunes, M.G.V.; Pardo, T.A.S. (2023a). Construções comparativas em português e sua anotação usando a sintaxe de dependências. Revista da ABRALIN. To appear.

Duran, M.S.; Nunes, M.G.V.; Pardo, T.A.S. (2023b). Avaliação qualitativa do analisador sintático UDPipe 2 treinado sobre o córpus jornalístico Porttinari-base. Relatório Técnico do ICMC 442. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Abril, 58p.

Nivre, J.; Marongiu, P.; Ginter, F.; Kanerva, J.; Montemagni, S.; Schuster, S.; Simi, M. (2018). Enhancing Universal Dependency Treebanks: A Case Study. In the Proceedings of the Second Workshop on Universal Dependencies, pages 102-107.

Tesnière, L. (2015). Elements of Structural Syntax. Tradução de OSBORNE, Timothy; KAHANE, Sylvain. Amsterdam: John Benjamins.

Miranda, L.G.M.; Pardo, T.A.S. (2022). An Improved and Extended Annotation Tool for Universal Dependencies-based Treebank Construction. In the Proceedings of the PROPOR Demonstrations Workshop, pages 1-3.

Rademaker, A.; Chalub, F.; Real, L.; Freitas, C.; Bick, E.; Paiva, V. (2017). Universal Dependencies for Portuguese. In the Proceedings of the Fourth International Conference on Dependency Linguistics, pages 197-206.

Straka, M. (2018). UDPipe 2.0 Prototype at CoNLL 2018 UD Shared Task. In the Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 197-207.

Lopes, L.; Duran, M.S.; Pardo, T.A.S. (2021). Universal Dependencies-based PoS Tagging Refinement through Linguistic Resources. In the Proceedings of the 10th Brazilian Conference on Intelligent System (BRACIS), pages 601-615.

Lopes, L.; Duran, M.S.; Fernandes, P.; Pardo, T.A.S. (2022). PortiLexicon-UD: a Portuguese Lexical Resource according to Universal Dependencies Model. In the Proceedings of the 13th Edition of the Language Resources and Evaluation Conference, pages 6635‑6643.

Lopes, L.; Fernandes, P.; Duran, M.S.; Inácio, M.L.; Pardo, T.A.S. (2023). Disambiguation of Universal Dependencies Part-of-Speech Tags of Closed Class Words in Portuguese. In the Proceedings of the 12th Brazilian Conference on Intelligent Systems (BRACIS). To appear.

Palmer, M.; Gildea, D.; Kingsbury, P. (2005). The Proposition Bank: A Corpus Annotated with Semantic Roles. Computational Linguistics, 31(1), pages 71-105.

Pardo, T.A.S.; Duran, M.S.; Lopes, L.; Di Felippo, A.; Roman, N.T.; Nunes, M.G.V. (2021). Porttinari - a large multi-genre treebank for brazilian portuguese. In the Proceedings of the XIII Symposium in Information and Human Language (STIL), pages 1-10.

Zeman, D.; Popel, M.; Straka, M.; Hajic, J.; Nivre, J.; Ginter, F.; Luotolahti, J.; Pyysalo, S.; Petrov, S.; Potthast, M.; Tyers, F.; Badmaeva, E.; Gokirmak, M.; Nedoluzhko, A.; Cinkova, S.; Hajic Jr, J.; Hlavacova, J.; Kettnerova, V.; Uresova, Z.; Kanerva, J.; Ojala, S.; Missila, A.; Manning, C. D.; Schuster, S.; Reddy, S.; Taji, D.; Habash, N.; Leung, H.; de Marneffe, M.-C.; Sanguinetti, M.; Simi, M.; Kanayama, H.; Paiva, V.; Droganova, K.; Martinez Alonso, H.; Çoltekin, Ç.; Sulubacak, U.; Uszkoreit, H.; Macketanz, V.; Burchardt, A.; Harris, K.; Marheinecke, K.; Rehm, G.; Kayadelen, T.; Attia, M.; Elkahky, A.; Yu, Z.; Pitler, E.; Lertpradit, S.; Mandl, M.; Kirchner, J.; Alcalde, H. F.; Strnadova, J.; Banerjee, E.; Manurung, R.; Stella, A.; Shimada, A.; Kwak, S.; Mendonca, G.; Lando, T.; Nitisaroj, R.; Li, J. (2017). CoNLL 2017 shared task: Multilingual parsing from raw text to universal dependencies. In the Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 1-19.

Souza, E.; Silveira, A.; Cavalcanti, T.; Castro, M.; Freitas, C. (2021). PetroGold – corpus padrão ouro para o domínio do petróleo. In the Proceedings of the XIII Symposium in Information and Human Language (STIL), pages 29-38.
Publicado
25/09/2023
Como Citar

Selecione um Formato
DURAN, Magali Sanches; LOPES, Lucelene; NUNES, Maria das Graças Volpe; PARDO, Thiago Alexandre Salgueiro. The Dawn of the Porttinari Multigenre Treebank: Introducing its Journalistic Portion. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 115-124. DOI: https://doi.org/10.5753/stil.2023.233975.