Um pronome com muitas funções: Descrição e resultados da anotação do pronome -se em um treebank segundo o esquema Universal Dependencies (UD) para Português
Resumo
Neste trabalho, realizamos uma descrição linguística e relatamos o processo de anotação do pronome -se no treebank PetroGold (v3). A atenção especial ao pronome -se se justifica pela necessidade de anotar corretamente os casos em que o pronome indica indeterminação do sujeito, voz passiva sintética ou verbo pronominal, reconhecendo sua importância para diversas tarefas de PLN. Como resultados, discriminamos as 1.960 ocorrências do "se" no corpus por classe sintática e apresentamos os verbos que se associam a cada um (ou mais de um) dos tipos do pronome -se.
Referências
Bagno, M. (2012). Gramática pedagógica do português brasileiro. Parábola Ed.
Bechara, E. (2012). Moderna gramática portuguesa. Nova Fronteira
Cançado, M. and Amaral, L. (2010). Representação lexical de verbos incoativos e causativos no português brasileiro. Revista da ABRALIN, 9(2):123–147. [link].
Cunha, C. and Cintra, L. (2016). Nova gramática do português contemporâneo. LEXIKON Editora Digital ltda.
de Marneffe, M.-C., Manning, C. D., Nivre, J., and Zeman, D. (2021). Universal dependencies. Computational linguistics, 47(2):255–308. https://doi.org/10.1162/coli_a_00402 https://aclanthology.org/2021.cl-2.11
de Souza, E. (2023). Construção e avaliação de um treebank padrão ouro. Mestrado, PUC-Rio. https://doi.org/10.17771/PUCRio.acad.62693 [link].
de Souza, E. and Freitas, C. (2021). ET: A workstation for querying, editing and evaluating annotated corpora. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 35–41, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics. https://doi.org/10.18653/v1/2021.emnlp-demo.5 https://aclanthology.org/2021.emnlp-demo.5
dos Santos Silva, A. (2021). O clítico se no português brasileiro como índice de indeterminação do sujeito. EDUCTE: Revista Científica do Instituto Federal de Alagoas, 12(1):1683 a 1692. [link].
Duran, M. S. and Aluísio, S. M. (2011). O tratamento da partícula “se” para fins de anotação de papéis semânticos. II Jornada de Descrição do Português-Proceedings of 8th STIL–Cuiabá, pages 24–26. [link].
Duran, M. S., Scarton, C., Aluisio, S., and Ramisch, C. (2013). Identifying Pronominal Verbs: Towards Automatic Disambiguation of the Clitic ‘se’ in Portuguese. In Proceedings of the 9th Workshop on Multiword Expressions, pages 93–100. https://aclanthology.org/W13-1014
Freitas, C. and de Souza, E. (2021). Sujeito oculto às claras: uma abordagem descritivocomputacional/ Omitted subjects revealed: a quantitative-descriptive approach. Revista de Estudos da Linguagem, 29(2):1033–1058. [link].
Hartmann, N. S., Duran, M. S., and Aluisio, S. M. (2014). Filling the gap: inserting an artificial constituent where a subject is omitted in portuguese. In WORKSHOP ON TOOLS AND RESOURCES FOR AUTOMATICALLY PROCESSING PORTUGUESE AND SPANISH (TORPOR), I., São Carlos, Proceedings [. . . ]. São Carlos: SBC.
Lopes, E. M. and Namiuti-Temponi, C. (2017). A ordem e a função do clítico se no português clássico. Entrepalavras, 7(2):151–169. http://dx.doi.org/10.22168/2237-6321.7.7.2.151-169 [link].
Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., and De Paiva, V. (2017). Universal dependencies for Portuguese. In Proceedings of the Fourth International Conference on Dependency Linguistics (Depling 2017), pages 197–206. https://aclanthology.org/W17-6523
Straka, M., Hajic, J., and Straková, J. (2016). UDPipe: trainable pipeline for processing CoNLL-U files performing tokenization, morphological analysis, pos tagging and parsing. In Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), pages 4290–4297. https://aclanthology.org/L16-1680
Vieira, C. B. and de Sá, T. M. M. (2015). Pronome apassivador? uma perspectiva cognitiva na análise do pronome se. Palimpsesto-Revista do Programa de Pós-Graduação em Letras da UERJ, 14(21):411–426. [link].
Zeman, D., Hajic, J., Popel, M., Potthast, M., Straka, M., Ginter, F., Nivre, J., and Petrov, S. (2018). CoNLL 2018 shared task: Multilingual parsing from raw text to universal dependencies. In Proceedings of the CoNLL 2018 Shared Task: Multilingual parsing from raw text to universal dependencies, pages 1–21. https://doi.org/10.18653/v1/K18-2001 https://aclanthology.org/K18-2001