Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo "Universal Dependencies"

Emanuel Huber Silva; Thiago Alexandre Salgueiro Pardo; Norton Trevisan Roman

doi:10.5753/stil.2023.233848

Emanuel Huber Silva USP / Centro de Inovação CESAR / Facens http://orcid.org/0000-0003-2430-3324
Thiago Alexandre Salgueiro Pardo USP https://orcid.org/0000-0003-2111-1319
Norton Trevisan Roman USP https://orcid.org/0000-0002-0563-2045

DOI: https://doi.org/10.5753/stil.2023.233848

Resumo

A etiquetagem morfossintática é um processo que busca identificar as classes gramaticais de palavras e símbolos (tokens) em uma sentença. Para o português brasileiro, há uma variedade de trabalhos utilizando corpora de gênero jornalístico com diferentes conjuntos de etiquetas. Neste artigo, apresentamos resultados que superam o estado da arte atual, investigando metodos de etiquetagem e avaliando sua capacidade de análise multigênero em corpora dos gêneros jornalístico, acadêmico e de "user-generated content". Para tanto, usamos o modelo "Universal Dependencies". Por fim, apresentamos uma avaliação qualitativa dos erros sistemáticos cometidos pelo modelo.

Palavras-chave: etiquetagem morfossintática, multigênero, universal dependencies

Referências

Afonso, S., Bick, E., Haber, R., e Santos, D. (2002). Floresta sintá(c)tica: A treebank for Portuguese. In Proceedings of the Third International Conference on Language Resources and Evaluation, pages 1698–1703, Las Palmas, Spain. https://api.semanticscholar.org/CorpusID:5177059

Aluísio, S., Pelizzoni, J., Marchi, A. R., de Oliveira, L., Manenti, R., e Marquiafavel, V. (2003). An account of the challenge of tagging a reference corpus for brazilian portuguese. In 6th international conference on Computational processing of the Portuguese language, page 110–117, Faro, Portugal. https://doi.org/10.1007/3-540-45011-4_17 [link].

Bick, E. (2000). The Parsing System “Palavras”. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. University of Arhus. [link].

Bohnet, B., McDonald, R., Simões, G., Andor, D., Pitler, E., e Maynez, J. (2018). Morphosyntactic tagging with a meta-BiLSTM model over context sensitive token encodings. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, pages 2642–2652, Melbourne, Australia. 10.18653/v1/P18-1246 https://aclanthology.org/P18-1246

Branco, A. e Silva, J. (2004). Evaluating solutions for the rapid development of state of-the-art POS taggers for Portuguese. In Proceedings of the Fourth International Conference on Language Resources and Evaluation, pages 507–510, Lisbon, Portugal. https://aclanthology.org/L04-1354/

Branco, A., Silva, J. R., Gomes, L., e Antonio Rodrigues, J. (2022). Universal grammatical dependencies for Portuguese with CINTIL data, LX processing and CLARIN support. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 5617–5626, Marseille, France. https://aclanthology.org/2022.lrec-1.603

Cabral, B., Souza, M., e Claro, D. B. (2022). Portnoie: A neural framework for open information extraction for the portuguese language. In Computational Processing of the Portuguese Language: 15th International Conference, page 243–255, Berlin, Heidelberg. https://doi.org/10.1007/978-3-030-98305-5_23 [link].

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., e Stoyanov, V. (2020). Unsupervised cross-lingual representation learning at scale. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8440–8451, Online. https://doi.org/10.18653/v1/2020.acl-main.747 https://aclanthology.org/2020.acl-main.747

de Marneffe, M.-C., Manning, C. D., Nivre, J., e Zeman, D. (2021). Universal Dependencies. Computational Linguistics, 47:255–308. https://doi.org/10.1162/coli_a_00402 https://aclanthology.org/2021.cl-2.11

de Sousa, R. C. C. e Lopes, H. (2019). Portuguese pos tagging using blstm without handcrafted features. In Nyström, I., Hernández Heredia, Y., e Milián Núñez, V., editors, Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, pages 120–130, Havana, Cuba. https://doi.org/10.1007/978-3-030-33904-3_11 [link].

Di Felippo, A., Postali, C., Ceregatto, G., Gazana, L., Silva, E., Roman, N., e Pardo, T. (2021). Descrição preliminar do corpus dantestocks: Diretrizes de segmentação para anotação segundo universal dependencies. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 335–343, Porto Alegre, RS, Brasil. https://doi.org/10.5753/stil.2021.17813 [link].

Domingues, M. L. C. S. (2011). Abordagem para o desenvolvimento de um etiquetador de alta acurácia para o Português do Brasil. PhD thesis, Universidade Federal do Para, Belém, PA, Brasil [link].

Duran, M. S. (2021). Manual de anotação de PoS tags: Orientações para anotação de etiquetas morfossintaticas em língua portuguesa, seguindo as diretrizes da abordagem universal dependencies (UD). Technical report, Instituto de Ciencias Matemáticas e de Computação da Universidade de São Paulo, São Carlos, Brasil. https://repositorio.usp.br/item/003043575

Fisher, R. A. (1992). Statistical Methods for Research Workers. Springer New York https://doi.org/10.1007/978-1-4612-4380-9_6 [link].

Fonseca, E. R., G Rosa, J. L., e Aluísio, S. M. (2015). Evaluating word embeddings and a revised corpus for part-of-speech tagging in portuguese. Journal of the Brazilian Computer Society, 21:1–7. https://doi.org/10.1186/s13173-014-0020-x [link].

Fonseca, E. R. e Rosa, J. L. G. (2013). Mac-morpho revisited: Towards robust part-of-speech tagging. In Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology, pages 1–10, Fortaleza, Brasil. https://repositorio.usp.br/item/002413772

Garimella, A., Banea, C., Hovy, D., e Mihalcea, R. (2019). Women’s syntactic resilience and men’s grammatical luck: Gender-bias in part-of-speech tagging and dependency parsing. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3493–3498, Florence, Italy. http://dx.doi.org/10.18653/v1/P19-1339 https://aclanthology.org/P19-1339

Hartmann, N. S., Fonseca, E. R., Shulby, C. D., Treviso, M. V., Rodrigues, J. S., e Aluísio, S. M. (2017). Portuguese word embeddings: Evaluating on word analogies and natural language tasks. In Anais do XI Simposio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 122–131, Porto Alegre, Brasil. [link].

He, P., Gao, J., e Chen, W. (2021). Debertav3: Improving deberta using electra-style pretraining with gradient-disentangled embedding sharing. CoRR, abs/2111.09543:1–19. https://arxiv.org/abs/2111.09543

Heinzerling, B. e Strube, M. (2019). Sequence tagging with contextual and noncontextual subword representations: A multilingual evaluation. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 273–291, Florence, Italy. https://aclanthology.org/P19-1027/

Jurafsky, D. e Martin, J. H. (2009). Speech and language processing : an introduction to natural language processing, computational linguistics, and speech recognition. Pearson Prentice Hall. https://web.stanford.edu/~jurafsky/slp3/

Lin, Y., Wang, C., Song, H., e Li, Y. (2021). Multi-head self-attention transformation networks for aspect-based sentiment analysis. IEEE Access, 9:8762–8770. 10.1109/ACCESS.2021.3049294} https://ieeexplore.ieee.org/document/9314135

Lopes, L., Duran, M., Fernandes, P., e Pardo, T. (2022). PortiLexicon-UD: a Portuguese lexical resource according to Universal Dependencies model. In Proceedings of the Thirteenth Language Resources and Evaluation Conference, pages 6635–6643, Marseille, France. https://aclanthology.org/2022.lrec-1.715

Loshchilov, I. e Hutter, F. (2019). Decoupled weight decay regularization. In 7th International Conference on Learning Representations, pages 1–19, Toulon, France. https://api.semanticscholar.org/CorpusID:53592270

Pardo, T., Duran, M., Lopes, L., Felippo, A. D., Roman, N., e Nunes, M. (2021). Porttinari - a large multi-genre treebank for brazilian portuguese. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 1–10, Porto Alegre, Brasil. https://doi.org/10.5753/stil.2021.17778. [link].

Qi, P., Zhang, Y., Zhang, Y., Bolton, J., e Manning, C. D. (2020). Stanza: A Python natural language processing toolkit for many human languages. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, pages 101–108, Online. https://api.semanticscholar.org/CorpusID:212725611

Rademaker, A., Chalub, F., Real, L., Freitas, C., Bick, E., e de Paiva, V. (2017). Universal Dependencies for Portuguese. In Proceedings of the Fourth International Conference on Dependency Linguistics, pages 197–206, Pisa,Italy. https://aclanthology.org/W17-6523

Santos, C. D. e Zadrozny, B. (2014). Learning character-level representations for partof-speech tagging. In Proceedings of the 31st International Conference on Machine Learning, pages 1818–1826, Bejing, China https://api.semanticscholar.org/CorpusID:2834402

Souza, E., Silveira, A., Cavalcanti, T., Castro, M., e Freitas, C. (2021). Petrogold – corpus padrão ouro para o domínio do petroleo. In Anais do XIII Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 29–38, Porto Alegre, Brasil. https://doi.org/10.5753/stil.2021.17781 [link].

Souza, F., Nogueira, R., e Lotufo, R. (2020). Bertimbau: Pretrained bert models for brazilian portuguese. In Intelligent Systems, pages 403–417, Cham. 10.1007/978-3-030-61377-8_28 [link].

Straka, M. (2018). UDPipe 2.0 prototype at CoNLL 2018 UD shared task. In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 197–207, Brussels, Belgium. 10.18653/v1/K18-2020 https://aclanthology.org/K18-2020/

Tukey, J. W. (1949). Comparing individual means in the analysis of variance. Biometrics, 5:99–114. https://api.semanticscholar.org/CorpusID:806596

Zeman, D., Popel, M., Straka, M., Hajic, J., Nivre, J., Ginter, F., Luotolahti, J., Pyysalo, S., Petrov, S., Potthast, M., Tyers, F., Badmaeva, E., Gokirmak, M., Nedoluzhko, A., Cinkova, S., Hajic jr., J., Hlavacova, J., Kettnerová, V., Uresova, Z., Kanerva, J., Ojala, S., Missilä, A., Manning, C. D., Schuster, S., Reddy, S., Taji, D., Habash, N., Leung, H., de Marneffe, M.-C., Sanguinetti, M., Simi, M., Kanayama, H., dePaiva, V., Droganova, K., Martínez Alonso, H., Çöltekin, c., Sulubacak, U., Uszkoreit, H., Macketanz, V., Burchardt, A., Harris, K., Marheinecke, K., Rehm, G., Kayadelen, T., Attia, M., Elkahky, A., Yu, Z., Pitler, E., Lertpradit, S., Mandl, M., Kirchner, J., Alcalde, H. F., Strnadová, J., Banerjee, E., Manurung, R., Stella, A., Shimada, A., Kwak, S., Mendonca, G., Lando, T., Nitisaroj, R., e Li, J. (2017). Conll 2017 shared task: Multilingual parsing from raw text to universal dependencies. In Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 1–19, Vancouver, Canada. 10.18653/v1/K17-3001 https://aclanthology.org/K17-3001

Zhao, F., Quan, B., Yang, J., Chen, J., Zhang, Y., e Wang, X. (2019). Document summarization using word and part-of-speech based on attention mechanism. Journal of Physics: Conference Series, 1168:32008. https://api.semanticscholar.org/CorpusID:88481363