Construções sintáticas do português que desafiam a tarefa de parsing: uma análise qualitativa
Resumo
Ao ser usado para treinar um parser, um córpus anotado mostra suas qualidades e suas deficiências. Baseado em uma análise qualitativa do desempenho de um parser treinado em córpus anotado no esquema Universal Dependencies, este artigo discute alguns erros motivados pela ordem não canônica dos constituintes em Português: sujeitos e determinantes pospostos e adjetivos antepostos. Usando ilustrações de árvores sintáticas antes e depois da correção manual desses erros, o artigo tem por objetivo destacar a importância de haver uma quantidade razoável de sentenças com essas estruturas não canônicas a fim de aumentar a probabilidade de que o parser aprenda a analisá-las corretamente.
Palavras-chave:
análise qualitativa de parser, relações de dependências, português, sujeito posposto
Referências
Duran, M.S. (2021) “Manual de Anotação de PoS tags: Orientações para anotação de etiquetas morfossintáticas em Língua Portuguesa, seguindo as diretrizes da abordagem Universal Dependencies (UD)”. Relatório Técnico do ICMC 434. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, Setembro, 55p.
Duran, M.S. (2022) “Manual de Anotação de Relações de Dependência –Versão Revisada e Estendida”. Relatório Técnico do ICMC 440. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Outubro, 166p.
Duran, M.S.; Nunes, M.G.V.; Pardo, T.A.S. (2023). Avaliação qualitativa do analisador sintático UDPipe 2 treinado sobre o córpus jornalístico Porttinari-base. Relatório Técnico do ICMC 442. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Abril, 58p.
de Marneffe, M.; Manning, C.; Nivre, J.; Zeman, D. (2021) “Universal Dependencies”, In: Computational Linguistics 47 (2). MIT PRESS, p. 255-308.
Miranda, L.G.M.; Pardo, T.A.S. (2022) “An Improved and Extended Annotation Tool for Universal Dependencies-based Treebank Construction”, In: Proceedings of the PROPOR Demonstrations Workshop, p.1-3.
Nivre, J.; de Marneffe, M.; Ginter, F.; Hajič, J.; Manning, C.; Pyysalo, S.; Schuster, S.; Tyers, F.; Zeman, D. (2020) “Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection”. In: Proceedings of the 12nd International Conference on Language Resources and Evaluation (LREC 2020), p. 4034-4043.
Pardo, T.A.S.; Duran, M.S.; Lopes, L.; Di Felippo, A.; Roman, N.T.; Nunes, M.G.V. (2021) “Porttinari - A large multi-genre treebank for Brazilian Portuguese”. In: Proceedings of the XIV Symposium in Information and Human Language (STIL 2021), p. 1-10.
Rademaker, A.; Chalub, F.; Real, Livy; Freitas, C.; Bick, E.; Paiva, V. (2017) “Universal Dependencies for Portuguese”. In: Proceedings of the Fourth International Conference on Dependency Linguistics. Linköping University Electronic Press, p. 197-206.
Shorten, C., & Khoshgoftaar, T. M. (2019). “A survey on Image Data Augmentation for Deep Learning”. In: Journal of Big Data, 6(1), 60.
Straka, M. (2018) “UDPipe 2.0 Prototype at CoNLL 2018 UD Shared Task”. In: Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. Brussels, Belgium: Association for Computational Linguistics, p. 197-207.
Duran, M.S. (2022) “Manual de Anotação de Relações de Dependência –Versão Revisada e Estendida”. Relatório Técnico do ICMC 440. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Outubro, 166p.
Duran, M.S.; Nunes, M.G.V.; Pardo, T.A.S. (2023). Avaliação qualitativa do analisador sintático UDPipe 2 treinado sobre o córpus jornalístico Porttinari-base. Relatório Técnico do ICMC 442. Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo. São Carlos-SP, Abril, 58p.
de Marneffe, M.; Manning, C.; Nivre, J.; Zeman, D. (2021) “Universal Dependencies”, In: Computational Linguistics 47 (2). MIT PRESS, p. 255-308.
Miranda, L.G.M.; Pardo, T.A.S. (2022) “An Improved and Extended Annotation Tool for Universal Dependencies-based Treebank Construction”, In: Proceedings of the PROPOR Demonstrations Workshop, p.1-3.
Nivre, J.; de Marneffe, M.; Ginter, F.; Hajič, J.; Manning, C.; Pyysalo, S.; Schuster, S.; Tyers, F.; Zeman, D. (2020) “Universal Dependencies v2: An Evergrowing Multilingual Treebank Collection”. In: Proceedings of the 12nd International Conference on Language Resources and Evaluation (LREC 2020), p. 4034-4043.
Pardo, T.A.S.; Duran, M.S.; Lopes, L.; Di Felippo, A.; Roman, N.T.; Nunes, M.G.V. (2021) “Porttinari - A large multi-genre treebank for Brazilian Portuguese”. In: Proceedings of the XIV Symposium in Information and Human Language (STIL 2021), p. 1-10.
Rademaker, A.; Chalub, F.; Real, Livy; Freitas, C.; Bick, E.; Paiva, V. (2017) “Universal Dependencies for Portuguese”. In: Proceedings of the Fourth International Conference on Dependency Linguistics. Linköping University Electronic Press, p. 197-206.
Shorten, C., & Khoshgoftaar, T. M. (2019). “A survey on Image Data Augmentation for Deep Learning”. In: Journal of Big Data, 6(1), 60.
Straka, M. (2018) “UDPipe 2.0 Prototype at CoNLL 2018 UD Shared Task”. In: Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies. Brussels, Belgium: Association for Computational Linguistics, p. 197-207.
Publicado
25/09/2023
Como Citar
DURAN, Magali S.; NUNES, Maria das Graças V.; PARDO, Thiago A. S..
Construções sintáticas do português que desafiam a tarefa de parsing: uma análise qualitativa. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 14. , 2023, Belo Horizonte/MG.
Anais [...].
Porto Alegre: Sociedade Brasileira de Computação,
2023
.
p. 424-433.
DOI: https://doi.org/10.5753/stil.2023.25483.