Natural Language Processing and Syntactic Complexity

Abstract


This work is part of the studies of Textual and terminological accessibility. The corpus of study is the digital publication Learning about viruses and vaccines. The contrasting corpora are: (1) set of texts about palliative care, and (2) set of judgments of the Special Civil Courts. The goal is to map the syntactic features of these corpora, in order to verify which corpus is the simplest. Such corpora, of distinct features, were tagged by the UDPipe Grammar and explored according to some pre-established syntactic analysis criteria. The contrasts indicate that the corpus of study has simpler syntax, although some of the points explored deserve special attention. Thus, such comparisons will enrich the analysis and discussion about the accessibility of this material, as well as serving as foundation to the study as a whole.

Keywords: Natural Language Processing, Syntactic Complexity, Accessibility

References

de SOUZA, E.; FREITAS, C. ET: uma Estação de Trabalho para revisão, edição e avaliação de corpora anotados morfossintaticamente. In: WORKSHOP DE INICIAÇÃO CIENTÍFICA EM TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (TILic 2019), VI., 2019. Salvador. Proceedings [...]. Salvador: SBC, 2019. p. 15-18. [link].

de SOUZA, E.;FREITAS, C. Sujeito oculto às claras: uma abordagem descritivo-computacional. In: Revista Estudos da Linguagem. Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021. [link]. [link].

ESTEVES, F. F. DEFINIÇÕES ACESSÍVEIS: POR UMA LINGUAGEM SIMPLES EM CUIDADOS PALIATIVOS. 157f. Dissertação (Mestrado em Letras) – Instituto de Letras, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2023. http://hdl.handle.net/10183/258591

FINATTO, M. J. B. ; MOTTA, E. Terminologia e Acessibilidade: novas demandas e frentes de pesquisa. REVISTA GTLEX, v. 2, p. 316-356, 2019. https://doi.org/10.14393/Lex4-v2n2a2017-6 [link].

FULGÊNCIO, L.; LIBERATO, Y. Como Facilitar a Leitura. São Paulo: Contexto, 1992.

LEAL, Sidney Evaldo, DURAN, Magali Sanches, SCARTON, Carolina Evaristo, HARTMANN, Nathan Siegle, ALUÍSIO, Sandra Maria. NILC-Metrix: avaliando a complexidade da linguagem escrita e falada no português brasileiro. CoRR abs/2201.03445 (2022). Disponível em: https://arxiv.org/abs/2201.03445 Acesso em: 11 jun. 2023. https://doi.org/10.48550/arXiv.2201.03445

MOTTA, E. SENTENÇAS JUDICIAIS E LINGUAGEM SIMPLES: um encontro possível e necessário. 411f. Tese (Doutorado em Letras) – Instituto de Letras, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2022. http://hdl.handle.net/10183/246496

PERINI, M. A. A Leitura Funcional e a Dupla Função do Texto Didático. In: ZILBERMAN, Regina; SILVA, Ezequiel Theodoro (org.). Leitura: Perspectivas Interdisciplinares. São Paulo: Ática, 1988.

RODRIGUES, E. C.; FREITAS, C.; QUENTAL, V. Análise de inteligibilidade textual por meio de ferramentas de processamento automático do português: avaliação da Coleção Literatura para Todos. In: Letras de Hoje, Porto Alegre, v.48, n. 1, p.91-99, jan./mar. 2013. [link].

RODRIGUES, L. C. J. Aprendendo sobre vírus e vacinas [recurso eletrônico]. Porto Alegre: Editora da UFCSPA, 2020. ISBN 978-65-87950-28-0. [link].

SCARTON, C.; ALUISIO, S. M. Análise da Inteligibilidade de textos via ferramentas de Processamento de Língua Natural: adaptando as métricas do Coh-Metrix para o português. LinguaMática 2 (2010): p. 45-62. [link].

STRAKA, M.; HAJIC, J.; STRAKOVÁ, J. UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing. In: TENTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION (LREC’16), 10th., Portorož, Proceedings [...]. Portorož: ELRA, 2016. p. 4290-4297. https://aclanthology.org/L16-1680
Published
2023-09-25
DA SILVA, Bruna R.. Natural Language Processing and Syntactic Complexity. In: BRAZILIAN SYMPOSIUM IN INFORMATION AND HUMAN LANGUAGE TECHNOLOGY (STIL), 14. , 2023, Belo Horizonte/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2023 . p. 318-327. DOI: https://doi.org/10.5753/stil.2023.233967.