Lexicalidade biomédica e sua mensuração em um corpus sobre COVID-19 em língua portuguesa

  • Karhyne S. Padilha de Assis UFABC
  • Camila das Merces Silva UFABC
  • Janaína da Silva Leite UFABC
  • Wellington Araujo Nogueira UFABC
  • Kenji Nose Filho UFABC
  • André K. Takahata UFABC
  • Margarethe Steinberger-Elias UFABC

Resumo


Analisamos o léxico biomédico de um corpus de textos em língua portuguesa da base Pubmed sobre a Covid-19. A adoção inicial de medidas clássicas de densidade e diversidade lexical não foi capaz de evidenciar a distribuição lexical nos diferentes gêneros e especialidades clínicas de que se compõe o corpus. Com base no conceito de "lexicalidade biomédica", foi proposto e testado um novo indicador, o Lex-BioMed, com bons resultados.

Referências

V. Kannan e S. Gurusamy (2014), "Preprocessing Techniques for Text Mining – An Overview", International Journal of Computer Science & Communication Networks, V. 5, p. 7-16.

Leite, J. S., Takahata, A. K., Steinberger-Elias, M.(2020) Elaboração de corpus biomédico em Português sobre o Covid-19. Journal of Health Informatics: Número Especial CBIS Congresso Brasileiro de Informática em Saúde. Dezembro p.242-247. http://www.jhi-sbis.saude.ws/ojs-jhi/index.php/jhi-sbis/article/view/821

Leite, J. S., Takahata, A. K., Steinberger-Elias, M. (2020) “Criação e análise de amostras de corpora em Português Brasileiro para detecção automática de expressões complexas em textos sobre Covid-19”. In: XXVII Brazilian Congress on Biomedical Engineering. Proceedings of CBEB 2020, October 26-30, Vitoria, Brazil. https://www.springer.com/gp/book/9783030706005

Orengo, V. & Huyck, C. (2001) “A stemming algorithm for the Portuguese language”. In Proceedings of the Eighth International Symposium on String Processing and Information Retrieval (SPIRE 2001), (p. 186-193). Laguna de San Rafael, Chile: IEEE Computer Society Press.

Aluísio, S. M.; Almeida, G. M. D. B. (2006) “O que é e como se constrói um corpus? Lições aprendidas na compilação de vários corpora para pesquisa linguística Calidoscópio”, São Leopoldo, V. 4, n.3. p.155-177.

Celso Romão Cardoso De Almeida Júnior (2017). “Proposta de um Sistema Automático de Avaliação de Redações do Enem, Foco na Competência 1: Demonstrar Domínio da Modalidade Escrita Formal da Língua Portuguesa”. Dissertação de Mestrado.

Cucinotta, Domenico, and Maurizio Vanelli. (2020) “WHO declares COVID-19 a pandemic”. Acta Bio Médica: Atenei Parmensis 91.1 (2020): p.157.

Vasconcellos-Silva, P. R., & Castiel, L. D. (2020) “COVID-19, “As fake news e o sono da razão comunicativa gerando monstros: a narrativa dos riscos e os riscos das narrativas”. Cadernos de Saúde Pública, V. 36, n. 7, p.1-6.

Peixoto, V. R., Mexia, R., Santos, N. D. S., Carvalho, C., & Abrantes, A. (2020) “Da tuberculose ao COVID-19: legitimidade jurídico-constitucional do isolamento/tratamento compulsivo por doenças contagiosas”. In Portugal. Acta Médica Portuguesa, V. 33, p.225-228.

Krieger, M. da G, Finatto, M. J. B. (2004) “Introdução à terminologia: teoria & prática”. São Paulo: Contexto, p.348.

Ure, J. (1971) “Lexical density and register differentiation”. In: G.E. PERREN; J.L.M. TRIM (eds.), Applications of linguistics. Selected papers of the Second International Congress of Applied Linguistics. Cambridge/Londres, Cambridge University Press, p. 443-452.

Johansson, V. (2008) “Lexical diversity and lexical density in speech and writing: a developmental perspective”. Lund University, Department of Linguistics and Phonetics: Working Papers, V. 53, p.61-79.

Broeder, P., Coenen, J., Extra, G., van Hout, R., & Zerrouk, R. (1986) “Ontwikkelingen in het Nederlandstalig lexicon bij anderstalige volwassenen: Een macro- en microperspectief”. In J. Creten, G. Geerts, & K. Jaspaert (Eds.), Werk-in-uitvoering: Momentopname van de sociolinguïstiek in België en Nederland, p.39-57.

Perna, L. Cristina; Delgado, K. Heloísa; Finatto, J. Maria. (2010) “Linguagens Especializadas em CORPORA. Modos de Dizer e Interfaces de Pesquisa”. EDIPUCS- Editora Universitária da Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, p.138.

Santos, E. S. et al. (2018) “Diversidade e densidade lexical em textos escritos por alunos recém-alfabetizados: um estudo descritivo de produções individuais e em díades”. Calidoscópio Revista Unisinos, V. 16, n.1, p.25-32.

Silva W.D.C.M. (2013) “Aprimorando o corretor gramatical CoGrOO”, Dissertação de Mestrado em Ciência da Computação, IME-USP, São Paulo, SP.

Zilio, L. (2009) “Colocações especializadas e Komposita: um estudo contrastivo alemão-português na área de cardiologia”. Porto Alegre: UFRGS. Dissertação de Mestrado. PPG-LETRAS/UFRGS.
Publicado
29/11/2021
ASSIS, Karhyne S. Padilha de; SILVA, Camila das Merces; LEITE, Janaína da Silva; NOGUEIRA, Wellington Araujo; NOSE FILHO, Kenji; TAKAHATA, André K.; STEINBERGER-ELIAS, Margarethe. Lexicalidade biomédica e sua mensuração em um corpus sobre COVID-19 em língua portuguesa. In: SIMPÓSIO BRASILEIRO DE TECNOLOGIA DA INFORMAÇÃO E DA LINGUAGEM HUMANA (STIL), 13. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 39-46. DOI: https://doi.org/10.5753/stil.2021.17782.