Parameters for annotating grammatical gender in brazilian portuguese nouns

  • Lucas Lima Gregório UFS
  • Graziele Santos Martins UFS
  • Eulália Santana Freitas UFS
  • Túlio Sousa de Gois UFS
  • Raquel Meister Ko. Freitag UFS

Abstract


This study investigates the attribution of grammatical gender in Brazilian Portuguese, with a focus on the Sergipan variety, using the Falares Sergipanos database and the spaCy tool. After automatic labeling and expert review, a significant discrepancy was observed between human and automatic classifications, highlighting error patterns related to gender stereotyping and technological limitations. Eight parameters were proposed to classify nouns in terms of grammatical gender according to morphological and syntactic features. The results contribute to the description of spoken Brazilian Portuguese, support the development of more inclusive language technologies and promote Open Science and replicability practices.

References

Bacelar, H. Q. (2025). A gente eu acho que tá correto também, mas não tão correto?: uso e avaliação de pronomes de primeira pessoa do plural por estudantes da ufsc. Dissertação (mestrado em linguística), Universidade Federal de Santa Catarina.

Bechara, E. (2018). Moderna gramática portuguesa. Nova Fronteira, Rio de Janeiro, 39 edition.

Caldas Aulete, F. J. (2004). Minidicionário contemporâneo da língua portuguesa. Nova Fronteira, Rio de Janeiro.

Câmara Júnior, J. M. (1992). Estrutura da língua portuguesa. Vozes.

Cardoso, P. B. (2021). Efeitos linguísticos e paralinguísticos na inferência dos sentidos indicados por (eu) acho que em entrevistas sociolinguísticas. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão.

Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1):37–46.

Correa, T. R. A. (2019). A variação na realização de /t/ e /d/ na comunidade de práticas da ufs: mobilidade e integração. Dissertação (mestrado em estudos linguísticos), Universidade Federal de Sergipe.

de Barros Santos, V., Freitag, R. M. K., do Nascimento, R., Silva, E. S., and de Gois, T. S. (2023). Linguagem inclusiva e comunicação não sexista na universidade federal de sergipe. Revista do GELNE, 25(3):e32554–e32554.

Freitag, R. (2024). Não existe linguagem neutra!: gênero na sociedade e na gramática do português brasileiro. Editora Contexto, São Paulo.

Freitag, R., Tejada, J., Pinheiro, B., and Cardoso, P. (2021). Função na língua, generalização e reprodutibilidade. Revista da ABRALIN, pages 1–27.

Freitag, R. M. K. (2013). Banco de dados falares sergipanos. Working Papers em Linguística, 14(2):156–164.

Honnibal, M., Montani, I., Van Landeghem, S., and Boyd, A. (2020). spaCy: Industrial-strength Natural Language Processing in Python.

Landis, J. R. and Koch, G. G. (1977). The measurement of observer agreement for categorical data. biometrics, pages 159–174.

Moura Neves, M. H. (2000). Gramática de usos do português. Editora da UNESP, São Paulo.

Novais, V. S. (2021). Variação na concordância verbal de terceira pessoa do plural na fala de universitários sergipanos. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão, SE.

Pinheiro, B. F. M. (2021). Pistas linguísticas e paralinguísticas para os sentidos diminutivos. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão.

Pinheiro, B. F. M. and Freitag, R. M. K. (2020). Estereótipos na concordância de gênero em profissões: efeitos de frequência e saliência. Linguística, 16(1):85–107.

Ribeiro, C. C. S. (2019). Deslocamento geográfico e padrões de uso linguístico: a variação entre as preposições em ni na comunidade de práticas da universidade federal de sergipe. Dissertação (mestrado em letras), Universidade Federal de Sergipe.

Rocha Lima, C. H. d. (1973). Gramática normativa da língua portuguesa. J. Olympio.

Rodrigues, F. G. C. (2021). Variação na regência de complementos locativos de verbos de movimento na fala de universitários da ufs. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão, SE.

Schwindt, L. C. (2020). Predizibilidade da marcação de gênero em substantivos no português brasileiro. In Carvalho, D. and Brito, D., editors, Gênero e língua(gem): formas e usos, volume 1, pages 279–294. Editora da UFBA, Salvador / Bahia.

Silva, L. S. (2021). Análise acústica ou de oitiva? contribuições para o estudo da palatização em sergipe. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão.

Siqueira, J. (2020). Variação no preenchimento da posição determinante antes de possessivos pré-nominais: padrões dialetais e contatos. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão.

Siqueira, J. (2025). Covariação morfossintática no português brasileiro: identificação dialetal de estudantes da Universidade Federal de Sergipe. Tese (doutorado em letras), Universidade Federal de Sergipe, São Cristóvão.

Siqueira, M. and Freitag, R. M. K. O controle da mobilidade na constituição de amostras sociolinguísticas. In LABPEC (no prelo), pages 1–20.

Siqueira, M., Sousa, M. D. A. F., and Rodrigues, F. G. C. (2023). Sistematizando padrões dialetais morfossintáticos: Mobilidade e contato. In Freitag, R. M. K. and Savedra, M. M. G., editors, Mobilidades e Contatos Linguísticos no Brasil, pages 165–188. Blucher, São Paulo.

Souza, V. R. A. (2022). Monotongação dos ditongos decrescentes orais [o], [e], [a] e [o] na fala e na leitura em voz alta de universitários sergipanos. Dissertação (mestrado em letras), Universidade Federal de Sergipe, São Cristóvão.

Surreaux, P. and Schwindt, L. C. (2021). Marcação de gênero gramatical em formações novas em português brasileiro. Estudos Linguísticos e Literários, (72):390–414.

Tajfel, H. (2010). Social identity and intergroup relations, volume 7. Cambridge University Press.
Published
2025-08-12
GREGÓRIO, Lucas Lima; MARTINS, Graziele Santos; FREITAS, Eulália Santana; GOIS, Túlio Sousa de; FREITAG, Raquel Meister Ko.. Parameters for annotating grammatical gender in brazilian portuguese nouns. In: REGIONAL SCHOOL ON COMPUTING OF BAHIA, ALAGOAS, AND SERGIPE (ERBASE), 25. , 2025, Lagarto/SE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 221-230. DOI: https://doi.org/10.5753/erbase.2025.13723.