Ética para LLMs: o compartilhamento de dados sociolinguísticos

  • Marta Deysiane Alves Faria Sousa UFS
  • Raquel Meister Ko Freitag UFS
  • Tulio Sousa de Gois UFS

Resumo


Considerando que a compilação de dados de fala feita na área de Sociolinguística pode contribuir para a alimentação de grandes modelos de linguagem, haja vista sua qualidade e representatividade, neste artigo discutimos questoes éticas referentes à coleta e compartilhamento desses dados. Apontamos, também, possíveis caminhos para lidar eticamente com a sensibilidade de dados de fala, uma vez que eles podem levar a identificação dos informantes que cederam sua fala.
Palavras-chave: Ética para LLMs, Dados de Fala, LGPD

Referências

Bender, E. M., Gebru, T., McMillan-Major, A., and Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency, pages 610–623.

Calamai, S. and Frontini, F. (2018). Fair data principles and their application to speech and oral archives. Journal of new music research, 47(4):339–354.

de Oliveira Figueiredo, L., Lopes, A. M. Z., Validorio, V. C., and Mussio, S. C. (2023). Desafios e impactos do uso da inteligencia artificial na educação. Educação Online, 18(44):e18234408–e18234408.

Freitag, R. M. K. (2021). Linguistic repositories as asset: Challenge for sociolinguistic approach in Brazil. In Proceedings of the 1st International Workshop on Digital Language Archives 2021. University of North Texas.

Freitag, R. M. K. (2022). Sociolinguistic repositories as asset: challenges and difficulties in Brazil. The Electronic Library, 40(5):607–622.

Labov, W. et al. (1981). Field methods of the project on linguistic change and variation.

Leao, J. C., Leão, J. J. C. C., dos Santos, A. B., Marques, T. M., and Santos, E. M. S. (2021). Inteligência artificial na educação: aplicações do aprendizado de máquina para apoiar a aprendizagem adaptativa. Revista Multidisciplinar do Vale do JequitinhonhaReviVale, 1(1).

Lyon, L. (2016). Transparency: The emerging third dimension of open science and open data. LIBER Quarterly: The Journal of the Association of European Research Libraries, 25(4):153–171.

Mello, H. R. (2021). Trabalhando com dados de fala: a experiência do projeto c-oral-brasil. In Brescancini, C. R., editor, Projeto VARSUL - Variação Linguística no Sul do Brasil 36 anos, pages 31–54. Editora Zouk, Porto Alegre, 1 edition.

Sousa, M. D. A. F. and Freitag, R. M. K. (2024). Bancos de dados sociolinguísticos e a ciência aberta: compartilhamento de dados e conhecimentos. Revista Dialógos, 12(1):165–187.
Publicado
27/11/2024
SOUSA, Marta Deysiane Alves Faria; FREITAG, Raquel Meister Ko; GOIS, Tulio Sousa de. Ética para LLMs: o compartilhamento de dados sociolinguísticos. In: CONFERÊNCIA LATINO-AMERICANA DE ÉTICA EM INTELIGÊNCIA ARTIFICIAL, 1. , 2024, Niteroi. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2024 . p. 113-116. DOI: https://doi.org/10.5753/laai-ethics.2024.32465.