Me deixe pensar sobre isso! uma análise do uso de CoT para identificar vieses nas respostas de LLM para o Português Brasileiro
Resumo
Este trabalho investiga a eficácia da técnica Chain-of-Thought Prompting (CoT) na identificação e mitigação de vieses em respostas provenientes de modelos de linguagem em larga escala (LLM) para o português brasileiro. Utilizando os modelos GPT-4o mini e Sabiá-3, foram testadas diferentes técnicas de prompting: Zero-Shot, Zero-Shot-CoT e CoT. Os resultados indicam que a técnica CoT se mostrou mais eficiente na detecção de viés étnico-racial, enquanto a técnica Zero-Shot se destacou na identificação de vieses de gênero, etário e de religião. O Sabiá-3 demonstrou menor tendência à perpetuação de estereótipos em comparação ao GPT-4o mini, o que sugere que a especificidade do modelo quanto ao contexto brasileiro permite que o mesmo identifique de forma mais criteriosa estereótipos nocivos e aplique mecanismos de filtragem mais eficazes.
Referências
Abonizio, H., Almeida, T. S., Laitz, T., Junior, R. M., Bonás, G. K., Nogueira, R., and Pires, R. (2025). Sabiá-3 technical report.
Assi, F. and Caseli, H. (2024). Biases in gpt-3.5 turbo model: a case study regarding gender and language. In Anais do XV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 294–305, Porto Alegre, RS, Brasil. SBC.
Bagno, M. (1999). Preconceito lingüístico: o que é, como se faz. Edições Loyola.
Bender, E. M., Gebru, T., McMillan-Major, A., and Shmitchell, S. (2021). On the dangers of stochastic parrots: Can language models be too big? In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency, FAccT ’21, page 610–623, New York, NY, USA. Association for Computing Machinery.
Bolukbasi, T., Chang, K.-W., Zou, J., Saligrama, V., and Kalai, A. (2016). Man is to computer programmer as woman is to homemaker? debiasing word embeddings.
BRASIL (2024). Projeto de lei nº 2338, de 26 de dezembro de 2023. Senado Federal.
Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901.
Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1):37–46.
Dagnino, R. (2002). Enfoques sobre a relação ciência, tecnologia e sociedade: neutralidade e determinismo. Organização dos Estados Ibero-americanos para a Educação, a ciência e a cultura.
Dignum, V. (2021). The myth of complete ai-fairness.
Elliott, D. and Elliott, R. (1980). El control popular de la tecnología. Editorial Gustavo Gili, S.A., Barcelona. Original publicado em 1976.
Feenberg, A. (2002). Transforming Technology: A Critical Theory Revisited. Oxford University Press.
Floridi, L., Cowls, J., Beltrametti, M., Chatila, R., Chazerand, P., Dignum, V., Luetge, C., Madelin, R., Pagallo, U., Rossi, F., Schafer, B., Valcke, P., and Vayena, E. (2018). Ai4people–an ethical framework for a good ai society: Opportunities, risks, principles, and recommendations. Minds and Machines, 28(4):689–707.
Freitag, R. (2024). Não existe linguagem neutra! Gênero na sociedade e na gramática do português brasileiro. Editora Contexto.
Garg, N., Schiebinger, L., Jurafsky, D., and Zou, J. (2018). Word embeddings quantify 100 years of gender and ethnic stereotypes. Proceedings of the National Academy of Sciences, 115(16).
Hofmann, V., Kalluri, P. R., Jurafsky, D., and King, S. (2024). Dialect prejudice predicts ai decisions about people’s character, employability, and criminality.
Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., and Iwasawa, Y. (2023). Large language models are zero-shot reasoners.
Lacey, H. (2005). Is Science Value Free?: Values and Scientific Understanding. Philosophical Issues in Science. Taylor & Francis.
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., and Galstyan, A. (2022). A survey on bias and fairness in machine learning.
Mhatre, A. (2023). Detecting the presence of social bias in gpt-3.5 using association tests. In 2023 International Conference on Advanced Computing Technologies and Applications (ICACTA), pages 1–6.
na Rede, C. D. (2023). Nota técnica: Pl 2338/2023. Página da web. Acessado em 2024-03-13.
Nadeem, M., Bethke, A., and Reddy, S. (2021). StereoSet: Measuring stereotypical bias in pretrained language models. In Zong, C., Xia, F., Li, W., and Navigli, R., editors, Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 5356–5371, Online. Association for Computational Linguistics.
Neaher, G., Laforge, G., Muggah, R., and Seiler, G. (2024). Responsible and safe ai: A primer for policymakers in the global south. This report was funded by the Global Innovation Fund.
NIC.br (2022). InteligÊncia artificial e cultura: perspectivas para a diversidade cultural na era digital. Cadernos NIC.br - Estudos Setoriais. Acessado em 2024-03-13.
Nunes, M. d. G. V., Soares, T. A., and Ferro, M. (2024). Questões éticas em ia e pln. In Caseli, H. M. and Nunes, M. G. V., editors, Processamento de Linguagem Natural: Conceitos, Técnicas e Aplicações em Português, book chapter 29. BPLN, 2 edition.
OpenAI (2019). Better language models and their implications. 14 February 2019. Archived from the original on 19 December 2020. Retrieved 19 December 2020.
OpenAI, Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., Almeida, D., Altenschmidt, J., Altman, S., Anadkat, S., Avila, R., Babuschkin, I., Balaji, S., Balcom, V., Baltescu, P., Bao, H., Bavarian, M., Belgum, J., Bello, I., Berdine, J., Bernadett-Shapiro, G., Berner, C., Bogdonoff, L., Boiko, O., Boyd, M., Brakman, A.-L., Brockman, G., Brooks, T., Brundage, M., Button, K., Cai, T., Campbell, R., Cann, A., Carey, B., Carlson, C., Carmichael, R., Chan, B., Chang, C., Chantzis, F., Chen, D., Chen, S., Chen, R., Chen, J., Chen, M., Chess, B., Cho, C., Chu, C., Chung, H. W., Cummings, D., Currier, J., Dai, Y., Decareaux, C., Degry, T., Deutsch, N., Deville, D., Dhar, A., Dohan, D., Dowling, S., Dunning, S., Ecoffet, A., Eleti, A., Eloundou, T., Farhi, D., Fedus, L., Felix, N., Fishman, S. P., Forte, J., Fulford, I., Gao, L., Georges, E., Gibson, C., Goel, V., Gogineni, T., Goh, G., Gontijo-Lopes, R., Gordon, J., Grafstein, M., Gray, S., Greene, R., Gross, J., Gu, S. S., Guo, Y., Hallacy, C., Han, J., Harris, J., He, Y., Heaton, M., Heidecke, J., Hesse, C., Hickey, A., Hickey, W., Hoeschele, P., Houghton, B., Hsu, K., Hu, S., Hu, X., Huizinga, J., Jain, S., Jain, S., Jang, J., Jiang, A., Jiang, R., Jin, H., Jin, D., Jomoto, S., Jonn, B., Jun, H., Kaftan, T., Łukasz Kaiser, Kamali, A., Kanitscheider, I., Keskar, N. S., Khan, T., Kilpatrick, L., Kim, J. W., Kim, C., Kim, Y., Kirchner, J. H., Kiros, J., Knight, M., Kokotajlo, D., Łukasz Kondraciuk, Kondrich, A., Konstantinidis, A., Kosic, K., Krueger, G., Kuo, V., Lampe, M., Lan, I., Lee, T., Leike, J., Leung, J., Levy, D., Li, C. M., Lim, R., Lin, M., Lin, S., Litwin, M., Lopez, T., Lowe, R., Lue, P., Makanju, A., Malfacini, K., Manning, S., Markov, T., Markovski, Y., Martin, B., Mayer, K., Mayne, A., McGrew, B., McKinney, S. M., McLeavey, C., McMillan, P., McNeil, J., Medina, D., Mehta, A., Menick, J., Metz, L., Mishchenko, A., Mishkin, P., Monaco, V., Morikawa, E., Mossing, D., Mu, T., Murati, M., Murk, O., Mély, D., Nair, A., Nakano, R., Nayak, R., Neelakantan, A., Ngo, R., Noh, H., Ouyang, L., O’Keefe, C., Pachocki, J., Paino, A., Palermo, J., Pantuliano, A., Parascandolo, G., Parish, J., Parparita, E., Passos, A., Pavlov, M., Peng, A., Perelman, A., de Avila Belbute Peres, F., Petrov, M., de Oliveira Pinto, H. P., Michael, Pokorny, Pokrass, M., Pong, V. H., Powell, T., Power, A., Power, B., Proehl, E., Puri, R., Radford, A., Rae, J., Ramesh, A., Raymond, C., Real, F., Rimbach, K., Ross, C., Rotsted, B., Roussez, H., Ryder, N., Saltarelli, M., Sanders, T., Santurkar, S., Sastry, G., Schmidt, H., Schnurr, D., Schulman, J., Selsam, D., Sheppard, K., Sherbakov, T., Shieh, J., Shoker, S., Shyam, P., Sidor, S., Sigler, E., Simens, M., Sitkin, J., Slama, K., Sohl, I., Sokolowsky, B., Song, Y., Staudacher, N., Such, F. P., Summers, N., Sutskever, I., Tang, J., Tezak, N., Thompson, M. B., Tillet, P., Tootoonchian, A., Tseng, E., Tuggle, P., Turley, N., Tworek, J., Uribe, J. F. C., Vallone, A., Vijayvergiya, A., Voss, C., Wainwright, C., Wang, J. J., Wang, A., Wang, B., Ward, J., Wei, J., Weinmann, C., Welihinda, A., Welinder, P., Weng, J., Weng, L., Wiethoff, M., Willner, D., Winter, C., Wolrich, S., Wong, H., Workman, L., Wu, S., Wu, J., Wu, M., Xiao, K., Xu, T., Yoo, S., Yu, K., Yuan, Q., Zaremba, W., Zellers, R., Zhang, C., Zhang, M., Zhao, S., Zheng, T., Zhuang, J., Zhuk, W., and Zoph, B. (2024). Gpt-4 technical report.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I., et al. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8):9.
Rodrigues, G., Albuquerque, D., and Chagas, J. (2023). Análise de vieses ideológicos em produções textuais do assistente de bate-papo chatgpt. In Anais do IV Workshop sobre as Implicações da Computação na Sociedade, pages 148–155, Porto Alegre, RS, Brasil. SBC.
Santana, B. S., Woloszyn, V., and Wives, L. K. (2018). Is there gender bias and stereotype in portuguese word embeddings?
Sheng, E., Chang, K.-W., Natarajan, P., and Peng, N. (2019). The woman worked as a babysitter: On biases in language generation. In Inui, K., Jiang, J., Ng, V., and Wan, X., editors, Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 3407–3412, Hong Kong, China. Association for Computational Linguistics.
Taso, F., Reis, V., and Martinez, F. (2023a). Discriminação algorítmica de gênero: Estudo de caso e análise no contexto brasileiro. In Anais do IV Workshop sobre as Implicações da Computação na Sociedade, pages 13–25, Porto Alegre, RS, Brasil. SBC.
Taso, F., Reis, V., and Martinez, F. (2023b). Sexismo no brasil: análise de um word embedding por meio de testes baseados em associação implícita. In Anais do XIV Simpósio Brasileiro de Tecnologia da Informação e da Linguagem Humana, pages 53–62, Porto Alegre, RS, Brasil. SBC.
Tuna, M., Schaaff, K., and Schlippe, T. (2024). Effects of language- and culture-specific prompting on chatgpt. In 2024 2nd International Conference on Foundation and Large Language Models (FLLM), pages 73–81.
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
Vig, J. (2019). A multiscale visualization of attention in the transformer model. CoRR, abs/1906.05714.
Wei, A., Haghtalab, N., and Steinhardt, J. (2023a). Jailbroken: How does llm safety training fail?
Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., and Zhou, D. (2023b). Chain-of-thought prompting elicits reasoning in large language models.
Whelchel, R. J. (1986). Is technology neutral? IEEE Technology and Society Magazine, 5(4):3–8.
Winner, L. (1980). Do artifacts have politics? Daedalus, 109(1):121–136.
