Fairness em Machine Learning: Uma análise baseada na Teoria de Resposta ao Item
Resumo
A popularização das ferramentas de Machine Learning tornou evidente um novo problema: modelos injustos aplicados em contextos sensíveis. Diante disso, este artigo explora a utilização da Teoria de Resposta ao Item na análise de modelos treinados em dados de contexto sensível. Como estudo de caso, o dataset Credit-G foi utilizado para analisar o impacto de uma injustiça existente em si. Os dados apresentam um viés de representação de gênero, portanto, a geração de dados sintéticos foi utilizada para mitigar essa injustiça. A avaliação pelos conceitos da TRI dos parâmetros de item para os dois grupos (enviesados e mitigados) indicam que dados enviesados podem ser percebidos pela ocorrência de instâncias com discriminação negativa. Os resultados obtidos mostram que, para o conjunto mitigado, as instâncias femininas apresentaram valores médios de −1.675 de discriminação, enquanto as masculinas apresentaram 3.2.
Referências
Cardoso, L. F., Ribeiro Filho, J. d. S., Santos, V. C., Kawasaki Francês, R. S., and Alves, R. C. (2024). Standing on the shoulders of giants. In Brazilian Conference on Intelligent Systems, pages 416–430. Springer.
Cardoso, L. F., Santos, V. C., Francês, R. S. K., Prudêncio, R. B., and Alves, R. C. (2020). Decoding machine learning benchmarks. In Brazilian conference on intelligent systems, pages 412–425. Springer.
Corrales-Barquero, R., Marín-Raventós, G., and Barrantes, E. G. (2021). A review of gender bias mitigation in credit scoring models. In 2021 Ethics and Explainability for Responsible Data Science (EE-RDS), pages 1–10.
Diakopoulos, N. (2021). Algorithm auditing: Managing the legal, ethical, and technological risks of artificial intelligence, machine learning, and associated algorithms. IEEE Transactions on Technology and Society, 2(3):143–148.
Dressel, J. and Farid, H. (2018). The accuracy, fairness, and limits of predicting recidivism. Science Advances, 4(1).
Hofmann, H. (1994). Uci machine learning repository: Statlog (german credit data) data set. Institut fur Statistik und “Okonometrie Universit” at Hamburg.
Lord, F. M. and Wingersky, M. S. (1984). Comparison of irt true-score and equipercentile observed-score”equatings”. Applied psychological measurement, 8(4):453–461.
Martínez-Plumed, F., Prudêncio, R. B. C., Martínez-Usó, A., and Hernández-Orallo, J. (2016). Making sense of item response theory in machine learning. In Proceedings of the 22nd European Conference on Artificial Intelligence (ECAI 2016), pages 1140–1148.
Mehrabi, N., Morstatter, F., Saxena, N., Lerman, K., and Galstyan, A. (2019). A survey on bias and fairness in machine learning. arXiv preprint arXiv:1908.09635.
Mitchell, S., Potash, E., Barocas, S., D’Amour, A., and Lum, K. (2021). Algorithmic fairness: Choices, assumptions, and definitions. Annual Review of Statistics and Its Application, 8:141–163.
Patki, N., Wedge, R., and Veeramachaneni, K. (2016). The synthetic data vault. In 2016 IEEE International Conference on Data Science and Advanced Analytics (DSAA), pages 399–410.
Sengupta, S. and Dave, V. (2022). Predicting applicable law sections from judicial case reports using legislative text analysis with machine learning. Journal of Computational Social Science, 5:503–516.
Sidey-Gibbons, J. A. and Sidey-Gibbons, C. J. (2019). Machine learning in medicine: a practical introduction. BMC medical research methodology, 19:1–18.
Vayena, E., Blasimme, A., and Cohen, I. G. (2018). Machine learning in medicine: Addressing ethical challenges. PLOS Medicine, 15(11):e1002689.
