Equivalência entre a Área sob a Curva Kolmogorov-Smirnov e o Índice de Gini na Avaliação de Desempenho de Decisões Binárias

  • Paulo J. L. Adeodato Universidade Federal de Pernambuco
  • Sílvio B. Melo Universidade Federal de Pernambuco

Resumo


Este artigo propõe e prova a importante equivalência entre o índice de Gini e a área sob a curva da distribuição Kolmogorov-Smirnov (KS). A lógica da prova é semelhante à utilizada na prova de equivalência entre a AUC_ROC e a AUC_KS. Mas, diferente daquela, esta usa uma transformação que preserva a relação 1-para-1 entre o classificador ideal nos domínios das curvas KS e de Lorenz. Como métricas, este artigo prova que a razão do índice de Gini pelo do classificador ideal é equivalente à razão da área sob a KS pela área do classificador ideal. Isso é Gini_Index_Ratio = AUC_KS_Ratio. Isso complementa a equivalência entre as métricas de área KS e ROC, estendendo-a para o índice de Gini.
Palavras-chave: Índice de Gini, Kolmogorov-Smirnov, Equivalência entre métricas

Referências

Adeodato, P. J. L. e Melo, S. B. (2016) “On the equivalence between Kolmogorov-Smirnov and ROC curve metrics for binary classification”. Cornell University Library ARXIV, 2016arXiv160600496A, https://arxiv.org/abs/1606.00496.

Adeodato, P. J. L. et al. (2008) “The Power of Sampling and Stacking for the PAKDD-2007 Cross-Selling Problem”. Int. Jour. Data War. Mining, 4, pp. 22–31.

Bellù, L. G. e Liberati, P. (2006) “Inequality Analysis – The Gini Index”. Food and Agriculture Organization, United Nations.

Ceriani, L. e Verme, P. (2012) “The origins of the Gini index: extracts from Variabilità e Mutabilità (2012) by Corrado Gini”. J. Econ. Inequal. 10:421–443.

Conover, W. J. (1999) “Practical Nonparametric Statistics”, (3rd ed.), John Wiley & Sons, New York, NY.

Fawcett, T. (2006) “An introduction to ROC analysis”. Patt. Rec. Lett. 27, pp.861–874.

Kolmogorov, A. N. (1933) “Sulla determinazione empirica di una legge di distribuzione”. Giornale dell’Istituto Italiano degli Attuari, 4, pp. 83–91.

Krzanowski, W. J. e Hand, D. J. (2009) “ROC Curves For Continuous Data”, Chapman and Hall/CRC.

Peterson,W.W., Birdsall, T. G. e Fox, W. C. (1954) “The theory of signal detectability”. In: Proc. of the IRE Professional Group on Information Theory 4, pp.171–212.

Provost, F. e Fawcett, T. (2001) “Robust Classification for Imprecise Environments”. Machine Learning Journal, 42 (3), (Mar. 2001), pp. 203–231.

Provost, F. e Fawcett, T. (2013) “Data Science for business”. O ́Reilly Media Inc., Sebastopol, CA.
Publicado
04/10/2016
ADEODATO, Paulo J. L.; MELO, Sílvio B.. Equivalência entre a Área sob a Curva Kolmogorov-Smirnov e o Índice de Gini na Avaliação de Desempenho de Decisões Binárias. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 31. , 2016, Salvador/BA. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2016 . p. 157-162. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2016.24321.