Codificação dos Atributos e sua Relação com a Interpretabilidade dos Modelos de Aprendizado de Máquina - Uma Análise em Base de Dados da Saúde Mental
Resumo
Este estudo examina dados sobre transtornos mentais, utilizando técnicas de aprendizado de máquina. O objetivo é investigar seis diferentes métodos de codificação de atributos categóricos em três conjuntos de dados relacionados a transtornos mentais, utilizando algoritmos de aprendizado de máquina, e verificar a interpretabilidade desses métodos. Os resultados indicam que a escolha da codificação é crucial para resultados precisos, variando de acordo com o algoritmo e o conjunto de dados. A codificação Hashing destaca-se como a mais eficaz em muitas situações, seguida pela codificação Dummy em alguns casos. No entanto, quando se trata de interpretabilidade as codificações Dummy, One Hot e Ordinal oferecem maior clareza interpretativa.
Referências
Araújo dos Anjos, T. A. Alencar Lima, A. M. Duarte de Melo, e P. Amorim Cruz Nascimento. Assistência humanizada a pessoa com transtornos mentais. Id on Line. Revista de Psicologia, 2021.
C. U. Correll e e. Galling. Comparison of early intervention services vs treatment as usual for early-phase psychosis: a systematic review, meta-analysis, and meta-regression. JAMA psychiatry, 2018.
M. K. Dahouda e I. Joe. A deep-learned embedding technique for categorical features encoding. IEEE Access, 2021.
T. B. O. Fragelli e R. R. Fragelli. Por que estudantes universitários apresentam estresse, ansiedade e depressão? uma rapid review de estudos longitudinais. Revista docência do ensino superior, 11:1–21, 2021.
J. Fuentes e e. Bakare. Autism spectrum disorders. IACAPAP e-textbook of child and adolescent mental health. Geneva, 1:27, 2012.
L. Gamm, S. Stone, e S. Pittman. Mental health and mental disorders—a rural challenge: A literature review. Rural healthy people, 2(1):97–114, 2010.
E. Gomes de Matos, T. M. Gomes de Matos, e G. M. Gomes de Matos. A importância e as limitações do uso do DSM-IV na prática clínica. Revista de Psiquiatria do Rio Grande do Sul, 27:312–318, 2005.
D. R. Guedes, E. dos Santos Bispo, e L. M. A. F. Nobre. Depressão, o mal do século: Prevalência de depressão e os fatores associados em mulheres-uma revisão de literatura. Recisatec-Revista Científica Saúde e Tecnologia. ISSN 2763-8405, 2(2):e2277–e2277, 2022.
S. Hyman e e. Chisholm. Mental disorders. Disease control priorities related to mental, neurological, developmental and substance abuse disorders, 2006.
J. M. Johnson e T. M. Khoshgoftaar. Encoding high-dimensional procedure codes for healthcare fraud detection. SN Computer Science, 2022.
M. Kuhn e K. Johnson. Feature Engineering and Selection: A Practical Approach for Predictive Models. CRC Press, 2019.
J. Moeyersoms e D. Martens. Including high-cardinality attributes in predictive models: A case study in churn prediction in the energy sector. Decision Support Systems, 72:72–81, 2015.
H. T. T. Nguyen e e. Cao. Evaluation of explainable artificial intelligence: Shap, lime, and cam. In Proceedings of the FPT AI Conference, pages 1–6, 2021.
OPAS. Oms destaca necessidade urgente de transformar saúde mental e atenção, jul 2022. URL [link].
K. Potdar e T. Pardawala. A comparative study of categorical variable encoding techniques for neural network classifiers. International Journal of Computer Applications, 175, 2017.
J. Reiter. Developing an interpretable schizophrenia deep learning classifier on fMRI and smri using a patient-centered DeepSHAP. In NeurIPS 2018, 2020.
C. F. Ribeiro e e. Lemos. Prevalence of and factors associated with depression and anxiety in brazilian medical students. Revista Brasileira de Educação Médica, 2020.
M. T. Ribeiro, S. Singh, e C. Guestrin. “why should i trust you?”explaining the predictions of any classifier. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining, pages 1135–1144, 2016.
B. Roy. All about categorical variable encoding, jun 2019. S. Rufino, R. S. Leite, L. Freschi, V. K. Venturelli, E. d. Oliveira, e D. A. M. Mastrorocco Filho. Aspectos gerais, sintomas e diagnóstico da depressão. Revista Saúde em foco, 10(1):837–843, 2018.
K. Shailaja e e. Seetharamulu. Machine learning in healthcare: A review. 2018.
M. E. Thase, R. Jindal, e R. H. Howland. Biological aspects of depression. 2002.
A. Udilă. Encoding methods for categorical data: A comparative analysis for linear models, decision trees, and support vector machines. 2023.
G. Van den Broeck e e. Lykov. On the tractability of shap explanations. Journal of Artificial Intelligence Research, 74:851–886, 2022.
J. C. Vasconcelos Filho, J. O. Rocha, H. N. Curto, M. H. D. Barbosa, e T. S. Miranda. Aspectos Clínicos e Diagnósticos em Saúde Mental. 2023. Ebook Acadêmico.
V. Vishwarupe e e. Joshi. Explainable ai and interpretable machine learning: A case study in perspective. Procedia Computer Science, 2022.