Seleção de Genes em Dados de Expressão Gênica por meio de um Ensemble Baseado em Grafos

  • Alexssander F. Cândido UFOP
  • Aline Martins Dias UFOP
  • Luiz C. B. Torres UFOP

Resumo


Conjuntos de dados de expressão gênica apresentam alta dimensionalidade e poucas amostras, dificultando a identificação de genes estáveis. Este trabalho propõe um ensemble baseado no Grafo de Gabriel (GG) para analisar a recorrência estrutural de atributos em modelos preditivos. Classificadores são gerados por subamostragem de atributos e avaliados por validação cruzada estratificada. A relevância dos genes é medida pela recorrência entre os modelos de melhor desempenho. Experimentos em conjuntos de dados biomédicos mostram resultados competitivos de ROC-AUC quando comparados a Support Vector Machines reportadas na literatura. Um estudo de caso no dataset Golub identifica genes consistentemente presentes nos modelos mais eficazes.

Referências

Cortes, C. and Vapnik, V. (1995). Support-vector networks. Machine learning, 20(3):273–297.

Dua, D. and Graff, C. (2025). UCI machine learning repository. [link].

Fawcett, T. (2006). An introduction to roc analysis. Pattern recognition letters, 27(8):861–874.

Fernandes, J. G., Hanriot, V. M., and de Padua Braga, A. (2024). Optimizing the gabriel graph construction algorithm. In Latinx in AI@ NeurIPS 2024.

Gabriel, K. R. and Sokal, R. R. (1969). A new statistical approach to geographic variation analysis. Systematic zoology, 18(3):259–278.

Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., et al. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. science, 286(5439):531–537.

Hastie, T., Tibshirani, R., Friedman, J., et al. (2009). The elements of statistical learning.

Hess, K. R., Anderson, K., Symmans, W. F., Valero, V., Ibrahim, N., Mejia, J. A., Booser, D., Theriault, R. L., Buzdar, A. U., Dempsey, P. J., et al. (2006). Pharmacogenomic predictor of sensitivity to preoperative chemotherapy with paclitaxel and fluorouracil, doxorubicin, and cyclophosphamide in breast cancer. Journal of clinical oncology, 24(26):4236–4244.

Kunapuli, G. (2023). Ensemble methods for machine learning. Simon and Schuster.

Torres, L., Castro, C., Coelho, F., Sill Torres, F., and Braga, A. (2015). Distance-based large margin classifier suitable for integrated circuit implementation. Electronics Letters, 51(24):1967–1969.
Publicado
01/06/2026
CÂNDIDO, Alexssander F.; DIAS, Aline Martins; TORRES, Luiz C. B.. Seleção de Genes em Dados de Expressão Gênica por meio de um Ensemble Baseado em Grafos. In: SIMPÓSIO BRASILEIRO DE COMPUTAÇÃO APLICADA À SAÚDE (SBCAS), 26. , 2026, Ouro Preto/MG. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2026 . p. 1026-1037. ISSN 2763-8952. DOI: https://doi.org/10.5753/sbcas.2026.21604.