Um método de Estimação de Expressões Gênicas de Câncer de Mama com Base em Correlação

Beatriz A. Rodrigues; Rayol M. Neto; Fabiola F. Nakamura; Eduardo F. Nakamura

doi:10.5753/semish.2023.229914

Beatriz A. Rodrigues UFAM
Rayol M. Neto UFAM
Fabiola F. Nakamura UFAM
Eduardo F. Nakamura UFAM

DOI: https://doi.org/10.5753/semish.2023.229914

Resumo

Os dados de expressão gênica geralmente sofrem de problemas de valor perdido devido a uma variedade de razões experimentais. Em bases de dados de câncer de mama, a análise subsequente e a classificação de subtipos podem sofrer fortemente com dados omissos, sendo assim é primordial tratar esse problema. Várias abordagens para estimação desses valores em dados de expressão gênica foram desenvolvidas, mas a tarefa é difícil devido a fatores como a existência ou não de uma estrutura de correlação nos dados e à alta dimensionalidade (número de genes x número de amostras) dos dados. Nesta pesquisa, desenvolvemos um método, para tratar valores ausentes em expressões gênicas de cancêr de mama, que lida com a alta dimensinalidade dos dados realizando a seleção de genes que melhor caracterizam o cancêr de mama, a partir do uso de informações de correlação entre genes. O método foi avaliado utilizando as métricas RMSE e MAE.

Referências

Chen, M. and Zhou, X. (2018). Viper: variability-preserving imputation for accurate gene expression recovery in single-cell rna sequencing studies. Genome biology, 19(1):1–15.

D’haeseleer, P. (2005). How does gene expression clustering work? Nature biotechnology, 23(12):1499.

Drucker, H., Burges, C. J., Kaufman, L., Smola, A., and Vapnik, V. (1996). Support vector regression machines. Advances in neural information processing systems, 9.

Dunham, I., Kundaje, A., and Bernstein, B. E. (2012). An integrated encyclopedia of dna elements in the human genome. Nature, 489(7414):57–74.

Edwards, N. J., Oberti, M., Thangudu, R. R., Cai, S., McGarvey, P. B., Jacob, S., Madhavan, S., and Ketchum, K. A. (2015). The cptac data portal: a resource for cancer proteomics research. Journal of proteome research, 14(6):2707–2713.

Hood, L. and Rowen, L. (2013). The human genome project: big science transforms biology and medicine. Genome medicine, 5:1–8.

Huang, M., Wang, J., Torre, E., Dueck, H., Shaffer, S., Bonasio, R., Murray, J. I., Raj, A., Li, M., and Zhang, N. R. (2018). Saver: gene expression recovery for single-cell rna sequencing. Nature methods, 15(7):539–542.

INCA (2021). Instituto nacional do câncer estatísticas.

Kang, H. (2013). The prevention and handling of the missing data. Korean journal of anesthesiology, 64(5):402–406.

König, I. R., Auerbach, J., Gola, D., Held, E., Holzinger, E. R., Legault, M.-A., Sun, R., Tintle, N., and Yang, H.-C. (2016). Machine learning and data mining in complex genomic data—a review on the lessons learned in genetic analysis workshop 19. BMC genetics, 17(2):49–56.

Mendonca-Neto, R., Li, Z., Fenyö, D., Silva, C. T., Nakamura, F. G., and Nakamura, E. F. (2021). A gene selection method based on outliers for breast cancer subtype classification. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 19(5):2547–2559.

Mendonca-Neto, R., Reis, J., Okimoto, L., Fenyö, D., Silva, C., Nakamura, F., and Nakamura, E. (2022). Classification of breast cancer subtypes: A study based on representative genes. Journal of the Brazilian Computer Society, 28(1):59–68.

Mertins, P., Mani, D., Ruggles, K. V., Gillette, M. A., Clauser, K. R., Wang, P., Wang, X., Qiao, J. W., Cao, S., Petralia, F., et al. (2016). Proteogenomics connects somatic mutations to signalling in breast cancer. Nature, 534(7605):55–62.

Sefidian, A. M. and Daneshpour, N. (2020). Estimating missing data using novel correlation maximization based methods. Applied Soft Computing, 91.

Tan, A. C. and Gilbert, D. (2003). Ensemble machine learning on gene expression data for cancer classification.

Volgin, D. V. (2014). Gene expression: analysis and quantitation. In Animal Biotechnology, pages 307–325. Elsevier.

Xie, H., Li, J., Zhang, Q., and Wang, Y. (2016). Comparison among dimensionality reduction techniques based on random projection for cancer classification. Computational biology and chemistry, 65:165–172.