Sobre as diferenças de aplicação entre SVD e PCA: Um estudo pragmático

  • Nicollas Silva UFSJ
  • Alan Neves UFSJ
  • Leonardo Rocha UFSJ
  • Fernando Mourão UFSJ

Resumo


Apesar da popularidade do SVD e PCA, há uma dificuldade comum a vários estudos aplicados em compreender e diferenciar tais métodos. Frequentemente, ambos são aplicados sem uma avaliação adequada sobre qual é o mais apropriado para cada cenário. A fim de facilitar a escolha entre tais métodos em tarefas computacionais, realizamos uma discussão pragmática que correlaciona o sucesso da aplicação destes métodos com características do domínio de análise. Para tanto, propomos uma metodologia que, aplicada em três coleções reais relacionadas a tarefas distintas, permitiu-nos verificar que há diferenças na aplicação do SVD e do PCA e que uma escolha não elaborada pode ser nociva à tarefa realizada.

Referências

Abdi, H. (2007). Singular value decomposition (svd) and generalized singular value decomposition.

Deerwester, S. C., Dumais, S. T., Landauer, T. K., Furnas, G. W., and Harshman, R. A. (1990). Indexing by latent semantic analysis. JAsIs, 41(6):391{407.

Elden, L. (2006). Numerical linear algebra in data mining. Acta Numerica, 15, s. 327-384.

Elden, L. (2007). Matrix methods in data mining and pattern recognition. Society for Industrial and Applied Mathematics.

Johnson, R. and Wichern, D. (2002). Applied multivariate statistical analysis, volume 4. Prentice Hall Upper Saddle River, NJ.

Koren, Y., Bell, R., and Volinsky, C. (2009). Matrix factorization techniques for recommender systems. Computer, 42(8):30{37.

Lan, H., Stoehr, J. P., Nadler, S. T., Schueler, K. L., Yandell, B. S., and Attie, A. D. (2003). Dimension reduction for mapping mrna abundance as quantitative traits. Genetics, 164(4):1607{1614.

McWorter, W. A. and Meyers, L. F. (1998). Computing eigenvalues and eigenvectors without determinants. Mathematics magazine, pages 24{33.

Raychaudhuri, S., Stuart, J. M., and Altman, R. B. (2000). Principal components analysis to summarize microarray experiments: application to sporulation time series. In Pacific Symposium on Biocomputing, page 455. NIH Public Access.

Smith, L. I. (2002). A tutorial on principal components analysis.

Wall, M. E., Rechtsteiner, A., and Rocha, L. M. (2003). Singular Value Decomposition and Principal Component Analysis, chapter 5, pages 91{109. Kluwel.

Wallach, H. M. (2006). Topic modeling: beyond bag-of-words. In Proceedings of the 23rd international conference on Machine learning, pages 977{984. ACM.

Wold, S., Esbensen, K., and Geladi, P. (1987). Principal component analysis. Chemometrics and intelligent laboratory systems, 2(1-3):37{52.
Publicado
20/07/2015
SILVA, Nicollas; NEVES, Alan; ROCHA, Leonardo; MOURÃO, Fernando. Sobre as diferenças de aplicação entre SVD e PCA: Um estudo pragmático. In: CONCURSO DE TRABALHOS DE INICIAÇÃO CIENTÍFICA DA SBC (CTIC-SBC), 34. , 2015, Recife. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2015 . p. 1-10.