Evaluation of Dimensionality Reduction and Discretization Applied to Medical Data Content Retrieval
Abstract
The content retrieval of time series databases is one of data mining tasks which can be used to support experts in decision-making process. However, the implementation of this task in large datasets may demand a high computational effort. In order to cope with this problem pre-processing methods can be used. In this work we evaluate the influence of dimensionality reduction and discretization methods in content retrieval task using data from anorectal manometry and electrocardiogram. In both datasets, pre-processing methods have presented a positive influence in the content retrieval performance.
References
Davis, J. & Goadrich, M. (2006). The relationship between precision-recall and roc curves. In Proceedings of the 23rd International Conference on Machine Learning, pág. 233–240, New York, USA. ACM.
Ferrero, C. A., Lee, H. D., Monard, M. C., Wu, F. C., Coy, C. S. R., Fagundes, J. J., & Góes, J. R. N. (2007). Aplicação de métodos de séries temporais para a identificação de seções em exames de manometria anorretal. In II Congresso da Academia Trinacional de Ciências, pág. 1–10, Foz do Iguaçu, Brasil.
Goldberger, A. L., Amaral, L. A. N., Glass, L., Hausdorff, J. M., Ivanov, P. C., Mark, R. G., Mietus, J. E., Moody, G. B., Peng, C., & Stanley, H. E. (2000). Physiobank, physiotoolkit, and physionet: Components of a new research resource for complex physiologic signals. Circulation.
Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. Elsevier, San Francisco, EUA, 2 edição.
Lee, H. D. (2005). Seleção de atributos importantes para a extração de conhecimento de bases de dados. PhD thesis, Universidade de São Paulo.
Lin, J., Keogh, E., Lonardi, S., & Chiu, B. (2003). A symbolic representation of time series, with implications for streaming algorithms. In Proceedings of the 8th Workshop on Research Issues in Data Mining and Knowledge Discovery, pág. 2–11, New York, USA. ACM.
Mörchen, F. (2006). Time series knowledger mining. Master’s thesis, Philipps-Universität Marburg, Marburg, Germany.
Olszewski, R. T. (2001). Generalized Featue Extraction for Structural Pattern Recognition in Time-Series Data. PhD thesis, School of Computer Science Carnegie Mellon University.
Rezende, S. O. (2003). Sistemas inteligentes: fundamentos e aplicações. Manole.
Saad, L. H. C. (2002). Quantificação da função esfincteriana pela medida da capacidade de sustentação da pressão de contração voluntária do canal anal. PhD thesis, Universidade Estadual de Campinas.
Spolaôr, N., Lee, H. D., Ferrero, C. A., Coy, C. S. R., Fagundes, J. J., & Wu, F. C. (2008). Um estudo da aplicação de clustering de séries temporais em dados médicos. In Anais do III Congresso da Academia Trinacional de Ciências, pág. 1–10, Foz do Iguaçu, Brasil.
