Uso de visualização de dados para auxiliar na análise e pré-processamento de dados categóricos

  • Lucas Bertoglio Ciocari PUCRS
  • Alessandra Maciel Paz Milani PUCRS
  • Isabel Harb Manssour PUCRS

Resumo


A quantidade de dados disponíveis sobre diferentes assuntos cresceu muito nos últimos anos, gerando novos desafios para os cientistas de dados e para diversas áreas de pesquisa, tais como mineração e visualização de dados. Com o objetivo de auxiliar na análise e pré-processamento de dados categóricos, esse trabalho propõe a inclusão de duas novas visualizações para dados categóricos à biblioteca Pandas Profiling. A primeira corresponde a um Diagrama de Cordas Bidimensional que possibilita ver a relação entre dados categóricos. A segunda é uma visualização do tipo Display Tabular que permite fazer uma análise de todo conjunto de dados. Estas visualizações visam auxiliar cientistas de dados na etapa de pré-processamento, principalmente com o objetivo de ajudar a entender o volume de dados a ser analisado.

Referências

X. Wu, X. Zhu, G. Wu, and W. Ding, "Data mining with big data," IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 1, pp. 97–107, Jan 2014.

D. T. Larose and C. D. Larose, Discovering Knowledge In Data: An Introduction to Data Mining. John Wiley and Sons, Inc., 2014.

J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2011.

D. M. McEvoy, A Guide to Business Statistics. John Wiley and Sons, Inc., March 2018.

S. Kandel, A. Paepcke, J. Hellerstein, and J. Heer, "Wrangler: Interactive visual specification of data transformation scripts," in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ser. CHI [Online]. Available: http://doi.acm.org/10.1145/1978942.1979444 ’11. ACM, 2011, pp. 3363–3372.

E. Artur and R. Minghim, "A novel visual approach for enhanced attribute analysis and selection," Computers and Graphics, vol. 84, pp. 160–172, 2019. [Online]. Available: http://www.sciencedirect.com/ science/article/pii/S0097849319301438

C. Arbesser, F. Spechtenhauser, T. M¨uhlbacher, and H. Piringer, "Vis-plause: Visual data quality assessment of many time series using plausibility checks," IEEE Transactions on Visualization and Computer Graphics, vol. 23, no. 1, pp. 641–650, January 2017.

A. M. P. Milani, "Preprocessing profiling model for visual analytics," Master’s thesis, Escola Politécnica – PUCRS, 2019.

D. Keim, J. Kohlhammer, G. Ellis, and F. Mansmann, Mastering the Information Age Solving Problems with Visual Analytics. Eurographics Association, 2010.

S. R. Humayoun, K. Bhambri, and R. AlTarawneh, "Bid-chord: An extended chord diagram for showing relations between bi-categorical dimensional data," in Proceedings of the 2018 International Conference on Advanced Visual Interfaces, ser. AVI ’18. ACM, 2018, pp. 65:1– 65:3. [Online]. Available: http://doi.acm.org/10.1145/3206505.3206570

M. Krzywinski, J. Schein, I. Birol, J. Connors, R. Gascoyne, D. Horsman, S. J. Jones, and M. A. Marra, "Circos: An information aesthetic for comparative genomics," Proceedings of the Genome Research, vol. 19, p. 1639–1645, 2009.

R. Rao and S. K. Card, "The table lens: Merging graphical and symbolic representations in an interactive focus + context visualization for tabular information," in Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, ser. CHI ’94. New York, NY, USA: Association for Computing Machinery, 1994, p. 318–322. [Online]. Available: https://doi.org/10.1145/191666.191776

M. Ward, G. Grinstein, and D. Keim, Interactive Data Visualization: Foundation, Techniques and Applications. CRC Press, October 2014.
Publicado
07/11/2020
Como Citar

Selecione um Formato
CIOCARI, Lucas Bertoglio; MILANI, Alessandra Maciel Paz; MANSSOUR, Isabel Harb. Uso de visualização de dados para auxiliar na análise e pré-processamento de dados categóricos. In: WORKSHOP DE TRABALHOS DA GRADUAÇÃO - CONFERENCE ON GRAPHICS, PATTERNS AND IMAGES (SIBGRAPI), 33. , 2020, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 195-198. DOI: https://doi.org/10.5753/sibgrapi.est.2020.13010.