Análise da Qualidade de Diferentes Métricas para Agrupamento de Dados Utilizando Algoritmo Bio-Inspirado e Arquitetura MapReduce

Sandro Roberto Loiola de Menezes; Rafael Stubs Parpinelli

doi:10.5753/sbsi.2016.5960

Sandro Roberto Loiola de Menezes UDESC
Rafael Stubs Parpinelli UDESC

DOI: https://doi.org/10.5753/sbsi.2016.5960

Resumo

Realizar tarefas de mineração de dados, como agrupamento, pode ser complexo devido alta dimensionalidade e volume dos dados minerados. Esse artigo propõe uma abordagem de agrupamento de dados utilizando Algoritmo Inspirado em Organismos Simbióticos (SOS) projetado na arquitetura MapReduce e analisa a evolução da qualidade dos agrupamentos, usando a medida de pureza, considerando 4 métricas de fitness diferentes. A qualidade dos agrupamentos obtidos por essa abordagem demonstram não apenas ser competitivos com a de outras abordagens como também verificou-se um aumento de desempenho utilizando a arquitetura MapReduce. Além disso, outra contribuição desse artigo é a análise da correlação da pureza do agrupamento com o valor de fitness obtido durante o processo de otimização. Percebeu-se que para algumas métricas de fitness existem alguns casos em que a pureza final encontrada no agrupamento é inferior a pureza encontrada em um momento anterior no processo de otimização.

Palavras-chave: Agrupamento de Dados, Hadoop MapReduce, Algoritmos Bio-Inspirados

Referências

W. F. Ableson, R. Sen, C. King, and C. Ortiz. Android em ação. Campus, Rio de janeiro, 2012.

A. Accaci. Duplicate contacts. http://play.google.com/store/apps/details?id=com.accaci, 2015. Acesso: julho de 2015.

M. Bilenko and R. J. Mooney. Adaptive duplicate detection using learnable string similarity measures. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pages 39–48, 2003.

E. N. Borges, K. Becker, C. A. Heuser, and R. Galante. A classification-based approach for bibliographic metadata deduplication. In Proceedings of the IADIS Int. Conference WWW/Internet, pages 221–228, 2011.

S. Chaudhuri, K. Ganjam, V. Ganti, and R. Motwani. Robust and efficient fuzzy match for online data cleaning. In Proceedings of the ACM SIGMOD International Conference on Management of Data, pages 313–324, 2003.

P. Christen. A survey of indexing techniques for scalable record linkage and deduplication. IEEE Transactions on Knowledge and Data Engineering, 24(9):1537–1555, 2012.

W. W. Cohen, P. Ravikumar, and S. E. Fienberg. A comparison of string distance metrics for name-matching tasks. In Proceedings of the IJCAI Workshop on Information Integration, pages 73–78, 2003.

P. Dabhi. Duplicate contacts delete. http://play.google.com/store/apps/details?id=com.don.contactdelete, 2015. Acesso: julho de 2015.

G. Dal Bianco, R. Galante, M. A. Gonçalves, S. Canuto, and C. A. Heuser. A practical and effective sampling selection strategy for large scale deduplication. IEEE Transactions on Knowledge and Data Engineering, 27(9):2305–1319, 2015.

M. G. de Carvalho, A. H. F. Laender, M. A. Gon çalves, and A. S. da Silva. Replica identification using genetic programming. In Proceedings of the ACM Symposium on Applied Computing, pages 1801–1806, 2008.

C. F. Dorneles, M. F. Nunes, C. A. Heuser, V. P. Moreira, A. S. da Silva, and E. S. de Moura. A strategy for allowing meaningful and comparable scores in approximate matching. Information Systems, 34(8):673–689, 2009.

G. J. Kowalski and M. T. Maybury. Information Storage and Retrieval Systems : Theory and Implementation. Springer, Boston, MA, USA, 2002.

R. Lecheta. Desenvolvendo para iPhone e iPad. Novatec, São Paulo, 2014.

M. Lenzerini. Data integration: a theoretical perspective. In Proceedings of the ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems, pages 233–246, 2002.

R. F. Machado, R. F. Pinheiro, E. A. Nunes, and E. N. Borges. Identificação de contatos duplicados em dispositivos móveis utilizando similaridade textual. In Anais da Escola Regional de Banco de Dados, p. 1–8, 2016.

C. D. Manning, P. Raghavan, and H. Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008.

ORGwareTech. Contact merger. http://play.google.com/store/apps/details?id=com.orgware.contactsmerge, 2015. Acesso: julho de 2015.

J. R. Quinlan. C4.5: programs for machine learning. Morgan Kaufmann Publishers Inc., San Francisco, USA, 1993.

A. M. Silva. Limpador de contatos. http://play.google.com/store/apps/details?id=br.com.contacts.cleaner.by.alan, 2012. Acesso: julho de 2015.

D. M. Sunil. Duplicate contacts manager. http://play.google.com/store/apps/details?id=com.makelifesimple.duplicatedetector, 2014. Acesso: julho de 2015.

I. H. Witten, E. Frank, and M. A. Hall. Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, 2011.