Detecção e Extração de Templates em Páginas Web

Karane Vieira; Altigran Soares da Silva

Karane Vieira UFAM
Altigran Soares da Silva UFAM

Resumo

O difundido uso de templates na Web é considerado prejudicial por duas razões principais. Não só eles comprometem o julgamento de relevância de muitos métodos de RI e mineração para a Web, mas também influenciam negativamente o uso de recursos por ferramentas que processam páginas web. Neste artigo, apresentamos dois novos algoritmos baseados em mapeamentos de árvores que de forma eficiente e acurada removem templates encontrados em coleções de páginas web inspecionando apenas poucas páginas exemplo. Mostramos que nossos algoritmos são efetivos em identificar termos que ocorrem em templates - obtendo valores de medida F por volta de 0,9 - e que eles podem melhorar a acurácia de métodos de agrupamento e classificação de páginas web.

Referências

Bar-Yossef, Z. and Rajagopalan, S. (2002). Template detection via data mining and its applications. In Proc. of the Int. Conf. on the World Wide Web, pages 580–591.

de Castro Reis, D., Golgher, P. B., da Silva, A. S., and Laender, A. H. F. (2004). Automatic web news extraction using tree edit distance. In Proc. of the Int. Conf. on the World Wide Web, pages 502–511.

Gibson, D., Punera, K., and Tomkins, A. (2005). The volume and evolution of web page templates. In Proc. of the Int. Conf. on the World Wide Web - Poster Session, pages 830–839.

Valiente, G. (2001). An efficient bottom-up distance between trees. In Proc. of the Int. Symposium on String Processing and Information Retrieval.

Vieira, K., Costa Carvalho, A. L., Berlt, K., Moura, E. S., Silva, A. S., and Freire, J. (2009). On finding templates on web collections. World Wide Web, 12(2):171–211.

Vieira, K., da Silva, A. S., Pinto, N., de Moura, E. S., Cavalcanti, J. M. B., and Freire, J. (2006). A fast and robust method for web page template detection and removal. In Proc. of the ACM Int. Conf. on Information and Knowledge Management, pages 258–267.

Yi, L., Liu, B., and Li, X. (2003). Eliminating noisy information in web pages for data mining. In Proc. of the Int. ACM Conf. on Knowledge Discovery and Data Mining, pages 296–305.