Extração de dados de conferências a partir da Web

Cássio Alan Garcia; Viviane P. Moreira

doi:10.5753/sbbd.2017.171356

Cássio Alan Garcia Universidade Federal do Rio Grande do Sul
Viviane P. Moreira Universidade Federal do Rio Grande do Sul

DOI: https://doi.org/10.5753/sbbd.2017.171356

Resumo

A escolha da conferência adequada para o envio de um artigo é uma tarefa que depende de vários fatores incluindo: (i) o tema do artigo deve estar entre os temas de interesse do evento; (ii) o prazo de submissão do evento deve ser compatível com tempo necessário para a escrita do artigo; e (iii) a qualidade da conferência. Esses fatores aliados à existência de milhares de conferências tornam a busca pelo evento adequado bastante demorada, em especial quando se está pesquisando em uma área nova. A fim de auxiliar os pesquisadores na busca de conferências, esse artigo apresenta um método desenvolvido para a coleta e extração de dados de sites de conferências. Este método combina a identificação de URLs de conferências da Tabela Qualis à identificação de deadlines. Os dados coletados populam uma base de dados que poderá ser consultada através de uma ferramenta online. O artigo também relata experimentos que avaliam a qualidade dos dados extraídos, enfatizando a extração dos deadlines.

Palavras-chave: Extração de dados, identificação de URLs, Tabela Qualis

Referências

Fábio L Correia, Rui FS Amaro, Luís Sarmento, and Rosaldo JF Rossetti. Allcall: An automated call for paper information extractor. In Information Systems and Technologies (CISTI), 2010 5th Iberian Conference on, pages 1–4, 2010.

Oren Etzioni, Michele Banko, Stephen Soderland, and Daniel S Weld. Open information extraction from the web. Communications of the ACM, 51(12):68–74, 2008.

Lei Fu, Yingju Xia, Yao Meng, and Hao Yu. Conditional random fields model for web content extraction. In Computing in the Global Information Technology (ICCGI), pages 30–34, 2010.

Tomas Gogar, Ondrej Hubacek, and Jan Sedivy. Deep Neural Networks for Web Page Information Extraction, pages 154–163. 2016.

Yunfei Gong and Qiang Liu. Automatic web page segmentation and information extraction using conditional random fields. In Computer Supported Cooperative Work in Design (CSCWD), pages 334–340, 2012.

John Lafferty, Andrew McCallum, Fernando Pereira, et al. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the international conference on machine learning, ICML, volume 1, pages 282–289, 2001.

Xinyu Li, Roya Rastan, John Shepherd, and Hye Young Paik. Automatic affiliation extraction from calls-for-papers. In Proceedings of the Workshop on Automated Knowledge Base Construction, AKBC ’13, pages 97–102, 2013. ISBN 978-1-4503-2411-3.

Jochen Mattes. Automated meta-data extraction for confsearch. Technical report, 2011.

Hoa Nguyen, Thanh Nguyen, and Juliana Freire. Learning to extract form labels. Proceedings of the VLDB Endowment, 1(1):684–694, 2008.

David Pinto, Andrew McCallum, Xing Wei, and W Bruce Croft. Table extraction using conditional random fields. In Proceedings of the annual international ACM SIGIR conference on Research and development in informaion retrieval, pages 235–242, 2003.

Elaine Pereira de Souza and Maria Carlota de Souza Paula. Qualis: a base de qualificação dos periódicos científicos utilizada na avaliação capes. InfoCAPES Boletim Informativo, 10(2), 2002.

Henry S Vieira, Altigran S da Silva, Marco Cristo, and Edleno S de Moura. A self-training crf method for recognizing product model mentions in web forums. In European Conference on Information Retrieval, pages 257–264, 2015.

Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, and Wei-Ying Ma. 2d conditional random fields for web information extraction. In Proceedings of the International Conference on Machine Learning, pages 1044–1051, 2005.