qFEx - um crawler para busca e extração de questionários de pesquisa em documentos HTML

Resumo


Questionários de pesquisa podem ser utilizados por empresas ou instituições para avaliar itens ou produtos, mediar a satisfação de seus funcionários/clientes, ou serem utilizados por pesquisadores para coleta de dados que podem ser usados em estudos. Alguns problemas na criação de tais questionários envolvem: decidir quais perguntas fazer, como fazê-las e como organizá-las. Visando isso, este trabalho propõe a criação de um Web Crawler, que varre a Web em busca de sites que possivelmente contenham questionários, e de um Extrator, capaz de extrair os questionários da lista de páginas coletadas pelo crawler e salvá-las em um banco de dados relacional. A base de dados criada pode depois, servir para a análise desses dados e/ou como uma base centralizada de exemplos para a elaboração de novos questionários ou ainda para o reuso de questões existentes. Alguns experimentos são apresentados para demonstrar a correta coleta de questionários pelo crawler, e a posterior extração das questões presentes nos questionários.
Palavras-chave: Crawlers, questionário de pesquisa, extração de dados

Referências

da Silva, J. M. (2012). Collecta: um sistema computacional de coleta de dados e avaliação institucional para apoio a tomada de decisão na universidade federal de santa catarina. Master’s thesis, Universidade Federal de Santa Catarina, Florianopolis.

de Souza, R. H. and Dorneles, C. F. (2019). Searching and ranking questionnaires: An approach to calculate similarity between questionnaires. In Proceedings of the ACM Symposium on Document Engineering 2019, DocEng ’19, New York, NY, USA. Association for Computing Machinery.

Laender, A. H., Ribeiro-Neto, B., da Silva, A., and Teixeira, J. (2002). A Brief Survey of Web Data Extraction Tools. Sigmod Record, 31(2).

Liu, B. (2007). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Data-Centric Systems and Applications. Springer.

Lobo, A. S., de Assis, M. A. A., de Barros, M. V. G., Calvo, M. C. M., and Freitas, S. F. T. (2008). Reprodutibilidade de um questionário de consumo alimentar para crianças em idade escolar. Revista Brasileira de Saude Materno Infantil, 8(1).

Olston, C. and Najork, M. (2010). Web Crawling. Foundations and Trends in Information Retrieval, 4(3):175–246.

Santos, L., Dorneles, C. F., and Mello, R. d. S. (2012). An approach for extracting web form labels based on distance analysis of html components. In IADIS WWW/Internet Conference.

Schwarz, N. (2007). Evaluating Surveys and Questionnaires, pages 54–74. In: Critical thinking in psychology (pp.54-74). Publisher: Cambridge University PressEditors: Robert Sternberg, R Roediger, D. F. Halpern

Tatarinov, I., Viglas, S. D., Beyer, K., Shanmugasundaram, J., Shekita, E., and Zhang, C. (2002). Storing and querying ordered xml using a relational database system. In Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data, SIGMOD ’02, page 204–215, New York, NY, USA. Association for Computing Machinery.

Wright, K. B. (2017). Researching Internet-Based Populations: Advantages and Disadvantages of Online Survey Research, Online Questionnaire Authoring Software Packages, and Web Survey Services. Journal of Computer-Mediated Communication, 10(3). JCMC1034.

Zhang, S. and Balog, K. (2019). Knowledge base augmentation. In SIGIR 2019 tutorial, https://iai-group.github.io/webtables-tutorial/slides/part-3.pdf, New York, NY. ACM.
Publicado
04/10/2021
Como Citar

Selecione um Formato
MATHIAS, Gilney N.; DORNELES, Carina F.. qFEx - um crawler para busca e extração de questionários de pesquisa em documentos HTML. In: DATASET SHOWCASE WORKSHOP (DSW), 3. , 2021, Rio de Janeiro. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021 . p. 1-10. DOI: https://doi.org/10.5753/dsw.2021.17409.