Uso de Aprendizado de Máquina para Categorização Automática de Conjuntos de Dados de Portais de Dados Abertos

Resumo


Para disponibilizar seus dados para a sociedade, governos de cidades ao redor do mundo estão usando portais de dados abertos. Na maioria dos portais, os conjuntos de dados estão distribuídos por diversas categorias que representam os tópicos abordados pelo portal. Nesse contexto, oferecer mecanismos para auxiliar a categorização dos conjuntos de dados se torna importante, para facilitar o trabalho de um administrador de portais de dados abertos. Neste trabalho, apresentamos uma analise experimental para a categorização automática de conjuntos de dados de portais de dados abertos utilizando aprendizado de máquina supervisionado. Utilizamos o nome do conjunto de dados e os seus atributos de arquivos anexados para a inferência de sua categoria. Para processamento de textos, usamos técnicas de processamento de linguagem natural.

Palavras-chave: Portais de dados abertos, Categorização, Aprendizado de máquina

Referências

Barbosa, L., Pham, K., Silva, C., Vieira, M. R., and Freire, J. (2014). Structured open urban data: understanding the landscape. Big data, v. 2, n. 3, pages 144–154.

Colas, F. and Brazdil, P. (2006). Comparison of svm and some older classification algorithms in text classification tasks. In IFIP International Conference on Artificial Intelligence in Theory and Practice, pages 169–178. Springer.

Pinto, H. S. (2018). Alinhamento de categorias em portais de dados abertos com base em um subconjunto abrangente. Dissertação de Mestrado — Instituto de Computação, Universidade Federal Fluminense. Disponível em http://www.ic.uff.br/PosGraduacao/frontend-tesesdissertacoes/download.php?id=898.pdf&tipo=trabalho. Acessado em 2020-05-03.

Pinto, H. S., Bernardini, F., and Viterbo, J. (2018). How cities categorize datasets in their open data portals: an exploratory analysis. dg.o 2018: Proceedings of the 19th Annual International Conference on Digital Government Research.

Faceli, K., Lorena, A. C., Gama, J., and Carvalho, A. C. P. L. F. D. (2011). Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina. LTC.

Frtunic Gligorijevic, M., Bogdanovic, M., Veljkovic, N., and Stoimenov, L. (2019). Open data categorization based on formal concept analysis. IEEE Transactions on Emerging Topics in Computing, pages 1–1.

Jetzek, T., Avital, M., and Bjorn-Andersen, N. (2014). Data-driven innovation through open government data. J. Theor. Appl. Electron. Commer. Res., 9(2):100–120.

Koesten, L. M., Kacprzak, E., Tennison, J. F., and Simperl, E. (2017). The trials and tribulations of working with structured data: -a study on information seeking behaviour. In Proceedings of the 2017 CHI Conference on Human Factors in Computing Systems, pages 1277–1289.

Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction to Infromation Retrieval. Cambridge University Press.

Manning, C. D. and Schütze, H. (1999). Foundations of Statistical Natural Language Processing. MIT Press, Cambridge, MA, USA.

M.F.Porter (1980). An algorithm for suffix stripping. Program, 14(3), pages 130–137.

Mihalcea, R., Corley, C., and Strapparava, C. (2006). Corpus-based and knowledge-based measures of text semantic similarity. In Proceedings of the 21st National Conference on Artificial Intelligence - Volume 1, AAAI’06, pages 775–780. AAAI Press. NLTK (2019). NLTK. Dispon´ıvel em https://nltk.org. Acessado em 2019-11-25.

Open Knowledge International (20–a). The open definition. Disponível em http://opendefinition.org. Acessado em 2019-11-25.

Open Knowledge International (20–b). Open knowledge international. Disponível em https://okfn.org. Acessado em 2019-11-25.

Open Knowledge International (20–c). What is open? Disponível em https://okfn.org/opendata. Acessado em 2019-11-25.

Porter, M. (2006). The porter stemming algorithm. https://tartarus.org/martin/PorterStemmer. Acessado em: 2019-11-26.

Rajaraman, A. and Ullman, J. (2011). Data Mining: Mining of Massive Datasets. Cambridge University Press.

Reis, J. R., Viterbo, J., and Bernardini, F. (2018). A rationale for data governance as an approach to tackle recurrent drawbacks in open data portals. In Proceedings of the 19th Annual International Conference on Digital Government Research: Governance in the Data Age, pages 1–9.

Sathya, R. and Abraham, A. (2013). Comparison of supervised and unsupervised learning algorithms for pattern classification. International Journal of Advanced Research in Artificial Intelligence, 2(2):34–38.

Scikit-Learn (2019). Scikit-Learn. Dispon´ıvel em https://scikit-learn.org. Acessado em 2019-11-25.

Wang, J., Jiang, C., Zhang, H., Ren, Y., Chen, K.-C., and Hanzo, L. (2020). Thirty years of machine learning: The road to pareto-optimal wireless networks. IEEE Communications Surveys & Tutorials.

Xiao, F., He, D., Chi, Y., Jeng, W., and Tomer, C. (2019). Challenges and supports for accessing open government datasets: Data guide for better open data access and uses. In Proceedings of the 2019 Conference on Human Information Interaction and Retrieval, CHIIR ’19, page 313–317, New York, NY, USA. Association for Computing Machinery.

Yang, H.-C., Lin, C. S., and Yu, P.-H. (2015). Toward automatic assessment of the categorization structure of open data portals. In Wang, L., Uesugi, S., Ting, I.-H., Okuhara, K., and Wang, K., editors, Multidisciplinary Social Networks Research, pages 372–380, Berlin, Heidelberg. Springer Berlin Heidelberg.
Publicado
30/06/2020
RANGEL, Mateus; BERNARDINI, Flavia; VITERBO, José; MONTEIRO, Rodrigo; SEIXAS, Elaine; PINTO, Higor dos Santos. Uso de Aprendizado de Máquina para Categorização Automática de Conjuntos de Dados de Portais de Dados Abertos. In: WORKSHOP DE COMPUTAÇÃO APLICADA EM GOVERNO ELETRÔNICO (WCGE), 8. , 2020, Cuiabá. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2020 . p. 120-131. ISSN 2763-8723. DOI: https://doi.org/10.5753/wcge.2020.11263.