Um Dataset Enriquecido com Dados Extraídos da Web para Aplicações de Georreferenciamento
Resumo
Aplicações agrícolas e ambientais dependem de dados georreferenciados. A obtenção desse tipo de dado exige recursos elevados relacionados a hardware e recursos humanos especializados. A extração de dados da Web pode ser uma alternativa viável para criação de datasets para essa demanda. É possível encontrar repositórios públicos em ambiente Web para criar ou complementar datasets no domínio agrícola e ambiental, seja para delimitação de áreas agrícolas ou identificação e monitoramento de áreas ambientais. O presente artigo apresenta uma proposta para extração de dados da Web com o objetivo de criar um dataset para uso agrícola e ambiental por meio da extração de geo-coordenadas em repositórios públicos.
Referências
Azeroual, O. and Jha, M. (2021). Without data quality, there is no data migration. MDPI, 5(2):24.
Bonamigo, A. (2015). Impactos na adequação das áreas de preservação permanente de imóveis rurais ao disposto na lei nº 12.651 e lei nº 4.771 (código florestal).
Cruz, I. F., Ganesh, V. R., and Mirrezaei, S. I. (2013). Semantic extraction of geographic data from web tables for big data integration. In Proceedings of the 7th Workshop on Geographic Information Retrieval, GIR ’13, page 19-26, New York, NY, USA. Association for Computing Machinery.
Dong, X. L., Hajishirzi, H., Lockard, C., and Shiralkar, P. (2020). Multi-modal information extraction from text, semi-structured, and tabular data on the web. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery Data Mining, KDD ’20, page 3543-3544, New York, NY, USA. Association for Computing Machinery.
Gong, D., Wang, D. Z., and Peng, Y. (2017). Multimodal learning for web information extraction. In Proceedings of the 25th ACM International Conference on Multimedia, MM ’17, page 288-296, New York, NY, USA. Association for Computing Machinery.
Imbrenda, V., Calamita, G., Coluzzi, R., D’Emilio, M., Lanfredi, M., Perrone, A., Ragosta, M., and Simoniello, T. (2013). Free and open source software for land degradation vulnerability assessment. None, page 11153.
Jaya, I., Sidi, F., Ishak, I., Affendey, L., and A. Jabar, M. (2017). A review of data quality research in achieving high data quality within organization. Journal of Theoretical and Applied Information Technology, 95:2647-2657.
Lloret-Gazo, J. (2020). A browserless architecture for extracting web prices. In Proceedings of the 35th Annual ACM Symposium on Applied Computing, SAC ’20, page 2193-2200, New York, NY, USA. Association for Computing Machinery.
openforis (2021). Open foris. http://openforis.org/.
SCITEPRESS (2014). Database design of a geo-environmental information system. In Proceedings of the 16th International Conference on Enterprise Information Systems. SCITEPRESS-Science and Technology Publications.
Theoson, L., Anthony, R., and Purnama, J. (2020). Distance-measurement decision-making backend system using nodejs. In Proceedings of the International Conference on Engineering and Information Technology for Sustainable Industry, ICONETSI, New York, NY, USA. Association for Computing Machinery.