Pipeline Distribuído para Análise Espacial em Larga Escala: Avaliação da Regra 3 do Índice 3-30-300 em Fortaleza com Apache Spark e Sedona

Resumo


A aplicação de operações espaciais em grandes conjuntos de dados enfrenta limitações nas ferramentas tradicionais de geoprocessamento e em bibliotecas como Geopandas. Este trabalho apresenta um pipeline distribuído baseado em Apache Spark e Sedona para analisar dados geolocalizados de edificações e arborização, em Fortaleza, CE, identificando residências com visibilidade mínima de 3 árvores em 30 metros. O processamento em batches, a indexação espacial e a persistência estruturada permitiram superar gargalos do Python. Apresenta-se uma documentação detalhada de código modular que permite rastrear scripts e replicá-los em outras cidades para efetuar operações geométricas e espaciais em larga escala.
Palavras-chave: Processamento Distribuído, Índice 3-30-300, Análise Espacial, Acessibilidade a Árvores

Referências

Bai, Y., Yang, Z., Yu, J., Ju, R.-Y., Yang, B., Mas, E., and Koshimura, S. (2024). Flood data analysis on spacenet 8 using apache sedona. arXiv preprint arXiv:2404.18235.

Croeser, T., Sharma, R., Weisser, W. W., and Bekessy, S. A. (2024). Acute canopy deficits in global cities exposed by the 3-30-300 benchmark for urban nature. Nature Communications, 15(1):9333.

Forrest, M. (2025). Geospatial tools compared: When to use geopandas, postgis, duckdb, apache sedona, and wherobots. Acesso em: 19 jun. 2025.

García-García, F., Corral, A., Iribarne, L., and Vassilakopoulos, M. (2023). Efficient distributed algorithms for distance join queries in spark-based spatial analytics systems. International Journal of General Systems, 52(3):206–250.

Konijnendijk, C. C. (2023). Evidence-based guidelines for greener, healthier, more resilient neighbourhoods: Introducing the 3–30–300 rule. Journal of forestry research, 34(3):821–830.

Lyon, W., Yu, J., and Sarwat, M. (2025). Cloud Native Geospatial Analytics with Apache Sedona. O’Reilly Media, Inc., Sebastopol, CA, first edition edition. ISBN not specified.

Moussa, R. (2021). Scalable analytics of air quality batches with apache spark and apache sedona. In Proceedings of the 15th ACM International Conference on Distributed and Event-Based Systems, DEBS ’21, page 154–159, New York, NY, USA. Association for Computing Machinery.

Nieuwenhuijsen, M. J., Dadvand, P., Márquez, S., Bartoll, X., Barboza, E. P., Cirach, M., Borrell, C., and Zijlema, W. L. (2022). The evaluation of the 3-30-300 green space rule and mental health. Environmental research, 215:114387.

Wyrzykowski, B. and Mościcka, A. (2024). Implementation of the 3-30-300 green city concept: Warsaw case study. Applied Sciences, 14(22):10566.

Yu, J., Wu, J., and Sarwat, M. (2015). Geospark: A cluster computing framework for processing large-scale spatial data. In Proceedings of the 23rd SIGSPATIAL international conference on advances in geographic information systems, pages 1–4.

Zheng, Y., Lin, T., Hamm, N. A., Liu, J., Zhou, T., Geng, H., Zhang, J., Ye, H., Zhang, G., Wang, X., et al. (2024). Quantitative evaluation of urban green exposure and its impact on human health: A case study on the 3–30-300 green space rule. Science of the Total Environment, 924:171461.
Publicado
29/09/2025
SILVA, Lucas L.; GONZALEZ, Marta C.; BABADOPULOS, Lucas F. A.; SOARES, Jorge B.; FURTADO, Lara S.. Pipeline Distribuído para Análise Espacial em Larga Escala: Avaliação da Regra 3 do Índice 3-30-300 em Fortaleza com Apache Spark e Sedona. In: SIMPÓSIO BRASILEIRO DE BANCO DE DADOS (SBBD), 40. , 2025, Fortaleza/CE. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2025 . p. 970-976. ISSN 2763-8979. DOI: https://doi.org/10.5753/sbbd.2025.247837.