GeoSpark
一. 概要
GeoSpark是一个用来处理大规模空间数据的计算集群,用SRDDs(弹性分布式数据集 Spatial Resilient Disilient Distributed Datasets )扩展了Apache Spark /SparkSQL,来高效导入,处理和 分析 大规模跨集群空间数据。
GeoSpark整体分为三层,上层为空间查询处理层,体层为几何操作库,中间为空间RDD层。
二. 模块及概念
2.1 模块
GeoSpark 有四个模块组成,Core ,SQL , Viz 和 Zeppelin 模块。
Spark Core
Core 提供 SpatialRDDS 和 查询操作等能力
Spark SQL
GeoSpark的SQL接口,提供对 SQL/DataFrame的空间处理能力