Ignite帮助spark实现了In-memory的RDD共享机制,本来的spark里每个job不能互相访问到RDD,而Apache Ignite很好的实现了这一点,之前有用过Tachyon,只实现了以文件的方式存储在内存中,和HDFS差不多,当其他的job需要读某个表的时候,仍旧需要将文件读进来然后注册成表才可以操作,这显然不是我想要的,当然也许是我没有掌握Tachyon的精髓就放弃掉了,下面来看IgniteRDD,它是以RDD的形式存储在内存中,因此每个sparkJob都可以直接使用RDD,提升还是很明显的,这就是为什么我要来看IgniteRDD的原因。
根据选择的共享模式,可以选择只在spark的生命周期内共享,也可以只在某一个job里,也可以在指定的几个job里共享。