memory_only
使用未序列化的Java对象格式,将数据保存在内存中。
memory_and_disk
使用未序列化的Java对象格式,优先尝试将数据保存在内存中,如果内存不够存放所有的数据,会将数据写入磁盘文件汇总,下次对这个RDD执行算子是,持久化在磁盘文件中的数据会被读取出来使用.
memory_only_ser
基本含义同memory_only,唯一的区别是,会将RDD中的数据进行序列化,RDD的每个partition会被序列化成一个字节数组,这种方式更加节省内存,从而可以避免持久化的数据占用过多内存导致频繁GC
memory_and_disk_ser
基本含义同memory_and_disk,唯一的区别是,会将RDD中的数据进行序列化,RDD的每个partition会被序列化成一个字节数组,这种方式更加节省内存,从而可以避免持久化的数据占用过多内存导致频繁GC
disk_only
使用未序列化的java对象格式,将数据全部写入磁盘文件中,
memory_only_2,momory_and_disk_2,
对于上述任意一种持久化策略,如果加上后缀_2,代表的是将每个持久化的数据,都复制一份副本,保存到节点上