SparkStreaming 数据抽象
DStream
SparkStreaming的核心是DStream,Dstream是一系列RDD的集合,可以对数据流进行批量的划分,每个RDD都包含了特定时间间隔内的一批数据
SparkStreaming可以满足准实时的计算场景
DStream代表了连续的数据流
Dstream相当于一个序列,里面存储的数据类型是RDD(Seq[RDD], 按照时间间隔进行划分流式数据)
Dstream对于数据的操作也是以RDD为单位进行的
DStream每批次数据RDD处理时,各个RDD之间存在依赖关系,DStream也存在依赖关系,RDD和DStream都有容错性
DStream Operations
DStream类似RDD,里面包含很多函数
Transformation
大多数和RDD类似
- transform
RDD -> RDD 可以是任意操作,返回一个新的RDD
Output
- saveAsTextFiles
保存流的内容为文本文件
- saveAsObjectFiles
保存流的内容为SequenceFile
- saveAsHadoopFiles
保存流的内容为hadoop文件
- foreachRDD
对DStream里的每个RDD进行操作