Spark Streaming是基于Spark引擎对数据流进行不间断处理。只要有新的数据出现,Spark Streaming就能对其进行准实时(数百毫秒级别的延时)的转换和处理。
Spark Streaming的工作原理是在小间隔里对数据进行汇集从而形成小批量,然后在小批量数据上运行作业。
使用Spark Streaming编写的程序与编写Spark程序非常相似,在Spark程序中,主要通过操作RDD提供的借口,如map、reduce、filter等,实现数据的批处理。而在Spark Streaming中,则通过操作DStream提供的接口,这些接口和RDD提供的接口类似。