参考《Spark与Hadoop大数据分析》Venkat Ankam。
spark streaming 采用微量批处理, 延迟相对较高,约为0.5秒。通过将数据流拆分为所谓离散流(Discretized Stream, DStream)的微量批处理,从而处理连续的数据流。DStream 是一个在Spark的核心执行引擎上处理的RDD序列,像其他RDD序列一样。DStream 可以从任何流数据源创建,例如Flume或Kafka。
利用Spark Streaming和 Structured Streaming实时分析
最新推荐文章于 2023-05-04 20:11:28 发布