基于 MapReduce 计算词频过程
MapReduce 将输入(Input)文本以行为单位分片(Split),每个 Map 任务将分片中的每个词映射为键值对的形式(Dear, 1),Shuffle 将相同键的记录组合在一起,最后由 Reduce 任务计算词频并输出(Output)结果。
- 示例:以 3 个 Map 和 3 个 Reduce 的词频计算过程。
Spark Streaming 流数据处理过程
Spark Streaming 原理是将多个微批处理任务串接起来构建流式数据处理任务,存在的缺陷是微批处理重复运行的机制牺牲了低延迟和高吞吐的优势。