Flink
文章平均质量分 96
数据带你飞
大数据的世界带你飞!!!
展开
-
day15_Flink05
6.9 Flink 的状态管理 我们前面写的word count 的例子,没有包含状态管理。如果一个task 在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink 引入了state 和checkpoint。 【因此可以说flink 因为引入了state 和checkpoint 所以才支持的exactly once】 首先区分一下两个概念 state state 一般指一个具体的t原创 2022-02-18 12:27:11 · 287 阅读 · 0 评论 -
day14_Flink04
6.8 Flink 的容错 6.8.1 Checkpoint 介绍 Checkpoint 是Flink 实现容错机制最核心的功能,也是flink 的四大基石之一,它能够根据配置周期性地基于Stream 中各个Operator/task 的状态来生成快照,从而将这些状态数据定期持久化存储下来,当Flink 程序一旦意外崩溃时,重新运行程序时可以有选择地从这些快照进行恢复,从而修正因为故障带来的程序数据异常。 快照的核心概念之一是barrier。这些barrier 被注入数据流并与记录一起作为数据流的一原创 2022-02-18 12:27:00 · 251 阅读 · 0 评论 -
day13_Flink03
6、DataStream API 开发 6.1 入门案例 6.1.1 Flink 流处理程序的一般流程 获取Flink 流处理执行环境 构建source 数据处理 构建sink 6.1.2 示例 编写Flink 程序,用来统计单词的数量。 6.1.3 步骤 获取Flink 批处理运行环境 构建一个socket 源 使用flink 操作进行单词统计 打印 6.1.4 参考代码 object StreamWordCount { def main(args: Arr原创 2022-02-18 12:26:50 · 418 阅读 · 0 评论 -
day12_Flink02
5.3 DateSet 的Transformation Transformation Description Map 对集合元素, 进行一一遍历处理 data.map { x => x.toInt } FlatMap 一个数据元生成多个数据元(可以为 0) data.flatMap { str => str.split(" ") } MapPartition 函数处理包含一个分区所有数据的“迭代器” , 可以生成任意数量的结果值。 每个分区原创 2022-02-18 12:26:30 · 299 阅读 · 0 评论 -
day11_Flink01
1、Flink 简介 1.1 Flink 的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark 掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark 的火热或多或少的掩盖了其他分布式计算的系统身影。就像Flink,也就在这个时候默默的发展着。 在国外一些社区,有很多人将大数据的计算引擎分成了4 代,当然,也有很多人不会认同。我们先姑且这么认为和讨论。 首先第一代的计算引原创 2022-02-18 12:25:51 · 601 阅读 · 0 评论