大数据
文章平均质量分 94
数据带你飞
大数据的世界带你飞!!!
展开
-
day15_Flink05
6.9 Flink 的状态管理 我们前面写的word count 的例子,没有包含状态管理。如果一个task 在处理过程中挂掉了,那么它在内存中的状态都会丢失,所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once),Flink 引入了state 和checkpoint。 【因此可以说flink 因为引入了state 和checkpoint 所以才支持的exactly once】首先区分一下两个概念state state 一般指一个具体的t原创 2022-02-18 12:27:11 · 307 阅读 · 0 评论 -
day14_Flink04
6.8 Flink 的容错6.8.1 Checkpoint 介绍 Checkpoint 是Flink 实现容错机制最核心的功能,也是flink 的四大基石之一,它能够根据配置周期性地基于Stream 中各个Operator/task 的状态来生成快照,从而将这些状态数据定期持久化存储下来,当Flink 程序一旦意外崩溃时,重新运行程序时可以有选择地从这些快照进行恢复,从而修正因为故障带来的程序数据异常。 快照的核心概念之一是barrier。这些barrier 被注入数据流并与记录一起作为数据流的一原创 2022-02-18 12:27:00 · 319 阅读 · 0 评论 -
day13_Flink03
6、DataStream API 开发6.1 入门案例6.1.1 Flink 流处理程序的一般流程获取Flink 流处理执行环境构建source数据处理构建sink6.1.2 示例编写Flink 程序,用来统计单词的数量。6.1.3 步骤获取Flink 批处理运行环境构建一个socket 源使用flink 操作进行单词统计打印6.1.4 参考代码object StreamWordCount { def main(args: Arr原创 2022-02-18 12:26:50 · 446 阅读 · 0 评论 -
day12_Flink02
5.3 DateSet 的TransformationTransformationDescriptionMap对集合元素, 进行一一遍历处理 data.map { x => x.toInt }FlatMap一个数据元生成多个数据元(可以为 0) data.flatMap { str => str.split(" ") }MapPartition函数处理包含一个分区所有数据的“迭代器” , 可以生成任意数量的结果值。 每个分区原创 2022-02-18 12:26:30 · 402 阅读 · 0 评论 -
盘点下近几年退役的顶级 Apache 大数据项目 - 继 Sentry,Sqoop 之后,Ambari 正式退役(转)
Apache Ambari 正式退役正所谓几家欢乐几家愁,2022 年初,又一款顶级 Apache 大数据项目,正式宣告退役:Apache Ambari 于 2022-01 悄然宣布,项目不再维护,正式进入退役阶段!笔者听闻该消息,恰逢虎年春节之际,虽然对 Ambari 的退役早有预期,但由于早年与 Ambari 颇有渊源,还是不免唏嘘一场!所以谨以一篇博文,纪念下 Apache Ambari!忆 Ambari 往昔,唏嘘一下遥想当年,大概 2015 年初,大数据三驾马车(Cloudera.原创 2022-02-22 10:01:15 · 827 阅读 · 0 评论