字节跳动青训营项目二思路

这是我参与「第四届青训营 」笔记创作活动的的第一天

作者:柴锦文 日期2022.7.24

flink流计算项目架构初步思考

DAG有向无环图介绍

DAG有向无环图 ,Source的并行度为1,所以其只有1个Task。 DAG抽象:将分布式计算作业拆分成并行子任务,每个子任务 表示数据处理的一个步骤,并且在上下游之间建立数据流的流通关 系。 FlatMap的并行度为2,所以其有2个Task。KeyedAgg与Sink根据优化策 略合并成了1个执行单元,并行度都是2,所以有2个Task。KeyedAgg与Sink的合并使用了算子融合,将符合优化策略的计算步骤合并成为一个OperatorChain。Source Sink便是IO输入输出 现在我们要定义一个数据结构称为DataStream 利用卡夫卡进行输入 转换成DataStream 利用外部文件输出 接收DataStream转换为该文件的格式

根据题目的意思 flink连接器选择卡夫卡 集群题目意思貌似是要求我们手动使用独立集群 节点通过配置写死

flink应用被映射成Dataflow,Dataflow由DataStream和Transformation并行组成。 Dataflow本质上是一个有向无环图(DAG)

flink中DataStreamSource本身就是一个datastream

1.1五个算子的实现参考

1.实现卡夫卡输入的本质 就是实现SourceFunction

2.sink输出 数据读取的API绑定在StreamExecutionEnvironment上,数据写出的API绑定在DataStream对象上。在现在的版本中,只有写到Console控制台、Socket网络端口、自定义三类,写入文本文件、CSV文件等文件接口都已被标记为废弃了。接口使用的详细介绍参照官方文档即可。自定义数据写出接口是DataStream.addSink,对于sink的详细介绍见连接器和输出函数相关知识。

3.Map是接收1个元素,输出1个元素。Map应用在DataStream上,输出结果为DataStream。DataStream#map 运 算 对 应 的 是 MapFunction , 其 类 泛 型 为MapFunction<T,O>,T代表输入数据类型(Map方法的参数类型),O代表操作结果输出类型(Map方法返回的数据类型)

4.将数据流元素进行逻辑上的分组,具有相同Key的记录将被划分到同一分组。KeyBy()使用Hash Partitioner实现。该运算应用在DataStream上,输出结果为KeyedStream。

5.reduce的合并逻辑由开发者自己实现,该类运算应用在keyedStream上。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值