【Flink】【第四章】运行时的相关概念

败给你的黑色幽默丶

已于 2022-03-12 18:39:24 修改

阅读量435

点赞数

分类专栏： # Flink 文章标签： flink java 大数据

于 2022-01-12 14:41:45 首次发布

本文链接：https://blog.csdn.net/weixin_43589563/article/details/122443395

版权

Flink 专栏收录该内容

24 篇文章 6 订阅

订阅专栏

概念有点多，有点乱，还待整理

Streaming dataflow

在这里插入图片描述

Streaming dataflow = 一个应用程序
Streaming dataflow = source + transformation + sink

在这里插入图片描述
Source :

流计算：可以使用来自消息队列或分布式日志（如 Apache Kafka 或 Kinesis）等流式源的实时数据。
批计算：可以使用来自各种数据源的有限的历史数据。

Sink:

应用程序生成的结果流可以发送到可以作为接收器连接的各种系统。

算子（Operator）

Flink 程序是并行和分布式的。

a stream has one or more stream partitions
each operator has one or more operator subtasks。

The operator subtasks are independent of one another, and execute in different threads and possibly on different machines or containers.

1.算子的并行度

算子子任务的数量 = 算子并行度；

下图所示，上面的是整体视角，下面的是经过并行度拆分后的视角
在这里插入图片描述

2.数据传输模式

有了并行度的概念后，我们需要了解，数据在两个算子之间是怎样传递的？上游的算子A并行度1中的数据是去下游算子B的并行度1还是并行度2呢？

两种传输模式：

one-to-one (or forwarding) pattern
redistributing pattern

1.One-to-one
在这里插入图片描述

streams (for example between the Source and the map() operators in the figure above) preserve the partitioning and ordering of the elements. That means that subtask[1] of the map() operator will see thesame elements in the same orderas they were produced by subtask[1] of the Source operator.

2.Redistributing streams

算子的每个子任务会将数据发送到下游算子的不同子任务中，具体如何传递依赖于传输规则：

keyBy (which re-partitions by hashing the key)
broadcast （广播）
rebalance (which re-partitions randomly).

元素之间的顺序仅保留在每对发送subtask和接收subtask之间（例如，map() 的 subtask[1] 和 keyBy/window 的 subtask[2]）

3. 并行度的设置

四种设置并行度方式的优先级

算子单独设置并行度（Operator.setParallelism()）
代码全局设置(env.setParallelism)
提交job的时候设置 (或者web UI界面)
集群配置文件

算子的并行度如果没给，用全局，全局没给用命令行的，命令行也没给用配置文件的。

并行度优先级演示

Demo1:

public class Flink03_WordCount_Unbounded {
    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setParallelism(4);//全局并行度4

        ParameterTool parameterTool = ParameterTool.fromArgs(args);
        String host = parameterTool.get("host");
        int port = parameterTool.getInt("port");

        //TODO 读取端口数据 无界流
        DataStream<String> inputDataStream = env.socketTextStream(host, port);

        KeyedStream<Tuple2<String, Integer>, Tuple> keyedStream = inputDataStream
                .flatMap(new Flink01_WordCount_Batch.MyFlatMapFunc()).setParallelism(3)
                .keyBy(0);

        DataStream<Tuple2<String, Integer>> wordCountDataStream = keyedStream.sum(1).setParallelism(2);
        wordCountDataStream.print("result"). setParallelism(1);
        env.execute("asd");
    }
}

配置文件中并行度是1
Web 提交页面并行度设置：5
全局并行度4
flatmap并行度为：3
Sum()并行度为：2
Print()并行度为1

Demo2

配置文件中并行度是1
Web 提交页面并行度设置：5
全局并行度4
flatmat并行度为：3
Sum()并行度为：2
Print()并行度不设置

在这里插入图片描述

说明了如果算子不单独设置并行度，就会按照全局的并行度来，依次往上推。

Flink中并行度和Spark中分区的理解

Flink的并行度类似于Spark中的分区，不同的是flink基本所有算子都可以设置并行度，Spark只有部分算子可以设置分区数。注：flink中定义传输过程的算子是不能设置并行度的
对于Spark来说，是按照有shuffle的算子来划分阶段的，没有shuffle的算子即使设置的分区个数不同，也会合并到一个stage中，而且每个阶段的并行度(分区数)只取决于该阶段最后一个算子的分区个数。
flink中如果算子指定了并行度不一样，那么会将这个算子单独算一个stage；所以flink的并行度是建立在算子的基础上，而Spark的分区是建立在stage的基础上。