Flink并行度设置优先级

最新推荐文章于 2023-11-05 22:51:10 发布

_Mr. White

最新推荐文章于 2023-11-05 22:51:10 发布

阅读量1.1k

点赞数 1

分类专栏：大数据文章标签： flink

本文链接：https://blog.csdn.net/weixin_43918355/article/details/117903447

版权

大数据专栏收录该内容

21 篇文章 0 订阅

订阅专栏

本文探讨了Apache Flink中流处理并行度的设定规则，从socket数据源读取时并行度限制为1，算子并行度设定优先级，以及环境并行度的默认值。关键概念包括：socketTextStream、flatMap、keyBy、setParallelism以及流处理环境的并行度配置。理解这些对于优化Flink作业性能至关重要。

摘要由CSDN通过智能技术生成

1, 从socket流中读取数据并行度只能是 1

//从socket文本流读取数据
DataStream<String> inputDataStream = env.socketTextStream(host, port);

2, 特定的算子设定了并行度最优先

//基于数据流进行转换计算
DataStream<Tuple2<String, Integer>> resultStream = inputDataStream.flatMap(new MyFlatMapper()).keyBy(0).sum(1).setParallelism(2);

其中keyBy(0)不是算子, 只是一个hash分配作用, 所以它不能设置并行度

3, 算子没有设定并行度就是用整体运行环境设置的并行度

//创建流处理执行环境
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);

4, 环境的并行度没有设置就使用提交时候提交参数设置的并行度
在这里插入图片描述

5, 最后都没有设置就遵循 flink的配置文件

parallelism.default: 1

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

_Mr. White

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

理解Flink并行度

SunnyRivers

08-20

417

我们先提出一个问题：一个算子操作是不是就是一个任务？那是不是程序中的算子数量，就是最终执行的任务数呢？对于 Spark而言，是把根据程序生成的 DAG 划分阶段（stage）、进而分配任务的。而对于 Flink 这样的流式引擎，其实没有划分 stage 的必要。因为数据是连续不断到来的，我们完全可以按照数据流图建立一个“流水线”，前一个操作处理完成，就发往处理下一步操作的节点。

Flink 并行度、共享槽位、如何判断Flink需要使用多少资源、查看Flink需要处理的数据频率...

赤兔胭脂小吕布的博客

03-19

925

目录Flink 并行度并行数据流任务槽和资源共享槽位如何判断Flink需要使用多少资源Flink 并行度 package com.shujia.flink.core import org.apache.flink.streaming.api.datastream.DataStreamSink import org.apache.flink.streaming.api.scala._ obje...

参与评论您还未登录，请先登录后发表或查看评论

Flink并行度优先级_集群操作常用指令_运行组件_任务提交流程_数据流图变化过程

菜鸡逆袭的博客

01-13

1147

Flink运行组件 JobManager: 作业管理器, 负责作业管理控制提交的 job 执行, JobManager 向 ResourceManager 请求 TaskManager 上的 slot, 获取到足够资源, 将该任务的执行图分发到运行的 TaskManager 上, 运行中, JobManager 负责所有需要中央协调的操作(例: checkpoints 协调, 存盘, 故障检测) TaskManager: 任务管理器, 负责干活 Flink 中会有多个 TaskManager 执行

Flink生产环境设置并行度及优先级

qq_43118086的博客

07-21

1231

（1）代码中设置 ①全局设置 env. setParallelism (3) ②算子设置 map ((_,1)). setParallelism (3) （2）客户端CLI设置或webui直接输入 ①CLI提交任务 run: 代表执行; c: 指定入口类; p: 并行度; host, post: 主机地址端口 flink run -c com. dylan. Stream Wordcount -p 3 streamwordcount.jar --host host–port 7777 ②webui设置（

Flink并行度优先级

m0_74903429的博客

03-07

867

默认的最大并行度是近似于operatorParallelism + (operatorParallelism / 2)，下限是127，上线是32768.并行度改变会影响任务划分，进而影响task数量，如果taskslots数量不满足要求，会导致任务没有足够的资源分配。setParallelism()设置的并行度需要小于.setMaxParallelism()设置的最大并行度。某些算子无法设置并行度，如socketTextStream。1.代码中设置setParallelism()

Flink 1.17教程：并行度设置&优先级

学亮编程手记

09-01

1695

在Flink中，可以用不同的方法来设置并行度，它们的有效范围和优先级别也是不同的。

flink java 并行度_Flink并行度优先级_集群操作常用指令_运行组件_任务提交流程_数据流图变化过程...

weixin_39926402的博客

03-04

264

Flink并行度优先级(从高到低)sum(1).setParallelism(1)env.setParallelism(1)ApacheFlinkDashboard任务添加并行度配置flink-conf.yaml并行度配置注: 处理输入输出时, 并行度默认为 1Flink集群常用指令提交任务run: 代表执行; c: 指定入口类; p: 并行度; host, post: 主机地址端口flink r...

Flink -- 并行度

最新发布

加油

11-05

348

TaskManager在Flink集群中分布式运行，每个TaskManager可以运行多个Slot。Slot是TaskManager中的资源分配单位，每个Slot可以运行一个Flink任务。TaskManager是Flink中负责运行任务的工作进程，而Slot是TaskManager中可用的资源。对于一个Flink任务是有Source、Transformation和Sink等任务组成，一个任务由多个并行实例来执行，一个任务的并行实例数目被称为该任务的并行度。3、可以对每一个算子都单独的设置并行度。

flink 并行度 任务链 task分配

qq_34897849的博客

01-11

4423

Flink 中每一个 TaskManager 都是一个JVM进程，它可能会在独立的线程上执行一个或多个 subtask 为了控制一个 TaskManager 能接收多少个 task， TaskManager 通过 task slot 来进行控制（一个 TaskManager 至少有一个 slot） slot 主要隔离内存，cpu 是slot之间共享的。也就是说4核的机器，内存足够，可以把s...

Flink整体架构原理、组件角色介绍、并行度概念和调整优先级

weixin_43865381的博客

12-18

2123

Flink整体架构原理、组件角色介绍、并行度概念和调整优先级

06-Flink的并行度了解吗？Flink的并行度设置是怎样的？

huaxing_ba的博客

05-04

283

Flink的并行度了解吗？Flink的并行度设置是怎样的？

ORACLE 并行(PARALLEL)实现方式及优先级

cijinli4767的博客

12-26

161

一、 Parallel query 默认情况下session 是ENABLE状态 1. 实现方式 1 Alter sessi...

【BigData】Flink(框架原理)

weixin_32709317的博客

10-12

191

Flink是什么有状态流处理有状态流处理（Stateful Stream Processing）指的是一种流式计算模型，其中计算操作可以记住和访问之前处理过的数据或状态信息。这与无状态流处理不同，无状态流处理每个事件都是独立的，没有记忆或上下文信息。Flink 特点。

Flink 常用算子总结

Aspirin's Nest

11-29

764

1.前言之前公司是用spark的，现在公司用flink，flink中有很多与spark不同的算子，功能非常强大，这里对一些不同于spark的算子使用方法进行总结，方便以后查阅。一次可能更新不全，会慢慢总结，希望路过的看到的留言帮忙一起总结，谢谢大家。 2.connect/coMap/coFlatMap Connect算子主要是为了合并两种或者多种不同数据类型的数据集，合并后会保留原来数据集的数据类型。连接操作允许共享状态数据，也就是说在多个数据集之间可以操作和查看对方数据集的状态。对于Con

轻松通关Flink第17讲：生产环境中的并行度和资源设置

sucaiwa的博客

03-27

565

本课时我们讲解了 Flink 中和资源相关的几个重要概念，并且讲解了并行度设置的四种方法，我们在生产环境中的并行度设置是经过多次调优得出的。通过本课时的学习，你将会了解 Flink 中的并行度设置方法，并且能在生产环境中正确设置并行度。点击这里下载本课程源码。

Flink学习笔记（七）并行度详解

zhang09090606的博客

03-27

2988

一个Flink程序由多个任务（Source、Transformation和Sink）组成。一个任务由多个并行实例（线程）来执行，一个任务的并行实例（线程）数目被称为该任务的并行度。

【实战-06】如何正确设置flink参数,全网最全

笔生花的博客

09-06

1309

设置flink参数， yarn.provided.usrlib.dir yarn.provided.lib.dirs

flink TskManger与Slots

oracle8090的博客

01-27

586

Flink中每一个worker(TaskManager)都是一个JVM进程，它可能会在独立的线程上执行一个或多个subtask。为了控制一个worker能接收多少个task，worker通过task slot来进行控制（一个worker至少有一个task slot）。每个task slot表示TaskManager拥有资源的一个固定大小的子集。假如一个TaskManager有三个slot，那么它会将其管理的内存分成三份给各个slot。资源slot化意味着一个subtask将不需要跟来自其他job的sub

flink并行度知识点

杜海的博客

03-16

4252

Flink的基本构建流(Stream)：流是对当前数据流向的记录（流也可能是永无止境的）。转换(Transform)：转换是将一个或多个流作为输入，根据需要求转换成我们要的格式的流的过程。当程序执行时，Flink程序会将数据流进行映射、转换运算成我们要的格式的流。每个数据流都以一个或多个源(Source)开始，并以一个或多个接收器(Sink)结束，数据流类似于任意有向无环图(DAG)。 Flink 中的程序本质上是并行的。在执行期间，每一个算子(Transfor...

flink并行度设置

09-03

例如，使用命令"bin/flink run -p 10 FlinkDemo.jar"来将作业的并行度设置为10。其次，在系统层面，可以通过编辑flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度。这样，在没有...