Flink
文章平均质量分 86
实时计算框架Flink
Keven He
一个热爱技术的大数据开发者
展开
-
大数据项目之Flink实时数仓(数据可视化接口实现)
之前数据分层处理,最后把轻度聚合的结果保存到 ClickHouse 中,主要的目的就是提供即时的数据查询、统计、分析服务。这些统计服务一般会用两种形式展现,一种是为专业的数据分析人员的 BI 工具,一种是面向非专业人员的更加直观的数据大屏。以下主要是面向百度的 sugar 的数据大屏服务的接口开发最终效果图分析各个可视化模块在可视化大屏中每个组件都需要一个单独的接口,图中一共涉及 8 个组件。接口执行过程:之前我们实现了 DWS 层计算后写入到 ClickHouse 中,接下来就是要为可原创 2022-06-06 20:21:00 · 2889 阅读 · 1 评论 -
精通Flink项目优化(五.FlinkSQL 调优)
1. Group Aggregate 优化1.1 开启 MiniBatch(提升吞吐)MiniBatch 是微批处理,原理是缓存一定的数据后再触发处理,以减少对 State 的访问,从而提升吞吐并减少数据的输出量。MiniBatch 主要依靠在每个 Task 上注册的 Timer 线程来触发微批,需要消耗一定的线程调度性能。MiniBatch 默认关闭,开启方式如下:// 初始化 table environmentTableEnvironment tEnv = ...// 获取 tableEnv原创 2022-04-30 21:37:28 · 2085 阅读 · 0 评论 -
Flink运行架构
系统架构整体构成JobManagerTaskManager作业提交流程抽象视角StandaloneYARN集群重要概念Dataflow GraphParallelismOperator ChainJobGraph和ExecutionGraphTasks和Tasks Slots总结原创 2022-04-24 13:07:51 · 1809 阅读 · 0 评论 -
精通Flink项目优化(四.KafkaSource调优)
KafkaSource调优动态发现分区当 FlinkKafkaConsumer 初始化时,每个 subtask 会订阅一批 partition,但是当Flink 任务运行过程中,如果被订阅的 topic 创建了新的 partition,FlinkKafkaConsumer如何实现动态发现新创建的 partition 并消费呢?在使用 FlinkKafkaConsumer 时,可以开启 partition 的动态发现。通过 Properties指定参数开启(单位是毫秒):FlinkKafkaC原创 2022-04-23 22:05:42 · 2780 阅读 · 0 评论 -
精通Flink项目优化(三.数据倾斜)
数据倾斜判断是否存在数据倾斜相同 Task 的多个 Subtask 中,个别 Subtask 接收到的数据量明显大于其他Subtask 接收到的数据量,通过 Flink Web UI 可以精确地看到每个 Subtask 处理了多少数据,即可判断出 Flink 任务是否存在数据倾斜。通常,数据倾斜也会引起反压。数据倾斜的解决keyBy前发生数据倾斜keyBy前存在数据倾斜,上游算子的某些实例可能处理的数据比较多,某些实例可能处理的数据较少,产生情况可能时因为数据源的数据不均匀举栗子:由于某些原原创 2022-04-23 22:00:18 · 1850 阅读 · 0 评论 -
精通Flink项目优化(二.反压处理)
反压处理反压(BackPressure)通常产生于这样的场景:短时间的负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压,例如,垃圾回收停顿可能会导致流入的数据快速堆积,或遇到大促、秒杀活动导致流量陡增。反压如果不能得到正确的处理,可能会导致资源耗尽甚至系统崩溃。反压机制是指系统能够自己检测到被阻塞的 Operator,然后自适应地降低源头或上游数据的发送速率,从而维持整个系统的稳定。Flink 任务一般运行在多个节点上,数据从上游算子发送到下游算子需要网络传输,若系统在反压原创 2022-04-23 21:51:59 · 2577 阅读 · 0 评论 -
精通Flink项目优化(一.资源配置调优)
资源配置调优Flink 性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。提交方式主要是 yarn-per-job,资源的分配在使用脚本提交 Flink 任务时进行指定。内存设置生产资源配置:bin/flink run \-t yarn-per-job \-d \-p 5 \ 指定并行度-Dyarn.application.queue=test \ 指定 yarn 队列-Dj原创 2022-04-23 21:33:57 · 2125 阅读 · 0 评论 -
Flink部署模式
Flink简介Apache Flink 是一个框架和分布式处理引擎。用于对无界和有界数据流进行有状态计算。Flink 被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算Flink的应用一个大数据流处理引擎,为不同的行业提供大数据实时处理的解决方案。为高速准确的处理海量流式数据提供了可能。数据规模大、实时性要求高、确保结果准确、方便扩展、故障后可恢复 Flink都可以满足电商和市场营销:实时数据报表,广告投放,实时推荐物联网:传感器数据采集和显示,实时报警,交通运输业物流.原创 2022-04-21 16:42:57 · 4666 阅读 · 1 评论 -
大数据项目之Flink实时数仓(DWS层)
大数据项目Flink实时数仓DWS层原创 2022-02-12 17:08:10 · 3163 阅读 · 0 评论 -
大数据项目之Flink实时数仓(DWM层)
设计思路之前通过分流等处理手段,将数据拆分成了独立的kafka topic,接下来处理数据,我们应该考虑的是将实时计算使用的指标项进行处理,时效性是实时数仓所追求的,所以在一些场景没有必要和离线数仓一样,大而全的中间层,只需要中间层将一些计算指标保存即可,为下次计算使用提供便利。所以需要考虑一些实时计算的指标需求,把这些指标以主题宽表的形式输出就是dws层这里列出来一部分指标,主要为服务可视化大屏计算,说了这么多,dwm层怎么还没出现,别急,dwm层主要服务dws层,因为部分需求直接从dwd层到dws原创 2022-02-03 21:04:39 · 2333 阅读 · 1 评论 -
大数据项目之Flink实时数仓(DWD/DIM层)
上一篇文章中简单把实时数仓数据采集以及ODS层搭建完成,开始搭建DWD层DWD层搭建思路:从kafka的ods层读取用户行为数据和业务数据,进行简单处理,再写入到kafka dwd层原创 2022-01-26 14:40:34 · 4921 阅读 · 3 评论 -
大数据项目之Flink实时数仓(数据采集/ODS层)
高价值实战项目 Flink实时数仓+实时大屏搭建!原创 2022-01-25 13:45:20 · 8288 阅读 · 2 评论 -
大数据流处理框架之Flink-CDC
一篇文章从入门到熟练使用FlinkCDC原创 2022-01-23 21:45:42 · 6841 阅读 · 1 评论