自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 Kafka源码之Producer阅后总结

本文是阅读Kafka producer源码之后的写的一点总结,理解有出入的地方还请提出来。

2023-02-12 13:44:05 135

原创 Flink1.13版本大纲

目前大数据领域最火爆的实时计算引擎,学习+分享。

2022-07-04 23:28:23 224

原创 Redis-6.0.16详细安装过程

redis6版本安装,测试学习使用,针对本机在安装过程中遇到的小问题并解决。

2022-04-04 17:21:49 3897

原创 Flink state(3)- Queryable State

什么是Queryable State简而言之,就是Flink将managed keyed(partitioned)state暴露给外部,从而用户可以从Flink外部访问state作业。架构1.QueryableStateClient,默认运行在Flink集群的外部,负责提交用户的查询请求。2.QueryableStateClientProxy,运行在TaskManager上(Flink集群的内部),负责接收客户端的查询请求,从所负责的Task Manager获取请求的state,并返回给客户端。

2021-10-11 23:11:34 332

原创 Flink的state解析(2)

Flink中的state是什么?首先flink从消息队列中读取到的每一条数据称之为事件,虽然很多操作中一次只查看一个单独的事件,但是有些操作会记录多个事件信息,这些操作称为有状态的操作。有状态操作的一些示例:当应用程序搜索某些事件模式时,状态将会存储目前为止遇到的时间序列。当聚合每分钟/小时/天,状态会保存挂起的聚合。在数据流上训练机器模型,状态会保存当前模型的参数的版本。当需要管理历史事件,状态允许有效的访问历史事件。Flink需要知道状态的信息,以便使用checkpoing和savep

2021-07-11 18:29:06 1706 2

转载 Table API & SQL(二)

概念与通用的APITable API和SQL集成在同一套API中。这套API的核心概念式Table,用作查询的输入和输出。本文介绍了Table API和SQL程序的通用结构、如何注册Table、如何查询Table以及如何输出Table。

2021-04-18 14:41:02 506

原创 Linux虚拟机连不上网络

1.虚拟机的ip地址和本地网卡IPv4地址保持一致2.vim /etc/sysconfig/network-scripts/ifcfg-ens34(ifcfg-ens34是Linux虚拟机的网卡名称)3.节点MAC地址4.虚拟机网络已联通

2021-03-14 18:57:05 430

原创 Flink应用开发之Table API & SQL(附源码解析)(一)

依赖图Flink1.9开始,Flink提供了两个Table Planner实现来执行Table API和SQL程序:Blink Planner和Old Planner,Old Planner在1.9之前已经存在了。Planner的作用是将关系型操作翻译成可执行的、优化后的任务。两种Planner在优化规则和执行时类都不一样,在支持的功能上也有些差异。对于生产环境,建议使用在1.11之后变成默认的Blink Planner。所有的Table API和sql的代码都在flink-table或者flin

2021-03-14 18:09:16 1056 4

转载 Flink的State详解(1)

State概念解析State是一个接口,不同类型的分区状态必须实现的接口,State只能应用于{@code KeyedStream}的函数访问。key是由系统自动提供的,因此函数总是看到映射到当前元素的键的值。这样,系统可以一致地处理流和状态分区。KeyedStream:KeyedStream继承了DataStream,是由datastream的keyBy(),产生的。表示按key的value分区过的流。在datastream的功能基础上,由添加了一些max,min等聚合的功能。通过状态快照实现容

2021-02-26 21:07:44 5014

原创 Flink的容错

CheckPointCheckPoint是Flink的容错核心机制。它可以定期将各个Operator处理的数据进行快照存储(Snapshot)。通过CheckPoint机制,可以对作业的状态和计算位置进行恢复。barrier的产生Flink的checkpoint是由JobManager发起的,以一定的周期触发Source Task产生barrier。Source收到指令后生成barrier,Source Task中会进行两件事1.首先生成携带CheckPoint ID的barrier,并将

2021-01-26 10:12:15 365

原创 Flink Time

Flink Time的操作时间语义针对stream流中的事件,分为三种:1.Event Time:事件本身的时间2.Ingestion Time:进入系统的时间3.Process Time:处理消息的时间哪种时间语义更重要:1.不同的时间语义有不同的应用场合2.在Flink处理数据时,更关心事件时间,因为绝大部分业务都会使用event time,一般只在event time无法使用的时候,才会使用process time或者Ingestion time。3.使用event time的时

2020-12-11 09:40:07 131

原创 Flink的Window

Flink的Window操作Flink认为Batch是Streaming的一个特例,所以Flink底层引擎是一个流式处理引擎,而Window就是Streaming和Batch链接的桥梁。Window的概念:在流式处理应用中,数据是连续不断的,我们不可能等到所有数据都到了之后再去处理,但是有时根据业务的需求我们需要做一些聚合类的处理。例如:在过去的一分钟内有多少用户点击了我们的网页,在这种情况下,我们必须定义一个窗口,用来收集最近一分钟的数据,并对这个窗口内的数据进行计算。Window的类型:时间窗口

2020-12-03 16:53:26 265

原创 Flink中的广播变量、累加器和分布式缓存

Flink中的广播变量、累加器和分布式缓存Flink的广播变量1、Flink可以将数据广播到TaskManager上,数据存储到内存中,可以大量减少shuffle的操作;比如在数据join阶段,不可避免的就是大量的shuffle操作,我们可以把其中一个DataSet广播出去,加载到TaskManager的内存中,可以直接在内存中加载数据,这样就能避免大量的shuffle操作导致的集群性能下降。2、广播变量创建后,可以被使用在集群任何一个节点的function上,而不需要多次传递给集群的节点。3、可以

2020-10-20 17:33:54 412

原创 Flink流处理API

一、Environmen1.Flink中你可以使用StreamExecutionEnvironment.getExecutionEnvironment创建l流式程序的运行环境。例:val env:ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment2.如果没有设置并行度,会以Flink-conf.yaml文件的配置为准,默认为1。3.createLocalEnvironment,返回本地执行环境,需要在调用时指定并行度

2020-09-30 09:47:19 435 1

原创 Flink集群运行时架构及部署

Flink集群运行时架构及部署一、并行度(Parallelism)1.上图能够看出,不能chain在一起的operator会被分配到不同的Task中,也就是说Task是Flink中资源调度最小的单位。a.一个特定算子的子任务(subtask)的个数被称之为并行度(parallelism)b.一般情况下,一个流程序的并行度,是由程序中算子中最大的并行度。c.一个程序中,不同的算子可以有不同的并行度。2.1Flink程序的执行具有并行、分布式的特性在执行的过程中,一个流(Stream)包含一个

2020-09-11 16:53:04 211

原创 Flink集群部署&运行架构

Flink(一):Flink集群部署&运行时架构一、Standlone模式任务调度原理JobManager:作业管理器,负责协调资源分配和作业执行。资源分配完成后,将任务提交给TaskManager。TaskManager:执行任务的工作节点。会定期想JobManager汇报状态。Client:提交Flink程序JobManager是Standlone模式中整个系统最有可能导致整个系统不可用的角色。如果一个TaskManager挂掉,TaskSlot(资源充足)最够的话,则只需要把相关的t

2020-08-28 18:13:06 1112 2

基于尚硅谷的Flink源码视频的Flink环境配置和任务提交流程、组件通信、任务调度以及内存管理源码梳理

基于尚硅谷的Flink源码视频的Flink环境配置和任务提交流程、组件通信、任务调度以及内存管理源码梳理

2022-10-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除