牙几米
码龄5年
关注
提问 私信
  • 博客:18,113
    18,113
    总访问量
  • 17
    原创
  • 120,795
    排名
  • 11
    粉丝
  • 0
    铁粉

个人简介:目标致力于深耕大数据领域的小学僧,还请各位大佬多多关照。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2019-12-14
博客简介:

weixin_46021633的博客

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    115
    当月
    1
个人成就
  • 获得25次点赞
  • 内容获得9次评论
  • 获得40次收藏
创作历程
  • 3篇
    2024年
  • 1篇
    2023年
  • 2篇
    2022年
  • 7篇
    2021年
  • 6篇
    2020年
成就勋章
TA的专栏
  • 大数据开发
    14篇
  • 实时
    2篇
  • Flink
    9篇
  • Linux虚拟机
    1篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 大数据
    hadoophivestormsparketl
  • 人工智能
    opencvcaffetensorflowmxnetpytorchnlpscikit-learn聚类集成学习迁移学习分类回归
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

吐槽MacCompute!吐槽MacCompute!吐槽MacCompute!

MaxCompute、大数据、SQL、Hive、Spark、Flink
原创
发布博客 2024.11.21 ·
133 阅读 ·
4 点赞 ·
0 评论 ·
0 收藏

算法面试题——TLV解码(python)

TLV编码是按[Tag Length Value]格式进行编码的,一段码流中的信元用Tag标识,Tag在码流中唯一不重复,Length表示信元Value的长度,Value表示信元的值。本题考查的是对字符串、数组和集合操作的理解,首先输入一个16进制的信元Tag,然后再输入一串字符串找到第一行输入信元Tag的Value值。第四个信元的Tag是31,其长度为2(0200),所以返回长度后面的两个字节即可,即3233。现给定TLV格式编码的码流,以及需要解码的信元Tag,请输出该信元的Value。
原创
发布博客 2024.09.22 ·
377 阅读 ·
9 点赞 ·
0 评论 ·
4 收藏

算法面试题——敏感字段加密(python)

请对指定索引的敏感字段进行加密,替换为******(6个*),并删除命令字前后多余的下划线_。如果无法找到指定索引的命令字,输出字符串ERROR。输出处理后的命令字符串,如果无法找到指定索引的命令字,输出字符串ERROR。输入为两行,第一行为命令字索引K(从0开始),第二行为命令字符串S。欢迎各位补充和优化。
原创
发布博客 2024.09.22 ·
232 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Kafka源码之Producer阅后总结

本文是阅读Kafka producer源码之后的写的一点总结,理解有出入的地方还请提出来。
原创
发布博客 2023.02.12 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

基于尚硅谷的Flink源码视频的Flink环境配置和任务提交流程、组件通信、任务调度以及内存管理源码梳理

发布资源 2022.10.06 ·
xmind

Flink1.13版本大纲

目前大数据领域最火爆的实时计算引擎,学习+分享。
原创
发布博客 2022.07.04 ·
242 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Redis-6.0.16详细安装过程

redis6版本安装,测试学习使用,针对本机在安装过程中遇到的小问题并解决。
原创
发布博客 2022.04.04 ·
4050 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

Flink state(3)- Queryable State

什么是Queryable State简而言之,就是Flink将managed keyed(partitioned)state暴露给外部,从而用户可以从Flink外部访问state作业。架构1.QueryableStateClient,默认运行在Flink集群的外部,负责提交用户的查询请求。2.QueryableStateClientProxy,运行在TaskManager上(Flink集群的内部),负责接收客户端的查询请求,从所负责的Task Manager获取请求的state,并返回给客户端。
原创
发布博客 2021.10.11 ·
354 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink的state解析(2)

Flink中的state是什么?首先flink从消息队列中读取到的每一条数据称之为事件,虽然很多操作中一次只查看一个单独的事件,但是有些操作会记录多个事件信息,这些操作称为有状态的操作。有状态操作的一些示例:当应用程序搜索某些事件模式时,状态将会存储目前为止遇到的时间序列。当聚合每分钟/小时/天,状态会保存挂起的聚合。在数据流上训练机器模型,状态会保存当前模型的参数的版本。当需要管理历史事件,状态允许有效的访问历史事件。Flink需要知道状态的信息,以便使用checkpoing和savep
原创
发布博客 2021.07.11 ·
1774 阅读 ·
3 点赞 ·
2 评论 ·
6 收藏

Linux虚拟机连不上网络

1.虚拟机的ip地址和本地网卡IPv4地址保持一致2.vim /etc/sysconfig/network-scripts/ifcfg-ens34(ifcfg-ens34是Linux虚拟机的网卡名称)3.节点MAC地址4.虚拟机网络已联通
原创
发布博客 2021.03.14 ·
514 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Table API & SQL(二)

概念与通用的APITable API和SQL集成在同一套API中。这套API的核心概念式Table,用作查询的输入和输出。本文介绍了Table API和SQL程序的通用结构、如何注册Table、如何查询Table以及如何输出Table。
转载
发布博客 2021.04.18 ·
528 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink应用开发之Table API & SQL(附源码解析)(一)

依赖图Flink1.9开始,Flink提供了两个Table Planner实现来执行Table API和SQL程序:Blink Planner和Old Planner,Old Planner在1.9之前已经存在了。Planner的作用是将关系型操作翻译成可执行的、优化后的任务。两种Planner在优化规则和执行时类都不一样,在支持的功能上也有些差异。对于生产环境,建议使用在1.11之后变成默认的Blink Planner。所有的Table API和sql的代码都在flink-table或者flin
原创
发布博客 2021.03.14 ·
1122 阅读 ·
1 点赞 ·
4 评论 ·
3 收藏

Flink的State详解(1)

State概念解析State是一个接口,不同类型的分区状态必须实现的接口,State只能应用于{@code KeyedStream}的函数访问。key是由系统自动提供的,因此函数总是看到映射到当前元素的键的值。这样,系统可以一致地处理流和状态分区。KeyedStream:KeyedStream继承了DataStream,是由datastream的keyBy(),产生的。表示按key的value分区过的流。在datastream的功能基础上,由添加了一些max,min等聚合的功能。通过状态快照实现容
转载
发布博客 2021.02.26 ·
5073 阅读 ·
3 点赞 ·
0 评论 ·
11 收藏

Flink的容错

CheckPointCheckPoint是Flink的容错核心机制。它可以定期将各个Operator处理的数据进行快照存储(Snapshot)。通过CheckPoint机制,可以对作业的状态和计算位置进行恢复。barrier的产生Flink的checkpoint是由JobManager发起的,以一定的周期触发Source Task产生barrier。Source收到指令后生成barrier,Source Task中会进行两件事1.首先生成携带CheckPoint ID的barrier,并将
原创
发布博客 2021.01.26 ·
401 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink Time

Flink Time的操作时间语义针对stream流中的事件,分为三种:1.Event Time:事件本身的时间2.Ingestion Time:进入系统的时间3.Process Time:处理消息的时间哪种时间语义更重要:1.不同的时间语义有不同的应用场合2.在Flink处理数据时,更关心事件时间,因为绝大部分业务都会使用event time,一般只在event time无法使用的时候,才会使用process time或者Ingestion time。3.使用event time的时
原创
发布博客 2020.12.11 ·
147 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink的Window

Flink的Window操作Flink认为Batch是Streaming的一个特例,所以Flink底层引擎是一个流式处理引擎,而Window就是Streaming和Batch链接的桥梁。Window的概念:在流式处理应用中,数据是连续不断的,我们不可能等到所有数据都到了之后再去处理,但是有时根据业务的需求我们需要做一些聚合类的处理。例如:在过去的一分钟内有多少用户点击了我们的网页,在这种情况下,我们必须定义一个窗口,用来收集最近一分钟的数据,并对这个窗口内的数据进行计算。Window的类型:时间窗口
原创
发布博客 2020.12.03 ·
291 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink中的广播变量、累加器和分布式缓存

Flink中的广播变量、累加器和分布式缓存Flink的广播变量1、Flink可以将数据广播到TaskManager上,数据存储到内存中,可以大量减少shuffle的操作;比如在数据join阶段,不可避免的就是大量的shuffle操作,我们可以把其中一个DataSet广播出去,加载到TaskManager的内存中,可以直接在内存中加载数据,这样就能避免大量的shuffle操作导致的集群性能下降。2、广播变量创建后,可以被使用在集群任何一个节点的function上,而不需要多次传递给集群的节点。3、可以
原创
发布博客 2020.10.20 ·
433 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink流处理API

一、Environmen1.Flink中你可以使用StreamExecutionEnvironment.getExecutionEnvironment创建l流式程序的运行环境。例:val env:ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment2.如果没有设置并行度,会以Flink-conf.yaml文件的配置为准,默认为1。3.createLocalEnvironment,返回本地执行环境,需要在调用时指定并行度
原创
发布博客 2020.09.30 ·
464 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Flink集群运行时架构及部署

Flink集群运行时架构及部署一、并行度(Parallelism)1.上图能够看出,不能chain在一起的operator会被分配到不同的Task中,也就是说Task是Flink中资源调度最小的单位。a.一个特定算子的子任务(subtask)的个数被称之为并行度(parallelism)b.一般情况下,一个流程序的并行度,是由程序中算子中最大的并行度。c.一个程序中,不同的算子可以有不同的并行度。2.1Flink程序的执行具有并行、分布式的特性在执行的过程中,一个流(Stream)包含一个
原创
发布博客 2020.09.11 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink集群部署&运行架构

Flink(一):Flink集群部署&运行时架构一、Standlone模式任务调度原理JobManager:作业管理器,负责协调资源分配和作业执行。资源分配完成后,将任务提交给TaskManager。TaskManager:执行任务的工作节点。会定期想JobManager汇报状态。Client:提交Flink程序JobManager是Standlone模式中整个系统最有可能导致整个系统不可用的角色。如果一个TaskManager挂掉,TaskSlot(资源充足)最够的话,则只需要把相关的t
原创
发布博客 2020.08.28 ·
1151 阅读 ·
1 点赞 ·
2 评论 ·
5 收藏
加载更多