weixin_52346735
码龄4年
关注
提问 私信
  • 博客:29,475
    29,475
    总访问量
  • 62
    原创
  • 1,466,606
    排名
  • 16
    粉丝
  • 0
    铁粉

个人简介:Wang-Gang

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2020-11-08
博客简介:

weixin_52346735的博客

查看详细资料
个人成就
  • 获得32次点赞
  • 内容获得6次评论
  • 获得57次收藏
  • 代码片获得140次分享
创作历程
  • 17篇
    2021年
  • 45篇
    2020年
成就勋章
TA的专栏
  • 大数据之Flink
    9篇
  • Titan 数据运营采集系统
    2篇
  • Spark
    12篇
  • 大数据之Scala
    5篇
  • 大数据之 HIVE
    17篇
  • 大数据之 ClickHouse
    10篇
  • 大数据之Hbase
    1篇
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Exactly-once 只有一次的两个阶段提交 (Exactly-once two-phase commit)

Data Source 会先从 kafka 里面读取数据JobManger 会向 Data Source 中 发起 Checkpoint 指令并同时向 S ource 发送 barrier (检查点分界线),如果这个Source 有多个并行,那么每个Source 都会有一个 barrier这个 barrier 会把 Data Source 中的状态保存起来持久化到 State Backend 中 ,然后 barrier 会向下个算子Window 中传递,然后我们假如会在 Window ...
原创
发布博客 2021.03.12 ·
257 阅读 ·
2 点赞 ·
1 评论 ·
1 收藏

Flink 的 状态

State状态什么是状态: 程序在计算过程当中的中间结果Flink实时计算程序为了保证计算过程中,出现异常可以容错,就要将中间的计算结果数据存储起来,这些中间数据就叫做State。State可以是多种类型的,默认是保存在JobManager的内存中,也可以保存到TaskManager本地文件系统或HDFS这样的分布式文件系统StateBackEnd用来保存State的存储后端就叫做StateBackEnd,默认是保存在JobManager的内存中,也可以保存的本地文件系统或HDFS这样的分布
原创
发布博客 2021.03.08 ·
414 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 的 算子链 和 资源组

Task Slots 和资源**来自同一个 job 的不同 task 的 substask 可以挤到同一个槽里面**共享资源槽的两个优点:1 Flink 集群中有几个 task slot ,就有多少个并行度,无需计算程序中包含多少个 subtask2 容易获得更好的资源利用率,如果没有 slot 共享,非密集 subtask 会将 阻塞 和 密集型 一样多的资源,通过 slot 共享,我们示例 中的基本并行度 从2 增加到6 ,可以充分利用分配的资源,同时确保 繁重的 subt
原创
发布博客 2021.03.08 ·
297 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 之 EventTime 划分时间窗口(滑动窗口)

不分组,按照EventTime划分 滑动窗口*Non-keyed Window,底层调用的是windowAllpublic class EventTimeSlidingWindowAllDemo1 { public static void main(String[] args) throws Exception { // 前关后闭 0 -- 4999 5000- 9999 StreamExecutionEnvironment env = StreamE
原创
发布博客 2021.03.07 ·
688 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 之 EventTime 划分时间窗口(会话窗口)

不分组,按照 EventTime 划分 会话 窗口*Non-keyed Window,底层调用的是windowAll这个是大于最后会话数据,不是大于等于public class EventTimeSessionWindowAllDemo { public static void main(String[] args) throws Exception { // 前关后闭 0 -- 4999 5000- 9999 StreamExecutionEnvir
原创
发布博客 2021.03.07 ·
400 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Flink 之 EventTime 划分时间窗口(滚动窗口)

窗口触发的条件 : 水位线 >= 窗口结束的时间一不分组,按照EventTime划分滚动窗口Non-keyed Window,底层调用的是windowAllpublic class EventTimeTumblingWindowAllDemo { public static void main(String[] args) throws Exception { // 2021-03-06 21:00:00,1 // 2021-03-06 2
原创
发布博客 2021.03.07 ·
700 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink 的 窗口和时间类型

窗口运算流式计算是一种被设计用于处理无限数据集的数据计算引擎,所谓无限数据集是指一种源源不断的数据流抽象成的集合。而Window就是一种将无限数据集切分成多个有限数据集并对每一个有限数据集分别进行处理的手段。Window本质上是将数据流按照一定的规则,逻辑地切分成很多个有限大小的“bucket”桶,这样就可以对每一个在“桶里面”的有限的数据依次地进行计算了。流式计算引擎的特点是每输入一条数据就立即处理,延迟低。然而在一些场景下偏偏希望将数据先攒成一个个小批次,然后对每一个小批次再进行运算。例如用Fl
原创
发布博客 2021.03.05 ·
483 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 安装搭建 Flink 集群

第一步先搭建 Flink 集群① 下载安装 Flink 安装包下载地址:https://flink.apache.org/downloads.html② 上传flink安装包到Linux服务器上③ 解压flink安装包tar -zxf flink-1.9.1-bin-scala_2.11.tgz -C /opt/apps/④ 修改 conf 目录下的 flink-conf.yaml 配置文件#指定jobmanager的地址jobmanager.rpc.address: linu
原创
发布博客 2021.02.28 ·
176 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink 简介和理解

**什么是 Flink**Apache Flink 是一个分布式大数据处理的引擎,可对有限的数据流和无线数据流进行有状态的计算,可部署在各种集群环境,对各种大小的数据规模进行快速计算有限数据流:数据分批次执行完的无限数据流: 一直接收计算,不停歇的Flink的历史早在 2008 年,Flink 的前身已经是柏林理工大学一个研究性项目, 在 2014 被 Apache 孵化器所接受,然后迅速地成为了 ASF(Apache Software Foundation)的顶级项目之一Flink的商
原创
发布博客 2021.02.28 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kafka入门介绍和基础

Kafka的特点:1.解耦:  允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2.冗余:  消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险。许多消息队列所采用的"插入-获取-删除"范式中,在把一个消息从队列中删除之前,需要你的处理系统明确的指出该消息已经被处理完毕,从而确保你的数据被安全的保存直到你使用完毕。3.扩展性:  因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可。4.灵活性 &am
原创
发布博客 2021.02.23 ·
338 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

sql 语句的执行顺序

select-------④from ----- ①tb_namewhere ------②group by -------③having ------- ⑤order by ---------⑥limit -------------⑦
原创
发布博客 2021.02.16 ·
72 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

业务中产生的业务日志所用到的压缩算法

原创
发布博客 2021.02.08 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HIVE 常用命令

HIVE 连接方式1 在本地执行 hive 命令(本地模式进入到 hive客户终端)2 通过远程连接的方式1)开启元数据服务hive --service metastore & 2) 开启 hiveserver2 服务hiveserver23) 开启 beeline窗口beeline4) 可以查看端口号是否连接netstat -nltp | grep 10000 netstat -nltp | grep 90835)输入连接命令
原创
发布博客 2021.01.13 ·
604 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

启动命令(HDFS,ZOOKEEPER,HBASE,YARN)

Hadoop**start-all.sh 启动** 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、NodeManager但是一般不推荐使用start-all.sh(因为开源框架中内部命令启动有很多问题)。 **stop-all.sh 停止** 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、ResourceManager、Nod
原创
发布博客 2021.01.13 ·
847 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

项目-----数据采集入库报错问题总结

– 问题总结flume的agent的堆内存大小默认只有20M,在生产中是肯定不够的一般需要给到1Gvi bin/flume-ng搜索 Xmx ,并修改channel阻塞启动flume之前,积压的数据过多,所以,source读得很快,而sink写hdfs速度有限,会导致反压反压从下游传递到上游,上游的flume的运行日志中会不断报:channel已满,source重试这里就涉及到flume的运行监控 :如果通过监控,发现channel频繁处于阻塞状态,可以通过如下措施予以改善
原创
发布博客 2021.01.12 ·
259 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

RDD DataSet 和 Dataframe 的 区别

**RDD DataSet 和 Dataframe 的 区别**首先从版本产生的来看RDD(Spark1.0)—> Dataframe(Spark 1.3)—>DataSet(Spark 1.6)同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果不同的是他们的执行效率和执行方式下面我们先来了解一下这三个数据结构1 RDDRDD 是一个lazy的不可变的可以支持函数调用的并行数据集合RDD 的最大的好处就是简单, API的人性化程度高RDD 劣势是性
原创
发布博客 2021.01.07 ·
150 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

统计店铺月累计收入

sid,dt,moneyshop1,2019-01-18,500shop1,2019-02-10,500shop1,2019-02-10,200shop1,2019-02-11,600shop1,2019-02-12,400shop1,2019-02-13,200shop1,2019-02-15,100shop1,2019-03-05,180shop1,2019-04-05,280shop1,2019-04-06,220shop2,2019-02-10,100shop2,2019-0
原创
发布博客 2021.01.05 ·
235 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark 任务执行经典十八问

1 SparkContext哪一端生成的?Driver端即SparkContext(Driver 是一个统称,DAGSchedule ,TaskScheduler,BlockManager,ShuffeManager,BroadcastManger)2 DAG是在哪一端被构建的?Driver 端3 RDD是在哪一端生成的?Driver 端 ,RDD 不装真正要计算的数据,而是记录了数据的描述信息(以后从哪里读数据,怎么计算)4 调用 RDD 的算子(Transformation和Ac
原创
发布博客 2020.12.30 ·
88 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark 知识点

**一 spark **Spark是一个分布式计算框架 ,你对 RDD 进行 map 操作,其实是对它里面的每一个分区进行 map 进行操作你对 RDD 里面的数据进行操作,其实 RDD 里面 不装数据, RDD里面有多个分区 ,每个分区会生成 多个 task你对 RDD 操作,本质上是对 RDD 里面的每个分区进行操作 ,分区会记录你的操作信息(调哪个方法,传哪个函数)以后会根据这个分区信息 生成taskspark程序的流程 :读取或者转化数据创建一系列 RDD ,然后使用转化操作生成新
原创
发布博客 2020.12.30 ·
145 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

HDFS 关闭安全模式

hdfs dfsadmin -safemode leave; //退出安全模式hdfs dfsadmin -safemode forceExit; //强制退出安全模式若使用正常的退出安全模式方法无法生效时,即还是Safe mode is ON就使用强制退出安全模式
原创
发布博客 2020.12.29 ·
2732 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏
加载更多