自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 Flink搭建

6.访问http://主机:8081可以对flink集群和任务进行监控。Flink on yarn 基于Hadoop集群的yarn。2.进入conf修改flink-conf.yaml。7.停止Flink集群命令。5.启动Flink集群命令。3.启动Hadoop集群。4.分发到集群其他节点。3.修改wokers。

2024-05-29 10:43:21 397

原创 【报错】Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writabl

【代码】【报错】Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writabl。

2024-03-04 10:03:56 1052

原创 Flink 侧输出流(SideOutput)

ProcessFunction 的 side outputs 功能可以产生多条流,并且这些流的数据类型可以不一样。一个 side output 可以定义为 OutputTag[X]对象,X 是输出流的数据类型。process function 可以通过 Context 对象发射一个事件到一个或者多个 side outputs。注意:OutputTag是如何根据旁路输出流包含的元素类型typed的。✨可以通过以下几种函数发射数据到旁路输出。当使用旁路输出时,首先需要定义一个。来标识一个旁路输出流。

2024-02-22 20:00:00 1787

原创 Flink双流(join)

Window Join有可以根据Window的类型细分出3种:Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。🌸Window 类型的join都是利用window的机制,先将数据缓存在Window State中,当窗口触发计算时,执行join操作。

2024-02-21 18:53:59 1601

原创 npm :无法将“npm“项识别为cmdlet、函数、脚本文件或可运行程序的名称。npm: The “npm“ item cannot be recognized as the name of a

问题:解决方法:

2024-02-19 20:27:55 535

原创 redis 值中文显示乱码

进入时添加 --raw参数。

2024-02-18 21:45:00 797 1

原创 Spark安装(Yarn模式)

链接:https://pan.baidu.com/s/1O8u1SEuLOQv2Yietea_Uxg。五、修改spark-env.sh。四、 分发刚刚修改的配置文件。六、启动hadoop。

2024-02-07 20:41:54 861 1

原创 Hadoop搭建(完全分布式)

修改 /opt/module/hadoop-3.1.3/sbin/start-yarn.sh和 /opt/module/hadoop-3.1.3/sbin/stop-yarn.sh。修改 /opt/module/hadoop-3.1.3/sbin/start-dfs.sh和 /opt/module/hadoop-3.1.3/sbin/stop-dfs.sh。hadoop-3.1.3链接:https://pan.baidu.com/s/11yFkirCiT6tdo_9i1jWwkw。

2024-02-07 20:24:55 1174 1

原创 Kafka集群搭建

Kafka集群是把状态保存在Zookeeper中的,首先要搭建Zookeeper集群。链接:https://pan.baidu.com/s/1zxJRd13rgHfJexP-Jbl36g。6.修改bigdata2,bigdata3中的 server.properties和环境变量。依次在bigdata1、bigdata2、bigdata3节点上启动kafka。先启动Zookeeper集群,然后启动kafaka。5.分发bigdata2,bigdata3。当然,您也可以从官网下载。修改文件名,方便后续。

2024-02-01 21:48:10 564 1

原创 Flume搭建

百度盘链接:https://pan.baidu.com/s/1ZhSiePUye9ax7TW5XbfWdw。压缩包版本:apache-flume-1.9.0-bin.tar。2).复制一份flume-env.sh,命名为。3).修改配值文件flume-env.sh。1).切换到flume下面的conf。3. 修改用户和用户组的权限。

2024-02-01 20:42:35 950 1

原创 zookeeper搭建(单机模式和集群模式)

5.修改bigdata2和bigdata3中zookeeper下面data目录中的myid文件。1.新建data和logs目录(data目录用来存放数据库快照,logs目录用来存放日志文件)3.重命名 zoo_sample.cfg 为zoo.cfg。6.可以使用 status 命令查看zookeeper状态。2.找到zookeeper目录下的 conf 配置文件夹。进入data目录,新建myid文件。5.配置完之后就可以直接启动Zookeeper。4.用vi命令打开zoo.cfg文件。

2024-02-01 18:22:35 800 1

原创 数据写入HBase(scala)

【代码】数据写入HBase(scala)

2024-01-29 20:01:28 620

原创 Flink实现数据写入MySQL

【代码】Flink实现数据写入MySQL。

2024-01-26 18:35:07 1144 1

原创 迟到数据处理 和 基本时间的合流

于是对于一条流(不妨叫作A)中的任意一个数据元素a,就可以开辟一段时间间隔:[a.timestamp + lowerBound, a.timestamp + upperBound],即以a的时间戳为中心,下至下界点、上至上界点的一个闭区间:我们就把这段时间作为可以匹配另一条流数据的“窗口”范围。下方的流A去间隔联结上方的流B,所以基于A的每个数据元素,都可以开辟一个间隔区间。同样地,A中时间戳为3的元素,可匹配区间为[1, 4],B中只有时间戳为1的一个数据可以匹配,于是得到匹配数据对(3, 1)。

2024-01-25 20:11:08 905

原创 函数类(Function Classes)和 富函数类(Rich Function Classes)

Flink暴露了所有UDF函数的接口,,例如MapFunction、FilterFunction、ReduceFunction等。所以用户可以自定义一个函数类,实现对应的接口。

2024-01-24 19:22:51 643 1

原创 算子:详细篇

使用用户定义的 Partitioner 为每个元素选择目标任务。Scala如果我们想将数据存储到我们自己的存储设备中,而Flink并没有提供可以直接使用的连接器,就只能自定义Sink进行输出了。与Source类似,Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类,只要实现它,通过简单地调用DataStream的.addSink()方法就可以自定义写入任何外部存储。

2024-01-23 17:32:35 1283 1

原创 Flink---处理函数

无论是基本的转换、聚合,还是更为复杂的窗口操作,其实就是基于DataStream进行转换的,所以可以统称为DataStream API。在Flink更底层,我们可以不定义任何具体的算子(比如map,filter或window),而只是提炼出一个统一的“处理”(process)操作------它是所有转换算子的一个概括性的表达,可以自定义处理逻辑,所以这一层接口就被叫作“处理函数”(process function)。

2024-01-22 20:41:50 1134

原创 II.Flink中的 状态

这篇文章是详细化上一篇文章按键分区状态(Keyed State)顾名思义,是任务按照键(key)来访问和维护的状态。它的特点非常鲜明,就是以key为作用范围进行隔离。需要注意,使用Keyed State必须基于KeyedStream。没有进行keyBy分区的DataStream,即使转换算子实现了对应的富函数类,也不能通过运行时上下文访问Keyed State。keyed state 接口提供不同类型状态的访问接口,这些状态都作用于当前输入数据的 key 下。

2024-01-21 18:00:00 1322 1

原创 I.Flink中的 状态

实时计算如果任务失败导致中间状态丢失,将是一个可怕的事情,比如实时计算每天的pv,uv等指标,任务掉线之后中间状态也丢失了,那只能从凌晨数据重新计算。如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算即可。

2024-01-20 17:05:17 938

原创 报错Caused by: redis.clients.jedis.exceptions.JedisDataException: DENIED Redis is running in protected

.. 4 more。

2024-01-20 14:53:16 951

原创 时间语义 和 窗口

..........

2024-01-19 15:35:57 1098 1

原创 Flink 算子:数据处理的魔法师

.........

2024-01-18 19:24:06 1022

原创 流处理实现WordCount

流处理WordCount

2024-01-17 19:16:43 399

原创 报错Caused by: org.apache.kafka.common.errors.TimeoutException: Timeout of 60000ms expired before the

删除分区 重新创建和采集。最后,重启kafka。

2024-01-17 18:49:05 2298 2

原创 水位线(Watermark)

水位线

2024-01-17 18:40:11 1521

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除