- 博客(25)
- 收藏
- 关注
原创 Flink搭建
6.访问http://主机:8081可以对flink集群和任务进行监控。Flink on yarn 基于Hadoop集群的yarn。2.进入conf修改flink-conf.yaml。7.停止Flink集群命令。5.启动Flink集群命令。3.启动Hadoop集群。4.分发到集群其他节点。3.修改wokers。
2024-05-29 10:43:21 397
原创 【报错】Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writabl
【代码】【报错】Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writabl。
2024-03-04 10:03:56 1052
原创 Flink 侧输出流(SideOutput)
ProcessFunction 的 side outputs 功能可以产生多条流,并且这些流的数据类型可以不一样。一个 side output 可以定义为 OutputTag[X]对象,X 是输出流的数据类型。process function 可以通过 Context 对象发射一个事件到一个或者多个 side outputs。注意:OutputTag是如何根据旁路输出流包含的元素类型typed的。✨可以通过以下几种函数发射数据到旁路输出。当使用旁路输出时,首先需要定义一个。来标识一个旁路输出流。
2024-02-22 20:00:00 1787
原创 Flink双流(join)
Window Join有可以根据Window的类型细分出3种:Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。🌸Window 类型的join都是利用window的机制,先将数据缓存在Window State中,当窗口触发计算时,执行join操作。
2024-02-21 18:53:59 1601
原创 npm :无法将“npm“项识别为cmdlet、函数、脚本文件或可运行程序的名称。npm: The “npm“ item cannot be recognized as the name of a
问题:解决方法:
2024-02-19 20:27:55 535
原创 Spark安装(Yarn模式)
链接:https://pan.baidu.com/s/1O8u1SEuLOQv2Yietea_Uxg。五、修改spark-env.sh。四、 分发刚刚修改的配置文件。六、启动hadoop。
2024-02-07 20:41:54 861 1
原创 Hadoop搭建(完全分布式)
修改 /opt/module/hadoop-3.1.3/sbin/start-yarn.sh和 /opt/module/hadoop-3.1.3/sbin/stop-yarn.sh。修改 /opt/module/hadoop-3.1.3/sbin/start-dfs.sh和 /opt/module/hadoop-3.1.3/sbin/stop-dfs.sh。hadoop-3.1.3链接:https://pan.baidu.com/s/11yFkirCiT6tdo_9i1jWwkw。
2024-02-07 20:24:55 1174 1
原创 Kafka集群搭建
Kafka集群是把状态保存在Zookeeper中的,首先要搭建Zookeeper集群。链接:https://pan.baidu.com/s/1zxJRd13rgHfJexP-Jbl36g。6.修改bigdata2,bigdata3中的 server.properties和环境变量。依次在bigdata1、bigdata2、bigdata3节点上启动kafka。先启动Zookeeper集群,然后启动kafaka。5.分发bigdata2,bigdata3。当然,您也可以从官网下载。修改文件名,方便后续。
2024-02-01 21:48:10 564 1
原创 Flume搭建
百度盘链接:https://pan.baidu.com/s/1ZhSiePUye9ax7TW5XbfWdw。压缩包版本:apache-flume-1.9.0-bin.tar。2).复制一份flume-env.sh,命名为。3).修改配值文件flume-env.sh。1).切换到flume下面的conf。3. 修改用户和用户组的权限。
2024-02-01 20:42:35 950 1
原创 zookeeper搭建(单机模式和集群模式)
5.修改bigdata2和bigdata3中zookeeper下面data目录中的myid文件。1.新建data和logs目录(data目录用来存放数据库快照,logs目录用来存放日志文件)3.重命名 zoo_sample.cfg 为zoo.cfg。6.可以使用 status 命令查看zookeeper状态。2.找到zookeeper目录下的 conf 配置文件夹。进入data目录,新建myid文件。5.配置完之后就可以直接启动Zookeeper。4.用vi命令打开zoo.cfg文件。
2024-02-01 18:22:35 800 1
原创 迟到数据处理 和 基本时间的合流
于是对于一条流(不妨叫作A)中的任意一个数据元素a,就可以开辟一段时间间隔:[a.timestamp + lowerBound, a.timestamp + upperBound],即以a的时间戳为中心,下至下界点、上至上界点的一个闭区间:我们就把这段时间作为可以匹配另一条流数据的“窗口”范围。下方的流A去间隔联结上方的流B,所以基于A的每个数据元素,都可以开辟一个间隔区间。同样地,A中时间戳为3的元素,可匹配区间为[1, 4],B中只有时间戳为1的一个数据可以匹配,于是得到匹配数据对(3, 1)。
2024-01-25 20:11:08 905
原创 函数类(Function Classes)和 富函数类(Rich Function Classes)
Flink暴露了所有UDF函数的接口,,例如MapFunction、FilterFunction、ReduceFunction等。所以用户可以自定义一个函数类,实现对应的接口。
2024-01-24 19:22:51 643 1
原创 算子:详细篇
使用用户定义的 Partitioner 为每个元素选择目标任务。Scala如果我们想将数据存储到我们自己的存储设备中,而Flink并没有提供可以直接使用的连接器,就只能自定义Sink进行输出了。与Source类似,Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类,只要实现它,通过简单地调用DataStream的.addSink()方法就可以自定义写入任何外部存储。
2024-01-23 17:32:35 1283 1
原创 Flink---处理函数
无论是基本的转换、聚合,还是更为复杂的窗口操作,其实就是基于DataStream进行转换的,所以可以统称为DataStream API。在Flink更底层,我们可以不定义任何具体的算子(比如map,filter或window),而只是提炼出一个统一的“处理”(process)操作------它是所有转换算子的一个概括性的表达,可以自定义处理逻辑,所以这一层接口就被叫作“处理函数”(process function)。
2024-01-22 20:41:50 1134
原创 II.Flink中的 状态
这篇文章是详细化上一篇文章按键分区状态(Keyed State)顾名思义,是任务按照键(key)来访问和维护的状态。它的特点非常鲜明,就是以key为作用范围进行隔离。需要注意,使用Keyed State必须基于KeyedStream。没有进行keyBy分区的DataStream,即使转换算子实现了对应的富函数类,也不能通过运行时上下文访问Keyed State。keyed state 接口提供不同类型状态的访问接口,这些状态都作用于当前输入数据的 key 下。
2024-01-21 18:00:00 1322 1
原创 I.Flink中的 状态
实时计算如果任务失败导致中间状态丢失,将是一个可怕的事情,比如实时计算每天的pv,uv等指标,任务掉线之后中间状态也丢失了,那只能从凌晨数据重新计算。如果是有状态的计算大可不必担心,从任务掉线的时刻继续计算即可。
2024-01-20 17:05:17 938
原创 报错Caused by: redis.clients.jedis.exceptions.JedisDataException: DENIED Redis is running in protected
.. 4 more。
2024-01-20 14:53:16 951
原创 报错Caused by: org.apache.kafka.common.errors.TimeoutException: Timeout of 60000ms expired before the
删除分区 重新创建和采集。最后,重启kafka。
2024-01-17 18:49:05 2298 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人