莫噶-CSDN博客

原创 Flink搭建

6.访问http://主机:8081可以对flink集群和任务进行监控。Flink on yarn 基于Hadoop集群的yarn。2.进入conf修改flink-conf.yaml。7.停止Flink集群命令。5.启动Flink集群命令。3.启动Hadoop集群。4.分发到集群其他节点。3.修改wokers。

2024-05-29 10:43:21 436

原创【报错】Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writabl

【代码】【报错】Caused by: java.lang.RuntimeException: The root scratch dir: /tmp/hive on HDFS should be writabl。

2024-03-04 10:03:56 1172

ProcessFunction 的 side outputs 功能可以产生多条流，并且这些流的数据类型可以不一样。一个 side output 可以定义为 OutputTag[X]对象，X 是输出流的数据类型。process function 可以通过 Context 对象发射一个事件到一个或者多个 side outputs。注意：OutputTag是如何根据旁路输出流包含的元素类型typed的。✨可以通过以下几种函数发射数据到旁路输出。当使用旁路输出时，首先需要定义一个。来标识一个旁路输出流。

2024-02-22 20:00:00 1940

原创 Flink双流（join）

Window Join有可以根据Window的类型细分出3种：Tumbling(滚动) Window Join、Sliding(滑动) Window Join、Session(会话) Widnow Join。🌸Window 类型的join都是利用window的机制，先将数据缓存在Window State中，当窗口触发计算时，执行join操作。

2024-02-21 18:53:59 1668

原创 npm :无法将“npm“项识别为cmdlet、函数、脚本文件或可运行程序的名称。npm: The “npm“ item cannot be recognized as the name of a

问题：解决方法：

2024-02-19 20:27:55 639

原创 redis 值中文显示乱码

进入时添加 --raw参数。

2024-02-18 21:45:00 837 1

原创 Spark安装（Yarn模式）

链接：https://pan.baidu.com/s/1O8u1SEuLOQv2Yietea_Uxg。五、修改spark-env.sh。四、分发刚刚修改的配置文件。六、启动hadoop。

2024-02-07 20:41:54 909 1

原创 Hadoop搭建（完全分布式）

修改 /opt/module/hadoop-3.1.3/sbin/start-yarn.sh和 /opt/module/hadoop-3.1.3/sbin/stop-yarn.sh。修改 /opt/module/hadoop-3.1.3/sbin/start-dfs.sh和 /opt/module/hadoop-3.1.3/sbin/stop-dfs.sh。hadoop-3.1.3链接：https://pan.baidu.com/s/11yFkirCiT6tdo_9i1jWwkw。

2024-02-07 20:24:55 1205 1

原创 Kafka集群搭建

Kafka集群是把状态保存在Zookeeper中的，首先要搭建Zookeeper集群。链接：https://pan.baidu.com/s/1zxJRd13rgHfJexP-Jbl36g。6.修改bigdata2,bigdata3中的 server.properties和环境变量。依次在bigdata1、bigdata2、bigdata3节点上启动kafka。先启动Zookeeper集群，然后启动kafaka。5.分发bigdata2，bigdata3。当然，您也可以从官网下载。修改文件名，方便后续。

2024-02-01 21:48:10 588 1

原创 Flume搭建

百度盘链接：https://pan.baidu.com/s/1ZhSiePUye9ax7TW5XbfWdw。压缩包版本：apache-flume-1.9.0-bin.tar。2).复制一份flume-env.sh，命名为。3).修改配值文件flume-env.sh。1).切换到flume下面的conf。3. 修改用户和用户组的权限。

2024-02-01 20:42:35 1002 1

原创 zookeeper搭建（单机模式和集群模式)

5.修改bigdata2和bigdata3中zookeeper下面data目录中的myid文件。1.新建data和logs目录(data目录用来存放数据库快照，logs目录用来存放日志文件)3.重命名 zoo_sample.cfg 为zoo.cfg。6.可以使用 status 命令查看zookeeper状态。2.找到zookeeper目录下的 conf 配置文件夹。进入data目录，新建myid文件。5.配置完之后就可以直接启动Zookeeper。4.用vi命令打开zoo.cfg文件。

2024-02-01 18:22:35 859 1

原创数据写入HBase（scala）

【代码】数据写入HBase（scala）

2024-01-29 20:01:28 678

原创 Flink实现数据写入MySQL

【代码】Flink实现数据写入MySQL。

2024-01-26 18:35:07 1320 1

原创迟到数据处理和基本时间的合流

于是对于一条流（不妨叫作A）中的任意一个数据元素a，就可以开辟一段时间间隔：[a.timestamp + lowerBound, a.timestamp + upperBound],即以a的时间戳为中心，下至下界点、上至上界点的一个闭区间：我们就把这段时间作为可以匹配另一条流数据的“窗口”范围。下方的流A去间隔联结上方的流B，所以基于A的每个数据元素，都可以开辟一个间隔区间。同样地，A中时间戳为3的元素，可匹配区间为[1, 4]，B中只有时间戳为1的一个数据可以匹配，于是得到匹配数据对（3, 1）。

2024-01-25 20:11:08 946

原创函数类（Function Classes）和富函数类（Rich Function Classes）

Flink暴露了所有UDF函数的接口，，例如MapFunction、FilterFunction、ReduceFunction等。所以用户可以自定义一个函数类，实现对应的接口。

2024-01-24 19:22:51 688 1

原创算子：详细篇

使用用户定义的 Partitioner 为每个元素选择目标任务。Scala如果我们想将数据存储到我们自己的存储设备中，而Flink并没有提供可以直接使用的连接器，就只能自定义Sink进行输出了。与Source类似，Flink为我们提供了通用的SinkFunction接口和对应的RichSinkDunction抽象类，只要实现它，通过简单地调用DataStream的.addSink()方法就可以自定义写入任何外部存储。

2024-01-23 17:32:35 1584 1

原创 Flink---处理函数

无论是基本的转换、聚合，还是更为复杂的窗口操作，其实就是基于DataStream进行转换的，所以可以统称为DataStream API。在Flink更底层，我们可以不定义任何具体的算子(比如map，filter或window)，而只是提炼出一个统一的“处理”(process)操作------它是所有转换算子的一个概括性的表达，可以自定义处理逻辑，所以这一层接口就被叫作“处理函数”（process function）。

2024-01-22 20:41:50 1241

原创 II.Flink中的状态

这篇文章是详细化上一篇文章按键分区状态（Keyed State）顾名思义，是任务按照键（key）来访问和维护的状态。它的特点非常鲜明，就是以key为作用范围进行隔离。需要注意，使用Keyed State必须基于KeyedStream。没有进行keyBy分区的DataStream，即使转换算子实现了对应的富函数类，也不能通过运行时上下文访问Keyed State。keyed state 接口提供不同类型状态的访问接口，这些状态都作用于当前输入数据的 key 下。

2024-01-21 18:00:00 1388 1