![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flume
文章平均质量分 55
Flume知识
依晴无旧
专注大数据、Java后端、软件测试、Linux端的技术研究
展开
-
Flume基础知识(八):Flume 拓扑结构全解
这种模式是将多个 flume 顺序连接起来了,从最初的 source 开始到最终 sink 传送的 目的存储系统。此模式不建议桥接过多的 flume 数量, flume 数量过多不仅会影响传输速 率,而且一旦传输过程中某个节点 flume 宕机,会影响整个传输系统。原创 2024-01-06 09:00:00 · 397 阅读 · 0 评论 -
Flume基础知识(五):Flume实战之实时监控目录下多个新文件
说明:在使用 Spooling Directory Source 时,不要在监控目录中创建并持续修改文件;被监控文件夹每 500 毫秒扫描一次文件变动。在/opt/module/flume 目录下创建 upload 文件夹。(1)创建配置文件 flume-dir-hdfs.conf。使用 Flume 监听整个目录的文件,并上传至 HDFS。(3)向 upload 文件夹中添加文件。向 upload 文件夹中添加文件。(4)查看 HDFS 上的数据。(2)启动监控文件夹命令。原创 2024-01-04 09:08:54 · 1053 阅读 · 0 评论 -
Flume基础知识(二):Flume安装部署
2.1.2 安装部署。原创 2024-01-03 10:26:42 · 963 阅读 · 0 评论 -
Flume基础知识(四):Flume实战之实时监控单个追加文件
对于所有与时间相关的转义序列,Event Header 中必须存在以 “timestamp”的 key(除非 hdfs.useLocalTimeStamp 设置为 true,此方法会使用 TimestampInterceptor 自 动添加 timestamp)。注:要想读取 Linux 系统中的文件,就得按照 Linux 命令的规则执行命令。由于 Hive 日志在 Linux 系统中所以读取文件的类型选择:exec 即 execute 执行的意思。(5)在 HDFS 上查看文件。原创 2024-01-04 09:05:43 · 770 阅读 · 0 评论 -
Flume基础知识(九):Flume 企业开发案例之复制和多路复用
使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储 到 HDFS。配置 1 个接收日志文件的 source 和两个 channel、两个 sink,分别输送给 flume-flume-hdfs 和 flume-flume-dir。分别启动对应的 flume 进程:flume-flume-dir,flume-flume-hdfs,flume-file-flume。(3)创建 flume-flume-hdfs.conf。原创 2024-01-06 15:56:23 · 666 阅读 · 0 评论 -
Flume基础知识(十一):Flume自定义接口
在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要 发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing 的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Interceptor,为不同类型的 event 的 Header 中的 key 赋予 不同的值。(6)观察 hadoop101 和 hadoop102 打印的日志。原创 2024-01-07 08:31:34 · 775 阅读 · 0 评论 -
Flume基础知识(一):Flume组成原理与架构
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的。Flume基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。原创 2024-01-02 11:32:26 · 746 阅读 · 0 评论 -
Flume基础知识(六):Flume实战之实时监控目录下的多个追加文件
Exec source 适用于监控一个实时追加的文件,不能实现断点续传;Spooldir Source 适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步;当日的hive.log会在第二天更名为hive.log.xxxx,这样的结果就会导致在更名的时候,会让flume进行上传,就会造成二次上传的错误结果。Taildir 说明: Taildir Source 维护了一个 json 格式的 position File,进行源码的修改,让文件更名时不会产生新文件上传的效果。(2)启动监控文件夹命令。原创 2024-01-05 09:00:00 · 575 阅读 · 0 评论 -
Flume基础知识(十):Flume 聚合实战
分别开启对应配置文件:flume3-flume-logger.conf,flume2-netcat-flume.conf, flume1-logger-flume.conf。在 hadoop102、hadoop103 以及 hadoop104 的/opt/module/flume/job 目录下创建一个 group3 文件夹。Flume-1 与 Flume-2 将数据发送给 hadoop102 上的 Flume-3,Flume-3 将最终数据打印 到控制台。(8)检查 hadoop104 上数据。原创 2024-01-07 08:28:56 · 687 阅读 · 0 评论 -
Flume基础知识(三):Flume 实战监控端口数据官方案例
(5)在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf。:flume 本次启动读取的配置文件是在 job 文件夹下的 flume-telnet.conf 文件。(3)创建 Flume Agent 配置文件 flume-netcat-logger.conf。(6)在 flume-netcat-logger.conf 文件中添加如下内容。(4)在 flume 目录下创建 job 文件夹并进入 job 文件夹。(1)安装 netcat 工具。原创 2024-01-03 10:31:32 · 910 阅读 · 0 评论 -
Flume基础知识(七):Flume 事务与 Flume Agent 内部原理
DefaultSinkProcessor 对 应 的 是 单 个 的 Sink , LoadBalancingSinkProcessor 和 FailoverSinkProcessor 对应的是 Sink Group,LoadBalancingSinkProcessor 可以实现负 载均衡的功能,FailoverSinkProcessor 可以错误恢复的功能。其共有两种类型, 分别是。SinkProcessor 共 有 三 种 类 型 , 分 别 是。原创 2024-01-05 09:00:00 · 693 阅读 · 0 评论