flume
zyj_369
曾经的我 一身迷彩 手握钢枪 现在的我 对新科技充满着无限好奇 喜欢专研大数据技术 希望可以和志同道合的人一起加油 一起圆梦
展开
-
flume报错 java.lang.OutOfMemoryError: Java heap space已解决
1、详细报错信息在用flume收集kafka中数据到hdfs中内存溢出了2020-11-26 17:41:25,679 (kafka-coordinator-heartbeat-thread | flume) [ERROR - org.apache.kafka.clients.consumer.internals.AbstractCoordinator$HeartbeatThread.run(AbstractCoordinator.java:1083)] [Consumer clientId=consu原创 2020-11-26 19:01:31 · 1759 阅读 · 0 评论 -
flume多路复用案例
1、需求使用Flume采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2、需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到Flume拓扑结构中的Multiplexing结构,Multiplexing的原理是,根据event中Header的某个key的值,将不同的event发送到不同的Channel中,所以我们需要自定义一个Interceptor,为不同类型的event的Header中的key赋予不同的原创 2020-11-24 09:24:15 · 472 阅读 · 0 评论 -
flume事务及agent内部原理
1、flume事务2、flume Agent内部原理重要组件:ChannelSelector: ChannelSelector的作用就是选出Event将要被发往哪个Channel。其共有两种类型,分别是Replicating(复制)和Multiplexing(多路复用)。ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel。SinkProcessor: SinkProces原创 2020-11-23 19:16:25 · 143 阅读 · 0 评论 -
flume聚合
1、需求centos7-2服务器上的Flume-1监控文件/data/mydata/hive.logcentos7-3服务器上的Flume-2监控某一个端口的数据流Flume-1与Flume-2将数据发送给centos7-4服务器上的Flume-3,Flume-3将最终数据打印到控制台。2、需求分析3、准备在centos7-2、centos7-3以及centos7-4的/data/flume/apache-flume/目录下创建job/group3文件夹。cd /data/flume/原创 2020-11-23 19:10:47 · 177 阅读 · 0 评论 -
flume故障转移详解
1、需求:使用Flume1监控一个端口,其sink组中的sink分别对接Flume2和Flume3LoadBalancingSinkProcessor可以实现负载均衡的功能,FailoverSinkProcessor可以实现故障转移的功能.2、需求分析3、准备在/data/flume/apache-flume/job目录下创建group2文件夹cd /data/flume/apache-flume/jobmkdir group24、创建flume1 agent配置文件flume-n原创 2020-11-23 13:21:53 · 799 阅读 · 0 评论 -
flume复制
1、需求:使用Flume-1监控文件变动,Flume-1将变动内容传递给Flume-2,Flume-2负责存储到HDFS。同时Flume-1将变动内容传递给Flume-3,Flume-3负责输出到Local FileSystem。2、需求分析:原创 2020-11-23 11:25:44 · 148 阅读 · 0 评论 -
flume taildir source实时监控多文件
1、需求:使用Flume监听多个目录下的多个文件实时追加,并上传至HDFS2、几种常用source比较Exec source适用于监控一个实时追加的文件,但不能保证数据不丢失。Spooldir Source能够保证数据不丢失,且能够实现断点续传,但延迟较高,不能实时监控,采集的目录,适合离线采集的场景。而Taildir Source既能够实现断点续传,又可以保证数据不丢失,还能够进行实时监控,既可以做离线采集也可以做实时采集。3、需求分析4、创建flume agent配置文件flume-ta原创 2020-11-23 08:45:18 · 541 阅读 · 0 评论 -
flume spooldir source监控单目录下的多个新文件
1、需求:使用Flume监听整个目录的文件,并上传至HDFS2、需求分析spooldir 主要做的对一个目录的采集比如11月21日的(0点15-30分),采集11月20日的数据所在的目录,是离线采集的,采集完成之后把这个目录下的文件打一个标记 .COMPLETED3、创建flume agent配置文件flume-dir-hdfs.confcd /data/flume/apache-flumevim job/flume-dir-hdfs.conf添加:# Name the compo原创 2020-11-22 17:24:35 · 652 阅读 · 0 评论 -
flume exec source实时监控单个文件
1、需求:实时监控Hive日志,并上传到HDFS中2、需求分析:3、创建flume agent配置文件flume-file-hdfs.conf文件cd /data/flume/apache-flumevim job/flume-file-hdfs.conf添加:# Name the components on this agenta2.sources = r2a2.sinks = k2a2.channels = c2# Describe/configure the source原创 2020-11-22 15:51:04 · 297 阅读 · 0 评论 -
flume入门案例之监控端口数据
1、需求:使用Flume监听一个端口,收集该端口数据,并打印到控制台。2、安装netcat工具yum -y install nc3、判断44444端口是否被占用netstat -tunlp | grep 444444、创建flume agent配置文件flume-netcat-logger.confcd /data/flume/apache-flumemkdir jobcd job/vim flume-netcat-logger.conf添加:# flume配置的例子# Nam原创 2020-11-22 15:12:11 · 400 阅读 · 0 评论 -
flume中 kafka sink flume自定义Interceptor实现消息分主题收集
自定义 flume 拦截器类,并打包上传到 /flume/lib 下import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;/* 自定义flume 拦截器 */public class Ka原创 2020-10-27 09:07:43 · 302 阅读 · 0 评论 -
flume kafka sink kafka对接flume简单实现详解
1、flume的配置文件 kafka-sink.properties# Name the components on this agent# source:起一个别名# properties文件它是java的配置文件,=左边就是键,=右边是值;键的开头都是以a1(就是flume的名字--agent的名字就是a1);a1随便起a1.sources = r1# sink:起一个别名a1.sinks = k1# channels;:起一个别名a1.channels = c1# Describe原创 2020-10-26 21:33:39 · 1966 阅读 · 0 评论