Flume
文章平均质量分 62
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单
TANCHISE
这个作者很懒,什么都没留下…
展开
-
Flume与Kafka的配合使用(数据分离-按需求消费)
文章目录六、Flume 对接 Kafka2、数据分离六、Flume 对接 Kafka2、数据分离0)需求: 将flume采集的数据按照不同的类型输入到不同的topic中 将日志数据中带有flume的,输入到Kafka的flume主题中, 将日志数据中带有hello的,输入到Kafka的hello主题中, 其他的数据输入到Kafka的other主题中1) 编写Flume的Interceptor/** * 需求: 将flume采集的数据按原创 2021-01-21 18:57:28 · 610 阅读 · 0 评论 -
Flume与Kafka的配合使用(简单实现)
文章目录六、Flume 对接 Kafka1、简单实现六、Flume 对接 Kafka1、简单实现1)配置flume[xiaoxq@hadoop105 jobs]$ pwd/opt/module/flume-1.9.0/jobs[xiaoxq@hadoop105 jobs]$ vim flume-kafka.conf添加如下内容# definea1.sources = r1a1.sinks = k1a1.channels = c1# sourcea1.sources.r1.t原创 2020-09-10 08:35:29 · 712 阅读 · 0 评论 -
Flume 的应用10(Flume 数据流监控Ganglia)
文章目录8、Flume 数据流监控8.1 Ganglia的安装与部署8.2 操作Flume测试监控8、Flume 数据流监控8.1 Ganglia的安装与部署1)三台机器安装epel源[xiaoxq@hadoop105 flume-1.9.0]$ sudo yum install -y epel-release2) 在105安装web,meta和monitor[xiaoxq@hadoop105 flume-1.9.0]$ sudo yum -y install ganglia-gmetad g原创 2020-08-28 17:44:28 · 149 阅读 · 0 评论 -
Flume 的应用9(自定义 Sink)
文章目录7、自定义Sink7、自定义Sink1)介绍Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。Sink 是完全事务性的。在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 Flume Agent,Sink 就利用 Channel 提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。Sink 组件目的地原创 2020-08-27 22:09:48 · 154 阅读 · 0 评论 -
Flume 的应用8(自定义 Source)
文章目录6、自定义 Source6、自定义 Source1)介绍Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的 source 类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些 source。官方也提供了自定义原创 2020-08-27 22:09:17 · 108 阅读 · 0 评论 -
Flume 的应用7(自定义 Interceptor)
文章目录自定义 Interceptor自定义 Interceptor1)案例需求使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2)需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing 的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Chan原创 2020-08-25 14:06:35 · 77 阅读 · 0 评论 -
Flume 的应用6(聚合案例分析)
文章目录1、聚合拓扑结构2、聚合案例解析1、聚合拓扑结构Flume Agent聚合这种模式是我们最常见的,也非常实用,日常web应用通常分布在上百个服务器,大者甚至上千个、上万个服务器。产生的日志,处理起来也非常麻烦。用flume的这种组合方式能很好的解决这一问题,每台服务器部署一个flume采集日志,传送到一个集中收集日志的 flume,再由此flume上传到hdfs、hive、hbase等,进行日志分析。2、聚合案例解析1)案例需求:hadoop105上的 Flume-1 监控文原创 2020-08-25 14:04:51 · 197 阅读 · 0 评论 -
Flume 的应用5(负载均衡和故障转移及案例分析)
文章目录1、负载均衡和故障转移2、负载均衡和故障转移案例1、负载均衡和故障转移Flume负载均衡或故障转移Flume 支持使用将多个sink逻辑上分到一个sink组,sink 组配合不同的 SinkProcessor 可以实现负载均衡和错误恢复的功能。2、负载均衡和故障转移案例1)案例需求使用 Flume1 监控一个端口,其 sink 组中的 sink 分别对接 Flume2 和 Flume3,采用 FailoverSinkProcessor,实现故障转移的功能。2)需求分析原创 2020-08-22 21:23:42 · 246 阅读 · 0 评论 -
Flume 的应用4(复制和多路复用及案例分析)
文章目录1、复制和多路复用拓扑结构2、复制和多路复用案例解析1、复制和多路复用拓扑结构单source,多channel、sinkFlume 支持将事件流向一个或者多个目的地。这种模式可以将相同数据复制到多个 channel 中,或者将不同数据分发到不同的 channel 中,sink 可以选择传送到不同的目的地。2、复制和多路复用案例解析1)案例需求使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flu原创 2020-08-22 21:23:03 · 351 阅读 · 0 评论 -
Flume 的应用3(多目录多文件(taildir source、memory channel、hdfs sink))
Flume 的应用3(taildir source、memory channel、hdfs sink)文章目录Flume 的应用3(taildir source、memory channel、hdfs sink)2.4 实时监控多目录下的多个追加文件2.4 实时监控多目录下的多个追加文件Exec source 适用于监控一个实时追加的文件,不能实现断点续传;Spooldir Source 适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步;而 Taildir Source 适合用于监听多原创 2020-08-21 20:02:03 · 1144 阅读 · 0 评论 -
Flume 应用2(单目录多个文件(Spooling Directory source、memory channel、hdfs sink ))
Flume 之 Spooling Directory source、memory channel、hdfs sink文章目录Flume 之 Spooling Directory source、memory channel、hdfs sink2.3 实时监控目录下多个新文件2.3 实时监控目录下多个新文件1)案例需求:使用 Flume 监听整个目录的文件,并上传至 HDFS2)需求分析:3)实现步骤:(1)创建配置文件 files-flume-hdfs.conf创建一个文件[xiaoxq原创 2020-08-21 19:43:52 · 200 阅读 · 0 评论 -
Flume 的应用1(exec source、memory channel、hdfs sink)
Flume 之exec source、memory channel、hdfs sink文章目录Flume 之exec source、memory channel、hdfs sink2.2 实时监控单个追加文件2.2 实时监控单个追加文件1)案例需求:实时监控 Hive 日志,并上传到HDFS中注意:tail -f (失败后不重试) tail -F (失败后重试一般3次)2)需求分析:3)实现步骤:(1)Flume 需要依赖 Hadoop 相关的 jar包,才能将数据输出到 HDFS原创 2020-08-17 23:13:50 · 435 阅读 · 0 评论 -
Flume的安装和官方入门案例解析
二、Flume 入门1、Flume 安装1.1 安装地址(1) Flume官网地址:http://flume.apache.org/(2)文档查看地址:http://flume.apache.org/FlumeUserGuide.html(3)下载地址:http://archive.apache.org/dist/flume/1.2 安装部署(当前用的版本是 apache-flume-1.9.0 )(1)将 apache-flume-1.9.0-bin.tar.gz 上传到 linu原创 2020-08-14 21:15:51 · 145 阅读 · 0 评论 -
Flume概述及组成架构(实时、日志、传输)
文章目录一、Flume 概述(实时、日志、传输)1、概念2、Flume 基础架构2.1 Agent2.2 Source2.3 Sink2.4 Channel2.5 Event一、Flume 概述(实时、日志、传输)1、概念Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。(实时日志传输)补充:Hadoop 三大发行版本Apache Hadoop: 最原始(最基础)的版本Cloudera Hadoop: 内原创 2020-08-10 23:43:00 · 558 阅读 · 0 评论