![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Flume
文章平均质量分 79
Flume
SuperQiu~
这个作者很懒,什么都没留下…
展开
-
Flume 企业真实面试题
Flume 企业真实面试题1 、你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume。2 、Flume 的 Source,Sink,Channel 的作用?你们 Source 是什么类型?1)作用(1)Source 组件是专门用来收集数据的,可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy(2原创 2021-12-16 14:18:14 · 91 阅读 · 0 评论 -
Flume 数据流监控
Flume 数据流监控Ganglia 的安装与部署Ganglia 由 gmond、gmetad 和 gweb 三部分组成。gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用 gmond,你可以很容易收集很多系统指标数据,如 CPU、内存、磁盘、网络和活跃进程的数据等。gmetad(Ganglia Meta Daemon)整合所有信息,并将其以 RRD 格式存储至磁盘的服务。gweb(Ganglia Web)Ganglia原创 2021-12-15 15:04:31 · 213 阅读 · 0 评论 -
Flume 自定义Source
Hive 自定义Source1)介绍Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。官方提供的 source 类型已经很多,但是有时候并不能满足实际开发当中的需求,此时我们就需要根据实际需求自定义某些 source。官方也提供了自定义 source 的接口原创 2021-12-15 14:45:36 · 1580 阅读 · 2 评论 -
Flume 自定义 Sink
Flume 自定义 Sink1)介绍Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。Sink 是完全事务性的。在从 Channel 批量删除数据之前,每个 Sink 用 Channel 启动一个事务。批量事件一旦成功写出到存储系统或下一个 lume Agent,Sink 就利用 Channel 提交事务。事务一旦被提交,该 Channel 从自己的内部缓冲区删除事件。Sink 组件目的地包括 hdfs、l原创 2021-12-15 14:53:44 · 851 阅读 · 0 评论 -
Flume 自定义Interceptor
自定义Interceptor1)案例需求使用 Flume 采集服务器本地日志,需要按照日志类型的不同,将不同种类的日志发往不同的分析系统。2)需求分析在实际的开发中,一台服务器产生的日志类型可能有很多种,不同类型的日志可能需要发送到不同的分析系统。此时会用到 Flume 拓扑结构中的 Multiplexing 结构,Multiplexing的原理是,根据 event 中 Header 的某个 key 的值,将不同的 event 发送到不同的 Channel中,所以我们需要自定义一个 Intercep原创 2021-12-15 14:33:52 · 928 阅读 · 1 评论 -
Flume 企业开发案例-聚合
Flume 企业开发案例-聚合1)案例需求:hadoop102 上的 Flume-1 监控文件/opt/module/group.log,hadoop103 上的 Flume-2 监控某一个端口的数据流,Flume-1 与 Flume-2 将数据发送给 hadoop104 上的 Flume-3,Flume-3 将最终数据打印到控制台。2)需求分析3)实现步骤:(1)准备工作分发 Flume[hadoop@hadoop102 module]$ xsync flume在 hadoop102原创 2021-12-15 14:27:16 · 82 阅读 · 0 评论 -
Flume 企业开发案例-负载均衡和故障转移
Flume 企业开发案例-负载均衡和故障转移1)案例需求使用 Flume1 监控一个端口,其 sink 组中的 sink 分别对接 Flume2 和 Flume3,采用FailoverSinkProcessor,实现故障转移的功能。2)需求分析3)实现步骤(1)准备工作在/opt/module/flume/job 目录下创建 group2 文件夹(2)group2 文件夹创建 flume-netcat-flume.conf配置 1 个 netcat source 和 1 个 channel原创 2021-12-15 14:21:18 · 99 阅读 · 0 评论 -
Flume 企业开发案例-复制和多路复用
Flume 企业开发案例-复制和多路复用1)案例需求使用 Flume-1 监控文件变动,Flume-1 将变动内容传递给 Flume-2,Flume-2 负责存储到 HDFS。同时 Flume-1 将变动内容传递给 Flume-3,Flume-3 负责输出到 Local FileSystem。2)需求分析:3)实现步骤:(1)准备工作在/opt/module/flume/job 目录下创建 group1 文件夹 cd group1/在/opt/module/datas/目录下创建 flume原创 2021-12-15 14:16:25 · 349 阅读 · 0 评论 -
Flume 进阶
Flume 进阶1、Flume 事务2、Flume Agent 内部原理重要组件:1)ChannelSelectorChannelSelector 的作用就是选出 Event 将要被发往哪个 Channel。其共有两种类型,分别是 Replicating(复制)和 Multiplexing(多路复用)。ReplicatingSelector 会将同一个 Event 发往所有的 Channel,Multiplexing 会根据相应的原则,将不同的 Event 发往不同的 Channel。2)原创 2021-12-15 14:10:07 · 240 阅读 · 0 评论 -
Flume 入门
Flume 入门1、Flume 安装部署安装地址(1)Flume 官网地址:http://flume.apache.org/(2)文档查看地址:http://flume.apache.org/FlumeUserGuide.html(3)下载地址:http://archive.apache.org/dist/flume/安装部署(1)将 apache-flume-1.9.0-bin.tar.gz 上传到 linux 的/opt/software 目录下(2)解压 apache-flume-1.原创 2021-12-15 14:03:15 · 958 阅读 · 0 评论 -
Flume 概述
Flume 概述1、Flume 定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。2、Flume 基础架构AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。Agent 主要有 3 个部分组成,Source、Channel、Sink。SourceSource 是负责接收数据到 Flume原创 2021-12-15 13:24:58 · 139 阅读 · 0 评论