Flume
情深不仅李义山
路漫漫其修远兮,吾将上下而求索.
展开
-
Flume容错机制
Flume容错机制描述当集群中有多台Flume机器在工作的时候,就要考虑集群中随时有机器宕机的情况,当有机器宕机,如何保证数据不丢失,下面我来介绍一下Flume的容错机制。就是建立Flume备胎,创建Standby节点,虽然可以解决单节点故障问题,但是集群的资源也会浪费,因为有一个是等待的,占用资源不干活,下面来看看架构图:...原创 2020-10-04 19:29:09 · 361 阅读 · 0 评论 -
Flume的负载均衡
Flume负载均衡概述负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。Load balancing Sink Processor能够实现load balance功能,如下图。将Agent1的Event均衡地传输到其他两个Agent2和Agent3上,Event分配的算法有两种,一种是轮询,另一种是随机。Flume负载均衡实现使用Flume采集数据,首先要编写配置文件,我这里有三台服务器,所以要配置三个配置文件,但是从图中可以看出,Agent2和Agent3的配置基本一致的,所以原创 2020-10-02 12:32:05 · 777 阅读 · 0 评论 -
使用Flume实时读取目录文件到HDFS
今天来刚学完Flume,来做一个简单的入门案例:使用Flume实时读取本地目录的文件到HDFS。即本地的目录有增加时就会把文件上传到HDFS。使用Flume采集数据的步骤就是创建配置文件,然后启动监控就可以监听了。创建配置文件这个配置文件是要自己创建的,后缀为.conf。名字可以自己取,但是也要本着见名知意的原则。所以我命名为flume-dir-hdfs.conf。这个文件一般放在flume...原创 2020-02-27 11:01:51 · 548 阅读 · 0 评论 -
Flume概述
Flume是什么Flume的定义:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。简单地说就是Flume就是用来采集日志数据。在hadoop集群里,用来实时读取服务器的日志数据,然后将数据写到HDFS或者是Kafka。那现在就有个问题为什么不直接把数据写到HDFS或者Kafka而选择用Flume呢?就拿H...原创 2020-02-26 15:28:09 · 123 阅读 · 0 评论