大数据-Flume知识点介绍

Flume简介
  • Flume 定义
    Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。
    在这里插入图片描述

  • Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS。
    Apache软件基金顶级项目
    Apache Flume是一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息从多种不同的数据源到一个集中的数据存储中心
    • 功能:
    – 支持在日志系统中定制各类数据发送方,用于收集数据
    – Flume提供对数据进行简单处理,并写到各种数据接收方(可定制)的能力
    • 多种数据源:
    – Console、RPC、Text、Tail、Syslog、Exec等

  • 特 点
    • Flume可以高效率的将多个网站服务器中收集的日志信息存入HDFS/HBase中
    • 使用Flume,我们可以将从多个服务器中获取的数据迅速的移交给Hadoop中
    • 除了日志信息,Flume同时也可以用来接入收集规模宏大的社交网络节点事件数据,比如facebook,twitter,电商网站如亚马逊,flipkart等
    • 支持各种接入资源数据的类型以及接出数据类型
    • 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等
    • 可以被水平扩展

Flume外部架构

在这里插入图片描述
• 数据发生器(如:facebook,twitter)产生的数据被单个的运行在数据发生器所在服务器上的agent所收集,之后数据收容器从各个agent上汇集数据并将采集到的数据存入到HDFS或者HBase中。
事件(Flume Event)
• Flume使用Event对象来作为传递数据的格式,是内部数据传输的最基本单元
• 由两部分组成:转载数据的字节数组+可选头部
在这里插入图片描述
• Header 是 key/value 形式的,可以用来制定路由决策或携带其他结构化信息(如事件的时间戳或事件来源的服务器主机名)。你可以把它想象成和 HTTP 头一样提供相同的功能——通过该方法来传输正文之外的额外信息。Flume提供的不同source会给其生成的event添加不同的header
• Body是一个字节数组,包含了实际的内容

代理(Flume Agent)
• Flume内部有一个或者多个Agent
• 每一个Agent是一个独立的守护进程(JVM)
• 从客户端那儿接收收集,或者从其他的Agent那儿接收,然后迅速的将获取的数据传给下一个目的节点Agent
在这里插入图片描述
• Agent主要由source、channel、sink三个组件组成。

Source
  • Source 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。
    • 一个Flume源
    • 负责一个外部源(数据发生器),如一个web服务器传递给他的事件
    • 该外部源将它的事件以Flume可以识别的格式发送到Flume中
    • 当一个Flume源接收到一个事件时,其将通过一个或者多个通道存储该事件
Channel
  • Channel 是位于 Source 和 Sink 之间的缓冲区。因此,Channel 允许 Source 和 Sink 运作在不同的速率上。Channel 是线程安全的,可以同时处理几个 Source 的写入操作和几个Sink 的读取操作。
  • Flume 自带两种 Channel:Memory Channel 和 File Channel。
    Memory Channel 是内存中的队列,吞吐率极高,但存在丢数据风险。Memory Channel 在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么 Memory Channel 就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。
    File Channel 将所有事件写到磁盘(WAL实现)。因此在程序关闭或机器宕机的情况下不会丢失数据。
    • 通道:采用被动存储的形式,即通道会缓存该事件直到该事件被sink组件处理
    • 所以Channel是一种短暂的存储容器,它将从source处接收到的event格式的数据缓存起来,直到它们被sinks消费掉,它在source和sink间起着一个桥梁的作用,channal是一个完整的事务,这一点保证了数据在收发的时候的一致性. 并且它可以和任意数量的source和sink链接
    • 可以通过参数设置event的最大个数
    • Flume通常选择FileChannel,而不使用Memory Channel
Sink
  • Sink 不断地轮询 Channel 中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个 Flume Agent。
    Sink 组件目的地包括 hdfs、logger、avro、thrift、ipc、file、HBase、solr、自定义。

  • Sink会将事件从Channel中移除,并将事件放置到外部数据介质上

  • 例如:通过Flume HDFS Sink将数据放置到HDFS中,或者放置到下一个Flume的Source,等到下一个Flume处理。
    – 对于缓存在通道中的事件,Source和Sink采用异步处理的方式
    • Sink成功取出Event后,将Event从Channel中移除
    • Sink必须作用于一个确切的Channel
    • 不同类型的Sink:
    – 存储Event到最终目的的终端:HDFS、Hbase
    – 自动消耗:Null Sink
    – 用于Agent之间通信:Avro

Agent Interceptor
  • Interceptor用于Source的一组拦截器,按照预设的顺序必要地对events进行过滤和自定义的处理逻辑实现

  • 在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的。也即在日志进入到source之前,对日志进行一些包装、清新过滤等等动作

  • 官方上提供的已有的拦截器有:
    – Timestamp Interceptor:在event的header中添加一个key叫:timestamp,value为当前的时间戳
    – Host Interceptor:在event的header中添加一个key叫:host,value为当前机器的hostname或者ip
    – Static Interceptor:可以在event的header中添加自定义的key和value
    – Regex Filtering Interceptor:通过正则来清洗或包含匹配的events
    – Regex Extractor Interceptor:通过正则表达式来在header中添加指定的key,value则为正则匹配的部分

  • flume的拦截器也是chain形式的,可以对一个source指定多个拦截器,按先后顺序依次处理

Agent Selector
  • channel selectors 有两种类型:
    Replicating Channel Selector (default):将source过来的events发往所有channel
    Multiplexing Channel Selector:而Multiplexing 可以选择该发往哪些channel

  • 对于有选择性选择数据源,明显需要使用Multiplexing 这种分发方式
    在这里插入图片描述

  • Multiplexing 需要判断header里指定key的值来决定分发到某个具体的channel,我们现在demo1和demo2同时运行在同一个服务器上,如果在不同的服务器上运行,我们可以在 source1上加上一个 host 拦截器,这样可以通过header中的host来判断event该分发给哪个channel,而这里是在同一个服务器上,由host是区分不出来日志的来源的,我们必须想办法在header中添加一个key来区分日志的来源
    –通过设置上游不同的Source就可以解决

可靠性

• flume保证单次跳转可靠性的方式:传送完成后,该事件才会从通道中移除
• Flume使用事务性的方法来保证事件交互的可靠性。
• 整个处理过程中,如果因为网络中断或者其他原因,在某一步被迫结束了,这个数据会在下一次重新传输。
• Flume可靠性还体现在数据可暂存上面,当目标不可访问后,数据会暂存在Channel中,等目标可访问之后,再进行传输
• Source和Sink封装在一个事务的存储和检索中,即事件的放置或者提供由一个事务通过通道来分别提供。这保证了事件集在流中可靠地进行端到端的传递。
– Sink开启事务
– Sink从Channel中获取数据
– Sink把数据传给另一个Flume Agent的Source中
– Source开启事务
– Source把数据传给Channel
– Source关闭事务
– Sink关闭事务可靠性

Flume实践
  1. netcat方式
    在这里插入图片描述
  2. exec方式
    在这里插入图片描述
  3. HDFS方式
    在这里插入图片描述
  4. spooldir
    在这里插入图片描述
Flume事务

在这里插入图片描述

  • Flume 的事务机制(类似数据库的事务机制):Flume 使用两个独立的事务分别负责从Soucrce 到 Channel,以及从 Channel 到 Sink 的事件传递。比如 spooling directory source为文件的每一行创建一个事件,一旦事务中所有的事件全部传递到 Channel 且提交成功,那么 Soucrce 就将该文件标记为完成。同理,事务以类似的方式处理从 Channel 到 Sink 的传递过程,如果因为某种原因使得事件无法记录,那么事务将会回滚。且所有的事件都会保持到 Channel 中,等待重新传递。

  • 根据 Flume 的架构原理,Flume 是不可能丢失数据的,其内部有完善的事务机制,Source 到 Channel 是事务性的,Channel 到 Sink 是事务性的,因此这两个环节不会出现数据的丢失,唯一可能丢失数据的情况是 Channel 采用 memory Channel,agent 宕机导致数据丢失,或者 Channel 存储数据已满,导致 Source 不再写入,未写入的数据丢失。Flume 不会丢失数据,但是有可能造成数据的重复,例如数据已经成功由 Sink 发出,但是没有接收到响应,Sink 会再次发送数据,此时可能会导致数据的重复。

Flume Agent内部原理

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
⼤数据BI框架知识点备注 相关资源: 相关资源: 将这段时间的⼀些基于⼤数据⽅案的BI知识点暂时做些规整,可能还存在较多问题,后续逐步完善修改。 数据模型: 1、星型模型和雪花模型,同样是将业务表拆分成事实表和纬度表;例如⼀个员⼯数据表,可以拆分为员⼯事实表和职位维度表、时间维度表等; 上⾯这个例⼦实时上不恰 当,事实表更多的应该是记录⼀类事务,⽐如客户订单、操作记录等。 2、星型模型与雪花模型的区别在于,例如时间维度表,前者设计为年、⽉、⽇为⼀条记录,后者是年、⽉、⽇分别为三张表,再次⽤外键关联; 3、我们可以在维度表中添加额外信息诸如分类,⽐如产品维度表有产品A、A1、A2、B1,我们可以在这个表⾥增加⼀个产品种类的字段; 4、聚合表,为了防⽌拆分成数据、维度表后简单查询也存在过多JOIN,⽽创建的中间表,本质上就是利⽤空间换时间;下述中导⼊hbase 中⽀持查询的就是这种聚合表; 数据采集: 1、可采⽤爬⾍的形式采集⽹络数据; 2、可采⽤flume⼯具采集远程服务端的⽇志数据; 3、可采⽤sqoop采集关系型数据库数据; 4、也可以⾃⼰写代理程序,利⽤消息中间件采集定制化数据; 5、数据采集后在当前⽅案中都保存在hdfs中; 6、传统的BI项⽬中通常采⽤ESB,⽐如国产的东⽅通或者开源的mule等; 数据仓库建模: 1、此处通常采⽤hive进⾏数据仓库的建模,即⽤hive的hsql语句创建事实表、维度表等; 2、⼀个⽐较重要的⼯作是利⽤hive进⾏ETL,例如缺字段、归⼀化(⽐如8000和8K、杭州和杭州市、惠普和HP等)、异常值(如⾦额为负数)等;在数据仓库的构建过 程中,ETL的⼯作很可能过半; 3、hive的底层基础还是mapreduce,我们可以认为基于这个分布式的计算框架来进⾏并⾏化的ETL任务;这⾥和kettle中创建ETL的job应该是类似的; 4、hive的任务可以由crontab定时调度; 查询的优化 1、由于hive的实时性⽐较差,因此我们可以将数据从hive中同步到hbase,在hbase中提供对外查询的接⼝; 数据分析 1、BI的核⼼部分,即相关业务的分析SQL还是在hive下进⾏的; 2、此处我们可以采⽤spark对数据分析进⾏优化,可以理解为⽤升级版(主要是更多利⽤内存)的mapreduce完成数据分析任务; 3、hive可以采⽤R语⾔、JAVA语⾔等编程扩展;

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值