Flume 基础概述(体系架构、执行流程、事务)

Flume 基础概述

在这里插入图片描述

概述


概念

  • Flume是一个分布式、可靠、和高可用的海量日志聚合的系统
  • Flume 官网

作用

  • 1、支持在系统中定制各类数据发送方,用于收集数据
  • 2、同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

应用场景

  • 1、线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统
  • 2、这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据
  • 3、这时候你可能就需要flume这样的系统帮你去做传输。

Flume的体系架构


在这里插入图片描述

核心组件

  • 1、Client(客户端)

    • 1、Client 生产数据,运行在一个独立的线程
  • 2、Event(事件)

    • 1、一个数据单元,由 消息头消息体组成
    • 2、Events 可以是日志记录、 avro 对象等
  • 3、Flow(流)

    • 1、 Event 从源点到达目的点迁移的抽象
  • 4、Agent(代理)

    • 1、 一个独立的Flume进程,包含组件Source、 Channel、 Sink
    • 2、每台机器运行一个agent,但是可以在一个agent中包含多个 sourcessinks
    • 3、Agent使用 JVM 运 行Flume
  • 5、Source(源)

    • 1、source从Client收集数据,传递给Channel
    • 2、 数据收集组件
  • 6、Channel(通道)

    • 1、负责接收 source 端的数据,并将其推送持久系统或者是 sink 端
    • 2、 中转Event的一个临时存储保存由Source组件传递过来的 Event
    • 3、Channel 连接 sources 和 sinks ,这个有点像一个消息队列
  • 7、Sink(存储)

    • 1、从Channel中读取并移除Event, 将 Event 传递到 FlowPipeline 中的下一个 Agent
    • 2、如果有的话,Sink从Channel收集数据,运行在一个独立线程
  • 8、selector(选择器)

    • 1、作用于 source 端,然后决定数据发往哪个目标
  • 9、interceptor(拦截器)

    • 1、flume 允许使用拦截器拦截数据
    • 2、允许使用拦截器链作用于 source 和 sink 阶段

Flume优点


  • 1、峰值处理

    • 收集数据速度超过将写入数据的时候,也就是当收集信息遇到峰值时,
    • 这时候收集的信息非常大,甚至超过了系统的写入数据能力,
    • 此时,Flume会在数据生产者和数据收容器间做出调整,保证其能够在两者之间提供平稳的数据
  • 2、Flume管道基于事务保证了数据在传送接收时的一致性

  • 3、 Flume可靠的,容错性高的,可升级的,易管理的,并且可定制的

    • 可以根据生产需要自行定义一个数据来源端或者终点端
  • 4、 支持多路径流量,多管道接入流量,多管道接出流量,上下文路由等

Flume 执行流程


在这里插入图片描述

执行流程

  • 1、Source 接受数据
  • 2、Channel Processor 处理 Event
  • 3、 Channel Processor 将 Event 传递interceptor 链对 Event 进行过滤操作
  • 4、过滤完之后再把 Event 发送回 Channel Prodessor
  • 5、Channel Processor把 Event 发送给 Channel selectors
  • 6、Channel selector 返回 Event 属于哪个Channel
  • 7、根据第6步返回的结果,将Event 发送到指定Channel
  • 8、SinkProcessor 从 Channel 中拉取数据
  • 9、最后把数据 Sink 出去

Flume 事务


F

推送事务流程

  • 1、doPut: 把批数据写入到临时缓冲区putList
  • 2、doCommit: 检查Channel 容量是否足够,如果容量足够则把 putList 里的数据发送到 Channel
  • 3、doRollBack: 如果Channel 容量不够,则把数据回滚putList

拉取事务流程

  • 1、doTake: 把数据读取到临时缓冲区 takeList
  • 2、doCommit: 检查数据是否发送成功,成功的话,则把event从takeList中移除
  • 3、doRollBack: 如果发送失败,则把 takeList的数据回滚数据到 Channel

可靠性

  • 1、只有sink接收到数据落地完成的信息之后,才会将数据从通道中删除
  • 2、数据传输的方式不是 byte而是一个个的 event

可恢复

  • 1、当数据丢失了,只有从存储在磁盘的方式,才能将数据找回

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Flume是一款分布式、可靠且可扩展的数据收集系统,由LinkedIn开发,主要用于日志收集和数据传输。其基础架构主要包括以下几个关键组件: 1. **Source(源)**:Flume的源头,负责从各种源(如日志文件、HTTP请求、JMX监控等)获取数据。常见的源有FileSource(文件)、SocketSource(网络监听)和JMSSource(消息队列)。 2. **Channel(通道)**:数据从源到达目的地的中转站。Flume提供了几种类型的通道,比如Memory Channel(内存缓冲)、File Channel(持久化到文件)和 JDBC Channel(将数据发送到数据库)。它们用于临时存储数据直到被Sink消费。 3. **Sink(sink)**:数据最终的目的地,可以是HDFS、HBase、Solr、Kafka、Graphite等。每个Sink负责将数据写入指定的目标存储或处理系统。 4. **Agent(代理)**:Flume的核心执行单元,由一个或多个Source、Channel和Sink组成。每个Agent是独立运行的,但它们可以被配置成并行或串联执行,形成一个数据管道。 5. **Configuration(配置)**:Flume的运行依赖于配置文件,定义了各个组件之间的连接和参数设置。这些配置文件通常包含Source、Channel和Sink的类型、位置以及数据传递的策略。 6. **Sinks和Sources的关系**:数据从Source开始,通过Channel进行缓存和路由,然后进入相应的Sink。这种灵活的架构使得Flume能够适应多种数据处理场景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寧三一

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值