Flume采集系统

1.flume介绍

1.1 什么是flume?

 Apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务.

1.2 Flume特性

  • Flume是一个分布式可靠、和高可用的海量日志采集、汇聚和传输的系统
  • Flume可以采集文件,socket数据包(网络端口)、文件夹、kafka、mysql数据库等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统
  • 一般的采集、传输需求,通过对flume的简单配置即可实现;不用开发一行代码!
  • Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景

2.Flume核心

2.1.agent

flume采集系统就是由一个个agent连接起来所形成的一个或简单或复杂的数据传输通道。

对于每一个Agent来说,它就是一个独立的守护进程(JVM),它负责从数据源接收数据,并发往下一个目的地,如下图所示:

每一个agent相当于一个数据(被封装成Event对象)传递员,内部有三个组件:

Source:采集组件,用于跟数据源对接,以获取数据;它有各种各样的内置实现;

Sink:下沉组件,用于往下一级agent传递数据或者向最终存储系统传递数据

Channel:传输通道组件,用于从source将数据传递到sink

2.2 Event:flume内部数据封装形式

数据在Flume内会被封装成统一的数据类型Event

Source组件从外部获取原始数据后,将数据封装成Event文件

Sink组件从Channel中取出Event,根据配置文件的要求,将Event以其他形式输出

 

Event封装对象主要有两部分组成: Headers和  Body

Header是一个集合  Map[String,String],用于携带一些KV形式的元数据(标志、描述等)

Boby: 就是一个字节数组;装载具体的数据内容

2.3.Transaction:事务控制机制

Flume有两个独立的事务分别负责从Soucrce到Channel,以及从Channel到Sink的event传递

从Soucrce到Channel:Channel接收来自Source的数据,当同一个事务中的事件都接收成功后,记录最后的偏移量标记记录成功,进行下一次操作,如果数据接收不成功则事务回滚,重新提交事务

同理,事务以类似的方式处理从Channel到Sink的传递过程

事务机制涉及到如下重要参数:

a1.sources.s1.batchSize =100

a1.sinks.k1.batchSize = 200

a1.channels.c1.transactionCapacity = 300 (应该大于source或者sink的批次大小)

< transactionCapacity 是说,channel中保存的事务的个数>

跟channel的数据缓存空间容量区别开来:

a1.channels.c1.capacity = 10000

3.Flume安装部署

1.准备Hadoop环境

2.将安装包上传到需要采集数据的节点上(例如日志采集节点)

3.解压tar -zxvf apache-flume-1.8.0-bin.tar.gz

4.根据数据采集要求配置采集方案(在配置文件中自定义)

5.根据采集方案配置文件,在对应节点上运行flume agent

启动命令

bin/flume-ng agent -c ./conf ………….

commands:

  help                      显示本帮助信息

  agent                     启动一个agent进程

  avro-client                 启动一个用于测试avro source的客户端(能够发送avro序列化流)

  version                    显示当前flume的版本信息

 

global options:   全局通用选项

  --conf,-c <conf>          指定flume的系统配置文件所在目录

  --classpath,-C <cp>        添加额外的jar路径

  --dryrun,-d               不去真实启动flume agent,而是打印当前命令

  --plugins-path <dirs>       指定插件(jar)所在路径

 

  -Dproperty=value          传入java环境参数

  -Xproperty=value          传入所需的JVM配置参数

 

agent options:

  --name,-n <name>          agent的别名(在用户采集方案配置文件中)

  --conf-file,-f <file>          指定用户采集方案配置文件的路径

  --zkConnString,-z <str>      指定zookeeper的连接地址

  --zkBasePath,-p <path>      指定用户配置文件所在的zookeeper path,比如:/flume/config

  --no-reload-conf            关闭配置文件动态加载

  --help,-h                   display help text

 

avro-client options:

  --rpcProps,-P <file>   RPC client properties file with server connection params

  --host,-H <host>     avro序列化数据所要发往的目标主机(avro source所在机器)

  --port,-p <port>      avro序列化数据所要发往的目标主机的端口号

  --dirname <dir>      需要被序列化发走的数据所在目录(提前准备好测试数据放在一个文件中)

  --filename,-F <file>   需要被序列化发走的数据所在文件(default: std input)

  --headerFile,-R <file>  存储header key-value的文件

  --help,-h             帮助信息

 

  Either --rpcProps or both --host and --port must be specified.

 

Note that if <conf> directory is specified, then it is always included first

in the classpath.

开启内置监控功能

-Dflume.monitoring.type=http -Dflume.monitoring.port=34545

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
东南亚位于我国倡导推进的“一带一路”海陆交汇地带,作为当今全球发展最为迅速的地区之一,近年来区域内生产总值实现了显著且稳定的增长。根据东盟主要经济体公布的最新数据,印度尼西亚2023年国内生产总值(GDP)增长5.05%;越南2023年经济增长5.05%;马来西亚2023年经济增速为3.7%;泰国2023年经济增长1.9%;新加坡2023年经济增长1.1%;柬埔寨2023年经济增速预计为5.6%。 东盟国家在“一带一路”沿线国家中的总体GDP经济规模、贸易总额与国外直接投资均为最大,因此有着举足轻重的地位和作用。当前,东盟与中国已互相成为双方最大的交易伙伴。中国-东盟贸易总额已从2013年的443亿元增长至 2023年合计超逾6.4万亿元,占中国外贸总值的15.4%。在过去20余年中,东盟国家不断在全球多变的格局里面临挑战并寻求机遇。2023东盟国家主要经济体受到国内消费、国外投资、货币政策、旅游业复苏、和大宗商品出口价企稳等方面的提振,经济显现出稳步增长态势和强韧性的潜能。 本调研报告旨在深度挖掘东南亚市场的增长潜力与发展机会,分析东南亚市场竞争态势、销售模式、客户偏好、整体市场营商环境,为国内企业出海开展业务提供客观参考意见。 本文核心内容: 市场空间:全球行业市场空间、东南亚市场发展空间。 竞争态势:全球份额,东南亚市场企业份额。 销售模式:东南亚市场销售模式、本地代理商 客户情况:东南亚本地客户及偏好分析 营商环境:东南亚营商环境分析 本文纳入的企业包括国外及印尼本土企业,以及相关上下游企业等,部分名单 QYResearch是全球知名的大型咨询公司,行业涵盖各高科技行业产业链细分市场,横跨如半导体产业链(半导体设备及零部件、半导体材料、集成电路、制造、封测、分立器件、传感器、光电器件)、光伏产业链(设备、硅料/硅片、电池片、组件、辅料支架、逆变器、电站终)、新能源汽车产业链(动力电池及材料、电驱电控、汽车半导体/电子、整车、充电桩)、通信产业链(通信系统设备、终设备、电子元器件、射频前、光模块、4G/5G/6G、宽带、IoT、数字经济、AI)、先进材料产业链(金属材料、高分子材料、陶瓷材料、纳米材料等)、机械制造产业链(数控机床、工程机械、电气机械、3C自动化、工业机器人、激光、工控、无人机)、食品药品、医疗器械、农业等。邮箱:market@qyresearch.com

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值