【无标题】Flume采集数据到Hive&HBase

最新推荐文章于 2022-11-14 08:39:40 发布

weixin_53762943

最新推荐文章于 2022-11-14 08:39:40 发布

阅读量246

点赞数 1

文章标签： hive hbase flume

本文链接：https://blog.csdn.net/weixin_53762943/article/details/127808040

版权

文章目录

一、Flume汇入数据到Hive
- - 1、汇入到Hive指定的HDFS路径中
  - 2、利用HiveSink汇入数据
二、Flume汇入数据到HBase

一、Flume汇入数据到Hive

1、汇入到Hive指定的HDFS路径中

步骤：

（1）在hive中创建一个数据库以及外部表

创数据库：create database flime;
创表：create external table flume_into_hive(name string,age int)
     partitioned by (dt string) 
     row format delimited 
     fields terminated by ',';
     location '/user/hive/warehouse/flume.db/flume_into_hive';

(2)在/root下创建hive.log文件并加入数据

mkdir flume-hive
cd flume-hive/
vi hive.log

在这里插入图片描述
（3）在flume的conf路径中编写配置文件

cd /opt/software/flume/conf
vi flume-into-hive-1.conf

在这里插入图片描述
配置文件内容：

agent.sources=r1
agent.channels=c1
agent.sinks=s1

agent.sources.r1.type=exec
agent.sources.r1.command=tail -F /root/flume-hive/hive.log

agent.channels.c1.type=memory
agent.channels.capacity=1000
agent.channels.c1.transactionCapacity=100

agent.sinks.s1.type=hdfs
agent.sinks.s1.hdfs.path = hdfs://node01:9000/user/hive/warehouse/flume.db/flume_into_hive/dt=%Y%m%d
agent.sinks.s1.hdfs.filePrefix = upload-
agent.sinks.s1.hdfs.fileSuffix=.txt
#是否按照时间滚动文件夹
agent.sinks.s1.hdfs.round = true
#多少时间单位创建一个新的文件夹
agent.sinks.s1.hdfs.roundValue = 1
#重新定义时间单位
agent.sinks.s1.hdfs.roundUnit = hour
#是否使用本地时间戳
agent.sinks.s1.hdfs.useLocalTimeStamp = true
#积攒多少个 Event 才 flush 到 HDFS 一次
agent.sinks.s1.hdfs.batchSize = 100
#设置文件类型，可支持压缩
agent.sinks.s1.hdfs.fileType = DataStream
agent.sinks.s1.hdfs.writeFormat=Text
#多久生成一个新的文件
agent.sinks.s1.hdfs.rollInterval = 60
#设置每个文件的滚动大小大概是 128M
agent.sinks.s1.hdfs.rollSize = 134217700
#文件的滚动与 Event 数量无关
agent.sinks.s1.hdfs.rollCount = 0

agent.sources.r1.channels=c1
agent.sinks.s1.channel=c1

在这里插入图片描述
（4）运行flume

最低0.47元/天解锁文章

weixin_53762943

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【无标题】Flume采集数据到Hive&HBase

Flume的HBaseSinks分为两大类：1.它提供的两种序列化模式SimpleHbaseEventSerializer（将整个事件的event的body部分当作完整的一列写入HBase，且只能被插入一个Column）和RegexHbaseEventSerializer（根据正则表达式将event的body拆分到不同的列当中，可插入同一个rowkey对应的同一个columnFamily的多个column）优点：安全性较高，支持FLUME-1626,支持往secure hbase写数据；
复制链接

扫一扫