flume 1.9.0 把kafka数据sink 到 hive

最新推荐文章于 2022-09-24 22:00:09 发布

夜少新万万

最新推荐文章于 2022-09-24 22:00:09 发布

阅读量1.1k

点赞数

文章标签： flume hive

本文链接：https://blog.csdn.net/xinxin123niujian/article/details/90766686

版权

本文详细介绍了如何使用Flume 1.9.0将Kafka数据有效迁移至Hive。首先，讨论了Hive建表的特定要求，包括必须使用分桶、ORC存储格式以及开启事务。接着，逐步指导读者配置Flume的conf文件、添加必要的依赖包，并在Flume环境中执行命令。最终，通过在Hive中查询验证数据已经成功导入。

摘要由CSDN通过智能技术生成

flume 1.9.0 把kafka数据sink 到 hive

创建hive表
- hive建表要求
- hive 配置要求
配置flume的conf文件
在flume lib中添加依赖包
在flume bin中运行命令
最后在hive表中查询可以看到数据了

创建hive表

CREATE TABLE IF NOT EXISTS  user (userid string,sex string) PARTITIONED BY (dt string) clustered by (sex) into 2 buckets  row format delimited fields terminated by ',' stored as orc tblproperties  ('transactional'='true');

hive建表要求

1.必须要分桶
2. 存储格式必须orc
3. 必须开启事务

hive 配置要求

hive> set hive.support.concurrency=true;
hive> set hive.txn.manager=org.apache

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

夜少新万万

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用Flume将Kafka中的数据导入Hive

liexuanwo7443的博客

03-07

4564

0x01 需求背景将Kafka中的JSON数据持久化存储到Hive表中，以供后期有查找的需求。（看了很多讲解的博文，出了各种bug！饶了很多弯路！总结出来的经验就是一定要仔细看Flume的官方文档！！！！！！） Kafka中的数据示例： >{"id":1,"name":"snowty","age":25} Hive表示例： hive> desc hivetable...

flume实现从kafka读取消息到hive

m0_37996943的博客

08-14

1318

这里以公司三台服务器为例 192.168.2.250(master) 192.168.2.251;192.168.2.252 参考博客 http://miximixi.me/index.php/archives/961 1.安装 kafka,flume,hive,zookeeper 2. 在master(192.168.2.250)主机下 vi flume/con

参与评论您还未登录，请先登录后发表或查看评论

flume将kafka中topic数据导入hive中

骷髅头的寂寞的博客

06-07

6483

一、首先更加数据的表结构在hive中进行表的创建。 create table AREA1(unid string,area_punid string,area_no string,area_name string,area_dept_unid string,area_longitude string,area_latitude string,area_sortid string,c...

apache-flume-1.9.0-bin.tar，kafka_2.11-0.10.1.0，zookeeper-3.3.6_.tar

05-29

apache-flume-1.9.0-bin.tar，kafka_2.11-0.10.1.0，zookeeper-3.3.6_.tar 压缩到了一个logs.rar文件中，需要的请下载

大数据-从flume采集数据通过kafaka下沉到hive表的一个详细案列

jiayunfei521的博客

10-24

911

HDFS 实施前的准备安装nginx 安装flume 安装kafka 打jar包双击package即可打成jar包在此处可以看到打成jar包的地址将jar包运行在虚拟机上我准备了四台虚拟机我将jar包 ...

Flume sink hive Flume对接Hive（Sink）遇到的坑，以及最终放弃hive选用hdfs。欢迎讨论指点

MannerXu的博客

03-18

735

项目中打算使用Flume把数据直接传到Hive表而不是HDFS上，使用Hive作为Sink，Flume版本为1.9.0。前期启动遇到各种报错： NoClassDefFoundError: org/apache/hadoop/hive/ql/session/SessionState NoClassDefFoundError: org/apache/hadoop/hive/cli/CliSessionState NoClassDefFoundError: org/apache/hadoop/hive/

数据采集模块——Flume消费Kafka数据写入到HDFS

weixin_44196083的博客

03-27

3351

一、项目背景 1. 实时数据写入到 Kafka topic 中，经 Flume 批量采集到 HDFS 上。此处的实时数据格式为标准 JSON 格式（不包含嵌套 JSON）。 2. 测试环境模拟数据的采集过程。测试集群为第三方公司基于当前主流开源组件自主研发并搭建的大数据平台，包含常用组件：HDFS,MapReduce,Yarn,Hive ,HBase ,Phoenix,Zookeeper,...

kafka数据落盘_Flume消费Kafka数据落盘至HDFS的实践

weixin_39655689的博客

12-22

514

需求背景我司目前的日志采集是由 Structured Streaming 程序消费数据Kafka中的topic数据，经过ETL后写入HIVE表，但是该类日志程序占用约7个G的内存，这对于我们集群的压力来讲是比较大的(10台32g)。组件调研当前市面上的日志采集框架还是不少的- Apache Flume- Fluentd- Logstash- Chukwa- Scribe- Splunk Forwa...

kafka-connect-hive sink插件入门指南

Viking的博客

02-15

2687

面试：你懂什么是分布式系统吗？Redis分布式锁都不会？>>> kafka-connect-hive是基于kafka-connect平台实现的hive数据读取和写入插件，主要由source、sink两部分组成，source部分完成hive表数据的读取任务，kafka-connect将这些数据写入到其他数据存储层中，比如hive到ES数据的流入。sink部分完成向hive表...

kafka+flume 实时采集oracle数据到hive中.docx

08-11

讲述如何采用最简单的kafka+flume的方式，实时的去读取oracle中的重做日志+归档日志的信息，从而达到日志文件数据实时写入到hdfs中，然后将hdfs中的数据结构化到hive中。

【Kafka】（九）项目中使用 Kafka 整合 Flume

01-07

文章目录一、启动 Kafka二、创建 Topic 消息队列三、查询 kafka 消息队列四、启动 consumer 监控窗口五、写 Flume 自定义配置文件六、开启 Flume七、结果分析一、启动 Kafka kafka-server-start.sh /opt/soft/kafka211/config/server.properties 二、创建 Topic 消息队列 kafka-topics.sh --create --zookeeper 192.168.56.137:2181 --topic demo12 --replication-factor 1 --partitions 1

flume数据采集_flume采集Kafka数据到hdfshive

weixin_39983223的博客

11-30

645

一，整体流程1，首先来一份流程图2，照着这个流程图我们来进入今天讨论的内容，'数据同步模块'二，数据同步流程1，使用Flume完成数据采集的后半部分，即Kafka数据到Hadoop平台的落地三，同步配置1，版本信息基础构建CDH5.16.1,(推荐使用Flume之前升级到1.7及之后版本,5.16默认版本为1.6,本次使用1.6)2，Flume配置信息a1.sources=source_...

Flume案例分享01(Kafka -＞ Hive)

最新发布

thankstonica的博客

09-24

1030

常用ETL组合，Flume数据采集，Kafka Source 和 Hive Sink

flume mysql hive_hive系列（四）kafka+flume+hive日志收集

weixin_40008644的博客

02-15

114

#Theconfigurationfileneedstodefinethesources,#thechannelsandthesinks.#Sources,channelsandsinksaredefinedperagent,#inthiscasecalled'agent'at1.sources=kafkaSourceat1.channels...

通过Flume简单实现Kafka与Hive对接（Json格式）

栗筝i的博客

06-29

4486

将以下存储在kafka的topic中的JSON格式字符串，对接存储到Hive的表中 {"id":1,"name":"小李"} {"id":2,"name":"小张"} {"id":3,"name":"小刘"} {"id":4,"name":"小王"} 1、在hive/conf/hive-site.xml中添加或修改如下内容： <property> <name>hive.txn.manager</name> <value>org.a

Kafka flume hdfs zookeeper Hive（一个案例详细整理）

攀登者的博客

11-02

750

以下内容为一个从数据源的产生，到基于此数据的分析的详细步骤。同时还有每一个涉及到的技术的详细解析以及作用。首先在这里简单介绍一下项目的流程：数据源的产生，然后将数据源发送到Kafka中，然后通过flume将Kafka中的数据下沉到hive中，hdfs则保存了数据。而zookeeper对这些分布式服务进行了协调。 @产生数据源：第一步：在这里模拟了日志的产...

flume接kafka数据入hive（亲测好用）

song_quan_的博客

12-17

1931

flume+kafka+hive收集用户行为数据

xieedeni的博客

09-28

2530

需求背景项目中需要将用户的行为数据或者其他数据放入大数据仓库，已有kafka服务。解决方案我们可以通过flume获取kafka实时数据并转存储到hdfs。转存到hdfs后，再通过load data命令加载到Hive表中，hive再处理用户行为数据，最终输出到mysql呈现到用户端。具体步骤一. 安装部署Hadoop并启动Hadoop，具体步骤见：Windows10 安装Hadoop3.3.0_xieedeni的博客-CSDN博客 Windows10安装Hive3.1.2_xie..