hive_架构

最新推荐文章于 2024-07-27 10:12:29 发布

火树银花之处

最新推荐文章于 2024-07-27 10:12:29 发布

阅读量146

点赞数

分类专栏： Hive 文章标签： hive 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zcf1319/article/details/106183363

版权

Hive 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

hive_架构

hive整合hadoop一起分为以下几个模块：client，metastore，driver，hdfs等

在这里插入图片描述

hive的用户接口
1. hive cli
  1. 命令行模式，使用最多，较为方便
  2. ./bin/hive -e 'select * from test' 执行指定sql，无需进入hive交互式命令行
  3. ./bin/hive -S -e 'select * from test' 静音模式，只输出结果，不输出MapReduce执行过程
  4. ./bin/hive -f test.sql 执行指定sql脚本
2. jdbc/odbc
  1. 通过thriftServer访问，如hiveServer2
  2. 主要是给程序开发过程中使用
3. WebUI
  1. WebUI在实际生产过程中使用极少
hive元数据库
1. hive元数据表结构
  1. 对sql解析，分解为对应的表，字段，分区等
  2. 将解析的信息插入元数据库中
2. hive元数据三种存储方式
  1. 单用户模式：derby
  2. 多用户模式：在本机搭建一个mysql数据库
  3. 远程服务模式：通过在服务端启动一个metaStoreServer，客户端利用thrift协议通过MetaStoreServer访问元数据；
hive数据存储
1. hive数据分为表数据，元数据；元数据通常存在mysql关系型数据库，表数据存在HDFS上面
2. hive中有四种导入数据到hive表中
  1. 从本地文件系统导入
  2. 从hdfs上导入
  3. 从其他表中查询导入
  4. 创建表时从其他表中查询并插入新建的表中
3. hive中数据模型
  1. 表：数据mysql中表的概念类似，每个表在hdfs上面都由一个文件夹表示
  2. 外部表：数据存放在一个不是表所属的目录，删除表时，只会删除元数据，表数据不会删除，类似外部应用，删掉了快捷键
  3. 分区：一般为根据where查询条件分区
  4. 桶：某一列值hash分区
hive文件格式
1. textfile , sequencefile, avro, rcfile , orcfile , parquet, 自定义存储格式
2. 文本日志通常推荐使用ORCfile，列式存储高压缩比率，支持分割，提供多种索引，支持复制数据类型

火树银花之处

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。