hive_架构

hive_架构

       hive整合hadoop一起分为以下几个模块:client,metastore,driver,hdfs等

在这里插入图片描述

  1. hive的用户接口

    1. hive cli
      1. 命令行模式,使用最多,较为方便
      2. ./bin/hive -e 'select * from test'    执行指定sql,无需进入hive交互式命令行
      3. ./bin/hive -S -e 'select * from test'    静音模式,只输出结果,不输出MapReduce执行过程
      4.   ./bin/hive -f test.sql   执行指定sql脚本
    2. jdbc/odbc
      1. 通过thriftServer访问,如hiveServer2
      2. 主要是给程序开发过程中使用
    3. WebUI
      1. WebUI在实际生产过程中使用极少
  2. hive元数据库

    1. hive元数据表结构
      1. 对sql解析,分解为对应的表,字段,分区等
      2. 将解析的信息插入元数据库中
    2. hive元数据三种存储方式
      1. 单用户模式:derby
      2. 多用户模式:在本机搭建一个mysql数据库
      3. 远程服务模式:通过在服务端启动一个metaStoreServer,客户端利用thrift协议通过MetaStoreServer访问元数据;
  3. hive数据存储

    1. hive数据分为表数据,元数据;元数据通常存在mysql关系型数据库,表数据存在HDFS上面
    2. hive中有四种导入数据到hive表中
      1. 从本地文件系统导入
      2. 从hdfs上导入
      3. 从其他表中查询导入
      4. 创建表时从其他表中查询并插入新建的表中
    3. hive中数据模型
      1. 表:数据mysql中表的概念类似,每个表在hdfs上面都由一个文件夹表示
      2. 外部表:数据存放在一个不是表所属的目录,删除表时,只会删除元数据,表数据不会删除,类似外部应用,删掉了快捷键
      3. 分区:一般为根据where查询条件分区
      4. 桶:某一列值hash分区
  4. hive文件格式

    1. textfile , sequencefile, avro,  rcfile , orcfile , parquet,  自定义存储格式
    2. 文本日志通常推荐使用ORCfile,列式存储高压缩比率,支持分割,提供多种索引,支持复制数据类型
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值