数据仓库Hive

目 录

一、 Hive中的DDL和DML的使用
二、Hive内置函数与Hive自定义函数
三、Hive调优策略

在这里插入图片描述
一、 Hive中的DDL和DML的使用
1、 Hadoop集群启动
1.1 查看并启动Zookeeper服务
在这里插入图片描述
1.2 在主节点启动Hadoop集群
在这里插入图片描述
1.3 在备用节点启动ResourceManager
在这里插入图片描述
1.4 在主节点启动Hbase集群
在这里插入图片描述
1.5 分别在主节点、备用节点和数据节点用“jps”查看Jvav进程信息
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2、启动Mysql数据库
2.1 启动管理节点
在这里插入图片描述
2.2 启动数据节点
在这里插入图片描述
2.3 启动SQL节点
在这里插入图片描述
3、Hive DDL-Hive Data Define Language
3.1 创建外部表
在主节点使用“hive“启动Hive
在这里插入图片描述
在这里插入图片描述
3.2 创建外部表
在这里插入图片描述
3.3 创建分区表
在这里插入图片描述
3.4 修改表
在这里插入图片描述
3.5 LOAD
(1)创建emp.txt文本
在这里插入图片描述
(2)装载本地文件数据至Hive表
在这里插入图片描述
(3)创建HDFS文件
在这里插入图片描述
在这里插入图片描述
(4)装载HDFS文件至Hive
在这里插入图片描述
(5)装载HDFS文件至Hive分区表
在这里插入图片描述
3.6 INSERT
将查询结果插入Hive表
在这里插入图片描述
3.7 导出数据
在这里插入图片描述
二、 Hive内置函数与Hive自定义函数
1、Hive内置函数
1.1 获取所有函数
在这里插入图片描述
1.2 查看指定函数的使用方法
在这里插入图片描述
1.3 内置函数使用示例
(1)将ename转换成大写
在这里插入图片描述
(2)查看concat的使用方法,连接并查看ename,job字段
在这里插入图片描述
2、Hive自定义函数
2.1 Hive UDF开发
(1)创建Maven工程项目hive
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(2)Hive UDF 开发程序代码
在这里插入图片描述
(3)编译Jar包上传至服务器
在这里插入图片描述
在这里插入图片描述
(4)将自定义函数UDF添加到Hive中
在这里插入图片描述
(5)使用自定义函数
在这里插入图片描述
在这里插入图片描述
三、 Hive调优策略
1、 explain将查询语句转化成stage组成的序列
1.1 并行执行,设置方式
在这里插入图片描述
1.2 JVM重用,设置方式
JVM重用使用一个JVM实例可以在同一个作用中重复使用
在这里插入图片描述
1.3 推测执行
通过利用更多的资源来换取时间,设置方式
在这里插入图片描述
1.4 列裁剪:hive.optimize.cp=time(默认值为true)
GROUP BY操作,分别为:map端部分聚合和有数据倾斜时进行负载均衡
在这里插入图片描述
1.5 合并小文件
在这里插入图片描述
1.6 设置合适的reduce个数
在这里插入图片描述
如有问题,欢迎评论!

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值