一、 Hive中的DDL和DML的使用
二、Hive内置函数与Hive自定义函数
三、Hive调优策略
一、 Hive中的DDL和DML的使用
1、 Hadoop集群启动
1.1 查看并启动Zookeeper服务
1.2 在主节点启动Hadoop集群
1.3 在备用节点启动ResourceManager
1.4 在主节点启动Hbase集群
1.5 分别在主节点、备用节点和数据节点用“jps”查看Jvav进程信息
2、启动Mysql数据库
2.1 启动管理节点
2.2 启动数据节点
2.3 启动SQL节点
3、Hive DDL-Hive Data Define Language
3.1 创建外部表
在主节点使用“hive“启动Hive
3.2 创建外部表
3.3 创建分区表
3.4 修改表
3.5 LOAD
(1)创建emp.txt文本
(2)装载本地文件数据至Hive表
(3)创建HDFS文件
(4)装载HDFS文件至Hive
(5)装载HDFS文件至Hive分区表
3.6 INSERT
将查询结果插入Hive表
3.7 导出数据
二、 Hive内置函数与Hive自定义函数
1、Hive内置函数
1.1 获取所有函数
1.2 查看指定函数的使用方法
1.3 内置函数使用示例
(1)将ename转换成大写
(2)查看concat的使用方法,连接并查看ename,job字段
2、Hive自定义函数
2.1 Hive UDF开发
(1)创建Maven工程项目hive
(2)Hive UDF 开发程序代码
(3)编译Jar包上传至服务器
(4)将自定义函数UDF添加到Hive中
(5)使用自定义函数
三、 Hive调优策略
1、 explain将查询语句转化成stage组成的序列
1.1 并行执行,设置方式
1.2 JVM重用,设置方式
JVM重用使用一个JVM实例可以在同一个作用中重复使用
1.3 推测执行
通过利用更多的资源来换取时间,设置方式
1.4 列裁剪:hive.optimize.cp=time(默认值为true)
GROUP BY操作,分别为:map端部分聚合和有数据倾斜时进行负载均衡
1.5 合并小文件
1.6 设置合适的reduce个数
如有问题,欢迎评论!
数据仓库Hive
最新推荐文章于 2020-12-02 16:20:53 发布
目 录