余老师带你学习大数据-Spark快速大数据处理第五章第四节HiveQL数据定义

最新推荐文章于 2022-09-10 18:03:05 发布

weixin_45810046

最新推荐文章于 2022-09-10 18:03:05 发布

阅读量116

点赞数

分类专栏：余老师带你学习大数据-Spark快速大数据处理文章标签： spark

本文链接：https://blog.csdn.net/weixin_45810046/article/details/109468367

版权

余老师带你学习大数据-Spark快速大数据处理专栏收录该内容

64 篇文章 3 订阅

订阅专栏

HiveQL数据定义

1、在app-12上，以hadoop用户登录。
命令：su – hadoop
在这里插入图片描述

2、启动hive。
命令：hive --service cli
在这里插入图片描述

3、查看databases。
命令：show databases;
在这里插入图片描述

手动创建databases

4、创建test。
命令：CREATE DATABASE IF NOT EXISTS test;
在这里插入图片描述

5、查看是否创建成功。
命令：show databases;
在这里插入图片描述

6、进入test。
命令：use test;
在这里插入图片描述

7、创建employee表。
命令：CREATE TABLE IF NOT EXISTS `EMPLOYEE` ( `ID` bigint, `NAME` string, CONSTRAINT `SYS_PK_BUCKETING_COLS` PRIMARY KEY (`ID`) DISABLE ） ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' ;
注：``这个符号为标识符，数据名字。
在这里插入图片描述

下载数据

8、新建new terminal，以hadoop用户登录。
命令：su – hadoop
在这里插入图片描述

9、进入/tmp目录下。
命令：cd /tmp/
在这里插入图片描述

10、创建hive文件。
命令：mkdir hive
在这里插入图片描述

11、进入 /tmp/Spark-stack/Hive/HiveQL/目录下。
命令：cd /tmp/Spark-stack/Hive/HiveQL/
在这里插入图片描述

12、将employee.dat 拷贝到/tmp/hive/目录下。
命令：cp employee.dat /tmp/hive/
在这里插入图片描述

8、返回之前的new terminal，加载数据到table中。
命令：LOAD DATA LOCAL INPATH '/tmp/hive/employee.dat' OVERWRITE INTO TABLE EMPLOYEE;
在这里插入图片描述

9、查询数据。
命令：select * from EMPLOYEE;
在这里插入图片描述

数据库与hdfs对应关系

观察创建完表和数据库之后，在HDFS上有什么变化
1、在app-11上，以hadoop用户登录。
命令：su – hadoop
在这里插入图片描述

2、配置文件默认的数据存储仓库在hive/warehouse/
命令：hdfs dfs -ls /user/hive/warehouse/
在这里插入图片描述

3、查看test.db文件
命令：hdfs dfs -ls /user/hive/warehouse/test.db
在这里插入图片描述

4、查看employee表。
命令：hdfs dfs -ls /user/hive/warehouse/test.db/employee

在这里插入图片描述

5、查看employee.dat数据集内容。
命令：hdfs dfs -cat /user/hive/warehouse/test.db/employee/employee.dat
在这里插入图片描述

内部表和外部表操作与hdfs文件管控

1、将数据拷贝到/installTest目录下。
命令：hdfs dfs -cp /user/hive/warehouse/test.db/employee/employee.dat /installTest
在这里插入图片描述

2、返回app-12的命令行，删除表。
命令：drop table employee;
在这里插入图片描述

3、返回app-11上，再次查看。
命令：hdfs dfs -ls /user/hive/warehouse/test.db注：数据已经删除了，但是test.db没有删除掉。
在这里插入图片描述

4、返回app-12上，删除test.db。
命令：drop database test;
在这里插入图片描述

5、返回app-11上，查看是否删除。
命令：hdfs dfs -ls /user/hive/warehouse/test.db注：已经删除，数据库已经被删除。
在这里插入图片描述

创建外部表

6、创建一个空目录存放数据。
命令：hdfs dfs -mkdir /installTest/hive
在这里插入图片描述

7、将拷贝过来的employee.dat拷贝到hive目录下。
命令：hdfs dfs -cp /installTest/employee.dat /installTest/hive
在这里插入图片描述

8、返回app-12上，创建表，先创建database。
命令：CREATE DATABASE IF NOT EXISTS test;
在这里插入图片描述

9、进入test。
命令：use test;
在这里插入图片描述

10、创建表。
命令：CREATE TABLE IF NOT EXISTS `EMPLOYEE` ( `ID` bigint, `NAME` string, CONSTRAINT `SYS_PK_BUCKETING_COLS` PRIMARY KEY (`ID`) DISABLE ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' LOCATION '/installTest/hive';
注：外部表创建成功。
在这里插入图片描述

11、做一次查询。
命令：select * from EMPLOYEE;注：内部表和外部表在其他操作上是一致的。
在这里插入图片描述

HiveQL查询

12、在app-12上退出命令行环境。
命令：quit;
在这里插入图片描述

13、进入tmp目录下。
命令：cd /tmp/
在这里插入图片描述

14、将hive文件删除重新创建存放临时数据。
命令：rm -rf hive/、mkdir hive
在这里插入图片描述

15、进入Spark-stack/Hive/目录下。
命令：cd Spark-stack/Hive/
在这里插入图片描述

16、将HiveQL目录下的文件拷贝到/tmp/hive/目录下。
命令：cp -rf HiveQL/* /tmp/hive/
在这里插入图片描述

17、进入/tmp/hive/目录下。
命令：cd /tmp/hive/
在这里插入图片描述

18、查看employee.sql脚本
命令：vi employee.sql注：这是创建外部表的脚本。
在这里插入图片描述

19、加载脚本。
命令：hive -f /tmp/hive/employee.sql
在这里插入图片描述

20、切换到命令行环境。
命令：hive --service cli
在这里插入图片描述

21、进入test。
命令：use test;
在这里插入图片描述

22、设置MapReduce的Map memory和reduce memory为2G。
命令：set mapreduce.map.memory.mb=2048;、set mapreduce.reduce.memory.mb=2048;
在这里插入图片描述

23、查询。
命令：select count(*) from employee;注：时间是4.38秒。
在这里插入图片描述

24、查询现在的执行引擎。
命令：set hive.execution.engine;
在这里插入图片描述

25、将执行引擎改为mr。
命令：set hive.execution.engine=mr;
在这里插入图片描述

26、再一次查询。
命令：select count(*) from employee;注：时间是10.55秒。
在这里插入图片描述

详细学习内容可观看Spark快速大数据处理扫一扫~~~或者引擎搜索Spark余海峰
在这里插入图片描述

weixin_45810046

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
余老师带你学习大数据-Spark快速大数据处理第五章第四节HiveQL数据定义

HiveQL数据定义1、在app-12上，以hadoop用户登录。命令：su – hadoop2、启动hive。命令：hive --service cli3、查看databases。命令：show databases;手动创建databases4、创建test。命令：CREATE DATABASE IF NOT EXISTS test;5、查看是否创建成功。...
复制链接

扫一扫