目标
将本地表导入hive中,并完成一系列的查询
我这里一共有四个表,分别是 movies ratings tags links,分别如下
一、在HDFS中创建文件夹
二、将本地的四张表上传到新建文件夹中,并检验是否成功导入
三、在hive中创表,并将数据导入
1.查有哪些数据库,接着创建新的数据库,并使用相应数据库
2.创表并导入数据
(1.1)创建第一个表 movie表
(1.2)将HDFS中movie文件的数据导入 movie表中,并查看前10条数据检验结果
(1.3)查询出movie表中有多少条数据 用count计数
(2.1)创建第二个表 ratings表,同时将HDFS中ratings文件的数据导入 ratings表中
(2.2)查看前10条数据检验结果
(3.1)创建第三个表 tags表,同时将HDFS中tags文件的数据导入 tags表中,并查看前10条数据检验结果
(4.1)创建第四个表 links表,同时将HDFS中tags文件的数据导入 links表中,并查看前10条数据检验结果
零散知识点补充(趁老师讲的时候拍的)![在这里插入图片描述](https://img-blog.csdnimg.cn/0475af6c61a442bdbfc82743c37725ac.png)
![在这里插入图片描述](https://img-blog.csdnimg.cn/b79874f5856e48bea69029fa2026fd2b.png)
## 用substring截取movie表中title列的年份![在这里插入图片描述](https://img-blog.csdnimg.cn/dfefaba3778e430ba44932aa757795f1.png)
将截取出来的年份数据加上原先的数据一起装入一个新表中(最后一列为年份数据)
补充:
去表头也就是去掉第一行的信息的命令:
alter table movies_chenli set tblproperties(‘skip.header.line.count’=‘1’);
(记于大数据第一堂实践课)