hive初体验

最新推荐文章于 2024-06-28 09:57:52 发布

zsq12138

最新推荐文章于 2024-06-28 09:57:52 发布

阅读量437

点赞数

分类专栏： hive 文章标签： hive入门

本文链接：https://blog.csdn.net/zsq12138/article/details/78005762

版权

2 篇文章 0 订阅

订阅专栏

这里写图片描述

基于Hadoop的一个数据仓库工具，构建于hadoop的hdfs和mapred之上，用于管理和查询结构化/非结构化数据的数据仓库。可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

Hive将HQL语句转译成M/R Job，然后按照MR的计算框架在Hadoop执行，也可以把HQL中的表、字段转换为HDFS中的文件(夹)以及文件中的列。这套映射工具称之为metastore

 Hive的表其实就是HDFS的目录，按表名把文件夹分开。如果是分区表，则分区值是子文件夹，可以直接在M/R Job里使用这些数据。

Hvie降低了数据人员使用MR的门槛，使得分布式计算通过类SQL的操作即可实现，对大数据应用发展起到了很多的推动作用。
Hive本质

特点

这里写图片描述

共同点

区别

完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划（plan）的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行

Hive的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成。（一些特殊查询不转换成MR程序，而是直接从HDFS中读取数据，例如包含 * 的查询，select * from table不会生成 MapRedcue任务，Fetch Task）

这里写图片描述

查看hive版本：
mysql> select * from VERSION;

查看有哪些表：
mysql> select * from TBLS \G;

查看表对应的hdfs目录的metedata：
mysql> select * from SDS \G;

查看某个表的partitions：
mysql> select * from PARTITIONS where TBL_ID=1 \G;

查看某个表的列：
mysql> select * from COLUMNS_V2;

查看某个表的partition：
mysql> select * from PARTITION_KEYS;

这里写图片描述

	外部表	内部表
建表语句	CREATE EXTERNAL TABLE `city_ex`( `province_code`int, `province_name` string,`city_code`int,`city_name` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ LINES TERMINATED B’\n’LOCATION ‘/user/hdfs/tq/city’;	CREATE TABLE `city_ex`( `province_code` int, `province_name` string, `city_code` int, `city_name` string)ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,’ LINES TERMINATED BY ‘\n’LOCATION ‘/user/hdfs/tq/city’;
查看建表语句	LOCATION’hdfs://nns/user/hdfs/tq/city’	LOCATION’hdfs://nns/user/hive/warehouse/tq.db/city’
删除后	drop table city_ex;文件还在	drop table city;文件也删除