hive查询语法（select，表连接，排序）

最新推荐文章于 2024-05-09 00:30:00 发布

Bitmao888

最新推荐文章于 2024-05-09 00:30:00 发布

阅读量1.2k

点赞数

分类专栏：大数据文章标签： hive sql 数据库 java

本文链接：https://blog.csdn.net/weixin_45788152/article/details/105636630

版权

1 SELECT

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select
基本的Select操作

语法结构

SELECT [ALL | DISTINCT] select_expr, select_expr, ... 
FROM table_reference
[WHERE where_condition] 
[GROUP BY col_list [HAVING condition]] 
[CLUSTER BY col_list 
  | [DISTRIBUTE BY col_list] [SORT BY| ORDER BY col_list] 
] 
[LIMIT number]

注：
1、order by 会对输入做全局排序，因此只有一个reducer，会导致当输入规模较大时，需要较长的计算时间，慎用。
2、sort by不是全局排序，其在数据进入reducer前完成排序。因此，如果用sort by进行排序，并且设置mapred.reduce.tasks>1，则sort by只保证每个reducer的输出有序，不保证全局有序。
3、distribute by(字段)根据指定的字段将数据分到不同的reducer，且分发算法是hash散列。
4、Cluster by(字段) 除了具有Distribute by的功能外，还会对该字段进行排序。

因此，如果分桶和sort字段是同一个时，此时，cluster by = distribute by + sort by

分桶表的作用：最大的作用是用来提高join操作的效率；

全表查询

select * from score;

选择特定列查询

select s_id ,c_id from score;

列别名

1）重命名一个列。
2）便于计算。
3）紧跟列名，也可以在列名和别名之间加入关键字‘AS’

select s_id as myid ,c_id from score;

常用函数

1）求总行数（count）
select count(1) from score;
2）求分数的最大值（max）
select max(s_score) from score;
3）求分数的最小值（min）
select min(s_score) from score;
4）求分数的总和（sum）
select sum(s_score) from score;
5）求分数的平均值（avg）
select avg(s_score) from score;

LIMIT语句

典型的查询会返回多行数据。LIMIT子句用于限制返回的行数。

最低0.47元/天解锁文章

Bitmao888

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
hive查询语法（select，表连接，排序）

文章目录1 SELECT语法结构全表查询选择特定列查询列别名常用函数LIMIT语句WHERE语句比较运算符（BETWEEN/IN/ IS NULL）LIKE和RLIKE逻辑运算符（AND/OR/NOT）分组HAVING语句2 表连接内连接（INNER JOIN）左外连接（LEFT OUTER JOIN）右外连接（RIGHT OUTER JOIN）满外连接（FULL OUTER JOIN）多表连接3...
复制链接

扫一扫