Hive基础知识（十二）：Hive的基本查询

最新推荐文章于 2024-07-16 13:43:40 发布

依晴无旧

最新推荐文章于 2024-07-16 13:43:40 发布

阅读量988

点赞数 29

分类专栏： # Hive 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/zuodingquan666/article/details/135557467

版权

Hive 专栏收录该内容

23 篇文章 0 订阅

订阅专栏

1. 全表和特定列查询

0）数据准备

原始数据

dept:
10 ACCOUNTING 1700
20 RESEARCH 1800
30 SALES 1900
40 OPERATIONS 1700

emp：
7369 SMITH CLERK 7902 1980-12-17 800.00 20
7499 ALLEN SALESMAN 7698 1981-2-20 1600.00 300.00 30
7521 WARD SALESMAN 7698 1981-2-22 1250.00 500.00 30
7566 JONES MANAGER 7839 1981-4-2 2975.00  20
7654 MARTIN SALESMAN 7698 1981-9-28 1250.00 1400.00 30
7698 BLAKE MANAGER 7839 1981-5-1 2850.00 30
7782 CLARK MANAGER 7839 1981-6-9 2450.00 10
7788 SCOTT ANALYST 7566 1987-4-19 3000.00 20
7839 KING PRESIDENT 8888 1981-11-17 5000.00 10
7844 TURNER SALESMAN 7698 1981-9-8 1500.00 0.00 30
7876 ADAMS CLERK 7788 1987-5-23 1100.00 20
7900 JAMES CLERK 7698 1981-12-3 950.00 30
7902 FORD ANALYST 7566 1981-12-3 3000.00 20
7934 MILLER CLERK 7782 1982-1-23 1300.00 10

（1）创建部门表

create table if not exists dept(
deptno int,
dname string,
loc int
)
row format delimited fields terminated by '\t';

（2）创建员工表

create table if not exists emp(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int)
row format delimited fields terminated by '\t';

（3）导入数据

load data local inpath '/home/zzdq/dept.txt' into table dept;
load data local inpath '/home/zzdq/emp.txt' into table emp;

1）全表查询

hive (default)> select * from emp; 
hive (default)> select empno,ename,job,mgr,hiredate,sal,comm,deptno from  emp ;

2）选择特定列查询

hive (default)> select empno, ename from emp;

注意：

（1）SQL 语言大小写不敏感。

（2）SQL 可以写在一行或者多行

（3）关键字不能被缩写也不能分行

（4）各子句一般要分行写。

（5）使用缩进提高语句的可读性。

2. 列别名

1）重命名一个列

2）便于计算

3）紧跟列名，也可以在列名和别名之间加入关键字‘AS’

4）案例实操

查询名称和部门

hive (default)> select ename as name,deptno as dept from emp;

3. 算术运算符

案例实操：查询出所有员工的薪水后加1 显示。

hive (default)> select mgr+100 from emp;

4. 常用函数

1）求总行数（count），这个有MR生成

hive (default)> select count(*) cnt from emp;

2）求工资的最大值（max），这个有MR生成

hive (default)> select max(mgr) from emp;

3）求工资的最小值（min）这个有MR生成

hive (default)> select min(mgr) from emp;

4）求工资的总和（sum）这个有MR生成

hive (default)> select sum(mgr) from emp;

5）求工资的平均值（avg）这个有MR生成

hive (default)> select avg(mgr) avg_sql from emp;

5. Limit 语句

典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。

hive (default)> select * from emp limit 5;
hive (default)> select * from emp limit 2;

6. Where 语句

1）使用 WHERE 子句，将不满足条件的行过滤掉

2）WHERE 子句紧随 FROM 子句

3）案例实操

查询出薪水大于1000 的所有员工

hive (default)> select * from emp where sal >1000;

注意：where 子句中不能使用字段别名。

7. 比较运算符（Between/In/ Is Null）

1）下面表中描述了谓词操作符，这些操作符同样可以用于 JOIN…ON 和 HAVING 语句中。

操作符	支持的数据类型	描述
A=B	基本数据类型	如果A等于B则返回TRUE,反之返回FALSE
A<=>B	基本数据类型	如果A和B都为NULL，则返回TRUE，如果一边为NULL,返回False
A<>B, A!=B	基本数据类型	A或者B为NULL则返回NULL;如果A不等于B，则返回TRUE，反之返回FALSE
A<B	基本数据类型	A或者B为NULL，则返回NULL;如果A小于B，则返回TRUE，反之返回FALSE
A<=B	基本数据类型	A或者B为NULL,则返回NULL;如果A小于等于B,则返回TRUE，反之返回FALSE
A>B	基本数据类型	A或者B为NULL，则返回NULL;如果A大于B，则返回TRUE，反之返回FALSE
A>=B	基本数据类型	A或者B为NULL,则返回NULL;如果A大于等于B,则返回TRUE，反之返回FALSE
A [NOT] BETWEEN B AND C	基本数据类型	如果A，B或者C任一为NULL，则结果为NULL。如果A的值大于等于B而且小于或等于C,则结果为TRUE,反之为FALSE。如果使用NOT关键字则可达到相反的效果。
A IS NULL	所有数据类型	如果A等于NULL，则返回TRUE，反之返回FALSE
A IS NOT NULL	所有数据类型	如果A不等于NULL，则返回TRUE，反之返回FALSE
IN(数值1,数值2)	所有数据类型	使用IN运算显示列表中的值
A [NOT] LIKE B	string类型	B是一个SQL下的简单正则表达式，也叫通配符模式，如果A与其匹配的话，则返回TRUE;反之返回FALSE。 B的表达式说明如下: 'x%’表示A必须以字母'x’开头， ‘%x’表示A必须以字母’x'结尾，而‘%x%'表示A包含有字母’x’, 可以位于开头，结尾或者字符串中间。如果使用NOT关键字则可达到相反的效果。
A RLIKE B, A REGEXP B	string类型	B 是基于 java 的正则表达式，如果 A 与其匹配，则返回 TRUE；反之返回 FALSE。匹配使用的是 JDK 中的正则表达式接口实现的，因为正则也依据其中的规则。例如，正则表达式必须和整个字符串 A 相匹配，而不是只需与其字符串匹配。

2）案例实操

（1）查询出薪水等于5000 的所有员工

hive (default)> select * from emp where mgr = 7902;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7369  SMITH  CLERK 7902 1980-12-17 800.0 20.0  NULL
Time taken: 0.285 seconds, Fetched: 1 row(s)

（2）查询工资在500 到1000 的员工信息

hive (default)> select * from emp where mgr between 7500 and 7700;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7788  SCOTT  ANALYST 7566 1987-4-19 3000.0 20.0  NULL
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
7900  JAMES  CLERK 7698 1981-12-3 950.0 30.0  NULL
7902  FORD  ANALYST 7566 1981-12-3 3000.0 20.0  NULL
Time taken: 0.576 seconds, Fetched: 7 row(s)

（3）查询 comm 为空的所有员工信息

hive (default)> select * from emp where comm is null;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7839  KING  PRESIDENT  NULL 5000.00 10.0  NULL  NULL
Time taken: 0.229 seconds, Fetched: 1 row(s)

（4）查询工资是1500 或5000 的员工信息

hive (default)> select * from emp where sal in (1500,2600);
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.176 seconds, Fetched: 1 row(s)

8. Like 和 RLike

1）使用 LIKE 运算选择类似的值

2）选择条件可以包含字符或数字: %代表零个或多个字符(任意个字符)。 _ 代表一个字符。

3）RLIKE子句 RLIKE 子句是 Hive 中这个功能的一个扩展，其可以通过 Java 的正则表达式这个更强大的语言来指定匹配条件。

4）案例实操

（1）查找名字以 A 开头的员工信息 hive (default)> select * from emp where ename LIKE 'A%';

（2）查找名字中第二个字母为 A 的员工信息 hive (default)> select * from emp where ename LIKE '_A%';

（3）查找名字中带有 A 的员工信息 hive (default)> select * from emp where ename RLIKE '[A]';

9. 逻辑运算符（And/Or/Not）

1）案例实操

（1）查询薪水大于1000，部门是30

hive (default)> select * from emp where sal>1000 and deptno=30;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.696 seconds, Fetched: 4 row(s)

（2）查询薪水大于1000，或者部门是30

hive (default)> select * from emp where sal>1000 or deptno=30;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7566  JONES  MANAGER 7839 1981-4-2 2975.0 20.0  NULL
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7698  BLAKE  MANAGER 7839 1981-5-1 2850.0 30.0  NULL
7782  CLARK  MANAGER 7839 1981-6-9 2450.0 10.0  NULL
7788  SCOTT  ANALYST 7566 1987-4-19 3000.0 20.0  NULL
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
7876  ADAMS  CLERK 7788 1987-5-23 1100.0 20.0  NULL
7902  FORD  ANALYST 7566 1981-12-3 3000.0 20.0  NULL
7934  MILLER  CLERK 7782 1982-1-23 1300.0 10.0  NULL
Time taken: 0.22 seconds, Fetched: 11 row(s)

（3）查询除了20 部门和30 部门以外的员工信息

hive (default)> select * from emp where not deptno=20 or not deptno=30;
OK
emp.empno  emp.ename  emp.job emp.mgr emp.hiredate  emp.sal emp.comm  emp.deptno
7499  ALLEN  SALESMAN 7698 1981-2-20 1600.0 300.0 30
7521  WARD  SALESMAN 7698 1981-2-22 1250.0 500.0 30
7654  MARTIN  SALESMAN 7698 1981-9-28 1250.0 1400.0 30
7844  TURNER  SALESMAN 7698 1981-9-8 1500.0 0.0 30
Time taken: 0.193 seconds, Fetched: 4 row(s)

依晴无旧

关注

29
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
Hive基础知识（十二）：Hive的基本查询

0）数据准备原始数据（1）创建部门表（2）创建员工表（3）导入数据1）全表查询2）选择特定列查询注意：（1）SQL 语言大小写不敏感。（2）SQL 可以写在一行或者多行（3）关键字不能被缩写也不能分行（4）各子句一般要分行写。（5）使用缩进提高语句的可读性。
复制链接

扫一扫