第08章_MySQL聚合函数

假装不痛

已于 2023-02-20 12:19:31 修改

阅读量379

点赞数

分类专栏： mysql 文章标签： sql mysql 数据库

于 2023-02-20 11:28:29 首次发布

本文链接：https://blog.csdn.net/weixin_46655235/article/details/129120956

版权

mysql 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

第08章_聚合函数

讲师：尚硅谷-宋红康（江湖人称：康师傅）

官网：http://www.atguigu.com

我们上一章讲到了 SQL 单行函数。实际上 SQL 函数还有一类，叫做聚合（或聚集、分组）函数，它是对一组数据进行汇总的函数，输入的是一组数据的集合，输出的是单个值。

1. 聚合函数介绍

什么是聚合函数

聚合函数作用于一组数据，并对一组数据返回一个值。

聚合函数类型
- AVG()
- SUM()
- MAX()
- MIN()
- COUNT()
聚合函数语法

聚合函数不能嵌套调用。比如不能出现类似“AVG(SUM(字段名称))”形式的调用。

1.1 AVG和SUM函数

可以对数值型数据使用AVG 和 SUM 函数。

SELECT AVG(salary), SUM(salary)
FROM employees;

#如下操作没有意义
SELECT AVG(last_name), SUM(last_name), AVG(hire_date), SUM(hire_date)
FROM employees;

1.2 MIN和MAX函数

可以对任意数据类型的数据使用 MIN 和 MAX 函数。

SELECT MIN(salary), MAX(salary), MIN(last_name), MAX(last_name), MIN(hire_date), MAX(hire_date) 
FROM employees;

1.3 COUNT函数

count(expr)：返回expr在查询结构中出现的个数（不包含NULL值），expr可以是任意数据类型

SELECT COUNT(salary), COUNT(last_name), COUNT(hire_date), COUNT(commission_pct), COUNT(1), COUNT(*)
FROM employees;

SUM函数也是不计算NULL值的，AVG=SUM/COUNT

SELECT AVG(salary), SUM(salary)/COUNT(salary), AVG(commission_pct), SUM(commission_pct)/COUNT(commission_pct), SUM(commission_pct)/COUNT(*)
FROM employees;

#查询公司中平均奖金率
SELECT SUM(commission_pct)/COUNT(*), AVG(IFNULL(commission_pct,0))
FROM employees;

问题1：如何计算表中有多少条记录？
- count(*)：count(*)是 SQL92 定义的标准统计行数的语法，跟数据库无关，
- count(1)
- count(字段) : 不一定对！
问题2：count(1)，用count(*)，count(字段)哪个效率高?
- 如果使用的是MyISAM 存储引擎，则三者效率相同，都是O(1)
- 如果使用的是InnoDB 存储引擎，则三者效率：COUNT(*) = COUNT(1) > COUNT(字段)

2. GROUP BY

可以使用GROUP BY子句将表中的数据分成若干组，格式：

SELECT column, group_function(column)
FROM table
[WHERE condition]
[GROUP BY group_by_expression]
[ORDER BY column];

2.1 基本使用

SELECT department_id, AVG(salary)
FROM employees
GROUP BY department_id
ORDER BY AVG(salary);

2.2 使用多个列分组

SELECT中出现的非聚合函数的字段必须声明在GROUP BY 中；

反之，GROUP BY中声明的字段可以不出现在SELECT中

SELECT department_id, job_id, AVG(salary)
FROM employees
GROUP BY department_id, job_id
ORDER BY AVG(salary);

2.3 GROUP BY中使用WITH ROLLUP

使用WITH ROLLUP关键字之后，在所有查询出的分组记录之后增加一条记录，该记录计算未分组前的所有记录的整体平均值

SELECT department_id, AVG(salary)
FROM employees
GROUP BY department_id WITH ROLLUP
ORDER BY AVG(salary);

3. HAVING

3.1 基本使用

过滤分组：HAVING子句的使用前提

行已经被分组，HAVING必须与GROUP BY配合使用
过滤条件中使用了聚合函数，此时必须用HAVING而不能用WHERE，否则，报错

满足HAVING 子句中条件的分组将被显示

SELECT department_id, MAX(salary)
FROM employees
GROUP BY department_id
HAVING MAX(salary)>10000;

3.2 WHERE和HAVING的对比

区别1：

WHERE 可以直接使用表中的字段作为筛选条件，但不能使用聚合函数作为筛选条件；

HAVING 必须要与 GROUP BY 配合使用，可以把使用表中的字段和聚合函数作为筛选条件。

这是因为，在查询语法结构中，WHERE 在 GROUP BY 之前，所以无法使用聚合函数对分组结果进行筛选。HAVING 在 GROUP BY 之后，可以使用聚合函数对分组结果进行筛选。

区别2：WHERE 是先筛选后分组，而 HAVING 是先分组后筛选。

这一点，就决定了WHERE 比 HAVING 更高效

开发中的选择：不包含聚合函数的过滤条件用 WHERE，包含聚合函数的过滤条件用 HAVING

#查询部门id为10,20,30,40的4个部门中最高工资比10000高的部门信息
#方式1：推荐，执行效率高于方式2.
SELECT department_id, MAX(salary)
FROM employees
WHERE department_id IN (10,20,30,40)
GROUP BY department_id
HAVING MAX(salary)>10000;
#方式2：
SELECT department_id, MAX(salary)
FROM employees
GROUP BY department_id
HAVING MAX(salary)>10000 AND department_id IN (10,20,30,40);

4. SELECT的执行过程

4.1 查询的结构

#方式1：
SELECT ...,....,...
FROM ...,...,....
WHERE 多表的连接条件 AND 不包含聚合函数的过滤条件
GROUP BY ...,...
HAVING 包含聚合函数的过滤条件
ORDER BY ... 
LIMIT ...,...

#方式2：
SELECT ...,....,...
FROM ... JOIN ... 
ON 多表的连接条件
JOIN ...
ON 多表的连接条件
WHERE 不包含聚合函数的过滤条件 
GROUP BY ...,...
HAVING 包含聚合函数的过滤条件
ORDER BY ... 
LIMIT ...,...

#其中：
#（1）from：从哪些表中筛选
#（2）on：关联多表查询时，去除笛卡尔积
#（3）where：从表中筛选的条件
#（4）group by：分组依据
#（5）having：在统计结果中再次筛选
#（6）select：查询
#（7）order by：排序
#（8）limit：分页

4.2 SELECT语句的执行顺序

你需要记住 SELECT 查询时的两个顺序：

1. 关键字的顺序是不能颠倒的：

SELECT ... FROM ... ON ... WHERE ... GROUP BY ... HAVING ... ORDER BY ... LIMIT...

2.SELECT 语句的执行顺序（在 MySQL 和 Oracle 中，SELECT 执行顺序基本相同）：

FROM -> ON -> WHERE -> GROUP BY -> HAVING -> SELECT -> DISTINCT -> ORDER BY -> LIMIT

比如你写了一个 SQL 语句，那么它的关键字顺序和执行顺序是下面这样的：

SELECT DISTINCT player_id, player_name, count(*) as num # 顺序 5
FROM player JOIN team ON player.team_id = team.team_id # 顺序 1
WHERE height > 1.80 # 顺序 2
GROUP BY player.team_id # 顺序 3
HAVING num > 2 # 顺序 4
ORDER BY num DESC # 顺序 6
LIMIT 2 # 顺序 7

在 SELECT 语句执行这些步骤的时候，每个步骤都会产生一个虚拟表，然后将这个虚拟表传入下一个步骤中作为输入。需要注意的是，这些步骤隐含在 SQL 的执行过程中，对于我们来说是不可见的。