本文介绍什么是SQL的聚集函数以及如何利用它们汇总表的数据。
聚集函数
我们经常需要汇总数据而不用把它们实际检索出来,为此MySQL提供了专门的函数。使用这些函数, MySQL查询可用于检索数据,以便分析和报表生成。这种类型的检索例子有以下几种。
- 确定表中行数(或者满足某个条件或包含某个特定值的行数)。
- -获得表中行组的和。
- 找出表列(或所有行或某些特定的行)的最大值、最小值和平均值。
上述例子都需要对表中数据(而不是实际数据本身)汇总。因此,返回实际表数据是对时间和处理资源的一种浪费(更不用说带宽了)。重复一遍,实际想要的是汇总信息。
为方便这种类型的检索, MySQL给出了5个聚集函数。
聚集函数( aggregate function) 运行在行组上,计算和返回单个值的函数。
AVG()函数
AVG()通过对表中行数计数并计算特定列值之和,求得该列的平均值。 AVG()可用来返回所有列的平均值,也可以用来返回特定列或行的平均值。
下面的例子使用AVG()返回products表中所有产品的平均价格:
select avg(prod_price) as avg_price from products;
此SELECT语句返回值avg_Price,它包含products表中所有产品的平均价格。avg_price是一个别名。
AVG()也可以用来确定特定列或行的平均值。 下面的例子返回特定供应商所提供产品的平均价格:
select avg(prod_price) as avg_price from products where vend_id =1003;
这条SELECT语句与前一条的不同之处在于它包含了WHERE子句。此WHERE子句仅过滤出vend_id为1003的产品,因此avg_price中返回的值只是该供应商的产品的平均值。
只用于单个列 AVG()只能用来确定特定数值列的平均值,而且列名必须作为函数参数给出。为了获得多个列的平均值,必须使用多个AVG()函数。
注意:NULL值 AVG()函数忽略列值为NULL的行。
COUNT()函数
COUNT()函数进行计数。 可利用COUNT()确定表中行的数目或符合特定条件的行的数目。COUNT()函数有两种使用方式。
- 使用COUNT(*)对表中行的数目进行计数, 不管表列中包含的是空值( NULL)还是非空值。
- 使用COUNT(column)对特定列中具有值的行进行计数,忽略NULL值。
下面的例子返回customers表中客户的总数:
select count(*) as num_cust from customers;
在此例子中,利用COUNT(*)对所有行计数,不管行中各列有什么值。计数值在num_cust中返回。
下面的例子只对具有电子邮件地址的客户计数:
select count(cust_email) as num_cust from customers;
NULL值 如果指定列名,则指定列的值为空的行被COUNT()函数忽略,但如果COUNT()函数中用的是星号( *),则不忽略。
MAX()函数
MAX()返回指定列中的最大值。 MAX()要求指定列名,如下所示:
select max(prod_price) as max_price from products;
这里, MAX()返回products表中最贵的物品的价格。
对非数值数据使用MAX() 虽然MAX()一般用来找出最大的数值或日期值,但MySQL允许将它用来返回任意列中的最大值,包括返回文本列中的最大值。在用于文本数据时,如果数据按相应的列排序,则MAX()返回最后一行。
注意:MAX()函数忽略列值为NULL的行。
MIN()函数
MIN()的功能正好与MAX()功能相反,它返回指定列的最小值。与MAX()一样, MIN()要求指定列名,如下所示:
select min(prod_price) as max_price from products;
其中MIN()返回products表中最便宜物品的价格。
对非数值数据使用MIN() MIN()函数与MAX()函数类似,MySQL允许将它用来返回任意列中的最小值,包括返回文本列中的最小值。在用于文本数据时,如果数据按相应的列排序,则MIN()返回最前面的行。
SUM()函数
SUM()用来返回指定列值的和(总计)。
下面举一个例子, orderitems表包含订单中实际的物品,每个物品有相应的数量( quantity) 。可如下检索所订购物品的总数(所有quantity值之和):
select sum(quantity) from orderitems where order_num =20005;
函数SUM(quantity)返回订单中所有物品数量之和, WHERE子句保证只统计某个物品订单中的物品。
SUM()也可以用来合计计算值。在下面的例子中,合计每项物品的item_price*quantity,得出总的订单金额:
select sum(quantity * item_price) as total_price
from orderitems where order_num =20005;
函数SUM(item_price*quantity)返回订单中所有物品价钱之和, WHERE子句同样保证只统计某个物品订单中的物品。
在多个列上进行计算 如本例所示,利用标准的算术操作符,所有聚集函数都可用来执行多个列上的计算。
SUM()函数忽略列值为NULL的行。
聚集不同值
- 对所有的行执行计算,指定ALL参数或不给参数(因为ALL是默认行为);
- 只包含不同的值,指定DISTINCT参数。
ALL为默认 ALL参数不需要指定,因为它是默认行为。如果不指定DISTINCT,则假定为ALL。
下面的例子使用AVG()函数返回特定供应商提供的产品的平均价格。它与上面的SELECT语句相同,但使用了DISTINCT参数,因此平均值只考虑各个不同的价格:
select avg(distinct prod_price) as acg_pice
from products where vend_id = 1003;
可以看到,在使用了DISTINCT后,此例子中的avg_price比较高,因为有多个物品具有相同的较低价格。排除它们提升了平均价格。
注意: 如果指定列名,则DISTINCT只能用于COUNT()。DISTINCT不能用于COUNT(*),因此不允许使用COUNT( DISTINCT),否则会产生错误。类似地, DISTINCT必须使用列名,不能用于计算或表达式。
组合聚集函数
目前为止的所有聚集函数例子都只涉及单个函数。但实际上SELECT语句可根据需要包含多个聚集函数。请看下面的例子:
select count(*) as num_items,
min(prod_price) as min_price ,
max(prod_price) as max_priice ,
avg(prod_price) as avg_price from products;
这里用单条SELECT语句执行了4个聚集计算,返回4个值(products表中物品的数目,产品价格的最高、最低以及平均值)。
取别名 在指定别名以包含某个聚集函数的结果时,不应该使用表中实际的列名。虽然这样做并非不合法,但使用唯一的名字会使你的SQL更易于理解和使用(以及将来容易排除故障)。