需求题干:
表:Stadium
+---------------+--------- +
| Column Name | Type|
+--------------- +--------- +
| id | int |
| visit_date | date |
| people | int |
+---------------+--------- +
visit_date 是表的主键
每日人流量信息被记录在这三列信息中:序号 (id)、日期 (visit_date)、 人流量 (people)
每天只有一行记录,日期随着 id 的增加而增加
编写一个 SQL 查询以找出每行的人数大于或等于 100 且 id 连续的三行或更多行记录。
返回按 visit_date 升序排列的结果表。
查询结果格式如下所示。
Stadium table:
+------+------------+-----------+
| id | visit_date | people |
+------+------------+-----------+
| 1 | 2017-01-01 | 10 |
| 2 | 2017-01-02 | 109 |
| 3 | 2017-01-03 | 150 |
| 4 | 2017-01-04 | 99 |
| 5 | 2017-01-05 | 145 |
| 6 | 2017-01-06 | 1455 |
| 7 | 2017-01-07 | 199 |
| 8 | 2017-01-09 | 188 |
+------+------------+-----------+
Result table:
+------+------------+-----------+
| id | visit_date | people |
+------+------------+-----------+
| 5 | 2017-01-05 | 145 |
| 6 | 2017-01-06 | 1455 |
| 7 | 2017-01-07 | 199 |
| 8 | 2017-01-09 | 188 |
+------+------------+-----------+
id 为 5、6、7、8 的四行 id 连续,并且每行都有 >= 100 的人数记录。
请注意,即使第 7 行和第 8 行的 visit_date 不是连续的,输出也应当包含第 8 行,因为我们只需要考虑 id 连续的记录。
不输出 id 为 2 和 3 的行,因为至少需要三条 id 连续的记录。
实现原理:最少需要三条记录,其实就是id依次都是比前面的id大一 才可以并且满足人数大于100
最后并按着升序排序
则有三种可能 a b c a c b b c a
sql1:
SELECT DISTINCT
a.*
FROM
stadium a,
stadium b,
stadium c
WHERE
a.people >= 100
AND b.people >= 100
AND c.people >= 100
AND (
( a.id = b.id - 1 AND b.id = c.id - 1 )
OR ( a.id = b.id - 1 AND a.id = c.id + 1 )
OR ( a.id = b.id + 1 AND b.id = c.id + 1 )
)
ORDER BY
a.id
第二种思路 使用mysql高级函数--窗口函数
SELECT
id,
visit_date,
people
FROM
(
SELECT
*,
count(*) over ( PARTITION BY t_rank ) as t2_rank
FROM
( SELECT *, id - row_number() over ( ORDER BY id ) as t_rank
FROM stadium WHERE people > 99 ) t
) t2
WHERE
t2.t2_rank >2
partition by用来对表分组。在这个例子中,所以我们指定了按“t_rank ”分组(partition by t_rank)
窗口函数有以下功能:
1)同时具有分组和排序的功能
2)不减少原表的行数
3)语法如下:
<窗口函数> over (partition by <用于分组的列名>
order by <用于排序的列名>)
2.其他专业窗口函数
专用窗口函数rank, dense_rank, row_number有什么区别呢?
它们的区别我举个例子,你们一下就能看懂:
select *,
rank() over (order by 成绩 desc) as ranking,
dense_rank() over (order by 成绩 desc) as dese_rank,
row_number() over (order by 成绩 desc) as row_num
from 班级表
row_number() 它是将某字段按照顺序依次添加行号。
rank() 按照某字段的排序结果添加排名,但它是跳跃的、间断的排名,例如两个并列第一名后,下一个是第三名。
dense_rank() dense 英语中指“稠密的、密集的”。dense_rank()是的排序数字是连续的、不间断。当有相同的分数时,它们的排名结果是并列的,例如,1,2,2,3。
group by分组 改变组的行数了 partiition by 不会减少。。。这个就太好了。。。之前总是被group by分页减少了组内的行数,弄得很不爽,有了这个高级函数就可以再也不用为排行之类的需求苦恼了!!
找一个demo测试下
编写一个 SQL 查询,查找所有至少连续出现三次的数字。
返回的结果表中的数据可以按 任意顺序 排列。
查询结果格式如下面的例子所示:
Logs 表:
+----+-----+
| Id | Num |
+----+-----+
| 1 | 1 |
| 2 | 1 |
| 3 | 1 |
| 4 | 2 |
| 5 | 1 |
| 6 | 2 |
| 7 | 2 |
+----+-----+
Result 表:
+-----------------+
| ConsecutiveNums |
+-----------------+
| 1 |
+-----------------+
1 是唯一连续出现至少三次的数字。
SELECT
DISTINCT Num as ConsecutiveNums
FROM
(
SELECT
Id,Num,
count(*) over ( PARTITION BY t_rank ) as t2_rank
FROM
( SELECT *, Id-row_number() over ( PARTITION BY Num ) as t_rank
FROM `logs` ) t
) t2
WHERE
t2.t2_rank >2;
输出结果如下:
符合预期