1 简介
拐点检测(Knee point detection),指的是在具有上升或下降趋势的曲线中,在某一点之后整体趋势明显发生变化,这样的点就称为拐点(如图1所示,在蓝色标记出的点之后曲线陡然上升):
图1
本文就将针对Python中用于拐点检测的第三方包kneed进行介绍,并以新型冠状肺炎数据为例,找出各指标数学意义上的拐点。
2 基于kneed的拐点检测
2.1 kneed基础
许多算法都需要利用肘部法则来确定某些关键参数,如K-means中聚类个数k、DBSCAN中的搜索半径eps等。
在面对需要确定所谓肘部,即拐点时,人为通过观察来确定位置的方式不严谨,需要一套有数学原理支撑的检测方法。
Jeannie Albrecht等人在Finding a “Kneedle” in a Haystack: Detecting Knee Points in System Behavior(你可以在文章开头的Github仓库中找到)中从曲率的思想出发,针对离散型数据,结合离线、在线的不同应用场景以及Angle-based、Menger Curvature、EWMA等算法,提出了一套拐点检测方法。
kneed就是对这篇论文所提出算法的实现。
使用pip install kneed完成安装之后,下面我们来了解其主要用法:
2.1.1 KneeLocator
KneeLocator是kneed中用于检测拐点的模块,其主要参数如下:
x:待检测数据对应的横轴数据序列,如时间点、日期等y:待检测数据序列,在x条件下对应的值,如x为星期一,对应的y为降水量S:float型,默认为1,敏感度参数,越小对应拐点被检测出得越快curve:str型,指明曲线之上区域是凸集还是凹集,concave代表凹,convex代表凸direction:str型,指明曲线初始趋势是增还是减,increasing表示增,decreasing表示减online:bool型,用于设置在线/离线识别模式,True表示在线,False表示离线;在线模式下会沿着x轴从右向左识别出每一个局部拐点,并在其中选择最优的拐点;离线模式下会返回从右向左检测到的第一个局部拐点
KneeLocator在传入参数实例化完成计算后,可返回的我们主要关注的属性如下:
knee及elbow:返回检测到的最优拐点对应的x
knee_y及elbow_y:返回检测到的最优拐点对应的y
all_elbows及all_knees:返回检测到的所有局部拐点对应的x
all_elbows_y及all_knees_y:返回检测到的所有局部拐点对应的y
curve与direction参数非常重要,用它们组合出想要识别出的拐点模式。
以余弦函数为例,在oonline设置为True时,分别在curve='concave'+direction='increasing'、curve='concave'+direction='decreasing'、curve='convex'+direction='increasing'和curve='convex'+direction='decreasing'参数组合下对同一段余弦曲线进行拐点计算:
import matplotlib.pyplot as plt from matplotlib import style import numpy as np from kneed import KneeLocator style.use('seaborn-whitegrid') x = np.arange(1, 3, 0.01)*np.pi y = np.cos(x) # 计算各种参数组合下的拐点 kneedle_cov_inc = KneeLocator(x, y, curve='convex', direction='increasing', online=True) kneedle_cov_dec = KneeLocator(x, y, curve='convex', direction='decreasing', online=True) kneedle_con_inc = KneeLocator(x, y, curve='concave', direction='increasing', online=True) kneedle_con_dec = KneeLocator(x, y, curve='concave', direction='decreasing', online=True) fig, axe = plt.subplots(2, 2, figsize=[12, 12]) axe[0, 0].plot(x, y, 'k--') axe[0, 0].annotate(s='Knee Point', xy=(kneedle_cov_inc.knee+0.2, kneedle_cov_inc.knee_y), fontsize=10) axe[0, 0].scatter(x=kneedle_cov_inc.knee, y=kneedle_cov_inc.knee_y, c='b', s=