一、需求
公司中出现一个需求,在大量的流量图中,希望给流量图分析归类,总结流量图的一些特点。流量图的横坐标是时间,基本单位是分钟,纵坐标就是流量,是每分钟获取一次流量,进而形成流量图。
二、解决思路
进过几天的思考和查阅资料,有了基本的解决思路。给流量图做分析归类,粗略一点说就是自己做各种形状的标尺图然后与现有的流量图进行一一比对,这种类型的归为一类,另一种类型的归为一类。思路如下:
- 为了实现更加的泛型化,对拿到的流量图第一步进行的操作就是使流量图更加平滑,去除掉一些特定点,将图像模糊化,也就是滤波降噪处理,有高斯滤波、中值滤波等滤波降噪处理方法。
- 然后就是对流量图做标准化的处理,即将数据按照比例缩放,使之落入一个小的特定区间,去除数据单位的限制,将其转化为无量纲的纯数值,便于不同单位或者量级的指标能够进行比较和加权。有离差标准化方法(将数据映射到[0,1]的区间内)、z-score标准化方法等处理方法。
- 这样我们就可以开始将标尺图与流量图进行比对了,当然标尺图是自己定义的。比对的方法就是计算皮尔森相关系数,计算标尺图和流量图两条曲线的相关性,强相关性下就可以将此流量图归于该标尺图的类型中。
三、注意事项
在对流量图进行处理时只是对纵坐标进行了标准化处理,因此横坐标还是之前的数据单位,所以对数据流量图与标尺进行比对的时候应当移动标尺,因为整个流量图一定是复杂的,只是可能某一部分是符合某一个标尺模板,所以可以将分析比对函数写成窗口函数,移动比对。