时间序列匹配之dtw的python实现(一)

简介

Dynamic Time Warping(动态时间序列扭曲匹配,简称DTW)是时间序列分析的经典算法,用来比较两条时间序列之间的距离,发现最短路径。笔者在github上搜索dtw时发现了两个比较经典的库:dtw和dtw-python。dtw库的功能少但简单容易理解,dtw-python的功能齐全并提供了清晰的作图。在这里我们先介绍dtw库,dtw-python库留到下一篇文章介绍。

示例

对dtw算法的基本原理还不是很理解的可以点击这里,里面介绍的相当清楚了,接下来我们进入正题。

import numpy as np
#来自官方库的示例,代码未动,但注解原创。
#y是x的子序列,从x的第三个数字开始一一匹配
x = np.array([2, 0, 1, 1, 2, 4, 2, 1, 2, 0]).reshape(-1, 1)
y = np.array([1, 1, 2, 4, 2, 1, 2, 0]).reshape(-1, 1)

from dtw import dtw
#曼哈顿距离定义,各点相减的绝对值
manhattan_distance = lambda x, y: np.abs(x - y)
#计算出总距离,耗费矩阵,累计耗费矩阵,在矩阵上的路径
d, cost_matrix, acc_cost_matrix, path = dtw(x, y, dist=manhattan_distance)

print(d)
#计算得出2.0

import matplotlib.pyplot as plt

plt.imshow(acc_cost_matrix.T, origin='lower', cmap='gray', interpolation='nearest')
#lower参数表示上下颠倒,注意这里矩阵行列转置
plt.plot(path[0], path[1], 'w')
#path包含两个array
plt.show()

在这里插入图片描述
看不懂?没关系,接下来进行具体剖析:
在这里插入图片描述
前面也说过了,y是x的子集,图中橙色的线条表示的是y,蓝色的线条代表的是x,从我们的肉眼角度来说,只要把y平移过去就可以了,但对于计算机而言,需要计算各点的距离矩阵,我们把cost_matrix打印出来:
在这里插入图片描述
看不清的话建议放大,上面是x,左边是y,排列好之后,两两相减取绝对值,就可以得到我们的曼哈顿距离矩阵,可以看到图中的最短距离,是1+1+0+0+0+0+0+0+0+0 = 2,也就是d。实际上我们的优化目标就是使当前距离+右上或右下或右前的格子里的值最小。
这就是cost_matrix和d的计算,而acc_cost_matrix就是把它累加起来,像下面这样:
在这里插入图片描述
可以看到斜线上面的累加距离始终为2。
那path里面存的是什么值呢?为什么上面的线和我作图出来的线是反的呢?我们把path打印出来。
在这里插入图片描述
第一个数组存的是横坐标,第二个数组存的是纵坐标,也就是路径为:(0,0)–>(1,0)–>(2,0)–>(3,1)–>(4,2)–>(5,3)–>(6,4)–>(7,5)–>(8,6)–>(9,7)。实际上这里的纵轴是反的,所以我们要在plot函数中传入origin='lower’参数使它上下颠倒形成前面的图,至于不上下颠倒的正确图形是以下这样的(注意纵轴和前面的是反过来的)。
在这里插入图片描述
当然,这样的图还是不够直观,不能直接显示出原序列的变换,所以在下篇文章里笔者将介绍dtw-python包。

1.https://github.com/pierre-rouanet/dtw
2.https://zhuanlan.zhihu.com/p/43247215

  • 11
    点赞
  • 68
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
在日常的生活中我们最经常使用的距离毫无疑问应该是欧式距离,但是对于一些特殊情况,欧氏距离存在着其很明显的缺陷,比如说时间序列,举个比较简单的例子,序列A:1,1,1,10,2,3,序列B:1,1,1,2,10,3,如果用欧氏距离,也就是distance[i][j]=(b[j]-a[i])*(b[j]-a[i])来计算的话,总的距离和应该是128,应该说这个距离是非常大的,而实际上这个序列的图像是十分相似的,这种情况下就有人开始考虑寻找新的时间序列距离的计算方法,然后提出了DTW算法,这种方法在语音识别,机器学习方便有着很重要的作用。 这个算法是基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,简单来说,就是通过构建一个邻接矩阵,寻找最短路径和。 还以上面的2个序列作为例子,A中的10和B中的2对应以及A中的2和B中的10对应的时候,distance[3]以及distance[4]肯定是非常大的,这就直接导致了最后距离和的膨胀,这种时候,我们需要来调整下时间序列,如果我们让A中的10和B中的10 对应 ,A中的1和B中的2对应,那么最后的距离和就将大大缩短,这种方式可以看做是一种时间扭曲,看到这里的时候,我相信应该会有人提出来,为什么不能使用A中的2与B中的2对应的问题,那样的话距离和肯定是0了啊,距离应该是最小的吧,但这种情况是不允许的,因为A中的10是发生在2的前面,而B中的2则发生在10的前面,如果对应方式交叉的话会导致时间上的混乱,不符合因果关系。 接下来,以output[6][6](所有的记录下标从1开始,开始的时候全部置0)记录A,B之间的DTW距离,简单的介绍一下具体的算法,这个算法其实就是一个简单的DP,状态转移公式是output[i] [j]=Min(Min(output[i-1][j],output[i][j-1]),output[i-1][j-1])+distance[i] [j];最后得到的output[5][5]就是我们所需要的DTW距离.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值