DTW(Dynamic Time Warping)算法

最新推荐文章于 2024-01-21 16:01:09 发布

xmdxcsj

最新推荐文章于 2024-01-21 16:01:09 发布

阅读量4.9k

点赞数

分类专栏：语音识别文章标签：算法

本文链接：https://blog.csdn.net/xmdxcsj/article/details/70300146

版权

语音识别专栏收录该内容

10 篇文章 8 订阅

订阅专栏

变量定义

1.warping function
$F = c (1), c (2) . . . c (k) . . . c (K)$
其中 $c (k) = (i (k), j (k))$
表示两个语音特征序列A和B之间的映射关系。
2.time-normalized distance
$D(A,B)=Min_F[\frac{\sum_{k=1}^K d(c(k))\cdot w(k)}{\sum_{k=1}^K w(k)}]$
其中 $\sum w(k)$ 用来归一化不同路径的K大小不一致的问题， $d ()$ 表示两个特征向量之间的距离。

warping function的限制条件

这里写图片描述
1.单调性
$i(k-1)\le i(k)\ and\ j(k-1) \le j(k)$
2.连续性
$\le 1 \ and\ j(k)-j(k-1)\le 1$
由以上两个条件限制了只能向三个方向移动，向上/向右/向右上，而且每次只能移动一步
3.边界条件
$j(1)=1\ and\ i(K)=I,j(K)=J$
4.窗口限制
$|i(k)-j(k)|\le r$
加窗为了将对齐路径限制在对角线附近。
5.斜率限制
$P = n / m$
避免在横轴i方向或纵轴j方向走的太偏,当在一个方向走了m步以后，需要在对角线方向走n步。

权重系数w

有两种典型的计算方式
1.对称形式
$w (k) = (i (k) - i (k - 1)) + (j (k) - j (k - 1))$
$N=\sum_{k=1}^K w(k)=I+J$
2.非对称形式
$w (k) = (i (k) - i (k - 1))$
$N=\sum_{k=1}^K w(k)=I$
在j方向也一样。
对称形式的效果更好。

DP求解

假设使用对称形式的权重系数，不使用斜率限制

初始条件
$g (1, 1) = 2 d (1, 1)$
DP
$g(i,j)=min[g(i,j-1)+d(i,j)，\ g(i-1,j-1)+2d(i,j)，\ g(i-1,j)+d(i,j)]$
其中窗口限制条件 $j-r\le i\le j+r$
距离
$D(A,B)=\frac{1}{I+J}g(I,J)$

算法流程图如下：
这里写图片描述

Reference

Dynamic Programming Algorithm Optimization for Spoken Word Recognition

后面的技术分享转移到微信公众号上面更新了，【欢迎扫码关注交流】

在这里插入图片描述

xmdxcsj

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
DTW(Dynamic Time Warping)算法

变量定义1.warping function F=c(1),c(2)...c(k)...c(K)F=c(1),c(2)...c(k)...c(K) 其中c(k)=(i(k),j(k))c(k)=(i(k),j(k)) 表示两个语音特征序列A和B之间的映射关系。 2.time-normalized distance D(A,B)=MinF[∑Kk=1d(c(k))⋅w(k)∑Kk=1w(k)
复制链接

扫一扫