c t c you should know

这篇博客深入浅出地介绍了CTC(Connectionist Temporal Classification)的原理,重点解析了B变换在CTC中的作用。通过一个简单的字符识别例子展示了如何计算CTC损失,并对比了GreedySearch和BeamSearch两种解码策略的差异。 BeamSearch在考虑多个输出序列对应一个真实输出的情况下,能更好地平衡概率和多样性。
摘要由CSDN通过智能技术生成

C T C 原理

在这里插入图片描述

C T C 中最重要的B变换:
参考:https://zhuanlan.zhihu.com/p/43534801
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

看了那么多的原理,觉得简单易懂的就这个:
LOSS:
在这里插入图片描述
如上图,对于最简单的时序为2的(t0t1)的字符识别,可能的字符为“a”,“b”和“-”,颜色越深代表概率越高。
对于真实字符为空即“”的概率为0.60.6=0.36
而真实字符为“a”的概率不只是”aa” 即0.4
0.4 , 实时上,“aa”, “a-“和“-a”都是代表“a”,所以,“a”的概率为:
0.40.4 + 0.4 * 0.6 + 0.60.4 = 0.16+0.24+0.24 = 0.64
所以“a”的概率比空“”的概率高!通过对概率的计算,就可以对之前的神经网络进行方向传播更新。

放几个让你们不懂的公式,哈哈。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

解码Greedy Search:
最后,ctc的解码也是根据概率获得最高的那条路径:计算概率最大的一条输出序列(假设时间步独立,那么直接在每个时间步取概率最大的字符输出即可),但是这样没有考虑多个输出序列对应一个真实输出这件事,举个例子,[s,s,-]和[s,s,s]的概率比[s,t,a]低,但是它们的概率之和会高于[s,t,a]。
在这里插入图片描述

解码Beam Search:
第二种方法是Beam Search。假设指定B=3,预测过程如下图所示(图源见参考资料[2])。在第一个时间步选取概率最大的三个字符,然后在第二个时间步也选取概率最大的三个字符,两两组合(概率相乘)可以组合成9个序列,这些序列在B转换之后会得到一些相同输出,把具有相同输出的序列进行合并,比如有3个序列都可以转换成a,把它们合并(概率加在一起),计算出概率最大的三个序列,然后继续和下一个时间步的字符进行同样的合并。
在这里插入图片描述
有一点需要注意的是合并相同字符时,比如我们看上图T=3的时候,第一个前缀序列a,在跟相同字符a合并的时候,除了产生a之外,还会产生一个aa的有效输出。这是因为这个前缀序列a在T=2的时候曾经是把空白符合并掉了,实际上这个前缀序列a后面是跟着一个空白符的,所以它在跟相同字符a合并的时候中间是有一个隐藏的空白符,合并之后得到的应该是两个a。
因此在合并相同字符时,如果要合并成aa,需要统计在这之前以空白符结尾的那些序列的概率,如果要合并成a,计算的是不以空白符结尾的那些序列的概率。出于这个事实,我们需要跟踪前两处输出,以便于后续的合并计算,见下图所示(图源见参考资料[2])。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值