CTC 论文阅读笔记


Sayre’s paradox

  • 读语音识别的论文Towards End-to-End Speech Recognition with Recurrent Neural Networks时,看到了这个名词。
  • Sayre’s paradox出现在1973年手写体识别的论文中:

A standard statement of the paradox is that a cursively written word cannot be recognized without being segmented and cannot be segmented without being recognized

指的是,手写单词如果不分成字母就无法识别,但是如果不识别的话就无法分成字母。

  • 这里的意思应该是这个过程没办法完全自动完成,只能预先对输入的手写单词设置一些规则,然后通过这些规则来分割成字母。但现实生活中,这样做就减少了手写体识别的意义。
  • 在语音识别中,可以引申为语音不分成帧就无法识别,但是如果不能识别出帧就无法分成帧。
  • 在OCR中,有研究人员提出了直接对一个单词进行识别,而不是对字母进行识别。在语音识别中,也有研究人员提出了端到端的语音识别,不再分成帧,然后每帧打标签。

CTC的核心思想

最近学习了一下序列模型,感觉之前了解了一点的CTC记不清了。贴一张之前帮女票总结的图,有空再来重新总结一下ctc以及其和attention的区别。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值