Sayre’s paradox
- 读语音识别的论文Towards End-to-End Speech Recognition with Recurrent Neural Networks时,看到了这个名词。
- Sayre’s paradox出现在1973年手写体识别的论文中:
A standard statement of the paradox is that a cursively written word cannot be recognized without being segmented and cannot be segmented without being recognized
指的是,手写单词如果不分成字母就无法识别,但是如果不识别的话就无法分成字母。
- 这里的意思应该是这个过程没办法完全自动完成,只能预先对输入的手写单词设置一些规则,然后通过这些规则来分割成字母。但现实生活中,这样做就减少了手写体识别的意义。
- 在语音识别中,可以引申为语音不分成帧就无法识别,但是如果不能识别出帧就无法分成帧。
- 在OCR中,有研究人员提出了直接对一个单词进行识别,而不是对字母进行识别。在语音识别中,也有研究人员提出了端到端的语音识别,不再分成帧,然后每帧打标签。
CTC的核心思想
最近学习了一下序列模型,感觉之前了解了一点的CTC记不清了。贴一张之前帮女票总结的图,有空再来重新总结一下ctc以及其和attention的区别。