类似于HCLG的wfst结构,EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING文章提出了TLG的网络结构
Grammar

Lexicon
有两种形式,可以基于characters和phonemes。

Token
对应于传统的state,前后添加blank,而且状态存在自旋

网络
S = T ∘ m i n ( d e t ( L ∘ G ) ) S=T\circ min(det(L\circ G)) S=T∘min(det(L∘G))
结论
相比于传统的hybrid方法,准确率差不多,解码速度有三倍以上的提升。原因在于,状态数从几千个降到了几十个,减小了网络复杂度。
后面的技术分享转移到微信公众号上面更新了,【欢迎扫码关注交流】

本文介绍了EESEN提出的TLG网络结构,对比传统hybrid方法,该结构通过减少状态数显著提升了解码速度,同时保持了相当的准确率。TLG支持characters和phonemes两种形式,并详细解释了其在网络中的实现方式。
1546

被折叠的 条评论
为什么被折叠?



