类似于HCLG的wfst结构,EESEN: END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING文章提出了TLG的网络结构
Grammar
Lexicon
有两种形式,可以基于characters和phonemes。
Token
对应于传统的state,前后添加blank,而且状态存在自旋
网络
S = T ∘ m i n ( d e t ( L ∘ G ) ) S=T\circ min(det(L\circ G)) S=T∘min(det(L∘G))
结论
相比于传统的hybrid方法,准确率差不多,解码速度有三倍以上的提升。原因在于,状态数从几千个降到了几十个,减小了网络复杂度。