introduction
word-spotting,audio indexing,spoken term detection
输出的是word lattice,根据lattice计算关键词的后验概率。
ATWV=mean(Ncorrect(s)Ntrue(s)−βNspurious(s)T−Ntrue(s))
其中 Ncorrect(s) 表示检测正确的个数, Ntrue(s) 表示reference中关键词的个数, Nspurious(s) 检测错误的个数,T表示音频的秒数。 β 在evaluation中一般设置为999.9。
检测系统共有四部分:
1. speech-to-text engine
输出lattice和single-best phonetic transcripts
2. indexer
The indexer takes these as input and creates an index containing a precomputed list of candidate detection records for each word in the speech-to-text lexicon. The index also contains the phonetic
transcripts to accommodate out-of-vocabulary search terms.
3. detector
The detector loads the index and processes a list of search terms, generating a sorted, scored list of detection records for each term.
4. decider
the decider takes the lists of candidate detections and the cost parameter β and sets a per-term score threshold for making yes/no decisions.
systerm
recognition
对于离线的大量语音数据,首先进行分段,然后使用通用语音识别系统对语音进行解码,获得lattice(边上包含有声学得分和语言得分)。
如果直接根据识别结果进行关键词检测,将会导致更多的漏报情况,因为同音词的存在。
indexing
建索引。假设lattice中出现的所有候选词分别是
w1,w2,...,wL
.
1. 首先计算每一个出现在lattice里面词
wi
的后验概率。根据lattice中包含有的似然得分信息。
2. 对同一时间段出现的相同词
wi
的后验概率累加作为最后的得分.
3. 使用
L
个独立的链表对所有lattice的词
detection
单个词:直接根据索引查询即可。
多个词:首先查询单个词,然后根据正确的词顺序和较短的时间间隔进行过滤。
decision
p>NtrueT/β+β−1βNtrue
其中 β−1β≈1 ,对于三小时的语音 T/β≈10 , Ntrue(wi) 未知,使用所有候选 wi 的后验概率和,乘以一个term无关的系数。
problems
out-of-vocabulary word
online systerm for real-time task
reference
rapid and accurate spoken term detection
kaldi keyword search code