语音唤醒即关键词识别,平时用的小爱同学,Siri,都要用到这种技术。关键词识别和语音识别不同,模型只需要识别一些特定的词,不用听懂每句话。所以,相对于语音识别,关键词识别能减少很多模型内的计算量。
数据集:
目前公开的最常用的英文关键词数据集是google speech command dataset,中文数据集也有,但是都需要经过裁切和二次标注。可以参考华为的小艺小艺数据集.
这篇文章记录了一下第一次接触KWS读的2021年的综述。
语音唤醒即关键词识别,平时用的小爱同学,Siri,都要用到这种技术。关键词识别和语音识别不同,模型只需要识别一些特定的词,不用听懂每句话。所以,相对于语音识别,关键词识别能减少很多模型内的计算量。
数据集:
目前公开的最常用的英文关键词数据集是google speech command dataset,中文数据集也有,但是都需要经过裁切和二次标注。可以参考华为的小艺小艺数据集.
这篇文章记录了一下第一次接触KWS读的2021年的综述。