目前来说,语音识别落地的难点有中英混、方言、预训练模型。
首先,中英混是一个语音识别落地的难点,现在有很多研究在做;其次,方言也是一个难点,这里面主要是数据的问题,像是低资源的模型的构建,就是在数据比较少的情景如何构建语音模型;其他的还有类似Wav2vec这种预训练训练模型,如果模型要做得比较大,如何去做实时的流式推理,这些都是目前研究的一些点,在最近也都有一些进展。
语音识别的跨学科特点非常明显,涉及声学、语音语言学、信号处理、机器学习、概率论等等多学科的知识, 自学门槛非常高。语音之家社区为了更好地服务AI语音开发者,推出了AI工匠学堂——助力AI语音开发者从0到1的学习平台,提供更符合语音技术开发者的体系化课程,从语音识别、语音合成、声纹识别、语音唤醒、开源工具、开源数据、前沿技术七大研究领域中梳理出阶梯式学习路径。适用于不同层级的语音技术开发者,从入门到高级进阶完成整个技术体系的学习。