清微智能科研成果入选语音领域顶级会议 INTERSPEECH 2020

最新推荐文章于 2022-06-24 16:39:47 发布

清微智能

最新推荐文章于 2022-06-24 16:39:47 发布

阅读量498

点赞数

文章标签：芯片算法人工智能深度学习微软

芯片设计有其周期性，企业技术团队探索最前沿的AI算法，其实是在对未来的市场做出预判，让硬件团队更明确了解算法背后的市场需求，从而把对芯片功能的优化放在设计之初，使芯片在运行时更加适应新的AI算法，达到更好的性能。

全球语音领域顶级会议 INTERSPEECH 2020于近期公布了论文入选名单，清微智能有2篇论文被接收。

INTERSPEECH 是由国际语音通信协会ISCA组织的语音领域的顶级会议之一，也是全球最大的综合性语音领域的科技盛会，在业内享有较高的声誉，对参与企业和单位有着严苛的准入门槛要求。

《Transformer with Bidirectional Decoder for Speech Recognition》

传统的end2end的语音识别方法往往以从左到右的target训练，只关注了正向的上下文。在论文《Transformer with Bidirectional Decoder for Speech Recognition》中，团队首次提出了一种同时利用不同的方向上下文的Speech Transformer，即带有双向解码器（STBD）的Speech Transformer，该转换器中变压器的输出既包括从左到右的预测也包括从右到左的预测。在预测时，使用引入的双向beam search方法，不仅可以生成正向的候选，还可以生成反向的候选，并通过分数确定最佳假设语句，STBD的网络结构如图1所示：

STBD的结构

实验结果表明，STBD在单向语音转换器基线（ST-L2R）上实现了相对3.6％的CER降低（CERR），最佳的STBD-big模型，在没有语言模型重打分同时也没有使用额外的数据增强策略的情况下，在测试集上实现了6.64％的CER。具体结果下图所示：

CER与AISHELL上的先前结果的比较

由于两个方向的decoder共享参数，因此与基线相比，STBD没有额外的参数量开销。是一种比较简单的，不增加参数量但是提升网络性能的方法。提升的性能的收益主要来源于两个方面：一方面是引入不同方向的上下文，他们共享权重、互为正则，减少了由于解码器自回归导致的而误差累积现象；另一方面是充分利用两个方向的上下文，优化了一些更容易从反向上下文预测正确的字词。

为了更好的理解该双向解码器，团队将encoder-decoder之间的attention得分进行了可视化处理。

横轴表示音频时间线，纵轴表示解码的假设。颜色越亮意味着注意力得分越高。顶部图是STBD中的左至右解码器，而底部图是STBD中的右至左解码器。

图中，从左到右解码器的注意力分数是从左下角到右上角的对角线，从右到左解码器的注意力分数是对角线从右下角到左上角，说明两个方向的解码器关注的encoder序列的方向不同，符合团队的预期。

《THUEE System for NIST SRE19 CTS Challenge》

在另一篇论文《THUEE System for NIST SRE19 CTS Challenge》中，团队构建了一种称之为“扩展型因子分解TDNN(EF-TDNN)”的数据模型，该模型是在E-TDNN和F-TDNN的基础之上，进行了层数和节点的扩张。在数据的使用上，研究团队基于公开的大规模数据集（SWBD， SRE，Voxceleb等），将数据量扩大至原来的五倍。

观察到“卷积分解”和“三级拼接”比基本的低秩矩阵分解性能更好，因此团队没有将TDNN层按照惯例分解为前馈层和卷积层，而是将TDNN层分解为维数为256的卷积层、强制半正交的2*1维数为256的卷积层和维数1024的卷积层。这样FTDNN层的维度从1024 -> 256 -> 256 -> 1024。由于多了一个额外的2*1的卷积层，与传统的TDNN相比，EFTDNN能够捕捉到更宽的语音序列上的特征。

另外，团队还在相邻的FTDNN层插入了全连接层来提升网络的建模能力。尽管训练和测试数据存在语种和信道的失配，但EF-TDNN单系统仍然可以实现SRE18 DEV 3.67%，SRE19 EVAL3.16%上的高说话人识别率。