来自文章''Spoken Language Recognition using X-vectors'',以下是摘要部分:
在本文中,将x-vector应用于口语识别任务。 该网络由深度神经网络组成,该网络将语音特征序列映射到固定维度的embedding,称为x-vector。 通过跨时间聚合信息的暂存池化层在网络中捕获长时语言特征。 一旦提取,x-vector可以使用为i-vector开发的相同分类技术。 在2017年NIST语言识别评估中,x-vector获得了出色的结果,并且超越了我们最先进的i-vector系统。 在这里给出的后评估分析中,我们尝试了x-vector框架的几种变体,并发现最佳性能系统使用了多语言瓶颈特征,数据增强和判别式高斯分类器。
1. 引言:
2. x-vector系统
2.1 综述
x-vector系统基于为说话人识别开发的框架[11]。 该系统由一个前馈DNN组成,它将可变长度的语音段映射到我们称之为x-vector的embedding。 一旦被提取,x-vector就由第4节中经过训练的高斯分类器分类。
2.2 结构
F代表特征纬度ÿ