X-vector系列论文 | Spoken Language Recognition using X-vectors

本文介绍了将x-vector应用于口语识别任务,通过深度神经网络提取固定维度的embedding——x-vector,用于捕捉长时语言特征。2017年NIST语言识别评估中,x-vector表现出色,超越i-vector系统。文章探讨了x-vector的不同变体,包括多语言瓶颈特征、数据增强和判别式高斯分类器,以提升性能。
摘要由CSDN通过智能技术生成

来自文章''Spoken Language Recognition using X-vectors'',以下是摘要部分:

在本文中,将x-vector应用于口语识别任务。 该网络由深度神经网络组成,该网络将语音特征序列映射到固定维度的embedding,称为x-vector。 通过跨时间聚合信息的暂存池化层在网络中捕获长时语言特征。 一旦提取,x-vector可以使用为i-vector开发的相同分类技术。 在2017年NIST语言识别评估中,x-vector获得了出色的结果,并且超越了我们最先进的i-vector系统。 在这里给出的后评估分析中,我们尝试了x-vector框架的几种变体,并发现最佳性能系统使用了多语言瓶颈特征,数据增强和判别式高斯分类器。

1. 引言:

2. x-vector系统

2.1 综述

x-vector系统基于为说话人识别开发的框架[11]。 该系统由一个前馈DNN组成,它将可变长度的语音段映射到我们称之为x-vector的embedding。 一旦被提取,x-vector就由第4节中经过训练的高斯分类器分类。

2.2 结构

F代表特征纬度ÿ

评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值