联合分类损失与聚类损失详谈

《A Quick And Effective Speaker Diarization System》

        目前,变分贝叶斯隐马尔可夫模型再聚类(AHCVBHMM谱聚类(SC)的凝聚层次聚类是说话人二值化任务的两个主要聚类方法。前者在几个著名的评估数据库(例如 CallHome 97CallHome 00NIST RT09Dihard 等)上具有最先进的性能,但代价是计算量很高。后者需要更少的计算资源,但不能更好地利用时间序列信息。

        为了利用这两种方法的优点,我们提出了一种快速有效的二值化方法,该方法基于自适应谱聚类和VBHMM重新聚类。此外,我们采用端到端二值化方法来解决重叠语音问题。该系统在评估数据库上以更低的二值化错误率 (DER) 和实时因子 (RTF) 提高了二值化性能。

        我们使用 PLDA 进行评分以获得相似度矩阵,然后使用谱聚类作为初始聚类方法对嵌入进行聚类,将 VBHMM 聚类为再聚类方法。

        我们使用二值化错误率 (DER) 来评估系统。DER由三部分组成,误报率(False alarm rate, FA)、漏报率(Miss rate)和说话者错误率(Speaker error rate)。误报率和误码率主要是由于SAD的质量,说话人错误率反映了不同说话人的预测精度。计算公式如下:

        此外,使用实时因子 (RTF) 来评估系统性能。它反映了算法的计算。为了更好地与之前的系统结果相比,我们使用开源二值化评分工具 1 来评估系统。

JOINT OPTIMIZATION OF CLASSIFICATION AND CLUSTERING FOR DEEP SPEAKER EMBEDDING

        我们假设在训练集上提取的嵌入xi分布为高斯密度的混合物。每个高斯分量k都有其均值μk和协方差Σk,其先验概率πk。假设有C个这样的高斯分量。定义了一个损失Lcls来度量聚类k的假设xi和高斯混合模型的后验概率的接近程度。我们表示后验概率为

        综合所有的观察结果,我们有

        在实践中,我们使用xi代表yi的说话人idC对应的类号作为分类任务。然后,在嵌入空间中,Lcls更侧重于判别能力。

        然而,优化上述损失并不能保证得到的嵌入xi符合混合高斯分布。接下来[18],我们添加了一个正则化项,通过引入如下的似然函数,明确地将嵌入向高斯密度分布的混合方向驱动:

增加这种可能性可以将提取的嵌入xi驱动到其对应的高斯分布。

        高斯混合损失 LGM 定义为

其中 λ 是非负加权系数。为简单起见,设先验 πk = 1C Σk 是对角协方差矩阵。LGM 然后变成

其中删除了常数项。

        为了优化损失 LGM ,使用随机梯度下降 (SGD) 算法更新所有高斯混合分量的参数,包括 μk Σk,嵌入 xi。简单地像Eq.(7)中的[18]中那样使用对角协方差可能具有数值困难,因为协方差矩阵Σk需要是半正定的。本文重新定义Σk = Λk2。标准差对角矩阵Λk不是Σk,而是学习的参数。Λk 被初始化为单位矩阵。

        当给出高斯分量恒等式时,应用裕度来提高学习嵌入xi的泛化能力是有益的。我们通过增加标量 1 + α 的正样本的距离 dxi,yi 来实现这一点,并选择 α 大于零。新的损失函数,大边距高斯混合,定义如下

其中 Icond 是一个指示函数,如果满足 cond 则为 1,否则为 0

        其中 ψ(θ) 有两种定义形式。它被定义为加性余弦边距 softmax cos θ - m,又名 CosAM S。第二个是 cos (θ + m) 用于加性角边距 softmax,又名 ArcAM S

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值