联合分类损失与聚类损失详谈

最新推荐文章于 2024-01-02 18:57:30 发布

唔呜武

最新推荐文章于 2024-01-02 18:57:30 发布

阅读量152

点赞数 1

文章标签：分类聚类机器学习

本文链接：https://blog.csdn.net/weixin_72625335/article/details/134631236

版权

《A Quick And Effective Speaker Diarization System》

目前，变分贝叶斯隐马尔可夫模型再聚类（AHCVBHMM）和谱聚类（SC）的凝聚层次聚类是说话人二值化任务的两个主要聚类方法。前者在几个著名的评估数据库（例如 CallHome 97、CallHome 00、NIST RT09、Dihard 等）上具有最先进的性能，但代价是计算量很高。后者需要更少的计算资源，但不能更好地利用时间序列信息。

为了利用这两种方法的优点，我们提出了一种快速有效的二值化方法，该方法基于自适应谱聚类和VBHMM重新聚类。此外，我们采用端到端二值化方法来解决重叠语音问题。该系统在评估数据库上以更低的二值化错误率 (DER) 和实时因子 (RTF) 提高了二值化性能。

我们使用 PLDA 进行评分以获得相似度矩阵，然后使用谱聚类作为初始聚类方法对嵌入进行聚类，将 VBHMM 聚类为再聚类方法。

我们使用二值化错误率 (DER) 来评估系统。DER由三部分组成，误报率（False alarm rate, FA）、漏报率（Miss rate）和说话者错误率（Speaker error rate）。误报率和误码率主要是由于SAD的质量，说话人错误率反映了不同说话人的预测精度。计算公式如下：

此外，使用实时因子 (RTF) 来评估系统性能。它反映了算法的计算。为了更好地与之前的系统结果相比，我们使用开源二值化评分工具 1 来评估系统。

《JOINT OPTIMIZATION OF CLASSIFICATION AND CLUSTERING FOR DEEP SPEAKER EMBEDDING》

我们假设在训练集上提取的嵌入xi分布为高斯密度的混合物。每个高斯分量k都有其均值μk和协方差Σk，其先验概率πk。假设有C个这样的高斯分量。定义了一个损失Lcls来度量聚类k的假设xi和高斯混合模型的后验概率的接近程度。我们表示后验概率为

综合所有的观察结果，我们有

在实践中，我们使用xi代表yi的说话人id和C对应的类号作为分类任务。然后，在嵌入空间中，Lcls更侧重于判别能力。

然而，优化上述损失并不能保证得到的嵌入xi符合混合高斯分布。接下来[18]，我们添加了一个正则化项，通过引入如下的似然函数，明确地将嵌入向高斯密度分布的混合方向驱动：

增加这种可能性可以将提取的嵌入xi驱动到其对应的高斯分布。

高斯混合损失 LGM 定义为：

其中 λ 是非负加权系数。为简单起见，设先验 πk = 1C 和 Σk 是对角协方差矩阵。LGM 然后变成：

其中删除了常数项。

为了优化损失 LGM ，使用随机梯度下降 (SGD) 算法更新所有高斯混合分量的参数，包括 μk 和 Σk，嵌入 xi。简单地像Eq.(7)中的[18]中那样使用对角协方差可能具有数值困难，因为协方差矩阵Σk需要是半正定的。本文重新定义Σk = Λk2。标准差对角矩阵Λk不是Σk，而是学习的参数。Λk 被初始化为单位矩阵。