voxsrc20_ask_05-Understanding of PLDA

ID = voxsrc20_ask_05

Status: closed

Question

PLDA is widely used, how to understand it?

Answer

PLDA can be treated as LDA with a probability distribution attached to the features.[1]

The probability distribution models the data through the latent variables corresponding to the class and the view.
This allows us to preform inference and recognition.
The model automatically gives more importance to the more discriminant features, which helps us avoid a search
for the optimal number of features.
On the other hand, we can perform dimensionality reduction with PLDA, by imposing an upper limit on the rank of
the between-class variance.[1]

One of the most important advantages of the PLDA, compared to LDA and its previously proposed probabilistic motivations,
is that the probability distributions are learned not only for the examples within a class but for the class center as well.
This makes PLDA perfectly suited for a wide variety of recognition problems on classed we have not seen before.[1]

PLDA(Probabilistic Linear Discriminant Analysis)也是一种信道补偿算法,号称概率形式的LDA算法。
PLDA同样通常是基于I-vector特征的,因为I-vector特征即包含说话人信息又包含信道信息,而我们只关心说话人信息,所以才需要信道补偿。
PLDA算法的信道补偿能力比LDA更好,已经成为目前最好的信道补偿算法。[2]

LDA的基本思想即为,将高维的样本(I-Vector)投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。
当一个说话人有很多语音时,表现为这些语音在说话人空间中聚集为一簇。如果这些语音收到信道的影响,那么就表现为这个说话人的语音的方差很大。
然后,LDA尝试着找到一个新的方向,将原来的所有数据投影到这个方向,使得在这个方向中同一说话人的数据具有最小的类内方差,
同时不同说话人之间的距离尽量大。这样,就达到减小信道差异的影响了。[2]

LDA其实也是一种降维方法。它尽量去移除不需要的方向,最小化类内的方差信息量。
也就是,LDA寻找一个新的方向去更好地对不同的类做出分类。可见,LDA非常适合作为说话人识别系统的信道补偿算法。[2]

概率线性判别分析(PLDA)也是一种信道补偿算法,又称概率形式的LDA算法。
PLDA通常也是基于I-Vector特征的,为其提供信道补偿。由于PLDA算法的补偿能力比LDA更好,大多数人会更倾向于选择PLDA。[4]

Extension - Cosine distance

在不使用PLDA或使用LDA信道补偿的情况下,使用余弦评分(Cosine Scoring)方法,来计算两个I-Vector矢量的相似度,以此来评分。
根据研究表明,信道信息会引起I-Vector特征矢量的方向改变,而说话人信息主要影响I-Vector特征矢量的方向,
采用余弦评分恰好可以消除I-Vector特征矢量模的影响(在余弦中的计算与矢量的模无关),从而在一定程度上削弱信道信息的影响。[4]

The equation of cosine distance is:
distance = <Wtarget, Wtest> / (|Wtarget|*|Wtest|)

Wherein,
Wtarget is the extracted I-vector of target speaker,
Wtest is the extracted I-vector of test utterance.

二者之间的夹角反映了二者的相关性,当二者相关性大时,夹角小,分数高;当二者相关性小时,夹角大,分数低。

Cosine distance is easy and can be used in x-vector or r-vector.

Reference

[1] Sergey Ioffe, Probabilistic Linear Discriminant Analysis, ECCV 2006
[2] 我对说话人识别/声纹识别的研究综述
[3] 声纹识别之PLDA算法描述
[4] 声纹识别之PLDA
[5] Kaldi 说话人识别以及xvector和PLDA介绍
[6] Probabilistic Linear Discriminant Analysis for Inferences About Identity

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值