fmllr--学习笔记

Wsyoneself

于 2022-11-21 19:25:30 发布

阅读量591

点赞数 1

分类专栏： kaldi 文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45647721/article/details/127970789

版权

kaldi 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

预备知识：
1. 说话人自适应技术是利用特定说话人数据对说话人无关(Speaker Independent,SI)的码本进行改造，其目的是得到说话人自适应(SPeaker Adapted, SA)的码本来提升识别性能。
2. 在某个说话人的训练数据足够多的时候，针对当前说话人数据采用传统的训练方法可以得到×说话人相关(Speaker Dependent, SD)的码本,由于SD码本很好的反应了当前说话人的特征，因此效果往往更好，但实际中往往缺少足够的数据，因此采用说话人自适应，这样只需要很少量的数据就可以得到比较大的性能提升。其实质是利用自适应数据调整SI码本以符合当前说话人特性。
3. 由于传统训练方法得到的 SI 码本不可避免地受训练集特性的影响, 在训练集和自适应数据失配时这会导致自适应效果变得不明显, 原始码本越具有说话人无关性, 在自适应时就越能迅速地趋近当前说话人的特征。与自适应相结合的码本训练对 SI 码本、训练集内每个说话人特性分别建立模型, 因此可以得到更具说话人无关性的 SI 码本。
FMLLR：
1. 针对特定的说话人，其码本可以用SI码本经过线性变换后的SA码本表示，即SA码本中的任意均值矢量可以表示为:x∗=Ax+b，其中x表示N维SI码本的均值矢量，A为N×N的线性变换矩阵,b表示偏移量，不同的均值矢量可以有不同的变换矩阵A。fMLLR码本自适应的目的就是估算变换矩阵A从而更新SA码本。
2. 如何得到变换矩阵？
  1. 可以将其作为参数，使用参数估计的方法得到。
  2. 假设有K个说话人的训练数据，每个说话人的SA码本均由SI码本线性变换得到，训练的目标是使得输出概率函数最大，即:
    1. 式中λ表示SI码本的参数集合(均值和方差)，Ak表示第k个说话人的变换矩阵，AK=[bk,Uk]。Ok表示第k个说话人的训练数据集合，W∗,λ∗表示参数的最佳估计。
3. 从码本包含信息的角度分析, 语音信号总是包含两部分的内容: 说话人信息( 这里指广义的说话人信息, 也包括环境变化造成的特征的不确定性) 和语意信息, 这可以看作两个相对独立的坐标轴。在训练说话人无关码本时希望码本尽量只与语意相关, 传统的训练方法对所有数据作平均, 这实际隐含着训练集中说话人信息部分可相互抵消的假设; 而自适应训练的做法是: 对每个说话人分别估计说话人信息, 期望在此基础上能够真正得到说话人无关码本, 对两部分的估计是同时进行的, 对训练集的要求相对较低。
4. 参数估计
  1. 参数估计的目标是更新码本的均值、方差和每个说话人的线性变换矩阵以使得输出概率最大，由于多个优化参数的存在，需要分别实现参数更新。
  2. 初始时给定SI码本，转换矩阵A为单位矩阵。
  3. 更新说话人变换矩阵，首先根据SI码本和当前说话人矩阵A得到SA码本，依照SA码本对每个说话人训练数据做Viterbi分割，分割的结果是将每一帧分别归到某一个高斯分布，然后按照分割结果更新每个人的变换矩阵。
  4. 更新SI码本均值。把已经更新的变换矩阵A带入目标函数求解SI码本均值。
  5. 更新SI码本方差。利用更新后的说话人变换矩阵A和SI码本均值带入目标函数可以求解SI码本的方差。
  6. 判断统计量是否收敛，若不收敛重复2-4步进行迭代。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
fmllr--学习笔记

fmllr--学习笔记
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。