语音转换历史调研记录

  1. 声道谱转换:对源和目标说话人语音进行统计分析的基础上,通过参数映射方式实现
    1. 基于码书映射的转换方法:通过矢量量化减少源与目标语音的特征数量,再将最接近源码书的质心矢量通过聚类方法转换成相应的目标码书来实现语音转换。缺点:在量化时会造成特征空间的不连续,且忽略了帧间信息,转换效果不够理想。后续提出一系列码书映射的改进方法解决不连续问题,但又导致了过平滑问题。
    2. 基于高斯混合模型的转换方法:采用一组高斯函数的加权求和结果来表达观测数据的概率分布。缺点:仅在源特征矢量上进行估计,而不是联合特征矢量估计,即帧间信息考虑不足,易出现过拟合和过平滑问题。后续有大量数学方法被结合到GMM中,但由于 GMM 本身存在非一一映射情况,导致的过平滑问题一直没有得到根本解决。用一个 GMM 去拟合输入特征与输出特征的联合分布,在转换时根据输入特征和 GMM 去推断输出特征。
    3. 基于隐马尔科夫模型的转换方法:可利用自身的隐含状态及状态转移概率矩阵来对语音信号的动态变化进行建模。缺点:由于 HMM 的隐含状态数目受限,造成了语音信号的动态变化范围受限,进而制约了转换处理精度
    4. 基于频率弯折转换方法:指通过沿频率轴拉伸或压缩频谱,来调整共振峰的位置和带宽,并通过幅度缩放来调整每个频率中的能量大小,从而实现源到目标说话人的频谱映射。特点:能够最大程度地保持语音自然度,且转换语音质量较高,但在相似度方面略显不足,需结合其他方法以获得进一步提升。
    5. 基于神经网络的转换方法:全卷积神经网络,生成对抗网络,双向长短时记忆网络等均被用来实现谱序列到序列的高精度转换。更多神经网络结合不同语音特征采用不同的网络转换模型。缺点:当前表现优异的深度学习模型,所依赖参数过多,在非合作模式下当训练数据不充分时,就会发生过拟合现象,导致性能急速下降
    6. 基于波形生成的转换方法:直接生成音频波形样本点,典型的例子Wavenet。主要基于一条件概率建模的深度自回归模型,将语音的各种特征作为条件,通过训练找到合适的自回归模型。特点:产生的语音清晰度和自然度高、质量好且没有过平滑问题,但网络生成速度较慢。针对该网络中逐样点生成语音波形易造成语音崩塌的现象,以及如何进一步提升转换语音自然度的问题仍有待深入研究。
  2. 韵律转换:韵律的转换主要包括基音周期的转换、时长的转换和能量的转换,而声道谱转换表现为共振峰频率、共振峰带宽、频谱倾斜等转换。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值