语音转换历史调研记录

Wsyoneself

已于 2022-07-16 18:59:33 修改

阅读量128

点赞数 1

分类专栏： ASR 文章标签：语音识别机器学习人工智能

于 2022-07-16 18:44:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45647721/article/details/125823567

版权

ASR 专栏收录该内容

10 篇文章 3 订阅

订阅专栏

声道谱转换：对源和目标说话人语音进行统计分析的基础上，通过参数映射方式实现
1. 基于码书映射的转换方法：通过矢量量化减少源与目标语音的特征数量，再将最接近源码书的质心矢量通过聚类方法转换成相应的目标码书来实现语音转换。缺点：在量化时会造成特征空间的不连续，且忽略了帧间信息，转换效果不够理想。后续提出一系列码书映射的改进方法解决不连续问题，但又导致了过平滑问题。
2. 基于高斯混合模型的转换方法：采用一组高斯函数的加权求和结果来表达观测数据的概率分布。缺点：仅在源特征矢量上进行估计，而不是联合特征矢量估计，即帧间信息考虑不足，易出现过拟合和过平滑问题。后续有大量数学方法被结合到GMM中，但由于 GMM 本身存在非一一映射情况，导致的过平滑问题一直没有得到根本解决。用一个 GMM 去拟合输入特征与输出特征的联合分布，在转换时根据输入特征和 GMM 去推断输出特征。
3. 基于隐马尔科夫模型的转换方法：可利用自身的隐含状态及状态转移概率矩阵来对语音信号的动态变化进行建模。缺点：由于 HMM 的隐含状态数目受限，造成了语音信号的动态变化范围受限，进而制约了转换处理精度
4. 基于频率弯折转换方法：指通过沿频率轴拉伸或压缩频谱，来调整共振峰的位置和带宽，并通过幅度缩放来调整每个频率中的能量大小，从而实现源到目标说话人的频谱映射。特点：能够最大程度地保持语音自然度，且转换语音质量较高，但在相似度方面略显不足，需结合其他方法以获得进一步提升。
5. 基于神经网络的转换方法：全卷积神经网络，生成对抗网络，双向长短时记忆网络等均被用来实现谱序列到序列的高精度转换。更多神经网络结合不同语音特征采用不同的网络转换模型。缺点：当前表现优异的深度学习模型，所依赖参数过多，在非合作模式下当训练数据不充分时，就会发生过拟合现象，导致性能急速下降
6. 基于波形生成的转换方法：直接生成音频波形样本点，典型的例子Wavenet。主要基于一条件概率建模的深度自回归模型，将语音的各种特征作为条件，通过训练找到合适的自回归模型。特点：产生的语音清晰度和自然度高、质量好且没有过平滑问题，但网络生成速度较慢。针对该网络中逐样点生成语音波形易造成语音崩塌的现象，以及如何进一步提升转换语音自然度的问题仍有待深入研究。
韵律转换：韵律的转换主要包括基音周期的转换、时长的转换和能量的转换，而声道谱转换表现为共振峰频率、共振峰带宽、频谱倾斜等转换。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语音转换历史调研记录

语音转换历史调研记录
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。