语音转换主要涉及技术记录

Wsyoneself

已于 2022-07-16 19:00:23 修改

阅读量757

点赞数 1

分类专栏： ASR 文章标签： asr

于 2022-07-16 18:47:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45647721/article/details/125823601

版权

ASR 专栏收录该内容

10 篇文章 3 订阅

订阅专栏

语音分析与合成，目前主要的分析合成手段：

谐波加噪声模型(HNM)：将信号分成谐波成分和噪声成分，谐波成分代表信号中的低频部分，可以由基频、幅度、相位三个参数表示；噪声代表信号的高频部分，可由高斯白噪声通过高通滤波器来表示，再利用具体算法求出幅度和相位值。
STRAIGHT(使用加权频谱自适应插值的语音变换和表示):提出了一种基音自适应时频频谱平滑算法模型，能够减轻信号周期和频谱之间的干扰
语音特征参数提取，目前语音转换中所提取的映射参数特征主要是音段信息的局部特征和超音段信息的上下文特征两类。局部特征主要是谱包络、倒谱和共振峰等参数，较为常用的还有线谱对(LSF)参数和考虑了人耳听觉特性的梅尔频率倒谱系数(MFCC)，上下文特征主要是指语音帧间的动态信息。
语音时间对齐：
1. 对于平行语料：最常用的方法是动态时间规整(DTW)，计算每个话语对或在每个音素对之间的最佳时间对准。动态时域规整后，最终产生的是一对相等长度的源和目标特征序列。
2. 对于非平行语料：可使用基于 WaveNet 的无声码器语音转换方法，该方法不需要处理中间特征，而是利用wavenet直接将语音后验器映射到波形样本，这样就避免了声码器和特征转换引起的估计误差。
转换效果评价：
1. 客观评价：建立在语音数据失真测度基础上，利用某种距离准则来测量转换后语音和原始目标语音间的相似程度，并由此得出对转换方法优劣的评价方法。主要的客观评价指标有均方误差(MSE)、谱失真 ( SD)和梅尔倒谱失真 (MCD)，MSE、SD 和 MCD 的值越小，说明失真越小，转换精度越高。
2. 主观评价：以人为主体，通过人的主观感受来对语音进行测试。相对于客观评价来说，主观评价结果更具有可信度。主观方法一般从语音质量和说话人特征相似度 2 个角度进行，采用的方法主要是平均意见分(MOS)和 ABX:
  1. MOS 测试：让测评人根据 5 个等级划分对测试语音的主观感受进行打分，既可以用于对语音质量进行主观评价，也可以用于对说话人特征相似度的评价。MOS 分是对所有测试语句和所有测评人的综合平均结果。
  2. ABX 测试：主要针对转换后语音的说话人特征相似度进行转换效果评价，借鉴了说话人识别的原理。测试过程中，测评人分别测听 3 段语音 A、B 和 X，并判断在语音的个性特征方面语音 A 还是 B 更接近于 X。(X 是转换后得到的语音， A 和 B 分别为源语音和目标语音。最后统计所有测评人员的判决结果，计算出听起来像目标语音的百分比。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
语音转换主要涉及技术记录

语音分析与合成，目前主要的分析合成手段。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。