语音合成
xmdxcsj
毕业于中科院声学所,在BAT从事语音技术研究多年。微信公众号:谈谈语音技术,关注后跟踪最新博文。
展开
-
语音合成vocoder(二) 基频参数
基本概念声带每开启和关闭一次的时间就是基音周期(pitch period),倒数即为音频频率(pitch frequency)[1]。 基音频率取决于声带的大小、厚薄、松紧程度,以及声门上下之间的气压差的效应等。最低可达80Hz,最高可达500Hz,老年男性偏低,小孩女性偏高。它反映了声调的变化。常用方法常用的有自相关方法和倒谱方法 Autocorrelation Function(ACF)运算原创 2017-05-17 18:13:57 · 5743 阅读 · 0 评论 -
语音合成vocoder(三) spectral envelope参数
基本概念[1] spectral envelope的三个性质: - 包络线连接峰值,并且紧紧包裹幅度谱 - 包络线不能震荡太剧烈,需要平滑 - 包络线不能有corner语音信号可以模拟为激励脉冲序列与声道冲激响应的离散卷积,对于浊音信号 y(t)y(t)可以简化为基音周期为T0T_0脉冲串δ\delta和声道冲激响应h(t)h(t)的卷积: y(t)=h(t)∗∑n=−∞∞δ(t−nT0)原创 2017-05-17 18:17:51 · 6298 阅读 · 3 评论 -
语音合成vocoder(四) aperiodicity参数
基本概念 “aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。PLANTINUM[1]使用exci原创 2017-05-17 18:19:25 · 4420 阅读 · 0 评论 -
语音合成vocoder(五) synthesis
基本概念最小相位脉冲响应[1]可以保证波形在时域上基本不变。 根据频谱包络求出最小相位响应(减弱时域信号的相位失真),然后IFFT还原为语音信号 其中AA跟频谱包络有关合成流程合成[2]分为三步 1. 根据f0f_0确定脉冲的位置 对分帧的频谱插值获得脉冲对应的频谱spectrumspectrum 2. 时域周期信号 2.1 求出频谱包络中周期部分,然后过最小相位脉冲响应 peri原创 2017-05-17 18:21:40 · 3655 阅读 · 1 评论 -
语音合成vocoder(一) 概况
Question1: vocoder在合成中的角色???合成概况语音合成主要有波形拼接和参数合成两种方法[1]。波形拼接方法 使用原始语音波形替代参数,合成的语音清晰自然,质量相比于参数合成方法要好。PSOLA(pitch synchronous overlap add)算法可以对拼接单元的韵律特征进行调整。参数合成方法提取参数->HMM建模->合成参数->波形重建 合成中的vocoder原创 2017-05-17 18:11:22 · 16275 阅读 · 2 评论