- frame就是一帧语音,utterance是一段语音,通常指一句话,一个语音样本
- LLDs:手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征
- HSFs:是在LLDs的基础上做一些统计得到的特征,如均值,最大值。
- 基音,通常记作F0,一般的声音都欧式与发音体发出的一系列频率、振幅各不相同的振动复合而成的。其中有一个频率最低的振动,由其发出的音就是基音,其余称为泛音。
- 频率相关的特征:pitch:logF0,在半音频率尺度上计算。
- 能量/振幅的特征:
- shimmer:相邻基音周期间振幅峰值之差。
- Loudness:从频谱中得到的声音强度的估计,根据能量来计算得到的
- HNR:信噪比
- 谱特征:
- α ratio:50-1000hz的能量和除以1-5khz的能量和
- Hammarberg Index:0-2kHz的最强能量峰除以2-5kHz的最强能量峰
- Spectral Slope 0-500 Hz and 500-1500 Hz:对线性功率谱的两个区域0-500 Hz和500-1500 Hz做线性回归得到的两个斜率
- Formant 1, 2, and 3 relative energy:前三个共振峰的中心频率除以基音的谱峰能量
- Harmonic difference H1-H2:第一个基音谐波H1的能量除以第二个基音谐波的能量
- Harmonic difference H1-A3:第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量
- IS10:总的有1582个特征,具体可以参考:https://hellolzc.github.io/2020/04/speech-emotion-feature-set/
部分语音特征记录
最新推荐文章于 2024-10-09 13:46:05 发布