部分语音特征记录

  1. frame就是一帧语音,utterance是一段语音,通常指一句话,一个语音样本
  2. LLDs:手工设计的一些低水平特征,一般是在一帧语音上进行的计算,是用来表示一帧语音的特征
  3. HSFs:是在LLDs的基础上做一些统计得到的特征,如均值,最大值。
  4. 基音,通常记作F0,一般的声音都欧式与发音体发出的一系列频率、振幅各不相同的振动复合而成的。其中有一个频率最低的振动,由其发出的音就是基音,其余称为泛音。
  5. 频率相关的特征:pitch:logF0,在半音频率尺度上计算。
  6. 能量/振幅的特征:
    1. shimmer:相邻基音周期间振幅峰值之差。
    2. Loudness:从频谱中得到的声音强度的估计,根据能量来计算得到的
    3. HNR:信噪比
  7. 谱特征:
    1. α ratio:50-1000hz的能量和除以1-5khz的能量和
    2. Hammarberg Index:0-2kHz的最强能量峰除以2-5kHz的最强能量峰
    3. Spectral Slope 0-500 Hz and 500-1500 Hz:对线性功率谱的两个区域0-500 Hz和500-1500 Hz做线性回归得到的两个斜率
    4. Formant 1, 2, and 3 relative energy:前三个共振峰的中心频率除以基音的谱峰能量
    5. Harmonic difference H1-H2:第一个基音谐波H1的能量除以第二个基音谐波的能量
    6. Harmonic difference H1-A3:第一个基音谐波H1的能量除以第三个共振峰范围内的最高谐波能量
  8. IS10:总的有1582个特征,具体可以参考:https://hellolzc.github.io/2020/04/speech-emotion-feature-set/
     
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值