OPENsmile

最近在做暴力音频的检测,提取了4类音频特征52维,可是发现分类的效果并不好

我的结果如下

•Samplesize

training data800(half and half)

•Thetime consuming of extracting audio feature

586523 / 800 =733.15375(ms)

•Testing data

100 audio

•Recall  = TP/(TP + FN)

R = 28 / (28 + 22) =56%

•Precision= TP/(TP + FP)

P = 28 / (28 + 10) =76.32%

•F1-Measure(F-score)= 2P*R / (P + R)

F-score =2*0.7632*0.56/(0.7632+0.56) = 64.61%

发现其实结果很糟糕0.76的准确率,最不能忍的是耗时间,800个音频居然需要500多秒

于是使用了一下OPENsmile,做了下试验,提取give it to go这个歌曲的音频帧能量(Energy)这个特征耗时仅为700多毫秒,提取了26062维特征

于是OPENsmile还是很有搞头的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值