最近在做暴力音频的检测,提取了4类音频特征52维,可是发现分类的效果并不好
我的结果如下
•Samplesize
training data800(half and half)
•Thetime consuming of extracting audio feature
586523 / 800 =733.15375(ms)
•Testing data
100 audio
•Recall = TP/(TP + FN)
R = 28 / (28 + 22) =56%
•Precision= TP/(TP + FP)
P = 28 / (28 + 10) =76.32%
•F1-Measure(F-score)= 2P*R / (P + R)
F-score =2*0.7632*0.56/(0.7632+0.56) = 64.61%
发现其实结果很糟糕0.76的准确率,最不能忍的是耗时间,800个音频居然需要500多秒于是使用了一下OPENsmile,做了下试验,提取give it to go这个歌曲的音频帧能量(Energy)这个特征耗时仅为700多毫秒,提取了26062维特征
于是OPENsmile还是很有搞头的