本科毕业设计中有包含音频情感分析的部分,所以师兄给了我这篇论文,让我阅读一下,看一下是否有可以借鉴的方法,顺便在这里做个笔记记录一下。
1、Bag-of-Word&Bag-of-Visual-Word
这个我是先在网络上找了一点资料看的,我感觉写的还不错的博客有
http://blog.csdn.net/h2008066215019910120/article/details/17512315
http://blog.sina.com.cn/s/blog_4cb0b54301014hxu.html
建议按顺序阅读,第一篇BoW解释得很清楚,但关于BoVW写的有点乱乱的。第二篇的时候就看懂了。
算法大致的步骤是这样的:选取合适的算法提取图像特征->用这些特征(数量为N)构建visual vocabulary->用同样的算法提取给定图片的特征->用合适的相似度量来将特征translate到最相近的visual word上->统计各个visual words出现的频率,画出直方图->选取合适的分类器算法分类
对了,论文中特意提到:尽管图像内的视觉词汇的布局信息通常被丢弃,但该方法并没有显着的视觉信息损失。 然而,由于输入大小保持不变,应用例如任何常规分类器(例如神经网络或SVM)是微不足道的。
2、下面就要关注一下这篇文章是如何实现这每一步的了
1)图像是怎么来的
原始数据是音频图像。截取2s的长度,窗口大小40ms,步长20ms做短时傅里叶变换(STFT),得到音频的频谱图
大小:227x227
频谱计算方式:https://github.com/tyiannak/pyAudioAnalysis
2)特征提取
用规则网格对像素进行采样,然后提取Speeded-Up Robust Features(SURF)。
网格大小:8x8
3)情感分类
multi-class SVM classifier
4)数据库
EMOVO\SAVEE\EMO-DB
这篇论文的结果不是特别的好,主要评价了precision、recall和F1 score,具体结果有兴趣的自己看吧~