Extracting Emotions from Speech using a Bag-of-Visual-Words Approach阅读笔记

本科毕业设计中有包含音频情感分析的部分,所以师兄给了我这篇论文,让我阅读一下,看一下是否有可以借鉴的方法,顺便在这里做个笔记记录一下。

1、Bag-of-Word&Bag-of-Visual-Word

这个我是先在网络上找了一点资料看的,我感觉写的还不错的博客有

http://blog.csdn.net/h2008066215019910120/article/details/17512315

http://blog.sina.com.cn/s/blog_4cb0b54301014hxu.html

建议按顺序阅读,第一篇BoW解释得很清楚,但关于BoVW写的有点乱乱的。第二篇的时候就看懂了。

算法大致的步骤是这样的:选取合适的算法提取图像特征->用这些特征(数量为N)构建visual vocabulary->用同样的算法提取给定图片的特征->用合适的相似度量来将特征translate到最相近的visual word上->统计各个visual words出现的频率,画出直方图->选取合适的分类器算法分类

对了,论文中特意提到:尽管图像内的视觉词汇的布局信息通常被丢弃,但该方法并没有显着的视觉信息损失。 然而,由于输入大小保持不变,应用例如任何常规分类器(例如神经网络或SVM)是微不足道的。

2、下面就要关注一下这篇文章是如何实现这每一步的了

1)图像是怎么来的

原始数据是音频图像。截取2s的长度,窗口大小40ms,步长20ms做短时傅里叶变换(STFT),得到音频的频谱图

大小:227x227

频谱计算方式:https://github.com/tyiannak/pyAudioAnalysis

2)特征提取

用规则网格对像素进行采样,然后提取Speeded-Up Robust Features(SURF)。

网格大小:8x8

3)情感分类

multi-class SVM classifier

4)数据库

EMOVO\SAVEE\EMO-DB

这篇论文的结果不是特别的好,主要评价了precision、recall和F1 score,具体结果有兴趣的自己看吧~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值