Extracting Emotions from Speech using a Bag-of-Visual-Words Approach阅读笔记

最新推荐文章于 2022-05-18 18:41:04 发布

xuyanyana

最新推荐文章于 2022-05-18 18:41:04 发布

阅读量226

点赞数

分类专栏：论文阅读笔记文章标签： emotion recognition BoVW Bag of Visual Word

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuyan1229/article/details/79565332

版权

论文阅读笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本科毕业设计中有包含音频情感分析的部分，所以师兄给了我这篇论文，让我阅读一下，看一下是否有可以借鉴的方法，顺便在这里做个笔记记录一下。

1、Bag-of-Word&Bag-of-Visual-Word

这个我是先在网络上找了一点资料看的，我感觉写的还不错的博客有

http://blog.csdn.net/h2008066215019910120/article/details/17512315

http://blog.sina.com.cn/s/blog_4cb0b54301014hxu.html

建议按顺序阅读，第一篇BoW解释得很清楚，但关于BoVW写的有点乱乱的。第二篇的时候就看懂了。

算法大致的步骤是这样的：选取合适的算法提取图像特征->用这些特征（数量为N）构建visual vocabulary->用同样的算法提取给定图片的特征->用合适的相似度量来将特征translate到最相近的visual word上->统计各个visual words出现的频率，画出直方图->选取合适的分类器算法分类

对了，论文中特意提到：尽管图像内的视觉词汇的布局信息通常被丢弃，但该方法并没有显着的视觉信息损失。然而，由于输入大小保持不变，应用例如任何常规分类器（例如神经网络或SVM）是微不足道的。

2、下面就要关注一下这篇文章是如何实现这每一步的了

1）图像是怎么来的

原始数据是音频图像。截取2s的长度，窗口大小40ms，步长20ms做短时傅里叶变换（STFT），得到音频的频谱图

大小：227x227

频谱计算方式：https://github.com/tyiannak/pyAudioAnalysis

2）特征提取

用规则网格对像素进行采样，然后提取Speeded-Up Robust Features(SURF)。

网格大小：8x8

3）情感分类

multi-class SVM classifier

4）数据库

EMOVO\SAVEE\EMO-DB

这篇论文的结果不是特别的好，主要评价了precision、recall和F1 score，具体结果有兴趣的自己看吧~

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。