Acoustic研究(二)

今天看了下面这篇paper,现将相关知识点总结如下,以备不时只需查看。

其实声音一个很普通的名词,但是在我们的科学研究中,它包含了丰富的信息,我们可以使用声音做很多的事情,比如我们可以使用声音来识别人体的活动,位置的定位,谈话识别等,可见声音是一个包含丰富信息的一个东东,下面这个文章用声音做了啥呢?

SoundSense: Scalable Sound Sensing for People-Centric Applications on Mobile Phones

这篇文章主要讲:在手机以人为中心的可扩展升级的一个声音感知系统。主要是利用microphone来接收声音,并做一些处理,能为不同的应用提供需要。

文章主要通过接收声音,来做出一些感知,但是我们现实生活中的声音到处都能产生,我们不可能把所有的声音都收集来处理,再说也完全没有必要,以前的针对这样的尖锐的问题,一般都是限制操作的范围,也就是说,只是在一些环境下,系统才work,本文怎么处理的呢?作者说voice和music是我们日常比较常见的声音,而且也是特别容易学习的声音,所以作者采用了监督学习的方法,针对其他由于每个人产生的声音,作者采用了自适应非监督学习的算法,文章作者主要收集我们生活中有意义的声音来处理和分类。那问题来了,什么样的声音是比较有意义的呢?作者是这样做的,首先当系统收集到一个新的声音事件的时候,作者首先给用户一个反馈,用户根据这个声音是不是他care的声音,如果是那么就算一个比较有意义的声音,那么就会继续接下来的处理流程。

1、首先对收集到数据进行分帧,n个frame组成了一个window,我们提前特征来进行分类,主要就是从一个frame或者一个Window中提取,我们知道,一段语音信号肯定会有很多的frame,但是不可能每个frame都用来处理提取feature,因为有的frame是不包含有用的信号的,只是选取包含信号的frame来提取feature,文章主要使用频谱熵和能量测量来过滤掉一些 比如安静或者很难来处理的一些帧。


2、根据上一步提取的feature,然后先进行一个粗分类,主要分为三类(voice,music,ambient sound)如果有的应用只需要粗分类,那么到了这一步,我们就可以把这个提供了,也就是大功告成,但是往往我们需要更细粒度的事件,所以还要继续往下处理。

3、接下来能更加细粒度的分析,由于上一步粗粒度分析后,比如voice类里面,我们可以进一步分析是男还是女,music类里,我们可以进一步分析music的题材等。


评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值