三维声场(虚拟3D音频)学习总结(1):基本概念

      前言:这两年随着VR、IR概念的火爆,三维声场重建也成了向用户提供高逼真度浸入式体验的关键技术点之一。前两年研究过一段时间三维声场重建,大部分看过的paper的总结都陆陆续续遗失了,所以趁手边还剩一点、脑子里还剩一点,赶紧写下来吧,以免完全遗失了。这部分基于对一篇博士论文的学习,链接在此:http://xueshu.baidu.com/s?wd=paperuri%3A%281bad598554fcbd1b4c2a2c3465d6fef8%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fcdmd.cnki.com.cn%2FArticle%2FCDMD-10141-2010111292.htm&ie=utf-8&sc_us=10462086524468679680

       三维声场重建,也称为三维音频、虚拟3D音频、双耳音频等,主要是根据人耳对声音信号的感知特性,使用信号处理的方法对到达两耳的声音信号进行模拟,以重建复杂的空间声场。说的通俗点,把耳朵以外的世界看作一个系统(系统冲击响应为h(n)),那么任意一个声音源x(n),在耳膜处接收到的信号为x(n)和h(n)的卷积,也即声音源经过耳朵外系统的滤波输出,三维声场重建就是把两个耳朵接收到的声音尽可能准确地模拟出来,就能让人耳有听到三维音频的感觉了。

       人耳对立体声的感知也可以看作是对声源的定位,目前的理论大多基于该模型:声源传入左右两耳,会形成时间差(ITD)和强度差(ILD),另外,声音信号在耳外系统中传播时会形成音质的衰落(注:这个衰落不评价音质的优劣,仅指差异),人耳就是根据这些特征形成了定位能力。所以说,按照这个模型,如果人耳只有一个在工作的华,理论上就丧失了声音定位能力(类似于人眼的定位能力)。基于这一模型,人们用一个传递函数来描述耳外系统的特征,即头像关传递函数(HRTF),如下:

        从这个公式能看出点什么吗?(1)两个耳朵各自对应一个HRTF;(2)两个耳朵的HRTF看起来不一定相关。另外,HRTF还有一个特点,没法从这组公式直观地看出,那就是每个人的HRTF都不尽相同。这就引出了三维声场重建领域的两大研究方向,一大方向是通过事先测量,测出空间有限个点的HRTF数据库,然后拼命地用这个库尽可能地推算出整个空间的HRTF,另一大方向则是利用场的理论拼命地算出整个空间的HRTF。前者理论和实现都相对容易,但是无法保证对每个人都有效,会出现甲听着挺逼真、乙则觉得完全不着道;后者虽然理论上能保证对任意听者的有效性,但是理论复杂、计算代价高、准确度也有待提升。而工业界怎么做呢,工业界大多采用人工头(或双耳麦克风),直接录出两个声道(当然了,不一定必需传输两个声道的数据),性价比当然能高一些,这个方向也已经有些公司做出了效果不错的产品,不过不幸的是,山寨打法的苗头已现,就看谁先占住市场了。

       这一部分的务虚结束,下面来点实的,附上一张HRTF的测量方法示意图:

        附上3个学术界研究时常用的三个数据库:


        第一部分先到这里吧,改天再继续。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值