要想了解Spatial Audio(空间音频),我们首先要了解立体环绕声。
立体环绕声:通常是与双声道立体声相比,系指声音好像把听者包围起来的一种重放方式。这种方式所产生的重放声场,除了保留着原信号的声源方向感外,还伴随产生围绕感和扩展感(声音离开听者扩散或有混响的感觉)的音响效果。在聆听环绕立体声时,聆听者能够区分出来自前后左右的声音,即环绕立体声可使空间声源由线扩展到整个水平面乃至垂直面,因此可以逼真地再现演出厅的空间混响过程,具有更为动人的临场感。如果与大屏幕的电视或电影的图像结合起来,使视觉和听觉同时作用,则这种临场感就更逼真,更生动,因而更具感染力。
5.1和7.1声道
5.1是立体环绕声,7.1是更强大的系统,比5.1多两个声道。
什么是5.1声道
5.1声道已广泛运用于各类传统影院和家庭影院中,一些比较知名的声音录制压缩格式,譬如杜比AC-3(Dolby Digital)、DTS等都是以5.1声音系统为技术蓝本的,其中“5.1”声道,则是一个专门设计的超低音声道,这一声道可以产生频响范围20~120Hz的超低音。其实5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增加整体效果。相信每一个真正体验过Dolby AC-3音效的朋友都会为5.1声道所折服。
各种声场解码、声场技术中,最常见,或者说最标准的就是5.1声道输出,比如杜比5.1、DTS5.1、THX5.1等,其他标准的解码方式也都可以很好的通过5.1声道输出。5.1声道输出包括中央声道、前置主左/右声道、后置左/右环绕声道,及所谓的“0.1”重低音声道,总共至少可连接6个音箱。中央声道大部份时间负责重放人物对白的部份;前置主左/右声道则是用来弥补在屏幕中央以外或不能从屏幕看到的动作及其它声音;后置环绕音效则是负责外围及整个背景音乐,让人感觉置身于整个场景的正中央,万马奔腾的震撼、喷射机从头顶呼啸而过的效果,就是拜它所赐;而马达声、轰炸机的声音或是大鼓等震人心弦的重低音,则是由重低音喇叭一手包办。
什么是7.1声道
7.1声道系统的作用简单来说就是在听者的周围建立起一套前后声场相对平衡的声场,不同于5.1声道声场的是,它在原有的基础上增加了后中声场声道。7.1声道有双路后中置,而这双路后中置的最大作用就是为了防止听者因为没有坐在皇帝位而在听觉上产生声场的偏差。
因为人的耳朵分左右两个,这时如果你的后面只有一个中置喇叭,声场就会有所偏差,这个偏差会造成有时你觉得声音是比较靠近左边,因为你左耳先收到声音,有时又会觉得声音在右边,而且声场不会有立体感,几乎是很平面的声音,听起来不对劲。
道理是:当你的耳朵正面不是正对着发音点时,你需要两只喇叭来修正相位差,这是为什么听音乐要至少用两只喇叭(立体声)。 所以,用两个后环绕喇叭所能营造的音场与相位是家庭影院领域里更高级的配置。
7.1环绕其实是虚拟的,实际上只有5个音区(左前方环绕、右前方环绕、中置环绕、左后方环绕、右后方环绕)。剩余2个音区(左环绕、右环绕)是从主音区分配来的。
Spatial Audio(空间音频)简介
要了解如何营造一个Spatial Audio的声音,我们需要先来了解一下在现实的三维空间中,声音具有哪些最基本的特性。
一、声音的方位感
人们对声音方位感的判断主要有4个依据:时间差、声级差、人体滤波效应和头部晃动
1. 时间差(interaural time difference, ITD):
根据声源与双耳距离的不同,声音到达左右耳的时间会有一个差值,这个差值就叫做时间差。
2. 声级差(interaural level difference, ILD):
由于头部的遮挡,到达左耳与右耳声音的声压级是不同的,会形成声级差。
在800Hz以下,声音可以绕过头部,因此头部的遮挡对声压级的影响较小,时间差起到主要的定位作用;800Hz到1500Hz是一个过渡性区域;而1500Hz以上,高频的声音会被头部遮挡,所以主要由声级差来判断方位。
3. 人体滤波效应:
人的头部、肩颈、躯干,会对来自不同方向的声音产生不同的作用,形成反射、遮挡或衍射。尤其是外耳,通过耳廓上不同的褶皱结构,对来自不同方向的声音产生不同的反射或遮挡,形成不同的滤波效果,大脑通过这些不同的滤波效果产生对声源方位的判断。
4. 头部的晃动:
当一个声源的位置难以判断的时候,人们常常会不自觉的轻微晃动头部,使时间差、声级差或人体滤波效应产生变化,并依据这些变化进行快速的重新定位。
下面我们可以根据这四个要素,从三维坐标的角度去理解声音是如何被定位的
Y轴 - 左右定位:时间差 + 声级差 + 头部晃动
左右定位最容易得到,凭借时间差和声级差就可以对声源位置有一个良好的判断。当然一些情况下我们还是需要晃动头部来进行辅助定位。
X轴 - 前后定位:人体滤波效应 + 头部晃动
当一个声音从正前方或正后方传来的时候,声源与左右耳的距离相同,没有了双耳间的时间差和声级差,我们只能通过人体滤波效应和头部晃动来进行判断。来自前方的声音,除了直达声,还有一部分来自耳廓的反射声进入耳内。而来自后方的声音,高频部分被耳廓所遮挡,低频部分经过绕射进入耳内。
此外人们可以通过转动头部,把正前方或正后方的声音相对的移动到侧面,这样就使得左右耳之间的声音出现了时间差和声级差,便于定位。
Z轴 - 上下定位:人体滤波效应 + 头部晃动
耳廓上的褶皱会对来自不同高度的声音进行不同反射,是我们对声源高度判断最主要的依据。
同时我们也可以通过晃动头部,使左右耳之间的时间差、声级差产生变化。帮助我们更精确的判断高度位置。
在现实中,声源位于三维的空间中,通常都需要我们综合上述所有的方式去判断方位。时间差、声级差、人体滤波效应这三个要素可以被综合的表述为头部相关传输函数(head-related transfer function, HRTF),这项技术构成了绝大部分3D声音定位技术的基础。头部晃动虽然并不是一个决定性因素,但是无论在哪个方向上,都对我们判断声源的位置有着极大地帮助。
二、声音的空间感
室内声场有3个组成部分:直达声、早期反射声和混响声。人们对于声音的空间感主要是依据早期反射声和混响声来建立的。
1. 早期反射声
首先直达声与早期反射声之间的初始延时大小决定了我们对空间大小的感知。同时,早期反射声会来自三维空间内各个方向,通过HRTF信息,我们也可以感知到不同方向早期反射声不同的延时和响度,这有助于我们判断声源的位置和距离。另外,也能够让我们在一定程度上感知到自己在空间中所处的位置。所以,建立一个3D的早期反射声对我们构建一个3D的空间感是尤为重要的。
2.混响声
声音在空间中不断反射、衰减,形成了均匀、密集的混响声,混响的时间、密度反应出了整个空间的声学特性,与直达声、早期反射生共同建立起室内声场。这是一个经过多次反射的、没有方向性的声音,当然没有方向性也就是说它会来自3D空间内的各个方向。
了解了以上这些声音的属性,我们就可以来讨论Spatial Audio的两个要素了。
- Spatial Audio的第一个要素:3D
什么是3D音频呢?传统的5.1 Surround可以把声音展现在一个水平面上,声音定位具有了前后、左右两个维度,我们可以称其为2D音频。当一个音频同时还具有上下维度的时候,这个音频我们就可以认为它是3D的。要实现3D音频,可以通过两种方式:Multi-Channel;或者是Binaural Audio(双耳音频)。
Multi-Channel 3D主要应用在影院中,比如Dolby Atoms和Auro 3D都是通过在多通道环绕声的基础上增加置顶扬声器来实现3D效果的。而Binaural Audio则是利用上文中提到的HRTF技术,模拟左右耳间时间差、声级差和人体滤波效应,再通过耳机进行重放来实现3D效果。
- Spatial Audio的第二个要素:对头部运动的实时反馈
在现实的三维空间中,当我们的头部发生转动或位移,声源本身的绝对位置不会改变,而声源与头部相对方向会产生变化。举一个例子:在你前方有一把吉他正在演奏,如果你转向右边,吉他的声音就会相对的变到你的左边。另一个例子是比如舞台左侧有一把吉他,右侧有一支萨克斯,当你移动到舞台的侧面,吉他与萨克斯的声音会重合到一起,来自同一个方向。
目前可以实现的是VR可以通过激光定位、陀螺仪这些感应器进行头部追踪(Head Tracking),来达到虚拟现实的效果。当然我们也可以将这些头部追踪的数据应用到我们的空间音频当中去。结合头部追踪数据和HRTF算法,就可以实现音频对头部动作的实时反馈。也就是说当我们在转头或者移动头部的时候,我们听到的音频会根据我们头部的方位相对变化,做出符合现实的情况反馈。