基于三层网络的音频传输技术

最新推荐文章于 2025-03-08 21:37:24 发布

卢小满

最新推荐文章于 2025-03-08 21:37:24 发布

阅读量7.5k

点赞数 3

文章标签：以太网 c++

2013年3月专栏收录该内容

6 篇文章

订阅专栏

如今的数字传输系统已经相当的成熟，但是仍然有很多的专业现场演出音响系统采用传统的模拟线缆和配线架结构，用模拟线将舞台和调音台、功放等相互连接。体积庞大、连接复杂、设定繁琐以及不够灵活的应用方式和高昂的价格一直困扰着很多的专业技术人员。不仅仅是演出系统，其实很多其它的同行领域也有相似的经历：广播及录音系统、礼堂、剧场、政府机构会议室及法庭甚至是家庭录音系统等。当然我们有很多的成熟的数字传输技术可以使用，但是依然具有这样和那样的技术局限，今天向大家介绍的是一种全新的Dante技术。它是以IP数据结构在以太网中传递实时音频信号的技术，为点对点的音频系统连接提供了一种低延时、高精度和低成本的解决方案。

Dante是新技术，但是并不昂贵，它对性价比的平衡相信未来很多人都可以接受。Dante技术可以在以太网（100Mbit或者1000Mbit）上传送高精度时钟信号以及专业音频信号并可以进行复杂的路由。由于它使用IP数据包传送音频数据，并且可以和普通的PC机相互连接，使用同一个网络接口同时连接控制和音频数据，这些新的特性从刚刚听说那一刻起，就已经完全把我吸引了。

Dante采用了很简单的zoroconf（意思是Zero Configuration Networking，也就是无需人为去配置网络结构的协议，所有的配置都是自动完成的，下文有详细解释）协议，不但简化了网络的运行模式，更为整个音频系统提供了一个简单的路由方法。对于采用Dante技术的音响厂家还可以利用zoroconfi协议为它们的设备开发出一些网络的附加功能（购买了这个技术的厂家还可以获得包括音频处理器、操作系统对接以及FPGA编程方面的技术支持，但是我想这些应该是收费的吧）。

让我们回顾一下最近几十年来，可以被人们用来传输大数据量的开放的网络协议，包括了ATM、令牌网、FDDI、以太网以及英特网等。经过长时间的技术推广，目前赢得市场的只有基于以太网的TCP/IP协议（这里讲的TCP/IP是广义的TCP/IP协议集，通常包括数据层的IP协议以及网络层的TCP、UDP等）。大部分的硬件产品成本都在大幅下降，如网卡、交换机以及网线等，而技术进步也在飞速的发展，其稳定性已经达到了相当成熟的阶段。在没有发现Dante之前，我们就可以想象出使用IP/以太网技术传输音频信号的优势：

1、高性能。基于以太网的TCP/IP传输提供了越来越多的带宽，为多通道音频的传输奠定了基础。

2、经济性。可用于以太网的CAT5/5e/6类线、100/1000Mbits/s的交换机已经越来越便宜和好用。

3、用量大。以太网接口具有广泛的覆盖性，无数多的办公大楼甚至家庭内都已经具备了以太网接口，可以随意连接很多的TCP/IP设备。

4、成熟性。技术发展已经想当的成熟和开放，更多的技术公司、科研团体投入到基础的研究当中，被认定为国际标准的部分则世界通用。

5、扩展性。基于TCP/IP标准的网络协议集具有越来越多的附加扩展特性，能方便地解决网络备份、质量服务以及安全保障等特性。

6、延续性。未来的发展可以由大量的IP协议开发应用公司所承担，技术发展带来的高性能特性会一直推动这个协议集始终位于网络应用领域的最前沿。

尽管上述种种的优点，但是音响行业对于这类流行的以太网以及TCP/IP产品仍然心存疑虑，因为在太多人眼里，使用网络载体传输音频数据在我们行业的不利方面还很多，例如：网络不稳定、延时不确定以及丢包的现象等。这对于任何要求音频信号质量及延时的专业音响行业来说都是不可接受的。另外，复杂的网络设定和管理也是另外一个难点。所以当高科技与性能出现矛盾的时候，更多的人宁可选择传统的模拟的点对点的连线方式来传递信号。

一 Dante音频传输的解决方案

DANTE可以任由音频信号在以太网中使用TCP/IP方式任意传送，而且在这个过程中能保持信号的精确还原。下面的图一反应了DANTE网络的连接工作方式：

图一 Dante系统的连接示意图

音频信号通过专用转换器转换成TCP/IP网络信号并传送到网络中，音频信号以数据包的形式在网上路由到任意的输出转换器，并转换成模拟信号提供给扬声器或者记录设备。对于一些处理设备，如数字处理器和数字混音台等，则无需数字、模拟转换，而是直接在网络环境中处理数据包，并以相同的TCP/IP数据包返回网络中供其它设备使用。在这个过程中，每个设备不需要关心自己的信号要路由到哪里去，也无需关心这些信号是从哪里来，这大大减轻了断点设备的配置复杂性。全部的路由可以由一个专用的软件，使用一一对应的通道名称就可以完成这个路由过程，非常的简单。DANTE技术忽略掉了那些以太网对音频传输不利的因素，却巧妙地继承了以太网的经济、灵活和简单易用的特点，主要特点包括：

1、精确时钟同步和自愈系统，能保证一个最小化的网络延时用来满足专业音响的苛刻要求。这种方式还允许不同的传输流体采用不同的采样率在同一个网络中传输，这和以前我们使用的CobraNet及EtherSound完全不同。

2、Dante技术可以适应现有的网络结构，而无需为它做一些特殊的配置，网络接口可以任意地接入到网络中而不必关心它的走向。

3、采用Zeroconf技术，利用自动配置服务器自动查找接口设备、标识标签以及区分IP地址等工作，而无需启动高层级别的DNS或者DHCP服务，同时也省略了复杂的手工网络配置，也更不需要专业的IT工具包。

4、发送器和接收器可以放置到网络中的任何端点，移动这些节点也不需要对网络结构做任何的调整。

5、音频通道的传输模式可以是单播，也可以是多播，最大限度地利用已有的网络带宽。对于多播的数据包，采用了树形的分发方式传递数据，并且只将数据传送到那些希望接收到的接收器中，而不会到处广播。这样做可以大大减轻网络的带宽压力。

6、每一个输入到网络中的音频信号，都会以“标签”的形式进行标注，这样网络中的任何接收点，只要选择了这个“标签”就可以任意接收这路音频信号。这点和CobraNet技术的Bundle号码类似。

7、网络的高兼容特性，可以允许音频信号和控制数据以及其它毫不相干的数据流共享在同一个网络中而不受干扰，这样用户就可以最大限度地利用现有的网络系统而无需独立为音频系统建立专用网络。在Dante网络系统中可以加入现有的普通TCP/IP设备，如PC机。甚至允许加入一些廉价的软件，如混音器、处理器以及录音软件等，可以大大节省硬件开销。对其它网络设备兼容的特点早在CobraNet时期就有，但是由于CobraNet技术对网络带宽和抖动的敏感，所以兼容的其它网络设备不能使用过多的网络流量，如果流量过多将无法控制。而对于EtherSound技术来说，就根本无法容忍网络中的其它类型设备了，所以就无从谈起兼容问题。

8、对于扩展多节点输入/ 输出设备，具有成熟完备的解决方案。甚至可以将网络节点扩充到成百上千个。

9、为了避免意外导致的音频传输中断，可以设定多重自我修复机制，例如丢失时钟、某些网络交换设备或者网线的故障等。

10、兼容传递多种类型的同步数据流，例如MIDI、DMX512以及视频同步信号等。

二时钟与同步的解决方案

Dante在同一个网络中分发时钟同步信号以及音频信号和控制数据。为了避免时钟信号对音频信号传送的干扰，Dante的时钟管理从音频传送的过程中剥离出来，它采用了精密时钟传送协议，好处是尽管它与音频信号在同一个网络中，但是它的传送却不依赖于音频数据包而独立运作，这和现有的CobraNet以及Ethersound是不同的。这样做的好处是很多的：

1、由于时钟信号的分发不依赖于音频信号的采样率，所以不同采样率的音频信号可以在同一个网络中传递信号。这个特性对于低速率的各种同步信号的传递都有非常好的兼容性，例如视频同步信号、MIDI的时间戳以及灯光控制信号等等。

2、由于时钟信号不是来自于任何的音频数据流，所以任意更改音频路由信息都不会影响到时钟信号的分发。

3、不同的音频设备之间以及他们和基准时钟之间的延时受到网络速度、交换机数量等因素的影响会有不同，网络时钟协议会自动修正它们达到一个最佳的同步状态。

4、网络质量服务（QoS）可以进一步保障网络时钟协议的精确性，有效地避免了同步时钟数据包的抖动问题。这是保证网络中互传音频信号的节点之间精确同步的重要环节。

5、一般来说由于菊花链结构引起的时钟抖动都是叠加的，随着链路的增长而加剧，这在Dante网络中是当然不会存在了。

Dante系统采用了IEEE1588精密时钟协议（http://ieee1588.nist.gov/）进行时钟同步，网络中的每个音频设备都紧密跟踪这个基准时钟，基准时钟采用绝对时间标识。音频信号的采样频率跟随高解析度的时间拍，并将同步信息一起打包以UDP/IP形式传送（前面说过音频信号和时钟信号是分开进行的，和这里讲的共同打包并不冲突。因为时钟信号的解析度高，无论音频信号采用何种频率，都可以跟随时间戳的某个起始脉冲同步），这些数据包跟随绝对时间戳在网络中传递，确保网络中的任何位置的节点都可以以同一基准时间输出相同采样频率的源信号。由于每个网络音频接口的都是将本地时钟频率同步到了基准绝对时间，所以它们的数据包在打包和解包的过程中产生的数据量是完全相同的，这就不会因为缓存数据过载（或太少的数据引起的缓存旁路）引起同步损失而丢失音频数据。

IEEE1588协议的基准时钟是采用一种选举方式来确定哪个设备成为基准时钟发生器（Master Clock）和备用时钟发生器的，自动选举协议要保证基准时钟发生器提供非常稳定的时钟服务以及和备用时钟间的无缝连接。这也意味着那些预选的设备要有很精确的时钟振荡器。

图二同步时钟的分发

QoS机制是当今主流交换机最常用的国际标准之一，价格便宜而且操作简单。Dante正是利用了它去管理音频同步时钟信号，主要是解决了同步信号的网络抖动问题，这对于基准时钟信号是最重要的环节。利用DSCP（Differentiated Services Code Point，是IETF于1998年发布的Diff-Serv的QoS分类标准，它是在数据报头的服务类别TOS标识字节中，利用已使用的6比特和未使用的2比特字节，通过编码值来区分优先级、流量服务等.）将每个基准时钟的数据报头设定为最高优先级；之后就是音频数据，属于第二高优先级；控制信号和其它底层信号在最低的优先级。而像CobraNet这样的技术针对这样的问题只能采用802.1q VLAN报头去标识数据包，要对整个网络的每个设备进行配置，也就是为了完成DSCP的一个功能而已。现在的Dante采用了IP和DSCP双重技术，完全抛开了手工设定，工作量大大的减少。对于开启DSCP服务的以太网交换机，会按照一定的次序处理多重优先级的数据包，处于最高优先级的时间同步信号只需要很短的延时就可以快速穿过整个网络。整合了的QoS和Dante技术采用了先进的数据过滤算法以保障音频时钟信号在网络中精确地传输。当然如果你只需要传送几个不多的音频通道，而且网络带宽足够，即使没有QoS也没什么问题。

如图二所示，数字音频信号的传送必须叠加上一个采样时钟信号才可以传递，这个采样信号是来自它自身的时钟振荡器，但是这个振荡器必须时刻地和主时钟（Master Clock）进行同步，如果出现了偏差，Dante会自动调节本地时钟的增加或减少以保持和网络基准主时钟同步。由于Dante使用的这个IEEE1588精密时钟协议可以达到很低抖动的采样率（例如256倍超采样），所以才能真正做到高音质和低延时。

三音频传送

我们很长时间以来使用的以太网结构音频传输技术，都要向用户讲明必须使用以太网结构、必须保证100M的带宽、不能使用第三层设备互联、不能使用QoS等等先决条件，这些先天存在的不足在Dante系统里面不复存在了。早期的以太网络是构建在hub设备上的共享式网络结构，网络的全部端口共享10M或100M带宽，而如今已经是全双工工作下的交换式以太网，每对互联的端口独享100M或者1G的带宽，之前的网络冲突问题自然就消失了。

针对于CobraNet或者EtherSound技术来说，它们都是建立在完全或非完全以太网结构下的技术。CobraNet可以向网络中发送单播信号（Unicast）或者多播信号（Malticast），这个工作可以由以太网交换机来完成，当交换机将端口的MAC地址一一对应的时候，就是单播服务；而以太网交换机将信号全部复制后向所有端口广播的信号就可以完成多播的工作，不过在多播的前提下交换机是没有能力去选择端口的，也就是说它无法选择某些端口可以接受，某些不可以接受，除非你使用了VLAN技术，但是要知道一旦VLAN的划分确定以后，交换机就无法再进行跨越VLAN的多播了；而对于EtherSound来说，它虽然可以工作在以太网下，但是并由于它只是将一个总线式音频数据按照以太网数据包的长度进行了切割，并添加上了一个以太网数据报头，这个报头的数据都是固定而不能改变的，所以它无法进行单播服务，只能按照广播方式进行传输，这在完成以太网功能上具有先天的缺陷；而对基于三层技术的Dante看来，这个二层的难题是比较容易解决的。单播的方式和二层类似，只是使用了一对一的IP地址就可以完成单播，对于多播数据，则可以通过IGMP（Internet Group Message Protocol，它提供了网络的多点传送的功能，即将一个ip包拷贝给多个组内的主机）进行管理，IGMP可以根据接收点的需要过滤出哪些地址可以接受这个广播音频通道，哪些地址需要屏蔽这个广播音频通道，这使得多播音频的路由变得特别随意可控。

四网络延时

Dante的传输能力主要是取决于网络的带宽（100M还是1G）、发送与接收点的数量和位置以及单点还是多点传送等因素，不能一概而论。一般来说，如果构建一个相对灵活的单点/多点传送系统，如果采用千兆干线互联的交换机系统可以达到一个比较优良的性价比。借助于Dante的网络辅助诊断功能，在给定的单播/多播模式下可以快速地计算出IGMP管理流量及IP滤波器的情况，进而帮助用户确定这样的系统连接是不是符合要求。音频通道对带宽的消耗取决于音频信号的采样频率和分辨率（量化级数），如96KHz/24Bit要比48KHz/24Bit多消耗一倍的带宽。在网络中，网络延时和网络带宽是一个反比的关系，最小采样频率的一个音频通道在单播的情况下延时肯定是最短的。可以看出，随着传输的音频通道数量的增加或者高采样率/分辨率，网络延时会逐渐加大。和CobraNet以及EtherSound对网络带宽的要求不同，Dante可以允许用户在网络带宽和延时之间进行折中处理，也就是用户可以在传递信号的延时性能和带宽的经济性之间做出自己的选择，这在之前的系统中是怎么也做不到的。

下面的表格表示出了一个基本的音频信号以一倍或者多倍超采样（2倍就是96KHz采样，4倍、8倍类同）传输时，当网络利用率达到90%左右时网络可以承受的传输音频通道的数量（包含单播和多播的总和）以及相对应的网络延时。

网络带宽	每个数据包包含的音频通道	每个音频通道的采样率（倍）	总的传输音频通道数量	网络连接利用率	传送延时（μm）
100Mbps	1	1	3	89.86%	34
100Mbps	8	1	16	76.03%	37
100Mbps	2	2	10	83.52%	56
100Mbps	4	4	32	94.46%	103
100Mbps	8	8	56	89.71%	209
1Gbps	1	1	31	92.85%	22
1Gbps	16	1	304	89.74%	23
1Gbps	2	2	108	90.20%	43
1Gbps	4	4	300	88.56%	85
1Gbps	8	8	560	89.71%	171

从上表可以看出，对于不同的网络带宽和通道传输的需要，Dante系统可以自动调整可用的网络带宽，在网络传输安全的前提下尽量多的使用空余带宽，以降低传送延时。折中自动的匹配能力大大提高了网络的可用自由度，使用户不用再去担心流量对信号传输的影响，以及现有网络的资源负载承受力。由于Dante系统的音频传输和同步时钟是完全分开传送的，所以Dante可以自己去匹配网络负载的均衡，无论是100M、1G还是10G的网络。一般来说高速网络都是用来连接交换机之间的干线或者为一些特殊的节点。例如混音台通常要连接很多的音频通道，那么这个数字混音台使用的电脑（或硬件设备）的网卡应该使用1G或者个更高。

和以前的协议对比来说，早先的系统都是传输在底层的以太网的协议，有的是采用时槽传送技术，如CobraNet；有的使用有限的菊花链结构，如EtherSound，由于它们对音频信号的带宽控制和延时控制是固定的，所以对于少量音频通道的传送，也无法像Dante那样可以自动减低延时；对于超过设定的网络流量的音频信号，由于延时不能改变，所以信号都无法传送了。

将时钟同步信号和音频信号加以分离带来的另外好处就是，类似于普通PC机也可以加入到这个音频网络中来了：由于PC机运行在一个通用的操作系统上（如Windows），这使它很难在音频信号上与其它音频信号发送/接受装置同步（因为音频处理软件要通过操作系统的API和网卡通信，这个处理过程是不能精确同步的），此时的PC机却可以通过它网卡的缓存去匹配那些音频信号的同步头。这些过程只需要调整PC机这端的延时变化，而无需关心另外一端的发送/接受的延时，也就是说两端的同步自动计算而不需要提前告知对方。所以完全不同的设备间互相传递相同的信号，无论是单播还是组播都无需再进行同步协商而由各自来解决，减少了很多复杂的同步过程。

五音频的路由和控制

基于IP/以太网结构的令一个好处就是物理结构连接的灵活性，网络终端设备（DTE）和网络中继设备（DCE，这里指交换机）的端口间无需一一对应连接，只要DTE的网线插入到DCE的任何端口就可以被网络发现和识别，而且DTE之间的信号传递路径也是网络自动生成的，而无需用户去设定。这个看似简单的命题在Dante系统中是非常有用的。Dante使用的zeroconf技术使得工程商或者用户都无需再去理会IP网络的配置问题，例如地址分配或者为每一个音频网络段设定类似于DHCP、DNS的网络参数等，它们都会在zeroconf协议下自动完成。每个音频信号（即音频通道）以标签的形式标注各自的来历，并通过一个很小网络开销的服务探测协议分发这些信息。被分发的信息主要包括音频的采样率、量化级数以及通道数量等，这些信息本身的数据量很小，本来也没有必要跟音频信号一起打包传送。因此这些被服务探测协议分配的“信息标签”会快速而方便地传递到网络的各个角落，只要某个设备需要，那么真实的音频信息的传送连接也就很快而且容易地建立起来了。

在任意的网络端点可以使用网络共享音频浏览器界面轻松地查看、配置音频信号的路由。如图三所示，用户可以简单地浏览网络中现存的音频信号（通道）的名称并直接用鼠标拖拽到某个设备所需的通道上来。

图三音频路由过程变的特别简单

图三的界面是Dante的标准简洁界面，如果用户需要一些特殊的功能（电平表或者其它客户希望的东西），可以利用Zeroconf Framework进行简开发，过程非常地简单。

六技术对比

将专业音频信号以不压缩的格式进行高效短延时的传送是这个领域目前最前沿的技术，尽管相关的研究本来就一直在进行。我们所了解的数字传输技术之间有很多的是相通的，但是随着IT领域的不断渗透，相关的技术革新也就顺理成章。在不同的时期都有不同的代表性产品，我们今天虽然是在主要描述Dante，但这并不表明其它技术已经落伍或者被淘汰了，可能还相反，每种技术都有各自的应用领域和市场空间，我们只有深刻地了解他们之间的趋同和不同，才能在工程上更好地驾驭技术来为我们服务。从市场的应用角度讲，常见的数字传输技术主要有以下几种：

1、数字总线技术：所谓数字总线就是由一条线缆携带一个或多个数字音频通道在两个或多个音频设备之间来回传递的是技术。常见的协议规范例如AES3（也叫AES/EBU是在一个电缆中但方向传递2路音频信号的传输技术，常用在广播电台等设备中或者录音棚中，如早期的DAT设备），以及AES11（也叫MADI信号，是使用一条75欧姆同轴电缆传送超过48路的数字音频信号和同步控制信号的技术，常用在大型录音棚中，用于连接数字调音台和多轨录音机）等。这种技术基本上都是点对点的数据传送，传送距离比较近，配置起来比较复杂，所以使用环境比较单一。

2、菊花链结构：典型的就是EtherSound技术。其实使用菊花链结构的数据传递方式有好多种，只是目前我们更关注在以太网上如何利用菊花链结构而已。我们常见的IEEE1394协议（火线）就是一种菊花链结构，而EtherSound技术就是在这个基础之上发展起来的，典型连接图如图四。

图四菊花链结构的以太网传输系统典型图

由于这种结构的同步时钟是由第一个设备（Master）发出的音频数据包频率所决定，所以之后的所有音频必须使用相通的采样频率。同步信号间隔随着菊花链的叠加，会逐渐增大，所以这种自同步信号的同步是逐渐叠加起来的，当穿过以太网交换机以后，这个同步时间会叠加很多。

第二个问题就是这种以以太网机构封装的总线型数据在通过交换机的时候只能是但方向广播，换句话说交换机的一个VLAN上只能有一个端口是用来接收EtherSound数据的，并将这个数据广播发送到其它所有的VLAN端口。而且方向是单向的，只能使信号沿着一个方向传递，这大大限制了以太网结构的使用。尽管这个过程看起来类似于HUB的工作原理，但是这里还不能使用HUB，还必须使用全双工的交换机，因为它不但是复制数据，带宽也是复制的，所以要求每个端口要有独立的100M带宽。

最后一个问题就是由于所有的菊花链设备虽然可以接收以太网结构的数据包，但是对数据包的数据类型、包的大小等一切结构必须是完全一致的，所以它们是无法识别其它类型的以太网数据，这就意味着对其它以太网设备是不兼容的，这对于以太网结构来说是比较大的浪费。

3、星形时槽结构：典型的就是CobraNet技术。时槽传送方式是以太网时分多址技术的典型应用。它采用了交换式以太网的星形结构，如图五。

图五时槽传送以太网格式的音频信号

1、利用以太网的时槽传送定时数据包是以太网发展初期使用的技术，它对接收端的同步要求很高，所以设备的每个部分都要定制（例如CobraNet使用的CM-1或CM-2卡，都是由Cirrus Logic提供的专用接口卡或芯片）。PC机的精确度无法接收如此高的同步信号。从专业角度来看这是很强的功能，但是对于降低造价是比较困难的事情。

2、无论音频信息量多大，其占用带宽固定，音频的采样频率固定，延时也是固定的。对多种应用场合来说，带宽问题和第三方IP数据的冲突不能完全避免。尽管时槽的间隔可以传送其它非同步信息（CobraNet网络中是允许存在其它IP数据包的），但是由于同步数据包管理下的音频传送，其时隙是很精确的，所以“空余”的时槽大小是固定的，这对于不定长度和尺寸的非同步IP数据包来说，传送起来是无法预测的。所以当网络中出现其它不可控的大数据流时，CobraNet将变的不稳定。

3、用户配置比较专业和复杂。大型系统中，因为无法启动三层服务及QoS，所以几乎所有的冗余配置、VLAN配置、网关配置等等都要一个个手工配置，基本上是由网络公司的技术人员才能完成。

下表列出了几种不同网络传输特点的对比，给大家参考。