《Predictive and Adaptive Deep Coding for WirelessImage Transmission in Semantic Communication》_predictive and adaptive deep coding for wireless i-CSDN博客

本文链接：https://blog.csdn.net/weixin_47649129/article/details/139176331

《语义通信中无线图像传输的预测自适应深度编码》

发布在：IEEE TRANSACTIONS ON WIRELESS COMMUNICATIONS（IEEE无线通信汇刊）

IF 10.4

摘要

语义通信是一种新兴的通信范式，它利用深度学习（DL）模型来实现信源编码和信道编码等通信过程。最近的进展表明，基于DL的联合信源信道编码（DeepJSCC）可以实现令人兴奋的数据压缩和噪声弹性性能的无线图像传输任务，特别是在低信道信噪比（SNR）的环境中。然而，现有的基于DeepJSCC的语义通信框架仍然不能实现针对不同信道SNR和图像内容的自适应码率，这降低了其灵活性和带宽效率。在本文中，我们提出了一个预测和自适应深度编码（PADC）框架，实现灵活的码率优化与给定的目标传输质量要求。PADC是通过启用可变码长的DeepJSCC实现的（DeepJSCC—V）模型，用于根据图像传输任务的内容、信道信噪比（SNR）和压缩比（CR）值来预测图像传输任务的峰值信噪比（PSNR）值，CR优化器的目标是找到具有PSNR质量约束的最小数据级或实例级CR。通过使用上述三个模块，PADC可以以最小的CR传输图像数据，这大大提高了带宽效率。仿真结果表明，所提出的DeepJSCC—V模型可以实现类似的PSNR性能与最先进的基于注意力的DeepJSCC（ADJSCC）模型相比，所提出的OraNet模型能够预测高质量的PSNR值，平均误差低于0.5dB。实验结果还表明，对于不同信道信噪比和图像内容的无线图像传输任务，所提出的PADC可以使用几乎最小的带宽消耗，同时保证每个图像数据的PSNR约束。

一、介绍

在无线通信系统中，信源编码和信道编码是分别用于提高通信效率和可靠性的两种常用技术。通常，信源编码通常在应用层进行，通过减少原始信源数据的信息冗余，有助于减少数据量。对于图像数据压缩任务，传统的信源编码方法主要使用以下三个步骤来减少数据量：变换、量化和熵编码，例如众所周知的基于离散余弦变换（DCT）的联合图像专家组（JPEG）[1]和更好的便携式图形（BPG）[2]标准，以及基于离散小波变换（DWT）的JPEG2000标准[3]。信道编码一般工作在物理层，并且其主要用于通过使用错误检查或错误校正编码技术来提高传输可靠性，例如低密度奇偶校验码（LDPC）[4]、极化码[5]和Turbo码[6]。在传统的通信系统中，上述两个编码过程被实现为两个单独的功能模块或块，并且这种实践有助于以灵活的方式设计、开发和维护通信系统。从系统级最优性的角度来看，上述可分离或分层的信源信道编码范式实际上是次优的，因为它是独立设计和优化的，而没有考虑相互影响，因此不能协同工作以实现最佳的整体通信容量[7]。例如，信源解码模块假设其输入码来自零误码率信道，则恢复结果的质量将大大降低。这个问题被称为“悬崖效应”，并且它广泛存在于传统的无线通信系统中[8]、[9]、[10]。

为了解决上述问题，已经提出了联合信源信道编码（JSCC），其通过联合设计和优化信源编码和信道编码过程来实现编码过程的系统级最优性[11]、[12]、[13]。由于近年来深度学习（DL）的进步，我们可以使用DL模型强大的数据压缩和噪声弹性功能来实现具有一个DL模型的端到端JSCC过程[14]，[15]，[16]，并且最近的进展表明，基于DL的JSCC（DeepJSCC）方法，特别是基于深度自动编码器的JSCC方法，可以在数据压缩和传输可靠性方面实现令人兴奋的能力，用于各种无线数据传输任务，例如图像[9]，[17]《说文》：“言也。对于无线图像传输任务，在传统的通信范例中，可以首先通过使用JPEG/JPEG2000源编码方法来压缩图像，然后通过使用诸如LDPC的信道编码方法来将图像变换为抗噪声信道码。在接收端，当信道信噪比不太低时，通过相应的信道解码和信源解码过程，可以无差错地恢复出传输的比特。在DeepJSCC框架下，信源信道编码和解码过程分别由编码器和解码器共同完成，编码器—解码器对（EDP）以端到端的方式训练，沿着不可训练的物理信道。通过这种方式，整个无线传输过程从原始输入图像数据和恢复的输出图像数据进行优化，因此是全局最优的，最近的工作表明，这种DeepJSCC使能的无线传输方案与传统的JPEG/JPEG2000方法相比，可以实现上级的数据压缩性能。此外，与传统通信方案相比，它可以实现对信道噪声的显著可靠性性能改善，特别是在低SNR状态下[9]，[19]，[20]。

在[9]中，基于深度卷积神经网络的自编码器首次用于实现无线图像传输的联合信源信道编码，最近的进展表明，通过使用信道输出反馈[10]和细化传输方法[21]，[22]可以进一步增强DeepJSCC模型的能力。然而，作为一种新出现的方法，上述提出的DeepJSCC模型存在以下两个问题：·SNR自适应问题：由于每个DeepJSCC模型都是用特定的信道SNR训练的，因此所获得的DeepJSCC模型是信道专用的，并且只有当信道SNR与其对应的训练SNR相似时，它们才能实现无线图像传输任务的最佳性能。例如，使用等于12dB的信道SNR训练的DeepJSCC模型仅在测试SNR接近12dB时表现良好，否则性能将大大下降。由于信道SNR在低SNR和高SNR状态下都可能变化，因此我们需要准备几个DeepJSCC模型来覆盖整个SNR状态。·

CR适应问题：DeepJSCC模型的容量也受到所获得的语义代码的CR的影响与。SNR自适应问题类似，DeepJSCC模型使用一个专用CR进行训练，因此获得的语义代码（SC）的长度是固定的，并且不能像其他代码长度那样改变。然而，在实际应用中，对于不同的信道信噪比和图像内容，我们需要动态地调整码长以节省保存带宽。为了满足这一要求，我们需要准备几个具有不同CR的DeepJSCC模型来调整CR。由于上述两个问题，需要训练多个DeepJSCC模型以覆盖所有信道SNR和CR状态。例如，如果我们将信道SNR分为以下8个等级{0，3，6，9，12，15，18，21} dB，将CR分为以下5个等级{0.1，0.2，0.3，0.4，0.5}，则需要准备5 × 8 = 40个DeepJSCC模型，这大大增加了DeepJSCC模型的训练和部署成本。此外，即使我们准备了足够多的使用不同信道SNR和CR训练的DeepJSCC模型，我们仍然无法实现具有质量约束的特定图像传输任务的自适应速率控制，因为恢复图像的质量对我们来说是未知的。

为了解决SNR自适应问题，Xu等人。[23]提出了一种基于注意力模块的DeepJSCC模型（ADJSCC），可以在不同的信道SNR条件下调整学习的图像特征。ADJSCC由[24]中的压缩比和信道编码速率优化方法激发，并利用挤压和激励模块[25]来调整不同SNR条件下的学习图像特征，以最大化图像重建质量。更具体地，除了常用的卷积块（Convblocks）和反卷积块（TransConv—blocks）之外，引入注意特征块（AFB）以自适应地调整Conv—blocks或TransConv—blocks之后的学习特征的信号强度，使得编码器和解码器可以调整分配给信源编码/解码过程和信道编码/解码过程的编码资源。当信道SNR较高时，分配给信道编码/解码的编码资源可以相对较低，并且分配更多的资源用于信源编码/解码以提高数据压缩效率。相反，当信道SNR较低时，更多的编码资源可以用于信道编码/解码，以增强传输可靠性。因此，减少了分配给信道编码的编码资源。仿真结果表明，一个单一的ADJSCC模型实现的PSNR性能是相同的多个JSCC模型实现不同的训练信噪比的最高PSNR。因此，ADJSCC可以有效地解决SNR自适应问题。为了解决CR自适应问题，Yang等人[26]提出了一种用于无线图像传输的具有自适应速率控制能力的DeepJSCC方法（DeepJSCC—A）。在DeepJSCC—A中，通过使用两个单独的编码器进行信源编码和信道编码过程，并且输出语义代码被分为以下两部分：可以用于传输的活动或非活动的选择性特征，以及始终用于传输的非选择性特征。引入策略网络，用于确定哪些选择性特征与非选择性特征一起沿着传输。仿真结果表明，DeepJSCC—A能够根据不同的信道信噪比和图像内容实现自适应码率。然而，DeepJSCC—A仍然存在以下缺点：首先，DeepJSCC—A在选择特征时不能支持任意CR，并且速率选择非常有限。其次，非选择性特征将总是占据编码资源的大部分，因此编码速率不能低于阈值，例如文献[26]中的0.25，这进一步减少了速率选择。第三，虽然DeepJSCC—A可以根据信道SNR和图像内容调整速率，但它无法预测传输图像的PSNR质量，因此无法在目标PSNR约束下灵活控制传输质量。第四，在CIFAR10数据上的仿真结果表明，与使用特定CR训练的ADJSCC相比，DeepJSCC—A无法获得等效的性能，特别是在高信道SNR状态下。作为结论，我们可以看到DeepJSCC—A仍然没有有效地解决CR适应问题。在传统的通信系统中，通常的做法是发射机根据实时信道条件来调整传输数据速率。例如，当使用LDPC作为信道码时，当信道SNR相对较低时，我们可以使用相对较低的数据速率来增强抗噪声能力[27]。此外，使用较小的调制阶数也有助于提高传输可靠性。实现上述自适应速率控制过程依赖于诸如误码率（BER）和误块率（BLER）之类的传输性能如何受信道SNR影响的知识，并且该知识可以是预先公式化的或已知的。然而，在语义通信中，即使我们有具有灵活速率调整能力的DeepJSCC模型，自适应速率控制仍然不能很好地解决，因为传输质量受到信道SNR、CR和数据内容的共同影响，并且传输质量与这三个因素之间的关系非常复杂且难以用公式表示。如果我们想优化每一个单一的图像传输任务的传输速率，我们必须知道的传输质量，通过共同考虑这三个因素的影响，否则，传输质量不能得到保证。因此，除了SNR自适应和CR自适应问题之外，还需要解决传输质量预测问题，以使发射机能够对每一次传输实现传输质量保证的速率控制。

为了解决传输质量预测问题，我们提出了一种Oracle网络(OraNet)，它能够联合考虑信道SNR、CR和图像内容来预测单个图像传输任务的高质量PSNR。通过利用这一能力，OraNet可以进一步用于预测给定信道信噪比和图像内容的最佳CR值，并且优化后的CR值可以用于指导DeepJSCC-V模型调整码长。借助DeepJSCC-V和OraNet模型，提出了PADC框架下的数据级CR优化和实例级CR优化。数据级CR优化问题的目标是在保证所有图像的平均PSNR不低于给定的目标阈值的条件下，最小化所有图像数据的CR。实例级优化是一个新的问题，在现有的工作中还没有被研究过，它的目标是最小化每一幅图像的CR，同时保证其传输质量。这两个优化过程都可以用于提高启用DeepJSCC的无线图像传输的带宽效率。·我们使用CIFAR10数据和ImageNet数据来训练所提出的DeepJSCC-V和OraNet模型，并使用CIFAR100和柯达数据集来测试所提出的PADC框架的性能。实验结果表明，与目前最先进的ADJSCC模型[23]相比，所提出的DeepJSCC-V模型可以获得相似的PSNR性能和更高的传输效率，并且所提出的OraNet模型可以根据图像内容、信道SNR和CR获得高质量的PSNR预测结果。特别是，通过查询OraNet得到的结果表明，所提出的PADC找到了几乎最小的满足PSNR要求的CR配置。

本文的其余部分组织如下：第2节说明了所提出的PADC框架的框架，第3节介绍了所提出的方法的仿真结果，沿着了所使用的DeepJSCC—V和OraNet模型的网络架构。最后，第四部分对本文进行了总结。记法：Cn和Rn分别表示总维数为n的复数据和真实的数据。x <$CN（μ x，σ 2 x）表示变量x遵循具有平均值μ x和σ 2 x的圆对称复高斯分布。粗体字的变量表示它们是矩阵或向量。a·B表示向量a和B的点积。最后，E [x]表示变量x的期望值，I表示单位矩阵。

二、预测和自适应深度编码

在这一部分中，我们详细阐述了提出的PADC方法的框架，包括系统模型、PADC框架、模型训练和自适应码率控制。

A、系统模型

我们考虑一个DeepJSCC使能的无线图像传输系统，我们的目标是在一定的信道SNR和数据压缩比条件下，从接收到的SC重建原始目标图像数据，在接收端具有最小的失真。DeepJSCC模型由可训练编码器Eφ、不可训练物理信道和可训练解码器Dθ组成，其中φ和θ分别表示编码器参数和解码器参数。将需要传输的N维原始数据表示为x ∈ RN，它将首先被编码为K维复杂语义码（SC）z ∈ CK，如由下式给出的

我们考虑一个DeepJSCC使能的无线图像传输系统，我们的目标是在一定的信道SNR和数据压缩比条件下，从接收到的SC重建原始目标图像数据，在接收端具有最小的失真。DeepJSCC模型由可训练编码器E φ、不可训练物理信道和可训练解码器D θ组成，其中φ和θ分别表示编码器参数和解码器参数。将需要传输的N维原始数据表示为x ∈ RN，它将首先被编码为K维复语义码（SC）z ∈ CK，如下所示：

其中γ表示信道SNR，R = K/N表示输入图像数据的CR。在功率归一化之后，所获得的SC将在物理信道上被发送并且随后由接收机接收，并且被加性白色高斯噪声（AWGN）破坏，如由下式给出的：

其中h ∈ C表示信道增益系数，并且n ∈ CN（0，σ 2 I）表示具有功率σ 2的独立同分布（i.i. d）AWGN样本。对于不考虑信道增益h影响的AWGN信道，传输模型简单地由下式给出：

最后，解码器从接收到的SC_z中恢复数据，并且结果可以用公式表示为：

在上述DeepJSCC启用的语义通信过程中，信道SNR对最终重建图像的质量有很大影响。信道信噪比一般由噪声功率σ 2决定，而噪声功率σ 2主要由物理信道中的自然噪声和干扰引起。在本文中，我们假设物理信道噪声是AWGN，并且为了量化物理信道的质量，我们定义SNR如下：

其中Pz表示SC的平均功率，并且在实践中，我们将使用功率归一化操作来确保其等于有界值，例如Pz =1。为了满足这个功率约束，SC z需要被归一化以满足条件1 KE[z <$z] ≤ Pz，其中z <$z表示z的合取转置。通常，具有较低SNR的物理信道意味着与SC功率相比相对较高的物理噪声功率，与相对较高的物理信道SNR相比，最终恢复结果的质量将较低。

B、拟议的PADC框架

为了同时处理CR自适应和SNR自适应问题，如图1所示，在本文中，我们提出了一种称为预测和自适应深度编码（PADC）的新型DeepJSCC框架，它由一个可变代码长度的DeepJSCC组成。（DeepJSCC-V）模型，用于具有灵活码长调整能力的联合信源信道编码，Oracle网络（OraNet），用于预测具有特定信道SNR和压缩比（CR）信息的重建图像的质量;以及CR优化器，用于在给定PSNR约束的情况下最小化传输数据速率。上述三个模块的设计原理如下：

1)DeepJSCC-V：

DeepJSCC-V网络架构的设计原理与ADJSCC相同，它利用注意力特征模块根据不同的信道SNR调整学习的特征，使得编码器和解码器模型可以解决SNR自适应问题。主要区别在于，所提出的DeepJSCC-V模型具有用于解决CR自适应问题的SC掩码过程，并且它训练模型以自动方式调整具有不同CR的深度编码过程。我们将从编码器获得的SC表示为zo = Eφ（x，γ），并且zo ∈ CKmax，其中Kmax表示最大允许SC长度。Kmax可以设置为一个相对较大的值，这样我们可以有更多的CR选择，本文建议设置为Kmax = N/2，这样最大CR值为0.5。然后，通过使用表示为α ∈{0，1}Kmax的二进制SC掩码向量（SCMV）对SC zo进行掩码，以调整其长度。更具体地，给定期望CR R ∈（0，1]，我们可以知道对应的码长是K = RN/2，其中·表示舍入操作。注意，复杂语义符号由从编码器获得的两个实值语义特征表示。然后，元素αi的值设置如下

然后，SC掩码操作由下式给出：

其中·表示点积运算。当αi =1时，将选择第i个码或符号进行传输。换句话说，SC的前K个元素将被选择为掩码SC（MSC），然后被发送到接收机。当MSC被接收方接收时，需要用0个元素对其进行扩展，以确保其维数仍为Kmax。我们可以简单地在接收到的MSC后面填充Kmax-K个零元素，然后扩展的SC可以被发送到解码器以重建输入图像。我们将接收到的SC表示为Czz，则我们可以具有以下填充的SC z =[Czz，0]T ∈ CKmax。最后，恢复结果可表示为λ x = Dθ（λ zo，γ）。请注意，在DeepJSCC-V中，编码器输出zo和解码器输入zo的尺寸都固定为Kmax，因此CR R不作为编码器和解码器的变量。

编码器的输出zo也可以是具有形状NH × NW × Nc的三维数据，其中NH、NW和Nc分别表示宽度、高度和通道。在这种情况下，SCMV α可以是长度为Nc的二进制向量，并且给定码长K，将选择前K个信道进行传输。例如，当K =8时，这意味着前8个信道将被选择为MSC，剩余的信道将被放弃。

图2示出了所使用的JSCC-V网络的架构，其由以下三个块组成：残差卷积块（RCB）、注意力特征块（AFB）和残差转置卷积块（RTCB）。残差结构有助于增强联合信源信道编码能力，同时提高模型训练过程的收敛速度[28]。卷积层或反卷积层之后使用的归一化操作是基于局部分裂归一化的广义归一化变换（GDN），这对于处理图像压缩和密度建模任务是有效的[29]。卷积层或反卷积层由参数m × n × c表示|s，其中m、n和c对应于所使用的卷积核的宽度、高度和输出通道，符号↓和↑分别表示下采样操作和上采样操作，参数s表示步长。AFB的架构与[23]和[25]中的AFB相同。

在编码器的最后一次AFB之后，我们可以获得形状为H/4 × W/4 × 48的语义特征数据，然后我们可以知道最大码长为Kmax = 3 HW/2。给定指定的CR_R，我们可以知道前2K = 2个RKmax信道将被选择为MSC。MSC将被展平为向量并被变换为K维复SC，即z ∈ CK。以与[9]相同的方式，复SC通过下面的等式<$z =<$KPz z z <$z来归一化，其中z <$z表示z的合取转置，并且Pz表示平均发送功率约束。以这种方式，SC的平均发射功率可以满足以下约束：

2）OraNet：

OraNet是一种旨在通过联合考虑通道SNR γ、CR R和SC zo来预测重建图像质量的网络。特别地，SC z0是原始输入图像的提取特征，并且注意，其总维度对于具有不同尺寸的输入图像可以是不同的。与原始输入图像数据相比，SC zo对图像内容的压缩更简单，便于OraNet学习重构图像质量与图像内容之间的关系。如果我们使用原始图像数据来预测质量值，我们将需要一个更大的模型来理解复杂的图像内容，并且计算复杂度将大大增加。为了进一步降低复杂度并保持维数稳定，本文将SC zo的通道平均（CWM）μ z和通道标准差（CWSTD）σ z作为图像内容特征来预测重建图像的质量。例如，假设SC zo的形状为48 × 8 × 8，即它有48个通道，并且在每个通道中，宽度和高度都是8。因此，我们可以知道μ z和σ z的维数都是48，总共有96个图像内容特征值。在模拟部分，我们将进一步提供一些示例来演示为什么CWM和CWSTD特征可以用于预测图像质量。图像质量度量可以被设置为可以量化最终重建图像的质量的任何合适的度量。在本文中，我们使用常用的峰值信噪比（PSNR）作为图像质量度量，并且它将输入图像x和重建图像x之间的失真公式化为：

其中MAX表示图像的允许峰值像素值。由于使用的图像是每像素8位，因此我们可以知道信号峰值为MAX = 28 − 1 = 255。更高的PSNR意味着更好的恢复图像的质量，因为MSE变得更低。将G ω表示为由ω参数化的OraNet模型，则预测的图像质量可以表示为PSNR = G ω（μ z，σ z，γ，R）。

图3显示了所使用的OraNet模型的架构，它主要由两个剩余的全连接块（RFCB）组成。该模型利用两个RFCB有效地提取了用于预测PSNR的代表性信息，并利用一个全连接层来获得预测的PSNR输出。在FC层后面添加了一个ReLU激活函数，因为我们希望确保预测的PSNR值大于0。一般来说，OraNet的复杂度比DeepJSCC—V模型低得多，因此其推理效率要高得多。

3)CR优化器：

通过训练的DeepJSCC—V和OraNet模型，我们可以在给定的PSNR约束下最小化CR值以提高带宽效率。由于PSNR约束的不同，CR优化问题可以分为以下两个层次：

a）数据级CR优化：

假设SNR水平和CR水平的数量分别为NSNR和NCR，我们可以通过使用测试数据样本获得NSNR × NCR大小的PNSR性能表QD（γ，R）。在该问题中，PSNR约束是确保所有重构图像的预期PSNR值低于目标PSNR值PSNRth，如由下式给出的

由于我们只有NSNR × NCR可行解，因此上述问题可以通过穷举搜索过程容易地解决。通过这种方式，我们可以为所有传输的图像获得优化的CR值，而不管图像内容的影响。上述问题与传统传输系统中的CR自适应问题非常相似，传统传输系统根据无线信道条件优化编码速率，并且在这种情况下不需要图像内容。通过一个训练好的DeepJSCC-V模型，我们可以实现DeepJSCC支持的无线图像传输任务的数据级CR优化。如果我们有足够多的ADJSCC模型用不同的CR训练，我们也可以实现数据级优化，但与DeepJSCC-V相比，这将导致更高的训练和部署成本。

B）实例级CR优化：

在该问题中，PSNR约束是保证每个单个重建图像的PSNR不低于目标PSNR值PSNRth。我们可以使用OraNet模型来预测PSNR值，通过联合考虑CWM特征μz、CWSTD特征σz、信道SNR γ和CR R，然后给出优化模型，因为CWM μz、CWSTD σz和信道SNR γ都是给定的，并且Gω（μz，σz，γ，R）是R的单调递增函数，即当数据压缩比R不够大时，相对较大的R值将产生相对较高的PSNR值。因此，上述问题也可以通过查询OraNet轻松解决。更具体地，我们可以将CR状态划分为以下L个CR水平R1，...，RL，然后我们可以计算所有CR水平的相应PSNR预测，并选择满足PSNR约束的最小CR R值作为优化结果。使用二分搜索过程来找到更准确的CR值也是实用的。利用优化的CR R_R，DeepJSCC-V模型然后可以使用最小的数据速率来传输具有PSNR约束的图像数据。需要强调的是，实例级CR优化是一个新的问题，以前没有考虑过。

需要强调的是，实例级CR优化是一个新的问题，以前没有考虑过。在传统的稀疏通信系统中，它是不适用的，我们调整CR考虑的图像内容的影响，但它可以实现所提出的PADC使能的语义通信系统。特别是，由于实例级CR优化使我们能够灵活地调整每个图像的CR，因此与数据级CR优化相比，它可以实现更高的带宽效率，同时保证每次传输的PSNR约束。然而，这并不意味着实例级CR优化在所有情况下都比数据级CR优化更好。当我们不需要保证每一张图像的传输质量时，我们使用数据级CR优化来提高带宽效率也是切实可行的，而只有使用DeepJSCC-V才能实现这一目标。

C.模型训练

在PADC中，有两个模型需要训练，即DeepJSCC-V模型和OraNet模型，其训练过程如下所示：

1）DeepJSCC-V：

给定N维输入图像数据x，我们可以获得SC为zo = Eφ（x，γ），然后使用具有给定CR R的SCMV获得MSC z ∈ CK。在传输之后，接收器获得SC λ z，然后我们得到最终的重建图像为λ x = Dθ（λ z，γ，R）。损失函数被定义为原始图像x和重建图像λ x之间的均方误差（MSE），如下所示：

利用上述损失函数，可以通过最小化输入图像和输出图像之间基于MSE的失真度来优化模型参数φ，θ，所给出

在训练过程中，随机生成每个图像样本的信道SNR γ和CR R。在本文中，信道SNR和CR分别由间隔γ ∈ [0，27]dB和R ∈ [0.05，0.5]随机产生。在足够的训练样本下，DeepJSCC-V模型可以自动学习特定SNR γ和CR R的最佳信源信道编码过程。

DeepJSCC-V的一轮训练过程如算法1所示。注意，整个训练过程可能包含数千个训练轮，并且直到损失达到收敛才会终止。在每个训练轮中，我们随机生成不同的SNR和CR值，通过使用[23]中提出的AFB和本文提出的SC掩码过程，我们可以获得具有SNR自适应和CR自适应能力的DeepJSCC-V模型。特别地，通过使用SC掩码过程，具有内部位置的SC符号更有可能被发送，并且与其他外部SC符号相比，它将携带更多的信息。例如，假设SC zo是3维张量，对于两个SC信道zo i，zo j ∈ zo，如果i> j，则与第j个信道数据zo j相比，第i个信道数据zo i将更有可能被选择用于传输。在训练过程中，DeepJSCC-V模型将自动学习压缩zo i上的更多信息，以尽可能减少损失目标。结果，内部SC信道将被训练为与其他外部信道相比携带更多的信息。

2）OraNet：

一旦训练了DeepJSCC模型，我们就可以用它来训练OraNet模型。利用获得的SC zo，我们可以计算其CWM μz和CWSTD σz特征。相应地，我们还可以获得重构图像λ x，并且通过使用等式（8）来计算λ x和x之间的PSNR。除了地面真实PSNR值，我们还可以获得预测的PSNR值，即PSNR = Gω（μz，σz，γ，R）。这样，OraNet的损失函数可以定义为：

以与DeepJSCC模型相同的方式，模型参数ω可以通过最小化上述损失函数来优化，如由下式给出的：

在每次训练迭代中，信道SNR γ和CR R以与DeepJSCC-V模型的训练过程相同的方式随机生成。算法2展示了OraNet的一轮训练。请注意，DeepJSCC-V和OraNet是独立训练的。更具体地说，OraNet模型是基于先前训练的DeepJSCC-V模型进行训练的，因为它需要使用SC和PSNR作为训练数据。通过这种方式，我们可以知道OraNet专用于特定的DeepJSCC-V模型，并且不建议使用它来预测其他模型的传输质量。

三、仿真结果

在本节中，我们将首先说明模拟设置，然后给出性能评估结果，以证明所提出的PADC框架可以实现无线图像传输的预测和自适应速率控制，并提供一些例子来理解所提出的PADC的属性。

A、使用的数据集和模拟设置

我们将首先使用CIFAR 10和CIFAR 100数据[30]作为训练和测试所提出方法性能的实验数据。CIFAR 10数据和CIFAR 100数据是两个相似的数据集，但两个数据集的类分别为10和100。由于我们只专注于传输图像，因此不会使用类标签。这两个数据集都包含60000个大小为32 × 32的彩色图像样本，其中50000个是训练图像，其余10000个图像是测试样本。在本文中，我们将使用CIFAR 10训练样本和测试样本分别作为训练数据集和验证数据集，并将它们用于训练过程以获得DeepJSCC模型。在评估性能时，我们将使用CIFAR 100测试样本作为测试数据，这样，我们可以使用与训练和验证数据集不同的数据来评估性能。注意CIFAR 100数据的对象与CIFAR 10数据不同，因此使用CIFAR 10测试数据进行性能评估时，评估性能会略低于结果。在训练DeepJSCC-V模型时，在每个训练阶段，我们首先使用CIFAR 10训练数据使用Adam随机优化方法[31]更新模型参数，然后使用验证数据集（即CIFAR 10测试数据）评估当前模型的性能。如果当前时期的MSE性能与在先前时期中实现的最佳MSE性能相比变得更低，则我们将该模型保存保存为要获得的最终模型。训练批次大小设置为128，学习率设置为10 - 4，最大训练时期数设置为400。OraNet模型的训练过程类似于DeepJSCC-V，但不同的是，由于OraNet的复杂度远低于DeepJSCC-V，因此最大训练时期设置为150。除了CIFAR 10和CIFAR 100数据外，本文还将使用ImageNet数据训练提出的DeepJSCC-V和OraNet模型[32]，[33]使提出的PADC方法能够处理大规模和高分辨率图像的自适应传输问题。为了提高训练效率并减少训练样本，我们在CIFAR 10数据预训练的DeepJSCC-V模型的基础上训练ImageNet数据的DeepJSCC-V模型。我们使用从ImageNet验证数据集中随机选择的45000张图像作为训练数据，并使用剩余的5000张图像作为验证数据。对于每个训练样本，它是通过对大小为128 × 128的原始图像进行中心裁剪而获得的，批量大小设置为32，最大训练时期设置为50。其他训练设置与CIFAR 10数据的训练过程相同。在ImageNet数据的训练过程之后，我们在Kodak 24数据上测试了DeepJSCC-V和OraNet的性能[34]，其中包含24张大小为768×512的彩色图像。为了减少性能波动，每个图像传输任务的所有PSNR性能都是通过100次重复获得的。在训练过程之后，使用相同的ImageNet数据训练伴随的OraNet，其训练过程与前面提到的OraNet在CIFAR 10数据上的训练过程相同。

B、CIFAR数据结果

在本小节中，我们希望通过使用CIFAR 100测试数据证明，与ADJSCC方法[23]相比，所提出的DeepJSCC-V可以在数据级CR优化方面实现更好的性能，并且还证明所提出的OraNet可以有效地预测PSNR值。我们不会比较[26]中提出的DeepJSCC-V和DeepJSCC-A之间的性能，因为DeepJSCC-A中的编码器和解码器网络是专门为策略网络设计的，因此比较具有不同网络架构的两种方法是不公平的。最重要的是，与具有相同CR的ADJSCC相比，DeepJSCC-A无法实现更好的性能[26]。因此，如果所提出的DeepJSCC-V可以实现与ADJSCC相似的PSNR性能，那么我们可以知道它在相同CR的PSNR性能方面优于DeepJSCC-A。

见图4。通过提出的DeepJSCC-V和ADJSCC [23]实现的CIAFR 100图像传输任务的PSNR性能比较，训练SNR从γtrain ∈ [0，27]dB随机生成，（a）和（b）分别绘制在AWGN信道和慢瑞利衰落信道中实现的结果。

首先，我们比较了所提出的DeepJSCC-V和ADJSCC方法在相同CR下实现的PSNR性能，图4显示了所获得的结果。在这个测试中，我们用随机生成的CR值训练DeepJSCC-V模型，CR值范围从0.05到0.5。为了进行性能比较，我们为每个通道类型训练了4个ADJSCC模型，CR设置为1/16，1/12，1/6和1/3。对于所有DeepJSCC-V和ADJSCC模型，每个训练图像数据的信道SNR值从范围γtrain ∈ [0，27]dB随机生成。为了公平起见，除了SC掩码过程之外，DeepJSCC-V和ADJSCC中的编码器和解码器的架构是相同的。通过这种方式，我们可以知道性能差异是由所提出的码长调整过程引起的。在我们的测试中，我们观察到DeepJSCC-V需要更多的训练时间才能收敛到最佳编码性能。例如，ADJSCC可能需要150个训练时期来实现最佳容量，但DeepJSCC-V可能需要250个训练时期来实现最佳性能，因此DeepJSCC-V的训练成本相对高于ADJSCC。代码长度调整过程。在我们的测试中，我们观察到DeepJSCC-V需要更多的训练时间才能收敛到最佳编码性能。例如，ADJSCC可能需要150个训练时期来实现最佳容量，但DeepJSCC-V可能需要250个训练时期来实现最佳性能，因此DeepJSCC-V的训练成本相对高于ADJSCC。

从图4（a）中，我们可以观察到，在相同的CR下，所提出的DeepJSCC-V可以在AWGN信道中的高SNR和低SNR状态下实现与ADJSCC相似的PSNR性能。在衰落信道下，如图4（B）所示，我们可以看到，除了R =1/16的情况外，DeepJSCC-V和ADJSCC实现了相似的PSNR性能。然而，当CR非常小时，即R =1/16，DeepJSCC-V实现的PSNR略低于ADJSCC，并且当信道SNR变得更高时，性能差距变得更加明显。

上述结果表明，在只有一个模型的情况下，与使用不同CR值训练的ADJSCC模型相比，所提出的DeepJSCC-V通常可以实现相似的性能，这有助于降低训练和部署成本。然而，当测试CR相对较低时，ADJSCC可以在慢瑞利衰落信道中实现比所提出的DeepJSCC-V稍好的性能。

接下来，我们测试了所提出的DeepJSCC—V和ADJSCC实现的数据级CR优化性能。在本测试中，我们仅使用DeepJSCC—V模型根据平均预期PSNR性能优化所有CIFAR100图像的数据级CR。这样，所有图像的CR值都是相同的，并且不一定使用OraNet。我们首先评估所提出的DeepJSCC—V在不同CR和信道SNR条件下的性能。更具体地说，我们用以下8个CR水平R ∈ {1/16，1/14，1/12，1/10，1/8，1/6，1/4，1/3}来评估所实现的PSNR性能。需要强调的是，DeepJSCC—V的CR级别数量可以更大，这样模型在优化代码长度时可以有更多的选择。为了进行性能比较，我们使用具有CR水平R ∈ {1/16，1/12，1/6，1/3}的ADJSCC模型，用于在优化码长时提供四种不同的CR选择。使用上述模型，我们然后在不同信道SNR条件下测试所提出的DeepJSCC—V和ADJSCC实现的最小CR，图5显示了获得的结果。

图5具有不同的目标PSNR值，通过一个DeepJSCC—V模型和四个具有不同目标PSNR值的ADJSCC模型[23]实现的CIAFR 100图像传输任务的数据级最小CR值的比较。

在图5（a）中，我们可以观察到，在相同的目标PSNR下，与ADJSCC方法相比，所提出的DeepJSCC-V可以实现低得多的CR。如前所述，在图4（a）中，与AWGN信道中的ADJSCC相比，DeepJSCC-V可以实现更高的PSNR性能。此外，即使只有一种型号，在本次测试中，DeepJSCC-V也可以提供8种CR选择，而ADJSCC型号只有4种CR选择。由于上述两个好处，一般来说，DeepJSCC-V可以使用更小的代码长度来完成相同的图像传输任务，因此整体传输效率将大大提高。

在图5（B）中，我们可以看到，所提出的DeepJSCC-V在慢瑞利衰落信道中也优于ADJSCC，特别是当目标PSNR阈值较大时，例如PSNRth = 30 dB。如图4（B）所示，在相同的信道条件下，DeepJSCC-V可以实现与ADJSCC相似的性能，因此主要的性能提升是通过更多CR级别选择的灵活性实现的。总之，我们可以知道，与具有4个选择的ADJSCC模型相比，具有8个CR选择的DeepJSCC-V模型可以实现更好的数据级CR优化性能。因此，DeepJSCC-V与ADJSCC相比能够大大提高传输效率，同时降低培训和部署成本。

在演示OraNet的性能之前，我们将首先展示从SC中获得的CWM和CWSTD特征的三个示例，这有助于我们理解DeepJSCC-V的工作原理以及为什么PSNR性能是可预测的。对于图像尺寸为32 × 32的CIFAR数据，从编码器获得的SC的形状为48 × 8 × 8。由于我们将CR设置为从0.05到0.5随机生成，因此我们可以知道MSC的相应通道数范围为5到48。我们从CIFAR 100测试数据中随机选择了三个图像，分别表示为x1、x2和x3，图6显示了每个通道的CWM和CWSTD特征，沿着不同CR的PSNR性能，分别如（a）（B）（c）所示。

SC特征和所实现的PSNR性能的示例，其中（a）（c）（c）示出了信道方式的平均值特征、信道方式的标准偏差特征和相应的PSNR性能。

从图6中，我们可以观察到，对于所有三个图像，CWM和CWSTD特征的绝对值从第5通道到第48通道逐渐降低，这表明内部SC通道与具有相对较大通道id的外部通道相比携带更多信息。该结果类似于主成分分析（PCA）[35]，其将数据分解为几个正交基，并且如果基的相应特征值较大，则基携带更多的信息。这个特性是通过SC掩码操作实现的，在SC掩码操作中，我们在每次传输中保留前K个元素，这种做法将迫使编码器学习将更重要的信息压缩到相对较小的数量的内部信道，因为它们更有可能被传输。以这种方式，由SC掩模过程引起的信息损失将被最小化。将三个图像x1、x1和x3的PSNR分别表示为PSNR 1、PSNR 2和PSNR 3。从图6中，我们还可以看到PSNR等级为PSNR1 > PSNR2 > PSNR3。因此，我们可以看到，一般来说，特征的值范围是|μ（1）z| <<的|μ（2）z| <<的|μ（3）z| σ（1）z < σ（2）z < σ（3）z。因此，SC值的相对较大范围对应于相对较低的PSNR性能。原因在于，对于具有更复杂内容的图像，CWM和CWSTD特征的值将相对更大以携带更多信息，并且相应地，与包含较少信息的图像相比，需要更多带宽资源来传输SC以实现相同的PSNR性能。这些结果表明，重建图像的峰值信噪比是可预测的，根据信道信噪比和编码图像的特征。

图7.预测的PSNR和地面真实PSNR之间的MSE，（a）和（b）分别是AWGN信道和慢瑞利衰落信道中的结果

接下来，我们证明了所提出的OraNet可以预测传输图像的高质量PSNR结果。图7示出了CIFAR 100测试数据上的预测PSNR值和地面真实PSNR值之间实现的MSE性能，（a）和（b）中分别是AWGN信道和慢瑞利衰落信道中的结果。一般情况下，当信道信噪比大于5dB时，在AWGN和慢瑞利衰落信道下，均方误差性能均小于1，证明了基于OraNet的PSNR预测方法的有效性。然而，我们还可以观察到，当信道SNR非常低时，例如0 dB，预测MSE变得相当大，这是因为在非常低的SNR状态下，接收机处的接收MSC将被随机AWGN严重破坏，导致原始MSC和接收MSC之间的巨大失真，并且PSNR值将在相对宽的值范围内波动。如果没有稳定的训练样本，OraNet将无法以高精度预测PSNR值。一般情况下，MSE随信道SNR的增加而沿着减小，但在高SNR区域，当信道SNR持续增加时，MSE会略有增加。原因在于，当信道SNR足够高时，例如高于18 dB时，DeepJSCC-V模型实现的PSNR性能将逐渐收敛到上限。在这种情况下，虽然信道SNR不同，但它们对应的PSNR值几乎相同，这在训练OraNet时造成混乱，进一步降低了预测精度。结果表明，当信道信噪比不太高或太低时，均方误差性能有一个最小值。

C、Kodak24数据

在本小节中，我们将使用Kodak24数据测试所提出的PADC方法的性能。我们的主要目标是证明所提出的PADC方法可以实现自适应图像级传输不同的信道信噪比和图像内容。文中还提供了一些实例来说明所提出的方法的特点。首先，我们比较了所提出的DeepJSCC—V和传统的基于BPG + LDPC的无线传输方案的性能。BPG编解码器是一种众所周知的传统图像压缩方法，与JPEG和JPEG2000等方法相比，可以实现更好的压缩性能[2]。对于LDPC，我们采用802.11n协议[36]中的信道编码方案，包括以下三种块长度：648，1296和1944，在此测试中我们将码长固定为1296。我们将使用以下三种码率测试BPG + LDPC方案的性能：1/2，2/3和3/4，对应的码组合为（648，648），（864，432）和（972，324）。除了信源信道编码方式外，调制阶数对传输性能也有影响。在本测试中，将测试以下三种调制阶数：BPSK、4QAM和16QAM。注意，由于"悬崖效应"，当信道SNR较低时，传统传输方案的传输性能可能急剧下降，甚至无法传输图像数据。当常规无线传输方案的实现的PSNR低于24 dB时，我们将不在图中示出它们以提高易读性。

图8、DeepJSCC-V和传统BPG+LDPC传输方案的性能比较，（a）（b）和（c）（d）分别是在AWGN信道和慢瑞利衰落信道中获得的结果。

图8示出了在不同信道情况和信道SNR下获得的结果。从子图（a）和（b），我们可以观察到，在AWGN信道情况下，所提出的DeepJSCC—V的PSNR性能相对低于具有不同调制阶数的BPG + LDPC传输方案，并且当信道SNR变得更高时，性能差距变得更大。从子图（c）和（d）可以看出，在慢瑞利衰落信道情况下，与传统的BPG + LDPC方案相比，DeepJSCC—V在低SNR状态下可以实现相对更好的PSNR性能，但是当信道SNR相对较高时，可以实现相对较低的PSNR性能。上述结果与[9]中的结果非常相似，我们可以知道，除了低信道SNR的衰落信道外，所提出的DeepJSCC—V模型仍然无法在所有SNR范围内获得比BPG + LDPC方案更好的PSNR性能，未来我们可以寻求更有效的模型架构和训练算法来进一步提高DeepJSCC—V模型的性能。接下来，我们要测试OraNet的PSNR预测性能。在图6中，我们已经表明图像的PSNR性能与CWM和CWSTD特征密切相关。为了进一步说明SC的属性，我们使用三个Kodak图像，即Kodim 08，Kodim 21和Kodim 24，以显示每个SC通道如何影响最终重建图像。回想一下，在本文中，我们将最大允许SC通道数设置为48，因为我们在编码器中使用了两次下采样操作，因此获得的SC形状为48 × 192 × 128。

图9、从不同SC通道重建的图像的示例，通道SNR被设置为12dB。

在该测试中，我们设置只能向接收器发送一个SC通道数据，然后用接收到的一个SC通道数据重建图像。为了显示不同SC通道的差异，我们绘制了从每个图像的第5和第7通道获得的结果，图9显示了获得的结果。

使用DeepJSCC—V在不同CR下实现的三张Kodak24图像的PSNR性能。

对于相同的三幅图像，我们进一步计算具有不同CR的实现的PSNR，图10显示了获得的结果。

通过观察来自9（d）-（i）的重建图像，我们可以看到，对于相同的任务，第5通道比第7 SC通道包含更多的图像细节。将PSNR（m）表示为第m个SC通道重建的图像的PSNR性能，则可以看出PSNR等级为PSNR（5）> PSNR（7）。该结果表明，具有相对内部位置的SC通道比其他外部SC通道包含更多的图像信息，这与图6所示的结果一致。在图10中可以观察到类似的结果，我们可以看到，大部分图像信息在前20个SC通道中被压缩，剩余的28个通道所包含的信息通常相当有限，并且该结果也与图6（c）所示的结果非常相似。请注意，这并不意味着剩余的28个SC通道不重要，因为如果我们想要获得非常高的图像质量，它们包含不可或缺的图像细节。最重要的是，当信道条件较差时，我们仍然需要一个相对较大的CR值来增强信道编解码过程的抗噪声能力。接下来，我们在Kodak 24数据上评估了所提出的DeepJSCC-V模型的PSNR性能，同时使用OraNet模型计算了相应的PSNR预测。

图11、Kodak24数据集上的预测PSNR和测试PSNR，（a）和（B）分别是AWGN信道和慢瑞利衰落信道下的结果。

图11示出了获得的结果，其中（a）和（b）分别是在AWGN信道和慢瑞利衰落信道中测试和预测的PSNR结果。在该测试中，我们显示了以下5个CR水平的结果：1/16、1/12、1/8、1/6和1/4。从结果可以看出，预测的PSNR值与测试的PSNR值非常接近，在AWGN信道中，预测的PSNR值与相应的测试PSNR值之间的平均绝对值（MAE）分别为0.293dB、0.314dB、0.367dB、0.423dB和0.265dB。在慢瑞利衰落信道中，5个CR水平的MAE分别为0.318dB、0.115dB、0.0735dB、0.323dB和0.350dB。从以上结果可以看出，OraNet能够有效地预测PSNR值，MAE相对较低。在OraNet的帮助下，我们然后评估所提出的PADC方法在实例级（或图像级）CR优化问题上的性能。

图12给出了在通道SNR γ = 12 dB，CR R =1/8时重建的Kodim 13和Kodim 23图像的例子。由于Kodim 13图像包含森林和河流对象，并且纹理细节比Kodim 23中的金刚鹦鹉对象复杂得多，因此可以知道Kodim 13包含更多的信息，并且对于相同的目标PSNR约束，需要更多的带宽来传输数据。结果表明，在相同的信道信噪比和CR条件下，Kodim 13图像的PSNR性能远低于Kodim 23图像，两者的PSNR相差大于8dB，这是一个很大的差异，在给定的目标PSNR约束下调整数据速率时不能忽略。这表明，对于不同的图像内容，有必要自适应地调整数据速率，否则，如果使用相同的CR值，不同图像的PSNR性能会出现波动。通过使用所提出的OraNet，我们可以看到，PSNR性能可以预测相对较低的误差，这使得我们能够实现自适应联合源和信道编码特定的图像在一定的信道信噪比和图像内容。

图13显示了在AWGN信道和慢瑞利衰落信道中实现的kodim 13和kodim 23图像的测试和预测实例级CR优化结果。在这个测试中，我们将可用的CR选项设置为具有18个级别，它们是{1/3，1/4，.，1/20}，并测试在不同信道SNR条件下实现目标PSNR要求的最小CR值。同时，我们还使用OraNet来预测重建图像的PSNR值，并预测给定目标PSNR值的最佳CR值。从图中，我们可以观察到，对于高和低目标PSNR，预测的最佳CR值非常接近测试的真实最佳PSNR值，这表明所提出的PADC方法可以实现无线图像传输的合理CR优化结果。我们还可以看到，在AWGN和慢瑞利衰落信道中，目标PSNR要求增加2dB将导致CR值显著增加，特别是在信道SNR较低时。因此，为了提高传输效率，有必要尽可能地降低目标PSNR值，特别是在低SNR环境中。由此可见，建议的机场发展谘询委员会可有效地达致上述目的。

四、结论

在本文中，我们提出了一个PADC框架，以实现基于DeepJSCC的无线图像传输的预测和自适应码率控制。PADC由用于可变码长的联合信源信道编码的DeepJSCC—V模型、用于通过联合使用图像内容、信道SNR和CR来预测由解码器重构的图像的PSNR的OraNet模型以及用于在给定PSNR约束下最小化CR的CR优化器组成。我们详细阐述了所提出的PADC框架的框架，并说明了所使用的DeepJSCC—V和OraNet模型的网络架构。仿真结果表明，在相同的信道条件和压缩比下，所提出的DeepJSCC—V模型可以获得比现有的ADJSCC模型更好或相近的性能，同时也表明所提出的OraNet模型可以预测出高质量的PSNR值，对Kodak24图像的平均预测误差小于0.5dB。通过联合使用DeepJSCC—V和OraNet，结果证明，所提出的PADC可以在给定的目标PSNR约束下实现有效的数据级和实例级码率优化。除了数据级的CR优化，PADC还可以针对不同的信道SNR和图像内容实现实例级的自适应码率控制，这有助于提高DeepJSCC语义通信的传输效率。仿真结果表明，虽然DeepJSCC—V模型可以达到与ADJSCC模型相似的性能，但在所有信噪比范围内，它仍然不能达到比传统的基于BPG + LDPC的传输方案更好的上级性能，因此我们未来的工作是改进DeepJSCC—V模型的网络架构和训练算法，以进一步提高其编码能力。