SFFN:Detection of heterogeneous parallel steganography for low bit-rate VoIP speech streams 论文阅读

本文链接：https://blog.csdn.net/weixin_51657614/article/details/136439099

本文提出了一种名为隐写分析特征融合网络（SFFN）的深度模型，用于检测低比特率VoIP语音流中的异构并行隐写术（HPS）。SFFN由三个子网络构成，能有效融合不同隐写方法的特征，实现实时高精度检测。实验表明，SFFN在HPS检测上优于现有方法，尤其在低嵌入率情况下效果显著。

摘要由CSDN通过智能技术生成

论文地址:https://www.sciencedirect.com/sc ience/article/pii/S0925231220312558

摘要: 本文考虑了检测流媒体上的异构并行隐写术（HPS）的新任务。该任务是利用多种正交隐写方法检测隐藏在流媒体帧中的机密消息是否存在。我们的目标是在这项工作中检测低比特率互联网协议语音 (VoIP) 语音流的 HPS，这是一种广泛使用的流媒体。具体来说，采用量化索引调制和音调调制隐写术这两种隐写方法来形成HPS。对于现有的隐写分析方法来说，检测低比特率 VoIP 语音流上的 HPS 具有挑战性。为了实现这一目标，我们提出了一种新颖的深度模型，称为隐写分析特征融合网络（SFFN）。 SFFN由三个子网络组成，即特征学习网络、特征融合网络和分类网络。通过这三个子网络，SFFN 可以有效地提取 HPS 中使用的隐写方法的隐写分析特征，并可以融合这些特征以做出可信的预测。实验结果表明，我们的方法在检测 HPS 时优于最先进的隐写分析方法。此外，我们的方法满足实时检测的要求。

1.简介

隐写分析是检测表面上无害的载体内部是否存在机密信息(或秘密信息)[1,2,3]。它是一种针对隐写术的对抗技术，隐写术是一种将秘密信息嵌入数字载体中的技术[4,5,6]。本文重点研究了一种新型的隐写检测方法，该方法将多个正交隐写方法应用于单个载波。如果隐写方法的信息隐藏和提取过程是独立运行的，则称为正交方法[7]。这种新型的隐写术有两个特点。首先，它是异构的，因为它使用两种或更多种不同的隐写方法来隐藏信息。其次，它是并行的，因为每一种隐写方法隐藏的机密信息都是单独嵌入的。因此，我们将这种隐写技术称为异构并行隐写技术(HPS)。相比之下，我们将只使用一种隐写方法的传统隐写称为单一隐写。流媒体，如VoIP (Voice over Internet Protocol)，是HPS的合适载体。流媒体是通过互联网以压缩形式发送的音频或视频内容。它由一系列包含协议的数据包组成报头和有效负载(例如，音频和/或视频帧)。HPS可以应用于流媒体。以VoIP为例，在线性预测编码(LPC)过程中嵌入消息的隐写方法与将信息隐藏与基音周期预测相结合的隐写方法是正交的。因此，两种隐写方法都可以构建VoIP的HPS。然而，现有的隐写分析方法很难检测到流媒体上的HPS。一般的隐写分析方法通常提取通用特征(如梅尔倒谱系数)并训练分类器来检测各种隐写[8,9,10]。然而，这些方法大多无法达到较高的检测精度[11]。针对性隐写分析方法侧重于具体的隐写[12,13,14]。因此，这些方法无法检测HPS中使用的其他隐写。图1给出了检测单一隐写与异构并行隐写的区别，异构并行隐写在流媒体上交替使用两种正交隐写方法进行目标隐写分析。集成方法综合了多个目标隐写分析方法的检测结果。它们仍然不足以令人满意地检测HPS，因为每种目标隐写分析方法都是独立于特定提取的特征进行检测的。因此，有必要设计一种用于检测流媒体上HPS的隐写分析方法。本文针对低比特率VoIP语音流，即一种广泛使用的流媒体，进行HPS检测。采用两种正交隐写方法，即量化指数调制(QIM)[15]和基音调制隐写(PMS)[16]，形成HPS。我们提议写一本小说深度模型称为隐写特征融合网络(SFFN)。SFFN结合了卷积神经网络(convolutional neural network, CNN)、递归神经网络(recurrent neural network, RNN)和全连接网络(fully connected network, FCN)三种神经网络结构。与集成方法简单地将多个目标隐写方法的检测结果组合在一起不同，我们的方法能够有效地融合提取的隐写特征，适用于HPS中使用的不同隐写方法。因此，我们的方法能够在低比特率VoIP语音流的HPS检测任务中实现高精度。总之，我们的贡献可以简述如下。
• 我们提出了一种新的深度隐写分析方法来处理低比特率VoIP语音流的HPS检测任务。它可以有效地融合提取的隐写特征，从而实现高精度的检测。
•实验结果表明，我们的方法在此任务中达到了最先进的检测精度。
此外，它还可以进行实时检测。

2.相关工作

2.1。基于有效负载的低比特率VoIP隐写术

VoIP作为一种广泛使用的流媒体，由于其易于访问数据网络，为电话通信提供了一种经济的协议。由于通过合成LPC进行分析可以用于实现高压缩比和令人满意的语音质量，因此基于LPC的低比特率语音编解码器，例如g.723.1和g.729，被广泛应用于VoIP。对于这些编解码器，在对语音进行编码的过程中，信息可以隐藏在有效载荷（即，语音帧）上。基于低比特率VoIP语音流的有效载荷的隐写方法可以大致分为两组。第一组在LPC编码过程中隐藏秘密消息[17，15，18]。例如，Xiao等人[15]提出了互补相邻顶点（CNV）来改进QIM的码本划分。在CNV-QIM中，秘密信息被嵌入到语音的线谱对（LSP）参数中。第二组将信息隐藏集成到基音周期预测中[19，16，20]。这些方法也被称为基音调制隐写术（PMS），其中一种典型的方法是[16]。在PMS中，通过修改自适应主题延迟（ACD）参数，机密消息被隐藏在语音中。参数的比特分配如表1所示。由于QIM和PMS涉及独立的语音编码过程，这两种隐写方法是正交的，可以用于形成低比特率VoIP语音序列的HPS。

2.2. 音频隐写分析

音频隐写分析旨在检测语音中的秘密信息，以防止隐写术的非法使用。从对隐写术的适应性来看，隐写分析方法通常分为两类，即通用方法[21，22，8，9，10]和目标方法[13，11，14，23，24]。

传统的通用方法被设计用于检测具有统一模型的各种隐写术。这些方法通常从一般的音频特征中学习分类器。Ozer等人采用各种音频质量度量，如信噪比和对数似然比[21]。基于这些音频质量度量，Avcibas[22]提出了一种与内容无关的失真测量方法。除了音频质量指标外，在[8，9，10]中还采用了倒频谱作为附加功能。这些方法的缺点是它们对特定隐写方法的准确性低[11]。

第二类音频隐写分析方法旨在检测通过特定隐写算法隐藏的秘密信息。为了检测QIM隐写术，Li等人[13]建立了码字分布直方图模型和码字状态转换模型来量化码字分布特征。 Li等人[11]构建了基于分割矢量量化码字的量化码字相关网络来提取隐写分析特征向量。 Yang等人[14]设计了一个码字贝叶斯网络，该网络源自隐写敏感的码字时空转换网络。对于PMS检测，Ren等人[23]计算了基音延迟二阶差分的马尔可夫转移概率矩阵，并通过校准方法进一步提高了检测精度。 Jia等人[24]使用相邻语音帧的基音延迟的条件概率来量化共生特征。

神经网络由于其在语音识别[25]、句子嵌入[26,27]和图像分类[28]等其他任务中的出色能力而引起了音频隐写分析界的广泛关注。 Altun等人[29]采用具有50个隐藏节点的单层前馈神经网络作为分类器。 Rekik等人[30]提出了一种称为自回归时间延迟神经网络的自动化方法来对线谱频率进行分类。 Paulin 等人 [31] 使用深度信念网络（DBN）作为隐写分析器。在[32]中使用进化算法对其进行了进一步改进。 Chen 等人 [33] 使用 CNN 来检测基于隐写术的最低有效位。 Wang等人[34]使用CNN在熵码域中进行MP3隐写术检测。 Lin等人[35]提出了一种基于RNN的隐写分析算法，旨在检测VoIP隐写分析的QIM隐写术。 Ren等人[36]提出了一种基于深度残差网络的音频隐写分析方案。

该方法需要从解码的音频信号中提取特征（即频谱图）。因此，它不满足我们工作任务的实时检测要求，因为它将花费大量时间将VoIP语音流解码为原始音频信号。简而言之，现有的通用隐写分析方法存在检测精度低或音频解码耗时的问题。有针对性的方法只能检测单个隐写术。因此，现有的隐写分析方法很难检测低比特率VoIP语音流的HPS。为了解决这个问题，我们在这项工作中提出了一种新颖的深度模型。

3. 提出的方法

我们提出了一种有效的隐写分析方法，用于检测低比特率 VoIP 语音流的 HPS。在本文中，我们重点关注由QIM和PMS组成的HPS的检测。在本节中，我们介绍所提出方