【论文笔记】Dynamic Deep Multi-modal Fusion for Image Privacy Prediction

最新推荐文章于 2023-08-24 15:11:23 发布

Super—Shine

最新推荐文章于 2023-08-24 15:11:23 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/weixin_51547366/article/details/121848855

版权

python

摘要

随着数百万张图片在社交网站上在线共享，非常需要有效的图片隐私预测方法。在本文中，我们提出了一种融合来自卷积神经网络的对象、场景上下文和图像标签模态的方法，以准确预测在线共享图像的隐私。具体来说，我们的方法根据每个必须预测其隐私的新目标图像，动态识别一组最有能力的模态。该方法考虑三个阶段来预测目标图像的隐私，其中我们首先识别与目标图像在视觉上相似和/或具有相似敏感内容的邻域图像。然后，我们根据邻域图像估计模态的能力。最后，我们融合最有能力的模态的决定并预测目标图像的隐私标签。实验结果表明，我们的方法比在单个模态（对象、场景和标签）和先前的隐私预测工作上训练的模型更准确地预测敏感（或私人）内容。此外，我们的方法优于强大的基线，它训练元分类器以获得最佳的模态组合。

1.介绍

Gross和Acquisti[17]分析了4000多名卡内基·梅隆大学学生的Facebook 个人资料，并概述了对隐私的潜在威胁。作者发现，用户在社交网站上慷慨地提供个人信息，但他们却改变了默认的隐私设置，这可能会危及他们的隐私。

雇主使用社交网站对未来员工进行背景调查，约8%的公司已经因为社交媒体内容不当而解雇了员工[54]。

Pew研究中心（Pew Research Center）开展的一项研究报告称，11%的社交网站用户会提交他们发布的内容[33]。

最近，研究人员开始探索机器学习和深度学习模型，以自动识别图像中的专有或敏感内容[35,45,49–52,57]。从图像中呈现的对象和场景上下文影响图像隐私这一前提出发，许多研究使用对象、场景和用户标签，或其组合（即特征级或决策级融合）来推断在线图像的适当隐私分类。

然而，我们推测使用特征级融合（即，所有对象、场景和用户标签特征的融合）或决策级融合（即，来自对象、场景和标签训练的分类器的决策聚合），简单地组合对象、场景和用户标签模式可能并不总是有助于识别图像的敏感内容。图1通过几个图像说明了这一现象。例如，让我们考虑一下图像中的(a)。特征级和决策级融合模型都具有极低的私有类概率（特征级融合：0.21，决策级融合：0.33）。有趣的是，基于图像场景上下文（卧室）的模型输出的概率很高，为0.62，表明基于场景的模型能够捕获图像本身的敏感内容。类似地，对于图1中的图像(b)（自拍照），场景上下文很少出现在视觉内容中，图像中的对象（“人”，“鸡尾裙”）在预测适当图像的隐私方面更有用(0.78)。此外，对于诸如“个人文档”（图片(c)）之类的图像，用户注释标签提供了更广泛的上下文（例如文档的类型和用途），捕获敏感内容（0.86），通过图像获得的对象和场景内容未能捕获。另一方面，在某些情况下，我们可以找到不止一个图像的有效模型（例如，图像(d))。为此，我们提出了一种新方法，通过卷积神经网络（CNN）动态融合在线图像的多模态信息，以充分识别敏感图像内容。总之，我们作出以下贡献：

我们的重要贡献是评估物体、场景和标签模式对隐私预测的能力，并动态确定需要预测隐私的目标图像最合适的模式。
我们从目标图像的邻域区域中提取“能力”特征，并学习这些特征上的分类器，以确定一种模式是否能够准确预测目标图像的隐私。为了获得这些特征，我们考虑目标图像的隐私和视觉邻域，以使敏感和视觉上相似的图像内容更接近。
我们在消融设置中对我们的算法进行了深入分析，我们通过删除其各种组件来记录所提出方法的性能。分析概述了我们方法的关键组件。
我们的结果表明，与单模态模型（对象、场景和标签）、多模态基线和先验隐私预测方法相比，我们能够更准确地识别图像的敏感内容，表明该方法能够将多模态最佳地结合起来进行隐私预测。

2.相关工作

集成模型与多模态

一些工作使用集成分类器（或bagging）来改进图像分类[11,31,39]。 Bagging 是一种集成技术，它构建了一组不同的分类器，每个分类器都在训练数据的随机样本上进行训练，以提高最终（聚合）分类器的置信度 [4,43]。扩展 Bagging 的动态集成也已经提出[7,9,10]，其中使用装袋技术[4,43]在单个特征集（单一模态）上训练分类器，并且动态确定基本分类器的性能。

集成分类器也用于多模态分类[18,38]，其中耦合了不同的模态，例如用于图像检索[23]和图像分类[18]的图像和文本，以及用于语音分类[34]的音频和视频信号。Zahavy等人[2018]强调，在不同模式下接受培训的学员的辨别能力可能会有所不同，并敦促开发最佳统一方法，将不同的学员结合起来。此外，合并卷积神经网络（CNN）结构，对应于不同的模式，可以在深度、宽度和优化算法上变化，可能变得非常复杂。然而，通过多模态信息融合有可能改善性能，这引起了众多研究人员的兴趣[16,22,23,32]。例如，Frome等人[14]将图像网络[25]与Skip gram语言模型合并，以改进ImageNet上的分类。Zahavy等人[2018]提出了一个使用文本和视觉内容的多模式产品分类电子商务政策网络，该网络学习在输入信号之间进行选择。Feichtenhofer等人[2016]将CNN在空间和时间上进行融合，用于视频中的活动识别，以利用视频中呈现的时空信息。Wang等人[2015]设计了一种将对象网络和场景网络相结合的体系结构，该体系结构可以提取有用的信息，如对象和场景上下文，以便理解事件。联合培训方法[3]使用多种观点（或模式）在学习过程中“指导”不同的学员。然而，联合训练方法是半监督的，并且假设所有视图都“适合”学习。与上述方法相比，我们的目标是捕获从多种模态（对象、场景和标签）获得的图像的不同方面，每种模态具有不同的能力，并执行动态多模态融合以进行图像隐私预测。

在线图像隐私

为了研究用户在社交网络中的隐私问题、共享资源的隐私决策以及与之相关的风险，开展了几项工作[15,19,24,36,37,42]。埃亨等人[1]研究了移动和在线照片共享中的隐私决策和考虑。ey探索了隐私的关键方面，如用户对隐私决策的考虑、基于内容和上下文的隐私决策、不同用户如何调整其隐私决策和用户行为，以及个人信息披露。作者得出结论，应该开发能够支持和影响用户隐私决策过程的应用程序。Jones和O'Neill[21]强化了隐私相关图像概念的作用。例如，他们认为人们更不愿意分享拍摄社会关系的照片，而不是出于功能目的拍摄的照片；某些活动，如工作、酒吧、音乐会，会导致使用者分享较少。Besmer和Lipford[2]提到，用户希望重新获得对其共享内容的控制权，但与此同时，他们认为为每张图像配置适当的隐私保护是一种负担。Buschek等人[2015]提出了一种使用元数据（位置、时间、镜头细节）和视觉特征（面部、颜色、边缘）将隐私分配给共享图像的方法。Zerr等人[2012]开发了包含Flickr照片的PicAlert数据集，以帮助检测私人图像，并提出了一种隐私感知的图像分类方法来学习这些Flickr照片的分类。作者考虑了图像标签和视觉特征，如颜色直方图、人脸、边缘方向一致性和优先分类任务的筛选。Squiccarini等人[2014、2017]发现，SIFT和图像标签最适合预测用户图像的敏感性。鉴于CNN最近取得的成功，Tran等人[2016]，andTonge和Caragea[2016，2018]与SIFT和GIST等视觉特征相比，显示出良好的隐私预测。Yu等人[2017]采用CNN实现语义图像分割，并学习对象隐私相关性来识别隐私敏感对象。

Spyromitros Xiou等[2016]使用从CNN中提取的特征来提供个性化的图像隐私分类，而Szhong等[2017]提出了在线社交媒体网站中基于群体的图像隐私分类个性化模型。尽管个人的共享行为是独特的，Zhong等人[2017]认为个性化模型通常需要大量的用户数据来学习可靠的模型，并且训练和存储每个用户的模型需要时间和空间，同时考虑到由于用户共享活动和隐私偏好的突然变化而可能出现的偏差。Orekondy等人[35]定义了一组隐私版权，这些版权首先根据图像内容进行预测，然后将这些版权与用户参考资料结合使用，以估计个性化隐私风险。作者使用官方的在线社交网络规则来定义一组出版物，而不是收集真实用户对敏感内容的意见，因此，敏感内容的定义可能无法满足用户的实际需要[29]。此外，为了隐私属性预测，作者调整了对象数据集上预先训练的CNN。相反，我们提出了一种动态多模式融合方法来确定图像的哪些方面（对象、场景或标签）更适合预测图像的隐私。

3.多模态

图像的敏感内容可以通过一个或多个对象的存在、视觉内容描述的场景以及与标签形式相关的描述来感知 [45,49-51]。我们导出与在线图像的多模态信息相对应的特征（对象、场景、标签）如下。

Object (Fo) : 从图像中检测物体显然是评估图像是否具有私密性的基础。例如，枪支、政治标志等单一因素可能是隐私图像的有力指标。因此，我们研究了从VGG-16[41]中提取的图像描述，VGG-16[41]是在ImageNet数据集[40]上预先训练的CNN，该数据集有1.2M+图像，标记有1000个对象类别。VGG-16网络实现了一个16层的深度网络；一堆具有非常小的感受野的卷积层：3×3，然后是全连接层。该架构包含 13 个卷积层和 3 个全连接层。网络的输入是一个固定大小的 224×224 RGB 图像。全连接层的激活捕获包含在感兴趣区域中的完整对象。因此，我们使用VGG-16的最后一个全连接层的激活，即fc8作为特征向量。对象特征Fo的维数为1000。

Scene (Fs) : 正如各种以用户为中心的研究 [1] 一致表明的那样，图像的上下文是一个潜在的强有力的指示器，表明用户试图在线共享什么类型的消息或事件。这些场景，例如一些裸体、家庭、时尚活动、音乐会也与某些隐私偏好有关。与对象特征类似，我们从Places2数据集上预训练VGG-16[25]的最后一个完全连接层获得场景描述符，该数据集包含250万幅图像中的365个场景类[60]。场景特征 Fs 的维度为 365。

Image Tags (Ft) : 对于图像标签，我们采用了 Collobert 等人的 CNN 架构[8]。该网络在从无监督神经语言模型获得的词向量之上包含一个卷积层。第一层将词嵌入到 Le 和 Mikolov[27] 在 GoogleNews 的 1000 亿个词上预训练的词向量中，并公开可用。下一层使用 3,4 和 5 的多个过滤器大小对嵌入的词向量执行卷积，其中我们使用每个大小的 128 个过滤器并生成标签特征表示。对特征图应用最大池化操作来捕获每个特征图长度为 256 的最重要特征。为了获得这些特征，我们考虑两种类型的标签：（1）用户标签，和（2）深度标签。因为并非社交网站上的所有图像都有用户标签，或者用户标签集非常稀疏 [48]，我们从 CNN 提取的概率分布中预测前 d 个对象类别（或深度标签）。

Object + Scene + Tag (Fost) : 我们使用对象、场景和标记特征的组合来识别目标图像的邻域。我们探讨了[12]中给出的各种方法来组合特征。例如，我们使用VGG的FC7层从对象网络和场景网络中提取长度为4096的特征，并考虑这些向量的最大池来组合这些特征。请注意，在这项工作中，我们只描述了最适合该方法的功能组合。我们分别从对象网络和场景网络的FC8层获取高级的对象“Fo”和场景“Fs”特征，并将它们与标记特征连接起来，如下所示：

Fost=fcat(Fo,Fs,Ft).Fost=Fo(i),1≤i≤1000,Fost(i+1000)=Fs(i),1≤i≤365,Fost(i+1365)=Ft(i),1≤i≤256.

4.提出的方法

我们试图根据用户的一般隐私偏好将给定图像分为两类：Private或Public。为了实现这一点，我们与以前在所有图像类型（如肖像、卧室和法律文件）上使用相同模型的工作不同，提出了一种称为“用于隐私预测的动态多模态融合”（或DMFP）的方法，该方法有效地融合了多模态（对象、场景和标签）并从图像中动态捕获不同的方面或特殊性。具体而言，提出的的方法旨在评估针对每个目标图像（其隐私必须预测）的这些单独模式训练的模型的能力，并动态识别该图像最“有竞争力”模型的子集。所提出方法的基本原理是，对于特定类型的敏感内容，某些模式可能很重要，而其他模式可能无关紧要，可能会引入噪音。取而代之的是，在捕捉特定类型的敏感内容（例如，肖像对象、室内住宅或卧室场景以及法律文件标签，如图1所示）时，可能会使用较小的模式子集。

图1：私人图像及其标签的轶事证据。特征级融合是所有特征（对象、场景、标签）的串联，决策级融合是通过平均预测得到的。

所提出的方法考虑三个阶段来预测目标图像的隐私，其中我们首先识别与目标图像在视觉上相似和/或具有相似敏感内容的邻域图像（第 4.1 节）。然后，使用一组基本分类器，每个分类器都在单独的模态上进行训练，我们通过确定哪些模态对邻域图像进行正确分类来估计模态的能力（第 4.2 节）。这里的目标是为特定类型的图像（例如，家庭图像的场景）选择最有能力的模态。最后，我们融合了最有能力的基本分类器（对应于最有能力的模态）的决策并预测目标图像的隐私标签（第 4.3 节）。

我们的方法考虑了两个数据集，表示为 DT 和 DE，它们包含标记为隐私或公共的图像。我们使用数据集 DT 为每种模式训练一个基本分类器，以预测图像是公开的还是隐私的。特别地，我们在来自 F 的相应模态特征集上训练了 3 个基本分类器 B={Bo,Bs,Bt}。请注意，我们使用特征集 Fost 的组合仅用于视觉内容相似性，并没有在其上训练基本分类器。这些基本分类器的能力是在 DE 数据集上估计的。我们解释了所提出方法的各个阶段。使用的符号如表 1 所示。

4.1邻域识别

根据目标图像所在的本地区域估计基本分类器的能力。因此，给定目标图像 T，我们首先估计 T 的两个邻域：（1）基于视觉相似性（NTV）和（2）基于隐私配置文件（NTP）的邻域。

目标图像 T 的邻域 NTV 由使用视觉内容相似性的来自 DE 的 kv 个最相似的图像组成。具体来说，使用通过连接对象、场景和标签特征获得的 Fost 特征（如第 3 节所述），我们通过在 DE 数据集上应用 K-Nearest Neighbors 算法来确定与 T 在视觉上最相似的 kv 个图像。

目标图像 T 的邻域 NTP 由 kp 个与 T 最相似的图像组成，通过计算 T 的隐私配置文件与数据集 DE 中的图像之间的余弦相似度。我们将图像 T 的隐私配置文件（用 T-表示）定义为由基分类器 B 获得的后验隐私概率向量，即，T-=UBi∈B{P(YT=private|T,Bi),P(YT= public|T,Bi)}。对于图 1 中的图像 (a)，T-=[0.62,0.38,0.5,0.5,0.29,0.71]。我们考虑图像的隐私概况，因为特定图像内容（卧室图像或法律文件）的图像往往具有与基分类器集 B 相似的隐私概率。例如，无论卧室图像的种类如何，由基分类器 B 获得的隐私类将是相似的。这使我们能够将敏感内容拉近，而不管它们不同的视觉内容。此外，我们考虑两个不同数量的最近邻 kv 和 kp 来查找邻域，因为基分类器的能力取决于邻域，并且为各个邻域估计适当的邻域数量可以减少噪音。

4.2 “能力”评估

现在，我们描述如何评估基本分类器的“能力”。例如，对于图 1 中的图像 (a)，场景模型比其他模型具有更高的能力，在这里，我们通过“能力”特征和“能力”分类器来捕获这种能力。具体来说，我们为每个基分类器训练一个能力分类器，用于预测基分类器是否能胜任目标图像 T。学习能力分类器和能力学习的特征如下所述。

4.2.1 “能力”特征的推导

我们定义了三组不同的“能力”特征，其中每组特征都捕获不同的标准，以动态估计基础分类器的能力水平。对于图像 T 的第一个能力特征 φ1 来自邻域 NTV（基于视觉相似性），而第二个能力特征 φ2 来自邻域 NTP（基于隐私配置文件）。第三个能力特征 φ3 捕获了用于预测图像 (T) 本身隐私的基本分类器的置信水平。我们通过将所有这些能力特征 φ={φ1∪φ2∪φ3} 连接成一个“能力”特征向量长度向量|φ|=kv+kp+1。我们提取与 B 中每个基分类器对应的能力向量（例如，φo 代表 Bo，参见图 2）。我们提取这些“能力”特征如下

φ1： kv 个条目中用于捕获视觉邻域区域 NTV 中基分类器正确性的一个向量。如果基分类器 Bi∈B 准确预测图像 Xj∈NTV 的隐私，则 φ1 中的条目 j 为 1，否则为 0，其中 j=1,...,kv。对于图2中的目标图像，φ1={1,1,0,1,0,1,1}，由Bo获得。

φ2： kp 个条目中用于捕获隐私配置文件邻域区域 NTP 中基分类器正确性的一个向量。如果基分类器 Bi∈B 准确预测图像 Xj∈NTP 的隐私，则 φ2 为 1，否则为 0，其中 j=1,...,kp。对于图 2 中的目标图像，φ2={1,1,1,1,1}，使用 Bo 获得。

φ3：我们捕获目标图像 T 的基分类器的置信度。特别是，我们考虑使用基分类器 Bi 为目标图像 T 获得的最大后验概率，即 Max(P(YT=Private|T,Bi),P(YT=Public |T,Bi))，其中Bi∈B。对于图2中的目标图像，φ3=0.67，使用Bo获得。

4.2.2 “能力”学习

我们通过在训练阶段在数据集 DE 上训练二元“能力”分类器来学习基础分类器的“能力”。能力分类器预测基本分类器是否能胜任目标图像。算法 1 详细描述了“能力”学习过程。主要是，我们将来自 DE 的图像视为目标图像（仅用于训练目的），并从数据集 DE 本身（Alg. 1，第 6-8 行）中识别两个邻域 (NV,NP)。然后，我们根据来自这些邻域的图像为 B 中的每个基本分类器提取“能力”特征（Alg. 1，第 10 行）。为了减少噪声，我们通过仅考虑属于两个邻域的图像来提取“能力”特征。在这些“能力”特征上，我们训练了一组“能力”分类器 C，对应于 B 中的每个基本分类器（算法第19-22 行）。准确地说，我们训练了 3 个能力分类器 C={Co,Cs,Ct }。为了训练“能力”分类器Ci∈C，我们考虑标签 Li=1，如果基础分类器 Bi∈B 预测目标图像的正确隐私（这里，Xj∈DE），否则为 0（Alg.1，第 11-16 行）。

算法1 “能力”学习流程图

4.3 多模态动态融合

算法2 多模态动态融合流程图

在这个阶段，对于给定的目标图像T，我们动态地确定最有能力的基分类器的子集。我们将算法 2 中的基分类器选择过程形式化。该算法首先检查 B 中所有基本分类器之间关于隐私标签的一致性（算法 2，第 5 行）。如果不是所有的基分类器都同意，那么我们估计所有基分类器的能力，并为目标图像识别最有能力的基分类器的子集，如下所示。给定目标图像 T，算法 2 首先使用视觉特征 Fost 和来自 DE 数据集的隐私配置文件识别邻域（NTV，NTP）（算法 2，第 7-9 行）。使用这些邻域，我们提取“能力”特征向量（在第 4.2 节中解释）并将它们提供给 C 中的相应“能力”分类器（在训练阶段学习）以预测基分类器 Bi 的能力分数。如果能力得分大于 0.5，则基分类器 Bi 被确定为有能力预测目标图像 T 的隐私（算法 2，第 10-17 行）。最后，我们根据各自的“能力”分数对由最有能力的基分类器的子集预测的隐私标签的投票进行加权，并采取多数投票来获得目标图像 T 的最终隐私标签（算法 2，第 18 行）。 “能力”分数 CSi 作为基础分类器 Bi 有能力的概率给出。我们考虑最有能力的基本分类器的多数票，因为某些图像（例如，假期）可能需要多个基本分类器（对象和场景）来预测适当的隐私。如果隐私类别（隐私和公共）获得相同数量的选票，则选择后验概率最高的类别。

说明提出的方法

图 2 通过一个轶事示例展示了所提出的方法。我们考虑一个目标图像 T，其隐私必须被预测。对于 T，我们首先确定两个邻域：(1) 视觉内容 (NTV)，(2) 隐私配置文件 (NTP)。对于 NTV，我们使用视觉内容特征 Fost 来计算目标图像 T 和来自数据集 DE 的图像之间的相似性。图中显示了 NTV 的顶部 kv=7 相似图像（左蓝色矩形）。同样，对于 NTP，我们计算目标图像 T- 的隐私配置文件与 DE 中图像的隐私配置文件之间的相似性。我们在图 2 的右侧蓝色矩形中显示了 NTP 的顶部 kp=5 相似图像。从这些邻域中，我们为 B 中的每个基本分类器推导出“能力”特征向量 φ（例如，φo 用于 Bo）。我们在图中将这些“能力”特征显示为特征值矩阵。我们将这些特征输入到来自 C 的相应“能力”分类器（例如 φo 到 Co），以预测基分类器 Bi∈B 是否有能力预测目标图像（T）的正确隐私标签。 “能力”分类器 (Co,Cs,Ct) 在图 2 右侧显示为蓝色矩形。基本分类器 Bo 和 Bt 被预测为有能力的，因此被选中以获得目标图像的最终隐私标签。合格的基本分类器显示在图 2 右侧的绿色矩形中。一旦我们选择了合格的基本分类器，我们就会对这些基分类器预测的隐私标签进行加权多数投票。例如，在这种情况下，有能力的基分类器 Bo 和 Bt 将 T 的隐私预测为“private”，因此，T 的最终隐私标签被选择为“private”。有趣的是，目标图像（T）包含“户外”场景上下文，这对预测正确的隐私标签没有用，因此，所提出的目标图像方法没有选择场景模型 Bs。

5.数据集

我们在从 PicAlert 数据集采样的 32,000 个 Flickr 图像的子集上评估我们的方法，该数据集由 Zerr 等人 [2012] 提供。 PicAlert 由各种主题的 Flickr 图像组成，这些图像由外部查看者手动标记为公共或隐私。选择标签的准则是：私人图像属于私人领域（如自画像、家人、朋友、某人的家）或包含不会与其他人共享的信息（如私人文件）。其余图像标记为公开。 32,000 张图像的数据集分别分为 15,000、10,000 和 7,000 张图像的 DT 、DE 和测试集。每个实验重复 5 次，对三个子集进行不同的划分（使用 5 个不同的随机种子获得），结果在五次运行中取平均值。公共图像和隐私图像在所有子集中的比例为 3:1。

6.实验和结果

我们评估使用所提出的方法 DMFP 获得的隐私预测性能，其中我们在数据集 DT 中的图像上训练一组基分类器 B，并通过识别邻域（NV ,NP) 使用 DE 中的图像。我们首先考虑邻域参数 kv 和 kp 的各种值，并展示它们对所提出方法的性能的影响。然后，我们将所提出方法的性能与使用三种机制获得的性能进行比较：（1）所提出方法的组件方法，用于融合在线图像的多模态特征，(2) 最先进的隐私预测方法，以及 (3) 基于能力选择模型的强大基线（例如，Zahavy 等 al. [56]) 并试图产生基分类器的最佳组合（例如，使用堆叠集成分类器）。

评估设置

我们使用 Scikit-learn 库中实现的校准线性支持向量机 (SVM) 来训练基础分类器 (B) 以预测更准确的概率。我们在数据集 DT 上使用 3 次折叠交叉验证来拟合 2 次折叠的线性 SVM，剩余的用于校准。然后对每个折叠的概率求平均值以进行预测。我们使用逻辑回归在数据集 DE 上训练“能力”分类器 (C)，以预测基本分类器的“能力”分数在 0-1 之间。如果基分类器 Bi 的“能力”得分大于 0.5，则认为基分类器是有能力的。为了从 CNN 中获取特征，我们使用 VGG-16 团队在 ILSVRC-2014 竞赛 [41] 和 CAFFE 中提供的预训练模型框架 [20]。对于深度标签，我们考虑前d=10 对象标签，因为 d=10 效果最好。

探索性分析

我们在表 2 中提供了探索性分析，以突出合并对象、场景和标签模式以进行隐私预测的潜力。我们使用 B 中的基本分类器预测测试集中图像的隐私，并获得“私有”（Pr）、“公共”（Pu）和“整体”（O）准确度：（a）模态是正确的（例如，对象），（ b) 所有模态都是正确的， (c) 所有模态都是错误的，以及 (d) 至少一种模态是正确的。表 2 显示在三个基本分类器（前 3 行）中，标签模型为私有类产生了最佳准确度（57%）。有趣的是，“至少一种模态是正确的”（73%）的结果表明，使用多模态，有巨大的潜力（16%）来提高私人课堂的表现。这个巨大的差距是开发用于隐私预测的多模态方法的一个有希望的结果。接下来，我们评估使用这些模式在私人课程中实现最佳性能提升的 DMFP。

6.1 参数kv和kp对DMFP的影响

我们展示了邻域参数，即 kv 和 kp 对通过所提出的方法 DMFP 获得的隐私预测性能的影响。 kv 和 kp 分别用于识别目标图像的视觉 (NV) 和隐私配置文件 (NP) 邻域（Alg. 2 第 7-8 行）。我们对参数 kv,kp={10,20,…,100,200,…,1000} 的一系列值进行实验，以 10 到 100 的步长，然后以 100 的步长进行实验。我们还进行了实验更大的 kv 和 kp 值，但为了更好的可视化，我们只显示具有显着结果的值。图 3 显示了针对各种 kv 和 kp 值的隐私类获得的 F1 度量（在 DE 数据集上使用 3 倍交叉验证）。我们注意到，当我们增加 kv 参数时，性能会增加，而当我们增加 kp 参数时，性能会增加到 kp=200，然后性能会逐渐下降。结果表明，性能对隐私邻域 (NP) 参数 kp 的变化非常敏感，但对视觉邻域 (NV) 参数 kv 的变化相对不敏感。我们在 kv=900 和 kp=100 时获得最佳性能。我们在接下来的实验中使用这些参数值。

6.2 评估提出的方法

我们在消融实验环境中评估了用于隐私预测的拟议方法 DMFP。具体来说，我们删除了所提出的方法 DMFP 的特定组件，并比较了删除该组件之前和之后 DMFP 的性能。我们考虑从 DMFP 中排除几个组件：（1）视觉邻域 NV（DMFP-NV），（2）隐私配置邻域 NP（DMFP-NP），（3）“能力”特征（例如，DMFP-φ1）， (4) 没有“能力”学习的基础分类器选择（例如，NV-CL）。对于选项 (4)，我们考虑了所提出算法的更简单版本，其中我们不为基分类器学习能力分类器；相反，我们仅依赖于来自邻域的样本准确预测的数量。我们使用来自三个区域的图像对其进行评估：(a) 仅邻域 NV (NV-CL)，(b) 仅邻域 NP (NP-CL) , (c) 邻域 NP 和 NV({NP+NV}-CL)。

表 3 显示了通过所提出的方法 (DMFP) 以及去除上面详述的各种组件后获得的特定于类（隐私和公共）和整体性能。首先，我们希望确定所提出的方法是否有效地表征了私有类，因为在 Web 上与每个人共享私有图像是不可取的。我们观察到，所提出的方法实现了 0.627 的最高召回率和 0.684（私有类）的 F1 分数，这优于通过消除所提出方法的基本组件（例如，邻域）获得的性能。我们注意到，如果我们移除邻域 NV 或 NP，召回率和 F1 分数分别下降 5% 和 4%。这表明需要两个邻域 (NV,NP) 来识别目标图像周围的适当局部区域。同样有趣的是，DMFP-NP(removal of NP) 的性能略低于 DMFP-NV(removal of NV)，这表明邻域 NP 有助于更多地识别一个或多个有能力的基本分类器目标图像。 NP 邻域根据它们的隐私概率使图像更接近，因此有助于识别有能力的基分类器（这在图 2 中很明显）。我们还表明，当我们去除能力学习（CL）即 NV-CL、NP-CL 和 {NV+NP}-CL 时，精度提高了 4%（私人课程），但召回率和 F1 分数（ private class) 分别下降了 9% 和 5%，表明能力学习是实现最佳绩效所必需的。

我们也将“能力”特征一一去除并记录DMFP 的性能，以了解哪些能力特征是必不可少的。表 3 显示当我们移除特征时ϕ1对应邻域NV，性能下降显着（≈4%）。同样，当我们移除 ϕ2（对应于 NP 区域的特征）时，我们注意到私有类的 F1 分数也有 4% 的类似下降。请注意，当我们移除与其邻域相对应的“能力”特征（例如 NV 的 ϕ1 和 NP 的 ϕ2）时，我们得到的性能与我们几乎相似从建议的方法中删除相应的邻域（DMFP-NV 和 DMFP-NP）；暗示去除“能力”特征（例如，φ1）与删除相应的邻域（NV）一样好。然而，仔细观察性能表明，使用 DMFP-ϕ1（0.553 的召回率）获得的性能略低于 DMFP-NV（0.57 的召回率）的性能。类似地，对于 DMFP−ϕ2，性能（召回）从使用 DMFP-NP 获得的 0.572 至 0.565。性能下降可以解释为当我们移除邻域 NV 或 NP 时，各自的“能力”特征是空的，这可能是对某些情况有帮助（因为 ϕs 的零值 ϕ2 特征很有帮助在图 2）。此外，召回 DMFP-NV 和 DMFP-NP相似，而 DMFP−ϕ1(0.553) 的召回率稍差比 DMFP−φ2(0.565) 的召回率。结果表明，邻域 NV 更依赖于“能力”特征与邻域 NP 相比。我们试验了基于概率的“能力”特征（而不是布尔特征），但没有产生性能改进。

6.3 提出的方法 VS 基础分类器

我们将所提出的方法 DMFP 获得的隐私预测性能与一组基类 B 进行比较：1. 对象（Bo）、2. 场景（Bs）和 3. 图像标签（Bt）。

表 4 比较了所提出的方法 (DMFP) 和基分类器获得的性能。与基本分类器相比，我们实现了最高的性能，并且在私人课程的 F1 分数中显示出 ≈10% 的最大改进。我们注意到，我们基于多模态的方法比对象和场景模型的召回率提高了 11%，比标签模型的召回率提高了 ≈ 6%，这是为私人获得的性能最好的单模态模型。类来自探索性分析（见表 2）。尽管如此，我们的方法还是会犯一些错误（见表 2 和表 3，73% 与 62%）。仔细观察错误发现，注释者的轻微主观性可以为相似的图像主题获得不同的标签（例如，食物图像是非常主观的）。

误差分析

我们进行错误分析以进一步分析所提出方法的结果。我们首先确定 B 中所有基分类器产生的错误，并通过所提出的方法 DMFP 进行纠正。我们计算了私人班级、公共班级和整体（考虑这两个班级）的更正错误的百分比，并将它们显示在表 6 中。我们将更正错误的百分比计算为私人（或公共）班级的更正错误数超过私有（或公共）类错误的总数。我们通过考虑公共类和私有类来计算总体纠正错误的比例。该表显示我们纠正了 14%−27% 的私有类错误，18%−58% 的公共类错误，总体上我们消除了 16%−37% 的错误。请注意，为私有类生成的错误比公共类大得多（参见表 4），因此，即使是相对较小百分比的更正错误也构成了显着的改进。我们还通过显示图 4 中样本的预测来分析结果，其中至少有一个基本分类器无法预测图像的正确隐私。例如，例如（b），场景模型未能预测图像的正确隐私；然而，DMFP 识别有能力的基本分类器，即对象和标签，并预测正确的隐私标签。我们还展示了一个示例（图像 (d)），其中所有基本分类器都无法预测正确的隐私类别，因此，所提出的方法也无法预测正确的标签。食物的图像是非常主观的，因此，通用基分类器不足以预测此类图像的正确标签。未来，这些通用模型可以扩展到开发混合方法，考虑通用和主观隐私概念来预测个性化隐私标签。

6.4 提出的方法 VS 基线

我们将所提出的方法DMFP的性能与下面描述的基于多模态的基线进行比较。

1.Zahavy等人的模型选择[56]：作者提出了一种用于电子商务产品分类的深度多模态架构，其中他们学习了决策级融合策略，以在输入产品的图像和文本 CNN 之间进行选择。具体来说，作者提供产品的类别概率作为在验证数据集上训练的策略的输入，并使用它来预测是否应该为输入选择图像 CNN（或文本 CNN）。换句话说，策略决定了 CNN 为其输入，因此，我们将其视为我们的基线。为了公平比较，我们学习了 3 个策略（对应于能力分类器 C），其中每个策略（比如对象策略）预测是否应该为目标图像选择相应的基本分类器（对象）。请注意，我们在 DE 数据集。最后，我们对目标图像的选定基分类器（由策略识别）预测的隐私标签进行多数投票。

2.多数票：我们将多数票视为另一个基线，因为我们将其用于最终选择目标图像的隐私标签。与我们的方法不同，投票是在没有任何基分类器预选的情况下进行的。我们使用 B 中的基分类器预测目标图像的隐私并选择具有最高票数的标签。

3.决策级融合：固定规则，即平均不同 CNN 的预测 [25] 或选择具有最高置信度的 CNN [38]。第一条规则相当于多数投票基线，因此，我们只显示第二条规则的结果。第二条规则给出如下： YT=argmaxi([Pio+Pis+Pit]/3), wherei=0 ( public), 1 (private) .Po,Ps 和 Pt 分别表示使用对象 (Bo)、场景 (Bs) 和标签 (Bt) 模态获得的后验概率（隐私或公共）。

4.Stacked Ensemble (Stacked–en):Stacking 学习元分类器以找到基学习器的最佳组合 [5,26]。与 bagging 和 boosting 不同，stacking 集成稳健且多样化的基分类器集，因此，我们将其视为基线之一。我们使用相同的一组基分类器 B 使用后验概率 P(YI=private|I,Bi) 和 P(YI=public|I,Bi) 在 DT 中编码图像，其中 Bi∈B。我们训练元分类器这个编码的 DT 数据集使用校准的 SVM 分类器。我们使用这个元分类器来预测编码目标图像 T 的隐私类别（使用由基分类器 P(YT=private|T,Bi) 和 P(YT=public|T,Bi) 获得的后验概率）。由于我们仅使用 DE 来学习“能力”分类器，因此我们不考虑将其用于训练元分类器以进行公平比较。

5.基于聚合的模型（聚合–en）：我们使用层次聚类机制和对象、场景和标签特征（Fost）的组合创建了 5 个 DT 数据集集群。我们使用 Fost 的特征组合在每个集群上训练校准的 SVM 模型。对于目标图像 T，使用 k=15 个最近邻识别最相关的集群，并使用在该集群上训练的模型来预测目标图像的隐私。我们将此视为另一个基线，因为对在线共享的图像进行聚类 , 将相似的图像类型（例如，肖像）放在一起，在这些集群上训练的模型可以有能力预测各个图像类型的目标图像的隐私。聚类和邻居的数量是基于 DE 数据集估计的。

表 5 比较了所提出的方法 DMFP 获得的性能与使用基线模型获得的性能。我们观察到 DMFP 通过在隐私类的 F1 分数和召回率方面提供 4.5%-14% 和 4%-20% 的改进，在隐私类上比基线学习更好的隐私特征。当我们在 DE 数据集上学习基本分类器 (B) 的“能力”而不识别邻域（第一个基线，Zahavy 等人 [56]）时，精度、召回率和 F1 分数下降了 9%，≈ 6%，≈7%。有趣的是，DMFP-CL（参见表 3，NV-CL，NP-CL，{NV+NP}-CL）的精度，即 0.79 优于第一个基线（Zahavy 等人 [56] ])，即 0.662，而第一个基线的召回率 (0.568) 优于 DMFP-CL(0.534)。然而，当我们结合邻域（{NV+NP}）和第一个基线（能力学习），即所提出的方法 DMFP 时，我们获得了比这些方法中的每一个都更好的性能。另一个需要注意的细节是，第一个基线（Zahavy 等人 [56]）的性能非常接近图像标签模型（见表 5、4），即使基线使用多模态，性能也不会超过显着超过各个基本分类器（对象、场景、图像）。 Zahavy 等人 [56] 在产品分类方面表现良好，但未能在隐私预测方面产生改进的结果，因为与产品图像或 ImageNet 图像（图像中包含单个对象）不同，在线共享的图像要复杂得多（包含多个物体和场景）和多样化（具有不同的图像主题，如自画像、个人事件）。结果表明，很难将基分类器的能力推广到所有类型的图像主题，因此需要根据目标图像的邻域动态确定基分类器的能力。

表 5 还显示，私有类的 F1 度量从多数投票（第二条基线）获得的 0.637、决策级融合获得的 0.65（第三条基线）、stacked-en 获得的 0.636（第四条基线）有所提高，以及 cluster-en（第五个基线）获得的 0.545 到 DMFP 获得的 0.684。此外，我们注意到所提出的方法在所有比较措施方面都能够实现高于 85% 的性能。请注意，将每个图像分类为“公共”的朴素基线获得了 75% 的准确率。使用配对 T 检验，在 p 值 <0.05 时，私人班级 F1 度量的基线方法的改进在统计上是显着的。

6.5 提出的方法 VS 先前的图像隐私预测工作

我们将所提出的方法 DMFP 获得的隐私预测性能与隐私预测的最新成果进行比较：1.object[49,50] (Bo), 2.scene[51] (Bs),3.图像标签[45,49,50] (Bt)，4. PCNH 隐私框架 [52]，和 5.所有特征的串联 [51]。请注意，前三个作品是 DMFP 的特征集，并在实验 6.3 中进行了评估。我们在以下内容中描述了剩余的先前工作（即 4 和 5）。 4。 PCNH隐私框架[52]：该框架结合了从两种架构中获得的特征：一种提取卷积特征（大小= 24），另一种提取对象特征（大小= 24）。对象 CNN 是一个非常深的 11 层网络，通过在 AlexNet [25] 的全连接层的末尾附加三个大小为 512、512、24 的全连接层获得。 PCNH 框架首先在 ImageNet 数据集上进行训练 [40]，然后在隐私数据集上进行微调。 5. 对象、场景和用户标签的组合（Concat）[51]：Tonge 等人。 [51] 将对象和场景标签与用户标签相结合，并在单独的标签集上实现了改进的性能。因此，我们将所提出的方法与在所有特征集（Fost）的组合上训练的 SVM 模型进行比较，以表明它不足以准确预测图像的隐私。在我们的例子中，我们考虑对象和场景的视觉特征而不是标签，并将它们与用户标签结合起来，通过视觉和标签特征的串联来研究多模态。

表 7 比较了所提出的方法 (DMFP) 和先前工作获得的性能。与之前的作品相比，我们实现了最高的性能，并在隐私类的 F1 分数中显示出≈10% 的最大改进。我们注意到，我们基于多模态的方法比几乎所有先前工作的召回率提高了 11%（参见表 4 和 7）。特别是，我们在 PCNH 框架的所有度量方面都显示了改进，该框架使用对象和卷积两种特征。我们发现向对象特征添加高级描述特征（例如场景上下文和图像标签）有助于提高性能。除了单个特征集，我们还优于这些特征集的串联（表示为“Concat”），表明“Concat”无法产生多模态的最佳组合。我们注意到“Concat”的性能略低于基分类器的性能（参见表 4 和表 7）。我们发现这与 Zahavy 等人结果一致。 [56] 将图像和标签 CNN 的各个层连接起来，并端到端地训练融合的 CNN，但没有产生比单个 CNN（图像或标签）更好的性能。

7. 总结和未来工作

在这项工作中，我们估计了通过卷积神经网络得出的对象、场景和图像标签模态的能力，并动态识别目标图像的最有能力的模态集，以充分预测图像的类别是私人的还是公共的。所提出的方法包含三个阶段，其中我们首先根据视觉内容相似性和隐私配置文件相似性识别目标图像的邻域。然后，我们从这些邻域中导出“能力”特征，并将它们提供给“能力”分类器，以预测一种模态是否适合目标图像。最后，我们选择最有能力的模态的子集，并采取多数票来预测目标图像的隐私类别。实验结果表明，我们的方法比在单个模态（对象、场景和标签）、多模态基线和先前的隐私预测方法上训练的模型更准确地预测敏感（或私人）内容。此外，我们的方法可以帮助其他应用程序，如事件理解、图像分类，以根据目标图像动态决定使用哪个 CNN（对象、场景或标签）。

在未来，研究个性化隐私设置中的动态多模态融合会很有趣。此外，可以开发其他类型的能力学习方法和能力特征来估计基分类器的能力。

Super—Shine

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】Dynamic Deep Multi-modal Fusion for Image Privacy Prediction

摘要随着数以百万计的图像在社交网站和社交网站上共享，人们迫切需要有效的图像隐私预测方法。在本文中，我们提出了一种融合对象、场景上下文和图像标签的方法，该方法源自于卷积神经网络，用于准确预测在线共享图像的隐私性。具体地说，我们的方法根据每个必须预测其隐私的新目标图像，在y上识别出一组最有能力的模式。e方法考虑了三个阶段来预测目标图像的隐私，其中我们首先识别视觉相似和/或具有与目标图像相似的敏感内容的邻域图像。嗯，我们根据邻居的胡德图像来评估模式的能力。最后，我们融合最具竞争力的模式的决策，...
复制链接

扫一扫