基于深度语义特征的图像情感分类算法

现有的基于语义特征的图像情感分类算法,更多的是在低端特征的基础上通过低端特征的不同组合,构建相应的语义分类器,比如物体或者场景,然后对于具体的图像,将其在分类器上的对各概念的响应作为语义特征,最后利用语义特征进行图像情感分类的研宄。显然,该方法非常依赖于语义特征的表征能力,而基于低端特征构建的语义特征相比较深度语义特征而言,其在表征能力上有着非常大的差距,因此提出基于深度语义特征的图像情感分类算法。一方面,提出使用深度语义特征进行图像情感分类,具体包括使用不同语义特征以及同一语义特征不同抽象层次的图像情感分类算法;另一方面,提出改进的多特征融合算法,包括基于微调双路网络的多特征早融合算法,以及强调不同特征分类结果对最终分类结果不同影响力的多特征晚融合算法。

1.基于单一深度语义特征的图像情感分类算法

在卷积神经网络中,随着层次逐渐深入,对所获取的信息不断抽象,因而从其中所抽取到的特征也从低级到高级。从图中可以看出,对于卷积神经网络而言,底层特征是非常类似的,大多是边缘以及形状等信息,而后随着层次深入,特征抽象程度越来越高,越来越接近分类的物体。基于这一点,对于我们提出的基于单一深度语义特征的图像情感分类算法而言,显然语义特征的抽取需要从卷积神经网络的较高层中进行。

具体而言,在卷积神经网络模型的选择上,我们选择了在计算机视觉领域中
广泛应用的VGGNET。图给出了VGGNET的具体架构,从图中,我们可以看出与传统的卷积神经网络类似,VGGNet也是低层通过卷积操作抽取局部特征,高层通过全连接层去构建高级的语义抽象。因而在深度语义特征的选择上,我们更多应该从全连接层去选取。VGGNET算上最后的分类层,总共有三个全连接层。显然三个全连接层,都可以看作深度语义特征,不过区别在于一层比一层抽象,一层比一层接近分类内容。我们的算法即选取该三种不同层次的特征,分别构建相应的分类器,进行图像情感分类。

 对于VGGNET而言,其基础模型训练的目的不同,所抽取到的语义特征也是完全不同的。分析发现,我们在观察一幅图像时,主要关注其中的物体跟场景信息,因而在基础模型的选择上,我们选取的是物体分类模型以及场景分类模型。

2基于深度语义特征融合的图像情感分类算法

正如前文提及的一样,物体与场景是图像中的两个重要因素,因而基于单一语义特征的图像情感分类算法,虽然在图像情感分类上有不错的效果,但是其仍有较大的提升空间。其中一种提升方式,即多种信息融合,多信息融合有助于图像情感分类性能的进一步提升。传统的融合方式,一种是早融合,即在特征层面的融合,首先将抽取到的不同信息合并,然后再将其通过分类器进行分类;一种是晚融合,即结果层面的融合,首先通过不同的信息分别进行分类,然后将分类的结果进行合并。在传统融合策略的基础上,分别提出了基于深度语义特征早融合的图像情感分类算法以及基于深度语义特征晚融合的图像情感分类算法。

2.1基于深度语义特征早融合的图像情感分类算法

对于多特征融合而言,其融合方式非常关键,合适的融合方式能够进一步提升模型的性能表现,而不恰当的融合方式不仅有可能使得最终性能不是最佳,甚至有可能起到反作用。传统的早融合策略将不同特征结合起来,虽然具有一定的分类效果,但是其没有考虑到两种特征的搭配是否合适,甚至是否最优。考虑到上述问题,本节提出基于双路网络早融合的图像情感分类算法。图是具体的网络架构图。双路网络中,一路网络为物体识别网络,一路网络为场景识别网络,两路网络分别抽取图像的物体特征以及场景特征,最终两路特征融合作为深度网络中的一层,然后通过一个全连接层进行图像情感分类。需要注意的适,与传统的早融合策略不同,两路特征抽取网络参数不再是完全固定不动,其部分参数可以通过最终的分类误差进行调整,从而使得两路网络以最终的图像情感分类为目标,在考虑两者融合的基础上找到各自最合适的特征表达。

具体来说,在训练开始之前,双路网络分别用预训练好的物体识别网络与场景识别网络初始化,然后在训练过程中,固定其中的卷积层权重参数,允许全连接层进行参数更新。整个网络通过常用的多分类损失函数Softmax loss进行监督。
总结起来,整个基于图像显著性的图像情感分类算法的训练流程如下:
输入:训练数据集{It},初始化深度网络参数\Theta以及学习率,以及设定最大的迭代次数T以及当前迭代次数t=1。
执行以下步骤,直到t>T:
1)从所有训练数据中采样,获取训练的batch。
2)通过物体识别网络抽取深度物体特征。
3)通过场景识别网络抽取深度场景特征。
4)融合双路特征,得到融合后的图像特征表示。
5)预测图像情感,并根据损失函数计算当前误差。
6)反向传播误差到每一层,并更新层中对应的参数。

2.2基于深度语义特征晚融合的图像情感分类算法

传统的后融合方法,直接将每一种特征的分类结果进行加权,虽然能够取得一定的效果,但是其存在一定的缺陷,即其直接默认每个特征的分类结果对最终的分类影响完全是凭借经验估计而来,而实际上,单纯凭借估计,不一定能够得到最优的权重组合,因而也不一定能够获得最好的图像情感分类效果。另外,传统的后融合方法,默认同一特征对于所有的分类类别的贡献是相同的,而实际中也并非究全如此。基于这些考虑,我们提出了两种改进的基于深度语义特征晚融合的图像情感分类算法。
1)同一特征分类结果对最后各分类类别的影响是相同的。
该种方法默认同一特征分类结果对最后各分类类别的影响是相同的,只是不同特征分类结果所占的权重不同。具体而言,各特征分类结果的相对权重,在训练中通过优化以下损失函数得到
 

其中,\Theta为待优化的权重参数,R为单一深度语义特征预测结果的类概率表示,G为真正图片类别的类概率表示,r为特征数目,n为batch大小。

2)同一特征分类结果对最后各类分类结果的影响是不同的。与上面的方法认为同一特征分类结果对最后各分类类别的影响是相同的不同,该种方法认为,同一特征分类结果,对于最终分类结果中不同类别的影响力是不同的。具体而言,各特征分类结果对于最终分类结果中各类别的相对贡献,在训练中通过优化以下损失函数训练获得:
 

 其中,\Theta为待优化的权重参数,R为单一深度语义特征预测结果的类概率表示,G为真正图片类别的类概率表示,r为特征数目,n为batch大小,m为情感类别数目。

在实际训练过程中,只有\Theta是需要训练的参数,我们通过梯度下降法进行参数寻优。因而整个基于深度语义特征晚融合的图像情感分类算法的训练流程可以表示如下:

输入:训练数据集{It},初始化深度网络参数\Theta以及学习率,以及设定最大的迭代次数t以及当前迭代次数t=1。

执行以下步骤,直到t>T:
1)从所有训练数据中采样,获取训练的batch。
2)通过基于深度物体特征的图像情感分类器获取图像情感分类结果。
3)通过基于深度场景特征的图像情感分类器获取图像情感分类结果。
4)晚融合两种结果,得到最终的图像情感分类结果,并根据对应的损失函数计算当前误差。
5)根据所得误差,更新相应的权重参数。
 

 

 

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 引言 随着社交媒体和互联网的普及,人们在日常生活中产生了大量的文本数据,如评论、微博、新闻等。这些文本数据中包含了大量的情感信息,对于企业和个人来说,了解消费者或用户的情感倾向是非常重要的。文本情感分类就是将文本数据根据其情感倾向进行分类的任务。 传统的文本情感分类算法主要基于词袋模型和统计特征,这些算法往往需要手动提取特征,并且对于文本中的语义信息无法很好地处理。现在,深度学习技术的发展使得文本情感分类任务得到了很大的改善,深度学习模型可以从原始的文本数据中学习到高层次的语义特征并进行分类。 本文将介绍基于深度学习的文本情感分类算法的设计和实现,主要包括以下内容: - 文本情感分类任务的定义和评估指标 - 常见的深度学习模型及其在文本分类任务中的应用 - 模型训练和优化方法 - 实验结果分析 2. 文本情感分类任务 文本情感分类任务是将一段文本分为正面、负面或中性三个类别中的一个。在实际应用中,还可能需要更细粒度的分类,如喜欢、不喜欢、中立、愤怒、悲伤等。对于文本情感分类任务,评估指标主要有准确率、召回率、精确率和F1值等。 - 准确率(Accuracy):分类正确的样本数占总样本数的比例。 - 召回率(Recall):分类正确的正样本数占实际正样本数的比例。 - 精确率(Precision):分类正确的正样本数占分类为正样本的样本数的比例。 - F1值:综合考虑精确率和召回率的值,F1值越高,分类效果越好。 3. 常见的深度学习模型 深度学习模型在文本分类中的应用主要有卷积神经网络(Convolutional Neural Network,CNN)、长短时记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(Recurrent Neural Network,RNN)等。这些模型在文本分类任务中的表现都非常好,具体应用如下: - CNN模型:CNN模型主要用于图像识别任务,但是在文本分类任务中也有广泛的应用。CNN模型可以对文本中的n-gram特征进行提取和组合,从而学习到连续的语义信息。例如,可以使用卷积层对文本的词向量表示进行卷积,然后使用池化层将结果压缩成固定长度的向量,最后使用全连接层进行分类。 - LSTM模型:LSTM模型是一种能够处理长序列数据的循环神经网络模型。在文本分类任务中,LSTM模型可以捕捉文本中的长期依赖关系,从而提高分类性能。LSTM模型在处理文本时,可以将每个词的词向量表示作为输入,然后使用LSTM单元对序列进行处理。 - RNN模型:RNN模型是一种能够处理序列数据的循环神经网络模型,它可以对序列数据进行逐个处理,并且可以将前面的信息传递给后面。在文本分类任务中,RNN模型可以对文本中的历史信息进行建模,从而提高分类性能。RNN模型在处理文本时,可以将每个词的词向量表示作为输入,然后使用RNN单元对序列进行处理。 4. 模型训练和优化方法 在深度学习模型中,模型的训练和优化是非常重要的环节。常见的模型训练和优化方法主要有以下几种: - 梯度下降法:梯度下降法是一种常用的优化方法,它通过计算误差函数相对于参数的梯度,并根据梯度的反方向更新参数。梯度下降法可以使用批量梯度下降法(Batch Gradient Descent,BGD)、随机梯度下降法(Stochastic Gradient Descent,SGD)或者小批量梯度下降法(Mini-Batch Gradient Descent,MBGD)等不同的方式进行。 - 反向传播算法:反向传播算法是一种计算神经网络中误差梯度的方法。在深度学习模型中,反向传播算法通常与梯度下降法一起使用,用于更新模型的参数。 - Dropout:Dropout是一种常用的正则化方法,它可以随机地将神经元的输出设置为0,从而防止过拟合。Dropout可以在训练期间随机选择一些神经元进行dropout操作,从而强制模型学习到更加鲁棒的特征。 - Batch Normalization:Batch Normalization是一种常用的优化方法,它可以加速模型的训练并提高模型的准确率。Batch Normalization可以对每一层的输出进行标准化,从而使得输入到每一层的值都在一个较小的范围内,从而加速模型的训练过程。 5. 实验结果分析 为了评估基于深度学习的文本情感分类算法的性能,我们可以使用公开的数据集进行实验。例如,可以使用IMDB数据集、Yelp数据集或者Amazon数据集等进行实验。在实验中,我们需要将数据集划分为训练集、验证集和测试集,并使用交叉验证等方法进行模型的选择和参数的调优。实验结果可以使用准确率、召回率、精确率和F1值等指标进行评估。 总之,基于深度学习的文本情感分类算法可以有效地处理文本中的语义信息,从而提高分类性能。在实际应用中,我们可以根据具体的任务选择合适的深度学习模型和优化方法,并对模型进行训练和优化,从而得到更好的分类结果。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值