原文链接:该文献的原文链接https://ieeexplore.ieee.org/document/9306328/references#references文章重点关键字(我个人的关注点):
FSL少样本分析;少参数高精度卷积神经网络;图像分类;度量学习
正文:
本文提出了一个视觉情绪分析系统,使用少样本预测情绪,
- 数据集:
从社交网站上收集到标记良好的情绪识别图像,根据Plutchnik’s wheel of emotions,分为8类(娱乐、愤怒、敬畏、满足、厌恶、兴奋、恐惧和悲伤)数据来源:Flickr 3000多张图片(tips:由于目标是获得情感图像,手动消除了由简单单色或文本图像组成的非情感图像。)最后得到每种情绪300张图片一共2400张图片。招募了五名AMT(Amazon Mechanical Turk)员工,为每张照片生成情绪标签(惊讶、悲伤、喜悦、厌恶、愤怒、恐惧、信任和期待),将这个视觉情感数据集称为Senti8PW。
- 作者自己设计的神经网络:
添加了两个层:一个L2标准化层L2-Normalization layer和一个特征层Scale layer
(个人笔记tips:L2范数归一化就是为了将数据向量归一到单位超球体,增加数据对尺度变化的鲁棒性(invariance to changes in scale)。也就是说,无论原始数据的尺度或规模如何,经过L2归一化后的数据都能保持相同的分布特性。在机器学习的训练过程中,特别是神经网络和聚类算法,L2归一化可以提高数值的稳定性并加速收敛。)
L2标准化层将输入特征向量x归一化为单位向量y,然后特征层将单位向量放大缩小为α的固定半径,α是可以手动训练和固定。这两个层是完全可微的,可以集成到一个端到端的训练网络中(tips:个人理解的端到端的训练网络是指神经网络之间的参数都是共同训练的,而不是只会修改一部分)
特征提取层卷积层一共有4层,如下图:
第一层:卷积核10×10,ReLU为非线性操作,池化层2×2max,输入105×105的3通道图片,卷积输出96×96×64,池化输出为48×48×64
第二层:卷积核7×7,ReLU为非线性操作,池化层2×2max,输入48×48×64,卷积输出42×42×128,池化输出为21×21×128
第三层:卷积核4×4,ReLU为非线性操作,池化层2×2max,输入21×21×128,卷积输出18×18×128,池化输出为9×9×128
第四层:卷积核4×4,ReLU为非线性操作,池化层2×2max,输入9×9×128,卷积输出6×6×256,池化输出为3×3×256
得到的是3×3×256的特征图,在flatten层上进行展平,变成长度为3×3×256=2304的一维向量
最后进行两次全连接,一次激活函数为ReLU得到4096的向量,再次激活函数为Linear得到256的特征向量x
- 引用基于CNN的神经网络:
包含了C32F、C64F、C128F、VGG16、ResNet12,对最后输出的特征向量进行了一些修改,统一规划为长度为256的特征向量。
- 分类的距离度量:
使用了欧氏距离和余弦相似度对特征向量进行分类。
结果:
结果作者提出的神经网络是最准确的,欧几里得度量产生的精度也是比余弦相似度高,Senti8PW也比Emotion6、EmotionROI数据集更准确。
日后再分析其中的各步操作----2023.12.14