计算机视觉研究生入门心得

方方爱学习

已于 2023-11-18 19:20:01 修改

阅读量107

点赞数 1

分类专栏： CV学习笔记文章标签： pytorch

于 2023-11-18 18:49:20 首次发布

本文链接：https://blog.csdn.net/weixin_45920120/article/details/133957595

版权

CV学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

一、记录CV入门的学习历程：

（1）局部区域感知和关系学习结合特征融合进行面部动作单元检测

该文介绍了一种用于面部动作单元（AU）检测的单阶段训练框架。该框架包括局部区域感知模块、AU关系学习模块和特征融合模块。

局部区域感知模块通过局部注意力机制有效提取与AU检测相关的面部局部特征。AU关系学习模块利用图神经网络获取AU之间的关联信息。特征融合模块将骨干网络提取的整体特征与AU特征进行融合。实验结果表明，该方法在AU检测任务上取得了较好的性能。

注释：

AU：面部动作单元，检测是一种用于识别和分析人脸表情的技术。AU是一种标准化的面部表情动作，它们代表了面部肌肉的运动。通过检测和识别这些AU，我们可以了解一个人的情绪状态和表情变化。

（2）融合网络和动态采样的多模态面部表情识别

该文提出了一种多模态面部表情识别方法，利用音频信息和面部图像来提供区分一些模糊面部表情的重要线索。具体来说，就是引入了一个模态融合模块（MFM）来融合音频与视觉信息，其中图像和音频特征是使用Swin Transformer提取的。通过采用动态数据重采样来解决数据集中的不平衡问题。我文中提出该模型已在CVPR 2023的情感行为在野外（ABAW）挑战中进行了评估。

注释：

模态融合模块（MFM），原意思是Multi Fusion Module ，在文中的解释是因为在脸部识别时，会存在图片不清晰的状况，通过脸部图像和声音的结合模式，判断声音的语速、音调以及大小，来多模式的融合识别面部，提高准确度。

二、神经网络学习

线性模型

dataset 2.model 3.Training 4.infering

Training:刚开始以人工为主

损失函数针对一个样本，损失函数的误差cost>=0,越小越好。

Cost=1/n(y’i()-y)^2,i=1,2,3....

平均平方误差Mean square Error MSE

利用穷举法，绘制曲线，判断最优权重的取值

Pytorch写神经网络,深度学习：

1：构建数据集 Prepare dataset

2：设计模型 Design Module

3：构造损失和优化器 Construct loss and optimizer

4：训练周期 forward,backward,updata

逻辑斯蒂回归：

Logistic:

交叉熵求误差BCE：batch cross entropy

p1(x)*ln(p2(x))

Loss=-{ylogy’+(1-y)log(1-y’)}

当y->0时，loss=-log(1-y’)，这样想使得loss越小（误差小），则log(1-y’)越大，则y'越小即可，因此使得y与y'的增势相近

Dataset from torch.utils.data import Dataset ,其中的Dataset是一个抽象类，只能够将其进行继承，不能实例化。

from torch.utils.data import Dataloder，使用时train_loader = DataLoader(dataset=dataset,batch_size =32,shuffle=True,num_workers=2)表示的意思是：dataset=dataset是将dataset的对象给传进来，batch_size=32是表示一批能够处理多少数据，shuffle=True表示是否要将数据打乱，num_workers=2表示读数据时多线程并行的进程个数来读取数据。

多分类问题(transfrom)分类器:

Softmax函数=e^zi/(Σe^zi)

Loss(y’,y)=-ylogy’

Normalize(mean,std)，（均值，标准差）用于数据的标准化，将数据变为（0，1）分布，

ToTensor(),用于将维度变化，把单通道变为多通道，把像素数据由{0.。。。255}变为[0.1]

模型：输入的是一组图像，激活层改为ReLu Layer,输出层不做激活由交叉熵损失来计算SoftMax

交叉熵损失：

神经网络：

笔记：

Maxpooling函数：

作用是将所输入的图像的矩阵，通道不变，其stride默认为2，然后将其划分，比如4*4的图像，将其划分为4个2*2的块，并求其中每个块的最大值，形成一个新图像矩阵，这样原图像矩阵变成其图像成为原来的一半

信息融合：

一些信息通过一些运算，比如像乘以权值后，所进行的加成，后会形成一个数据，那么就可以说这个数据包含了前面的那些信息。

1*1卷积：

最主要的作用是改变通道的数量，比如说：Chanl由C1->C2，也就像是三个3*3的矩阵，可以说是（1，3，3，3），经过与1*1的卷积作用以后（也就相当于矩阵乘以了一个权值），会形成三个3*3的新矩阵，再将这3个新矩阵相加生成一个1*3*3的矩阵，则实现了（1，3，3，3）->（1，1，3，3）的转变

三、小土堆：深度学习笔记

1.torch.nn.Conv2d：

卷积操作，torch.nn.functional.Conv2(input,weight,bias=None,stride=1,padding=0,dilation=1,groups=1)

stride控制步径，默认为1，也可以有参数，（kh,kw），横向和纵向的步径

Padding作用是填充，为了对齐，默认为0不进行填充，为1，2，3就是填充在周围填充多少行

2.Maxpool2d：

Maxpool2d(kernel_size=3,ceil_mode=true)

默认的stride步长等于kernel_size的大小，ceil_mode就是向上取的意思，如果不够一次取得，是否留下计算的结果

3.激活函数：

Relu(x)=max(0,x)：

Relu又称为修正的线性单元（rectified linear unit），可以解决梯度消失现象，但是又会出现神经元坏死现象，因为出现负值就一直为零，一些神经元始终不会被激活，导致神经元坏死，解决方法：Leak relu函数，改动是在负半轴增加一个很小的梯度，当y<=0时，y’=0.01y

Sigmoid1/(1+e^x),会出现梯度消失现象

激活函数只用于前后两层网络，最后一层不需要激活函数

四、手势识别综述笔记

1.手势根据状态可以分为动态手势和静态手势

识别对象又可以分为二维平面手型和三维立体手势

动态二维

静态三维

So：静态和三维的结合是否可行，是否有意义，能够解决什么问题？

神经网络用于手势识别的种类，以人工神经网络为问分类依据：

主要研究方向:

①卷积神经网络

②循环神经网络

③注意力机制

④混合神经网络

其中④包含：①和②的组合、①和③的组合、②和③的组合、①和②和③的组合

次要研究方向：

如：

SPD流行学习神经网络学习方法，用于骨骼模型手势识别

径向基函数神经网络为基础的基于轨迹的手势识别方法

模糊手势数据集和模糊匹配算法

So:

Ⅰ是否可以讲混合神经网络中的某个与非流行识别方法结合

Ⅱ模糊匹配算法是否可以进行改进，进行更加快速的匹配去触发阈值，从而确定手势的类型

手势图像处理的发展：

卷积神经网络处于主导地位，循环神经网络次之，注意力机制最少，并且注意力机制所牵扯到的方法较少，目前不能形成有价值的规律性总结

So:是否注意力机制于其卷积或循环的结合能提升效率？

目前的基于卷积神经网络改进发展现状：

动态手部与静态手部的差别是一个时间维度，帧宇帧之间的变化，传统的二维卷积神经网络（C2D）用于识别静态手部特征，无法识别结合时间维度的动态，三维卷积神经网络（C3D）就可以识别动态的时间序列＋空间序列的问题，目前的发展是大量的将C3D进行改造，去适应动态的手部识别问题

①对传统的C2D进行三维扩展，将众多二维卷积神经网络扩展到三维，使其具备识别动态的手部特征问题

②三维可分离神经网络，使用降低模型复杂度，来提高效率

③对C3D进行增加神经网络的深度、广度或是深度和广度的结合，卷积层的层数不会增加，但是网络的总层数在增加，如：

Ⅰ：将三维卷积层扩展为两组，然后进行组合输出，增加的是网络的宽度

Ⅱ：使用残差操作，类似于残差网络的思想，增加网络的深度，使得网络可以非常的深

Ⅲ：将手势运动姿态进行解耦，划分为手部姿态和手部运动，分别建模处理

总结：在所有三维的卷积网络的变体中，大部分是对于三维C3D为模板的增删改，去增强其适应性

So:是否可以利用GooleNet的思想，将手势姿态解耦后，通过两个不同的卷积层所组成的Inception块，进行同步的特征提取，然后再将其分析的结果进行组合，去最大限度的提取手部的运动变换姿态

五、线性回归

六、多层感知机

七、支持向量机

八、编码器-解码器

九、PCA降维

十、消融实验

方方爱学习

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
计算机视觉研究生入门心得

该文提出了一种多模态面部表情识别方法，利用音频信息和面部图像来提供区分一些模糊面部表情的重要线索。具体来说，就是引入了一个模态融合模块（MFM）来融合音频与视觉信息，其中图像和音频特征是使用Swin Transformer提取的。实验结果表明，该方法在AU检测任务上取得了较好的性能。模态融合模块（MFM），原意思是Multi Fusion Module ，在文中的解释是因为在脸部识别时，会存在图片不清晰的状况，通过脸部图像和声音的结合模式，判断声音的语速、音调以及大小，来多模式的融合识别面部，提高准确度。
复制链接

扫一扫