计算机视觉研究生入门心得

一、记录CV入门的学习历程:



(1)局部区域感知和关系学习结合特征融合进行面部动作单元检测

该文介绍了一种用于面部动作单元(AU)检测的单阶段训练框架。该框架包括局部区域感知模块、AU关系学习模块和特征融合模块。

局部区域感知模块通过局部注意力机制有效提取与AU检测相关的面部局部特征。AU关系学习模块利用图神经网络获取AU之间的关联信息。特征融合模块将骨干网络提取的整体特征与AU特征进行融合。实验结果表明,该方法在AU检测任务上取得了较好的性能。

注释:

AU:面部动作单元,检测是一种用于识别和分析人脸表情的技术。AU是一种标准化的面部表情动作,它们代表了面部肌肉的运动。通过检测和识别这些AU,我们可以了解一个人的情绪状态和表情变化。

(2)融合网络和动态采样的多模态面部表情识别

该文提出了一种多模态面部表情识别方法,利用音频信息和面部图像来提供区分一些模糊面部表情的重要线索。具体来说,就是引入了一个模态融合模块(MFM)来融合音频与视觉信息,其中图像和音频特征是使用Swin Transformer提取的。通过采用动态数据重采样来解决数据集中的不平衡问题。我文中提出该模型已在CVPR 2023的情感行为在野外(ABAW)挑战中进行了评估。

注释:

   模态融合模块(MFM),原意思是Multi Fusion Module ,在文中的解释是因为在脸部识别时,会存在图片不清晰的状况,通过脸部图像和声音的结合模式,判断声音的语速、音调以及大小,来多模式的融合识别面部,提高准确度。

二、神经网络学习

线性模型

  1. dataset  2.model  3.Training  4.infering

Training:刚开始以人工为主

损失函数针对一个样本,损失函数的误差cost>=0,越小越好。

Cost=1/n(y’i()-y)^2,i=1,2,3....

平均平方误差Mean square Error  MSE

利用穷举法,绘制曲线,判断最优权重的取值

Pytorch写神经网络,深度学习:

1:构建数据集  Prepare dataset

2:设计模型 Design Module

3:构造损失和优化器   Construct loss and optimizer

4:训练周期  forward,backward,updata

逻辑斯蒂回归:

Logistic:

交叉熵求误差BCE:batch cross entropy

p1(x)*ln(p2(x))

Loss=-{ylogy’+(1-y)log(1-y’)}

当y->0时,loss=-log(1-y’),这样想使得loss越小(误差小),则log(1-y’)越大,则y'越小即可,因此使得y与y'的增势相近

Dataset  from torch.utils.data import Dataset ,其中的Dataset是一个抽象类,只能够将其进行继承,不能实例化。

from torch.utils.data import Dataloder,使用时train_loader = DataLoader(dataset=dataset,batch_size =32,shuffle=True,num_workers=2)表示的意思是:dataset=dataset是将dataset的对象给传进来,batch_size=32是表示一批能够处理多少数据,shuffle=True表示是否要将数据打乱,num_workers=2表示 读数据时多线程并行的进程个数来读取数据。

多分类问题(transfrom)分类器:

Softmax函数=e^zi/(Σe^zi)

Loss(y’,y)=-ylogy’

Normalize(mean,std),(均值,标准差)用于数据的标准化,将数据变为(0,1)分布,

ToTensor(),用于将维度变化,把单通道变为多通道,把像素数据由{0.。。。255}变为[0.1]

模型:输入的是一组图像,激活层改为ReLu Layer,输出层不做激活由交叉熵损失来计算SoftMax

交叉熵损失:

神经网络:

笔记:

Maxpooling函数:

作用是将所输入的图像的矩阵,通道不变,其stride默认为2,然后将其划分,比如4*4的图像,将其划分为4个2*2的块,并求其中每个块的最大值,形成一个新图像矩阵,这样原图像矩阵变成其图像成为原来的一半

信息融合:

一些信息通过一些运算,比如像乘以权值后,所进行的加成,后会形成一个数据,那么就可以说这个数据包含了前面的那些信息。

1*1卷积:

   最主要的作用是改变通道的数量,比如说:Chanl由C1->C2,也就像是三个3*3的矩阵,可以说是(1,3,3,3),经过与1*1的卷积作用以后(也就相当于矩阵乘以了一个权值),会形成三个3*3的新矩阵,再将这3个新矩阵相加生成一个1*3*3的矩阵,则实现了(1,3,3,3)->(1,1,3,3)的转变

三、小土堆:深度学习笔记

1.torch.nn.Conv2d:

卷积操作,torch.nn.functional.Conv2(input,weight,bias=None,stride=1,padding=0,dilation=1,groups=1)

stride控制步径,默认为1,也可以有参数,(kh,kw),横向和纵向的步径

Padding作用是填充,为了对齐,默认为0不进行填充,为1,2,3就是填充在周围填充多少行

2.Maxpool2d:

Maxpool2d(kernel_size=3,ceil_mode=true)

默认的stride步长等于kernel_size的大小,ceil_mode就是向上取的意思,如果不够一次取得,是否留下计算的结果

3.激活函数:

Relu(x)=max(0,x):

Relu又称为修正的线性单元(rectified linear unit),可以解决梯度消失现象,但是又会出现神经元坏死现象,因为出现负值就一直为零,一些神经元始终不会被激活,导致神经元坏死,解决方法:Leak relu函数,改动是在负半轴增加一个很小的梯度,当y<=0时,y’=0.01y

Sigmoid1/(1+e^x),会出现梯度消失现象

激活函数只用于前后两层网络,最后一层不需要激活函数

四、手势识别综述笔记

1.手势根据状态可以分为动态手势和静态手势

识别对象又可以分为二维平面手型和三维立体手势

动态                 二维

静态                 三维

So:静态和三维的结合是否可行,是否有意义,能够解决什么问题?

  1. 神经网络用于手势识别的种类,以人工神经网络为问分类依据:

主要研究方向:

①卷积神经网络

②循环神经网络

③注意力机制

④混合神经网络

其中④包含:①和②的组合、①和③的组合、②和③的组合、①和②和③的组合

次要研究方向:

如:

SPD流行学习神经网络学习方法,用于骨骼模型手势识别

径向基函数神经网络为基础的基于轨迹的手势识别方法

模糊手势数据集和模糊匹配算法

So:

Ⅰ是否可以讲混合神经网络中的某个与非流行识别方法结合

Ⅱ模糊匹配算法是否可以进行改进,进行更加快速的匹配去触发阈值,从而确定手势的类型

  1. 手势图像处理的发展:

卷积神经网络处于主导地位,循环神经网络次之,注意力机制最少,并且注意力机制所牵扯到的方法较少,目前不能形成有价值的规律性总结

So:是否注意力机制于其卷积或循环的结合能提升效率?

  1. 目前的基于卷积神经网络改进发展现状:

动态手部与静态手部的差别是一个时间维度,帧宇帧之间的变化,传统的二维卷积神经网络(C2D)用于识别静态手部特征,无法识别结合时间维度的动态,三维卷积神经网络(C3D)就可以识别动态的时间序列+空间序列的问题,目前的发展是大量的将C3D进行改造,去适应动态的手部识别问题

①对传统的C2D进行三维扩展,将众多二维卷积神经网络扩展到三维,使其具备识别动态的手部特征问题

②三维可分离神经网络,使用降低模型复杂度,来提高效率

③对C3D进行增加神经网络的深度、广度或是深度和广度的结合,卷积层的层数不会增加,但是网络的总层数在增加,如:

Ⅰ:将三维卷积层扩展为两组,然后进行组合输出,增加的是网络的宽度

Ⅱ:使用残差操作,类似于残差网络的思想,增加网络的深度,使得网络可以非常的深

Ⅲ:将手势运动姿态进行解耦,划分为手部姿态和手部运动,分别建模处理

总结:在所有三维的卷积网络的变体中,大部分是对于三维C3D为模板的增删改,去增强其适应性

So:是否可以利用GooleNet的思想,将手势姿态解耦后,通过两个不同的卷积层所组成的Inception块,进行同步的特征提取,然后再将其分析的结果进行组合,去最大限度的提取手部的运动变换姿态

五、线性回归

六、多层感知机

七、支持向量机

八、编码器-解码器

九、PCA降维

十、消融实验

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值