计算机视觉之图像分类算法基础
一、图像分类与基础视觉模型
基础介绍:
图像分类:给一张图片,识别图片中的物体是什么
计算机难以通过简单代码实现,使用“学习”。——采集数据、定义模型、训练、预测
早期使用特征工程,之后深度学习
![](https://i-blog.csdnimg.cn/blog_migrate/0819eacd955974a9bf694decc7c5160e.png)
卷积神经网络:
alexNet:
![](https://i-blog.csdnimg.cn/blog_migrate/cd4d3eecf6abd597a666a8dc40b743bf.png)
![](https://i-blog.csdnimg.cn/blog_migrate/51349022561709628d44ac8d78ec2b17.png)
VGG:
![](https://i-blog.csdnimg.cn/blog_migrate/166bbd51ad906834d6ca4aa2fe07f91e.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4445575a0915a6fb65648db88f73519f.png)
GoogLeNet:
![](https://i-blog.csdnimg.cn/blog_migrate/c3682147ae6a3f6c23eaa0eb15fe785b.png)
模型越来越深,准确率适得其反。
![](https://i-blog.csdnimg.cn/blog_migrate/b0b67a87cc7031f5d01df67bf6df0cf9.png)
残差学习:解决之前的考虑。残差可以使网络更深,参数
![](https://i-blog.csdnimg.cn/blog_migrate/b088e9b8d167d72571c348c6511a8eef.png)
ResNet:
![](https://i-blog.csdnimg.cn/blog_migrate/4c85e9d7603f8697aeba127b2111530f.png)
![](https://i-blog.csdnimg.cn/blog_migrate/50a06b37d1328fee022bb5b41e70067d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/e806948238c77bcff72f54aef4008bf2.png)
ResNet的影响:视觉领域影响力最大、使用最广泛的模型,获得CVPR2016最佳论文奖
![](https://i-blog.csdnimg.cn/blog_migrate/84a47f2068a0be0fa1393a2b5a25124c.png)
更强的图像分类模型:
神经结构搜索 Neural Architecture Search(2016+)
![](https://i-blog.csdnimg.cn/blog_migrate/a8f64a03aeb942ab0a2894ad18b2da41.png)
Transformers(2020+):
![](https://i-blog.csdnimg.cn/blog_migrate/842a27b29c377a2eebe532cd0fdd4756.png)
ConvNeXt(2022):
![](https://i-blog.csdnimg.cn/blog_migrate/65333bbca84402cd94f2553c2e1bb4b7.png)
轻量化卷积神经网络:
(小网络)
卷积的参数量:
![](https://i-blog.csdnimg.cn/blog_migrate/68df0900a707baac85d43c2ed0175e72.png)
卷积的计算量:
![](https://i-blog.csdnimg.cn/blog_migrate/0a281817d290b4835634ed3814b0ef26.png)
降低参数量和计算量的方法:
降低通道数
减少卷积核的大小
![](https://i-blog.csdnimg.cn/blog_migrate/9972e9d74728cac88f8dbb7849b08feb.png)
GoogLeNet使用不同大小的卷积核:
![](https://i-blog.csdnimg.cn/blog_migrate/611376975a1237c6712c132bc8914aee.png)
ResNet使用1×1卷积压缩通道数:
![](https://i-blog.csdnimg.cn/blog_migrate/a1b5e2c50a6473d60b9a555e5db864fe.png)
可分离卷积:
![](https://i-blog.csdnimg.cn/blog_migrate/7795325a499103eb3a2b96d92e1157b1.png)
MobileNet V1/V2/V3(2017~2019):
![](https://i-blog.csdnimg.cn/blog_migrate/34cecbdc282558a2c54db67d99253e72.png)
ResNeXt中的分组卷积:
![](https://i-blog.csdnimg.cn/blog_migrate/b2635d12647c49f9992190af75e0b518.png)
Vision Transfromers:
![](https://i-blog.csdnimg.cn/blog_migrate/cd76eaa2ce9215143e424b7b343b64ba.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8201330eee2a3867063dcdbf3294fb2b.png)
![](https://i-blog.csdnimg.cn/blog_migrate/a4e408d7eca6988b4cd060bc32f2671a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ee821a526d9f05c89484b35bdb264ccc.png)
![](https://i-blog.csdnimg.cn/blog_migrate/33094ef130bdf5d5c3e8df18da8cf205.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6f0073ec8bc6c53487c58905deaf262c.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4f28a726bdca3244c27223f303084d24.png)
模型学习:
模型学习的范式:
目标:确定模型Fx的具体形式后,找寻最优参数x’,是的模型Fx'(X)给出准确的分类结果P
(y|X)
范式一:监督学习——数据标注
![](https://i-blog.csdnimg.cn/blog_migrate/bf7f1447958101079ee5f08f2d28c3eb.png)
范式二:自监督学习——不需要标注数据
![](https://i-blog.csdnimg.cn/blog_migrate/b30e16e607b5212325ea69bfe77e1196.png)
监督学习:
流程:标注数据-定义损失函数-最优化
![](https://i-blog.csdnimg.cn/blog_migrate/ac85703a08e5a7fdb379f06b7f10b06b.png)
交叉熵函数 Cross-Entropy Loss:
![](https://i-blog.csdnimg.cn/blog_migrate/fbcdcbd03b7a82d160cfcd2960fae3e7.png)
优化目标&随机梯度下降:
![](https://i-blog.csdnimg.cn/blog_migrate/ae99e9045d649855f7231bc111027421.png)
动量 Momentum SGD:
基于梯度下降训练神经网络的整体流程:
![](https://i-blog.csdnimg.cn/blog_migrate/2d18342e678e9574c1cb97777fb48290.png)
训练技巧:
![](https://i-blog.csdnimg.cn/blog_migrate/9e68fd97f4cd11500f93dcd10a2f1f43.png)
学习率与优化器策略:
权重初始化(随机初始化):
![](https://i-blog.csdnimg.cn/blog_migrate/031b2d420c1ca15e307ab2d560ea49f7.png)
学习率对训练的影响:
![](https://i-blog.csdnimg.cn/blog_migrate/9563db54d5da1fd0a016c80dd9f1a4c2.png)
学习率策略:
![](https://i-blog.csdnimg.cn/blog_migrate/d7df516f0fa6c7697e54f15024792ed0.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8ad4da57ba19ef94c7026c2831fd0b80.png)
![](https://i-blog.csdnimg.cn/blog_migrate/49550e59d6f56be283073e7f227f9851.png)
![](https://i-blog.csdnimg.cn/blog_migrate/440d689c4057a092df1ef12d88c7ee53.png)
![](https://i-blog.csdnimg.cn/blog_migrate/11b270156bf74d4f69fcb9e4a0f576f3.png)
![](https://i-blog.csdnimg.cn/blog_migrate/6086ce68f98bbffc3c2f5f5031d1c230.png)
![](https://i-blog.csdnimg.cn/blog_migrate/8ef15ba429cff85b967e299bc238424a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/80f64880b587c6f7392b13a36ff6d4ab.png)
数据增强:
数据表较少时,需要扩充数据集
数据增强:通过简单的变换产生一系列副本,比如几何变换、色彩变幻、随机遮挡。。
![](https://i-blog.csdnimg.cn/blog_migrate/bf167a4f85943ff23e184e611e073008.png)
![](https://i-blog.csdnimg.cn/blog_migrate/4b117d680d7fe4abc455de00c98d750a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ea2453a5dea8439df8fae999d2dca85a.png)
![](https://i-blog.csdnimg.cn/blog_migrate/19f1d8311cce78391289a2b99332bd9d.png)
模型相关策略:
![](https://i-blog.csdnimg.cn/blog_migrate/9b0cdbabd550a0eee9ba74e262a4744d.png)
![](https://i-blog.csdnimg.cn/blog_migrate/29fc254340c8e4b2f0d0cd0969cac4d2.png)
自监督学习:
基于代理任务:https://zhuanlan.zhihu.com/p/150224914
![](https://i-blog.csdnimg.cn/blog_migrate/12e27e026b15ed86ff572952a5b3b8fd.png)
基于代理任务:
![](https://i-blog.csdnimg.cn/blog_migrate/fd15c20f5d4f26c0e70c74aad70332d7.png)
基于对比学习:
![](https://i-blog.csdnimg.cn/blog_migrate/da1a1446e017243c87cc090fdb852f88.png)
基于掩码学习:
![](https://i-blog.csdnimg.cn/blog_migrate/345ffed130723a418fe29290803f42ec.png)
![](https://i-blog.csdnimg.cn/blog_migrate/48af454cd9e5176375a24a07798f6cdc.png)