【通用视觉框架OpenMMLab图像分类与基础视觉模型笔记2】

最新推荐文章于 2024-05-01 14:31:49 发布

小土堆847

最新推荐文章于 2024-05-01 14:31:49 发布

阅读量92

点赞数

文章标签：其他经验分享

本文链接：https://blog.csdn.net/weixin_68271973/article/details/128859798

版权

一、图像分类
1.图像:像素构成的数组
图像=像素数组X，通过函数分类
图像难以遵循具体的规则设计算法
2.超越规则:让机器从数据中学习
1）收集数据
2）定义模型:eg.y=Fx
3）训练:寻找最佳参数，使模型在训练集上达到最高正确率
4）预测:对于新图像，用训练好的模型预测其类别
3.图像分类数学表示:图像-概率向量-类别
二、机器学习
1.局限:机器学习算法善于处理低维、分布相对简单的数据，图像数据在几十万维的空间中以复杂的方式"缠绕"在一起，常规的机器学习算法难以处理复杂数据分布
2.发展
①传统方法:设计图像特征
图像--(计算梯度、统计梯度方向分布)/(人工设计的算法）--特征向量--(机器学习)--分类
好的特征:简化数据表达，保留内容相关信息
②从特征工程到特征学习
图像--(可学习的特征提取）--(可学习的特征提取)…--分类
③层次化特征的实现方式
可学习的特征提取
-卷积:实现一步特征提取☞卷积神经网络
1.特征和图像一样具有二维空间结构
2.后层特征为空间邻域内前层特征的加权求和
-多头注意力:实现一步特征提取☞Transformer
④AlexNet的诞生和深度学习时代的开始
3.作用
机器学习可以处理图像分类问题
三、模型设计
1.含义:适合图像的函数
2.卷积神经网络
AlexNet在GPU上训练大规模神经网络在工程上成为可能
加深层次，提高层次↓
VGG将大尺寸的卷积拆解为多层3*3的卷积，相同感受野、更少的参数量、更多的层数和表达能力
GoogLeNet
↓但模型层数增加到一定程度后，出现精度退化即分类正确率不增反降
↓残差学习
残差网络ResNet
保持多级结构、增加层数、增加跨层连接
ResNet两种残差模块
ResNet成就:视觉领域影响力最大、使用最广泛的模型结构，获CVPR 2016最佳论文奖
ResNet:是深浅模型的集成，即等同于多模型集成，。残差链接让损失曲面更平滑，使图像更平滑
3.轻量化卷积神经网络
-卷积的参数量
-卷积的计算量
思路:并不是所有特征都需要同样大的感受野，在同一层中混合使用不同尺寸的特征可以减少参数量。eg.GoogLeNet使用不同大小的卷积核、ResNet使用1*1卷积压缩通道数
*可分离卷积(分为通道组）
*传统卷积(每个通道所有)
4.神经结构搜索(更强的图像分类模型)
思路:借助强化学习等方法搜索表现最佳的网络
5.Transformer(更强的图像分类模型)
使用Transformer替代卷积网络实现图像分类，使用更大的数据集训练，达到超越卷积网络的精度
发展:精度更高的分类器&更有效的视觉特征☞精度更高的下游模型
1*注意力机制(计算单元)
-卷积VS注意力机制
2*多头注意力
3*改进
四、模型学习
1.含义:求解一组好的参数a
2.监督学习:基于标注数据学习
损失函数交叉熵损失
随机梯度下降算法
视觉模型常用训练技巧
-学习率与优化器策略
学习率策略:学习率退火、学习率升温
自适应梯度算法思路:不同的参数需要不同的学习率，根据梯度的历史幅度自动调整学习率
早停、模型权重平均EMA
数据增强、组合数据增强、组合图像
3.自监督学习:基于无标注的数据学习
类型:基于代理任务、基于对比学习、基于掩码学习
Relative Location
SimCLR
Masked autoencoders

小土堆847

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【通用视觉框架OpenMMLab图像分类与基础视觉模型笔记2】

一、图像分类1.图像:像素构成的数组图像=像素数组X，通过函数分类图像难以遵循具体的规则设计算法2.超越规则:让机器从数据中学习1）收集数据2）定义模型:eg.y=Fx3）训练:寻找最佳参数，使模型在训练集上达到最高正确率4）预测:对于新图像，用训练好的模型预测其类别3.图像分类数学表示:图像-概率向量-类别二、机器学习1.局限:机器学习算法善于处理低维、分布相对简单的数据，图像数据在几十万维的空间中以复杂的方式"缠绕"在一起，常规的机器学习算法难以处理复杂数据分布2.发展①传统方
复制链接

扫一扫