【通用视觉框架OpenMMLab图像分类与基础视觉模型笔记2】

一、图像分类
1.图像:像素构成的数组
图像=像素数组X,通过函数分类
图像难以遵循具体的规则设计算法
2.超越规则:让机器从数据中学习
1)收集数据
2)定义模型:eg.y=Fx
3)训练:寻找最佳参数,使模型在训练集上达到最高正确率
4)预测:对于新图像,用训练好的模型预测其类别
3.图像分类数学表示:图像-概率向量-类别
二、机器学习
1.局限:机器学习算法善于处理低维、分布相对简单的数据,图像数据在几十万维的空间中以复杂的方式"缠绕"在一起,常规的机器学习算法难以处理复杂数据分布
2.发展
①传统方法:设计图像特征
图像--(计算梯度、统计梯度方向分布)/(人工设计的算法)--特征向量--(机器学习)--分类
好的特征:简化数据表达,保留内容相关信息
②从特征工程到特征学习
图像--(可学习的特征提取)--(可学习的特征提取)…--分类
③层次化特征的实现方式
可学习的特征提取
-卷积:实现一步特征提取☞卷积神经网络
      1.特征和图像一样具有二维空间结构
      2.后层特征为空间邻域内前层特征的加权求和
-多头注意力:实现一步特征提取☞Transformer
④AlexNet的诞生和深度学习时代的开始
3.作用
机器学习可以处理图像分类问题
三、模型设计
1.含义:适合图像的函数
2.卷积神经网络
   AlexNet在GPU上训练大规模神经网络在工程上成为可能
   加深层次,提高层次↓
   VGG将大尺寸的卷积拆解为多层3*3的卷积,相同感受野、更少的参数量、更多的层数和表达能力
    GoogLeNet
   ↓但模型层数增加到一定程度后,出现精度退化即分类正确率不增反降
     ↓残差学习
       残差网络ResNet
        保持多级结构、增加层数、增加跨层连接
        ResNet两种残差模块
        ResNet成就:视觉领域影响力最大、使用最广泛的模型结构,获CVPR 2016最佳论文奖
        ResNet:是深浅模型的集成,即等同于多模型集成,。残差链接让损失曲面更平滑,使图像更平滑
3.轻量化卷积神经网络
-卷积的参数量
-卷积的计算量
思路:并不是所有特征都需要同样大的感受野,在同一层中混合使用不同尺寸的特征可以减少参数量。eg.GoogLeNet使用不同大小的卷积核、ResNet使用1*1卷积压缩通道数
*可分离卷积(分为通道组)
*传统卷积(每个通道所有)
4.神经结构搜索(更强的图像分类模型)
思路:借助强化学习等方法搜索表现最佳的网络
5.Transformer(更强的图像分类模型)
使用Transformer替代卷积网络实现图像分类,使用更大的数据集训练,达到超越卷积网络的精度
发展:精度更高的分类器&更有效的视觉特征☞精度更高的下游模型
1*注意力机制(计算单元)
-卷积VS注意力机制
2*多头注意力
3*改进
四、模型学习
1.含义:求解一组好的参数a
2.监督学习:基于标注数据学习
       损失函数   交叉熵损失
       随机梯度下降算法
       视觉模型常用训练技巧
-学习率与优化器策略
学习率策略:学习率退火、学习率升温
自适应梯度算法   思路:不同的参数需要不同的学习率,根据梯度的历史幅度自动调整学习率
早停、模型权重平均EMA
数据增强、组合数据增强、组合图像
3.自监督学习:基于无标注的数据学习
类型:基于代理任务、基于对比学习、基于掩码学习
Relative Location
SimCLR
Masked autoencoders

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值