mmlab寒假实战营
注:本博客仅用于个人上课随手笔记
计算机视觉算法基础与OpenMMLab介绍
一、上课笔记
1.视觉任务
1.分类
2.分类+单目标检测
3.多目标检测
4.语义分割 (不管重合物体)
5.实例分割(区分每一个物体,比如同一类有很多个实例,或者这些有遮挡)。
难度:分类<目标检测 < 语言分割 <实例分割
前三者都是细粒度(像素级分类)
2.深度学习发展历史和应用
开山:alexnet
快速发展:Googlenet,resnet,densenet
应用:辅助驾驶,图像生成和分割迁移,遥感,虚拟主播(人脸关键点检测),视频理解
3.openmmlab
mmlab提供的算法框架有
mmdetect,mmsegmentation,mmclassification等
升级2.0,更加强大。提供了友好的框架和大量的辅助工具。更好辅助开发者,专注于模型的开发。
4.机器学习和神经网络基础概念
机器学习是什么?从数据中学习经验,以解决特定的问题。
寻找特征,提取去分类(比如线性分类)
以分类问题为例,采用机器学习方法三步骤:
1.训练 2.验证3.应用
神经网络;
特点:非线性分类
介绍了非线性分类器,神经元,多层感知器(MLP)。
神经网络训练:利用损失函数,使用梯度下降算法,通过反向传播更新每个神经元参数。
衡量神经网络性能:损失函数,如CE交叉熵损失函数
梯度下降算法:sgd,adam
训练策略:防止过拟合,采用早停。
卷积神经网络(CNN):
特点:局部连接,共享权重,可以大量节约参数,有效提取图像特征。
组成:卷积层,激活层,池化层,全连接层,类别概率
卷积层:通过使用多个卷积核,可以生成多种特征。
激活层:使用激活函数进行非线性化激活,如RELU。
池化层:减少参数,提高空间鲁棒性,有最大池化和平均池化。
全连接层:通过矩阵乘法将输入特征映射为输出特征、
概率输出层:将输出特征转换为概率向量,如使用sigmoid函数进行二分类(映射到0-1),或者多分类,使用softmax计算k个类对应的预测概率。
二、课后疑问
无