part1 计算机视觉基础
1.1计算机视觉
用一定算法对图像数据比如照片或视频等信息进行数据挖掘,特征提取,识别鉴定。
1.2 主要任务
· 图像分类
· 目标检测
· 图像分割
图像分割分为语义分割(对像素进行分割,不分割每个物体)与实例分割(对像素与物体进行分割,要分割每一个物体)
part2 OpenMMlab 算法体系
2.1 OpenMMLab
OpenMMLab包含几乎视觉领域全部的算法模型,可以通过OpenMMLab的算法库训练得到的模型通过MMDeploy来转成各种硬件所支持的格式进行部署应用
2.2 算法框架介绍
--MMDetection: 支持目标检测、实例分割、全景分割(在实例分割基础上分割背景)
--MMDetction3D: 支持3D目标检测(通过点云数据确定3D位置)
--MMClassfication: 支持图像分类
--MMSegmentation: 支持图像分割
--MMPose: 人体姿态估计
--MMHuman3D: 人体3D重建
--MMTracking: 进行目标追踪
--MMAction2: 对时序动作进行检测
--MMOCR: 支持文本识别
--MMEditing: 在像素层面进行处理比如图像修复、超分辨率、抠图、图像生成
在相关的框架条目下包含了与条目相关的经典网络的论文与代码,也包含最前沿最新的顶会论文与算法模型,可以站在巨人的肩膀上进行学习,是非常有效的学习工具。
part3 机器学习与卷积神经网络基础
1.1机器学习是数据驱动的从大量数据中进行学习
--监督学习 训练样本有标签
--无监督学习 训练样本无标签(聚类,降维等)
--强化学习 智能体自适应环境
1.2机器学习流程
采集训练集进行训练,得到分类器
在验证集上检测分类器的泛化性能
将训练好的分类器运用于实际问题
1.3非线性的函数能够更好的表征数据的分布特征,使得模型的泛化能力提高
1.4神经网络训练流程
定义损失函数,前向计算样本损失
反向传播计算样本损失的梯度(小数据集可以求所有样本全局梯度,大数据集求mini-batch的梯度)
选择合适优化器根据梯度信息更新参数
重复上述操作直到达到设定的停止条件
1.5卷积神经网络
特点
局部连接
权值共享
平移不变性
结构
卷积层(可以通过填充提取边缘信息,可以以不同步长跳跃,可以进行空洞卷积)
激活层(非线性的激活函数)
池化层(下采样,最大池化与平均池化,可以降低特征图分辨率减少计算量引入平移不变性)