计算机视觉: 让计算机学会 "看"的学科,主要研究如何自动理解图像和视频中的内容
计算机视觉的发展:
早期萌芽(1960~1980): Machine perception of 3d solids,三维的视觉计算理论
统计机器学习与模型识别(1990~2000)
ImageNet大型数据库(2006):斯坦福李飞飞教授,旨在为计算机视觉算法研究提供一个大规模、优质的图片数据库
深度学习时代(2012~):AlexNet,Fast R-CNN,深度生成对抗网络实现图像的实现......
OpenMMLab算法概述:
MMDetection: 目标检测,实例分割,全景分割
MMDetection3D: 3D目标检测
MMSegamentation
MMPose&MMHuman3D:人体姿态
MMTracking:目标追踪,大疆无人机.....
MMAction2:行为识别,时序动作检测,时空动作检测...
MMOCR: 文本检测,文本识别,文本信息提取
......
机器学习基础:
从数据中学习经验,以解决特定问题。
例如:机器学习中的分类问题---垃圾信件分类。
1>通过关键词提取,统计,形成词频向量,用词频向量代表一个文本,称为特征。
2> 特征可以看作是向量空间中的点,不同类文本分布在空间中不同的位置上
3>将空间划分成不同的区域class A/B 从而进行分类
机器学习的基本流程
神经网络:
一类拟合能力非常强的函数。
线性分类器与非线性分类器
异或问题
神经元,权重weight,偏置值bias,激活函数ReLU
多层感知器
多分类任务
神经网络的训练
本质:基于梯度下降算法寻找最优参数(w&b),进而得到最优(准确率最高)的网络
衡量神经网络的性能: 损失函数:交叉熵损失
调整权重w,降低损失函数的值: 梯度下降算法/下山问题
反向传播算法
优化器
拟合结果:欠拟合,拟合,过拟合
早停:将训练数据划分为训练集和测试集,当验证集的分类精度达到最值时,停止训练,防止过拟合
卷积神经网络CNN:
整体架构
卷积层;
激活层;激活函数ReLU=max(0,x)
池化层;池化层在特征图的局部区域内计算最大值(最大池化)或平均值(平均池化),从而降低特征图分辨率,节省计算量,提高特征的空间鲁棒性。
全连接层:通过矩阵乘法将输入特征映射为输出特征 Y=Wx+b
概率输出层
补充:
常见的激活函数