深度学习（图像方向）常见名词术语

本文链接：https://blog.csdn.net/weixin_43953703/article/details/95897249

本文是对由邵天兰主讲的知乎Live 深度学习中的常见名词术语(图像方向) 的笔记整理。本文使用到了来自Live Slides以及互联网的一些图片，如有侵权将第一时间删除。
很推荐大家听听这场Live（链接在上面），通俗易懂，能构建起对图像方向深度学习的大致概念。

文章目录

从分类器开始

图像分类

本节名词列表：
分类(classify)
分类器(classifier)
MNIST
CIFAR10
ImageNet
类内方差(intra-class variance)
类间方差(inter-class variance)
函数(function)
拟合(fit)
数据驱动(data-driven)

分类(classify)

深度学习在图像方向上应用最基本的问题就是分类问题：我们给计算机看一个图像，希望它告诉我们图像里是什么。

分类器(classifier)

为了解决分类问题，我们希望能够做出分类器，而在今天，我们希望通过机器学习的手段做出分类器。

MNIST

MNIST是一个手写数字图片数据集，包含60000张训练样本和10000张测试样本。

1562694139482

CIFAR10

Cifar-10由10个分类的60000张32*32的RGB彩色图片构成，包含50000张训练样本，10000张测试（交叉验证）样本。

1562694141820

ImageNet

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。提供了标注完成的超过1400万的图像，其中至少一百万个图像还提供了边界框。ImageNet包含2万多个类别。

1562694143576

为了考察分类问题的难易程度，我们来看类内方差与类间方差。

类内方差(intra-class variance)

类内方差是指同一类物体之间的差异，类内方差越大，分类难度越大。例如上面的MNIST数据集中的所有“0”，虽然形态各异，但是差异较小，而上面Cifar-10数据集中的所有“猫”，因为品种、毛色等等方面的区别，就体现出较大的类内差异。显然后者较前者的类内方差更大，完成后者的分类的难度要高于前者。

类间方差(inter-class variance)

类间方差指的是不同类物体之间的差异，类间方差越大，分类难度越低。例如，区分“猫”和“房子”要比取分“猫”和“狗”要容易的多。

函数(function)

分类问题可以理解为让计算机解决类似于由“手写数字8的图片”到“标签8”的映射问题，而我们需要找出的就是完成这一映射的函数。

拟合(fit)

找到这个“函数”的过程我们通常称为拟合出这个函数。

数据驱动(data-driven)

让机器从数据中发现规则、规律，拟合出我们想要的函数，从而解决分类问题，而非使用手动的规则。

分类器入门

本节名词列表
特征(feature)
特征向量(feature vector)
特征工程(feature enginerring)

下面给出一个手动设计的“王二狗”分类器。首先输入一个“王二狗”，然后我们对“高”、“帅”、“富”三个特征进行提取，根据特征提取的结果，我们就可以做出判别。

1562694145528

特征(feature)

要对图像进行分类，本质上是要通过图像的某些特征对图像进行判别。
在王二狗的例子中，我们提取了他的三个特征：“高”、“帅”、“富”。

特征向量(feature vector)

将提取到的多个特征放在一起，就叫做特征向量。

特征工程(feature enginerring)

找到特征的过程一般称为特征工程。

图像分类的难点：特征非常难以设计

本节名词列表
初级特征(low-level feature)
高级特征(high-level feature)
手工设计的特征(hand-crafted feature)

判断王二狗只需要一个手动设计的分类器即可，而在图像的分类上则需要借助更先进的手段，例如深度学习，这是因为图像分类的一个显著难点就是特征难以提取。

初级特征(low-level feature)

图像上最基础的特征就是初级特征，例如：圆弧、线等等。

高级特征(high-level feature)

高级特征是例如“有眼睛”、“有脸”、“有腿”这样的高层次显著特征。

机器视觉的特征非常难以设计，尤其是介于初级特征与高级特征中间的中级特征，例如：眼睛、腿、脸是怎样用低级特征组合出来的。传统的机器视觉算法通过人工的方式设计了很多特征，例如HOG,SIFT,SURF等，取得了一定的成果，但是也存在瓶颈。

手工设计的特征(hand-crafted feature)

深度学习基本法：特征提取+分类

本节名词列表
可分(separable)
特征提取(feature extraction)
特征学习(feature learning)
表示学习(representation learning)

可分(separable)

例如：我与王二狗是否有钱这一特征，是容易区分的，称之为可分；而让机器看长得一模一样的双胞胎照片，则缺乏能够将二者取分开来的特征，称之为不可分。
能否找到足够的特征让机器能够完成分类是十分关键的一点。

特征提取(feature extraction)

将特征提取出来的过程。深度学习可以自动完成这一过程。

特征学习(feature learning)

深度学习具备自动完成特征提取，称其为具备特征学习的能力。

表示学习(representation learning)

用数字/向量/矩阵等方法来表达现实世界中的物体，而且这种表达方式有利于后续的分类或者其他决策问题。

特征的可分性决定分类器的上限，分类方法（神经网络？随机森林？）决定接近这个上限的程度。
深度学习的关键之处在于能够进行特征学习，自行根据训练数据学习出特征。

在分类问题上，如果数据量并不是非常大、类别不是非常多、而且具备非常好的人工提取feature，那么神经网络相对于随机森林、支持向量机等传统方法并没有非常明显的优势。而深度学习在更大的数据量下、处理更复杂的任务时，能够发挥长处，如下图所示：

1562694154312

与大脑工作机制的关系

本节名词列表
突触(synapse)
特征提取(V1, Primary Visual Cortex)

深度学习的部分做法可以从大脑的工作机制中得到印证和启发，例如：分级特征提取、从数据中学习、神经元的感受野等，但是大部分的工作仍然与人脑的关系较远。

突触(synapse)

一个神经元的输入端。

特征提取(V1, Primary Visual Cortex)

人眼看到的信息首先传到初级视皮层（V1）进行特征提取，然后再传到V2等进行更高级的特征提取。

神经网络的基本组成单元：神经元、层

神经元：从加权和开始

本节名词列表
输入(input)
输出(output)
神经元(neuron)
加权和(weighted sum)
连接权重(weights)
偏置(bias)

神经元最基本的工作原理就是加权和。
下面给出一个神经元的工作过程：

基本写法： $y=x_1w_1+x_2w_2+x_3w_3$
求和写法： $y=\sum{x_iw_i}$
向量写法： $y=x\cdot w$