深度学习(图像方向)常见名词术语

本文是对由邵天兰主讲的知乎Live 深度学习中的常见名词术语(图像方向) 的笔记整理。本文使用到了来自Live Slides以及互联网的一些图片,如有侵权将第一时间删除。
很推荐大家听听这场Live(链接在上面),通俗易懂,能构建起对图像方向深度学习的大致概念。

文章目录

从分类器开始

图像分类

本节名词列表:
分类(classify)
分类器(classifier)
MNIST
CIFAR10
ImageNet
类内方差(intra-class variance)
类间方差(inter-class variance)
函数(function)
拟合(fit)
数据驱动(data-driven)

分类(classify)

深度学习在图像方向上应用最基本的问题就是分类问题:我们给计算机看一个图像,希望它告诉我们图像里是什么。

分类器(classifier)

为了解决分类问题,我们希望能够做出分类器,而在今天,我们希望通过机器学习的手段做出分类器。

MNIST

MNIST是一个手写数字图片数据集,包含60000张训练样本和10000张测试样本。

1562694139482

CIFAR10

Cifar-10由10个分类的60000张32*32的RGB彩色图片构成,包含50000张训练样本,10000张测试(交叉验证)样本。

1562694141820

ImageNet

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。提供了标注完成的超过1400万的图像,其中至少一百万个图像还提供了边界框。ImageNet包含2万多个类别。

1562694143576

为了考察分类问题的难易程度,我们来看类内方差与类间方差。

类内方差(intra-class variance)

类内方差是指同一类物体之间的差异,类内方差越大,分类难度越大。例如上面的MNIST数据集中的所有“0”,虽然形态各异,但是差异较小,而上面Cifar-10数据集中的所有“猫”,因为品种、毛色等等方面的区别,就体现出较大的类内差异。显然后者较前者的类内方差更大,完成后者的分类的难度要高于前者。

类间方差(inter-class variance)

类间方差指的是不同类物体之间的差异,类间方差越大,分类难度越低。例如,区分“猫”和“房子”要比取分“猫”和“狗”要容易的多。

函数(function)

分类问题可以理解为让计算机解决类似于由“手写数字8的图片”到“标签8”的映射问题,而我们需要找出的就是完成这一映射的函数。

拟合(fit)

找到这个“函数”的过程我们通常称为拟合出这个函数。

数据驱动(data-driven)

让机器从数据中发现规则、规律,拟合出我们想要的函数,从而解决分类问题,而非使用手动的规则。

分类器入门

本节名词列表
特征(feature)
特征向量(feature vector)
特征工程(feature enginerring)

下面给出一个手动设计的“王二狗”分类器。首先输入一个“王二狗”,然后我们对“高”、“帅”、“富”三个特征进行提取,根据特征提取的结果,我们就可以做出判别。

1562694145528

特征(feature)

要对图像进行分类,本质上是要通过图像的某些特征对图像进行判别。
在王二狗的例子中,我们提取了他的三个特征:“高”、“帅”、“富”。

特征向量(feature vector)

将提取到的多个特征放在一起,就叫做特征向量。

特征工程(feature enginerring)

找到特征的过程一般称为特征工程。

图像分类的难点:特征非常难以设计

本节名词列表
初级特征(low-level feature)
高级特征(high-level feature)
手工设计的特征(hand-crafted feature)

判断王二狗只需要一个手动设计的分类器即可,而在图像的分类上则需要借助更先进的手段,例如深度学习,这是因为图像分类的一个显著难点就是特征难以提取。

初级特征(low-level feature)

图像上最基础的特征就是初级特征,例如:圆弧、线等等。

高级特征(high-level feature)

高级特征是例如“有眼睛”、“有脸”、“有腿”这样的高层次显著特征。

机器视觉的特征非常难以设计,尤其是介于初级特征与高级特征中间的中级特征,例如:眼睛、腿、脸是怎样用低级特征组合出来的。传统的机器视觉算法通过人工的方式设计了很多特征,例如HOG,SIFT,SURF等,取得了一定的成果,但是也存在瓶颈。

手工设计的特征(hand-crafted feature)
深度学习基本法:特征提取+分类

本节名词列表
可分(separable)
特征提取(feature extraction)
特征学习(feature learning)
表示学习(representation learning)

可分(separable)

例如:我与王二狗是否有钱这一特征,是容易区分的,称之为可分;而让机器看长得一模一样的双胞胎照片,则缺乏能够将二者取分开来的特征,称之为不可分。
能否找到足够的特征让机器能够完成分类是十分关键的一点。

特征提取(feature extraction)

将特征提取出来的过程。深度学习可以自动完成这一过程。

特征学习(feature learning)

深度学习具备自动完成特征提取,称其为具备特征学习的能力。

表示学习(representation learning)

用数字/向量/矩阵等方法来表达现实世界中的物体,而且这种表达方式有利于后续的分类或者其他决策问题。

特征的可分性决定分类器的上限,分类方法(神经网络?随机森林?)决定接近这个上限的程度。
深度学习的关键之处在于能够进行特征学习,自行根据训练数据学习出特征。

在分类问题上,如果数据量并不是非常大、类别不是非常多、而且具备非常好的人工提取feature,那么神经网络相对于随机森林、支持向量机等传统方法并没有非常明显的优势。而深度学习在更大的数据量下、处理更复杂的任务时,能够发挥长处,如下图所示:

1562694154312

与大脑工作机制的关系

本节名词列表
突触(synapse)
特征提取(V1, Primary Visual Cortex)

深度学习的部分做法可以从大脑的工作机制中得到印证和启发,例如:分级特征提取、从数据中学习、神经元的感受野等,但是大部分的工作仍然与人脑的关系较远。

突触(synapse)

一个神经元的输入端。

特征提取(V1, Primary Visual Cortex)

人眼看到的信息首先传到初级视皮层(V1)进行特征提取,然后再传到V2等进行更高级的特征提取。

神经网络的基本组成单元:神经元、层

神经元:从加权和开始

本节名词列表
输入(input)
输出(output)
神经元(neuron)
加权和(weighted sum)
连接权重(weights)
偏置(bias)

神经元最基本的工作原理就是加权和。
下面给出一个神经元的工作过程:
神经元
基本写法: y = x 1 w 1 + x 2 w 2 + x 3 w 3 y=x_1w_1+x_2w_2+x_3w_3 y=x1w1+x2w2+x3w3
求和写法: y = ∑ x i w i y=\sum{x_iw_i} y=xiwi
向量写法: y = x ⋅ w y=x\cdot w y=

  • 14
    点赞
  • 66
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值