深度学习知识点整理(一)——图像分类与标题生成任务

1. 机器学习与深度学习的区别?

机器学习:

需要人工干预才能成功,使用大量的人类知识来开发有效的算法。

深度学习:

无需人工执行任何功能创建活动,它定义了自己的最佳功能

传统的机器学习需要定义一些手工特征,从而有目的的去提取目标信息, 非常依赖任务的特异性以及设计特征的专家经验。而深度学习可以从大数据中先学习简单的特征,并从其逐渐学习到更为复杂抽象的深层特征,不依赖人工的特征工程,这也是深度学习在大数据时代受欢迎的一大原因。

2. Image Classification

2. 图像分类有哪些困难和挑战?
  1. 角度变化(Viewpoint variation)
  2. 光照(Illumination)
  3. 变形(Deformation)
  4. 遮挡
  5. 背景杂乱(Background Clutter)
  6. 类内变化(Intraclass variation)
4. KNN分类相关知识点?
  1. L1距离或者L2距离来评估两个图像之间的相似度。
  2. 训练过程:记忆标签
  3. 预测过程:计算测试图片和预测图片之间的相似度/距离,寻找距离最近的图像,将其标签作为预测标签。
  4. 复杂度:训练O(1),预测O(n)
  5. 我们需要的是,训练时间更长一些,但测试时间更短一些。
  6. KNN,K的值越大,越平滑
5. 超参选择?
  1. 划分 三部分,训练测试验证。
  2. 交叉验证:最后平均。
6. KNN的缺点?
  1. 在测试的时候速度非常慢。
  2. 对于像素的距离度量没有包含任何信息。如下面三张变化后的图片与原图片的距离其实是相同的。(四幅图,遮挡,亮度,对比度变化的图)
  3. 纬度灾难:假如有四个类,在一维空间中,只需要4个点可以表示所有情况。在二维空间中,需要 4242 4^242 个点表示所有情况,在三维空间中,需要 43434^343 个点表示所有情况。
7. 线性分类究竟在做些什么, 如何解释线性分类器呢?

三种看法:

  1. f(w,x)=WX+b
  2. 可以把 W 看成是模板匹配,W 的每一行相当于对应类的一个模板,通过内积的形式去找到最高的分数(对应的类别)。
8. 线性分类比较难解决的问题?
  1. 直角坐标系一三象限
  2. 同心圆分类结构
  3. 三种modes
9. SVM loss and Softmax loss
  1. SVM loss : 对每一个样本,L_i=sum(max(0,Sj-Sy+1)) 其中Sy为正确类别 score

    final loss sum Li

    注意:目标为让loss尽可能小,或者L=0,w并不唯一,2w同样可以。

    如何选择呢? -----------正则化!

    L1倾向于使之更稀疏

    L2正则化倾向于使权重更加分散。

  2. Softmax loss

在这里插入图片描述

softmax函数代表了图片被分为正确类的可能性,可能性越高,代价函数越小 .

  1. 二者对比

我们可以看出SVM和softmax的对比,

SVM损失函数在优化的时候只需要正确类的输出值比其他类的输出值大某个阈值就不再进行优化;

而softmax损失函数是让正确类的输出值尽可能大,其他类的输出值尽可能小

10. 优化函数

为了让损失函数减小,我们需要找到一个最优的W,这个过程就是优化过程,其中最常用的方法就是梯度下降,让W的值朝着负梯度的方向进行更新,不断迭代来寻找到损失函数的最小值

数值方法:近似,计算速度慢,容易写出

解析方法:精确,快速,但容易出错

11. SGD 随机梯度下降?

我们在计算损失函数的时候是将所有训练数据都纳入计算,但是当数据量非常大时,这个值的计算将变得非常复杂,因此我们采用随机梯度下降的方法,**将数据分批,**每一批分别计算损失函数,再来用梯度下降对W进行更新。我们也把这种方法叫做mini-batch

其他:除此以外,对于一般图片,我们很少会将所有像素值作为特征值,而是人为地选取一些特征来表征这个图片,这样能大大减小特征的维度 另外选取特征也会直接影响到分类器应用效果的好坏

常见的如直方图 HOG

3. Image Caption

给出一张图片, 自动生成一个完整且通顺的语句去描述这张图片的内容 。

12. Image Caption 基本步骤
  1. 在视觉空间中得到图像的向量表示
    - CRF, Semantic vector, CNN, CNN+Attention

  2. 在语义空间中得到描述的向量表示
    - Collection of words (BoW), Sequence of words (RNN)

  3. 在嵌入空间中将二者联系起来

–Language template (FGM,ME), RNNs (Encoder-Decoder), LSTM

14.注意力模型的含义解释?

单词对齐模型
目标句子生成的每个单词对应输入句子单词的概率分布,可以理解为输入句子单词和这个目标生成单词
的对齐概率。
- 影响力模型
生成目标单词的时候,输入句子每个单词对于生成这个单词有多大的影响程度。
- 变化的表征
生成目标单词的时候,根据不同时间步上的任务去关注到输入不同的词,从而得到不同的表征

15. 图像生成 各部分模型结构
  1. Encoder

    特征提取,通过其他CNN相关模型提取出图像特征

  2. Decoder

    生成语言

    一句描述 y被认为是一些类单词的序列,采用one-hot编码

在这里插入图片描述

  1. Attention

Hard Attention:一个为1,其余全为0

Soft Attention:照顾到全部位置,只是权重不同,光滑,可微

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值