深度学习知识点整理(四)——GAN / 强化学习RL

11-GAN

基本思想(方法)

初始化一个生成器G判别器D,每一次迭代,

step1(先固定G,训练D):G生成一组图片,再从数据库采样真实图片,用这两组对D进行训练,目标是使D对真实图片的评分高,而对G生成的图片的评分低

step2(固定D,训练G):G+D构成大网络,G产生图片,D对其识别评分,以此对G进行训练,使得输出数值越大越好

结构学习 Structured learning

传统机器学习可以表示为函数,即X与Y关系(如回归、分类),忽略成分之间的关系

结构学习具有挑战性,机器需要有大局意识和规划意识,考虑元素之间的关系(如图片布局)

为什么G不能自己学习

G就是给定向量,生成图片,如果自己学习,应该不断得到输入向量-图片对进行学习。当输出类似的时候,输入向量由于是随机的,有很大差别。而且在G的训练中,可能每一类只有一个图片,使得训练集测试集类不重合,生成不存在的图片。

Auto-encoder

解决上述问题。由一个编码器和一个解码器构成,编码器根据规则,将图片编码为一个向量,解码器根据规则将向量解码为图片。generator相当于解码器

Variational Auto-encoder (VAE)

在这里插入图片描述

在encoder产生的编码上增加噪音,使得训练出来的模型泛化性能更好,减缓过拟合

识别器可以生成图像吗?

可以穷举所有的输入X,然后让判别器挑出分数高的作为生成。

但是这种算法无法实现

生成器判别器优缺点

生成器:容易生成有意义的内容,但是容易过度模仿,难以学习元素间的相关性。

识别器:能从大局考虑,但是在没有办法获取所有可能样本的情况下,难以生成合理内容,负样本采样也困难

参考 https://zhuanlan.zhihu.com/p/57174645

https://zhuanlan.zhihu.com/p/49750523

https://www.jianshu.com/p/ddab090b1e28

15-RL

agent学习采取行动以获得最大的回报,如AlphaGo大多数情况reward=0,输-1,赢1

聊天机器人

让两个agent互相对话(可能有好有坏),产生大量对话,依据规则对其质量打分

机器人游戏

s观察->a行为->r反馈

强化学习特性

奖励延迟:机器知道得分与开火关系,但不知和右移的关系,从而不断开火;围棋中没有及时奖励会更好(诱敌之术)

agent的行为会影响之后输入的data(改变环境)

基于策略训练一个actor

输入:机器观察的向量或矩阵;输出:每个动作都对应于输出层中的一个神经元

为什么使用NN而非查询表:泛化能力强

评估函式

让actor(函式)玩游戏(随机方式选择策略),一个总回合得到总奖励R。可以表达每次奖励与几率,但是不能穷举,所以玩N次,除N,作为奖励的期望值

基于价值训练一个critic

critic不会决定动作,但会评定动作好坏

Monte-Carlo based approach:对于输入状态,把未来积累奖励输出

Temporal-difference approach:输入两状态,从两状态中间求reward

Actor和Critic的结合
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值