机器学习笔记—9(李宏毅版)

概述领域自适应(Domain Adaptation)

训练资料和测试资料有差异时,可能会坏掉,叫做Domain Shift

训练资料与测试资料有差异时,如何做得更好?

有标注资料,但是资料量很少的情况下,要小心不要overfit。

有大量的资料,但是资料是没有标注的情况下,应该要怎么解?Feature Extractor,输入图片输出feature,分别输入Source Domain的图片和Target Domain上的图片,输出feature,找出相同的distribution。

image–>feature extractor–>feature–>label predictor–>class distribution
source domain和target domain中间输出的feature,应该看不出两个feature的差异。需要用到domain adversarial training。
image–>feature extractor(generator)–>domain classifier(discriminator)–>判断是source还是target
feature extractor的目标是让domain classifier分辨不出图片的来源是哪一个domain,就是说feature extractor的LOSS应该和domain classifier相反。domain classifier相当于一个二元分类器,将输入的图片分为两个domain。
Limitation
unlabelled的图片输入feature extractor和label predictor之后输出的distribution应当离boundary越远越好,就是说应当输出的值的分布更加确定,而不是结果的概率平均分布。
source和target中图片的data类型,可能有包含关系、交叉关系、重合关系。
如果既没有label,同时data还很少,testing time training可能可以train起来。
domain generalization,不管来的是哪个domain都可以处理。
又有两种情况,1.训练资料很丰富,包含了多个domain,模型可以判断各个domain之间的差异。2.训练资料只有一个domain,而测试资料有多个domain。这种情况可以尝试data augmentation。

RL技术 Refinforeement Learning

机器可以知道现在的输出是good还是bad
Actor与Environment进行互动,Environment–Observation(Function input)–>Actor,同时 Actor–Action(Function output)–>Environment
Space Invader Game
Actor–人工智能
Environment–游戏机
Reward–分数
Action–开火或左右移动
Observation–游戏画面
围棋
Actor–人工智能
Environment–对方棋手
Reward–胜利的概率
Action–落子到某个位置
Observation–当前局面

step1:function with unknown
step2:define loss from training data
step3:optimization

输入:游戏画面像素(游戏的参数)
Policy Network(Actor)
输出:移动方向或者开火所得的分数,各个操作的分数之和为 1
类似于classification task分类任务
用负的total reward作为loss

用训练资料训练一个actor,将训练资料中的二元问题转为分数问题

在这里插入图片描述
Reward Delay:有时需要牺牲短期的利益,从而可以获得更大的、更长远的利益
可能飞机会为了得到短期利益而疯狂开火,这样可以非常方便地获得分数

Policy Gradient

Cumulate Reward
在这里插入图片描述
如果过程非常长的话,前面的action对距离很远的reward的影响很小
在这里插入图片描述
这样的话,离ai越远就受到ai的影响越小
不同的RL的方法主要是给予评价的A的定义不同
Reward应该是相对的,所以应该做标准化,所有的
A减去一个b(baseline),使得有正有负
在这里插入图片描述
RL的过程是非常花时间的,因为收集训练资料的过程是在for循环之内的
在这里插入图片描述
不应该用上一步的reward来推测这一步的reward,而是应该用所有步骤来推测这一步的行为,就是说每次都需要重新收集资料
Off-policy,收集一次资料就训练很多次

Exploration
Action在采取行为时有一定的随机性,不然可能会Train不起来,只有采取了某些行为才能知道这个行为是好的或者不好的。随机性大一点,可以收集到更加丰富的资料。

Critic

value function,输入游戏的状况,输出一个数值,预测某个action会得到怎样的结果。
Critic的训练方法
1.Monte-Carlo(MC),把actor和环境互动多轮,得到多个记录,用来作为训练资料
2.Temporal-Difference(TD),不用等到结束才得到训练资料,而是一边训练一边得到训练资料
A=G-b
b的值合理设置应该为V(s)
训练技巧在这里插入图片描述
Actor和Critic可以共用大部分的network

Sparse Reward
假设reward几乎都是0,比如让机器手臂拿起螺丝并且拧起来。
定义额外的reward提供给机器进行学习,叫做reward shaping,用来引导机器进行学习。
在这里插入图片描述
使用reward shaping时,需要充分地理解问题。

Reward Shaping Curiosity,当机器看到有意义的新事物时,可以获得额外的奖励,可以激励机器尽可能去探索环境,比如横向卷轴游戏过关。

逆向增强学习:从示范中进行学习

在进行训练时,需要根据机器的反应而去添加、修改或者删除相应的reward,这就造成了很大的麻烦。
将人类和环境的互动作为示范,拿给机器学习,比如行车记录、人类手把手教机器进行学习
在这里插入图片描述
有两个问题,一是人类几乎不会犯错,那么机器就学习不到错误的情况。二是人类会有一些个人特征、习惯被机器学习到,这是没有必要的。

Inverse Reinforcement Learning
基本原则:老师的行为是最好的,可以获得最高的reward,高于学生的行为得到的reward。

IRL类似于GAN,Actor对应Generator,Reward Function对应Discriminator,常被用来训练机械手臂

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
李宏毅的2020机器学习笔记中,有一个关于注意力机制(Attention)的部分。这部分内容主要介绍了生成模型(Generation)、注意力(Attention)、生成的技巧(Tips for Generation)以及指针网络(Pointer Network)。在生成模型中,主要讲述了如何生成一个有结构的对象。接下来介绍了注意力机制,包括一些有趣的技术,比如图片生成句子等。在生成的技巧部分,提到了一些新的技术以及可能遇到的问题和偏差,并给出了相应的解决方案。最后,稍微提到了强化学习。其中还提到了在输出"machine"这个单词时,只需要关注"机器"这个部分,而不必考虑输入中的"学习"这个部分。这样可以得到更好的结果。另外,还提到了关于产生"ei"的方法,其中有研究应用了连续动态模型自注意力(Self-attention)来学习位置编码的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [2020李宏毅机器学习笔记-Condition Generation by RNN&Attention](https://blog.csdn.net/zn961018/article/details/117593813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [李宏毅机器学习学习笔记:Self-attention](https://blog.csdn.net/weixin_44455827/article/details/128094176)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值