人工智能实训第二十一章强化学习

灭绝星辰

于 2021-12-22 13:52:07 发布

阅读量829

点赞数

分类专栏：人工智能导论文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zumhui/article/details/122084150

版权

人工智能导论专栏收录该内容

17 篇文章 17 订阅

订阅专栏

任务描述

本关任务：学习了解本章内容并完成对应习题。

相关知识

为了完成本关任务，你需要掌握：1. 被动强化学习；2. 主动强化学习；3. 强化学习中的泛化；4. 策略搜索；5. 强化学习的应用。

被动强化学习
基本思路:

以rewards的形式接收反馈
Agent 的效用由reward函数定义
行为最大化rewards
所有的行为基于观察到的产出样本
简化任务：策略评估

输入：一个确定的策略π(s)，未知T(s,a,s’)，未知rewards R(s,a,s’)。

目标：学习状态值。

在这种情况下：Learner is “along for the ride”，需要采取什么行动没有选择，只是执行政策和从经验中学习，这不是离线规划! 你真正采取行动。

主动强化学习
完全强化学习:

最优策略：无需知道转换T(s,a,s’)，你无需知道奖励R(s,a,s’)，选择行为。

目标: 学习最优策略/值

在这种情况下：学习者做出抉择!

基本权衡：勘探 vs 开发

这个不是离线规划！你采取行动并找出发生的情况。

强化学习中的泛化
函数逼近器对于参数是线性的时候，可以证明这些更新规则能够收敛到对真实函数的最近可能近似。

策略搜索
只要性能还在改进就保持对策略的调整，然后停止。

强化学习中的应用
在游戏中的应用：下棋程序、时序差分西洋双陆棋。

在机器人控制中的应用：小车连杆平衡问题、直升机飞行。

开始你的任务吧，祝你成功！

在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
人工智能实训第二十一章强化学习

任务描述本关任务：学习了解本章内容并完成对应习题。相关知识为了完成本关任务，你需要掌握：1. 被动强化学习；2. 主动强化学习；3. 强化学习中的泛化；4. 策略搜索；5. 强化学习的应用。被动强化学习基本思路:以rewards的形式接收反馈Agent 的效用由reward函数定义行为最大化rewards所有的行为基于观察到的产出样本简化任务：策略评估输入：一个确定的策略π(s)，未知T(s,a,s’)，未知rewards R(s,a,s’)。目标：学习状态值。在这种情况下：Lea
复制链接

扫一扫

专栏目录

灭绝星辰 CSDN认证博客专家 CSDN认证企业博客

码龄5年

55: 原创

39万+: 周排名

122万+: 总排名

6万+: 访问

: 等级

692: 积分

132: 粉丝

75: 获赞

5: 评论

432: 收藏

私信

关注

热门文章

分类专栏

最新评论

编译原理龙书第4章作业3
rsttttt: 博主，最后一题有点小错误。0状态倒数第二项状态展望符应为a,倒数第一项展望符应为c。其次，倒数第二题的增广文法应该要消除左递归后再构造LR项集族吧
交换机/路由器实验1
灭绝星辰: 应该是版本匹配问题，找到合适的版本应该就行了
交换机/路由器实验1
liga123456: 你好，请问点击破解器显示“此运用无法在你的电脑上运行，若要找到适用于你的电脑的版本，请咨询软件发布者”，怎么处理呀？
人工智能实训第十八章样例学习
灭绝星辰: 还没写完ww
hnu 数字电路实验3.3 控制信号产生逻辑
HNU奋豆: 老铁老铁，你那个f_bus有误，movc应该改成movb，因为movb类型指令的全程是 mov M B,也就是说，从通用寄存器的D口出来的间接寻址的数据通过选择器到达ram，与此同时，B形寄存器中的值要从S口出来，经过ALU，再经过移位逻辑，达到总线上，再从总线到达ram，讲间接寻址数据所表示的那块地址的值改为现在总线上的B型寄存器的值。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。