机器学习李宏毅学习笔记29

最新推荐文章于 2024-08-18 19:43:49 发布

log^3me

最新推荐文章于 2024-08-18 19:43:49 发布

阅读量81

点赞数

文章标签：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46722934/article/details/131295187

版权

文章目录

前言
Reward shaping
总结

前言

概述增强式学习（四）Reward shaping

Reward shaping

在actor和环境互动时，很怕遇到reward在绝大部分情况下都是0，极少情况会获得一个很大的reward，这就导致我们不知道action究竟是好还是坏。比如教机器拧螺丝，只要没有拧好都是0，这个时候犹豫初始参数是随机的，这就导致了在绝大部分情况下reward都是0。遇到这种状况，想办法提供额外的reward，引导agents学习，这种方法就是reward shaping。Reward shaping是需要专业知识的，比如细分动作，甚至是给一些“正向”的行为负reward，应为在刚开始的时候，可能会为了这些正向行为，学到的和需要的功能是截然相反的。比如击杀游戏中，活着如果获得正向reward，那么可能学到的就是在边缘躲着。

总结

视频学习地址：https://www.bilibili.com/video/BV13Z4y1P7D7?p=31&vd_source=3a369b537e1d34ff9ba8f8ab23afedec

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习李宏毅学习笔记29

概述增强式学习（四）Reward shaping视频学习地址：https://www.bilibili.com/video/BV13Z4y1P7D7?
复制链接

扫一扫

log^3me CSDN认证博客专家 CSDN认证企业博客

码龄4年

50: 原创

117万+: 周排名

151万+: 总排名

1万+: 访问

: 等级

506: 积分

14: 粉丝

4: 获赞

9: 评论

18: 收藏

私信

关注

热门文章

最新评论

机器学习李宏毅学习笔记39
绝世小可爱!?(･_･;?: 怎么不更新了，是有什么心事？lj
机器学习李宏毅学习笔记1
CSDN-Ada助手: 恭喜你发布了第一篇博客！学习笔记是非常有用的资源，感谢你分享。下一步你可以考虑为读者提供更多的实践经验和案例，这样能够更好地帮助读者理解和应用机器学习的知识。期待你的下一篇文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
机器学习李宏毅学习笔记4
CSDN-Ada助手: 非常棒的博客！恭喜你又完成了一篇机器学习李宏毅学习笔记。建议你在下一篇博客中可以尝试分享自己的实践经验，例如应用机器学习解决某个具体问题的过程，这样更有助于读者理解和掌握机器学习知识。期待你的下一篇博客！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
机器学习李宏毅学习笔记2
吃花椒的妙酱: 大佬有课程的交流群吗
机器学习李宏毅学习笔记9
CSDN-Ada助手: 恭喜你写了第10篇博客，看来你已经深入学习了李宏毅教授的机器学习课程。希望你能继续保持创作热情，分享更多有价值的学习笔记和心得体会。接下来，建议你可以考虑多结合实践案例进行分析，给读者提供更加具体的学习参考。加油！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。