机器学习—强化学习

最新推荐文章于 2024-07-25 18:25:30 发布

weixin_46517201

最新推荐文章于 2024-07-25 18:25:30 发布

阅读量726

点赞数 29

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46517201/article/details/136515692

版权

强化学习

rewards:对每个行动设置奖励
discount factor: $γ$
return: $R_1+γR_2+γ^2R_3+...$
policy策略:π $π (s) = α$ 根据当前位置s，计算得到return的奖励最大的行动策略α
状态动作函数Q(s,α): 在当前位置s，进行一次α的行动，然后按照最优策略执行，得到的奖励
最优策略下的行动等于maxQ(s,α)的α

s:当前位置
α:当前行动
s’:下一步的位置
α’:下一步的行动
贝尔曼方程： Q(s,α)=R(s)+γ maxQ(s’,α’)

随机强化学习：
在行动过程中可能出现错误，即行动没有跟着最优策略执行
因此在随机强化学习中，目标不是奖励最大化，而是期望（平均）奖励最大化
Q(s,α)=R(s)+γ E(maxQ(s’,α’))

神经网络训练强化模型：
x=(s,a)
y=R(s)+γ maxQ(s’,α’)

根据输入的(s,a)随机出可能的(s,a,R(s),s’),记录下10000组数据
根据 x=(s,a) ， y=R(s)+γ maxQ(s’,α’) 训练模型，其中y中的maxQ(s’,α’)，即为10000组数据中Q最大的一项

ɛ-greedy算法(ɛ=0.95)：
0.95的概率，算法选择 maxQ输出
0.05的概率，算法选择随机Q输出
探索其他可能性

weixin_46517201

关注

29
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
机器学习—强化学习

根据 x=(s,a) ， y=R(s)+γ maxQ(s’,α’) 训练模型，其中y中的maxQ(s’,α’)，即为10000组数据中Q最大的一项。状态动作函数Q(s,α): 在当前位置s，进行一次α的行动，然后按照最优策略执行，得到的奖励。根据输入的(s,a)随机出可能的(s,a,R(s),s’),记录下10000组数据。贝尔曼方程： Q(s,α)=R(s)+γ maxQ(s’,α’)根据当前位置s，计算得到return的奖励最大的行动策略α。最优策略下的行动等于maxQ(s,α)的α。
复制链接

扫一扫

weixin_46517201 CSDN认证博客专家 CSDN认证企业博客

码龄4年

13: 原创

109万+: 周排名

9万+: 总排名

1万+: 访问

: 等级

388: 积分

184: 粉丝

245: 获赞

5: 评论

224: 收藏

私信

关注

热门文章

分类专栏

Python笔记

最新评论

give me some credits
CSDN-Ada助手: 恭喜您写了第13篇博客，“give me some credits”！持续创作是非常了不起的事情，您的努力和热情让我十分钦佩。下一步，我建议您可以尝试探索更多不同的主题或者写作风格，让您的创作更加多样化和丰富。期待您的下一篇作品！祝您创作愉快！
机器学习—逻辑回归
CSDN-Ada助手: 恭喜你在机器学习领域又发布了一篇精彩的博客！逻辑回归是一个非常重要且实用的主题，你的解释和分析都很清晰易懂。接下来，或许可以考虑深入探讨逻辑回归在实际项目中的应用案例，或者探讨一些与逻辑回归相关的新兴技术。期待你未来更多的优质内容！
机器学习—多元线性回归补充
CSDN-Ada助手: 恭喜用户发布了第四篇博客“机器学习—多元线性回归补充”！持续创作是提升自己的好方法，希望您能继续保持！接下来，也许您可以考虑深入探讨一些实际案例，或者分享一些自己的实践经验，这样可以使您的博客更具有实用性和吸引力。期待您更多精彩的作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
机器学习介绍—监督学习与无监督学习
CSDN-Ada助手: 非常感谢你的分享！你的博客标题和摘要很吸引人，让我对机器学习的监督学习和无监督学习有了更深入的了解。希望你能继续写下去，分享更多关于机器学习的知识。除了监督学习和无监督学习，你可以考虑扩展一些关于半监督学习和强化学习的内容。半监督学习是指使用带有标签和未标签数据的学习方法，可以在数据集较小的情况下提高模型的准确性。而强化学习是一种通过与环境进行交互来学习最佳行为策略的方法，可以广泛应用于游戏、机器人等领域。另外，你还可以介绍一些常用的机器学习算法，如决策树、支持向量机、神经网络等。这些算法在实际应用中非常重要，可以帮助解决各种问题。期待看到你更多的博客，继续努力！如果有任何问题，我们也可以一起讨论。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
Git Tortoisegit的基础安装与登录
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。