各种算法-强化学习

最新推荐文章于 2024-09-06 11:36:40 发布

天边一坨浮云

最新推荐文章于 2024-09-06 11:36:40 发布

阅读量690

点赞数

分类专栏：机器学习方法和技术文章标签：强化学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ytomc/article/details/113332111

版权

机器学习方法和技术专栏收录该内容

8 篇文章 3 订阅

订阅专栏

目录

强化学习中的策略（policy)：

Q-learning（Quality-learning）

强化学习中的State和Observation

强化学习agent分类

概念

奖励（reward）、代理（agent，又叫智能体）、环境（environment）、状态（state）、动作（action）

强化学习中的策略（policy)：

目标策略（target policy）：智能体要学习的策略

行为策略（behavior policy）：智能体与环境交互的策略，即用于生成行为的策略

Off-policy 是指行为策略和目标策略不是同一个策略，即智能体可以通过离线学习自己或别人的策略，来指导自己的行为；相反，on-policy 的行为策略和目标策略是同一个策略。

Q-learning（Quality-learning）

强化学习中的一种 values-based 算法，最终是会学习出一个表格 Q-Table

例如在一个游戏中有下面5种状态和4种行为，则表格为：

这个表格的每一行代表每个 state，每一列代表每个 action，表格的数值就是在各个 state 下采取各个 action 时能够获得的最大的未来期望奖励。通过 Q table 就可以找到每个状态下的最优行为，进而通过找到所有最优的action得到最大的期望奖励。

Deep Q-Network (DQN)：是将深度学习与强化学习相结合，实现了从感知到动作的端到端的算法

强化学习中的State和Observation

State是 Environment的私有表达，我们往往不知道不会直接到。

在马尔可夫决策过程中，当前状态State（Markov state）包含了所有历史信息，即将来只和现在有关，与过去无关，因为现在状态包含了所有历史信息。

举个例子，在一个遵循牛顿第二定律的世界里，我们随意抛出一个小球，某一时刻 t知道了小球的速度和加速度，那么 t之后的小球的位置都可以由当前状态，根据牛顿第二定律计算出来。

再举一个夸张的例子，如果宇宙大爆炸时奇点的状态已知，那么以后的所有状态就已经确定，包括人类进化、我写这篇文章和你在阅读这篇文章都是可以根据那一状态推断出来的。当然这只是理想状况，现实往往不会那么简单（因为这只是马尔科夫的一个假设）。只有满足这样条件的状态才叫做马尔科夫状态。即：

正是因为 State太过于复杂，我们往往可以需要一个对 Environment的观察来间接获得信息，因此就有了 Observation。不过 Observation是可以等于 State的，在游戏中，一帧游戏画面完全可以代表当前状态，因此 Observation= State，此时叫做 Full Observability

强化学习agent分类

Value Based：No Policy (Implicit) ，Value Function

Policy Based：Policy，No Value Function

Actor Critic：Policy，Value Function

Model Free：Policy and/or Value Function，No Model

Model Based：Policy and/or Value Function，Model

天边一坨浮云

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。