强化学习
文章平均质量分 74
RMAPPO
斗魂竞技场
展开
-
价值学习 --- DQN 、TD 、Q-learning 、SARSA
Q 学习算法属于异策略,允许使用经验回放。在训练的过程中,让 ϵ 逐渐衰减,在几十万步之后衰减到较小 的值(比如 ϵ = 0.01),此后固定住 ϵ = 0.01。是可以用行为策略收集经验,把 (st, at, rt, st+1) 这样的四元组记录到 一个数组里,在事后反复利用这些经验去更新目标策略。DQN 的输出是离散动作空间 A 上的每个 动作的 Q 值,即给每个动作的评分,分数越高意味着动作越好。Q 学习的目的是学到最 优动作价值函数 Q⋆,而 SARSA 的目的是学习动作价值函数 Qπ。原创 2023-12-08 23:00:47 · 235 阅读 · 0 评论 -
强化学习基本概念
强化学习通常假设状态转移是随机的,随机性来自于 环境(例:在游戏你可以根据state控制自己角色的action,但是无法控制npc,npc的不可控带来了随机性)。智能体与环境交互䩛agent environment interaction䩜 是指智能体观测到环境的状态 s,做出动作 a,动作会改变环境的状态,环境反馈给智能体奖励 r 以及新的状态 s′。因此,设置一个小于 1 的折扣率是非常必要 的。常用状态转移函数 p(s′ |s, a) 计算所有可能的 状态的概率,然后做随机抽样,得到新的状态。原创 2023-12-08 20:09:18 · 659 阅读 · 0 评论 -
期望、蒙特卡洛基础知识
概率质量函数(probability mass function, PMF):描述离散概率分布,即变量的取值范围 X是个离散集合。累积分布函数(cumulative distribution function, CDF):描述随机变量概率分布的函数,值域为[0,1]。随机抽样:所有事件都有可能被抽中,只是概率不同,具有随机性(类似于有放回的摸球)。求随机变量落在区间[a,b]的概率,即求区间[a,b]内概率密度函数下方的面积。离散随机变量 X 的期望:随机变量出现概率与随机变量值间乘积的累加。原创 2023-12-08 17:26:40 · 73 阅读 · 0 评论