强化学习
文章平均质量分 54
R-learning的相关文章
廷益--飞鸟
这个作者很懒,什么都没留下…
展开
-
python paddle 强化学习环境报错
缺乏DLL 找不到指定模块解决方法:D:\ProgramData\Anaconda3\envs\r_learning原创 2022-03-29 20:17:08 · 3896 阅读 · 0 评论 -
R-learning 策略算法(CartPole)
环境:pip install gympip install paddlepaddle==1.6.3pip install parl==1.3.11、神经网络具体代码model.pyimport parlfrom parl import layers# 预测模型class Model(parl.Model): def __init__(self, act_dim): # 动作维度 act_dim = act_dim hi.原创 2021-10-09 15:05:37 · 731 阅读 · 2 评论 -
R-learning 基于价值与基于策略
强化学习可以分为基于价值(value-based)确定性策略:通过训练Q表格或者Q网络, 获得确定的动作(Action)经典算法:Sarsa, Q-learning, DQN基于策略 (policy-based)随机性策略 通过训练Policy策略网络,获得动作的概率(Action 随机策略)经典算法:蒙特卡洛 (MD)时序差分 (Actor-Critic)策略梯度函数...原创 2021-10-08 16:04:17 · 970 阅读 · 0 评论 -
R-learning DQN验证(CartPole)
环境:pip install gympip install paddlepaddle==1.6.3pip install parl==1.3.1经验回放 固定目标具体代码replay_memory.pyimport collectionsimport randomimport numpy as np# 经验回放类class ReplayMemory(object): def __init__(self, max_size): self.buffer .原创 2021-09-28 11:28:05 · 349 阅读 · 0 评论 -
R-learning 马尔可夫决策
1、马尔可夫决策定义(Markov)MDP=(S,A,P,R) MDP = (S,A,P,R)MDP=(S,A,P,R)MDP=(S,A,P,R,γ) MDP = (S,A,P,R, γ)MDP=(S,A,P,R,γ)a、基本概念说明符号说明符号说明s (state)环境状态S环境状态集合 s∈Sa (action)动作状态A动作状态集合 a∈Ar (reward)环境回报(奖励)γ衰减因子γ∈[0~1]t时刻原创 2021-07-07 18:32:41 · 384 阅读 · 0 评论 -
R-learning Actor-Critic决策
一、策略梯度算法(梯度上升)1、策略θ\thetaθ最优策略获取最大反馈,可以使用深度神经网络的策略(action的选择)πθ\pi_\thetaπθ 表示上述策略πθ=P[a∣s,θ] \pi_{\theta}= P[a|s, \theta]πθ=P[a∣s,θ]2、目标函数 J(θ)J(\theta)J(θ)梯度使用求取 目标函数的 梯度(上升)然后使用 η\etaη 代表学习率Δθ\Delta\thetaΔθ:梯度更新参数更新的参数 = 学习率 * 目标函数的 梯度上升原创 2021-07-09 11:15:41 · 126 阅读 · 0 评论 -
R-learning Q-learning 模型的测试
公式核心代码 # 当前环境 ==> 动作 def sample(self, obs): if np.random.uniform(0, 1) < (1 - self.epsilon): # 预测 action = self.predict(obs) # 预测 else: action = np.random.choice(self.act_n) # 随机动作 return .原创 2021-04-30 10:42:16 · 632 阅读 · 0 评论 -
R-learning sarsa 模型的测试
核心代码 def sample(self, obs): # 根据输入观察值 生成一个动作输出 带探索 greed = np.random.uniform(0, 1) < (1 - self.epsilon) if greed: action = self.predict(obs) else: action = np.random.choice(self.act_n) .原创 2021-04-29 14:58:18 · 308 阅读 · 0 评论