强化学习
文章平均质量分 85
强化学习
ziuno
NLP爱好者,专注于解决小众bug~
展开
-
reinforcement_q_learning—解读
reinforcement_q_learning—解读原理讲解gymReplayMemoryDQNselect_action(state)optimize_model 注意: Torch官网reinforcement_q_learning源码 下文中不提供源码,需一边阅读一边对照源码,仅针对部分必要源码变量进行分析 原理讲解 如果不了解大致符号和理论定义,参考强化学习入门—超级马里奥 简单来说,定义一个模型,输入是整个画面,输出是每个动作带来的未来价值(维度与动作数相同) 计算两个神经网络对象,原创 2022-04-25 15:55:04 · 1237 阅读 · 1 评论 -
【ziuno】强化学习入门—超级马里奥
强化学习入门—超级马里奥 对象抽取:马里奥、金币、板栗仔(蘑菇怪) 术语 智能体-Agent:马里奥 状态(S或s)-State:当前游戏画面 动作(A或a)-Action:智能体(马里奥)的,左、右、跳(简化) 策略-Policy:根据状态,决定该采取的动作 奖励(R或r)-Reward:执行动作后,游戏给予奖励,例如吃金币加分 轨迹-Trajectory:包括每一步的状态、动作、奖励。 智能体循环该过程:根据状态s,采取策略,执行动作a,获得奖励r,状态变化。 策略-Policy Pol原创 2022-03-23 16:01:12 · 3620 阅读 · 0 评论