强化学习
文章平均质量分 63
许你常欢
纸上得来终觉浅,绝知此事要躬行
展开
-
表格型方法Sarsa和Q-Learning算法
一、Q表格我们可以用状态动作价值来表达说在某个状态下,为什么动作 1 会比动作 2 好,因为动作 1 的价值比动作 2 要高,这个价值就叫 Q 函数。如果 Q 表格是一张已经训练好的表格的话,那这一张表格就像是一本生活手册。 我们就知道在熊发怒的时候,装死的价值会高一点。在熊离开的时候,我们可能偷偷逃跑的会比较容易获救。这张表格里面 Q 函数的意义就是我选择了这个动作之后,最后面能不能成功,就是我需要去计算在这个状态下,我选择了这个动作,后续能够一共拿到多少总收益。如果可以预估未来的总收益的大小,我原创 2021-07-22 21:19:26 · 1169 阅读 · 1 评论 -
马尔可夫决策过程(MDP)
强化学习的数学基础是马尔可夫决策过程 (Markov Decision Processes, MDPs)。一个MDP 通常由状态空间、动作空间、状态转移矩阵、奖励函数以及折扣因子等组成。简单地说,强化学习是一个序贯决策过程,它试图找到一个决策规则(即策略)使得系统获得最大的累积奖励值,即获得最大价值。...原创 2021-07-21 17:30:20 · 1200 阅读 · 0 评论 -
强化学习概述
一、什么是强化学习强化学习讨论的问题是一个智能体(agent) 怎么在一个复杂不确定的**环境(environment)**里面去极大化它能获得的奖励。示意图由两部分组成:agent 和 environment。在强化学习过程中,agent 跟 environment 一直在交互。Agent 在环境里面获取到状态,agent 会利用这个状态输出一个 动作(action),一个决策。然后这个决策会放到环境之中去,环境会根据 agent 采取的决策,输出下一个状态以及当前的这个决策得到的奖励。Agent原创 2021-07-21 17:27:17 · 388 阅读 · 0 评论