- 博客(7)
- 收藏
- 关注
转载 强化学习基础
马尔科夫决策过程(Markov Decision Processes,MDPs) MDPs简单来说就是一个智能体(Agent)采取行动(Action)从而改变自己的状态(State)来获取奖励(Reward)与环境(Environment)交互的过程。MDPs的策略完全取决于当前状态,这也是马尔科夫性质的体现。可以简单的表示为M=S,A,Ps,a,R>M=。基本概念s∈Ss \
2018-01-22 19:59:54 256
原创 多臂老虎机(Multi-armed bandit problem)
我们会遇到很多选择的场景,如:上哪所大学,学什么专业,去哪家公司,等等。这些选择问题都会让选择困难症患者头大。那么,有什么科学的办法来解决这些问题呢?答案是:有!而且是非常科学的办法,那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动:赌博学,它要解决的问题是这样的:一个赌徒要去摇老虎机,走进赌场一看,妈呀,一排老虎机,外表一毛一样,没啥区别。但是每
2018-01-17 10:37:34 5814
转载 强化学习初级阶段-1
本文转自 马尔科夫决策过程:基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物,故又称为马尔科夫型随机动态规划。具备马尔科夫链属性: 一个事件/物体可视为无数(状态,动作)的切片积分而成,而下一个状态s′s'仅与当前状态ss有关,与历史状态无关。例如:下棋的时候,每一步的决策都仅与当前棋局的状态有关,而下棋者是基于最终收益作为动作的策略依据。
2018-01-09 09:40:09 217
转载 动态规划-初级
上一章动态规划入门给了一个非常简单的例子。现在我们讨论更加复杂的问题,如何找到状态之间的转移方程。还是举一个直观的例子: 一个序列有NN个数,分别为A[1],A[2],⋯,A[N]A[1],A[2],\cdots,A[N],求出最长非降子序列的长度。根据第一章我们讲的,我们首先要定义一个“状态”来代表它的子问题,并且找到它的解。正常情况下,某个状态只与它之前的状态有关,而与其后来的状态无关。我
2017-12-28 18:07:41 135
转载 动态规划-入门
什么是动态规划,我们需要如何描述它? 动态规划算法通常基于一个递推公式以及一个或多个初始状态。当前子问题的解将依赖上一子问题的解。使用动态规划来解决问题只需要多项式复杂度,因此它比回溯法,暴力法等要快许多。 首先,我们要招到某个状态的最优解,然后在它的帮助下,找到下一个状态的最优解。“状态”代表什么以及如何找到它? “状态”用来描述该问题的子问题的解。如果我们有面值为11元、33元和55元的硬
2017-12-28 10:59:30 219
翻译 The differences between processes and threads?
Why threads over processes?(1) Creating a new process can be expensive. 1)Time A call into the operating system is needed Context-sw
2014-12-18 11:52:13 349
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人