JemeYufeng-CSDN博客

转载强化学习基础

马尔科夫决策过程（Markov Decision Processes，MDPs） MDPs简单来说就是一个智能体（Agent）采取行动（Action）从而改变自己的状态（State）来获取奖励（Reward）与环境（Environment）交互的过程。MDPs的策略完全取决于当前状态，这也是马尔科夫性质的体现。可以简单的表示为M=S,A,Ps,a,R>M=。基本概念s∈Ss \

2018-01-22 19:59:54 256

原创多臂老虎机(Multi-armed bandit problem)

我们会遇到很多选择的场景，如：上哪所大学，学什么专业，去哪家公司，等等。这些选择问题都会让选择困难症患者头大。那么，有什么科学的办法来解决这些问题呢？答案是：有！而且是非常科学的办法，那就是多臂老虎机(bandit)算法。bandit算法最早来源于劳苦大众喜闻乐见的娱乐活动：赌博学，它要解决的问题是这样的：一个赌徒要去摇老虎机，走进赌场一看，妈呀，一排老虎机，外表一毛一样，没啥区别。但是每

2018-01-17 10:37:34 5814

转载强化学习初级阶段-1

本文转自马尔科夫决策过程：基于马尔科夫过程理论的随机动态系统的最优决策过程。它是马尔科夫过程与确定性动态规划相结合的产物，故又称为马尔科夫型随机动态规划。具备马尔科夫链属性：一个事件/物体可视为无数（状态，动作）的切片积分而成，而下一个状态s′s'仅与当前状态ss有关，与历史状态无关。例如：下棋的时候，每一步的决策都仅与当前棋局的状态有关，而下棋者是基于最终收益作为动作的策略依据。

2018-01-09 09:40:09 217

转载动态规划-初级

上一章动态规划入门给了一个非常简单的例子。现在我们讨论更加复杂的问题，如何找到状态之间的转移方程。还是举一个直观的例子：一个序列有NN个数，分别为A[1],A[2],⋯,A[N]A[1],A[2],\cdots,A[N]，求出最长非降子序列的长度。根据第一章我们讲的，我们首先要定义一个“状态”来代表它的子问题，并且找到它的解。正常情况下，某个状态只与它之前的状态有关，而与其后来的状态无关。我

2017-12-28 18:07:41 135

转载动态规划-入门

什么是动态规划，我们需要如何描述它？动态规划算法通常基于一个递推公式以及一个或多个初始状态。当前子问题的解将依赖上一子问题的解。使用动态规划来解决问题只需要多项式复杂度，因此它比回溯法，暴力法等要快许多。首先，我们要招到某个状态的最优解，然后在它的帮助下，找到下一个状态的最优解。“状态”代表什么以及如何找到它？ “状态”用来描述该问题的子问题的解。如果我们有面值为11元、33元和55元的硬

2017-12-28 10:59:30 219

翻译 The differences between processes and threads?

Why threads over processes?(1) Creating a new process can be expensive. 1)Time A call into the operating system is needed Context-sw

2014-12-18 11:52:13 349

原创 TCP/IP端口

端口是指接口电路

2014-06-02 13:21:04 545

yfzhandd1989的专栏