机器学习入门-西瓜书总结笔记第十六章
西瓜书第十六章-强化学习一、任务与奖赏二、K-摇臂赌博机1.探索与利用2.ϵ\epsilonϵ-贪心3.Softmax三、有模型学习1.策略评估2.策略改进3.策略迭代与值迭代四、免模型学习1.蒙特卡罗强化学习2.时序差分学习一、任务与奖赏上图给出了强化学习的一个简单图示。强化学习任务通常用马尔可夫决策过程(Markov Decision Process,简称MDP)来描述:机器处于环境E中,状态空间为X,其中每个状态x∈Xx\in Xx∈X是机器感知到的环境的描述,如在种瓜任务上这就是当前瓜苗长势的






