强化学习1——基本概念、MDP、价值迭代、策略迭代、蒙特卡洛
1.强化学习简介1.1 基本概念强化学习是通过从交互学习来实现目标的计算方法。其交互过程是,在每一步t中,智能体与环境进行交互:(1)智能体(agent):获得观察O_t,获得奖励R_t,执行动作A_t;(2)环境:获得行动A_t,给出观察O_{t+1},给出奖励R_{t+1};以上这种交互的一个完整的过程,我们可以称之为历史(History),这是...
原创
2020-07-30 09:01:30 ·
9052 阅读 ·
0 评论