- 博客(1)
- 收藏
- 关注
原创 强化学习介绍
强化学习的组成要素策略(policy) , 奖赏信号 reward , 值函数 value function, 以及可选的环境模型 modelpolicy 定义了agent在一给定时间的决策方式。policy是从感知到环境的状态,到在这些状态下应该采取的动作的映射。一般而言策略是概率性的,指定了执行每个动作的概率。reward 定义了强化学习的目标。在每一time step 中,环境(...
2019-09-11 13:13:34 195
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人