强化学习
zhaoyuyu_nudt
这个作者很懒,什么都没留下…
展开
-
【17】 强化学习 17章 前沿技术
文章目录名词离轨策略折扣过程折扣系数价值函数广义策略迭代(4.6节)或者“行动器一评判器”算法正文17.1 广义价值函数和辅助任务1、广义价值函数是什么?2、辅助任务是什么?定义: 预测和控制不同种类的信号特征作用17.2、基于选项理论的时序摘要人类可以无缝地在各个时间层次上切换,而没有一点转换的痕迹。那么MDP框架可不可以被拉伸,从而同步地覆盖所有这些时间层次呢?17.3 观测量和状态17.4 设计收益信号5 遗留问题6、参考文献 历史评注名词离轨策略允许函数以任意的目标策略作为条件折扣过程12原创 2020-08-12 22:27:53 · 966 阅读 · 1 评论 -
报告记录 -【强化学习】 多臂赌博机 (不全)
是什么?怎么解决?概念开发试探基本变量基本解决思路应用 : 图片推荐系统EE 开发与试探 和冷启动开发: 推荐狗试探: 推荐猫冷启动 : ????Qn 的增量描述Qn+1 写成了非平稳情况最近的奖赏比前面的奖赏更重要使用固定步长常见的赌博机算法朴素Epsilon-Greedy改进: 随着步数增加 逐渐 减少thetaOptimistic Initial Value尽可能让每个摇臂都被尝试几次, 从而避免收敛到局部最优早期的奖励 和后期的奖励, 越来越大。U原创 2020-08-08 15:56:33 · 157 阅读 · 2 评论 -
报告记录-【强化学习】导论 (不全)
文章目录强化学习是什么问题马尔科夫决策过程状态收益部分可观测马尔科夫决策过程VS 监督学习、 无监督学习特点要素应用实例问题 井字棋强化学习方法:状态-价值表 (状态 + 获胜概率)选择动作更新价值强化学习早期历史1、 试错学习效应定律 1911快乐痛苦系统 1948minsky , 1960 , Steps toward AI自动学习机2、 最优控制理论动态规划马尔可夫决策过程 是动态规划的离散随机自适应动态规划 、Q学习算法3、 时序差分学习心理学的规律 可以应用过来 Minsky时序差分思想的跳原创 2020-08-08 15:36:41 · 157 阅读 · 0 评论