强化学习相关知识点
文章平均质量分 89
个人在强化学习领域学习过程中的一些理解
AI学习的小解
前途迷茫的小辣鸡
展开
-
强化学习相关概念梳理
强化学习相关概念梳理强化学习概念特别多,且涉及大量数学知识,此文章旨在梳理一些基本概念,如有错误,欢迎指正!目录强化学习的基本组成元素马尔科夫决策过程(MDP)贝尔曼方程正文1.强化学习的基本组成元素为了便于理解,举一个爷青回的例子:超级玛丽,相信大家都玩过!agent(智能体):强化学习的本体,作为学习者或决策者存在。例如上图中的马里奥。environment(环境):agent以外的一切,主要指状态。例如上图的马里奥游戏环境。state(状态):记为S,表示envi原创 2022-02-28 17:09:58 · 4173 阅读 · 0 评论 -
强化学习中的两种探索-平衡策略
强化学习中的两种探索-平衡策略ε-greedy方法UCB(Upper Confidence Bound)方法为了解决强化学习中的一个经典问题:exploration and exploitation tradeoff 即:到底我们应该花精力去探索从而对收益有更精确的估计,还是应该按照目前拥有的信息,选择最大收益期望的行为?这样看上去可能不好理解,一个小例子帮助理解:假如你想在淘宝上买一本书,你一输入书的名字就看到,第一个链接的价格为10元,第二个链接为9.9元,第三个为11元,此时你有两原创 2022-02-23 10:07:01 · 4352 阅读 · 0 评论