菜鸟学习之路
我身后没尾巴
这个作者很懒,什么都没留下…
展开
-
初认回溯
回溯法解题套路简单理解回溯就是暴力循环求解,但是此暴力求解并不是简单的for循环,而是对决策树循环遍历,回溯有一定的框架,根据学习内容,写下框架以及找的例子以便自己往后复习。算法套路文章皆以labuladong的书为主,结合自身理解,以java语言复现。框架内容遇到问题,首先思考这三个问题:1.路径已经做出的选择;2.选择列表:当前可以做出的选择;3.结束条件,达到底层后,无法再做出选择的条件。其框架可以写为: List result = new ArrayList();原创 2021-04-12 12:14:08 · 77 阅读 · 0 评论 -
强化学习(五)
Keys1. reward shaping: 在我们的agent与environment进行交互时,我们人为的设计一些reward,从而“指挥”agent,告诉其采取哪一个action是最优的,而这个reward并不是environment对应的reward,这样可以提高我们estimate Q-function时的准确性。2. ICM(intrinsic curiosity module): 其代表着curiosity driven这个技术中的增加新的reward function以后的reward原创 2020-11-05 23:21:01 · 838 阅读 · 1 评论 -
强化学习(四)
Keywords1.DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行网络的训练。2. State-value Function: 本质是一种critic。其输入为actor某一时刻的state,对应的输出为一个标量,即当actor在对应的state时,预期的到过程结束时原创 2020-11-03 22:30:44 · 254 阅读 · 0 评论 -
强化学习(三)
keyspolicy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成π 。Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R 来表示它。Trajectory: 一个试验中我们将environment 输出的s跟 actor 输出的行为原创 2020-10-29 20:03:09 · 540 阅读 · 0 评论 -
强化学习(二)
keyword马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关,只由现在的状态决定,那么其满足马尔可夫性质。换句话说,一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。状态转移矩阵(State Tra原创 2020-10-23 21:57:02 · 430 阅读 · 0 评论 -
强化学习基础认知
强化学习基础认知(第一次使用markdown)强化学习发展迅速原因原因有二:1. 算力(GPU、TPU)的提升,我们可以更快地做更多的 trial-and-error 的尝试来使得 Agent 在Environment里面获得很多信息,取得很大的Reward。2. 我们有了深度强化学习这样一个端到端的训练方法,可以把特征提取和价值估计或者决策一起优化,这样就可以得到一个更强的决策网络。强化学习的基本结构**强化学习是机器学习中的一个领域**,强调如何基于环境而行动,以取得最大化的预期利益。其原创 2020-10-20 20:54:52 · 439 阅读 · 0 评论