强化学习
文章平均质量分 76
强化学习理论基础到实战,分享个人学习经验。
Colin_Jing
北京某高校人工智能在读博士,欢迎交流!
展开
-
暴力快速入门强化学习
即表示从时刻t开始,棋盘状态为S,该时刻的状态按照智能体的策略一直执行下去,到最终游戏结束,得到的奖励累计之和,就用这个表示当前状态S的价值。也就唯一确定了,但很多情况往往是不确定的,比如你每学期你的状态都是摆烂,然后考试前你的行动都是通宵复习,但有时候你挂科了,有时候你及格了,还有时候你满分了,这就是不确定的,这是有概率的,当然在及格边缘的概率更大,所以我们定义这个环境变换的映射情况就叫做状态转移概率,即。前面说到用累计奖励作为状态的价值,其实就是用某个状态的回报作为该状态的价值,不过因为回报。原创 2024-03-22 23:24:50 · 1493 阅读 · 1 评论 -
贝尔曼公式
强化学习的思想借鉴了心理学、神经科学领域,即希望智能体(agent)像人一样,通过不断与外界进行交互,作用于环境,并得到环境的反馈,根据奖励和惩罚来调整自己的策略,不断修炼,希望最终学到的策略得到的奖励能够最大化。一般来说,一个科研思路都是从直觉开始的,但是怎么把直觉抽象出来,进行精确的数学表达,从而可以量化自己的直觉是很重要的。经过之前科学家们的不断探索,总结出了一条适用于实现强化学习这个想法的数学框架,即马尔科夫决策过程(MDP)原创 2024-01-16 20:41:27 · 834 阅读 · 0 评论 -
SAC算法详解
软行动者-评论家(Soft Actor-Critic, SAC)算法是一种基于深度学习的强化学习方法,其目标是在探索和利用之间实现平衡,同时保持策略的高熵(即随机性)。原创 2024-01-15 21:23:09 · 1955 阅读 · 0 评论 -
值迭代和策略迭代详解
强化学习中的两个核心算法——值迭代(Value Iteration)和策略迭代(Policy Iteration)——是解决马尔可夫决策过程(MDP)问题的经典方法。本文将详细介绍这两种算法的原理和区别。原创 2024-01-07 20:29:10 · 1287 阅读 · 0 评论 -
强化学习基础介绍
马尔可夫决策过程是强化学习的数学框架,用于建模决策制定的环境。原创 2024-01-07 20:16:29 · 825 阅读 · 0 评论 -
强化学习基础概念与学习资源推荐
强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,主要研究在不确定环境中如何做出决策以最大化某种累积奖励。它涉及三个基本要素:智能体(agent)、环境(environment)和奖励(reward)。智能体在环境中采取行动,环境根据智能体的行动给出下一个状态和奖励,智能体根据奖励来调整自己的行为策略。原创 2024-01-03 21:40:57 · 341 阅读 · 0 评论