强化学习核心原理及数学框架

 1. 定义与核心思想

强化学习(Reinforcement Learning, RL)是一种通过智能体(Agent)与环境(Environment)的持续交互来学习最优决策策略的机器学习范式。其核心特征为:

  • ​试错学习​​:智能体初始策略随机("开局是智障"),通过大量交互获得经验数据("装备全靠打")
  • ​奖励驱动​​:环境对每个动作给出奖励信号(Reward),智能体目标为最大化长期累积奖励

2. 马尔可夫决策过程(MDP)

RL问题可形式化为五元组:
\mathcal{M} = (\mathcal{S}, \mathcal{A}, \mathcal{P}, \mathcal{R}, \gamma)
其中:

  • \mathcal{S}:状态空间(如飞船位置、速度)
  • $\mathcal{A}$:动作空间(离散:{左,右,开火};连续:力度∈[0,1])
  • $\mathcal{P}(s'|s,a)$:状态转移概率
  • $\mathcal{R}(s,a)$:即时奖励函数
  • $\gamma \in 0,1$:折扣因子

3. 奖励机制与目标函数

智能体追求​​最大化期望折扣累积奖励​​:
$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$
对于飞船着陆问题:

  • 最终奖励:成功着陆+100,坠毁-100
  • 过程奖励:燃料消耗-0.1,姿态偏离-0.5

4. 策略与价值函数

​策略$\pi(a|s)$表示状态到动作的概率分布,​​状态值函数​​评估策略优劣:
$V^\pi(s) = \mathbb{E}_\pi \left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s\right]$
​动作值函数​​(Q函数)定义为:
$Q^{\pi}(s,a)=\mathbb{E}_\pi [G_{t}|S_{t}=s,A_{t}=a]$

5. 策略优化方法

5.1 基于值函数的方法(如Q-Learning)

通过贝尔曼最优方程更新Q值:
$Q(s,a)\leftarrow Q(s,a)+\alpha\left[R(s,a)+\gamma\max_{a'}Q(s',a')-Q(s,a)\right]$

5.2 策略梯度方法(如REINFORCE)

直接优化参数化策略$\pi_{\theta}(a|s)$,梯度计算为:
$ \nabla_{\theta}J(\theta)=\mathbb{E}_{\pi_{\theta}}\left[G_{t}\nabla_{\theta}\log\pi_{\theta}(A_{t}|S_{t})\right]$

6. 深度强化学习实现

使用神经网络近似策略或价值函数(如DQN):
输入:s$ $\xrightarrow{\text{shenjingwangluo}}输出:动作概率分布/最优动作
训练目标为最小化时序差分误差:
$\mathcal{L}(\theta)=\mathbb{E}\left[\left(R+\gamma\max_{a'}Q_{\theta^{-}}(s',a')-Q_{\theta}(s,a)\right)^{2}\right]$

7. 应用领域

领域状态空间动作空间奖励设计
机器人控制关节角度、力反馈力矩调整姿态稳定性奖励
游戏AI屏幕像素手柄按键组合得分增减机制
金融交易市场行情买入/卖出量投资回报率

8. 核心挑战

  • ​探索与利用的平衡​​:ε-greedy、UCB等方法
  • ​稀疏奖励问题​​:基于好奇心(Curiosity)的探索
  • ​高维连续动作空间​​:确定性策略梯度(DDPG)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值