基于“蘑菇书”的强化学习知识点（十八）：第八章：8.3 方案 3：设计网络架构（一）

墨绿色的摆渡人

于 2025-03-09 17:49:20 发布

阅读量690

点赞数 25

分类专栏：基于“蘑菇书”的强化学习知识点文章标签：强化学习蘑菇书

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xzs1210652636/article/details/146135523

版权

基于“蘑菇书”的强化学习知识点专栏收录该内容

24 篇文章

订阅专栏

第八章：（a-\mu（s））^T \Sigma（s）（a-\mu（s））

摘要

本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析！具体内容请阅读蘑菇书EasyRL！

对应蘑菇书EasyRL——8.3 方案 3：设计网络架构

我们先来看这一项的数学形式：
$(a-\mu(s))^T \Sigma(s) (a-\mu(s))$
这实际上是一个二次型（quadratic form），也常称为马氏距离的平方（Mahalanobis distance squared），它的意义可以从以下几个角度来理解：

衡量动作与“最佳动作”之间的距离
- $\mu(s)$ 是神经网络输出的均值向量，代表在状态 $s$ 下最优或最“期望”的动作。
- $a$ 是实际选择的动作。
- 因此， $\mu(s)$ 表示实际动作与期望动作之间的偏差或误差。
- 当这个偏差经过正定矩阵 $\Sigma(s)$ 加权后，其结果给出了一种“距离”度量，这个距离越大，说明实际动作与最优动作偏离得越远。
正定矩阵 $\Sigma(s)$ 的作用
- $\Sigma(s)$ 是一个正定矩阵，可以看作对各个维度的重要性和不同维度之间的相关性进行编码。
- 例如，如果某个动作维度对回报的影响更大，那么在 $\Sigma(s)$ 中，这个维度对应的权重会较高，导致相应偏离产生更大的“惩罚”。
- 因此，该二次项不仅衡量了偏差的大小，而且根据 $\Sigma(s)$ 的结构，体现了不同动作分量的重要性和协同效应。
对 Q 值的影响
- 在定义中，整个 Q 函数为
  $(a-\mu(s))^T \Sigma(s) (a-\mu(s)) + V(s).$
- 因为这一项前面有个负号，所以当 $a$ 与 $\mu(s)$ 接近时，这一项为零，此时 $Q (s, a) = V (s)$ 达到最大值；而如果 $a$ 与 $\mu(s)$ 偏离较大，则该项数值会变大（正数），从而使 Q 值降低。
- 这就确保了在决策时（例如求 $arg\max_a Q(s,a)$ ）最佳动作正好是 $a=\mu(s)$ 。
直观意义
- 可以把它看作是一种“能量”或“成本”函数：实际动作 $a$ 偏离最优动作 $\mu(s)$ 的“成本”，该成本以 $\Sigma(s)$ 为权重加权。
- 网络在训练时会学到合适的 $\Sigma(s)$ 来反映环境中不同状态下回报的敏感性和不确定性。

数值例子

假设在某个状态 $s$ 下，网络输出：

最优动作： $\mu(s) = \begin{bmatrix} 1 \\ 2 \end{bmatrix}$
我们构造一个下三角矩阵 $L (s)$ 如：
$\begin{bmatrix} 2 & 0 \\ 1 & 1 \end{bmatrix},$
那么 $\Sigma(s) = L(s)L(s)^T$ 为：
$\Sigma(s) = \begin{bmatrix} 4 & 2 \\ 2 & 2 \end{bmatrix}.$

我们考虑三个不同的实际动作 $a$ ：

动作 $a_1$ 与最优动作一致
设 $a_1 = \begin{bmatrix} 1 \\ 2 \end{bmatrix}$ 。
则 $a_1 - \mu(s) = \begin{bmatrix} 0 \\ 0 \end{bmatrix}$ ；
二次型为：
$(a_1-\mu(s))^T \Sigma(s) (a_1-\mu(s)) = 0.$
所以该部分为 0，Q 值达到最大 $V (s)$ 。
动作 $a_2$ 稍有偏离
设 $a_2 = \begin{bmatrix} 2 \\ 2 \end{bmatrix}$ 。
则 $a_2 - \mu(s) = \begin{bmatrix} 1 \\ 0 \end{bmatrix}$ 。
计算：
$\Sigma(s)(a_2-\mu(s)) = \begin{bmatrix} 4 & 2 \\ 2 & 2 \end{bmatrix} \begin{bmatrix} 1 \\ 0 \end{bmatrix} = \begin{bmatrix} 4 \\ 2 \end{bmatrix}.$
再计算二次型：
$(a_2-\mu(s))^T \begin{bmatrix} 4 \\ 2 \end{bmatrix} = 1 \times 4 + 0 \times 2 = 4.$
Q 值为：
$Q(s,a_2) = -4 + V(s).$
如果假设 $V (s) = 10$ ，则 $Q(s,a_2)=6$ 。
动作 $a_3$ 偏离另一方向
设 $a_3 = \begin{bmatrix} 1 \\ 3 \end{bmatrix}$ 。
则 $a_3-\mu(s) = \begin{bmatrix} 0 \\ 1 \end{bmatrix}$ 。
计算：
$\Sigma(s)(a_3-\mu(s)) = \begin{bmatrix} 4 & 2 \\ 2 & 2 \end{bmatrix}\begin{bmatrix} 0 \\ 1 \end{bmatrix} = \begin{bmatrix} 2 \\ 2 \end{bmatrix}.$
二次型：
$(a_3-\mu(s))^T\begin{bmatrix} 2 \\ 2 \end{bmatrix} = 0 \times 2 + 1 \times 2 = 2.$
则 Q 值：
$Q(s,a_3) = -2 + V(s) = -2 + 10 = 8.$

通过这些例子可以看出：

当动作 $a$ 正好等于 $\mu(s)$ 时，惩罚项为 0，Q 值最高；
当动作 $a$ 偏离 $\mu(s)$ 时，二次型产生的值越大，Q 值越低；
不同的偏离方向，由于 $\Sigma(s)$ 的权重作用，产生的惩罚不同。

总结

这一项 $(a-\mu(s))^T \Sigma(s)(a-\mu(s))$ 的作用在于：

度量偏离：量化实际动作 $a$ 与理想动作 $\mu(s)$ 之间的偏差；
权重调整：通过正定矩阵 $\Sigma(s)$ 给出各维度的重要性和协同影响；
优化决策：在 Q 函数中，以负号惩罚偏离，从而使得最大 Q 值在 $\mu(s)$ 处，也使得求 $arg\max_a Q(s,a)$ 变得非常直接；
不确定性表达：如果 $\Sigma(s)$ 由网络学习，它可以反映在不同状态下动作回报的不确定性。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。