矩阵求导（标量对矢量求导）

七味老友

于 2022-04-21 19:32:27 发布

阅读量1.5k

点赞数 1

分类专栏：矩阵求导文章标签：矩阵线性代数

本文链接：https://blog.csdn.net/weixin_43601588/article/details/124328716

版权

矩阵求导专栏收录该内容

1 篇文章 1 订阅

订阅专栏

文章目录

前言
一、标量对向量求导
二、例子
总结

前言

矩阵求导的学习记录

一、标量对向量求导

标量对向量求导，实际上是标量对向量中的每个元素求偏导，然后再组成一个和向量形状相同的向量。也就是：
$\frac{\partial y}{\partial \vec{x}} = (\frac{\partial y}{\partial x_1},\frac{\partial y}{\partial x_2}\dots \frac{\partial y}{\partial x_n})^T$
式中 $y$ 是一个标量， $(x_1,x_2\dots x_n)^T$ 为一个n维向量；

二、例子

1. $y = w^T*x$

这是在信号处理中比较常见的一种加权求和形式。
实际上我们将其乘积结果展开可以得到：
$w_1x_1 + w_2x_2 + \dots w_nx_n$
那么根据我们以上理论
$\frac{\partial y}{\partial \vec{x}} = (\frac{\partial w_1x_1 + w_2x_2 + \dots w_nx_n}{\partial x_1},\frac{\partial w_1x_1 + w_2x_2 + \dots w_nx_n}{\partial x_2}\dots \frac{\partial w_1x_1 + w_2x_2 + \dots w_nx_n}{\partial x_n})^T$
显然
$\frac{\partial y}{\partial \vec{x}} = (w_1,w_2,\dots,w_n)^T=\vec{w}$
这样我们得到了第一种形式的导数求法。

2. $y = x^T * w$

同理 $w_1x_1 + w_2x_2 + \dots w_nx_n$
实际上这个与上一种情况结果一样
$\frac{\partial y}{\partial \vec{x}} = (w_1,w_2,\dots,w_n)^T=\vec{w}$

2. $y = x^T * A_{nn} x$

这种二次型情况也比较常见，我们将二次型展开写可以得到
$\begin{aligned} y=&a_{11}x_1^2+a_{12}x_1x_2+\dots+a_{1n}x_1x_n + \\ & a_{21}x_2x_1+a_{22}x_2^2+\dots+a_{1n}x_1x_n +\\ & \vdots \\ & a_{n1}x_nx_1 + a_{n2}x_nx_2 + \dots + a_{nn}x_n^2 \end{aligned}$

$\frac{\partial y}{\partial x_1} = (2a_{11}x_1 +(a_{12}+a_{21})x_2+\dots+(a_{1n}+a_{n1})x_n)$ $\frac{\partial y}{\partial x_2} = ((a_{12}+a_{21})x_1 +2a_{22}x_2+\dots+(a_{2n}+a_{n2})x_n)$ $\frac{\partial y}{\partial x_n} = ((a_{1n}+a_{n1})x_1 +(a_{2n}+a_{n2})x_2+\dots+a_{nn}^2x_n)$
所以
$\frac{\partial y}{\partial \vec{x}} = \begin{pmatrix} 2a_{11} & a_{12} + a_{21} & \dots &a_{1n}+a_{n1}\\ a_{12}+a_{21}&2 a_{22} & \dots & a_{2n}+a_{n2}\\ \vdots& \vdots& \vdots & \vdots \\ a_{1n}+a_{n1}& a_{2n}+a_{n2} & & 2a_{nn} \end{pmatrix}\vec{x}$
实际上
$\begin{pmatrix} 2a_{11} & a_{12} + a_{21} & \dots &a_{1n}+a_{n1}\\ a_{12}+a_{21}& a_{22} & \dots & a_{2n}+a_{n2}\\ \vdots& \vdots& \vdots & \vdots \\ a_{1n}+a_{n1}& a_{2n}+a_{n2} & & 2a_{nn} \end{pmatrix}=\begin{pmatrix} a_{11}+a_{11} & a_{12} + a_{21} & \dots &a_{1n}+a_{n1}\\ a_{12}+a_{21}& a_{22}+a_{22} & \dots & a_{2n}+a_{n2}\\ \vdots& \vdots& \vdots & \vdots \\ a_{1n}+a_{n1}& a_{2n}+a_{n2} & & a_{nn}+a_{nn} \end{pmatrix}=A^T + A$
故可以得到 $\frac{\partial y}{\partial \vec{x}} = (A^T+A)\vec{x}$

我们来看前一篇文章中的一个求导。
$w^T\tilde{R}w+\lambda[w^Ta(\theta_d)-1]$
式中 $L$ 为一个标量， $w=(w_1,w_2,\dots,w_n)^T$ , $R$ 为一个实对称矩阵。
要求 $\frac{\partial L(w)}{\partial w}$
分成两部分
$\frac{\partial (w^TRw)}{\partial w}=(R^T+R)w=2Rw$
$\frac{\partial (w^Ta(\theta_d)-1)}{\partial w}=a(\theta_d)$
故最终结果
$\frac{\partial L(w)}{\partial w}=2\tilde{R}w+\lambda a(\theta_d)$

总结

主要介绍了常见的几种标量对向量求导，实际上在数字信号处理中和深度学习中，对向量求导很常见。后面有时间继续写。

七味老友

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
矩阵求导（标量对矢量求导）

文章目录前言一、标量对向量求导二、例子1.y=wT∗xy = w^T*xy=wT∗x2.y=xT∗wy = x^T * wy=xT∗w2.y=xT∗An∗n∗xy = x^T * A_{n*n} * xy=xT∗An∗n∗x总结前言矩阵求导的学习记录一、标量对向量求导标量对向量求导，实际上是标量对向量中的每个元素求偏导，然后再组成一个和向量形状相同的向量。也就是：∂y∂x⃗=(∂y∂x1,∂y∂x2…∂y∂xn)T\frac{\partial y}{\partial \vec{x}} = (
复制链接

扫一扫