【线性代数】向量函数求偏导的推导过程

推导:计算 ∂ ∂ x ( a ⊤ x ) \frac{\partial}{\partial \mathbf{x}} (\mathbf{a}^\top \mathbf{x}) x(ax)

  1. 定义函数:我们定义函数 f ( x ) = a ⊤ x f(\mathbf{x}) = \mathbf{a}^\top \mathbf{x} f(x)=ax,其中 a \mathbf{a} a 是一个列向量,维度为 n × 1 n \times 1 n×1 x \mathbf{x} x 也是一个列向量,维度为 n × 1 n \times 1 n×1

  2. 展开表达式:将 a ⊤ x \mathbf{a}^\top \mathbf{x} ax 展开为矩阵乘法的形式:
    a ⊤ x = [ a 1 a 2 … a n ] [ x 1 x 2 ⋮ x n ] = a 1 x 1 + a 2 x 2 + … + a n x n \mathbf{a}^\top \mathbf{x} = \begin{bmatrix} a_1 & a_2 & \ldots & a_n \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix} = a_1 x_1 + a_2 x_2 + \ldots + a_n x_n ax=[a1a2an] x1x2xn =a1x1+a2x2++anxn

  3. 求偏导数:计算 f ( x ) f(\mathbf{x}) f(x) x \mathbf{x} x 的偏导数。
    ∂ ∂ x ( a ⊤ x ) = ∂ ∂ x ( a 1 x 1 + a 2 x 2 + … + a n x n ) \frac{\partial}{\partial \mathbf{x}} (\mathbf{a}^\top \mathbf{x}) = \frac{\partial}{\partial \mathbf{x}} (a_1 x_1 + a_2 x_2 + \ldots + a_n x_n) x(ax)=x(a1x1+a2x2++anxn)

  4. 分别求导:根据矢量微积分的规则,我们可以逐个求解 a i x i a_i x_i aixi 的偏导数,其中 i i i 表示向量的索引。

    ∂ ∂ x ( a 1 x 1 + a 2 x 2 + … + a n x n ) = [ ∂ ∂ x 1 ( a 1 x 1 + a 2 x 2 + … + a n x n ) ∂ ∂ x 2 ( a 1 x 1 + a 2 x 2 + … + a n x n ) ⋮ ∂ ∂ x n ( a 1 x 1 + a 2 x 2 + … + a n x n ) ] \frac{\partial}{\partial \mathbf{x}} (a_1 x_1 + a_2 x_2 + \ldots + a_n x_n) = \begin{bmatrix} \frac{\partial}{\partial x_1} (a_1 x_1 + a_2 x_2 + \ldots + a_n x_n) \\ \frac{\partial}{\partial x_2} (a_1 x_1 + a_2 x_2 + \ldots + a_n x_n) \\ \vdots \\ \frac{\partial}{\partial x_n} (a_1 x_1 + a_2 x_2 + \ldots + a_n x_n) \end{bmatrix} x(a1x1+a2x2++anxn)= x1(a1x1+a2x2++anxn)x2(a1x1+a2x2++anxn)xn(a1x1+a2x2++anxn)

  5. 求导结果:由于我们对 x i x_i xi 求导数时,除了与 x i x_i xi 相关的项以外的其他项都是常数,所以求导结果为:
    ∂ ∂ x i ( a 1 x 1 + a 2 x 2 + … + a n x n ) = a i \frac{\partial}{\partial x_i} (a_1 x_1 + a_2 x_2 + \ldots + a_n x_n) = a_i xi(a1x1+a2x2++anxn)=ai

  6. 综合结果:得到最终结果:
    ∂ ∂ x ( a ⊤ x ) = [ a 1 a 2 ⋮ a n ] = a \frac{\partial}{\partial \mathbf{x}} (\mathbf{a}^\top \mathbf{x}) = \begin{bmatrix} a_1 \\ a_2 \\ \vdots \\ a_n \end{bmatrix} = \mathbf{a} x(ax)= a1a2an =a

因此, ∂ ∂ x ( a ⊤ x ) \frac{\partial}{\partial \mathbf{x}} (\mathbf{a}^\top \mathbf{x}) x(ax) 的结果是列向量 a \mathbf{a} a


说明:
这里偏导数的求导结果是一个列向量,它的维度和分母(列向量x)一致。

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最小二乘法(Least Square Method)是一种数学优化方法,用于寻找一组参数,使得给定的一组数据点的残差平方和最小。在各个学科中,都有不同的理解和应用,下面分别用微积分、线性代数、概率统计课程的思路推导一遍最小二乘法。 1. 微积分课程的思路: 设模型函数为 $y=f(x;\theta)$,其中 $\theta = (\theta_1, \theta_2, ..., \theta_m)^T$ 是 $m$ 个参数的向量。给定 $n$ 个数据点 $(x_i, y_i)$,我们希望找到一组参数 $\hat{\theta}=(\hat{\theta}_1, \hat{\theta}_2, ..., \hat{\theta}_m)^T$,使得残差 $r_i = y_i - f(x_i; \hat{\theta})$ 的平方和最小。 令残差平方和为 $S = \sum_{i=1}^n r_i^2$,则优化问题可以表达为: $$\min_{\theta} S = \min_{\theta} \sum_{i=1}^n (y_i - f(x_i; \theta))^2.$$ 为了解最小二乘问题,需要对 $S$ 偏导数并令其等于零,得到: $$\frac{\partial S}{\partial \theta_j} = -2\sum_{i=1}^n r_i \frac{\partial f}{\partial \theta_j}(x_i; \theta) = 0, \ \ j=1,2,...,m,$$ 即: $$\sum_{i=1}^n r_i \frac{\partial f}{\partial \theta_j}(x_i; \hat{\theta}) = 0, \ \ j=1,2,...,m.$$ 这是一个 $m$ 元非线性方程组,可以用迭代法解。其中,每次迭代需要计算残差 $r_i$ 和函数的导数 $\frac{\partial f}{\partial \theta_j}(x_i; \theta)$。 2. 线性代数课程的思路: 将模型函数 $f(x; \theta)$ 写成参数向量 $\theta$ 和特征向量 $x$ 的线性组合,即: $$f(x; \theta) = \theta_1 x_1 + \theta_2 x_2 + ... + \theta_m x_m = x^T \theta,$$ 其中 $x=(x_1, x_2, ..., x_m)^T$。将 $n$ 个数据点表示为 $(x_1^T, y_1)^T, (x_2^T, y_2)^T, ..., (x_n^T, y_n)^T$,可以将它们表示为矩阵形式: $$X = \begin{bmatrix} x_1^T \\ x_2^T \\ \vdots \\ x_n^T \end{bmatrix}, \ \ Y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}.$$ 则优化问题可以表达为: $$\min_{\theta} \lVert Y - X\theta \rVert_2^2.$$ 该问题的解为 $\hat{\theta} = (X^TX)^{-1}X^TY$,其中 $(X^TX)^{-1}$ 表示 $X^TX$ 的逆矩阵。 3. 概率统计课程的思路: 假设模型函数 $f(x;\theta)$ 满足高斯分布的假设,即: $$y_i \sim N(f(x_i;\theta), \sigma^2),$$ 其中 $\sigma^2$ 是误差的方差。则对于一组观测数据点 $(x_i, y_i)$,其联合概率密度函数为: $$P(Y|X,\theta) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} \exp\left\{-\frac{(y_i - f(x_i;\theta))^2}{2\sigma^2}\right\}.$$ 最小二乘法可以看作是对参数向量 $\theta$ 的最大似然估计,即使得观测数据集的似然函数 $P(Y|X,\theta)$ 最大化。取对数后,可以得到最小二乘问题的等价问题: $$\min_{\theta} \frac{1}{2\sigma^2} \sum_{i=1}^n (y_i - f(x_i; \theta))^2,$$ 其中 $2\sigma^2$ 表示误差的方差。其解为 $\hat{\theta} = (X^TX)^{-1}X^TY$,与线性代数课程中的解相同。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值