矢量系列(一)

        最近在看Fundamentals of Statistical Signal Processing: Estimation Theory一书时,发现里面的许多公式都是通过矢量形式表达的。但当初学高数的时候老师并没有将矢量形式的公式作为重点讲解,后来学概率论时也都是标量形式的。因此为了补上这一环节,我将一些矢量公式的表达形式和证明写在这里。

        本篇博客是这个系列的第一篇,包括与矢量相关的简单概念与导数和微分。

1. 基本概念

1.1 n维实向量空间\textbf{R}^n

        我们知道,\textbf{R}表示所有实数构成的集合。现假设有两个集合\textbf{A}\textbf{B},那么可定义\textbf{A}\textbf{B}的乘积集合

\textbf{A}\times\textbf{B}=\{(x,y)|x\in \textbf{A},y\in \textbf{B}\}

也就是说,\textbf{A}\times\textbf{B}中的所有元素都是\textbf{A}\textbf{B}中元素的序偶数列

        我们定义\textbf{R}\times\textbf{R}=\textbf{R}^2,则\textbf{R}^2是一个由实数点组成的实平面。以此类推,我们可以得到n维实向量空间\textbf{R}^n。在\textbf{R}^n中,每一个元素都是长度为n的实向量。我们在\textbf{R}^n中定义向量的内积

<\textit{\textbf{x}},\textit{\textbf{y}}>=\sum_{i=1}^{n}x_iy_i

1.2 多元数量值函数

        对一个多元数量值函数f(x_1,x_2,...,x_n),我们可以将其自变量视为n维实向量空间\textbf{R}^n中的一个点\textit{\textbf{x}}。这样,f(\textit{\textbf{x}})的自变量是矢量,但f本身却是一个标量。

1.3 多元向量值函数

        让我们从一元向量值函数\textit{\textbf{f}}(x)开始。注意在表达上,这里加粗的是\textit{\textbf{f}},而不是x

        设有一元向量值函数\textit{\textbf{f}}:\textbf{R}\rightarrow \textbf{R}^m,其中

\textit{\textbf{f}}(x)=\begin{bmatrix} f_1(x)\\ f_2(x)\\ \vdots \\ f_m(x) \end{bmatrix}

f_i(x)都是一元数量值函数。可以发现,\textit{\textbf{f}}(x)的自变量是一个标量,但\textit{\textbf{f}}却是一个矢量。

        下面,我们来看多元向量值函数\textit{\textbf{f}}(\textit{\textbf{x}})。注意此处的\textit{\textbf{f}}\textit{\textbf{x}}都要加粗。

        设有多元向量值函数\textit{\textbf{f}}:\textbf{R}^n\rightarrow \textbf{R}^m ,其中

\textit{\textbf{f}}(x_1,x_2,...,x_n)=\begin{bmatrix} f_1(x_1,x_2,...,x_n)\\ f_2(x_1,x_2,...,x_n)\\ \vdots\\ f_m(x_1,x_2,...,x_n) \end{bmatrix}=\begin{bmatrix} f_1(\textit{\textbf{x}})\\ f_2(\textit{\textbf{x}})\\ \vdots\\ f_m(\textit{\textbf{x}}) \end{bmatrix}

f_i(x_1,x_2,...,x_n)都是n元数量值函数。可以发现,\textit{\textbf{f}}(\textit{\textbf{x}})的自变量是一个矢量,\textit{\textbf{f}}也是一个矢量。

2. 多元向量值函数的导数与微分

        通常在学习高数后,我们都能熟练地掌握多元数量值函数的导数与微分,也就是包括偏导数在内的一系列内容。其实多元向量值函数就是多个多元数量值函数的拼接,在求多元向量值函数的导数与微分时,我们只需要求多个多元数量值函数的导数与微分即可。但是,多元向量值函数的导数与微分中的公式是用向量和矩阵表示的,我们应当熟悉这些表示,方便之后更快地运用。

        我们还应注意一点,那就是数学中的向量一般是列向量,只有加上转置符号后才是行向量。

        对于多元向量值函数\textit{\textbf{f}},如果\textit{\textbf{f}}的每个分量f_i(数量值函数)都在\textit{\textbf{x}}_0=(x_{01},x_{02},...,x_{0n})^{\textrm{T}}\in \textbf{R}^n 处可微,则称\textit{\textbf{f}}\textit{\textbf{x}}_0处可微,也称\textit{\textbf{f}}\textit{\textbf{x}}_0处可导。将

\textrm{d}\textit{\textbf{f}}(\textit{\textbf{x}}_0)=\begin{bmatrix} \textrm{d}f_1(\textit{\textbf{x}}_0)\\ \textrm{d}f_2(\textit{\textbf{x}}_0)\\ \vdots\\ \textrm{d}f_m(\textit{\textbf{x}}_0) \end{bmatrix}=\begin{bmatrix} \frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_1}} & \frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_2}}& \cdots & \frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_n}}\\ \frac{\partial{f_2(\textit{\textbf{x}}_0)}}{\partial{x_1}} & \frac{\partial{f_2(\textit{\textbf{x}}_0)}}{\partial{x_2}}& \cdots & \frac{\partial{f_2(\textit{\textbf{x}}_0)}}{\partial{x_n}}\\ \vdots& \vdots& & \vdots\\ \frac{\partial{f_m(\textit{\textbf{x}}_0)}}{\partial{x_1}} & \frac{\partial{f_m(\textit{\textbf{x}}_0)}}{\partial{x_2}}& \cdots & \frac{\partial{f_m(\textit{\textbf{x}}_0)}}{\partial{x_n}} \end{bmatrix}\begin{bmatrix} \textrm{d}x_1\\ \textrm{d}x_2\\ \vdots\\ \textrm{d}x_n \end{bmatrix}

称为\textit{\textbf{f}}\textit{\textbf{x}}_0处的微分。注意最后一个等号的右侧是矩阵乘法的形式,其结果的第i行是

\sum_{k=1}^{n}\frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_k}}\textrm{d}x_i

我们将\textit{\textbf{f}}\textit{\textbf{x}}_0处的微分记作\textrm{d}\textit{\textbf{f}}(\textit{\textbf{x}}_0),则

\textrm{d}\textit{\textbf{f}}(\textit{\textbf{x}}_0)=A\textrm{d}\textit{\textbf{x}}

其中

A=\begin{bmatrix} \frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_1}} & \frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_2}}& \cdots & \frac{\partial{f_1(\textit{\textbf{x}}_0)}}{\partial{x_n}}\\ \frac{\partial{f_2(\textit{\textbf{x}}_0)}}{\partial{x_1}} & \frac{\partial{f_2(\textit{\textbf{x}}_0)}}{\partial{x_2}}& \cdots & \frac{\partial{f_2(\textit{\textbf{x}}_0)}}{\partial{x_n}}\\ \vdots& \vdots& & \vdots\\ \frac{\partial{f_m(\textit{\textbf{x}}_0)}}{\partial{x_1}} & \frac{\partial{f_m(\textit{\textbf{x}}_0)}}{\partial{x_2}}& \cdots & \frac{\partial{f_m(\textit{\textbf{x}}_0)}}{\partial{x_n}} \end{bmatrix}

\textrm{d}\textit{\textbf{x}}=\begin{bmatrix} \textrm{d}x_1\\ \textrm{d}x_2\\ \vdots\\ \textrm{d}x_n \end{bmatrix}

实际上,A就是\textit{\textbf{f}}\textit{\textbf{x}}_0处的导数,我们可以记作A=D\textit{\textbf{f}}(\textit{\textbf{x}}_0)。我们也称A\textit{\textbf{f}}\textit{\textbf{x}}_0处的雅可比(Jacobi)矩阵。

3. 微分运算法则

        本部分对多元向量值函数的微分运算常用法则进行说明与证明

3.1 定理1

        设向量值函数\textit{\textbf{f}}\textit{\textbf{g}}都在点\textit{\textbf{x}}_0处可微,u是在\textit{\textbf{x}}_0处可微的数量值函数,则有

        (1)\textit{\textbf{f}}+\textit{\textbf{g}}\textit{\textbf{x}}_0处可微,并且其导数为

\textrm{D}(\textit{\textbf{f}}+\textit{\textbf{g}})(\textit{\textbf{x}}_0)=\textrm{D}\textit{\textbf{f}}(\textit{\textbf{x}}_0)+\textrm{D}\textit{\textbf{g}}(\textit{\textbf{x}}_0)

        (2)<\textit{\textbf{f}},\textit{\textbf{g}}>\textit{\textbf{x}}_0处可微,并且其导数为

\textrm{D}<\textit{\textbf{f}},\textit{\textbf{g}}>(\textit{\textbf{x}}_0)=(\textit{\textbf{f}}(\textit{\textbf{x}}_0))^{T}\textrm{D}g(\textit{\textbf{x}}_0)+(\textit{\textbf{g}}(\textit{\textbf{x}}_0))^{T}\textrm{D}\textit{\textbf{f}}(\textit{\textbf{x}}_0)

        (3)u\textit{\textbf{f}}\textit{\textbf{x}}_0处可微,并且其导数为

\textrm{D}(u\textit{\textbf{f}})(\textit{\textbf{x}}_0)=u\textrm{D}\textit{\textbf{f}}(\textit{\textbf{x}}_0)+\textit{\textbf{f}}(\textit{\textbf{x}}_0)\textrm{D}u(\textit{\textbf{x}}_0)

        (4)若\textit{\textbf{f}}:\textbf{R}\rightarrow \textbf{R}^3,\textit{\textbf{g}}:\textbf{R}\rightarrow \textbf{R}^3,则向量积\textit{\textbf{f}}\times\textit{\textbf{g}}x_0处可微,并且其导数为

\textrm{D}(\textit{\textbf{f}}\times\textit{\textbf{g}})(x_0)=\textrm{D}\textit{\textbf{f}}(x_0)\times\textit{\textbf{g}}(x_0)+\textit{\textbf{f}}(x_0)\times \textrm{D}\textit{\textbf{g}}(x_0)

证明:

(1)设\textit{\textbf{f}}= (f_1,\cdots ,f_m)^{T}\textit{\textbf{g}}= (g_1,\cdots ,g_m)^{T},则

(\textit{\textbf{f}}+\textit{\textbf{g}})(\textit{\textbf{x}}_0)=\begin{bmatrix} (f_1+g_1)(\textit{\textbf{x}}_0)\\ (f_2+g_2)(\textit{\textbf{x}}_0)\\ \vdots\\ (f_m+g_m)(\textit{\textbf{x}}_0) \end{bmatrix}

由于对每一个元素(f_i+g_i)(\textit{\textbf{x}}_0),有\textrm{d}(f_i+g_i)(\textit{\textbf{x}}_0)=\textrm{d}f_i(\textit{\textbf{x}}_0)+\textrm{d}g_i(\textit{\textbf{x}}_0) ,故原式成立。

(2)设\textit{\textbf{f}}= (f_1,\cdots ,f_m)^{T}\textit{\textbf{g}}= (g_1,\cdots ,g_m)^{T},则标量函数

F=<\textit{\textbf{f}},\textit{\textbf{g}}>=\sum_{i=1}^{m}f_ig_i

\textit{\textbf{x}}_0处可微,且

\textrm{D}F(\textit{\textbf{x}}_0)=\textrm{D}(\sum_{i=1}^{m}f_ig_i)(\textit{\textbf{x}}_0)=\sum_{i=1}^{m}\textrm{D}(f_ig_i)(\textit{\textbf{x}}_0)=\sum_{i=1}^{m}\nabla (f_ig_i)(\textit{\textbf{x}}_0)

由梯度的运算性质

\begin{aligned} \textrm{D}F(\textit{\textbf{x}}_0)=&\sum_{i=1}^{m}[ f_i(\textit{\textbf{x}}_0)\nabla g_i(\textit{\textbf{x}}_0)+g_i(\textit{\textbf{x}}_0)\nabla f_i(\textit{\textbf{x}}_0)]\\=&[f_1(\textit{\textbf{x}}_0),f_2(\textit{\textbf{x}}_0),\cdots,f_m(\textit{\textbf{x}}_0)]\begin{bmatrix} \nabla g_1(\textit{\textbf{x}}_0)\\ \nabla g_2(\textit{\textbf{x}}_0)\\ \vdots\\ \nabla g_m(\textit{\textbf{x}}_0) \end{bmatrix} +[g_1(\textit{\textbf{x}}_0),g_2(\textit{\textbf{x}}_0),\cdots,g_m(\textit{\textbf{x}}_0)]\begin{bmatrix} \nabla f_1(\textit{\textbf{x}}_0)\\ \nabla f_2(\textit{\textbf{x}}_0)\\ \vdots\\ \nabla f_m(\textit{\textbf{x}}_0) \end{bmatrix}\\ =&(\textit{\textbf{f}}(\textit{\textbf{x}}_0))^{T}\textrm{D}\textit{\textbf{g}}(\textit{\textbf{x}}_0)+(\textit{\textbf{g}}(\textit{\textbf{x}}_0))^{T}\textrm{D}\textit{\textbf{f}}(\textit{\textbf{x}}_0) \end{aligned}

从这个公式的证明中,我们可以看到\textrm{D}与梯度\nabla的关系:\textrm{D}相当于\nabla的向量形式。标量的梯度是矢量,那么矢量的导数就应当是一个矩阵。

(3)与(2)类似,略。

(4)设\textit{\textbf{f}}= (f_1,f_2 ,f_3)^{T}\textit{\textbf{g}}= (g_1,g_2 ,g_3)^{T},则

\textit{\textbf{f}}\times\textit{\textbf{g}}=\begin{vmatrix} \textit{\textbf{i}} & \textit{\textbf{j}} &\textit{\textbf{k}} \\ f_1 & f_2 & f_3\\ g_1 & g_2 & g_3 \end{vmatrix}=\textit{\textbf{i}}(f_2g_3-f_3g_2)+\textit{\textbf{j}}(f_3g_1-f_1g_3)+\textit{\textbf{k}}(f_1g_2-f_2g_1)

由于\textit{\textbf{i}},\textit{\textbf{j}},\textit{\textbf{k}}都是单位矢量,对其求微分并不会影响结果。而且f_i,g_i都是一元函数,因此该定理最终的证明形式类似于一元函数的导数运算法则。

3.2 定理2

        向量值复合函数的求导也遵循链式法则。设\textit{\textbf{u}}=\textit{\textbf{g}}=(g_1,g_2,\cdots,g_p)^{T}在点\textit{\textbf{x}}_0\in\textbf{R}^n处可微,向量值函数\textit{\textbf{w}}=\textit{\textbf{f}}=(f_1,f_2,\cdots,f_m)^{T}在对应的点\textit{\textbf{u}}_0=\textit{\textbf{g}}(\textit{\textbf{x}}_0)\in \textbf{R}^p处可微,则复合函数\textit{\textbf{w}}=\textit{\textbf{f}}(\textit{\textbf{g}}(\textit{\textbf{x}}))在点\textit{\textbf{x}}_0处可微,且

\textrm{D}\textit{\textbf{w}}(\textit{\textbf{x}}_0)=\textrm{D}\textit{\textbf{f}}(\textit{\textbf{x}}_0)|_{\textit{\textbf{u}}_0=\textit{\textbf{g}}(\textit{\textbf{x}}_0)}\textrm{D\textit{\textbf{g}}}(\textit{\textbf{x}}_0)=\textrm{D}\textit{\textbf{f}}(\textit{\textbf{g}}(\textit{\textbf{x}}_0))\textrm{D}\textit{\textbf{g}}(\textit{\textbf{x}}_0)

根据定理中的设定,我们可以知道\textrm{D}\textit{\textbf{f}}(\textit{\textbf{u}}_0)是维度为m\times p的矩阵,\textrm{D}(\textit{\textbf{g}}(\textit{\textbf{x}}_0))是维度为p\times n的矩阵。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值