矩阵求导
假设存在一个从矩阵到实数的映射:
f:Rm×n↦R
。对于矩阵A我们定义
f(A)
的导数如下(它是输入矩阵的梯度):
因此
∇Af(A)
也是一个
m×n
的矩阵。
假如,A到实数的映射
f:R2×2↦R为:f(A)=32A11+5A212+A21A22
因此可得:
引入“迹(trace)”,矩阵A的迹是它的主对角元素的和即:
trA=∑ni=1Aii
下面给出一些已经证明的事实:
trAB=trBAtrABC=trCBA=trBCAtrA=trATtr(A+B)=trA+trBtraA=atrA∇AtrAB=BT∇AtrABAAC=CAB+CTABTtra=a
进入主题
假设矩阵
X
是一个
令
y⃗
表示一个
m×1
的向量,用以标记每个
X中每个
样本的实际值(即
hθ(x(i))
)。
由
hθ(x(i))=(x(i))Tθ
,我们可得:
我们知道,对于向量z,有zTz=∑iz2i
,进而可得:
这就是我们的代价函数。
为了能使
J最小化,我们对它求关于θ偏导数:
令上面的导数为0最终得到等式:
XTXθ=XTy⃗
因此得到使得代价函数最小化的θ
θ=(XTX)−1XTy⃗