最小二乘法深入探讨

最新推荐文章于 2021-11-28 15:47:21 发布

zhouyelihua

最新推荐文章于 2021-11-28 15:47:21 发布

阅读量709

点赞数 1

分类专栏：数学算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhouyelihua/article/details/52677567

版权

数学同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

同步在在www.makecradle.com

在机器学习当中经常涉及到对能量方程，或者是目标函数进行优化的过程。可以用公式表示为：

m i n f (x)

$min \qquad f(x)$

s . t . c i (x) = 0, i = 1, . . ., m

$s.t.\qquad c_i(x)=0, i=1,...,m$

c i (x) > = 0, i = m, . . ., n

$\qquad\qquad c_i(x)>=0, i=m,...,n$

因为所有的优化问题都可以分为有约束的和无约束的，在无约束的优化问题中上面的公式有

n = 0

$n=0$
.同样的优化问题都可以转化为求最小值问题，求max的问题取其相反数即可。

最小二乘问题优化一般是通过模型的函数

f θ (x i)

$f_\theta(x_i)$ 与输出

y i

$y_i$ 的误差

其中最小二乘的意思就是对误差进行取平方所以最小二乘法的数学模型就是:

m i n \sum i = 1 m (f θ (x i) - y i) 2

$min\qquad \sum_{i=1}^m ( f_\theta(x_i)-y_i)^2$

最小二乘法就是通过计算得到

f θ (x i)

$f_\theta(x_i)$ 的一个参数模型

θ

$\theta$ 使得上述的误差达到最小。

当我们采用的是线性模型的时候，有：

f θ (x i) = \sum j = 1 b θ i ϕ i (x) = θ T ϕ (x i)

$f_\theta(x_i)=\sum_{j=1}^b\theta_i\phi_i(x)=\theta^T\phi(x_i)$

这个是通过把函数转化为向量乘积的形式便于计算，公式中基函数

ϕ (x)

$\phi(x)$ 一般可以分为两种情况：

1.幂函数

ϕ (x) = (1, x, x 2, x 3, . . .)

$\mathbf{\phi(x)}=(1,x,x^2,x^3,...)$

幂函数拟合的光滑性比较好，局部效果较好

2.正弦（余弦）函数

ϕ (x) = (1, sin x 2, cos x 2, sin 2 x 2, cos 2 x 2, . . .)

$\mathbf{\phi(x)}=(1,\sin\frac{x}{2},\cos\frac{x}{2},\sin\frac{2x}{2},\cos\frac{2x}{2},...)$

光滑性较差，但是全局性较好（特别是针对特殊问题）

那么上面提到的优化问题就转化为

J (θ) = 1 2 ∥ ϕ θ - y ∥ 2

$J(\mathbf{\theta})=\frac{1}{2}\|\mathbf{\phi}\mathbf{\theta}-\mathbf{y}\|^2$

那么问题就转化为矩阵的问题(注意上文中

ϕ (x i)

$\phi(x_i)$ 不同于

ϕ

$\phi$ )

其中

y = [y 1, y 2, . . ., y m] T

$\mathbf{y}=[y_1,y_2,...,y_m]^T$ 这个是我们的监督学习训练参数输出的n维向量，那么我们对上面的矩阵进行扩展可以得到以下公式

ϕ θ = ∣ ∣ ∣ ∣ ∣ ϕ (x 1) ⋮ ϕ (x m) ∣ ∣ ∣ ∣ ∣ θ = ∣ ∣ ∣ ∣ ∣ ϕ (x 11) ⋮ ϕ (x m 1) ϕ (x 12) ϕ (x m 2) \dots \dots ϕ (x 1 n) ϕ (x m n) ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣ ∣ ϕ (θ 1) ⋮ ϕ (θ n) ∣ ∣ ∣ ∣ ∣

$\mathbf{\phi}\mathbf{\theta}= \begin{vmatrix} \phi(x_1)&\\ \vdots&\\ \phi(x_m)&\\ \end{vmatrix} \mathbf{\theta}= \begin{vmatrix} \phi(x_{11})&\phi(x_{12})&\cdots&\phi(x_{1n})\\ \vdots&\\ \phi(x_{m1})&\phi(x_{m2})&\cdots&\phi(x_{mn})\\ \end{vmatrix} \begin{vmatrix} \phi(\theta_1)&\\ \vdots&\\ \phi(\theta_n)&\\ \end{vmatrix}$

在公式：

J (θ) = 1 2 ∥ ϕ θ - y ∥ 2

$J(\mathbf{\theta})=\frac{1}{2}\|\mathbf{\phi}\mathbf{\theta}-\mathbf{y}\|^2$
我们可以对该式子进行微分可以得到：

\partial J ( θ ) \partial θ = ϕ T ϕ θ - ϕ T y

$\frac{\partial J(\mathbf{\theta})}{\partial \theta}=\mathbf{\phi}^T\mathbf{\phi}\mathbf{\theta}-\mathbf{\phi^T\mathbf{y}}$

令：

\partial J ( θ ) \partial θ = 0

$\frac{\partial J(\mathbf{\theta})}{\partial \theta}=0$ 就可以得到最有方程的解

即

ϕ T ϕ θ = ϕ T y

$\mathbf{\phi}^T\mathbf{\phi}\mathbf{\theta}=\mathbf{\phi^T\mathbf{y}}$

θ = ϕ + y

$\theta=\mathbf{\phi}^{+}\mathbf{y}$

其中 $\mathbf{\phi}^{+}$ 为 $\mathbf{\phi}$ 的伪逆

问题转化为矩阵求伪逆的问题，但是由于矩阵中m很大，所以矩阵求伪逆问题也是一个大问题。

一般有以下几种：

1. 直接求伪逆（适合m不是很大的情况下）

ϕ + = (ϕ T ϕ) - 1 ϕ T

$\mathbf{\phi}^{+}=(\mathbf{\phi}^T\mathbf{\phi})^{-1}\mathbf{\phi}^T$

2. 采用svd的方法求解

2.1

[U, S, V] = s v d (ϕ)

$[U,S,V]=svd(\mathbf{\phi})$ ,其中(S是对角矩阵，U和V是正交矩阵)

2.2

ϕ + = V * S - 1 * U T

$\mathbf{\phi}^{+}=V*S^{-1}*U^T$

3.采用QR分解

3.1

[Q, R] = q r (ϕ)

$[Q,R]=qr(\mathbf{\phi})$ 其中（Q是正交矩阵，R是非奇异的上三角矩阵）

3.2

ϕ + = (R T * R) - 1 * R T * Q T

$\mathbf{\phi}^{+}=(R^T*R)^{-1}*R^T*Q^T$

4.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最小二乘法深入探讨

同步在在www.makecradle.com 在机器学习当中经常涉及到对能量方程，或者是目标函数进行优化的过程。可以用公式表示为： minf(x)min \qquad f(x)s.t.ci(x)=0,i=1,...,ms.t.\qquad c_i(x)=0, i=1,...,mci(x)>=0,i=m,...,n \qquad\qquad c_i(x)>=0, i=m,..
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。