函数的最佳逼近问题：最小二乘法

zfoox

已于 2022-09-23 22:32:54 修改

阅读量9k

点赞数 11

分类专栏： CV Math&Phys Numeric

于 2020-01-23 01:12:18 首次发布

本文链接：https://blog.csdn.net/xfijun/article/details/103723361

版权

CV 同时被 3 个专栏收录

31 篇文章

订阅专栏

Math&Phys

16 篇文章

订阅专栏

Numeric

10 篇文章

订阅专栏

本文深入探讨了最小二乘法的基本原理，涵盖最佳逼近问题、最佳平方逼近、最小二乘学习，以及如何应用于线性回归和周期函数逼近，详细解析了最小二乘法的数学推导和实际应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 最佳逼近问题

$\qquad$ 简单来说，最佳逼近问题就是用一些 (基)函数 $\varphi_{i}(\boldsymbol x),i\in \{0,1,\cdots,M\}$ 的线性组合来逼近某个函数 $f(\boldsymbol x)$ ，也就是定义

$\qquad\qquad$ $\varphi(\boldsymbol x)=\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(\boldsymbol x)=a_{0}\varphi_{0}(\boldsymbol x)+a_{1}\varphi_{1}(\boldsymbol x)+\cdots+a_{M}\varphi_{M}(\boldsymbol x)$

$\qquad$ 使得 $f(\boldsymbol x)$ 和 $\varphi(\boldsymbol x)$ 在某种(度量)意义下最小，常见的度量包括 $\ell_{1}$ 范数， $\ell_{2}$ 范数（最佳平方逼近）， $\ell_{\infty}$ 范数（最佳一致逼近）。

$\qquad$ 例如，多项式曲线拟合的基函数可以定义为 $\varphi_{n}(x)=x^{n}$ ，就有

$\qquad\qquad$ $\varphi(x)=\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(x)=a_{0}+a_{1}x+a_{2}x^{2}+\cdots+a_{M}x^{M}$

$\qquad$ 当 $f (x)$ 具有周期性质，可以采用三角多项式来逼近，就有

$\qquad\qquad$ $\varphi(x)=a_{0}+a_{1}\cos x+b_{1}\sin x+\cdots+a_{M}\cos (Mx)+b_{M}\sin(Mx)$

$\qquad$ 若基函数具有正交性，则会大大简化最佳逼近问题。
$\qquad$

2. 最佳平方(最小二乘)逼近

$\qquad$ 最佳平方逼近采用 $\ell_{2}$ 范数来度量 $f(\boldsymbol x)$ 和 $\varphi(\boldsymbol x)$ 之间接近程度。

$\qquad$ 函数 $f(\boldsymbol x)$ 的最佳逼近 $\varphi^{*}(\boldsymbol x)$ 满足：

$\qquad\qquad$ $\parallel f(\boldsymbol x)-\varphi^{*}(\boldsymbol x)\parallel_{2}^{2}=\min\parallel f(\boldsymbol x)-\varphi(\boldsymbol x)\parallel_{2}^{2}$

$\qquad$ 因此，可定义误差函数 $E(a_{0},\cdots,a_{M})$ 为：

$\qquad\qquad$ $\begin{aligned} E(a_{0},\cdots,a_{M})&=\parallel f(\boldsymbol x)-\varphi(\boldsymbol x)\parallel_{2}^{2}\\ &=\parallel f(\boldsymbol x)-\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(\boldsymbol x)\parallel_{2}^{2}\\ &=\int [ f(\boldsymbol x)-\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(\boldsymbol x) ]^2dx \end{aligned}$

$\qquad$ 此时，误差函数 $E(a_{0},\cdots,a_{M})$ 为系数 $(a_{0},\cdots,a_{M})$ 的二次函数，其取极值的必要条件为：

$\qquad\qquad$ $\begin{aligned} \dfrac{\partial E(a_{0},\cdots,a_{M})}{\partial a_{k}}&=0\qquad(k=0,1,\cdots,M)\\ \end{aligned}$

$\qquad$ 因此

$\qquad\qquad$ $\begin{aligned} \dfrac{\partial E(a_{0},\cdots,a_{M})}{\partial a_{k}}&=-2\int [ f(\boldsymbol x)-\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(\boldsymbol x) ]\varphi_{k}(\boldsymbol x)dx \\ &=0\qquad(k=0,1,\cdots,M)\\ \end{aligned}$

$\qquad$ 于是

$\qquad\qquad$ $\begin{aligned} \int f(\boldsymbol x)\varphi_{k}(\boldsymbol x)dx&=\int\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(\boldsymbol x) \varphi_{k}(\boldsymbol x)dx \\ &=\sum\limits_{n=0}^{M}a_{n}\int\varphi_{n}(\boldsymbol x) \varphi_{k}(\boldsymbol x)dx \\ \end{aligned}$

$\qquad$ 写成函数内积的形式：

$\qquad\qquad$ $(f,\varphi_{k})=\displaystyle\sum_{n=0}^{M}a_{n}(\varphi_{n},\varphi_{k})$

$\qquad$ 实际上是一个关于 $a_{0},\cdots,a_{M}$ 的线性方程组，称为法方程 $\text{(normal\ equation)}$ ：
$\qquad$

$\qquad\qquad$ $\left[\begin{matrix}(\varphi_{0},\varphi_{0})&(\varphi_{1},\varphi_{0})&\cdots&(\varphi_{M},\varphi_{0})\\ (\varphi_{0},\varphi_{1})&(\varphi_{1},\varphi_{1})&\cdots&(\varphi_{M},\varphi_{1})\\ \vdots&\vdots&\vdots&\vdots\\ (\varphi_{0},\varphi_{M})&(\varphi_{1},\varphi_{M})&\cdots&(\varphi_{M},\varphi_{M})\\ \end{matrix}\right] \left[\begin{matrix}a_{0}\\ a_{1}\\ \vdots\\ a_{M}\\ \end{matrix}\right]=\left[\begin{matrix}(f,\varphi_{0})\\ (f,\varphi_{1})\\ \vdots\\ (f,\varphi_{M})\\ \end{matrix}\right]\qquad(1)$

$\qquad$
$\qquad$ 求解该线性方程组，就可以得到系数 $(a_{0},\cdots,a_{M})$ 的值。

$\qquad$ 对于连续函数的内积，通常有：

$\qquad\qquad$ $(f,\varphi_{k})=\int_a^bf(x)\varphi_{k}(x)dx$

$\qquad$ 以及

$\qquad\qquad$ $(\varphi_{n},\varphi_{k})=\int_a^b\varphi_{n}(x)\varphi_{k}(x)dx$

$\qquad$

离散情况——以线性回归为例

$\qquad$ 离散情况时，以一维线性回归为例，已知观测样本集 $\{x_{i},y_{i}\}\big|_{0}^{N}$ ，要求出函数 $f (x)$ 的逼近函数：

$\qquad\qquad\varphi(x)=\sum\limits_{n=0}^{1}a_{n}\varphi_{n}(x)=a_{0}+a_{1}x$
$\qquad$ 在这里插入图片描述
$\qquad$ 上图中，线性回归关于每个观测点 $x_{i},y_{i})$ 的 $\ell_{2}$ 损失（平方误差）为： $[\varphi(x_i)-y_i]^2$

$\qquad$ 误差函数定义为“误差的平方之和”：

$\qquad\qquad$ $\begin{aligned}E(a_{0},a_{1})&=[\varphi(x_0)-y_0]^2+[\varphi(x_1)-y_1]^2+\cdots+[\varphi(x_N)-y_N]^2\\ &=\displaystyle\sum_{i=0}^{N}[\varphi(x_i)-y_i]^2\\ &=\displaystyle\sum_{i=0}^{N}(y_i-a_{0}-a_{1}x_i)^2 \end{aligned}$

$\qquad$ 通过求出系数 $a_{0},a_{1})$ 的值，用 $\varphi(x)\approx f(x)$ 。

对误差函数求 $a_{0}$ 的偏导：

$\qquad\qquad\dfrac{\partial E(a_0,a_1)}{\partial a_0} =2\displaystyle\sum_{i=0}^{N}(y_i-a_{0}-a_{1}x_i)(-1)=0$

$\qquad\qquad$ 可以写成： $\qquad a_0\sum\limits_{i=0}^{N}1+a_1\sum\limits_{i=0}^{N}x_i=\sum\limits_{i=0}^{N}y_i$

$\qquad\qquad\qquad\qquad\quad\Longrightarrow$ $\ a_0=\dfrac{1}{N}\displaystyle\sum_{i=0}^{N}(y_i-a_1x_i)$

对误差函数求 $a_{1}$ 的偏导：

$\qquad\qquad\dfrac{\partial E(a_0,a_1)}{\partial a_1} =2\displaystyle\sum_{i=0}^{N}(y_i-a_{0}-a_{1}x_i)(-x_i)=0$

$\qquad\qquad$ 可以写成： $\qquad a_0\sum\limits_{i=0}^{N}x_i+a_1\sum\limits_{i=0}^{N}x_i^2=\sum\limits_{i=0}^{N}y_ix_i$

$\qquad\qquad\qquad\qquad\quad\Longrightarrow$ $\ a_1=\dfrac{\sum\limits_{i=0}^{N}(y_i-a_0)x_i}{\sum\limits_{i=0}^{N}x_i^2}$

$\qquad\qquad$ 代入 $a_0$ ，可得到： $\ a_1=\dfrac{\sum\limits_{i=0}^{N}y_i\left(x_i-\frac{1}{N}\sum\limits_{i=0}^{N}x_i\right)}{\sum\limits_{i=0}^{N}x_i^2-\frac{1}{N}\left(\sum\limits_{i=0}^{N}x_i\right)^2}$

$\qquad\qquad$ 若记样本的均值为 $\bar x=\dfrac{1}{N}\sum\limits_{i=0}^{N}x_i$ ，则 $\ a_1=\dfrac{\sum\limits_{i=0}^{N}y_i\left(x_i-\bar x\right)}{\sum\limits_{i=0}^{N}x_i^2-N\bar x^2}$

$\qquad$ 这种求解，实际上就是求4.1节中的解线性方程组 $(1)$ 的过程。
$\qquad$

3. 最小二乘学习(离散情况的另一种描述)

$\qquad$ 如下图所示，已知观测样本集 $\{\boldsymbol x_{i},y_{i}\}\big|_{0}^{N}$ ，仍然采用线性模型：

$\qquad\qquad$ $\begin{aligned}\varphi(\boldsymbol x)&=\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(\boldsymbol x)\\ &=a_{0}\varphi_{0}(\boldsymbol x)+a_{1}\varphi_{1}(\boldsymbol x)+\cdots+a_{M}\varphi_{M}(\boldsymbol x)\\ &=\boldsymbol \theta^T\boldsymbol\phi(\boldsymbol x)=\boldsymbol\phi^T(\boldsymbol x)\boldsymbol \theta \end{aligned}$

$\qquad$ 其中， $\boldsymbol\theta=[a_0,a_1,\cdots,a_M]^T$ ，
$\qquad$ 　　　 $\boldsymbol\phi(\boldsymbol x)=[\varphi_0(\boldsymbol x),\varphi_1(\boldsymbol x),\cdots,\varphi_M(\boldsymbol x)]^T$

$\qquad$ 在这里插入图片描述
$\qquad$ 上图中，线性模型关于每个观测点 $(\boldsymbol x_{i},y_{i})$ 的 $\ell_{2}$ 损失（平方误差）为： $[\varphi(\boldsymbol x_i)-y_i]^2$

$\qquad$ 将“数据集所有观测点上的平方误差之和”设为损失函数 $\text{(loss\ function)}$ ：

$\qquad\qquad$ $\begin{aligned}J(\boldsymbol\theta)&=[\varphi(\boldsymbol x_0)-y_0]^2+[\varphi(\boldsymbol x_1)-y_1]^2+\cdots+[\varphi(\boldsymbol x_N)-y_N]^2\\ &=\displaystyle\sum_{i=0}^{N}[\varphi(\boldsymbol x_i)-y_i]^2\\ &=\displaystyle\sum_{i=0}^{N}[\boldsymbol \theta^T\boldsymbol\phi(\boldsymbol x_i)-y_i]^2\\ &=\parallel\Phi\boldsymbol\theta-\boldsymbol y \parallel_2^2\\ \end{aligned}$

$\qquad$ 其中， $\boldsymbol y=[y_0,y_1,\cdots,y_N]^T$

$\qquad$ 　　　 $\Phi=\left[\begin{matrix}\boldsymbol\phi(\boldsymbol x_0)^T\\ \boldsymbol\phi(\boldsymbol x_1)^T\\ \vdots\\ \boldsymbol\phi(\boldsymbol x_N)^T \end{matrix}\right]=\left[\begin{matrix}\varphi_0(\boldsymbol x_0)&\varphi_1(\boldsymbol x_0)&\cdots&\varphi_M(\boldsymbol x_0)\\ \varphi_0(\boldsymbol x_1)&\varphi_1(\boldsymbol x_1)&\cdots&\varphi_M(\boldsymbol x_1)\\ \vdots&\vdots&\ &\vdots \\ \varphi_0(\boldsymbol x_N)&\varphi_1(\boldsymbol x_N)&\cdots&\varphi_M(\boldsymbol x_N)\end{matrix}\right]$

$\qquad$
$\qquad\qquad$ 这里的 $\Phi$ 称为设计矩阵 $\text{(design\ matrix)}$ ，其元素为 $\Phi_{nm}=\varphi_m(\boldsymbol x_n)$
$\qquad$
$\qquad$ 损失函数 $J(\boldsymbol\theta)$ 对系数 $\boldsymbol\theta$ 求偏导：

$\qquad\qquad$ $\begin{aligned}\dfrac{\partial J(\boldsymbol\theta)}{\partial \boldsymbol\theta}&=2\Phi^T(\Phi\boldsymbol\theta-\boldsymbol y)=0 \end{aligned}$

$\qquad$ 可得到：

$\qquad\qquad$ $\Phi^T\Phi\boldsymbol\theta=\Phi^T\boldsymbol y\qquad\qquad\ \ \ \ \ \ \ (2)$

$\qquad$ 显然，线性方程组（2）和（1）是等价的，可求得：

$\qquad\qquad$ $\boldsymbol\theta=(\Phi^T\Phi)^{-1}\Phi^T\boldsymbol y\qquad\qquad(3)$

线性方程组（1）和（2）的左端系数矩阵 $\Phi^T\Phi$ 存在是否可逆的问题，最小二乘解（3）是线性方程组（2）的解析解
在 $\Phi^T\Phi$ 不可逆或者观测数据集非常庞大的时候，求解析解的方式难以实现，需要采用梯度下降法之类的最优化算法来求取近似解

$\qquad$

最小二乘解的几何意义

$\qquad$ 最小二乘解的几何意义如下图描述：
在这里插入图片描述

From 《PRML》Fig 3.2

$\qquad$ 考虑线性方程组 $\Phi\boldsymbol\theta-\boldsymbol y=0$ ，可表示为：

$\qquad\qquad$ $[\boldsymbol\varphi_0,\boldsymbol\varphi_1,\boldsymbol\varphi_2,\cdots,\boldsymbol\varphi_M]\left[\begin{matrix}a_{0}\\ a_{1}\\ a_{2}\\ \vdots\\ a_{M}\\ \end{matrix}\right]=\boldsymbol y$

$\qquad$ 其中， $\boldsymbol\varphi_i=[\varphi_i(\boldsymbol x_0),\varphi_i(\boldsymbol x_1),\varphi_i(\boldsymbol x_2),\cdots,\varphi_i(\boldsymbol x_N)]^T$
$\qquad$ 　　　 $\boldsymbol y=[y_0,y_1,y_2,\cdots,y_N]^T$

$\qquad$ 图中的 $\mathcal S=C(\Phi)$ ，表示矩阵 $\Phi=[\boldsymbol\varphi_0,\boldsymbol\varphi_1,\boldsymbol\varphi_2,\cdots,\boldsymbol\varphi_M]$ 的列空间 $\text{(column\ space)}$ 。

如果 $\boldsymbol y \in \mathcal S$ ，线性方程组 $\Phi\boldsymbol\theta=\boldsymbol y$ 有唯一解
如果 $\boldsymbol y\notin \mathcal S$ ，线性方程组 $\Phi\boldsymbol\theta=\boldsymbol y$ 无解，只能到 $\mathcal S$ 中找一个最接近 $\boldsymbol y$ 的解，最小二乘解是指图中的 $\hat{\boldsymbol y}$ （在 $\ell_{2}$ 范数下 $\parallel \boldsymbol y-\hat{\boldsymbol y} \parallel_{2}^{2}$ 　的值最小， $\hat{\boldsymbol y}\in\mathcal S$ ）

4. 最小二乘法实现曲线拟合

4.1 线性回归(解方程组1)

$\qquad$ 以比较简单的曲线拟合问题为例，如果我们对于函数 $f (x)$ 的了解只有一个观测样本集 $\{(x_{i},y_{i})\}\big|_{0}^{N}$ ，如下图中绿色的 ‘+’ 所标记的这些数据点所示。

在这里插入图片描述

图1线性函数

$\qquad$ 曲线拟合的目标是：基于这些观测数据 $\{x_{i},y_{i}\}\big|_{0}^{N}$ ，用最佳平方逼近的方式来估计真实函数 $f (x)$ 的表达式，观测值满足 $y_i=f(x_i)+\varepsilon_i$ 。

$\qquad$ 令基函数为 $\varphi_{n}(x)=x^{n}$ ，则多项式函数逼近为：

$\qquad\qquad$ $\varphi(x)=\sum\limits_{n=0}^{M}a_{n}\varphi_{n}(x)=a_{0}+a_{1}x+a_{2}x^{2}+\cdots+a_{M}x^{M}$

$\qquad$ 通过求出系数 $(a_{0},\cdots,a_{M})$ 的值，用 $\varphi(x)\approx f(x)$ ，实际上就是计算： $(f,\varphi_{k})=\displaystyle\sum_{n=0}^{M}a_{n}(\varphi_{n},\varphi_{k})$

$\qquad$ 曲线拟合问题描述的是离散的情况。考虑图1中的线性拟合问题，只需要计算两个系数 $a_0$ 和 $a_1$ ，近似函数 $\varphi(x)=a_{0}\varphi_{0}(x)+a_{1}\varphi_{1}(x)=a_{0}+a_{1}x$ 。

$\qquad$ 也就是计算线性方程组的未知数 $a_0$ 和 $a_1$ ：

$\qquad\qquad$ $\left[\begin{matrix}(\varphi_{0},\varphi_{0})&(\varphi_{1},\varphi_{0})\\ (\varphi_{0},\varphi_{1})&(\varphi_{1},\varphi_{1})\\ \end{matrix}\right] \left[\begin{matrix}a_{0}\\ a_{1}\\ \end{matrix}\right]=\left[\begin{matrix}(f,\varphi_{0})\\ (f,\varphi_{1})\\ \end{matrix}\right]$

$\qquad$ 其中， $\varphi_{0}(x)=1$ ， $\varphi_{1}(x)=x$ 。

$\qquad$ 对于观测样本集 $\{(x_{i},y_{i})\}\big|_{0}^{N}$ ，离散形式的内积为：

$\qquad\qquad$ $(f,\varphi_{k})=\displaystyle\sum_{i=0}^{N}y_i\varphi_{k}(x_i)=\begin{cases}\displaystyle\sum_{i=0}^{N}y_i &(k=0)\\ \displaystyle\sum_{i=0}^{N}y_ix_i &(k=1)\end{cases}$

$\qquad\qquad$ $(\varphi_{n},\varphi_{k})=\displaystyle\sum_{i=0}^{N}\varphi_{n}(x_i)\varphi_{k}(x_i)=\left\{\begin{matrix}\displaystyle\sum_{i=0}^{N}1 &(n=0,k=0)\\ \displaystyle\sum_{i=0}^{N}x_i &(n=0,k=1)\\ \displaystyle\sum_{i=0}^{N}x_i &(n=1,k=0)\\ \displaystyle\sum_{i=0}^{N}x_i^2 &(n=1,k=1)\end{matrix}\right.$

$\qquad$ 因此，线性方程组为（和第2节中的过程一样）：

$\qquad\qquad$ $\left[\begin{matrix}\sum\limits_{i=0}^{N}1&\sum\limits_{i=0}^{N}x_i\\ \sum\limits_{i=0}^{N}x_i&\sum\limits_{i=0}^{N}x_i^2\\ \end{matrix}\right] \left[\begin{matrix}a_{0}\\ a_{1}\\ \end{matrix}\right]=\left[\begin{matrix}\sum\limits_{i=0}^{N}y_i\\ \sum\limits_{i=0}^{N}y_ix_i\\ \end{matrix}\right]$

代码实现

import numpy as np
import matplotlib.pyplot as plt

def gen_lineardata(a,b,x):
    y = a*x + b
    y_noise = y + np.random.randn(len(x))*30
    return y, y_noise

def linear_regression(y_noise,x):
    a11 = len(x)
    a12 = np.sum(x)
    a22 = np.sum(np.power(x,2))
    f1 = np.sum(y_noise)
    f2 = np.sum(y_noise*x)
    coef = np.dot(np.linalg.inv(np.array([[a11,a12],[a12,a22]])),np.array([f1,f2]))
    return coef


if __name__ == '__main__':
    x = np.linspace(0,20,200)
    a = int(np.random.rand()*10)+1
    b = int(np.random.rand()*20)+1
    y, y_noise = gen_lineardata(a,b,x)
    plt.plot(x,y,'b')
    plt.plot(x,y_noise,'g+')
    
    coef = linear_regression(y_noise,x)
    a1 = coef[1]
    b1 = coef[0]
    print(coef)
    y1,y2 = gen_lineardata(a1,b1,x)
    plt.plot(x,y1,'r')
    plt.legend(labels=['original data','noise data','least-squares'],loc='upper left')
    plt.title('y='+str(a)+'x +'+str(b))
    plt.show()

某一次的实现结果：b=11.38812346, a=6.59033571（真实值为b=10,a=7）
在这里插入图片描述
$\qquad$ 线性回归的实现也可以采用解方程组（2）的方式（M=1）：

def linear_regression_approx(y_noise,x,M):
    design_matrix = np.asmatrix(np.ones(len(x))).T
    for i in range(1,M+1):
        arr = np.asmatrix(np.power(x,i)).T
        design_matrix  = np.concatenate((design_matrix ,arr),axis=1)
    
    coef = (design_matrix.T*design_matrix).I*(design_matrix.T*(np.asmatrix(y_noise).T))
    
    return np.asarray(coef)

$\quad$

4.2 梯度下降法实现线性回归

梯度下降法：

求误差函数 $E(\boldsymbol w)$ 关于参数 $\boldsymbol w$ 的梯度 $\nabla_{\boldsymbol w}E(\boldsymbol w)$

$\qquad$ 考虑训练集 ${x_i, y_i\}_{i=0}^{N-1}$ 上的线性回归问题：

$\qquad(1)$ 假设回归函数为 $y=w_0 x+w_1,\boldsymbol w=[w_0, w_1]^T$
$\qquad(2)$ 目标向量为 $\boldsymbol Y=[y_0, y_1,\cdots,y_{N-1}]^T$ ，输入样本为 $\boldsymbol X=\begin{bmatrix}x_0&x_1&\cdots& x_{N-1} \\1&1&\cdots&1\end{bmatrix}^T$

$\qquad(3)$ 误差函数为 $E(\boldsymbol w)=\frac{1}{N}\parallel \boldsymbol Y -\boldsymbol X\boldsymbol w\parallel_2^2=\frac{1}{N}(\boldsymbol Y -\boldsymbol X\boldsymbol w)^T(\boldsymbol Y -\boldsymbol X\boldsymbol w)$

$\qquad$ 可求得：
$\qquad\qquad\begin{aligned}\nabla_{\boldsymbol w}E(\boldsymbol w)&=\frac{1}{N}(-2\boldsymbol X^T\boldsymbol Y+2\boldsymbol X^T\boldsymbol X\boldsymbol w)\\ &=-\frac{2}{N}\boldsymbol X^T(\boldsymbol Y-\boldsymbol X\boldsymbol w)\end{aligned}$

更新参数 $\boldsymbol w^{(k+1)}=\boldsymbol w^{(k)}-\eta\nabla_{\boldsymbol w}E(\boldsymbol w)$ ，其中 $\eta$ 为学习率

$\qquad$ 因此，权向量的更新公式为：

$\qquad\qquad\boldsymbol w^{(k+1)}=\boldsymbol w^{(k)}+\eta \frac{2}{N}X^T(\boldsymbol Y-\boldsymbol X\boldsymbol w)$

实现代码：

import numpy as np
import matplotlib.pyplot as plt
def gen_lineardata(a,b,x):
    y = a*x + b
    y_noise = y + np.random.randn(len(x))*30
    return y, y_noise
def linear_regression_approx(y_noise,x,M):
    design_matrix = np.asmatrix(np.ones(len(x))).T
    for i in range(1,M+1):
        arr = np.asmatrix(np.power(x,i)).T
        design_matrix  = np.concatenate((design_matrix ,arr),axis=1)    
    coef = (design_matrix.T*design_matrix).I*(design_matrix.T*(np.asmatrix(y_noise).T))    
    return np.asarray(coef)
def Gradient_descent(y_noise,x,eta=0.001): #学习率过大会导致求解过程无法收敛
    w0 = np.random.randn(2,1)
    num = len(x)
    xhat = np.concatenate((x.reshape(-1,1),np.ones((num,1))), axis=1)
    while True:        
        err = 2*(y_noise.reshape(-1,1) - xhat.dot(w0))/num
    #    print(np.sum(np.abs(err)))
        w1 = w0 + eta*np.dot(xhat.T, err)
        if np.sum(np.abs(w1-w0))<0.00001:
            break
        w0 = w1.copy()
    return  w1
if __name__ == '__main__':
    x = np.linspace(0,20,200)
    a = int(np.random.rand()*10)+1
    b = int(np.random.rand()*20)+1
    y, y_noise = gen_lineardata(a,b,x)    
    plt.plot(x,y_noise,'g.')    
    coef1 = linear_regression_approx(y_noise,x,1)
    print(coef1)
    a1 = coef1[1]
    b1 = coef1[0]
    y1,y2 = gen_lineardata(a1,b1,x)
    plt.plot(x,y1,'r')
    coef2 = Gradient_descent(y_noise,x)
    print(coef2)
    a1 = coef2[0]
    b1 = coef2[1]
    y1,y2 = gen_lineardata(a1,b1,x)
    plt.plot(x,y1,'k')
    plt.legend(labels=['noise data','linear regressor','gradient descent'],loc='upper left')
    plt.title('y='+str(a)+'x +'+str(b))
    plt.show()

运行结果为
coef1: [[11.01307632]
　　　 [ 7.66747285]]　　　　　　梯度下降法
coef2: [[ 7.66886398]
　　　 [10.99451616]]　　　　　　公式（3）的解析解
　　　
在这里插入图片描述
$\qquad$

4.3 周期函数的逼近(解方程组2)

$\qquad$ 针对具有周期性质的数据集，更适合采用三角函数作为基函数，即采用公式：

$\qquad\qquad$ $\varphi(x)=a_{0}+a_{1}\cos x+b_{1}\sin x+\cdots+a_{M}\cos (Mx)+b_{M}\sin (Mx)$

$\qquad$ 根据公式（3）求出系数。

import numpy as np
import matplotlib.pyplot as plt

def gen_data(x):
    y = 2*np.sin(2*np.pi*x) + 3*np.cos(3*np.pi*x)
    y_noise = y + np.random.randn(len(x))
    return y, y_noise

def least_squares_approx(y_noise,x,M):
    
    design_matrix  = np.asmatrix(np.ones(len(x))).T
    for i in range(1,M+1):
        arr_sin = np.asmatrix(np.sin(i*x)).T
        design_matrix  = np.concatenate((design_matrix ,arr_sin),axis=1)
        arr_cos = np.asmatrix(np.cos(i*x)).T
        design_matrix  = np.concatenate((design_matrix ,arr_cos),axis=1)
    
    coef = (design_matrix.T*design_matrix).I*(design_matrix.T*(np.asmatrix(y_noise).T))
    return np.asarray(coef)

def approx_plot(coef,x,M):
    y = np.ones(len(x))*coef[0,0]
    for i in range(1,M+1):
        y = y + np.sin(i*x)*coef[2*i-1,0] + np.cos(i*x)*coef[2*i,0]

    plt.plot(x,y,'r')

if __name__ == '__main__':
    x = np.linspace(0,4,100)
    y, y_noise = gen_data(x)
    plt.plot(x,y,'b')
    plt.plot(x,y_noise,'g+')
    
    M = 8
    coef = least_squares_approx(y_noise,x,M)
    approx_plot(coef,x,M)
    plt.legend(labels=['original data','noise data','least square'],loc='upper left')
    plt.title('$y=2\sin(2\pi x)+3\cos(3\pi x)$')
    plt.show()

运行结果：
在这里插入图片描述