机器学习——线性模型

1. 基本形式

给定有 d d d个属性的示例 x = ( x 1 ; x 2 ; . . . ; x d ) x=(x_1;x_2;...;x_d) x=(x1;x2;...;xd),其中 x i x_i xi x x x的第 i i i个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行预测的函数,即: f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b

2. 线性回归

给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} D={(x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y i ∈ R x_i=(x_{i1};x_{i2};...;x_{id}),y_i∈\mathbb{R} xi=(xi1;xi2;...;xid),yiR。线性回归试图学得一个线性模型以预测实值输出标记

2.1 一元线性回归

对于一元线性回归,考虑 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),则: y i ≈ w 0 + w 1 x i = w ^ T x i ^ y_i≈w_0+w_1x_i=\hat{w}^T\hat{x_i} yiw0+w1xi=w^Txi^其中 w ^ = ( w 0 ; w 1 ) , x i ^ = ( 1 ; x i ) \hat{w}=(w_0;w_1),\hat{x_i}=(1;x_i) w^=(w0;w1),xi^=(1;xi)

优化目标 arg min ⁡ f L ( f ) = 1 n ∑ i ( y i − f ( x i ) ) 2 \argmin\limits_{f}ℒ(f)=\frac{1}{n}\sum\limits_i(y_i-f(x_i))^2 fargminL(f)=n1i(yif(xi))2 f ( x ) = w ^ T x ^ f(x)=\hat{w}^T\hat{x} f(x)=w^Tx^代入: arg min ⁡ w ^ L ( w ^ ) = 1 n ∑ i ( y i − w ^ T x i ^ ) 2 \argmin\limits_{\hat{w}}ℒ(\hat{w})=\frac{1}{n}\sum\limits_i(y_i-\hat{w}^T\hat{x_i})^2 w^argminL(w^)=n1i(yiw^Txi^)2求解结果 w 1 ∗ = x y ‾ − x ‾ ⋅ y ‾ x 2 ‾ − ( x ‾ ) 2 , w 0 ∗ = y ‾ − w 1 ∗ x ‾ w_1^*=\frac{\overline{xy}-\overline{x}·\overline{y}}{\overline{x^2}-(\overline{x})^2}, \quad w_0^*=\overline{y}-w_1^*\overline{x} w1=x2(x)2xyxy,w0=yw1x其中, x ‾ = 1 n ∑ i = 1 n x i , y ‾ = 1 n ∑ i = 1 n y i , x y ‾ = 1 n ∑ i = 1 n x i y i , x 2 ‾ = 1 n ∑ i = 1 n x i 2 \overline{x}=\frac{1}{n}\sum\limits_{i=1}^nx_i,\overline{y}=\frac{1}{n}\sum\limits_{i=1}^ny_i,\overline{xy}=\frac{1}{n}\sum\limits_{i=1}^nx_iy_i,\overline{x^2}=\frac{1}{n}\sum\limits_{i=1}^nx_i^2 x=n1i=1nxi,y=n1i=1nyi,xy=n1i=1nxiyi,x2=n1i=1nxi2

  • 线性回归算法学习了一条直线(也就是两个参数 w 0 w_0 w0 w 1 w_1 w1);
  • 线性回归的效果取决于数据本身的分布。

2.2 多元线性回归

对于多元线性回归,考虑 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),则: y i ≈ w 0 + ( w 1 , w 2 , . . . , w d ) ( x i 1 x i 2 ⋮ x i d ) = w ^ T x i ^ y_i≈w_0+(w_1,w_2,...,w_d)\begin{pmatrix} x_{i1}\\ x_{i2}\\ \vdots\\ x_{id}\\ \end{pmatrix}=\hat{w}^T\hat{x_i} yiw0+(w1,w2,...,wd)xi1xi2xid=w^Txi^其中 w ^ = ( w 0 ; w 1 ; . . . ; w d ) , x i ^ = ( 1 ; x i 1 ; . . . ; x i d ) \hat{w}=(w_0;w_1;...;w_d),\hat{x_i}=(1;x_{i1};...;x_{id}) w^=(w0;w1;...;wd),xi^=(1;xi1;...;xid)

优化目标 arg min ⁡ f L ( f ) = 1 n ∑ i ( y i − f ( x i ) ) 2 \argmin\limits_{f}ℒ(f)=\frac{1}{n}\sum\limits_i(y_i-f(x_i))^2 fargminL(f)=n1i(yif(xi))2 f ( x ) = w ^ T x ^ f(x)=\hat{w}^T\hat{x} f(x)=w^Tx^代入: arg min ⁡ w ^ L ( w ^ ) = 1 n ∑ i ( y i − w ^ T x i ^ ) 2 = ∣ ∣ y − X w ^ ∣ ∣ 2 2 = ( y − X w ^ ) T ( y − X w ^ ) \argmin\limits_{\hat{w}}ℒ(\hat{w})=\frac{1}{n}\sum\limits_i(y_i-\hat{w}^T\hat{x_i})^2\\=||y-X\hat{w}||_2^2=(y-X\hat{w})^T(y-X\hat{w}) w^argminL(w^)=n1i(yiw^Txi^)2=yXw^22=(yXw^)T(yXw^)其中, y = ( y 1 , y 2 , . . . , y n ) T , X = ( x 1 ^ T x 2 ^ T ⋮ x n ^ T ) = ( 1 x 11 x 12 ⋯ x 1 d 1 x 21 x 22 ⋯ x 2 d ⋮ ⋮ ⋮ ⋱ ⋮ 1 x n 1 x n 2 ⋯ x n d ) ∈ R n × ( d + 1 ) y=(y_1,y_2,...,y_n)^T,X=\begin{pmatrix} \hat{x_{1}}^T\\ \hat{x_{2}}^T\\ \vdots\\ \hat{x_{n}}^T\\ \end{pmatrix}=\begin{pmatrix} 1&x_{11}&x_{12}&\cdots&x_{1d}\\ 1&x_{21}&x_{22}&\cdots&x_{2d}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 1&x_{n1}&x_{n2}&\cdots&x_{nd}\\ \end{pmatrix}∈\mathbb{R}^{n×(d+1)} y=(y1,y2,...,yn)T,X=x1^Tx2^Txn^T=111x11x21xn1x12x22xn2x1dx2dxndRn×(d+1)
求解结果 w ∗ ^ = ( X T X ) − 1 X T y \hat{w^*}=(X^TX)^{-1}X^Ty w^=(XTX)1XTy

  • X T X X^TX XTX满秩或正定,则 w ∗ ^ = ( X T X ) − 1 X T y \hat{w^*}=(X^TX)^{-1}X^Ty w^=(XTX)1XTy
  • X T X X^TX XTX不满秩,则可解出多个 w ^ \hat{w} w^,此时需求助于归纳偏好,或引入正则化

正定矩阵:矩阵 A n × n A_{n×n} An×n是正定矩阵,当且仅当对于任意非零向量 x n × 1 x_{n×1} xn×1 x T A x > 0 x^TAx>0 xTAx>0恒成立。

2.3 最小二乘法和极大似然法求解线性回归

假设变量 y i y_i yi和变量 x i x_i xi满足: y i = w ^ T x i ^ + ϵ i y_i=\hat{w}^T\hat{x_i}+\epsilon_i yi=w^Txi^+ϵi其中误差 ϵ i ∽ N ( 0 , σ 2 ) \epsilon_i∽N(0,\sigma^2) ϵiN(0,σ2),即 p ( ϵ i ) = 1 2 π σ e x p ( − ( ϵ i ) 2 2 σ 2 ) p(\epsilon_i)=\frac{1}{\sqrt{2π}\sigma}exp(-\frac{(\epsilon_i)^2}{2\sigma^2}) p(ϵi)=2π σ1exp(2σ2(ϵi)2)
概率: p ( y i ∣ x i ^ ; w ^ ) = 1 2 π σ e x p ( − ( y i − w ^ T x i ^ ) 2 2 σ 2 ) p(y_i|\hat{x_i};\hat{w})=\frac{1}{\sqrt{2π}\sigma}exp(-\frac{(y_i-\hat{w}^T\hat{x_i})^2}{2\sigma^2}) p(yixi^;w^)=2π σ1exp(2σ2(yiw^Txi^)2)可以看作是输出变量 y i y_i yi关于输入变量 x i ^ \hat{x_i} xi^和固定参数 w ^ \hat{w} w^的函数,也可以看作是已知变量 y i y_i yi和变量 x i ^ \hat{x_i} xi^的前提下关于参数 w ^ \hat{w} w^的函数,即似然函数
在这里插入图片描述

2.3.1 极大似然法

假设所有数据独立同分布,则: L ( w ^ ) = ∏ i = 1 m L i ( w ^ ) = ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) ℒ(\hat{w})=\prod\limits_{i=1}^mℒ_i(\hat{w})=\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w}) L(w^)=i=1mLi(w^)=i=1mp(yixi^;w^)极大似然法优化目标: arg max ⁡ w ^ L ( w ^ ) = arg max ⁡ w ^ ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) \argmax\limits_{\hat{w}}ℒ(\hat{w})=\argmax\limits_{\hat{w}}\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w}) w^argmaxL(w^)=w^argmaxi=1mp(yixi^;w^)考虑对数似然函数: ℓ ( w ^ ) = ln ⁡ L ( w ^ ) = ln ⁡ ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) = ∑ i = 1 n ln ⁡ p ( y i ∣ x i ^ ; w ^ ) = n ⋅ ln ⁡ 1 2 π σ − 1 2 σ 2 ∑ i = 1 n ( y i − w ^ T x i ^ ) 2 \ell(\hat{w})=\lnℒ(\hat{w})=\ln\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})\\=\sum\limits_{i=1}^n\ln p(y_i|\hat{x_i};\hat{w})=n·\ln\frac{1}{\sqrt{2π}\sigma}-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2 (w^)=lnL(w^)=lni=1mp(yixi^;w^)=i=1nlnp(yixi^;w^)=nln2π σ12σ21i=1n(yiw^Txi^)2因此: arg max ⁡ w ^ ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ )    ⟺    arg min ⁡ w ^ ∑ i = 1 n ( y i − w ^ T x i ^ ) 2 \argmax\limits_{\hat{w}}\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})\iff\argmin\limits_{\hat{w}}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2 w^argmaxi=1mp(yixi^;w^)w^argmini=1n(yiw^Txi^)2

为何使用对数似然函数?

  • 对数函数单调递增,不会改变原有似然函数的极大值点;
  • 对常见的概率分布取对数后再求导来求最大值可以简化运算。

2.3.2 最小二乘法

最小二乘法 arg min ⁡ f 1 n ∑ i ( y i − f ( x i ) ) 2    ⟺    arg min ⁡ w ^ 1 n ∑ i = 1 n ( y i − w ^ T x i ^ ) 2 \argmin\limits_f\frac{1}{n}\sum_i(y_i-f(x_i))^2\iff\argmin\limits_{\hat{w}}\frac{1}{n}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2 fargminn1i(yif(xi))2w^argminn1i=1n(yiw^Txi^)2其中 f ( x ) = w T x + b = w ^ T x ^ f(x)=w^Tx+b=\hat{w}^T\hat{x} f(x)=wTx+b=w^Tx^
极大似然法 arg max ⁡ p ln ⁡ ∏ i = 1 n p ( y i ∣ x i )    ⟺    arg min ⁡ w ^ ∑ i = 1 n ( y i − w ^ T x i ^ ) 2 \argmax\limits_p\ln\prod\limits_{i=1}^np(y_i|x_i)\iff\argmin\limits_{\hat{w}}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2 pargmaxlni=1np(yixi)w^argmini=1n(yiw^Txi^)2其中 p ( y i ∣ x i ) = 1 2 π σ exp ⁡ ( − ( y i − w ^ T x ) 2 2 σ 2 ) p(y_i|x_i)=\frac{1}{\sqrt{2π}\sigma}\exp(-\frac{(y_i-\hat{w}^Tx)^2}{2\sigma^2}) p(yixi)=2π σ1exp(2σ2(yiw^Tx)2)

f f f是线性函数, p p p服从高斯分布时,两个模型等价!!!

2.4 广义线性模型

线性回归模型: y = w T x + b y=w^Tx+b y=wTx+b考虑单调可微函数 g ( ⋅ ) g(·) g(),令: g ( y ) = w T x + b g(y)=w^Tx+b g(y)=wTx+b y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g1(wTx+b)得到的模型称为广义线性模型,其中 g g g称为联系函数

例如, g ( ⋅ ) = ln ⁡ ( ⋅ ) g(·)=\ln(·) g()=ln()时就是对数线性回归。

3. 逻辑回归(对数几率回归)

逻辑回归用于分类任务,规定直线上方的点为正样本,直线下方的点为负样本。
基本分类思想:当 x x x为正类样本, f ( x ) > 0 f(x)>0 f(x)>0,当 x x x为负类样本, f ( x ) < 0 f(x)<0 f(x)<0

问题:线性分类器 f ( x ) f(x) f(x)的输出是连续实值,即 [ − ∞ , + ∞ ] [-∞,+∞] [,+],而样本标签为离散值,如何对应?
答:通过联系函数解决(广义线性模型)。

3.1 单位阶跃函数or对数几率函数?

在这里插入图片描述
单位阶跃函数(unit-step function) g ( z ) = { 0 z < 0 0.5 z = 0 1 z > 0 g(z) = \begin{cases} 0 & z<0 \\ 0.5 & z=0 \\ 1 & z>0 \end{cases} g(z)=00.51z<0z=0z>0
特点:不连续,影响后期求解。
对数几率函数(logistic function) g ( z ) = 1 1 + e − z , z ∈ R g(z)=\frac{1}{1+e^{-z}},z∈\mathbb{R} g(z)=1+ez1,zR特点:单调可微,任意阶可导,且一阶导数为 g ′ = g ( 1 − g ) g'=g(1-g) g=g(1g)。容易得到 g ( + ∞ ) = 1 , g ( 0 ) = 0.5 , g ( − ∞ ) = 0 g(+∞)=1,g(0)=0.5,g(-∞)=0 g(+)=1,g(0)=0.5,g()=0,因此它将 z z z值转化为一个接近0或1的值,并且在 z = 0 z=0 z=0附近变化很陡。

3.2 逻辑回归模型

逻辑回归用于分类问题,常用均方误差作为分类损失函数,定义如下: L ( w ^ ) = 1 n ∑ i = 1 n ∣ ∣ y i − g ( f ( x ) ) ∣ ∣ 2 2 = 1 n ∑ i = 1 n ∣ ∣ y i − 1 1 + e − ( w ^ T x i ^ ) ∣ ∣ 2 2 ℒ(\hat{w})=\frac{1}{n}\sum\limits_{i=1}^n||y_i-g(f(x))||_2^2=\frac{1}{n}\sum\limits_{i=1}^n||y_i-\frac{1}{1+e^{-(\hat{w}^T\hat{x_i})}}||_2^2 L(w^)=n1i=1nyig(f(x))22=n1i=1nyi1+e(w^Txi^)122因此逻辑回归模型定义为: min ⁡ w L ( w ^ ) = min ⁡ w 1 n ∑ i = 1 n ∣ ∣ y i − 1 1 + e − ( w ^ T x i ^ ) ∣ ∣ 2 2 \min\limits_wℒ(\hat{w})=\min\limits_w\frac{1}{n}\sum\limits_{i=1}^n||y_i-\frac{1}{1+e^{-(\hat{w}^T\hat{x_i})}}||_2^2 wminL(w^)=wminn1i=1nyi1+e(w^Txi^)122

有问题吗?有问题!

  • 该模型是非凸问题,存在多个局部最优解,求解全局最优十分困难,甚至没有全局最优;
  • 类别标签本身就是符号,在数值上没有任何意义。

观察线性分类器 f ( x ) f(x) f(x)与对数几率函数 g ( f ( x ) ) g(f(x)) g(f(x))

  • f ( x ) f(x) f(x)的值有一定的物理意义;
  • f ( x ) f(x) f(x) g ( f ( x ) ) g(f(x)) g(f(x))单调性一致;
  • g ( f ( x ) ) ∈ [ 0 , 1 ] g(f(x))∈[0,1] g(f(x))[0,1],与概率取值范围一致。

因此,大胆假设 g ( f ( x ) ) g(f(x)) g(f(x))为样本 x x x属于正类的概率,让 g ( f ( x ) ) g(f(x)) g(f(x))隐性关联标签 p ( y = 1 ∣ x ) = g ( f ( x ) ) p(y=1|x)=g(f(x)) p(y=1x)=g(f(x))。至此,我们又可以考虑使用极大似然法。

3.2.1 极大似然法构建模型

已知 g ( f ( x ) ) = 1 1 + e − f ( x ) g(f(x))=\frac{1}{1+e^{-f(x)}} g(f(x))=1+ef(x)1,因此对于正类样本,应当最大化概率: p 1 ( x i ^ ; w ^ ) = p ( y i = 1 ∣ x i ^ ) = g ( f ( x i ) ) = 1 1 + e − w ^ T x i ^ = e w ^ T x i ^ 1 + e w ^ T x i ^ p_1(\hat{x_i};\hat{w})=p(y_i=1|\hat{x_i})=g(f(x_i))=\frac{1}{1+e^{-\hat{w}^T\hat{x_i}}}=\frac{e^{\hat{w}^T\hat{x_i}}}{1+e^{\hat{w}^T\hat{x_i}}} p1(xi^;w^)=p(yi=1xi^)=g(f(xi))=1+ew^Txi^1=1+ew^Txi^ew^Txi^对于负类样本,应当最大化概率: p 0 ( x i ^ ; w ^ ) = p ( y i = 0 ∣ x i ^ ) = 1 − g ( f ( x i ) ) = e − w ^ T x i ^ 1 + e − w ^ T x i ^ = 1 1 + e w ^ T x i ^ p_0(\hat{x_i};\hat{w})=p(y_i=0|\hat{x_i})=1-g(f(x_i))=\frac{e^{-\hat{w}^T\hat{x_i}}}{1+e^{-\hat{w}^T\hat{x_i}}}=\frac{1}{1+e^{\hat{w}^T\hat{x_i}}} p0(xi^;w^)=p(yi=0xi^)=1g(f(xi))=1+ew^Txi^ew^Txi^=1+ew^Txi^1也就是最大化下式: p ( y i ∣ x i ^ ; w ^ ) = [ p 1 ( x i ^ ; w ^ ) ] y i [ p 0 ( x i ^ ; w ^ ) ] ( 1 − y i ) p(y_i|\hat{x_i};\hat{w})=[p_1(\hat{x_i};\hat{w})]^{y_i}[p_0(\hat{x_i};\hat{w})]^{(1-y_i)} p(yixi^;w^)=[p1(xi^;w^)]yi[p0(xi^;w^)](1yi)独立同分布假设下,训练样本关于标签的联合概率函数: p ( { y i } i = 1 n ∣ { x i } i = 1 n ; w ^ ) = ∏ i = 1 n p ( y i ∣ x i ^ ; w ^ ) p(\{y_i\}_{i=1}^n|\{x_i\}_{i=1}^n;\hat{w})=\prod\limits_{i=1}^np(y_i|\hat{x_i};\hat{w}) p({yi}i=1n{xi}i=1n;w^)=i=1np(yixi^;w^)考虑联合概率函数的对数似然函数作为目标函数: ℓ ( w ^ ) = ln ⁡ p ( { y i } i = 1 n ∣ { x i } i = 1 n ; w ^ ) = ∑ i = 1 n ( y i w ^ T x i ^ − ln ⁡ ( 1 + e w ^ T x i ^ ) ) \ell(\hat{w})=\ln p(\{y_i\}_{i=1}^n|\{x_i\}_{i=1}^n;\hat{w})=\sum\limits_{i=1}^n(y_i\hat{w}^T\hat{x_i}-\ln(1+e^{\hat{w}^T\hat{x_i}})) (w^)=lnp({yi}i=1n{xi}i=1n;w^)=i=1n(yiw^Txi^ln(1+ew^Txi^))逻辑回归模型 arg min ⁡ w ^ ℓ ( w ^ ) = ∑ i = 1 n ( ln ⁡ ( 1 + e w ^ T x i ^ ) − y i w ^ T x i ^ ) \argmin\limits_{\hat{w}}\ell(\hat{w})=\sum\limits_{i=1}^n(\ln(1+e^{\hat{w}^T\hat{x_i}})-y_i\hat{w}^T\hat{x_i}) w^argmin(w^)=i=1n(ln(1+ew^Txi^)yiw^Txi^)

这是一个无约束优化问题。

3.2.2 牛顿法和梯度下降法求解模型

有两种方法求解该优化问题:

  1. 牛顿法
  2. 梯度下降法
牛顿法

牛顿法,又称牛顿迭代法,对于难以求精确根的方程,可以采用该方法进行求根。
在这里插入图片描述
用牛顿迭代法求解非线性方程,是把非线性方程 f ( x ) = 0 f(x)=0 f(x)=0线性化的一种近似方法。把 f ( x ) f(x) f(x) x 0 x_0 x0的某邻域内展开为泰勒级数,取其线性部分(前两项),并令其等于0,即: f ( x 0 ) = f ′ ( x 0 ) ( x − x 0 ) = 0 f(x_0)=f'(x_0)(x-x_0)=0 f(x0)=f(x0)(xx0)=0以此作为非线性方程 f ( x ) = 0 f(x)=0 f(x)=0的近似方程。当 f ′ ( x 0 ) ≠ 0 f'(x_0)≠0 f(x0)=0时,得到: x 1 = x 0 − f ( x 0 ) f ′ ( x 0 ) x_1=x_0-\frac{f(x_0)}{f'(x_0)} x1=x0f(x0)f(x0)因此,牛顿迭代法的迭代关系式为 x n + 1 = x n − f ( x n ) f ′ ( x n ) x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)} xn+1=xnf(xn)f(xn)逻辑回归模型为: w ^ ∗ = arg min ⁡ w ^ ℓ ( w ^ ) \hat{w}^*=\argmin\limits_{\hat{w}}\ell(\hat{w}) w^=w^argmin(w^)因此非线性函数为 f ( w ^ ) = ℓ ′ ( w ^ ) = 0 f(\hat{w})=\ell'(\hat{w})=0 f(w^)=(w^)=0,因此迭代关系式为 w ^ n + 1 = w ^ n − f ( w ^ n ) f ′ ( w ^ n ) = w ^ n − ℓ ′ ( w ^ n ) ℓ ′ ′ ( w ^ n ) \hat{w}_{n+1}=\hat{w}_n-\frac{f(\hat{w}_n)}{f'(\hat{w}_n)}=\hat{w}_n-\frac{\ell'(\hat{w}_n)}{\ell''(\hat{w}_n)} w^n+1=w^nf(w^n)f(w^n)=w^n(w^n)(w^n)

梯度下降法

迭代关系式为: w ^ n + 1 = w ^ n − γ n ℓ ′ ( w ^ n ) \hat{w}_{n+1}=\hat{w}_n-\gamma_n\ell'(\hat{w}_n) w^n+1=w^nγn(w^n)

小结

注意:图中 L ′ L' L L ′ ′ L'' L实际表示 ℓ ′ \ell' ℓ ′ ′ \ell''

在这里插入图片描述在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值