1. 基本形式
给定有 d d d个属性的示例 x = ( x 1 ; x 2 ; . . . ; x d ) x=(x_1;x_2;...;x_d) x=(x1;x2;...;xd),其中 x i x_i xi是 x x x的第 i i i个属性上的取值。线性模型试图学得一个通过属性的线性组合来进行预测的函数,即: f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+...+w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
2. 线性回归
给定数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) } D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\} D={(x1,y1),(x2,y2),...,(xm,ym)},其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y i ∈ R x_i=(x_{i1};x_{i2};...;x_{id}),y_i∈\mathbb{R} xi=(xi1;xi2;...;xid),yi∈R。线性回归试图学得一个线性模型以预测实值输出标记。
2.1 一元线性回归
对于一元线性回归,考虑 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),则: y i ≈ w 0 + w 1 x i = w ^ T x i ^ y_i≈w_0+w_1x_i=\hat{w}^T\hat{x_i} yi≈w0+w1xi=w^Txi^其中 w ^ = ( w 0 ; w 1 ) , x i ^ = ( 1 ; x i ) \hat{w}=(w_0;w_1),\hat{x_i}=(1;x_i) w^=(w0;w1),xi^=(1;xi)。
优化目标: arg min f L ( f ) = 1 n ∑ i ( y i − f ( x i ) ) 2 \argmin\limits_{f}ℒ(f)=\frac{1}{n}\sum\limits_i(y_i-f(x_i))^2 fargminL(f)=n1i∑(yi−f(xi))2将 f ( x ) = w ^ T x ^ f(x)=\hat{w}^T\hat{x} f(x)=w^Tx^代入: arg min w ^ L ( w ^ ) = 1 n ∑ i ( y i − w ^ T x i ^ ) 2 \argmin\limits_{\hat{w}}ℒ(\hat{w})=\frac{1}{n}\sum\limits_i(y_i-\hat{w}^T\hat{x_i})^2 w^argminL(w^)=n1i∑(yi−w^Txi^)2求解结果: w 1 ∗ = x y ‾ − x ‾ ⋅ y ‾ x 2 ‾ − ( x ‾ ) 2 , w 0 ∗ = y ‾ − w 1 ∗ x ‾ w_1^*=\frac{\overline{xy}-\overline{x}·\overline{y}}{\overline{x^2}-(\overline{x})^2}, \quad w_0^*=\overline{y}-w_1^*\overline{x} w1∗=x2−(x)2xy−x⋅y,w0∗=y−w1∗x其中, x ‾ = 1 n ∑ i = 1 n x i , y ‾ = 1 n ∑ i = 1 n y i , x y ‾ = 1 n ∑ i = 1 n x i y i , x 2 ‾ = 1 n ∑ i = 1 n x i 2 \overline{x}=\frac{1}{n}\sum\limits_{i=1}^nx_i,\overline{y}=\frac{1}{n}\sum\limits_{i=1}^ny_i,\overline{xy}=\frac{1}{n}\sum\limits_{i=1}^nx_iy_i,\overline{x^2}=\frac{1}{n}\sum\limits_{i=1}^nx_i^2 x=n1i=1∑nxi,y=n1i=1∑nyi,xy=n1i=1∑nxiyi,x2=n1i=1∑nxi2。
- 线性回归算法学习了一条直线(也就是两个参数 w 0 w_0 w0和 w 1 w_1 w1);
- 线性回归的效果取决于数据本身的分布。
2.2 多元线性回归
对于多元线性回归,考虑 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1};x_{i2};...;x_{id}) xi=(xi1;xi2;...;xid),则: y i ≈ w 0 + ( w 1 , w 2 , . . . , w d ) ( x i 1 x i 2 ⋮ x i d ) = w ^ T x i ^ y_i≈w_0+(w_1,w_2,...,w_d)\begin{pmatrix} x_{i1}\\ x_{i2}\\ \vdots\\ x_{id}\\ \end{pmatrix}=\hat{w}^T\hat{x_i} yi≈w0+(w1,w2,...,wd)⎝⎜⎜⎜⎛xi1xi2⋮xid⎠⎟⎟⎟⎞=w^Txi^其中 w ^ = ( w 0 ; w 1 ; . . . ; w d ) , x i ^ = ( 1 ; x i 1 ; . . . ; x i d ) \hat{w}=(w_0;w_1;...;w_d),\hat{x_i}=(1;x_{i1};...;x_{id}) w^=(w0;w1;...;wd),xi^=(1;xi1;...;xid)。
优化目标:
arg min
f
L
(
f
)
=
1
n
∑
i
(
y
i
−
f
(
x
i
)
)
2
\argmin\limits_{f}ℒ(f)=\frac{1}{n}\sum\limits_i(y_i-f(x_i))^2
fargminL(f)=n1i∑(yi−f(xi))2将
f
(
x
)
=
w
^
T
x
^
f(x)=\hat{w}^T\hat{x}
f(x)=w^Tx^代入:
arg min
w
^
L
(
w
^
)
=
1
n
∑
i
(
y
i
−
w
^
T
x
i
^
)
2
=
∣
∣
y
−
X
w
^
∣
∣
2
2
=
(
y
−
X
w
^
)
T
(
y
−
X
w
^
)
\argmin\limits_{\hat{w}}ℒ(\hat{w})=\frac{1}{n}\sum\limits_i(y_i-\hat{w}^T\hat{x_i})^2\\=||y-X\hat{w}||_2^2=(y-X\hat{w})^T(y-X\hat{w})
w^argminL(w^)=n1i∑(yi−w^Txi^)2=∣∣y−Xw^∣∣22=(y−Xw^)T(y−Xw^)其中,
y
=
(
y
1
,
y
2
,
.
.
.
,
y
n
)
T
,
X
=
(
x
1
^
T
x
2
^
T
⋮
x
n
^
T
)
=
(
1
x
11
x
12
⋯
x
1
d
1
x
21
x
22
⋯
x
2
d
⋮
⋮
⋮
⋱
⋮
1
x
n
1
x
n
2
⋯
x
n
d
)
∈
R
n
×
(
d
+
1
)
y=(y_1,y_2,...,y_n)^T,X=\begin{pmatrix} \hat{x_{1}}^T\\ \hat{x_{2}}^T\\ \vdots\\ \hat{x_{n}}^T\\ \end{pmatrix}=\begin{pmatrix} 1&x_{11}&x_{12}&\cdots&x_{1d}\\ 1&x_{21}&x_{22}&\cdots&x_{2d}\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 1&x_{n1}&x_{n2}&\cdots&x_{nd}\\ \end{pmatrix}∈\mathbb{R}^{n×(d+1)}
y=(y1,y2,...,yn)T,X=⎝⎜⎜⎜⎛x1^Tx2^T⋮xn^T⎠⎟⎟⎟⎞=⎝⎜⎜⎜⎛11⋮1x11x21⋮xn1x12x22⋮xn2⋯⋯⋱⋯x1dx2d⋮xnd⎠⎟⎟⎟⎞∈Rn×(d+1)。
求解结果:
w
∗
^
=
(
X
T
X
)
−
1
X
T
y
\hat{w^*}=(X^TX)^{-1}X^Ty
w∗^=(XTX)−1XTy
- 若 X T X X^TX XTX满秩或正定,则 w ∗ ^ = ( X T X ) − 1 X T y \hat{w^*}=(X^TX)^{-1}X^Ty w∗^=(XTX)−1XTy;
- 若 X T X X^TX XTX不满秩,则可解出多个 w ^ \hat{w} w^,此时需求助于归纳偏好,或引入正则化。
正定矩阵:矩阵 A n × n A_{n×n} An×n是正定矩阵,当且仅当对于任意非零向量 x n × 1 x_{n×1} xn×1, x T A x > 0 x^TAx>0 xTAx>0恒成立。
2.3 最小二乘法和极大似然法求解线性回归
假设变量
y
i
y_i
yi和变量
x
i
x_i
xi满足:
y
i
=
w
^
T
x
i
^
+
ϵ
i
y_i=\hat{w}^T\hat{x_i}+\epsilon_i
yi=w^Txi^+ϵi其中误差
ϵ
i
∽
N
(
0
,
σ
2
)
\epsilon_i∽N(0,\sigma^2)
ϵi∽N(0,σ2),即
p
(
ϵ
i
)
=
1
2
π
σ
e
x
p
(
−
(
ϵ
i
)
2
2
σ
2
)
p(\epsilon_i)=\frac{1}{\sqrt{2π}\sigma}exp(-\frac{(\epsilon_i)^2}{2\sigma^2})
p(ϵi)=2πσ1exp(−2σ2(ϵi)2)。
概率:
p
(
y
i
∣
x
i
^
;
w
^
)
=
1
2
π
σ
e
x
p
(
−
(
y
i
−
w
^
T
x
i
^
)
2
2
σ
2
)
p(y_i|\hat{x_i};\hat{w})=\frac{1}{\sqrt{2π}\sigma}exp(-\frac{(y_i-\hat{w}^T\hat{x_i})^2}{2\sigma^2})
p(yi∣xi^;w^)=2πσ1exp(−2σ2(yi−w^Txi^)2)可以看作是输出变量
y
i
y_i
yi关于输入变量
x
i
^
\hat{x_i}
xi^和固定参数
w
^
\hat{w}
w^的函数,也可以看作是已知变量
y
i
y_i
yi和变量
x
i
^
\hat{x_i}
xi^的前提下关于参数
w
^
\hat{w}
w^的函数,即似然函数。
2.3.1 极大似然法
假设所有数据独立同分布,则: L ( w ^ ) = ∏ i = 1 m L i ( w ^ ) = ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) ℒ(\hat{w})=\prod\limits_{i=1}^mℒ_i(\hat{w})=\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w}) L(w^)=i=1∏mLi(w^)=i=1∏mp(yi∣xi^;w^)极大似然法优化目标: arg max w ^ L ( w ^ ) = arg max w ^ ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) \argmax\limits_{\hat{w}}ℒ(\hat{w})=\argmax\limits_{\hat{w}}\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w}) w^argmaxL(w^)=w^argmaxi=1∏mp(yi∣xi^;w^)考虑对数似然函数: ℓ ( w ^ ) = ln L ( w ^ ) = ln ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) = ∑ i = 1 n ln p ( y i ∣ x i ^ ; w ^ ) = n ⋅ ln 1 2 π σ − 1 2 σ 2 ∑ i = 1 n ( y i − w ^ T x i ^ ) 2 \ell(\hat{w})=\lnℒ(\hat{w})=\ln\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})\\=\sum\limits_{i=1}^n\ln p(y_i|\hat{x_i};\hat{w})=n·\ln\frac{1}{\sqrt{2π}\sigma}-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2 ℓ(w^)=lnL(w^)=lni=1∏mp(yi∣xi^;w^)=i=1∑nlnp(yi∣xi^;w^)=n⋅ln2πσ1−2σ21i=1∑n(yi−w^Txi^)2因此: arg max w ^ ∏ i = 1 m p ( y i ∣ x i ^ ; w ^ ) ⟺ arg min w ^ ∑ i = 1 n ( y i − w ^ T x i ^ ) 2 \argmax\limits_{\hat{w}}\prod\limits_{i=1}^mp(y_i|\hat{x_i};\hat{w})\iff\argmin\limits_{\hat{w}}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2 w^argmaxi=1∏mp(yi∣xi^;w^)⟺w^argmini=1∑n(yi−w^Txi^)2
为何使用对数似然函数?
- 对数函数单调递增,不会改变原有似然函数的极大值点;
- 对常见的概率分布取对数后再求导来求最大值可以简化运算。
2.3.2 最小二乘法
最小二乘法:
arg min
f
1
n
∑
i
(
y
i
−
f
(
x
i
)
)
2
⟺
arg min
w
^
1
n
∑
i
=
1
n
(
y
i
−
w
^
T
x
i
^
)
2
\argmin\limits_f\frac{1}{n}\sum_i(y_i-f(x_i))^2\iff\argmin\limits_{\hat{w}}\frac{1}{n}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2
fargminn1i∑(yi−f(xi))2⟺w^argminn1i=1∑n(yi−w^Txi^)2其中
f
(
x
)
=
w
T
x
+
b
=
w
^
T
x
^
f(x)=w^Tx+b=\hat{w}^T\hat{x}
f(x)=wTx+b=w^Tx^。
极大似然法:
arg max
p
ln
∏
i
=
1
n
p
(
y
i
∣
x
i
)
⟺
arg min
w
^
∑
i
=
1
n
(
y
i
−
w
^
T
x
i
^
)
2
\argmax\limits_p\ln\prod\limits_{i=1}^np(y_i|x_i)\iff\argmin\limits_{\hat{w}}\sum\limits_{i=1}^n(y_i-\hat{w}^T\hat{x_i})^2
pargmaxlni=1∏np(yi∣xi)⟺w^argmini=1∑n(yi−w^Txi^)2其中
p
(
y
i
∣
x
i
)
=
1
2
π
σ
exp
(
−
(
y
i
−
w
^
T
x
)
2
2
σ
2
)
p(y_i|x_i)=\frac{1}{\sqrt{2π}\sigma}\exp(-\frac{(y_i-\hat{w}^Tx)^2}{2\sigma^2})
p(yi∣xi)=2πσ1exp(−2σ2(yi−w^Tx)2)。
当 f f f是线性函数, p p p服从高斯分布时,两个模型等价!!!
2.4 广义线性模型
线性回归模型: y = w T x + b y=w^Tx+b y=wTx+b考虑单调可微函数 g ( ⋅ ) g(·) g(⋅),令: g ( y ) = w T x + b g(y)=w^Tx+b g(y)=wTx+b y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g−1(wTx+b)得到的模型称为广义线性模型,其中 g g g称为联系函数。
例如, g ( ⋅ ) = ln ( ⋅ ) g(·)=\ln(·) g(⋅)=ln(⋅)时就是对数线性回归。
3. 逻辑回归(对数几率回归)
逻辑回归用于分类任务,规定直线上方的点为正样本,直线下方的点为负样本。
基本分类思想:当
x
x
x为正类样本,
f
(
x
)
>
0
f(x)>0
f(x)>0,当
x
x
x为负类样本,
f
(
x
)
<
0
f(x)<0
f(x)<0。
问题:线性分类器 f ( x ) f(x) f(x)的输出是连续实值,即 [ − ∞ , + ∞ ] [-∞,+∞] [−∞,+∞],而样本标签为离散值,如何对应?
答:通过联系函数解决(广义线性模型)。
3.1 单位阶跃函数or对数几率函数?
单位阶跃函数(unit-step function):
g
(
z
)
=
{
0
z
<
0
0.5
z
=
0
1
z
>
0
g(z) = \begin{cases} 0 & z<0 \\ 0.5 & z=0 \\ 1 & z>0 \end{cases}
g(z)=⎩⎪⎨⎪⎧00.51z<0z=0z>0
特点:不连续,影响后期求解。
对数几率函数(logistic function):
g
(
z
)
=
1
1
+
e
−
z
,
z
∈
R
g(z)=\frac{1}{1+e^{-z}},z∈\mathbb{R}
g(z)=1+e−z1,z∈R特点:单调可微,任意阶可导,且一阶导数为
g
′
=
g
(
1
−
g
)
g'=g(1-g)
g′=g(1−g)。容易得到
g
(
+
∞
)
=
1
,
g
(
0
)
=
0.5
,
g
(
−
∞
)
=
0
g(+∞)=1,g(0)=0.5,g(-∞)=0
g(+∞)=1,g(0)=0.5,g(−∞)=0,因此它将
z
z
z值转化为一个接近0或1的值,并且在
z
=
0
z=0
z=0附近变化很陡。
3.2 逻辑回归模型
逻辑回归用于分类问题,常用均方误差作为分类损失函数,定义如下: L ( w ^ ) = 1 n ∑ i = 1 n ∣ ∣ y i − g ( f ( x ) ) ∣ ∣ 2 2 = 1 n ∑ i = 1 n ∣ ∣ y i − 1 1 + e − ( w ^ T x i ^ ) ∣ ∣ 2 2 ℒ(\hat{w})=\frac{1}{n}\sum\limits_{i=1}^n||y_i-g(f(x))||_2^2=\frac{1}{n}\sum\limits_{i=1}^n||y_i-\frac{1}{1+e^{-(\hat{w}^T\hat{x_i})}}||_2^2 L(w^)=n1i=1∑n∣∣yi−g(f(x))∣∣22=n1i=1∑n∣∣yi−1+e−(w^Txi^)1∣∣22因此逻辑回归模型定义为: min w L ( w ^ ) = min w 1 n ∑ i = 1 n ∣ ∣ y i − 1 1 + e − ( w ^ T x i ^ ) ∣ ∣ 2 2 \min\limits_wℒ(\hat{w})=\min\limits_w\frac{1}{n}\sum\limits_{i=1}^n||y_i-\frac{1}{1+e^{-(\hat{w}^T\hat{x_i})}}||_2^2 wminL(w^)=wminn1i=1∑n∣∣yi−1+e−(w^Txi^)1∣∣22
有问题吗?有问题!
- 该模型是非凸问题,存在多个局部最优解,求解全局最优十分困难,甚至没有全局最优;
- 类别标签本身就是符号,在数值上没有任何意义。
观察线性分类器 f ( x ) f(x) f(x)与对数几率函数 g ( f ( x ) ) g(f(x)) g(f(x)):
- f ( x ) f(x) f(x)的值有一定的物理意义;
- f ( x ) f(x) f(x)与 g ( f ( x ) ) g(f(x)) g(f(x))单调性一致;
- g ( f ( x ) ) ∈ [ 0 , 1 ] g(f(x))∈[0,1] g(f(x))∈[0,1],与概率取值范围一致。
因此,大胆假设 g ( f ( x ) ) g(f(x)) g(f(x))为样本 x x x属于正类的概率,让 g ( f ( x ) ) g(f(x)) g(f(x))隐性关联标签 p ( y = 1 ∣ x ) = g ( f ( x ) ) p(y=1|x)=g(f(x)) p(y=1∣x)=g(f(x))。至此,我们又可以考虑使用极大似然法。
3.2.1 极大似然法构建模型
已知 g ( f ( x ) ) = 1 1 + e − f ( x ) g(f(x))=\frac{1}{1+e^{-f(x)}} g(f(x))=1+e−f(x)1,因此对于正类样本,应当最大化概率: p 1 ( x i ^ ; w ^ ) = p ( y i = 1 ∣ x i ^ ) = g ( f ( x i ) ) = 1 1 + e − w ^ T x i ^ = e w ^ T x i ^ 1 + e w ^ T x i ^ p_1(\hat{x_i};\hat{w})=p(y_i=1|\hat{x_i})=g(f(x_i))=\frac{1}{1+e^{-\hat{w}^T\hat{x_i}}}=\frac{e^{\hat{w}^T\hat{x_i}}}{1+e^{\hat{w}^T\hat{x_i}}} p1(xi^;w^)=p(yi=1∣xi^)=g(f(xi))=1+e−w^Txi^1=1+ew^Txi^ew^Txi^对于负类样本,应当最大化概率: p 0 ( x i ^ ; w ^ ) = p ( y i = 0 ∣ x i ^ ) = 1 − g ( f ( x i ) ) = e − w ^ T x i ^ 1 + e − w ^ T x i ^ = 1 1 + e w ^ T x i ^ p_0(\hat{x_i};\hat{w})=p(y_i=0|\hat{x_i})=1-g(f(x_i))=\frac{e^{-\hat{w}^T\hat{x_i}}}{1+e^{-\hat{w}^T\hat{x_i}}}=\frac{1}{1+e^{\hat{w}^T\hat{x_i}}} p0(xi^;w^)=p(yi=0∣xi^)=1−g(f(xi))=1+e−w^Txi^e−w^Txi^=1+ew^Txi^1也就是最大化下式: p ( y i ∣ x i ^ ; w ^ ) = [ p 1 ( x i ^ ; w ^ ) ] y i [ p 0 ( x i ^ ; w ^ ) ] ( 1 − y i ) p(y_i|\hat{x_i};\hat{w})=[p_1(\hat{x_i};\hat{w})]^{y_i}[p_0(\hat{x_i};\hat{w})]^{(1-y_i)} p(yi∣xi^;w^)=[p1(xi^;w^)]yi[p0(xi^;w^)](1−yi)独立同分布假设下,训练样本关于标签的联合概率函数: p ( { y i } i = 1 n ∣ { x i } i = 1 n ; w ^ ) = ∏ i = 1 n p ( y i ∣ x i ^ ; w ^ ) p(\{y_i\}_{i=1}^n|\{x_i\}_{i=1}^n;\hat{w})=\prod\limits_{i=1}^np(y_i|\hat{x_i};\hat{w}) p({yi}i=1n∣{xi}i=1n;w^)=i=1∏np(yi∣xi^;w^)考虑联合概率函数的对数似然函数作为目标函数: ℓ ( w ^ ) = ln p ( { y i } i = 1 n ∣ { x i } i = 1 n ; w ^ ) = ∑ i = 1 n ( y i w ^ T x i ^ − ln ( 1 + e w ^ T x i ^ ) ) \ell(\hat{w})=\ln p(\{y_i\}_{i=1}^n|\{x_i\}_{i=1}^n;\hat{w})=\sum\limits_{i=1}^n(y_i\hat{w}^T\hat{x_i}-\ln(1+e^{\hat{w}^T\hat{x_i}})) ℓ(w^)=lnp({yi}i=1n∣{xi}i=1n;w^)=i=1∑n(yiw^Txi^−ln(1+ew^Txi^))逻辑回归模型: arg min w ^ ℓ ( w ^ ) = ∑ i = 1 n ( ln ( 1 + e w ^ T x i ^ ) − y i w ^ T x i ^ ) \argmin\limits_{\hat{w}}\ell(\hat{w})=\sum\limits_{i=1}^n(\ln(1+e^{\hat{w}^T\hat{x_i}})-y_i\hat{w}^T\hat{x_i}) w^argminℓ(w^)=i=1∑n(ln(1+ew^Txi^)−yiw^Txi^)
这是一个无约束优化问题。
3.2.2 牛顿法和梯度下降法求解模型
有两种方法求解该优化问题:
- 牛顿法
- 梯度下降法
牛顿法
牛顿法,又称牛顿迭代法,对于难以求精确根的方程,可以采用该方法进行求根。
用牛顿迭代法求解非线性方程,是把非线性方程
f
(
x
)
=
0
f(x)=0
f(x)=0线性化的一种近似方法。把
f
(
x
)
f(x)
f(x)在
x
0
x_0
x0的某邻域内展开为泰勒级数,取其线性部分(前两项),并令其等于0,即:
f
(
x
0
)
=
f
′
(
x
0
)
(
x
−
x
0
)
=
0
f(x_0)=f'(x_0)(x-x_0)=0
f(x0)=f′(x0)(x−x0)=0以此作为非线性方程
f
(
x
)
=
0
f(x)=0
f(x)=0的近似方程。当
f
′
(
x
0
)
≠
0
f'(x_0)≠0
f′(x0)=0时,得到:
x
1
=
x
0
−
f
(
x
0
)
f
′
(
x
0
)
x_1=x_0-\frac{f(x_0)}{f'(x_0)}
x1=x0−f′(x0)f(x0)因此,牛顿迭代法的迭代关系式为:
x
n
+
1
=
x
n
−
f
(
x
n
)
f
′
(
x
n
)
x_{n+1}=x_n-\frac{f(x_n)}{f'(x_n)}
xn+1=xn−f′(xn)f(xn)逻辑回归模型为:
w
^
∗
=
arg min
w
^
ℓ
(
w
^
)
\hat{w}^*=\argmin\limits_{\hat{w}}\ell(\hat{w})
w^∗=w^argminℓ(w^)因此非线性函数为
f
(
w
^
)
=
ℓ
′
(
w
^
)
=
0
f(\hat{w})=\ell'(\hat{w})=0
f(w^)=ℓ′(w^)=0,因此迭代关系式为:
w
^
n
+
1
=
w
^
n
−
f
(
w
^
n
)
f
′
(
w
^
n
)
=
w
^
n
−
ℓ
′
(
w
^
n
)
ℓ
′
′
(
w
^
n
)
\hat{w}_{n+1}=\hat{w}_n-\frac{f(\hat{w}_n)}{f'(\hat{w}_n)}=\hat{w}_n-\frac{\ell'(\hat{w}_n)}{\ell''(\hat{w}_n)}
w^n+1=w^n−f′(w^n)f(w^n)=w^n−ℓ′′(w^n)ℓ′(w^n)
梯度下降法
迭代关系式为: w ^ n + 1 = w ^ n − γ n ℓ ′ ( w ^ n ) \hat{w}_{n+1}=\hat{w}_n-\gamma_n\ell'(\hat{w}_n) w^n+1=w^n−γnℓ′(w^n)
小结
注意:图中 L ′ L' L′和 L ′ ′ L'' L′′实际表示 ℓ ′ \ell' ℓ′和 ℓ ′ ′ \ell'' ℓ′′。