吃瓜任务2

1.一元线性回归

1.1 最小二乘估计

基于均方误差最小化来进行模型求解的方法称为“最小二乘法”。
E ( w , b ) = ∑ i = 1 m ( y i − f ( x i ) ) 2 = ∑ i = 1 m ( y i − ( w x i + b ) ) 2 = ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned} E_{\left ( w,b \right ) } &=\sum_{i=1}^{m} \left ( y_i-f\left (x_i \right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y_i-\left ( wx_i + b\right ) \right ) ^{2} \\ &=\sum_{i=1}^{m} \left ( y_i-wx_i-b \right ) ^{2} \end{aligned} E(w,b)=i=1m(yif(xi))2=i=1m(yi(wxi+b))2=i=1m(yiwxib)2

1.2 极大似然估计

用途:估计概率分布的参数值
方法:对于离散型(连续型)随机变量 X X X,假设其概率质量函数为 P ( x ; θ ) P(x;\theta) P(x;θ)(概率密度函数为 p ( x ; θ ) p(x;\theta) p(x;θ),其中 θ \theta θ为待估计的参数值(可以有多个)。现有 x 1 , x 2 , x 3 , … , x n x_1,x_2,x_3,\dots,x_n x1,x2,x3,,xn是来自 X X X n n n个独立同分布的样本,它们的联合概率为
L ( θ ) = ∏ i = 1 n P ( x i ; θ ) L\left ( \theta \right ) =\prod_{i=1}^{n} P\left (x_i;\theta \right ) L(θ)=i=1nP(xi;θ)
其中 x 1 , x 2 , x 3 , … , x n x_1,x_2,x_3,\dots,x_n x1,x2,x3,,xn是已知量, θ \theta θ是未知量,因此以上概率是一个关于 θ \theta θ的函数,称 L ( θ ) L\left ( \theta \right ) L(θ)为样本的似然函数。极大似然估计的直观想法:使得观测样本出现概率最大的分布就是待求分布,即使得联合概率(似然函数) L ( θ ) L(\theta) L(θ)取到最大值的 θ ∗ \theta^* θ即为 θ \theta θ的估计值。

对于线性回归模型来说,可以假设其为以下模型:
y = w x + b + ε y=wx+b+\varepsilon y=wx+b+ε
其中 ε \varepsilon ε为不受控制的随机误差,通常假设其服从均值为0的正态分布 ε ∼ N ( 0 , σ 2 ) \varepsilon\sim N(0,\sigma^2) εN(0,σ2),所以 ε \varepsilon ε的概率密度函数为
p ( ε ) = 1 2 π σ exp ⁡ ( − ε 2 2 σ 2 ) p\left ( \varepsilon \right ) =\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{\varepsilon^2 }{2\sigma^2 } \right ) p(ε)=2π σ1exp(2σ2ε2)
ε \varepsilon ε y − ( w x + b ) y-(wx+b) y(wx+b)替换可得
p ( y ) = 1 2 π σ exp ⁡ ( − ( y − ( w x + b ) ) 2 2 σ 2 ) p\left ( y \right ) =\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y-(wx+b))^2 }{2\sigma^2 } \right ) p(y)=2π σ1exp(2σ2(y(wx+b))2)
上式可以看作 y ∼ N ( w x + b , σ 2 ) y\sim N(wx+b,\sigma^2) yN(wx+b,σ2),可以用极大似然估计来估计 w w w b b b的值,似然函数为
L ( w , b ) = ∏ i = 1 m p ( y i ) = ∏ i = 1 m 1 2 π σ exp ⁡ ( − ( y − ( w x + b ) ) 2 2 σ 2 ) \begin{aligned} L\left ( w,b \right ) &=\prod_{i=1}^{m} p\left (y_i \right ) \\ &=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y-(wx+b))^2 }{2\sigma^2 } \right ) \end{aligned} L(w,b)=i=1mp(yi)=i=1m2π σ1exp(2σ2(y(wx+b))2)
ln ⁡ L ( w , b ) = ∑ i = 1 m ln ⁡ p ( y i ) = ∑ i = 1 m ln ⁡ 1 2 π σ exp ⁡ ( − ( y i − ( w x i + b ) ) 2 2 σ 2 ) = ∑ i = 1 m ln ⁡ 1 2 π σ + ∑ i = 1 m ( − ( y i − ( w x i + b ) ) 2 2 σ 2 ) = m ln ⁡ 1 2 π σ − 1 2 σ 2 ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned} \ln_{}{L\left ( w,b \right )} &=\sum_{i=1}^{m} \ln_{}{p\left (y_i \right )} \\ &=\sum_{i=1}^{m}\ln_{}{ \frac{1}{\sqrt{2\pi}\sigma } \exp \left (-\frac{(y_i-(wx_i+b))^2 }{2\sigma^2 } \right )}\\ &= \sum_{i=1}^{m}\ln_{}{\frac{1}{\sqrt{2\pi}\sigma }}+\sum_{i=1}^{m}\left(-\frac{(y_i-(wx_i+b))^2 }{2\sigma^2 } \right )\\ &=m\ln_{}{\frac{1}{\sqrt{2\pi}\sigma }}-\frac{1}{2\sigma ^2} \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 \end{aligned} lnL(w,b)=i=1mlnp(yi)=i=1mln2π σ1exp(2σ2(yi(wxi+b))2)=i=1mln2π σ1+i=1m(2σ2(yi(wxi+b))2)=mln2π σ12σ21i=1m(yiwxib)2
其中 m , σ m,\sigma m,σ均为常数,所以最大化 ln ⁡ L ( w , b ) \ln_{}{L\left ( w,b \right )} lnL(w,b)等价于最小化 ∑ i = 1 m ( y i − w x i − b ) 2 \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 i=1m(yiwxib)2

( w ∗ , b ∗ ) = arg ⁡ max ⁡ ( w , b ) ln ⁡ L ( w , b ) = arg ⁡ min ⁡ ( w , b ) ∑ i = 1 m ( y i − w x i − b ) 2 \begin{aligned} \left ( w^*,b^* \right ) &=\arg \max_{\left ( w,b \right ) } \ln_{}{L\left ( w,b \right )}\\ &=\arg \min_{\left ( w,b \right ) } \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 \end{aligned} (w,b)=arg(w,b)maxlnL(w,b)=arg(w,b)mini=1m(yiwxib)2

1.3 求解 w w w b b b

求解 w w w b b b其本质上是一个多元函数求最值点的问题,更具体而言,是凸函数求最值点的问题。
推导思路:
1.证明 E ( w , b ) = ∑ i = 1 m ( y i − w x i − b ) 2 E_{(w,b)}= \sum_{i=1}^{m}\left ( y_i-wx_i-b \right ) ^2 E(w,b)=i=1m(yiwxib)2是关于 w w w b b b的凸函数
2.用凸函数求最值的思路求解出 w w w b b b

1.4 机器学习三要素

  • 模型:根据具体问题,确定假设空间
  • 策略:根据评价标准,确定选取最优模型的策略(通常会产生出一个“损失函数”)
  • 算法:求解损失函数,确定最优模型

2.多元线性回归

w ^ ∗ = arg ⁡ min ⁡ w ^ ∗ ( y − X w ^ ) T ( y − X w ^ ) \hat{w } ^*=\arg\min _{\hat{w } ^*}\left ( y - X\hat{w }\right ) ^T\left( y - X\hat{w }\right ) w^=argw^min(yXw^)T(yXw^)
求解 w ^ \hat{w } w^依然是多元函数求最值点的问题,同样也是凸函数求最值点的问题。
推导思路:
1.证明 E w ^ = ( y − X w ^ ) T ( y − X w ^ ) E_{\hat{w }}=\left ( y - X\hat{w }\right ) ^T\left( y - X\hat{w }\right ) Ew^=(yXw^)T(yXw^)是关于 w ^ \hat{w } w^的凸函数。
2.用凸函数求最值的思路求解出 w ^ \hat{w } w^

3.对数几率回归

3.1 极大似然估计

第一步:确定概率密度函数
已知离散型随机变量 y ∈ { 0 , 1 } y\in \{0,1\} y{0,1}取值为1和0的概率分别建模为
p ( y = 1 ∣ x ) = 1 1 + e − ( w T x + b ) = e w T x + b 1 + e w T x + b p\left ( y=1|x \right ) =\frac{1}{1+e^{-\left (w^Tx+b \right )}} =\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}} p(y=1x)=1+e(wTx+b)1=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 1 + e w T x + b p\left ( y=0|x \right ) =\frac{1}{1+e^{w^Tx+b}} p(y=0x)=1+ewTx+b1
β = ( w ; b ) , x ^ = ( x ; 1 ) \beta=(w;b),\hat{x}=(x;1) β=(w;b),x^=(x;1),则上式可简写为
p ( y = 1 ∣ x ^ ; β ) = e β T x ^ 1 + e β T x ^ = p 1 ( x ^ ; β ) p\left ( y=1|\hat{x};\beta \right ) =\frac{e^{\beta^T\hat{x}}}{1+e^{\beta^T\hat{x}}}=p_1\left ( \hat{x};\beta \right ) p(y=1x^;β)=1+eβTx^eβTx^=p1(x^;β)
p ( y = 0 ∣ x ^ ; β ) = 1 1 + e β T x ^ = p 0 ( x ^ ; β ) p\left ( y=0|\hat{x};\beta \right ) =\frac{1}{1+e^{\beta^T\hat{x}}}=p_0\left ( \hat{x};\beta \right ) p(y=0x^;β)=1+eβTx^1=p0(x^;β)
由以上概率取值可推得随机变量 y ∈ { 0 , 1 } y\in\{0,1\} y{0,1}的概率质量函数为
p ( y ∣ x ^ ; β ) = y ⋅ p 1 ( x ^ ; β ) + ( 1 − y ) ⋅ p 0 ( x ^ ; β ) p\left ( y|\hat{x};\beta \right )=y\cdot p_1\left ( \hat{x};\beta \right ) +(1-y)\cdot p_0\left ( \hat{x};\beta \right ) p(yx^;β)=yp1(x^;β)+(1y)p0(x^;β)
第二步:写出似然函数
L ( β ) = ∏ i = 1 m p ( y i ∣ x ^ i ; β ) L\left ( \beta \right ) =\prod_{i=1}^{m} p\left ( y_i|\hat{x}_i;\beta \right ) L(β)=i=1mp(yix^i;β)
对数似然函数为
ℓ ( β ) = ∑ i = 1 m ln ⁡ ( y i ⋅ p 1 ( x i ^ ; β ) + ( 1 − y i ) ⋅ p 0 ( x i ^ ; β ) ) = ∑ i = 1 m ln ⁡ ( y i e β T x ^ i 1 + e β T x ^ i + 1 − y i 1 + e β T x ^ i ) = ∑ i = 1 m ( ln ⁡ ( y i e β T x ^ i + 1 − y i ) − ln ⁡ ( 1 + e β T x ^ i ) ) = ∑ i = 1 m ( y i β T x i ^ − ln ⁡ ( 1 + e β T x ^ i ) ) \begin{aligned} \ell \left ( \beta \right ) &=\sum_{i=1}^{m} \ln_{}{\left ( y_i\cdot p_1\left ( \hat{x_i};\beta \right ) +(1-y_i)\cdot p_0\left ( \hat{x_i};\beta \right ) \right ) }\\ &=\sum_{i=1}^{m} \ln_{}{\left ( \frac{y_ie^{\beta^T\hat{x}_i}}{1+e^{\beta^T\hat{x}_i}}+\frac{1-y_i}{1+e^{\beta^T\hat{x}_i}} \right ) }\\ &=\sum_{i=1}^{m} \left ( \ln_{}{\left ( y_ie^{\beta^T\hat{x}_i}+1-y_i \right ) -\ln_{}{\left ( 1+e^{\beta^T\hat{x}_i} \right ) }} \right ) \\ &=\sum_{i=1}^{m}\left (y_i\beta^T\hat{x_i}-\ln_{}{\left ( 1+e^{\beta^T\hat{x}_i}\right ) } \right ) \end{aligned} (β)=i=1mln(yip1(xi^;β)+(1yi)p0(xi^;β))=i=1mln(1+eβTx^iyieβTx^i+1+eβTx^i1yi)=i=1m(ln(yieβTx^i+1yi)ln(1+eβTx^i))=i=1m(yiβTxi^ln(1+eβTx^i))

3.2 对数几率回归算法的机器学习三要素:

1.模型:线性模型,输出值的范围为 [ 0 , 1 ] [0,1] [0,1],近似阶跃的单调可微函数
2.策略:极大似然估计,信息论
3.算法:梯度下降、牛顿法

4.二分类线性判别分析

4.1 算法原理

从几何的角度,让全体训练样本经过投影后:

  • 异类样本的中心尽可能远
  • 同类样本的方差尽可能小

4.2 损失函数推导

经过投影后,异类样本的中心尽可能远:
max ⁡ ∥ w T μ 0 − w T μ 1 ∥ 2 2 \max \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 maxwTμ0wTμ122
经过投影后,同类样本的方差尽可能小:
min ⁡ w T Σ 0 w \min w^T\Sigma _0w minwTΣ0w
max ⁡ J = ∥ w T μ 0 − w T μ 1 ∥ 2 2 w T Σ 0 w + w T Σ 1 w = ∥ w T μ 0 − w T μ 1 ∥ 2 2 w T ( Σ 0 + Σ 1 ) w = w T ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w w T ( Σ 0 + Σ 1 ) w \begin{aligned} \max J&=\frac{ \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 }{ w^T\Sigma _0w+w^T\Sigma _1w}\\ &=\frac{ \left \| w^T \mu_0-w^T\mu_1 \right \|_2^2 }{ w^T\left ( \Sigma _0+\Sigma _1 \right ) w}\\ &=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T\left ( \Sigma _0+\Sigma _1 \right ) w} \end{aligned} maxJ=wTΣ0w+wTΣ1wwTμ0wTμ122=wT(Σ0+Σ1)wwTμ0wTμ122=wT(Σ0+Σ1)wwT(μ0μ1)(μ0μ1)Tw
S b = ( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T Sb=(μ0μ1)(μ0μ1)T S w = Σ 0 + Σ 1 S_w=\Sigma _0+\Sigma _1 Sw=Σ0+Σ1
则优化问题转化为
min ⁡ w − w T S b w s . t . w T S w w = 1 \min_w-w^TS_bw\\ s.t. \quad w^TS_ww=1 wminwTSbws.t.wTSww=1
由拉格朗日乘子法可得拉格朗日函数为
L ( w , λ ) = − w T S b w + λ ( w T S w w − 1 ) \begin{aligned} L\left ( w,\lambda \right ) =-w^TS_bw+\lambda \left ( w^TS_ww-1 \right ) \end{aligned} L(w,λ)=wTSbw+λ(wTSww1)
w w w求偏导可得
∂ L ( w , λ ) ∂ w = − ( S b + S b T ) w + λ ( S w + S w T ) w \begin{aligned} \frac{\partial L\left ( w,\lambda \right )}{\partial w} =-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w \end{aligned} wL(w,λ)=(Sb+SbT)w+λ(Sw+SwT)w
令上式等于0可得
S b w = λ S w w S_bw=\lambda S_ww Sbw=λSww
( μ 0 − μ 1 ) ( μ 0 − μ 1 ) T w = λ S w w (\mu_0-\mu_1)(\mu_0-\mu_1)^Tw=\lambda S_ww (μ0μ1)(μ0μ1)Tw=λSww
( μ 0 − μ 1 ) T w = γ (\mu_0-\mu_1)^Tw=\gamma (μ0μ1)Tw=γ可得
w = γ λ S w − 1 ( μ 0 − μ 1 ) w=\frac{\gamma }{\lambda } S_w^{-1}(\mu_0-\mu_1) w=λγSw1(μ0μ1)

参考文献:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值