西瓜书读书笔记2-第三章线性模型

3.1基本形式

给定由d个属性描述的示例 x = ( x 1 ; x 2 ; . . . ; x d ) x=(x_1;x_2;...;x_d) x=(x1;x2;...;xd),其中 x i x_i xi x x x在第 i i i个属性的取值。线性模型(linear model)有两种表达方式
普通形式 f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w 3 x 3 + d f(x)=w_1x_1+w_2x_2+...+w_3x_3+d f(x)=w1x1+w2x2+...+w3x3+d向量形式 f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
当向量 w w w b b b确定时,模型得以确定。

3.2线性回归

线性回归(linear regression)

试图学得一个线性模型尽可能准确地预测实值输出标记。

均方误差(亦称平方损失square loss)

是回归任务中最常用的性能度量: ( w ∗ , b ∗ ) = a r g m i n ( w , b ) Σ i = 1 m ( f ( x i ) − y i ) 2 = a r g m i n ( w , b ) Σ i = 1 m ( y i − w x i − b ) 2 (w^*,b^*)=arg min_{(w,b)}\Sigma^m_{i=1}(f(x_i)-y_i)^2\\ =arg min_{(w,b)}\Sigma^m_{i=1}(y_i-wx_i-b)^2 (w,b)=argmin(w,b)Σi=1m(f(xi)yi)2=argmin(w,b)Σi=1m(yiwxib)2
基于均方误差最小化进行模型求解的方法为最小二乘法(least wquare method)。

参数估计(parameter etimation)

求解 w w w b b b使均方误差最小化的过程,是线性回归模型的最小二乘“参数估计”,可将 E w , b E_{w,b} Ew,b分别对 w w w b b b求偏导,令其偏导等于零,得到 w w w b b b最优解的闭式(closed-form)解。推导过程如下:
在这里插入图片描述
最后求解可得

在这里插入图片描述

注:此处使用凸函数的知识,验证 E w , b E_{w,b} Ew,b为凸函数后,当关于 w w w b b b的偏导都为零时为最优解。参考《最优化基础理论与方法》

多元线性回归的向量表示

此时线性模型为 f ( x i ) = w T x i + b f(x_i)=w^Tx_i+b f(xi)=wTxi+b,为了将 f ( x i ) f(x_i) f(xi)转换成两个向量的乘积,我们引入向量 w ^ = ( w ; b ) \hat{w}=(w;b) w^=(w;b) x i ^ = ( x i ; 1 ) T \hat{x_i}=(x_i;1)^T xi^=(xi;1)T。此时线性模型有:
f ( x i ) = w ^ T x i ^ f(x_i)=\hat{w}^T\hat{x_i} f(xi)=w^Txi^
将上式带入损失函数,得到 E w ^ E_{\hat w} Ew^,可得 w ^ ∗ = a r g w ^ ∗ m i n ( y − X w ^ ) T ( y − X w ^ ) \hat{w}^*=arg_{\hat{w}^*}min(y-X\hat{w})^T(y-X\hat{w}) w^=argw^min(yXw^)T(yXw^)
E w ^ E_{\hat w} Ew^ w ^ \hat{w} w^求导,使其导数为零,得到 w ^ \hat w w^

∂ E w ^ ∂ w ^ = 2 X T ( X w ^ − y ) \frac{\partial E_{\hat w}}{\partial \hat{w}}=2X^T (X\hat w-y) w^Ew^=2XT(Xw^y)
w ^ ∗ = ( X T X ) − 1 X T y \hat w^*=(X^TX)^{-1}X^Ty w^=(XTX)1XTy
最终有多元线性回归模型 f ( x ^ i ) = x ^ i T ( X T X ) − 1 X T y f(\hat x_i)=\hat x_i^T(X^TX)^{-1}X^Ty f(x^i)=x^iT(XTX)1XTy

注:现实任务中我们会一道大量的变量,导致 X X X的列数多于行数, X T X X^TX XTX不满秩,此时可以解出多个 w ^ \hat w w^,引入正则化(regularization)项,选择一个解作为输出。

广义线性回归模型(generalized linear model)

可将线性模型中 x x x y y y替换为他们的衍生物,例如 ln ⁡ y \ln y lny,其表达式为: y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g1(wTx+b)
我们称 g ( ⋅ ) g(·) g()为联系函数(link function).

3.3对数几率回归

基本思想

找一个单调可微函数将分类任务的真实标记 y y y与线性回归模型的预测值联系起来.最理想的是单位阶跃模型,但不连续, 不能直接作为 g − ( ⋅ ) g^-(·) g(). 我们希望寻找一个替代函数(surrogate function), 本文为对数几率函数(logistic function): y = 1 1 + e − z y=\frac{1}{1+e^{-z}} y=1+ez1
将对数几率函数作为 g − ( ⋅ ) g^-(·) g()带入广义线性模型, 得到 y = 1 1 + e − ( w T x + b ) y=\frac{1}{1+e^{-(w^Tx+b)}} y=1+e(wTx+b)1
ln ⁡ y 1 − y = w T x + b \ln \frac{y}{1-y}=w^Tx+b ln1yy=wTx+b

如果将 y y y是为样本 x x x为正例的可能性, 则 1 − y 1-y 1y是其为反例的可能性, 二者比值被称为几率odds y 1 − y \frac {y}{1-y} 1yy, 反映正例的相对可能性. 几率的对数被称为对数几率log odds ln ⁡ y 1 − y \ln \frac{y}{1-y} ln1yy
这个模型是用线性回归模型的预测结果去逼近真实标记的对数几率,模型被称为 “对数几率回归” ,这是一种分类学习方法

参数估计

y y y改写为概率估计 p ( y = 1 ∣ x ) p(y=1|x) p(y=1∣x),则模型可改写为 ln ⁡ p ( y = 1 ∣ x ) p ( y = 0 ∣ x ) = w T x + b \ln \frac{p(y=1|x)}{p(y=0|x)}=w^Tx+b lnp(y=0∣x)p(y=1∣x)=wTx+b
显然, p ( y = 1 ∣ x ) = e w T x + b 1 + e w T x + b p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}} p(y=1∣x)=1+ewTx+bewTx+b
p ( y = 0 ∣ x ) = 1 1 + e w T x + b p(y=0|x)=\frac {1}{1+e^{w^Tx+b}} p(y=0∣x)=1+ewTx+b1
我们可以通过极大似然估计确定 w w w b b b

极大似然估计是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值.

L ( w , b ) = Π i = 1 m L(w,b)=\Pi ^{m}_{i=1} L(w,b)=Πi=1m

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值