机器学习:线性模型

基本形式

一般向量形式为: f ( x ) = w T x + b f(x)=w^Tx+b f(x)=wTx+b
其中, w w w 表示了 x x x 的重要性,称为权重。

线性回归 linear regression

线性回归学习一个线性模型来预测输出.
即, 在一个数据集 D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) } D=\{(x_1, y_1),(x_2,y_2),...,(x_n,y_n)\} D={(x1,y1),(x2,y2),...,(xn,yn)} 中,对第 i i i 个样本有

f ( x i ) = w T x i + b f(x_i)=w^Tx_i+b f(xi)=wTxi+b使
f ( x i ) ≈ y i f(x_i) \approx y_i f(xi)yi

优化

为了让 f ( x i ) ≈ y i f(x_i) \approx y_i f(xi)yi,就要使二者的差别减小,他们之间的差别用均方误差计算,均方误差对应欧几里得距离。
线性回归问题就转化为求解最小化 f ( x i ) f(x_i) f(xi) y i y_i yi 的均方误差。
基于均方误差最小化进行模型求解的方法成为最小二乘法(least square method)
最小二乘法:
在线性回归中,最小二乘法就是试图找到一条直线,使得所有样本到直线上的欧氏距离之和最小。
e r r o r = ∑ i = 0 n ∣ ∣ f ( x i ) − y i ∣ ∣ 2 = ∑ i = 0 n ∣ ∣ w T x i + b − y i ∣ ∣ 2 error =\sum_{i=0}^n||f(x_i)-y_i||_2=\sum_{i=0}^n||w^Tx_i+b-y_i||_2 error=i=0nf(xi)yi2=i=0nwTxi+byi2
∂ e r r o r ∂ w = 2 ∑ i = 1 n ( w x i 2 − ( y i − b ) x i ) = 0 ∂ e r r o r ∂ b = 2 ∑ i = 1 n ( w x i + b − y i ) = 0 \frac{\partial error}{\partial{w}}=2\sum_{i=1}^n(wx_i^2-(y_i-b)x_i)=0\\ \frac{\partial error}{\partial{b}}=2\sum_{i=1}^n(wx_i+b-y_i)=0 werror=2i=1n(wxi2(yib)xi)=0berror=2i=1n(wxi+byi)=0就可求得 w w w b b b ,推导过程如下:
w ∑ i = 1 m x i 2 = ∑ i = 1 m ( y i − b ) x i         ( 1 ) m b = ∑ i = 1 m ( y i − w x i )         ( 2 ) w\sum^m_{i=1}x^2_i=\sum^m_{i=1}(y_i-b)x_i\ \ \ \ \ \ \ (1)\\ mb=\sum^m_{i=1}(y_i-wx_i)\ \ \ \ \ \ \ (2) wi=1mxi2=i=1m(yib)xi       (1)mb=i=1m(yiwxi)       (2)

  1. 首先由 m b = ∑ i = 1 m ( y i − w x i ) mb=\sum^m_{i=1}(y_i-wx_i) mb=i=1m(yiwxi) 得到:
    b = 1 m ∑ i = 1 m ( y i − w x i ) b=\frac{1}{m}\sum^m_{i=1}(y_i-wx_i) b=m1i=1m(yiwxi)

    = 1 m ∑ i = 1 m y i − 1 m ∑ i = 1 m w x i =\frac{1}{m}\sum^m_{i=1}y_i-\frac{1}{m}\sum^m_{i=1}wx_i =m1i=1myim1i=1mwxi

    = y ˉ − w x ˉ =\bar{y}-w\bar{x} =yˉwxˉ

  2. b = y ˉ − w x ˉ b=\bar{y}-w\bar{x} b=yˉwxˉ 带入 (1) 式:
    w ∑ i = 1 m x i 2 = ∑ i = 1 m y i x i − ∑ i = 1 m b x i w\sum^m_{i=1}x^2_i=\sum^m_{i=1}y_ix_i-\sum^m_{i=1}bx_i wi=1mxi2=i=1myixii=1mbxi

    = ∑ i = 1 m y i x i − ∑ i = 1 m ( y ˉ − w x ˉ ) x i =\sum^m_{i=1}y_ix_i-\sum^m_{i=1}(\bar{y}-w\bar{x})x_i =i=1myixii=1m(yˉwxˉ)xi

    = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i + w x ˉ ∑ i = 1 m x i =\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i+w\bar{x}\sum^m_{i=1}x_i =i=1myixiyˉi=1mxi+wxˉi=1mxi

    则,
    w ∑ i = 1 m x i 2 − w x ˉ ∑ i = 1 m x i = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i w\sum^m_{i=1}x^2_i-w\bar{x}\sum^m_{i=1}x_i=\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i wi=1mxi2wxˉi=1mxi=i=1myixiyˉi=1mxi

    w ( ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i ) = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i w(\sum^m_{i=1}x^2_i-\bar{x}\sum^m_{i=1}x_i)=\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i w(i=1mxi2xˉi=1mxi)=i=1myixiyˉi=1mxi

    得到, w = ∑ i = 1 m y i x i − y ˉ ∑ i = 1 m x i ( ∑ i = 1 m x i 2 − x ˉ ∑ i = 1 m x i )      ( 3 ) w=\frac{\sum^m_{i=1}y_ix_i-\bar{y}\sum^m_{i=1}x_i}{(\sum^m_{i=1}x^2_i-\bar{x}\sum^m_{i=1}x_i)}\ \ \ \ (3) w=(i=1mxi2xˉi=1mxi)i=1myixiyˉi=1mxi    (3)其中 y ˉ = 1 m ∑ i = 1 m y i \bar{y}=\frac{1}{m}\sum^m_{i=1}y_i yˉ=m1i=1myi,因此 y ˉ ∑ i = 1 m x i = 1 m ∑ i = 1 m y i ∑ i = 1 m x i = x ˉ ∑ i = 1 m y i       ( 4 ) \bar{y}\sum^m_{i=1}x_i=\frac{1}{m}\sum^m_{i=1}y_i\sum^m_{i=1}x_i=\bar{x}\sum^m_{i=1}y_i\ \ \ \ \ (4) yˉi=1mxi=m1i=1myii=1mxi=xˉi=1myi     (4)又因为 x ˉ = ∑ i = 1 m x i \bar{x}=\sum^m_{i=1}x_i xˉ=i=1mxi,因此
    x ˉ ∑ i = 1 m x i = 1 m ∑ i = 1 m x i ∑ i = 1 m x i = 1 m ( ∑ i = 1 m x i ) 2       ( 5 ) \bar{x}\sum^m_{i=1}x_i=\frac{1}{m}\sum^m_{i=1}x_i\sum^m_{i=1}x_i=\frac{1}{m}(\sum^m_{i=1}x_i)^2\ \ \ \ \ (5) xˉi=1mxi=m1i=1mxii=1mxi=m1(i=1mxi)2     (5)(4),(5)带入(3)得
    w = ∑ i = 1 m y i ( x i − x ˉ ) ∑ i = 1 m x i 2 − 1 m ( ∑ i = 1 m x i ) 2 w=\frac{\sum^m_{i=1}y_i(x_i-\bar{x})}{\sum^m_{i=1}x^2_i-\frac{1}{m}(\sum^m_{i=1}x_i)^2} w=i=1mxi2m1(i=1mxi)2i=1myi(xixˉ)

对数线性回归

当输出是在指数尺度上变化时,
l n y = w T x + b lny=w^Tx+b lny=wTx+b y = e w T x + b y=e^{w^Tx+b} y=ewTx+b这就变成了输入到输出的非线性映射, l n ( ⋅ ) ln(·) ln() 将线性回归模型的预测值与真实标记联系起来。

对数几率回归

在二分类任务中,输出为 y ∈ { 0 , 1 } y\in\{0,1\} y{0,1}, 需要将线性回归模型产生结果转为0/1。
这里引入对数几率函数,这是一种常见的sigmoid函数。
在这里插入图片描述
公式为:
y = 1 1 + e − z , z = w T + b y=\frac{1}{1+e^{-z}}, z=w^T+b y=1+ez1,z=wT+b因此,
y = 1 1 + e − ( w T x + b ) y=\frac{1}{1+e^{-(w^Tx+b)}} y=1+e(wTx+b)1然而线性回归的一般形式为:
f ( x ) = w T + b f(x)=w^T+b f(x)=wT+b l n y 1 − y = w T + b ln\frac{y}{1-y}=w^T+b ln1yy=wT+b简单证明一下上式:

y = 1 1 + e − ( w T x + b ) = e ( w T x + b ) e ( w T x + b ) + 1 y=\frac{1}{1+e^{-(w^Tx+b)}}=\frac{e^{(w^Tx+b)}}{e^{(w^Tx+b)}+1} y=1+e(wTx+b)1=e(wTx+b)+1e(wTx+b)

1 − y = = 1 e ( w T x + b ) + 1 1-y==\frac{1}{e^{(w^Tx+b)}+1} 1y==e(wTx+b)+11

y 1 − y = e ( w T x + b ) \frac{y}{1-y}=e^{(w^Tx+b)} 1yy=e(wTx+b),两边分别取对数就得到结论。

我们假设 y y y 为样本 x x x 是正例的概率,则 1 − y 1-y 1y 为反例的概率,二者的比值为:
y 1 − y \frac{y}{1-y} 1yy

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值