周志华第三章线性模型

最新推荐文章于 2024-04-18 12:26:47 发布

yu212223

最新推荐文章于 2024-04-18 12:26:47 发布

阅读量365

点赞数

文章目录

线性模型

线性模型

谈及线性模型，其实我们很早就已经与它打过交道，还记得高中数学必修3课本中那个顽皮的“最小二乘法”吗？这就是线性模型的经典算法之一：根据给定的（x，y）点对，求出一条与这些点拟合效果最好的直线y=ax+b，之前我们利用下面的公式便可以计算出拟合直线的系数a,b，从而对于一个新的x，可以预测它所对应的y值。在机器学习的术语中，当预测值为连续值时，称为“回归问题”，离散值时为“分类问题”。本篇先从线性回归任务开始，接着讨论分类和多分类问题。
$b=\frac{x_1y_1+x_2y_2+\cdots+x_ny_n-n\overline{x}\overline{y}}{x_1^2+x_2^2+\cdots+x_n^2-n\overline{x}^2}$

$a=\overline{y}-b\overline{x}$

线性回归

线性回归问题就是试图学到一个线性模型尽可能准确地预测新样本的输出值，例如：通过历年的人口数据预测2017年人口数量。在这类问题中，往往我们会先得到一系列的有标记数据，例如：2000–>13亿…2016–>15亿，这时输入的属性只有一个，即年份；也有输入多属性的情形，假设我们预测一个人的收入，这时输入的属性值就不止一个了，例如：（学历，年龄，性别，颜值，身高，体重）–>15k。

有时这些输入的属性值并不能直接被我们的学习模型所用，需要进行相应的处理，对于连续值的属性，一般都可以被学习器所用，有时会根据具体的情形作相应的预处理，例如：归一化等；对于离散值的属性，可作下面的处理：

若属性值之间存在“序关系”，则可以将其转化为连续值，例如：身高属性分为“高”“中等”“矮”，可转化为数值：{1, 0.5, 0}。
若属性值之间不存在“序关系”，则通常将其转化为向量的形式，例如：性别属性分为“男”“女”，可转化为二维向量：{(1,0),(0,1)}。

当输入属性只有一个的时候，就是最简单的情形，也就是我们高中时最熟悉的“最小二乘法”（Euclidean distance），线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线的欧氏距离之和最小，首先计算出每个样本预测值与真实值之间的误差并求和，通过最小化均方误差MSE，使用求偏导等于零的方法计算出拟合直线y=wx+b的两个参数w和b，计算过程如下所示：
$\begin{aligned} (w^*,b^*)&=\underset{(w,b)}{\arg\min}\sum_{i=1}^m(f(x_i)-y_i)^2 ,求均方误差最小的参数\\ &=\underset{(w,b)}{\arg\min}\sum_{i=1}^m(y_i-wx_i-b)^2 ,代入y=wx+b \end{aligned}$
$\begin{aligned} E_{(w,b)}&=\sum_{i=1}^m(y_i-wx_i-b)^2,展开\\ &=\sum_{i=1}^m(wx_i-(y_i-b))^2\\ &=\sum_{i=1}^m(w^2x_i^2-2wx_i(y_i-b)+(y_i-b)^2)\\ &=\sum_{i=1}^m(b-(y_i-wx_i))^2\\ &=\sum_{i=1}^m(b^2-2b(y_i-wx_i)+(y_i-wx_i)^2) \end{aligned}$

$E_{(w,b)}$ 为 $x^2$ 模式，为凸函数，所以导数为0时误差最小

$\begin{aligned} \frac{\partial{E_(w,b)}}{\partial{w}}&=2(w\sum_{i=1}^mx_i^2+\sum_{i=1}^mx_i(y_i-b)),对w求偏导\\ \frac{\partial{E_(w,b)}}{\partial{b}}&=2(\sum_{i=1}^mb-\sum_{i=1}^m(y_i-wx_i)),对b求偏导\\ &=2(mb-\sum_{i=1}^m(y_i-wx_i)) \end{aligned}$

令 $\overline{x}=\frac1m\sum_{i=1}^mx_i $

求解b
$\begin{aligned} &2(mb-\sum_{i=1}^m(y_i-wx_i))=0\\ b&=\frac1m\sum_{i=1}^m(y_i-wx_i),令偏导=0\\ &=\frac1m\sum_{i=1}^my_i-w\frac1m\sum_{i=1}^mx_i\\ &=\frac1m\sum_{i=1}^my_i-w\overline{x} \end{aligned}$

实际就是经过样本的均值点

求解w
$2(w\sum{i=1}^mx_i^2+\sum{i=1}^mx_i(y_i-b))=0$

$\begin{aligned} w\sum_{i=1}^mx_i^2&=\sum_{i=1}^m(y_i-b)x_i\\ &=\sum_{i=1}^m(x_iy_i-bx_i)\\ &=\sum_{i=1}^mx_iy_i-b\sum_{i=1}^mx_i\\ &=\sum_{i=1}^mx_iy_i-\sum_{i=1}^mx_i(\frac1m\sum_{i=1}^my_i-w\overline{x})\\ &=\sum_{i=1}^mx_iy_i-\frac1m\sum_{i=1}^mx_i\sum_{i=1}^my_i-w\overline{x}\sum_{i=1}^mx_i \end{aligned}$
$w(\sum{i=1}^mx_i^2-\overline{x}\sum{i=1}^mx_i)=\sum{i=1}^mx_iy_i-\frac1m\sum{i=1}^mx_i\sum_{i=1}^my_i$

$\begin{aligned} w&=\frac{\sum_{i=1}^mx_iy_i-\frac1m\sum_{i=1}^mx_i\sum_{i=1}^my_i}{\sum_{i=1}^mx_i^2-\overline{x}\sum_{i=1}^mx_i}\\ &=\frac{\sum_{i=1}^mx_iy_i-\overline{x}\sum_{i=1}^my_i}{\sum_{i=1}^mx_i^2-\frac1m\sum_{i=1}^mx_i\sum_{i=1}^mx_i}\\ &=\frac{\sum_{i=1}^my_i(x_i-\overline{x})}{\sum_{i=1}^mx_i^2-\frac1m(\sum_{i=1}^mx_i)^2} \end{aligned}$
当输入属性有多个的时候，例如对于一个样本有d个属性{(x1,x2…xd),y}，则y=wx+b需要写成： $y_i=w_1x_{i1}+w_2x_{i2}+\cdots+w_dx_{id}+b$
通常对于多元问题，常常使用矩阵的形式来表示数据。在本问题中，将具有m个样本的数据集表示成矩阵X，将系数w与b合并成一个列向量，这样每个样本的预测值以及所有样本的均方误差最小化就可以写成下面的形式
$KaTeX parse error: Expected & or \\ or \cr or \end at position 34: …gin{pmatrix}w_1\̲ ̲w_2\ \cdots\ w_…$

$KaTeX parse error: Expected & or \\ or \cr or \end at position 215: …\ \vdots&\vdots\̲ ̲x_{m}^T&1\\ \en…$

$\begin{aligned} X*\hat{w}&=\begin{pmatrix} x{11}&x{12}&\cdots&x_{1d}&1\\ x{21}&x{22}&\cdots&x_{2d}&1\\ \vdots&\vdots&\ddots&\vdots&\vdots\\ x{m1}&x{m2}&\cdots&x_{md}&1\\ \end{pmatrix}*\begin{pmatrix}w_1\\ w_2\\ \cdots\\ w_d\\ b\end{pmatrix}\\ &=\begin{pmatrix} w_1x{11}+w_2x{12}+\cdots+w_dx_{1d}+b\\ w_1x{21}+w_2x{22}+\cdots+w_dx_{2d}+b\\ \cdots\\ w_1x{m1}+w_2x{m2}+\cdots+w_dx_{md}+b\\ \end{pmatrix}\\ &=\begin{pmatrix} f(x_1)\\ f(x_2)\\ \cdots\\ f(x_m)\\ \end{pmatrix} \end{aligned}$
$\hat{w}^*=\underset{\hat{w}}{\arg\min}(y-x\hat{w})^T(y-x\hat{w})$
同样地，我们使用最小二乘法对w和b进行估计，令均方误差的求导等于0，计算过程如下：

令 $E_{\hat{w}}=(y-x\hat{w})^T(y-x\hat{w})$
$\begin{aligned} E_{\hat{w}}&=(y^T-(X\hat{w})^T))(y-x\hat{w})\\ &=(y^T-X^T\hat{w}^T)(y-x\hat{w})\\ &=(X^T\hat{w}^T-y^T)(x\hat{w}-y)\\ &=\hat{w}^TX^TX\hat{w}-y^TX\hat{w}-\hat{w}^TX^Ty+y^Ty\\ &=\hat{w}^TX^TX\hat{w}-y^TX\hat{w}-y^TX\hat{w}+y^Ty,此处每一个单项式的结果都是1*1的,所以可以直接转置变换\\ &=\hat{w}^TX^TX\hat{w}-2y^TX\hat{w}+y^Ty \end{aligned}$
对 $\hat{w}$ 求导
$\begin{aligned} \frac{\partial{E_{\hat{w}}}}{\partial{\hat{w}}}&=(X^TX+(X^TX)^T)\hat{w}-2y^TX,\frac{\partial{X^TAX}}{\partial{X}}=(A+A^T)X\\ &=2X^TX\hat{w}-2X^Ty \end{aligned}$
令上式=0，可得
$\hat{w}^*=(X^TX)^{-1}X^Ty$
其中 $X^TX)^{-1}$ 是 $X^TX)$ 的逆矩阵， $X^TX)$ 是满秩矩阵或非奇异矩阵
令 $\hat{x}_i=(x_i,1)$ ,则多元线性回归模型为
$f(\hat{x}_i)=\hat{x_i}^T(X^TX)^{-1}X^Ty$
需要注意的是，当一个矩阵的行列式不等于0时，我们才可能对其求逆，因此对于下式，我们需要考虑矩阵（X的转置*X）的行列式是否为0，若不为0，则可以求出其解，若为0，则需要使用其它的方法进行计算，书中提到了引入正则化，此处不进行深入。

另一方面，有时像上面这种原始的线性回归可能并不能满足需求，例如：y值并不是线性变化，而是在指数尺度上变化。这时我们可以采用线性模型来逼近y的衍生物，例如 $ln{y}$ ，这时衍生的线性模型就是对数线性回归
$ln{y}=w^Tx+b$
如下所示，实际上就是相当于将指数曲线投影在一条直线上，形式上还是线性回归的，但实质上已是在求取输入空间到输出空间的非线性函数映射

更一般地，考虑所有y的衍生物的情形，就得到了“广义的线性模型”（generalized linear model），其中，g(*)称为联系函数（link function），是单调可微函数
$y=g^{-1}(w^Tx+b)$

线性几率回归

回归就是通过输入的属性值得到一个预测值，利用上述广义线性模型的特征，是否可以通过一个联系函数，将预测值转化为离散值从而进行分类呢？线性几率回归正是研究这样的问题。
最理想的是单位阶跃函数（unit-step function）
$y=\begin{aligned} \begin{cases} 0,&z<0\\ 0.5,&z=0\\1,&z>0 \end{cases} \end{aligned}$
然而单位阶跃函数不连续，不能直接用作 $g^{-}(.)$ ,所以可引入对数几率函数（logistic function）代替
$y=\frac{1}{1+e^{-z}}$
对数几率函数是一种sigmoid函数，是常用的替代函数（surrogate function），将预测值投影到0-1之间，从而将线性回归问题转化为二分类问题
单位阶跃函数和对数几率函数
将对数几率函数代入 $g^{-}(.)$ 可得
$y=\frac{1}{1+e^{-(w^Tx+b)}}$
变化可得
$\ln{\frac{y}{1-y}}=w^Tx+b$
若将y看做样本为正例的概率，（1-y）看做样本为反例的概率，则上式实际上使用线性回归模型的预测结果器逼近真实标记的对数几率。因此这个模型称为“对数几率回归”（logistic regression），也有一些书籍称之为“逻辑回归”。下面使用最大似然估计的方法来计算出w和b两个参数的取值
$\ln{\frac{p(y=1|x)}{p(y=0|x)}}=w^Tx+b\\ p(y=1|x)=1-p(y=0|x)\\ 1+e^{(w^Tx+b)}\\ p(y=1|x)=\frac{e^{w^Tx+b}}{1+e^{w^Tx+b}}\\ p(y=0|x)=\frac{1}{1+e^{w^Tx+b}}$

$l(w,b)=\sum_{i=1}^m\ln{p(y_i|x_i;w,b)}$

对数变乘为加,最大化释然

线性判别分析

线性判别分析（Linear Discriminant Analysis，简称LDA）,其基本思想是：将训练样本投影到一条直线上，使得同类的样例尽可能近，不同类的样例尽可能远。如图所示：
LDA的二维示意图
给定数据集 $D=\{(x_i,y_i)\}_{i=1}^m$ ， $y_i\in\{0,1\}$ ，令 $X_i、\mu_i、\sum_i$ 分别表示第 $i\in\{0,1\}$ 类示例的集合、均值向量、协方差矩阵。若将数据投影到直线w上，则两类样本的中心在直线上的投影分别为 $w^T\mu_0$ 和 $w^T\mu_1$ ；若将所有样本点都投影到直线上，则两类样本的协方差分别为 $w^T\sum_0w$ 和 $w^T\sum_1w$ 。由于直线是一维空间，因此 $w^T\mu_0$ 、 $w^T\mu_1$ 、 $w^T\sum_0w$ 、 $w^T\sum_1w$ 均为实数

原始数据
$\begin{aligned} X_i&=\begin{bmatrix}x_i\\y_i\end{bmatrix}\\ \mu_i&=\begin{bmatrix}\overline{x}i\\\overline{y}i\end{bmatrix}\\ cov(x,y)&=\frac{\sum{i=1}^n(x_i-\overline{x}i)(y_i-\overline{y}_i)}{n-1}\\ \sum_i&=\begin{bmatrix}cov(x,x)&cov(x,y)\\cov(y,x)&cov(y,y)\end{bmatrix}\\ &=\begin{bmatrix}\frac{\sum_{i=1}^n(x_i-\overline{x}i)(x_i-\overline{x}i)}{n-1}&\frac{\sum_{i=1}^n(x_i-\overline{x}i)(y_i-\overline{y}i)}{n-1}\\\frac{\sum_{i=1}^n(y_i-\overline{y}i)(x_i-\overline{x}i)}{n-1}&\frac{\sum_{i=1}^n(y_i-\overline{y}i)(y_i-\overline{y}i)}{n-1}\end{bmatrix}\\ &=\frac{1}{n-1}\sum_{i=1}^n\begin{bmatrix}(x_i-\overline{x}i)(x_i-\overline{x}i)&(x_i-\overline{x}i)(y_i-\overline{y}i)\\(y_i-\overline{y}i)(x_i-\overline{x}i)&(y_i-\overline{y}i)(y_i-\overline{y}_i)\end{bmatrix}\\ &=\frac{1}{n-1}\sum_{i=1}^n\begin{bmatrix}(x_i-\overline{x}i)\\(y_i-\overline{y}i)\end{bmatrix}\begin{bmatrix}(x_i-\overline{x}i)&(y_i-\overline{y}_i)\end{bmatrix}\\ &=\frac{1}{n-1}\sum_{i=1}^n(X_i-\mu_i)(X_i-\mu_i)^T \end{aligned}$

投影后 $w^T\mu_i,w^TX_i$ 是在w方向上的投影
$\begin{aligned} 投影后的类协方差&=\frac{\sum_{i=1}^n(w^TX_i-w^T\mu_i)(w^TX_i-w^T\mu_i)^T}{n-1}\\ &=\frac{\sum_{i=1}^n(w^T)^2(X_i-\mu_i)(X_i-\mu_i)^T}{n-1}\\ &=\frac{w^T\sum_{i=1}^n(X_i-\mu_i)(X_i-\mu_i)^Tw}{n-1}\\ &=w^T\sum_iw \end{aligned}$

想让同类样本点的投影点尽可能接近，不同类样本点投影之间尽可能远，即：让各类的协方差之和尽可能小，不用类之间中心的距离尽可能大。基于这样的考虑，LDA定义了两个散度矩阵。

类内散度矩阵（within-class scatter matrix）
$\begin{aligned} S_w&=\sum_0+\sum_1\\ &=\sum_{x\in{X_0}}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in{X_1}}(x-\mu_1)(x-\mu_1)^T \end{aligned}$

越小越好
类间散度矩阵(between-class scaltter matrix)
$S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T$

越大越好

因此得到了LDA的最大化目标：“广义瑞利商”（generalized Rayleigh quotient）。
$\begin{aligned} J&=\frac{||w^T\mu_0-w^T\mu_1||_2^2}{w^T\sum_0w+w^T\sum_1w}\\ &=\frac{(w^T\mu_0-w^T\mu_1)^2}{w^T\sum_0w+w^T\sum_1w}\\ &=\frac{(w^T)^2(\mu_0-\mu_1)^2}{w^T(\sum_0+\sum_1)w}\\ &=\frac{w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\sum_0+\sum_1)w}\\ &=\frac{w^TS_bw}{w^TS_ww} \end{aligned}$

越大越好
矩阵的范数
$||x||_p=\sqrt[p]{\sum_i|x_i|^p},p\in R$
从而分类问题转化为最优化求解w的问题，当求解出w后，对新的样本进行分类时，只需将该样本点投影到这条直线上，根据与各个类别的中心值进行比较，从而判定出新样本与哪个类别距离最近。求解w的方法如下所示，使用的方法为
拉格朗日乘子法
$\begin{aligned} &\min\max f\\ &s.t.\ \ \ g=0\\ 即求解\\ &\begin{cases} \nabla f=\lambda\nabla g\\ g=0 \end{cases}\\ \end{aligned}$

J(w)的分子分母都是关于w的二次项，所以其解与w的长度无关，只与方向有关
令 $w^TS_ww=1$ ，即目标函数J(w)化简为等于其分子部分，且受 $w^TS_ww=1$ 约束
$\begin{aligned} &\min_{w}\ -w^TS_bw\\ &s.t.\ \ \ w^TS_ww=1\\ &\Rightarrow S_bw=\lambda{S_ww}\\ S_bw方向恒为\mu_0-\mu_1,令&S_bw=\lambda(\mu_0-\mu_1)\\ &w=S_w^{-1}(\mu_0-\mu_1) \end{aligned}$

若将w看做一个投影矩阵，类似PCA的思想，则LDA可将样本投影到N-1维空间（N为类簇数），投影的过程使用了类别信息（标记信息），因此LDA也常被视为一种经典的监督降维技术。

多分类学习

现实中我们经常遇到不只两个类别的分类问题，即多分类问题，在这种情形下，我们常常运用“拆分”的策略，通过多个二分类学习器来解决多分类问题，即将多分类问题拆解为多个二分类问题，训练出多个二分类学习器，最后将多个分类结果进行集成得出结论。最为经典的拆分策略有三种：“一对一”（OvO）、“一对其余”（OvR）和“多对多”（MvM），核心思想与示意图如下所示。

OvO：给定数据集D，假定其中有N个真实类别，将这N个类别进行两两配对（一个正类/一个反类），从而产生N（N-1）/2个二分类学习器，在测试阶段，将新样本放入所有的二分类学习器中测试，得出N（N-1）个结果，最终通过投票产生最终的分类结果。
OvR：给定数据集D，假定其中有N个真实类别，每次取出一个类作为正类，剩余的所有类别作为一个新的反类，从而产生N个二分类学习器，在测试阶段，得出N个结果，若仅有一个学习器预测为正类，则对应的类标作为最终分类结果。

OvO与OvR示意图