回归

最新推荐文章于 2024-07-25 17:01:05 发布

江小修

最新推荐文章于 2024-07-25 17:01:05 发布

阅读量269

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/xijnb/article/details/71124537

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.线性回归（linear regression）

可以说是机器学习中最简单的模型了，用吴恩达机器学习课中的例子来说明。
这里写图片描述
这是一个关于房屋售价的问题，数据如下：
面积（ $m^{2}$ ）价格（万元）
123 250
150 320
87 160
102 220
…. ….
这是训练数据，我们需要学习一个模型，当来一个新的数据（面积）时，可以预测出对应的房屋价格（如上图右边中的绿线）。其中最简单的模型就是线性模型（当变量（特征）是一维的时候是一条直线，是高维的时候是一个超平面）。
我们通常用 $X=(x_1,x_2...x_n)^T \in \mathbb{R}^{n \times p}$ 表示数据矩阵，其中 $x_i \in \mathbb {R}^p$ 表示一个p维的样本； $y=(y_1,y_2...y_n)^T \in \mathbb {R}^n$ 表示数据的标签，这里只考虑每个样本只属于一类的情况。
线性回归模型是对于一个样本 $x_i$ ，其输出是其特征的线性组合：
$f(x_i) = \sum_{m=1}^p w_m x_{im} + w_0 = w^T x_i$
其中 $w_0$ 称为截距，或者bias。
线性回归的目标是用预测结果尽可能的拟合真实label，最常见的是使用平方损失函数作为loss function。
$J(w)=\frac{1}{n} \sum_{i=1}^n (y_i - f(x_i))^2 = \frac{1}{n} || y-Xw || ^2$
下图可以直观的看出线性回归的优化目标–图中线段距离（平方）的平均值，也是最小化到分割平面的距离之和。
这里写图片描述

如何求解w？可以使用最小二乘法，梯度下降法。
利用最小二乘法可以解出 $w^* = (X^T X)^{-1} X^T y$

但这也会有很多问题，其中一个主要问题是 $X^T X$ 不可逆时，目标函数最小化求导为零时方程有无穷个解，没有办法求出最优解，当p>n时一定会出现这种情况，这个时候就需要对w做一些限制，使得解空间变小，这就是regularization(正则化)。

正则化的目的：防止过拟合
正则化的本质：约束要优化的参数

ridge regression (岭回归)
在线性回归的基础上加上 $l_2-norm$ 的约束，loss function是：
$J_R(w) = \frac{1}{2} || y-Xw||^2 + \frac{\lambda}{2}||w||^2$
有解析解：
$w_R^* = (X^T X + \lambda I)^{-1} X^T y$
$\lambda > 0$ 是一个参数。加上了正则项后，对w的模做约束，为让loss function 最小，w的值会比较小，这很大程度上缓解了overfitting的问题；再然后就是上面求逆部分肯定可以解。
在实际应用中，通过调价 $\lambda$ ，可以得到不同的回归模型。

Lasso回归（稀疏约束）
在线性回归的基础上加上 $l_1-norm$ 的约束
在实际应用中，数据的维度中是存在噪声和冗余的，稀疏的解可以找到有用的维度并且减少冗余，提高回归预测的准确性和鲁棒性（减少了overfitting）。在压缩感知、稀疏编码等非常多的机器学习模型中到用到了稀疏约束。
稀疏约束最简单的形式是约束0范式，w的0范式是求w中非零元素的个数，但0范式是不连续的并且非凸，这是很不好求解的。1范式也可以达到稀疏的效果，是0范式的最优凸近似，并且1范式容易求解还是凸的，所以一般情况下稀疏约束都是用的1范式。
Lasso的目标函数：
$J_L(w) = \frac{1}{2} || y-Xw||^2 + \lambda \sum_i |w_i|$

线性回归的优点：简单、易用
线性回归的缺点：拟合能力有限（只是输入到输出的线性变换）、目标值可以是（-∞，+∞），有的时候就不那么方便了。

2.逻辑回归（logistic regression）

逻辑回归可以说是最为常用的机器学习算法之一，最经典的场景就是计算广告中用于CTR预估，是很多广告系统的核心算法。
它是用来做分类的，经典的LR用于二分类。
假设函数： $h_\theta\left(x\right) = g\left(\theta^T x \right) = \frac{1}{1+e^{-\theta^Tx}}$
$g\left(z\right) = \frac{1}{1+e^{-z}}$
这里 $h_\theta\left(x\right)$ 表示样本x为第一类（对于的y=1）的概率，所以有：

$P\left( y=1 | x ; \theta \right) = h_\theta\left(x\right)$

$P\left( y=0 | x ; \theta \right) = 1-h_\theta\left(x\right)$

将两者结合起来：

$P\left( y | x ; \theta \right) = h_\theta\left(x\right)^y \left(1-h_\theta\left(x\right) \right)^\left(1-y\right)$

令 $L\left(\theta\right) = \prod_{i=1}^m P\left( y^\left(i\right) | x^\left(i\right) ; \theta \right)$

对其取对数：

l (θ) = log L (θ) = \sum i = 1 m y (i) log h θ (x (i)) + (1 - y (i)) log (1 - h θ (x (i)))

$l\left(\theta\right) = \log L\left(\theta\right) = \sum_{i=1}^m y^\left(i\right) \log h_\theta\left(x^\left(i\right)\right) + \left(1- y^\left(i\right)\right) \log \left(1-h_\theta\left(x^\left(i\right)\right) \right)$

我们要求的是: $\max_{\theta}{l\left(\theta\right)}$

采用梯度上升的方法

$\frac{\partial l\left(\theta\right)}{\partial \theta_j} = \sum_{i=1}^m \left( \frac{y^\left(i\right)}{h_\theta \left( x^\left(i\right)\right)} - \frac{1-y\left(i\right)}{1- h_\theta \left( x^\left(i\right)\right)} \right) \frac{\partial h_\theta \left( x^\left(i\right)\right)}{\partial \theta_j}$

$= \sum_{i=1}^m \left( \frac{y^\left(i\right)}{g \left( \theta^T x^\left(i\right)\right)} - \frac{1-y\left(i\right)}{1- g\left( \theta^T x^\left(i\right)\right)} \right) g\left(\theta^T x^\left(i\right)\right)\left( 1- g\left(\theta^T x^\left(i\right)\right) \right) x_j^\left(i\right)$

$= \sum_{i=1}^m \left( y^\left(i\right) - g\left(\theta^T x^\left(i\right)\right)\right) x_j^\left(i\right)$

$\theta := \theta + \alpha \sum_{i=1}^m \left( y^\left(i\right) - g\left(\theta^T x^\left(i\right)\right)\right) x_j^\left(i\right)$

3.Softmax Regression

多分类问题，LR是Softmax的一个特例。
这里写图片描述
如果有多类，可以采用多个二分类，也可以采用softmax。该如何选择？一般来说可以根据类别是否互斥来决定：如果互相之间有重合（或者本身在语义上并不相关，比如一张图片“是否是风景照片”和“是否有人“），那么就可以用k个LR；如何类别之间是互斥的，就可以采用softmax。
当有k个类别的时候，样本 $x^{(i)}$ 属于第j类的概率为：
$p(y^{(i)}=j|x^{(i)};w) = \frac{e^{w_j^Tx^{(i)}}}{\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}}$
类似逻辑回归，其似然函数为：
$\prod_{i=1}^{N}\prod_{j=1}^{k}(\frac{e^{w_j^Tx^{(i)}}}{\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}})^{\textbf{1}\{y^{(i)}=1\}}$
目标函数是:
$\min_{w} \quad J(w) = -\frac{1}{N}\sum_{i=1}^{N}\sum_{j=1}^{k}\left[{\textbf{1}\{y^{(i)}=1\}}\log\frac{e^{w_j^Tx^{(i)}}}{\sum_{l=1}^{k}e^{w_l^Tx^{(i)}}}\right]$
求出目标函数对于参数的梯度，对于每一个输出目标j，其对于参数 $w_j$ 的梯度为：
$\nabla_{w_j} L(w) = \frac{\partial J(w)}{\partial w_j} = -\frac{1}{N}\sum_{i=1}^{N} x_i\left( \textbf{1}\{y^{(i)}=j\} - p(y^{(i)}=j|x^{(i)};w) \right)$
对于每一个 $w_j$ ，j=1，2，…，k，采用更新：
$w_j = w_j - \alpha\cdot \nabla_{w_j} L(w)$
也可以在目标函数后面加上正则项。

参考资料：
[1]http://blog.csdn.net/xbinworld/article/details/43919445
[2]http://blog.csdn.net/wsj998689aa/article/details/39547771
[3]http://blog.csdn.net/zouxy09/article/details/24971995

江小修

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
回归

1.线性回归（linear regression）可以说是机器学习中最简单的模型了，用吴恩达机器学习课中的例子来说明。这是一个关于房屋售价的问题，数据如下：面积（m2m^{2}）价格（万元） 123 250 150 320 87 160 102 220 …. …. 这是训练数据，我们需要学习一个模型，当来一个新的数据（面积）时，可以预
复制链接

扫一扫