week3 归一化

最新推荐文章于 2022-01-28 16:00:53 发布

zy199336

最新推荐文章于 2022-01-28 16:00:53 发布

阅读量270

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zy199336/article/details/74937257

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

逻辑回归 logistic regression

5.1 分类问题

在分类问题中，我们尝试预测新出现的物体是否属于某个类，从二元分类开始，我们将两个种类分为负向类和正向类，则因变量 $y\in(0,1)$

回顾乳腺癌问题，我们用线性回归方法求出合适的方法求出适合数据的一条直线，如果对于 $h_\theta$ ，我们可以预测
- 当 $h_\theta$ 大于或等于0.5的时候，y=1
- 当 $h_\theta$ 小于0.5的时候，y=0

对于上面这个例子，似乎这条直线可以很好的解决这个问题，但是，如果我们这时候又观测到一个非常大的恶性肿瘤，加入数据，得到一个新的直线，此时，0.5的标准就不那么合适了。

我们这里引入一个新的模型，称为逻辑回归模型，该模型的输出范围始终处于0到1之间： $h_\theta(x)=g(\theta^TX)$
其中：
- X代表特征向量
- g代表逻辑函数，是一个非常常用的s形函数 Sigmoid function,

g (z) = 1 1 + e - z

$g(z)=\frac{1}{1+e^{-z}}$
图像如下：

合起来，有：

h θ (x) = 1 1 + e - θ T X

$h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$
如果用此模型，则对于给定的输入变量，根据选择的参数计算输出变量=1的可能性

hθ(x)=P(y=1|x;0) $h_\theta(x)=P(y=1|x;0)$
例如，对于给定的x，通过已经确定的参数计算出

hθ(x) $h_\theta(x)$ =0.7,那么表示有70%的几率为正向类，相应的有30%几率负向

5.2判定边界

在逻辑回归中，我们预测：
- 当 $h_\theta\ge0$ 时，预测y=1；
- 当 $h_\theta<0$ 时，预测y=0；
既
- 当 $\theta^TX\ge0时$ ，预测y=1；
- 当 $\theta^TX<0时$ ,预测y=0；

现在假设我们有一个模型 $h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2),\theta$ 是[-3 1 1]
当 $-3+x_1+x_2\ge0$ ,预测y=1，可以用 $x_1+x_2=3$ 这条线分开数据点。

也有可能我们的分割线不是直线，二是曲线，例如下面这个，分割线我们可以设为

h θ (x) = g (θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 21 + θ 4 x 22)

$h_\theta(x)=g(\theta_0+\theta_1x_1+\theta_2x_2+\theta_3x_1^2+\theta_4x_2^2)$

5.3 代价函数

对于线性回归模型，我们定义的代价函数是所有模型误差的平方和，但对于逻辑回归来说，此时 $h_\theta(x)=\frac{1}{1+e^{-\theta^TX}}$ ,这样，代价函数J将是一个非凸函数，它有着许多局部最小值，将影响算法寻找最小值

所以，我们将对逻辑回归的例子重新定义代价函数，

J (θ) = {1 m \sum m i = 1 (- l o g (h θ (x))) 1 m \sum m i = 1 (- l o g (1 - h θ (x))) y = 1 y = 0

$J(\theta)=\begin{cases}\frac{1}{m}\sum_{i=1}^m(-log(h_\theta(x)))&y=1\\ \frac{1}{m}\sum_{i=1}^m(-log(1-h_\theta(x)))&y=0 \end{cases}$

h θ (x) 与 C o s t (h θ (x), y) = {- l o g (h θ (x)) - l o g (1 - h θ (x)) y = 1 y = 0 之 间 的 关 系 如 下 图 ：

$h_\theta(x)与Cost(h_\theta(x),y)=\begin{cases}-log(h_\theta(x))&y=1\\ -log(1-h_\theta(x))&y=0 \end{cases}之间的关系如下图：$

从上图可以看出，当实际y=1时， $h_\theta$ 等于1则代价为0，越偏离1，代价越高，实际y=0时， $h_\theta$ 等于0则代价为0，越偏离0，代价越高。

将构造的新 $Cost(h_\theta(x),y)$ 函数简化如下：

C o s t (h θ (x), y) = - y \times l o g (h θ (x)) - (1 - y) \times l o g (1 - h θ (x i))

$Cost(h_\theta(x),y)=-y\times log(h_\theta(x))-(1-y)\times log(1-h_\theta(x^i))$
带入代价函数中，得到新的代价函数为：

J (θ) = - 1 m [\sum i = 1 m y i l o g (h θ (x i)) + (1 - y i) l o g (1 - h θ (x i))]

$J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^my^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right]$

得到新的代价函数以后，我们可以继续用梯度下降算法来求得能使代价函数最小的参数：
循环，直到收敛：

θ j = θ j - α \partial \partial θ j J (θ)

$\theta_j=\theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta)$

= θ j - α \sum i = 1 m (h θ (x i) - y i) x i j

$=\theta_j-\alpha\sum_{i=1}^m(h_\theta(x^i)-y^i)x_j^i$
看起来与线性回归的结果是一致的，但这里的

hθ(x)=g(θTX) $h_\theta(x)=g(\theta^TX)$ 与前面的不同,所以答案是不一样的。
fminunc是matlab中自带的最小值优化函数，具体使用如下：

function[jval,gradient]=costfunction(theta)
    jval=[求出J(theta)的代码]
    gradient=[求出J(theta)倒数的代码]
end
options=optimset('GradOBJ','on','MaxIter','100');
inittheta=zeros(2,1);
[opttheta,functionval,exitflag]=fminunc(@costfunction,inittheta,options)

5.4 多类分类

多类分类中，我们有多个最后的类别，无法使用二元变量(0 or 1)来分类，解决这种问题通常采用一对多的方法来做，我们将多类分类问题转化为二元分类问题，将多个类的其中一个类标记为正向类(y=1)，此外其他的标记为负向类，当训练完成后，我们将另外一个类标记为正向类(y=2), 其他都为负向类，以此类推。
最后当我们需要预测时，每个分类机都运行一遍，得到每种正向类的概率，得到概率最高的那个。

6 归一化

6.1 过拟合问题 overfitting

下面三个分别是低度拟合，正常拟合，过度拟合：

在分类问题中也有这种情况发生：

这里写图片描述

在低度拟合中，我们不能很好的利用训练集来得到准确的结果，而如果是过度你和，虽然我们拟合的结果非常适应训练集，但往往用它进行预测的时候效果不好，或者所花时间过长。
我们可以采取的措施有：
- 丢弃一些无关特征
- 保留特征，但是减小参数的大小

6.2 归一化代价函数 regularization cost function

如果是上一节中第一种预测的过拟合，此时我们的模型是：

h θ (x) = θ 0 + θ 1 x 1 + θ 2 x 22 + θ 3 x 33 + θ 4 x 44

$h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2^2+\theta_3x_3^3+\theta_4x_4^4$
我们要做的就是减少

θ3和θ4 $\theta_3和\theta_4$ 的作用，主要目标就是最后选择较小的

θ3和θ4 $\theta_3和\theta_4$ ,
我们可以做的是在代价函数中加重

θ3和θ4 $\theta_3和\theta_4$ 的比重，这样在整个学习过程的时候最后得到的

θ3和θ4 $\theta_3和\theta_4$ 就比较小。

J (θ) = 1 2 m ⎡ ⎣ ⎢ ⎢ \sum i = 1 m (h θ (x i) - y i) 2 + λ \sum j = 1 n θ 2 j ⎤ ⎦ ⎥ ⎥

$J(\theta)=\frac{1}{2m}\left[\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\lambda\sum_{j=1}^n\theta_j^2\right]$

λ $\lambda$ 又称归一化参数，经过归一化处理的模型与原模型的可能对比如下：

如果

λ $\lambda$ 选择过大，则所有参数都变小了，就像上图的中线一样,低度拟合

6.3 归一化线性回归

归一化线性回归的代价函数为：

J (θ) = 1 2 m ⎡ ⎣ ⎢ ⎢ \sum i = 1 m (h θ (x i) - y i) 2 + λ \sum j = 1 n θ 2 j ⎤ ⎦ ⎥ ⎥

$J(\theta)=\frac{1}{2m}\left[\sum_{i=1}^m(h_\theta(x^i)-y^i)^2+\lambda\sum_{j=1}^n\theta_j^2\right]$
如果我们要进行梯度算法，因为我们未对

θ0 $\theta_0$ 进行归一化，所以将变为：

θ 0 = θ 0 - α 1 m \sum i = 1 m ((h θ (x i) - y i) \cdot x i 0)

$\theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^i)-y^i)·x^i_0)$

θ j = θ j - α 1 m \sum i = 1 m ((h θ (x i) - y i) \cdot x i j + λ m θ j)

$\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^i)-y^i)·x_j^i+\frac{\lambda}{m}\theta_j)$
其中第二式子可以写为：

θ j = θ j (1 - α λ m) - α 1 m \sum i = 1 m ((h θ (x i) - y i) \cdot x i j)

$\theta_j=\theta_j(1-\alpha\frac{\lambda}{m})-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^i)-y^i)·x^i_j)$
可以看出，归一化线性回归的算法在于每一次递减的基础上再额外令

θ $\theta$ 减少了一个值
同样我们可以用正规解方程的方法来解决归一化的问题。

6.4 归一化逻辑回归

对于逻辑回归，我们也可以增加一个归一化表达式，其代价函数可以写为：
$J (θ) = - 1 m [\sum i = 1 m y i l o g (h θ (x i)) + (1 - y i) l o g (1 - h θ (x i))] + λ 2 m \sum j = 1 i θ 2 j$ $J(\theta)=-\frac{1}{m}\left[\sum_{i=1}^my^i log(h_\theta(x^i))+(1-y^i)log(1-h_\theta(x^i))\right]+\frac{\lambda}{2m}\sum_{j=1}^i\theta_j^2$
如果此时用梯度下降算法，有：
循环直至收敛：
$θ 0 = θ 0 - α 1 m \sum i = 1 m ((h θ (x i) - y i) \cdot x i 0)$ $\theta_0=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^i)-y^i)·x^i_0)$
$θ j = θ j - α 1 m \sum i = 1 m ((h θ (x i) - y i) \cdot x i j + λ m θ j)$ $\theta_j=\theta_j-\alpha\frac{1}{m}\sum_{i=1}^m((h_\theta(x^i)-y^i)·x_j^i+\frac{\lambda}{m}\theta_j)$
与线性回归一致，但此时 $h_\theta(x)=g(\theta^TX)$