机器学习中的正则化处理

最新推荐文章于 2023-03-06 10:18:55 发布

Frank_Underwood_

最新推荐文章于 2023-03-06 10:18:55 发布

阅读量741

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/yumei7865/article/details/75208932

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

正则化处理

在之前的文章中介绍了线性回归和Logistic回归两种机器学习模型，对于回归模型而言(虽然Logistic是一种分类模型，但是其中的决策边界函数 $z=\theta^{T} X$ 是一个回归函数)，经常会出现过拟合的问题，对于过拟合的问题，通常有两种处理方法，一种是减少特征的个数，也就是选取其中更加重要的特征。另外一种方法则是采取正则化处理，也就是将 $(\theta_{1},\theta_{2},\theta_{3}...)$ 等作为惩罚因子加入代价函数中，并且引入正则化因子 $\lambda$ 来控制过拟合或欠拟合的程度，当 $\lambda$ 太大的时候，优化过程中 $\theta$ 会变得很小而趋近于0，从而会导致欠拟合的现象，相反，如果 $\lambda$ 太小，从而趋近于0的情况下， $\theta$ 会变得较大而出现过拟合的现象，在实际应用中要多次调整 $\lambda$ 从而获得较为理想的拟合效果。

对于线性回归，加入 $\theta$ 之后的代价函数为

J (θ) = 1 2 m (\sum i = 1 m (h θ (x (i)) - y (i)) 2 + λ \sum j = 1 n θ 2 j)

$J(\theta)=\dfrac{1}{2m}(\sum^{m}_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^{2}+\lambda\sum^{n}_{j=1}\theta_{j}^{2})$ 可以求出其梯度为

\partial \partial θ J (θ) = 1 m \sum i = 1 m ((h θ (x (i)) - y (i)) x (i) + λ m θ)

$\dfrac{\partial}{\partial\theta}J(\theta)=\dfrac{1}{m}\sum^{m}_{i=1}((h_{\theta}(x^{(i)})-y^{(i)})x^{(i)}+\dfrac{\lambda}{m}\theta)$ 需要注意的是，正则化处理通常只将

θ1,θ2,θ3...θn $\theta_{1},\theta_{2},\theta_{3}...\theta_{n}$ 做为惩罚因子，而对

θ0 $\theta_{0}$ 不做处理，也就是说要注意，在上面求得

J(θ) $J(\theta)$ 的表达式中

j $j$ 是从1开始的。在上面求梯度的式子中的

θ $\theta$ 是将其第一个值

θ0 $\theta_{0}$ 置0之后得到的向量。

之后便可以利用梯度下降的方法来求解或者将梯度传入更加高级的计算函数来进行计算。

对于Logistic回归，同样的我们可以得到其代价函数为

J (θ) = - 1 m \sum i = 1 m (y (i) l o g (h θ (x (i))) + (1 - y (i)) l o g (1 - h θ (x (i))) - λ 2 m \sum i = 1 n θ 2 j)

$J(\theta)=-\dfrac{1}{m}\sum_{i=1}^{m}(y^{(i)}log(h_{\theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))-\dfrac{\lambda}{2m}\sum_{i=1}^{n}\theta_{j}^{2})$ 同样的，求得其梯度为

\partial \partial θ J (θ) = 1 m \sum i = 1 m ((h θ (x (i)) - y (i)) x (i) + λ m θ)

$\dfrac{\partial}{\partial\theta}J(\theta)=\dfrac{1}{m}\sum^{m}_{i=1}((h_{\theta}(x^{(i)})-y^{(i)})x^{(i)}+\dfrac{\lambda}{m}\theta)$

下面给出关键几个部分的Matlab代码实现

//变量的定义和上一篇文章一样，这里不再多说
J=-1/m*(y'*log(sigmoid(X*theta))+(1-y')*log(1-sigmoid(X*theta)))+lambda/2/m*(theta'*theta-theta(1)^2);  %求出正则化的Logistic回归的代价函数
grad=((sigmoid(X*theta)-y)'*X)'/m;  %正则化之前的梯度
temp=theta;
temp(1)=0;
grad=grad+lambda*temp/m;    %正则化之后的梯度
--------------------
这里的代码都是我在上Coursera上面的机器学习课程的时候所写的，都已经通过了多个Demo的测试，完整代码在我的Github上:
https://github.com/Lannyy/MachineLearning

在最后多说一句，对于Logistic回归中的多分类问题，可以将其分成多个二分类问题来解决，每个tag的二分类问题都是处理“是”或者“不是”这样的问题，通过回归函数得到该输入是每个tag的概率，即 $P_{i}(y=1|x;h_{\theta(i)})$ ，最后取其中 $P$ 最大的时候的tag即为该输入 $x$ 的分类。

Frank_Underwood_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习中的正则化处理

归一化处理在之前的文章中介绍了线性回归和Logistic回归两种机器学习模型，对于回归模型而言(虽然Logistic是一种分类模型，但是其中的决策边界函数z=θTXz=\theta^{T} X是一个回归函数)，经常会出现过拟合的问题，对于过拟合的问题，通常有两种处理方法，一种是减少特征的个数，也就是选取其中更加重要的特征。另外一种方法则是采取归一化处理，也就是将(θ1,θ2,θ3...)(\thet
复制链接

扫一扫