Datawhale 初级算法梳理第6期（任务二）

最新推荐文章于 2019-04-02 10:30:26 发布

小道 Douglas

最新推荐文章于 2019-04-02 10:30:26 发布

阅读量246

点赞数

本文链接：https://blog.csdn.net/xiaodao_Douglas/article/details/88943173

版权

Datawhale 初级算法梳理第6期（任务二）

1. 逻辑回归与线性回归的联系与区别

线性回归要求变量服从正态分布，逻辑回归对变量分布没有要求。
线性回归要求因变量是连续性数值变量，而逻辑回归要求因变量是分类型变量。
线性回归要求自变量和因变量呈线性关系，而逻辑回归不要求自变量和因变量呈线性关系。
逻辑回归是分析因变量取某个值的概率与自变量的关系，而线性回归是直接分析因变量与自变量的关系。

2. 逻辑回归的原理

逻辑回归也被称为对数几率回归，该算法是分类算法，逻辑回归用了和回归类似的方法来解决了分类问题。

3. 逻辑回归损失函数

模仿线性回归的做法，利用误差平方和来当代价函数:

$J\left( \theta \right) = \frac{1} {{2m}}\sum\limits_{i = 0}^m {{{\left[ {\phi \left( {{x^i}} \right) - {y^i}} \right]}^2}}$

同时将预测函数 $g\left( {{z^{\left( i \right)}}} \right) = \frac{1} {{1 + {e^{ - z\left( i \right)}}}}$
代入损失函数。

4. 正则化与模型评估指标

模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或惩罚项。正则化项一版是模型复杂度的单调递增函数，模型越复杂，正则化值就越大。比如，正则化项可以是模型参数向量的范数。

5. 逻辑回归的优缺点

逻辑回归是解决工业规模问题最流行的算法。在工业应用上，如果需要分类的数据拥有很多有意义的特征，每个特征都对最后的分类结果有或多或少的影响，那么最简单最有效的办法就是将这些特征线性加权，一起参与到决策过程中。比如预测广告的点击率，从原始数据集中筛选出符合某种要求的有用的子数据集等等。

优点：
1）适合需要得到一个分类概率的场景。
2）计算代价不高，容易理解实现。逻辑回归在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。
3）逻辑回归对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。（严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，但是若要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。）

缺点：
1）容易欠拟合，分类精度不高。
2）数据特征有缺失或者特征空间很大时表现效果并不好。

6. 样本不均衡问题解决办法

线性回归做分类因为考虑了所有样本点到分类决策面的距离，所以在两类数据分布不均匀的时候将导致误差非常大；逻辑回归克服了这个缺点，其中LR将所有数据采用sigmod函数进行了非线性映射，使得远离分类决策面的数据作用减弱。

7. sklearn参数详解

逻辑回归：

sklearn.linear_model.LogisticRegression

penalty:正则化选择参数，参数可选值为l1和l2，分别对应l1正则化和l2正则化，默认是l2正则化。调整该参数的目的主要是为了防止过拟合，一般penalty选择l2正则化就够啦，但是如果选择l2正则化发现依然过拟合，即预测效果还是很差的时候，就可以考虑l1正则化。如果模型的特征非常多，我们希望做一些特征选择（即把一些不重要的特征过滤掉），这个时候也可以考虑用l1正则化。
dual:用来指明是否将原问题改成他的对偶问题，对偶问题可以理解成相反问题，比如原问题是求解最大值的线性规划，那么他的对偶问题就是转化为求解最小值的线性规划，适用于样本较小的数据集，因样本小时，计算复杂度较低。
tol:残差收敛条件，默认是0.0001，也就是只需要收敛的时候两步只差＜0.0001就停止，可以设置更大或更小。(逻辑回归模型的损失函数是残差平方和)
C:正则化系数，正则化强度的导数，必须是一个正数，值越小，正则化强度越大，即防止过拟合的程度更大。
fit_intercept:是否将截距/方差加入到决策模型中，默认为True。
class_weight:class_weight是很重要的一个参数，是用来调节正负样本比例的，默认是值为None，也就是正负样本的权重是一样的，你可以以dict的形式给模型传入任意你认为合适的权重比，也可以直接指定一个值“balanced”，模型会根据正负样本的绝对数量比来设定模型最后结果的权重比。
random_state:随机种子的设置，默认是None,如果设置了随机种子，那么每次使用的训练集和测试集都是一样的，这样不管你运行多少次，最后的准确率都是一样的；如果没有设置，那么每次都是不同的训练集和测试集，最后得出的准确率也是不一样的。
solver:用来指明损失函数的优化方法，默认是‘liblinear’方法。
参数值
max_iter:算法收敛的最大迭代次数，即求取损失函数最小值的迭代次数，默认是100，
multi_class:分类方法参数选择，‘ovr’和‘multinomial’两个值可以选择，默认值为‘ovr’，如果分类问题是二分类问题，那么这两个参数的效果是一样的，主要体现在多分类问题上。
verbose:英文意思是”冗余“，就是会输出一些模型运算过程中的东西（任务进程），默认是False，也就是不需要输出一些不重要的计算过程。
warm_start:是否使用上次的模型结果作为初始化，默认是False，表示不使用。
n_jobs:并行运算数量(核的数量)，默认为1，如果设置为-1，则表示将电脑的cpu全部用上。

参考资料

【1】逻辑回归和线性回归区别
【2】逻辑回归算法原理
【3】LR逻辑斯回归分析（优缺点）
【4】Sklearn参数详解—LR模型

小道 Douglas

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale 初级算法梳理第6期（任务二）

目录Datawhale 初级算法梳理第6期（任务二）1. 逻辑回归与线性回归的联系与区别2. 逻辑回归的原理3. 逻辑回归损失函数4. 正则化与模型评估指标5. 逻辑回归的优缺点6. 样本不均衡问题解决办法7. sklearn参数详解参考资料Datawhale 初级算法梳理第6期（任务二）1. 逻辑回归与线性回归的联系与区别线性回归要求变量服从正态分布，逻辑回归对变量分布没有要求。线...
复制链接

扫一扫