SVM 准备工作(SVM vs LR)

最新推荐文章于 2021-03-30 00:59:48 发布

xiewenbo

最新推荐文章于 2021-03-30 00:59:48 发布

阅读量1.8k

点赞数

分类专栏：机器学习和数据挖掘

机器学习和数据挖掘专栏收录该内容

64 篇文章 2 订阅

订阅专栏

一、SVM vs LR综述

两种方法都是常见的分类算法，从目标函数来看，区别在于逻辑回归采用的是logistical loss，svm采用的是hinge loss。这两个损失函数的目的都是增加对分类影响较大的数据点的权重，减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器。而逻辑回归通过非线性映射，大大减小了离分类平面较远的点的权重，相对提升了与分类最相关的数据点的权重。两者的根本目的都是一样的。此外，根据需要，两个方法都可以增加不同的正则化项，如l1,l2等等。所以在很多实验中，两种算法的结果是很接近的。

但是逻辑回归相对来说模型更简单，好理解，实现起来，特别是大规模线性分类时比较方便。而SVM的理解和优化相对来说复杂一些。但是SVM的理论基础更加牢固，有一套结构化风险最小化的理论基础，虽然一般使用的人不太会去关注。还有很重要的一点，SVM转化为对偶问题后，分类只需要计算与少数几个支持向量的距离，这个在进行复杂核函数计算时优势很明显，能够大大简化模型和计算量。

二、SVM vs LR 根据样本以及特征数据进行选择

n是feature的数量 m是样本数
a、如果n相对于m来说很大，则使用LR算法或者不带核函数的SVM（线性分类）
n远大于m，n=10000，m=10-1000
b、如果n很小，m的数量适中（n=1-1000，m=10-10000）
使用带有核函数的SVM算法
c、如果n很小，m很大（n=1-1000，m=50000+）
增加更多的feature然后使用LR算法或者不带核函数的SVM
LR和不带核函数的SVM比较类似。

三、SVM vs LR 不同点与相同点

不同点：

1.logistic regression适合需要得到一个分类概率的场景，SVM则没有分类概率
2.LR其实同样可以使用kernel，但是LR没有support vector在计算复杂度上会高出很多。如果样本量很大并且需要的是一个复杂模型，那么建议SVM
3. 如果样本比较少，模型又比较复杂。那么建议svm，它有一套比较好的解构风险最小化理论的保障，比如large margin和soft margin

相同
1. 由于hinge loss和entropy loss很接近，因此得出来的两个分类面是非常接近的
2. 都是在两个loss上做了一个regularization

其它

1 SVM和logistic regression区别在 loss fuction. SVM是hingle loss,LR是交叉熵。所以LR对远点敏感，而SVM完全没有。另外SVM可以将特征映射到无限维空间，而LR不能。

2 一般实际小数据实验SVM要优于LR。

3 另外SVM无法预测概率，而LR可以，所以像点击率预估这种只能用LR。

四、在Andrew NG的课里讲到过的核选择依据

1. 如果Feature的数量很大，跟样本数量差不多，这时候选用LR或者是Linear Kernel的SVM
2. 如果Feature的数量比较小，样本数量一般，不算大也不算小，选用SVM+Gaussian Kernel
3. 如果Feature的数量比较小，而样本数量很多，需要手工添加一些feature变成第一种情况

五、工业界的离散特征 for LR

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：

0. 离散特征的增加和减少都很容易，易于模型的快速迭代；

1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；

2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；

3. 逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；

4. 离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；

5. 特征离散化后，模型会更稳定，比如如果对用户年龄离散化，20-30作为一个区间，不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反，所以怎么划分区间是门学问；

6. 特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

李沐曾经说过：模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。就看是喜欢折腾特征还是折腾模型了。通常来说，前者容易，而且可以n个人一起并行做，有成功经验；后者目前看很赞，能走多远还须拭目以待。

https://www.quora.com/What-are-the-advantages-of-support-vector-machines-SVM-compared-with-linear-regression-or-logistic-regression

http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/

http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part2/

https://www.zhihu.com/search?type=content&q=SVM%E5%92%8Clogistic