SVM分类
支持向量机(Support vector Machine)是一种有监督学习方法,主要思想是建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的举例最大化,从而对分类问题提供良好的泛化能力
1.线性可分支持向量机与硬间隔最大化
2.线性可分支持向量机与软间隔最大化
非线性支持向量机与核函数
常用核函数:线性核函数;多项式核函数;高斯核函数;混合核
SVM的优点:
相对于其他训练分类算法不需要过多样本,并且由于SVM引入了核函数,所以SVM可以处理高维样本
结构风险最小,这种风险是指分类器对问题真实模型的逼近与问题真实解之间的累积误差。
非线性是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也叫惩罚变量)和核函数技术来实现,这一部分也正是SVM的精髓所在。
逻辑回归
logistic回归是一个分类算法,它可以处理二元分类以及多元分类,首先逻辑回归构造广义的线性回归函数,然后使用sigmoid函数将回归值映射到离散类别
二项逻辑回归模型;多项逻辑回归模型
为什么要用sigmoid函数?
sigmoid曲线在中心附近增长速度较快,在两端增长速度较慢,取值在0-1之间
1.它的输入范围是负无穷到正无穷(全开)区间,而输出刚好为(0,1),正好满足概率分布为(0,1)的要求,从贝叶斯的角度看,只要类条件概率服从指数分布都可以推出后验概率为sigmoid函数形式
2.它是一个单调上升的函数,具有良好的连续性,不存在不连续点,微分形式简单
逻辑回归与最大熵模型
熵是随机变量不确定的度量,不确定性越大,熵值就越大
数学上解决问题最漂亮的方法是最大熵模型,简单说,就是保留全部的不确定性,将风险降到最小
最大熵原理指出,对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。
逻辑回归是最大熵的特殊情况(对数线性模型)
最大熵模型特点
形式上看,它非常简单,非常优美。
效果上看,唯一一种既能满足各个信息源的限制条件,又能集证平滑性的模型
缺点:计算量巨大,在工程上实现方法的好坏决定了模型的实用与否。