带核函数的SVM
实质:其实就是避免只能进行线性分割,通过核函数,将特征映射到高维空间中,以此选择出合适的超平面进行分割
一般选择核函数:常用rbf-高斯核函数,但是需要调C和γ两个参数(交叉验证、网格搜索)
C项:
错误项的惩罚系数。C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。相反,减小C的话,容许训练样本中有一些误分类错误样本,泛化能力强。对于训练样本带有噪声的情况,一般采用后者,把训练样本集中错误分类的样本作为噪声
γ项:高斯分布的精度
越大,精度越大,分类的精度提高–太大容易过拟合
Faix—指的是映射项,通过n维的映射进行升维
高斯核为什么具有普适性:将高斯核函数进行泰勒展开,发现映射函数还是包含了从1-n阶的x数,所以高斯是无穷维的
SVR用于做回归
多分类问题:一对一做分类或者一对多做分类 ,最后集成分类结果
简写:ovr(one vs rest)多少个特征最后的分类器中有多少个值、ovo(one vs one)每个特征两两分类,最终分类器中的值大于原特征个数
SVM包–着重用SVC分类器
decision_function_shape=;ovr
表明次分类器采用的方式最后输出值和特征值个数相等
采用线性核函数给0.1惩罚率,表示给一定的错误机会decision_function_shape=’ovr’—通过多个二分类得到一个三分类(one vs rest类型)
采用ovo形式