1、支持向量机
是对线性和非线性数据进行分类的方法。
使用一种非线性映射,把原训练数据映射到较高的维上,在新的维上,它搜索最佳分离超平面。使用到足够高维上的、合适的非线性映射,两个类的数据总可以被超平面分开。与其他模型相比,支持向量机不太容易过拟合。
2、api
from sklearn.svm import SVC
model = SVC()
model.fit(X,y)
参数
C: 惩罚系数,用来控制损失函数的惩罚系数,c很大,边界不能有数据,c很小,则可以
kernel: 算法中采用的核函数类型,参数选择有RBF, Linear, Poly, Sigmoid,precomputed
degree: 当指定kernel为’poly’时,表示选择的多项式的最高次数
gamma: 核函数系数,该参数是rbf,poly和sigmoid的内核系数
解决回归问题
from sklearn.svm import SVR
核函数
核函数就是特征转换函数
1、多项式核函数(ploy)
2、高斯核函数(RBF)
根据样本量mm和特征量nn进行选择:
- 特征相比样本较大(如m=10~1000,n=10000):选逻辑回归或者线性函数SVM
- 特征较少,样本量中(如m=10~10000,n=1~1000):选择高斯SVM
- 特征量少,样本多(如m=50000+,n=1~1000):选多项式或高斯SVM