sklearn的svc参数总结及cross_validation

最新推荐文章于 2024-08-07 09:41:39 发布

zcc_0015

最新推荐文章于 2024-08-07 09:41:39 发布

阅读量8.5k

点赞数 1

分类专栏：数据挖掘 python

本文链接：https://blog.csdn.net/zcc_0015/article/details/52151654

版权

数据挖掘同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

python

13 篇文章 0 订阅

订阅专栏

1、svc参数的说明

SVC参数解释
（1）C: 目标函数的惩罚系数C，用来平衡分类间隔margin和错分样本的，default C = 1.0；
（2）kernel：参数选择有RBF, Linear, Poly, Sigmoid, 默认的是"RBF";
（3）degree：if you choose 'Poly' in param 2, this is effective, degree决定了多项式的最高次幂；
（4）gamma：核函数的系数('Poly', 'RBF' and 'Sigmoid'), 默认是gamma = 1 / n_features;
（5）coef0：核函数中的独立项，'RBF' and 'Poly'有效；
（6）probablity: 可能性估计是否使用(true or false)；
（7）shrinking：是否进行启发式；
（8）tol（default = 1e - 3）: svm结束标准的精度;
（9）cache_size: 制定训练所需要的内存（以MB为单位）；
（10）class_weight: 每个类所占据的权重，不同的类设置不同的惩罚参数C, 缺省的话自适应；
（11）verbose: 跟多线程有关，不大明白啥意思具体；
（12）max_iter: 最大迭代次数，default = 1， if max_iter = -1, no limited;
（13）decision_function_shape ： ‘ovo’ 一对一, ‘ovr’ 多对多  or None 无, default=None
（14）random_state ：用于概率估计的数据重排时的伪随机数生成器的种子。

2、交叉验证

from sklearn.cross_validation import cross_val_score

metric = cross_val_score(clf,X,y,cv=5,scoring=‘ ‘).mean()

[‘accuracy‘, ‘adjusted_rand_score‘, ‘average_precision‘, ‘f1‘, ‘f1_macro‘, ‘f1_micro‘, ‘f1_samples‘, ‘f1_weighted‘, ‘log_loss‘, ‘mean_absolute_error‘, ‘mean_squared_error‘, ‘median_absolute_error‘, ‘precision‘, ‘precision_macro‘, ‘precision_micro‘, ‘precision_samples‘, ‘precision_weighted‘, ‘r2‘, ‘recall‘, ‘recall_macro‘, ‘recall_micro‘, ‘recall_samples‘, ‘recall_weighted‘, ‘roc_auc‘]

模型评估（预测的质量）：存在三种方式来评估预测结果的质量

1、Estimator score method：每个估计模型都有自己的评价方式，可以直接使用

2、Scoring parameter：模型评价工具使用cross-validation( cross_validation.cross_val_score和grid_search.GridSearch)

3、Metric functions: 实现功能评估为特定目的的功能

交叉验证（cross-validation）

1)切分数据：使用train_test_split函数很容易的实现随机的切分形成training和test数据集。

x_train,x_test,y_train,y_test=cross_validation.train_test_split(iris.data,iris.target,test_size=0.4,random_state=0)

clf.svm.SVC(kernel='linear',C=1).fit(x_train,y_train)

clf.score(x_test,y_test)

2）cv：最简单的方式是使用函数cross_val_score，当cv为数字时，默认采用的是KFold或者stratifiedKFold

clf=svm.SVC(kernel='linear',C=1)

scores=cross_validation.cross_val_score(clf,iris.data,iris.target,cv=5)

scores==>得到array([1. ..., 0.96..., 0.9 ..., 0.96..., 1. ])

平均分数和标准偏差估计分数：scores.mean() scores.std()

上面的方式cv的每次迭代都是计算的score，我们可以通过加入scoring参数来计算不同的指标

from sklearn import metrics

cross_validation.cross_val_score(clf,iris.data,iris.target,cv=5,scoring='f1')

==>得到 array([ 1. ..., 0.96..., 0.89..., 0.96..., 1. ])

注：scoring的默认取值以及对应的函数名称

Classification

‘accuracy’ sklearn.metrics.accuracy_score

‘average_precision’ sklearn.metrics.average_precision_score

‘f1’ sklearn.metrics.f1_score f1就是F-measure

‘precision’ sklearn.metrics.precision_score

‘recall’ sklearn.metrics.recall_score

‘roc_auc’ sklearn.metrics.roc_auc_score

Clustering

‘adjusted_rand_score’ sklearn.metrics.adjusted_rand_score

Regression

‘mean_squared_error’ sklearn.metrics.mean_squared_error

‘r2’ sklearn.metrics.r2_score

zcc_0015

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
sklearn的svc参数总结及cross_validation

1、svc参数的说明SVC参数解释（1）C: 目标函数的惩罚系数C，用来平衡分类间隔margin和错分样本的，default C = 1.0；（2）kernel：参数选择有RBF, Linear, Poly, Sigmoid, 默认的是"RBF";（3）degree：if you choose 'Poly' in param 2, this is effective, degree决定了
复制链接

扫一扫

专栏目录