学习目标:
通过使用jupyter notebook学会机器学习中分类模型的评估和优化的其中一种方法:
【网格搜索】
实验步骤:
1、导入相应的分类模型的评估与优化的库并进行实例化
#网格搜索就是调参的工具
from sklearn import svm
from sklearn import datasets
from sklearn.model_selection import GridSearchCV
import pandas as pd
iris = datasets.load_iris()
parrameters = {'kernel':('linear','rbf'),'C':[1,10]}
svc = svm.SVC(probability = True)
clf = GridSearchCV(svc,parrameters)
clf.fit(iris.data,iris.target)
结果为:
GridSearchCV(estimator=SVC(probability=True),
param_grid={'C': [1, 10], 'kernel': ('linear', 'rbf')})
【注】decision_ function返回数据点属于每个类别的判定系数,若为正数,则代表该点属于这一类,负数则表示该点不属于这一类。判定系数的绝对值越大,判断的可信度越高。
2、导入SVC库
from sklearn.svm import SVC
clf.cv_results_
显示为:
3、显示所有拟合模型的参数设定
pd.DataFrame(clf.cv_results_)
结果为:
clf.best_params_
结果为:
{'C': 1, 'kernel': 'linear'}
4、显示数据
print(clf.decision_function(iris.data))
结果为:
(仅显示部分数据,一切以实验为准)
5、导入相应的库
import scipy.stats as stats
from sklearn import datasets
from sklearn.model_selection import RandomizedSearchCV
import pandas as pd
from sklearn.svm import SVC
6、导入鸢尾花数据集并设定参数
iris = datasets.load_iris()
parameters = {'kernel':('linear','rbf'),
'C':stats.expon(scale=100),
'gamma':stats.expon(scale = .1),
'class_weight':('balanced',None)}
实例化:
svc = SVC()
clf = RandomizedSearchCV(svc,parrameters)
clf.fit(iris.data,iris.target)
结果为:
RandomizedSearchCV(estimator=SVC(),
param_distributions={'C': [1, 10],
'kernel': ('linear', 'rbf')})
pd.DataFrame(clf.cv_results_)
结果显示为:
clf.best_params_
结果为:
{'kernel': 'linear', 'C': 1}