sklearn总结

对莫老师的sklearn做一下总结。莫老师传送门并且结合scikit中文文档scikit英文文档,对学习的内容做一下总结。这篇博客写的也不错传送门

注意:sklearn中scores函数的准确率是样本均衡后的准确率。
accuracy_score(y, self.predict(X),sample_weight=sample_weight)
加载数据
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
loaded_data = datasets.load_boston()
data_X = loaded_data.data
data_y = loaded_data.target
X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)# 自己模拟生成的虚拟数据
X, y = make_classification(n_samples=300, n_features=2 , n_redundant=0, n_informative=2,
                           random_state=22, n_clusters_per_class=1, scale=100) # 产生随机数据
数据预处理
##数据零均值标准方差
scaler = preprocessing.StandardScaler().fit(X)#得到X的均值和方差
scaler.transform(X) # 对X进行归一化处理,可以同样运用于测试集

##数据缩放到【0,1】范围内
min_max_scaler = preprocessing.MinMaxScaler()

##单位范数
X_normalized = preprocessing.normalize(X, norm='l2')
训练集和测试集分离
X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)

train_test_split(X, y, random_state=4) #随机分离??
模型训练
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)

model = LinearRegression()
model.fit(data_X, data_y)

clf = SVC()
clf.fit(X_train, y_train)
模型预测
knn.predict(X_test)
model.predict(data_X[:4, :]) #只查看前几个样本
模型评估
#利用metrics输出模型性能
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

print(clf.score(X_test, y_test)) #输出准确率
model.score(data_X, data_y) #

#5折交叉验证
scores = cross_val_score(knn, X, y, cv=5, scoring='accuracy')
print(scores) #打印准确率
print(scores.mean()) #打印准确率的均值

#分类问题以及参数选择:
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    loss = -cross_val_score(knn, X, y, cv=10, scoring='mean_squared_error')
    k_scores.append(loss.mean())

#回归问题以及参数选择:
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')
    k_scores.append(scores.mean())

#经典参数选择策略
GridSearchCV
RandomizedSearchCV
模型保存
# method: joblib
from sklearn.externals import joblib
# Save
joblib.dump(clf, 'save/clf.pkl')
# restore
clf3 = joblib.load('save/clf.pkl')
print(clf3.predict(X[0:1]))
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值