逻辑回归是一种分类算法,可用于预测事件发生的概率或某事物属于某一类别的概率。对于多元分类问题可以将其简化为二元分类问题。逻辑回归是以Logistic函数为基础的,该函数的取值介于0到1之间,这与概率值相吻合。
为使用逻辑回归进行分类,要定义一个相应的函数。下面创建分类器对象。
clf=LogisticRegression(random_state=12)
为防止出现过拟合的现象,我们将采用k-折交叉验证技术来进行交叉验证。它会把数据集随机分为k(一个小整数)份,每一份称为一个包。在这k次迭代过程中,每个包会有一次被用于验证,其余9次用于训练。迭代的结果可在最后进行合并。而对于k-折交叉验证,scikit-learn中提供了一个KFold类。
创建一个具有10个包的KFlod对象
kf=KFold(n_splits=10)
再使用fit()函数训练数据
clf.fit(x[train],y[train])
使用score方法来衡量分类的准确性
scores.append(clf.score(x[test],y[test]))
下面用之前预处理的数据进行分类
我们将日期和降雨量作为特征,同时定义晴天为0,即降雨量为0;-1表示小雨天,最后剩下的就是雨天,把三种类别与数据值的符号相关联。
y=np.sign(rain[1:])
得到的平均准确率为
Accurancy 0.577211706428828
当我们使用sklearn中iris数据集进行分类时,准确率为
Accurancy 0.7066666666666667
完整代码如下:
"XU YONG KANG"
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.model_selection import KFold
import numpy as np
def classify(x,y):
'''使用逻辑回归进行分类'''
clf=LogisticRegression(random_state=12)
scores=[]
kf=KFold(n_splits=10)
for train, test in kf.split(x):
clf.fit(x[train],y[train])
scores.append(clf.score(x[test],y[test]))
print('Accurancy',np.mean(scores))
rain=np.load('rain.npy')
dates=np.load('doy.npy')
x=np.vstack((dates[:-1],rain[:-1]))
y=np.sign(rain[1:])
classify(x.T,y)
#iris example
iris=datasets.load_iris()
x=iris.data[:,:2]
y=iris.target
classify(x,y)