基于逻辑回归的分类

最新推荐文章于 2024-05-12 21:44:10 发布

水文康

最新推荐文章于 2024-05-12 21:44:10 发布

阅读量498

点赞数 1

文章标签： python 数据分析 sklearn 分类逻辑回归

本文链接：https://blog.csdn.net/weixin_51956867/article/details/123099326

版权

逻辑回归是一种分类算法，可用于预测事件发生的概率或某事物属于某一类别的概率。对于多元分类问题可以将其简化为二元分类问题。逻辑回归是以Logistic函数为基础的，该函数的取值介于0到1之间，这与概率值相吻合。
为使用逻辑回归进行分类，要定义一个相应的函数。下面创建分类器对象。

clf=LogisticRegression(random_state=12)

为防止出现过拟合的现象，我们将采用k-折交叉验证技术来进行交叉验证。它会把数据集随机分为k(一个小整数）份，每一份称为一个包。在这k次迭代过程中，每个包会有一次被用于验证，其余9次用于训练。迭代的结果可在最后进行合并。而对于k-折交叉验证，scikit-learn中提供了一个KFold类。
创建一个具有10个包的KFlod对象

 kf=KFold(n_splits=10)

再使用fit（）函数训练数据

clf.fit(x[train],y[train])

使用score方法来衡量分类的准确性

scores.append(clf.score(x[test],y[test]))

下面用之前预处理的数据进行分类
我们将日期和降雨量作为特征，同时定义晴天为0，即降雨量为0；-1表示小雨天，最后剩下的就是雨天，把三种类别与数据值的符号相关联。

y=np.sign(rain[1:])

得到的平均准确率为

Accurancy 0.577211706428828

当我们使用sklearn中iris数据集进行分类时，准确率为

Accurancy 0.7066666666666667

完整代码如下：

"XU YONG KANG"
from sklearn.linear_model import LogisticRegression
from sklearn import datasets
from sklearn.model_selection import KFold
import numpy as np

def classify(x,y):
    '''使用逻辑回归进行分类'''
    clf=LogisticRegression(random_state=12)
    scores=[]
    kf=KFold(n_splits=10)
    for train, test in kf.split(x):
        clf.fit(x[train],y[train])
        scores.append(clf.score(x[test],y[test]))

    print('Accurancy',np.mean(scores))

rain=np.load('rain.npy')
dates=np.load('doy.npy')

x=np.vstack((dates[:-1],rain[:-1]))
y=np.sign(rain[1:])
classify(x.T,y)

#iris example
iris=datasets.load_iris()
x=iris.data[:,:2]
y=iris.target
classify(x,y)