机器学习——逻辑回归实验分析

Nikko6688

于 2024-08-06 03:41:52 发布

阅读量307

点赞数 7

文章标签：机器学习逻辑回归人工智能算法回归 python jupyter

本文链接：https://blog.csdn.net/weixin_57205312/article/details/140941883

版权

逻辑回归实验分析

此逻辑回归实验分析主要介绍了单分类和多分类问题，以及对应等高线的绘制

使用的数据集是sklearn内置数据集iris.csv

回归是如何变成分类的呢?

之前在线性回归问题中，得到了具体的回归值，如果此时任务要做一个二分类该怎么办呢?

如果可以将连续的数值转换成对应的区间，这样就可以完成分类任务了，逻辑回归中借助sigmoid函数完成了数值映射，通过概率值比较来完成分类任务

首先导包：

import numpy as np
import os
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
# 字体大小设置
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
# 过滤警告
import warnings
warnings.filterwarnings('ignore')
np.random.seed(42)

神奇的sigmoid函数

t = np.linspace(-10,10,100)
sig = 1/(1+np.exp(-t))
plt.figure(figsize=(9,3))
plt.plot([-10,10],[0,0],'k-')
plt.plot([-10,10],[0.5,0.5],'k:')
plt.plot([-10,10],[1,1],'k:')
plt.plot(t,sig,'b-',linewidth=2,label=r"$\sigma(t) = \frac{1}{1+e^{-t}}$")
plt.xlabel('t')
plt.legend(loc='upper left', fontsize=20)
plt.axis([-10,10,-0.1,1.1])
plt.title('Figure 4-21. Logistic Function')
plt.show()

结果：

加载sklearn数据集

from sklearn import datasets
iris = datasets.load_iris()
list(iris.keys())

对于传统逻辑回归，要对标签多变换，也就是属于当前类别为1，其他类别为0

X = iris['data'][:,3:]
# 将其中一种花设置成1，则其他花表示为0
y = (iris['target']==2).astype(np.integer)

可以先看一下y的结果：

然后导入逻辑回归，并训练

# 导入逻辑回归
from sklearn.linear_model import LogisticRegression
# 实例化
log_res = LogisticRegression()
log_res.fit(X,y)

结果：

测试数据，得到概率值

# 测试数据
X_new = np.linspace(0,3,1000).reshape(-1,1)
# 得到概率值
y_proba = log_res.predict_proba(X_new)
# y_proba.shape[0]   #表示y_proba有1000个数据
y_proba

结果：

随着输入特征数值的变化，结果概率值也会随之变化

单分类，基于Virginica花，画等高线

plt.figure(figsize=(12,5))
# 画出交叉点的边界线
decision_boundary = X_new[y_proba[:,1]>=0.5][0]
plt.plot([decision_boundary,decision_boundary],[-1,2],'k:',linewidth=2)
plt.plot(X_new,y_proba[:,1],'g-',label='Iris-Virginica')
plt.plot(X_new,y_proba[:,0],'b--',label='Not Iris-Virginica')
# 加上指引箭头
plt.arrow(decision_boundary[0],0.08,-0.3,0,head_width=0.05,head_length=0.1,fc='b',ec='b')
plt.arrow(decision_boundary[0],0.92,0.3,0,head_width=0.05,head_length=0.1,fc='g',ec='g')
# 加字
plt.text(decision_boundary[0]+0.02,0.15,'Decision Boundary',fontsize=12,color='k',ha='center')
plt.xlabel('Peta width(cm)')
plt.ylabel('y_proba')
plt.axis([0,3,-0.02,1.02])
plt.legend()
plt.show()

结果：

单分类任务

坐标棋盘制作

# 选择数据
X = iris['data'][:,(2,3)]
y = (iris['target']==2).astype(np.integer)

# 构建逻辑回归模型
# 导入逻辑回归
from sklearn.linear_model import LogisticRegression
# 实例化
log_res = LogisticRegression()
# 训练
log_res.fit(X,y)

### 决策边界的绘制
- 构建坐标数据，合理的范围当中，根据实际训练时输入数据来决定
- 整合坐标点，得到所有测试输入数据坐标点
- 预测，得到所有点的概率值
- 绘制等高线，完成决策边界

构建坐标数据：

# 构建足够大的坐标棋盘，尽量拿到更多的数据
x0, x1 = np.meshgrid(np.linspace(2.9,7,500).reshape(-1,1),np.linspace(0.8,2.7,200).reshape(-1,1))
X_new = np.c_[x0.ravel(),x1.ravel()]
# 预测概率值
y_proba = log_res.predict_proba(X_new)

然后就可以进行画图：

# 画图
plt.figure(figsize=(10,4))
# 先把当前的数据点展示出来
plt.plot(X[y==0,0],X[y==0,1],'bs')
plt.plot(X[y==1,0],X[y==1,1],'g^')
# 画等高线
zz = y_proba[:,1].reshape(x0.shape)
contour = plt.contour(x0,x1,zz,cmap=plt.cm.brg)
plt.clabel(contour,inline=1)
plt.axis([2.9,7.0,0.8,2.7])
plt.text(3.2,1.5,'Not Vir',fontsize=14,color='b')
plt.text(6.5,2.5,'Vir',fontsize=14,color='g')

结果：

多分类任务

如何进行多类别分类呢？Softmax该登场了

Softmax整体上就是做归一化

先放大差异，再做归一化，得完概率值

训练数据：

X=iris['data'][:,(2,3)]
y=iris['target']
softmax_reg = LogisticRegression(multi_class='multinomial',solver='lbfgs')
softmax_reg.fit(X,y)

然后进行绘图：

x0, x1 = np.meshgrid(np.linspace(0,8,500).reshape(-1,1),np.linspace(0,3.5,200).reshape(-1,1))
X_new = np.c_[x0.ravel(),x1.ravel()]
# 预测概率值
y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)
# 画等高线
zz1 = y_proba[:,1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)

plt.figure(figsize=(10,4))
plt.plot(X[y==2,0],X[y==2,1],'g^',label='Iris_Virginica')
plt.plot(X[y==1,0],X[y==1,1],'bs',label='Iris_Versicolor')
plt.plot(X[y==0,0],X[y==0,1],'yo',label='Iris_Setosa')

from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])

plt.contourf(x0,x1,zz,cmap=custom_cmap)
contour = plt.contour(x0,x1,zz1,cmap=plt.cm.brg)
plt.clabel(contour,inline=1,fontsize=12)
plt.xlabel('Petal length',fontsize=14)
plt.ylabel('petal width',fontsize=14)
plt.legend(loc='center left',fontsize=14)
plt.axis([0,7,0,3.5])
plt.show()

结果：