金融统计分析与挖掘实战5.3-5.5

最新推荐文章于 2024-04-17 20:38:01 发布

哈伦2019

最新推荐文章于 2024-04-17 20:38:01 发布

阅读量1.2k

点赞数

分类专栏： Python 文章标签：逻辑回归；线性回归

本文链接：https://blog.csdn.net/weixin_44723899/article/details/124456133

版权

Python 专栏收录该内容

64 篇文章 15 订阅

订阅专栏

# 5.3 线性回归应用
# 一、准备工作（导入包，输入数据，选择变量）
import numpy as np
import pandas as pd
import os
os.chdir("C:\\Users\\Administrator\\Desktop")  #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好

data = pd.read_excel("发电场数据.xlsx")
datah = data.head(6)  #看前6行的数据，本例中有9000多样本，显示全占用篇幅较大
print(datah)

      AT      V       AP     RH      PE
0  14.96  41.76  1024.07  73.17  463.26
1  25.18  62.96  1020.04  59.08  444.37
2   5.11  39.40  1012.16  92.14  488.56
3  20.86  57.32  1010.24  76.64  446.48
4  10.82  37.50  1009.23  96.62  473.90
5  26.27  59.44  1012.23  58.77  443.67

# 用切片选择因变量与自变量
y = data.iloc[:,4].values  # 教材上的as_matrix用法已不兼容,改为.values
x = data.iloc[:,0:4].values

# 二、线性回归
from sklearn.linear_model import LinearRegression as LR  #导入线性回归包
lr = LR()   # 建立回归对象
lr.fit(x,y)  #利用lr中的fit函数进行模型拟合
R2 = lr.score(x,y) #返回判定系数R2

print(R2)

0.9286960898122536

c_x = lr.coef_   #输出回归系数
print(c_x)

[-1.97751311 -0.23391642  0.06208294 -0.1580541 ]

c_b = lr.intercept_  #输出常数项
print(c_b)

454.6092743153102

# 三、进行预测
x1 = np.array([28.4,50.6,1011.9,80.54])  #新的样本四个自变量的取值
x1 = x1.reshape(1,4)   #转化成1行4列的结构
P1 = lr.predict(x1)   #预测函数
print(P1)

[436.70378447]

# 也可以利用回归方程式进行预测
r1 = x1*c_x
P2 = r1.sum()+c_b
print(P2)

436.70378446715097

# 5.4 逻辑回归
# 一、读取案例数据，银行信用数据，y因变量是同意贷款1或不同意贷款0
data1 = pd.read_excel("credit.xlsx")
dataq = data1.head(6)  #看前6行的数据，本例中有690多样本
print(dataq)

   x1     x2      x3  x4  x5  x6     x7  x8  x9  x10  x11  x12  x13   x14  d
0   1  22.08  11.460   2   4   4  1.585   0   0    0    1    2  100  1213  0
1   0  22.67   7.000   2   8   4  0.165   0   0    0    0    2  160     1  0
2   0  29.58   1.750   1   4   4  1.250   0   0    0    1    2  280     1  0
3   0  21.67  11.500   1   5   3  0.000   1   1   11    1    2    0     1  1
4   1  20.17   8.170   2   6   4  1.960   1   1   14    0    2   60   159  1
5   0  15.83   0.585   2   8   8  1.500   1   1    2    0    2  100     1  1

# 二、划分训练集与测试集
# 前600个样本作为训练集，后90个样本作为测试集
x2 = data1.iloc[:600,:14].values   #同上，as_matrix不能使用,训练集自变量
y2 = data1.iloc[:600,14].values    #训练集因变量
x3 = data1.iloc[600:,:14].values   #测试集自变量
y3 = data1.iloc[600:,14].values    #测试集因变量

# 三、逻辑回归应用
from sklearn.linear_model import LogisticRegression as LJ  #导入逻辑线性回归包
lj =  LJ()  #用lj建立逻辑回归对象
lj.fit(x2,y2)  # 用fit函数对训练集进行拟合
r = lj.score(x2,y2) #对训练集的模型进行准确率计算
print(r)

0.8183333333333334


C:\ProgramData\Anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py:763: ConvergenceWarning: lbfgs failed to converge (status=1):
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(

R = lj.predict(x3) #对测试样本进行预测
print(R)

[0 1 1 1 1 0 0 1 0 1 1 0 0 0 1 1 0 0 1 1 0 1 1 0 1 1 1 0 0 0 0 0 1 0 0 0 0
 0 0 0 0 1 0 0 1 0 1 1 1 1 1 0 0 1 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 0 0
 0 0 0 0 0 1 0 1 1 0 1 1 0 0 1 0]

z = R - y3 #预测的与真实的进行比较
RS = len(z[z == 0])/len(z)  #准确率的计算
print("预测的准确率为：",RS)

预测的准确率为： 0.8

# 5.5 神经网络
# 导入神经网络的包（分类型因变量预测）
from sklearn.neural_network import MLPClassifier 
# 设置参数，创建对象
clf = MLPClassifier(solver='lbfgs', alpha=1e-5,hidden_layer_sizes=(5,2), random_state=1)
clf.fit(x2, y2)# 用训练集拟合
rv=clf.score(x2,y2)  #训练集上的准确率
print(rv)
R=clf.predict(x3)  #在测试集上预测
Z=R-y3      # 测算误差
Rs=len(Z[Z==0])/len(Z)  #测试集上的准确率
print('预测结果为：',R)
print('预测准确率为：',Rs)

0.795
预测结果为： [0 1 1 1 1 0 0 1 0 1 1 0 0 0 1 1 0 0 0 1 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1
 0 0 0 0 0 1 0 1 1 0 1 1 0 0 1 0]
预测准确率为： 0.8

# 利用发电场数据进行神经网络预测（数值型因变量预测）
x = data.iloc[:,0:4] # 自变量
y = data.iloc[:,4]   # 因变量
from sklearn.neural_network import MLPRegressor
clf1 = MLPRegressor(solver='lbfgs', alpha=1e-5,hidden_layer_sizes=8, random_state=1) 
clf1.fit(x, y)  
rv1=clf1.score(x,y)
x1=np.array([28.4,50.6,1011.9,80.54])
x1=x1.reshape(1,4)
R=clf1.predict(x1)   
print('样本预测值为：',R)

样本预测值为： [439.2768771]

哈伦2019

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
金融统计分析与挖掘实战5.3-5.5

# 5.3 线性回归应用# 一、准备工作（导入包，输入数据，选择变量）import numpy as npimport pandas as pdimport osos.chdir("C:\\Users\\Administrator\\Desktop") #更改工作路径，注意双\\ 任何操作前可以先将常用包和路径先设置好data = pd.read_excel("发电场数据.xlsx")datah = data.head(6) #看前6行的数据，本例中有9000多样本，显示全占用篇幅较大
复制链接

扫一扫