多元线性回归分析-Python&SPSS

原创 2018年04月15日 00:09:49

原始数据在这里

1.观察数据

首先,用Pandas打开数据,并进行观察。

import numpy 
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

data = pd.read_csv('Folds5x2_pp.csv')
data.head() 

会看到数据如下所示:


这份数据代表了一个循环发电厂,每个数据有5列,分别是:AT(温度), V(压力), AP(湿度), RH(压强), PE(输出电力)。我们不用纠结于每项具体的意思。

我们的问题是得到一个线性的关系,对应PE是样本输出,而AT/V/AP/RH这4个是样本特征, 机器学习的目的就是得到一个线性回归模型,即: PE=θ01∗AT+θ2∗V+θ3∗AP+θ4∗RH 而需要学习的,就是θ01234这5个参数。

接下来对数据进行归一化处理:

data = (data - data.mean())/data.std()

因为回归线的截距θ0是不受样本特征影响的,因此我们在此可以设立一个X0=1,使得回归模型为:

PE=θ0*X01∗AT+θ2∗V+θ3∗AP+θ4∗RH

将方程向量化可得:

PE = hθ(x) = θx (θ应转置)

2.线性回归

在线性回归中,首先应建立 cost function,当 cost function 的值最小时所取得θ值为所求的θ。

在线性回归中,Cost function如下所示:


因此,可以在Python中建立函数求损失方程:

def CostFunction(X,y,theta):
    inner = np.power((X*theta.T)-y,2)
    return np.sum(inner)/(2*len(X))

然后,设初始θ为=[0,0,0,0,0],可得到最初的J(θ)值为0.49994774247491858,代码如下所示

col = data.shape[1]
X = data.iloc[:,0:col-1]
y = data.iloc[:,col-1:col]
X = np.matrix(X.values)
y = np.matrix(y.values)
theta = np.matrix(np.array([0,0,0,0,0]))
temp = np.matrix(np.zeros(theta.shape))
CostFunction(X,y,theta)

接下来,有两种方法可以使用。1.梯度下降法(gradient descent)和 2.最小二乘法(normal equation)。在此我们使用梯度下降法来求解。

梯度下降法是求得J对θ的偏导数,通过设置步长,迭代使J(θ)逐步下降,从而求得局部最优解。公式如下所示:


j:特征编号

m:样本编号

我们可以在Python中写出计算迭代后的θ和J(θ)

def gradientDescent(X,y,theta,alpha,iters):
    temp = np.matrix(np.zeros(theta.shape))
    parameters = int(theta.ravel().shape[1])
    cost = np.zeros(iters)
    for i in range(iters):
        error = (X*theta.T)-y
        
        for j in range(parameters):
            term = np.multiply(error,X[:,j])
            temp[0,j] = theta[0,j] - (alpha/len(X))*np.sum(term)
            
        theta = temp
        cost[i] = CostFunction(X,y,theta)
        
    return theta,cost
在此,我设置初始的α为0.1,可求得迭代1000次后θ01234的值分别是
 -5.22080706e-14,-8.63485491e-01,-1.74182863e-01,2.16058120e-02,-1.35205248e-01

此时 J(θ)的值为0.0379648。

通过,可视化J(θ)和迭代次数可以发现,J(θ)收敛的非常快。


画图观察预测值和损失值,距离直线约近说明损失越小:

predicted = X*g.T
predicted = predicted.flatten().A[0]
y_f= y.flatten().A[0]
fig, ax = plt.subplots()
ax.scatter(y_f,predicted)
ax.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4)
ax.set_xlabel('Measured')
ax.set_ylabel('Predicted')
plt.show()

3.sckit-learn

因为J(θ)收敛的太快了…所以我又用sckit-learn和SPSS验证了一下。
先看sckit-learn,在sklearn中,线性回归是使用的最小二乘法而不是梯度下降法,用起来也十分的简单。

代码如下:

from sklearn import linear_model  
model = linear_model.LinearRegression()  
model.fit(X, y)  
打印出θ值后发现和梯度下降法算出来的相差无几,θ01234的值分别是:
0,-0.86350078,-0.17417154,0.02160293,-0.13521023

4.SPSS

在看看SPSS

同样先将数据标准化后进行线


  然后进行线性回归分析得到结果:


嘛…和前面两种方法的结果也差不多…就这样吧。


多元线性回归分析预测

  • 2010年04月23日 21:01
  • 200KB
  • 下载

多元线性回归分析理论详解及SPSS结果分析

当影响因变量的因素是多个时候,这种一个变量同时与多个变量的回归问题就是多元回归,分为:多元线性回归和多元非线性回归。这里直说多元线性回归。对比一元线性回归: 1.1多元回归模型: y=β0+β1x...
  • ManagementAndJava
  • ManagementAndJava
  • 2017-05-17 16:23:23
  • 4126

SPSS多元线性回归输出结果的详细解释

先说一句题外话,如果当年在大学里数理统计等课程结合SPSS,SAS,R等软件来讲,应该效果会好很多。 最近做了一些用SPSS进行线性回归的实验,还是感觉很多细节把握不好,这里结合我的实验结果,以及网上...
  • qysh123
  • qysh123
  • 2017-06-27 17:41:05
  • 29545

使用Excel数据分析工具进行多元线性回归分析

原文地址 各项参数含义: Multiple R:(复相关系数R)R2的平方根,又称相关系数,用来衡量自变量x与y之间的相关程度的大小。本例R=0.9134表明它们之间的关系为高度正相关。(...
  • poxiao8
  • poxiao8
  • 2017-10-30 19:40:59
  • 751

EXCEL在多元线性回归分析中的应用

  • 2008年11月25日 10:01
  • 987KB
  • 下载

python多元线性回归分析(出现问题)

1.pip安装pandas库,由于本人python是3.6版本,pandas安装时必须符合当前版本,Numpy: numpy‑1.13.3+mkl‑cp36‑cp36m‑win_amd64.whl ...
  • u014530702
  • u014530702
  • 2017-12-29 20:50:02
  • 284

机器学习——多元线性回归分析(multiple regression)及应用

1、多元回归分析与简单线性回归区别 多个自变量x 2、多元回归模型 ,其中,是参数,是误差值 3、多元回归方程 4、估计多元回归方程 ,一个样本被用来计算的点估计 5、估计流程(与简单线性回归类似)...
  • loveliuzz
  • loveliuzz
  • 2017-09-16 21:03:09
  • 651

R语言多元线性回归分析

还是之前的那个例子,只不过数据集增加了几列某商业银行2002年主要业务数据 分行编号 不良贷款(亿元) 各项贷款余额(亿元) 本年累计应收货款(亿元) 贷款项目个数(个) 本年...
  • hongjinlongno1
  • hongjinlongno1
  • 2016-08-27 22:29:34
  • 4022

基于多元线性回归的大学生就业分析的论文

  • 2010年04月29日 17:45
  • 178KB
  • 下载

SPSS—回归—多元线性回归结果分析(二)

SPSS—回归—多元线性回归结果分析(二) ,最近一直很忙,公司的潮起潮落,就好比人生的跌岩起伏,眼看着一步步走向衰弱,却无能为力,也许要学习“步步惊心”里面“四阿哥”的座右铭:“行到水穷处”,...
  • shahaizimxm
  • shahaizimxm
  • 2014-03-19 17:57:28
  • 3960
收藏助手
不良信息举报
您举报文章:多元线性回归分析-Python&SPSS
举报原因:
原因补充:

(最多只允许输入30个字)