一.前提条件
①线性关系,自变量和因变量之间应该是线性相关的。
②独立性,自变量应该是独立的,即一个自变量的变化不应该明显影响其他自变量。
③同方差性,残差应该在各个自变量取值范围内具有相同的方差,即误差项的方差应该是恒定的。
④正态性,残差(观测值与模型预测值的差异)应该近似服从正态分布。这可以通过残差的直方图或Q-Q图进行检查。
二.模型使用方法和代码样例
SPSSPRO演示
①首先获取了某东南沿海区域建筑消费部门的能源消耗量、一次能源消耗量、非化石能源消费比重、能源利用效率、碳排放因子在2010年至2020年的数据,如下表:
②利用SPSSPRO进行自变量与因变量之间的线性关系检验(此处数据样本量过小,无法验证其是否符合正态分布,照理说不能直接使用皮尔逊相关分析,但在这里默认其符合正态分布,方便后续讨论)
观察上图可知建筑部门能耗量与四个因变量呈现高度线性相关度。
③利用SPSSPRO进行多元线性回归
总体来说,一次能源消耗、能源利用效率、非化石能源消费比重和碳排放因子对建筑消费部门能耗都有正向影响。该模型的R²为0.976,调整R²为0.959,F统计量为60.097,p值非常小(< 0.001),说明整体模型的拟合效果良好且显著。拟合多元方程式如下:
y=-1852.379 + 2.366×一次能源消耗 + 14.968×能源利用效率+20233.144×非化石能源消费比重 + 256.914×碳排放因子
Matlab演示
相应的代码如下:
% 从Excel文件中读取数据
data = xlsread('你的Excel文件名.xlsx');
% 提取自变量和因变量
X = data(:, 1:4); % 自变量矩阵
Y = data(:, 5); % 因变量向量
% 进行多元线性回归
mdl = fitlm(X, Y);
% 显示回归结果
disp(mdl);
% 可以使用以下命令获取回归系数
disp('回归系数:');
disp(mdl.Coefficients.Estimate);
结果如下:
Estimated Coefficients:
Estimate SE tStat pValue
________ _______ _______ _________
(Intercept) -1852.4 561.54 -3.2987 0.016434
x1 2.366 0.71803 3.2952 0.016507
x2 20233 2753.1 7.3492 0.0003248
x3 14.968 4.2396 3.5307 0.012358
x4 256.91 75.686 3.3945 0.014595
Number of observations: 11, Error degrees of freedom: 6
Root Mean Squared Error: 32.9
R-squared: 0.976, Adjusted R-Squared 0.959
F-statistic vs. constant model: 60.1, p-value = 5.67e-05
两种方法得到的系数几乎一致。