摘要: 采取主成分回归方法对具有多重共线性的湘江流域43 a径流资料进行了分析,以实测径流量、降水量和蒸发量等7 个指标进行了样本预测。结果表明:主成分回归比多元线性回归的误差小,预测值更接近于实测值。
关键词: 多重共线性; 主成分回归; 多元线性回归; 径流预测
中图分类号: P333 文献标识码: A doi: 10.3969 /j.issn.1000-1379.2012.05.008
Application of Principal Component Regression in Runoff Forecasting
ZHANG Li,WANG Yue-yu,BAI Xue-lian
Abstract: Based on the multicollinearity feature of Xiangjiang River basin and the analysis of 43-year runoff data of the basin,seven indicators were selected for sample prediction including the survey values of runoff,precipitation and evaporation capacity by using the principal component regression method.The analysis shows that by comparison with multiple linear regression,the principal component regression method own smaller errors and more close to the actual situation.
Key words: multicollinearity; principal component regression; multi-dimensional linear regression; runoff forecasting
流域径流的科学预测是水资源开发利用、科学管理和优化调度的重要依据。径流的形成过程具有随机性、模糊性、灰色性等多种不确定性,是一种高度复杂的非线性过程。目前的径流预测大都是依靠历史数据的发展趋势进行类推,基于拟合实测来建立统计预测模型,其中应用较多的是时间序列模型、人工神经网络模型、基于小波分析的预测模型等[1],这些模型从线性、不确定性角度出发进行径流预测,均取得了很好的效果,但精度很难得到保证[2]。
主成分分析(Principal Components Analysis) 在径流预测上的应用还不多[3-4],而将主成分回归用到径流预测上更是鲜见。笔者以某典型喀斯特流域的多年径流、降水、蒸发和气温实测资料为研究对象[5],采用主成分分析与多元线性回归相结合的方法,通过建立主成分回归模型对径流进行了预测。
1 主成分分析的理论基础
1.1 多重共线性诊断[6-7]
当自变量彼此相关时,回归模型往往得不到令人满意的结果。参数的估计值将极敏感地随样本容量的变化或自变量数目的增减而发生改变,甚至出现代数符号与实际相反的情况。所以,在分析时了解自变量间关系的影响是很重要的。而这种变量之间因存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确的问题,常被称为共线性或多重共线性。
度量多重共线性的一个重要指标是方阵XTX 的条件数,即
式中:λmax(XTX)、λmin(XTX) 分别为方阵XTX 的最大、最小特征值。
直观上,条件数刻画了XTX 特征值差异的大小。从实际应用的经验角度,一般地,若κ< 100,则认为多重共线性的程度很低;若100≤κ≤1 000,则认为存在中等程度或较强的多重共线性;若κ> 1 000,则认为存在强烈的多重共线性。
1.2 主成分分析理论
主成分分析是一种处理多指标问题的数学方法。该方法最早可以追溯到帕森于1901 年开创的非随机变量的多元转换分析。1933 年,霍切林将其推广到随机变量。主成分分析旨在利用降维的思想,通过从数据中抽提少数的主成分来近似代表数据,因此它们所包含的信息量不应该损失太多。选择主成分是根据数据的方差来进行的,从数据中抽取到的主成分相当于对数据的一种浓缩,得到的主成分往往综合了多个变量的信息,因此可以用于进行综合评价。主成分分析的一般步骤见图1。
图1 主成分分析的一般步骤
1.3 多元线性回归理论
多元回归分析模型[8]是指包含一个因变量(预报对象)、多个自变量(预报因子) 的回归模型。由于水文预报中影响因素的复杂性,因此在一般情况下只考虑一个因子是不够的,需要考虑多个预报因子对预报对象的影响,多元线性回归是假定在各预报因子和预报量之间呈线性关系的情况下,使预报值和实测值之间误差达到最小,并认为是按这种关系发展,从而进行预报。
多元线性回归模型原理:设y 为因变量,x1、x2、…、xk为自变量,并且自变量与因变量呈线性关系,则多元线性回归模型可以表示为
y = b0+ b1x1 + b2x2 +…+ bkxk + e (2)
式中:b0为常数项;b1、b2、…、bk为回归系数;e 为残差。
为了寻求适宜的回归系数,使实际观测值和回归方程估计值之间的残差平方和最小,即:
只要对b0,b1,b2,…,bk分别求偏导数,令偏导数为0,即可获得k + 1个正规方程,求解正规方程即可得回归系数。
2 实例应用
贵州省北部湘江流域(乌江左岸的一级支流) 地势西北高东南低,流域面积为4 913 km2 ,属于亚热带季风气候区,热量充足,雨水较为充沛,是典型的喀斯特流域。笔者采用文献[5]所提供的数据对该流域1957—2000 年的年径流量进行预测分析。选取影响湘江流域年径流量的年平均降水量、年平均气温、蒸发量等7 个指标进行主成分回归预测。
整个计算过程通过R 软件编程实现。首先是共线性诊断,将1957—2000 年7 个指标的值构成原始矩阵,然后运用kappa函数对其进行共线性诊断,得到条件数为69,最后诊断结果为699.235 5,可以认为该流域影响径流的7 个指标间存在较为强烈的多重共线性,因此对其进行主成分回归而不是单纯的线性回归是很有必要的[9]。
主成分回归的过程包括分析提取出主成分、线性回归以及系数还原3 部分。其中主成分分析在R 软件里面对应的函数是princomp 函数,线性回归对应的是lm 函数,而系数还原则需根据表达式进行编程实现。主成分回归分析时,采用1957—1995 年数据,余下5 a数据留作检验。表1 为经过主成分分析得到的载荷矩阵,即各主成分对应原始变量的系数。表2 为各主成分的标准差、方差贡献率以及累计贡献率值。
表1 主成分载荷矩阵
表2 主成分的标准差、方差贡献率以及累计贡献率值
由表2 可以看出,前4 个主成分的累计贡献率约为87.7%,其余主成分可以舍去以达到降维的目的。接下来进行径流量和所选取主成分的线性回归,通过R 软件编程运算得到回归系数和回归方程,二者均通过显著性检验,回归方程为
Y = 22.524 1 + 3.113 4Z1 + 0.387 2Z2 +1.018 3Z3-0.241 3Z4(4)
式(4)是径流量与主成分的关系,实际应用起来并不方便,最终希望是得到径流量与原来7 个指标之间的关系,因此对该式进行了变换,得到原坐标下的表达式。通过编程运算得到相应的系数,最终所得的回归方程为
Y = 24.590 925 966 8 + 0.011 104 645 7X1 -1.345 055 084 5X2-0.0122782457X3 +0.214 903 754 1X4-0.000 416 014 9X5 +0.044 755 558 9X6 + 0.021 621 108 7X7(5)
通过得到的回归方程对1996—2000 年的径流量进行预测,所得结果见表3。多元线性回归得到的结果也列于表3,以便进行对比分析。
表3 预测值与实测值的对比
从表3 可以看出,主成分回归比多元线性回归的误差小,更接近于实测值,说明针对具有多重共线性的径流数据进行主成分回归预测是合理、可行的。
3 结语
将主成分分析与多元线性回归方法组合应用,充分结合二者数据信息简化及可回归建模的功能,在湘江流域年径流预测的应用中,通过对模拟和预测结果的精度进行分析,发现主成分回归比传统多元线性回归精度高。由此验证了主成分分析与多元线性回归方法结合建立的模型的有效性与可行性,不仅能为湘江流域水库优化调度和合理使用提供可靠的水文信息,还可以广泛应用到其他流域径流预测及其他领域预测中。
参考文献:
[1]曹辉,黄强,白涛,等.径流预测方法对比分析[J].人民黄河,2009,31(9):36-37.
[2]廖杰,王文胜,李岳清,等.支持向量机及其在径流预测中的应用[J].四川大学学报:工程科学版,2006(6):24-28.
[3]徐纬芳,刘成忠,顾延涛.基于PCA 和支持向量机的径流预测应用研究[J].水资源与水工程学报,2010(6):72-75.
[4]刘勇,王银堂,陈元芳,等.丹江口水库秋汛期长期径流预报[J].水科学进展,2010(6):41-48.
[5]孔兰.基于相关分析法的喀斯特流域枯水影响因素分析[J].水科学与工程技术,2008(2):60-62.
[6]汤友成,官学文,张世明.现代中长期水文预报方法及其应用[M].北京:中国水利水电出版社,2007.
[7]刘贤赵,张安定,李嘉竹.地理学数学方法[M].北京:科学出版社,2009.
[8]邰淑彩,何娟娟.应用数理统计[M].武汉:武汉大学出版社,2005.
[9]薛毅,陈丽萍.统计建模与R 软件[M].北京:清华大学出版社,2007.