标准化回归分析是一种统计方法,用于建立一个线性回归模型,其中自变量和因变量都被标准化。标准化是通过减去均值并除以标准差来对数据进行标准化处理。通过标准化,可以将不同变量的尺度统一到相同的范围内,从而使

标准化回归分析是一种统计方法,用于建立一个线性回归模型,其中自变量和因变量都被标准化。标准化是通过减去均值并除以标准差来对数据进行标准化处理。通过标准化,可以将不同变量的尺度统一到相同的范围内,从而使得比较变量间的影响更加准确和有意义。在标准化回归分析中,通过计算自变量的标准化系数,可以衡量自变量对因变量的影响程度。同时,标准化回归分析还可以通过计算标准化残差来评估模型的拟合优度。

 

标准化回归分析具有以下几个用途:

 

1. 比较变量间的影响:标准化回归分析可以将不同变量的尺度统一到相同的范围内,从而使得比较变量间的影响更加准确和有意义。通过计算标准化系数,可以衡量自变量对因变量的影响程度。

 

2. 解释变量间的关系:标准化回归分析可以揭示自变量之间的相互关系,通过分析标准化系数的正负和大小,可以了解到不同自变量对因变量的影响方向和强度。

 

3. 比较不同模型的拟合优度:标准化回归分析可以通过计算标准化残差来评估模型的拟合优度。较小的标准化残差值表示模型对数据的拟合较好。

 

4. 预测未知观测值:通过标准化回归分析,可以建立一个线性回归模型,并利用该模型进行预测。通过对未知观测值进行标准化处理,并根据模型得到的标准化系数进行预测,可以得到对应的因变量的预测值。

 

总之,标准化回归分析可以使得比较变量间的影响更加准确、揭示变量间的关系、评估模型的拟合优度,并可以利用模型进行预测。

  • 10
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
7个回归分析方法 什么是回归分析回归分析一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。 这种技术通常用于 预测分析、 时间序列模型 以及发现变量之间的因果关系。 例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。 在这里,我们使用曲线/线来拟合这些数据点, 在这种方式下,从曲线或线到数据点的距离差异最小。 我会在接下来的部分详细解释这一点。 我们为什么使用回归分析? 如上所述,回归分析估计了两个或多个变量之间的关系。 下面,让我们举一个简单的例子来理解它: 比如说,在当前的经济条件下,你要估计一家公司的销售额增长情况。 现在,你有公司最新的数据,这些数据显示出销售额增长大约是经济增长的2.5倍。 那么使用回归分析,我们就可以根据当前和过去的信息来预测未来公司的销售情况。 使用回归分析的好处良多。 具体如下: • 它表明自变量因变量之间的显著关系 它表明多个自变量一个因变量的影响强度 回归分析也允许我们去比较那些衡量不同尺度变量之间的相互影响,如价格变动与促销活动数量之间联系。 这些有利于帮助市场研究人员,数据分析人员以及数据科学家排除并估计出一组最佳的变量,用来构建预测模型。 我们有多少种回归技术? 有各种各样的回归技术用于预测。 这些技术主要有三个度量 (自变量的个数, 因变量的类型 回归线的形状)。 对于那些有创意的人,如果你觉得有必要使用上面这些参数的一个组合,你甚至可以创造出一个没有被使用过的回归模型。 但在你开始之前,先了解如下最常用的回归方法: 1. 线性回归(Linear Regression) 线性回归通常是人们在学习预测模型时首选的技术之一。 在这种技术中, 因变量是连续的, 自变量可以是连续的也可以是离散的, 回归线的性质是线性的。 线性回归使用最佳的拟合直线(也就是回归线) 在因变量(Y)和一个或多个自变量(X)之间建立一种关系。 用一个方程式来表示它,即 Y=a+b*X + e, 其中a表示截距, b表示直线的斜率, e是误差项。 这个方程可以根据给定的预测变量(s)来预测目标变量的值。 现在的问题是:我们如何得到一个最佳的拟合线呢? 这个问题可以使用最小二乘法轻松地完成。 一元线性回归和多元线性回归的区别在于, 多元线性回归有(>1)个自变量, 而一元线性回归通常只有1个自变量。 最小二乘法也是用于拟合回归线最常用的方法。 对于观测数据,它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。 因为在相加时,偏差先平方,所以正值和负值没有抵消。 我们可以使用R-square指标来评估模型性能。 要点: • 自变量因变量之间必须有线性关系 • 多元回归存在多重共线性,自相关性和异方差性 线性回归对异常值非常敏感。它会严重影响回归线,最终影响预测值 多重共线性会增加系数估计值的方差,使得在模型轻微变化下,估计非常敏感。 结果就是系数估计值不稳定, 在多个自变量的情况下,我们可以使用向前选择法,向后剔除法和逐步筛选法来选择最重要的自变量。 2. 逻辑回归(Logistic Regression) 逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。 当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。 这里,Y的值从0到1,它可以用下方程表示。 odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence ln(odds) = ln(p/(1-p)) logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk 概要 上述式子中,p表述具有某个特征的概率。 你应该会问这样一个问题:我们为什么要在公式中使用对数log呢? 因为在这里我们使用的是的二项分布(因变量),我们需要选择一个对于这个分布最佳的连结函数。 它就是Logit函数。 在上述方程中,通过观测样本的极大似然估计值来选择参数, 而不是最小化平方和误差(如在普通回归使用的)。 要点: • 它广泛的用于分类问题。 逻辑回归不要求自变量因变量是线性关系。 它可以处理各种类型的关系,因为它对预测的相对风险指数OR使用了一个非线性的log转换。 逻辑回归是用于分类的~这个得记住 为了避免过拟合和欠拟合,我们应该包括所有重要的变量。 有一个很好的方法来确保这种情况, 就是使用逐步筛选方法来估计逻辑回归。 它需要大的样本量,因为在样本数量较少的情况下,极大似然估计的效果比普通的最小二乘法差。 自变量不应该相互关联的,即不具有多重共线性。 然而,在分析和建模中,我们可以选择包含分类变量相互作用的影响。 • 如果因变量的值是定序变量,则称它为序逻辑回归 • 如果因变量是多类的话,则称它为多元逻辑回归 3. 多项式回归(Polynomial Regression) 对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。 如下方程所示:y=a+b*x^2 在这种回归技术中,最佳拟合线不是直线。 而是一个用于拟合数据点的曲线。 重点: 虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误,但这可能会导致过拟合。 你需要经常画出关系图来查看拟合情况,并且专注于保证拟合合理,既没有过拟合又没有欠拟合。 下面是一个图例,可以帮助理解: 明显地向两端寻找曲线点,看看这些形状和趋势是否有意义。 更高次的多项式最后可能产生怪异的推断结果。 4. 逐步回归(Stepwise Regression) 在处理多个自变量时,我们可以使用这种形式的回归。 在这种技术中,自变量的选择是在一个自动的过程中完成的,其中包括非人为操作。 这一壮举是通过观察统计的值,如R-square,t-stats和AIC指标,来识别重要的变量。 逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。 下面列出了一些最常用的逐步回归方法: • 标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。 • 向前选择法从模型中最显著的预测开始,然后为每一步添加变量。 • 向后剔除法与模型的所有预测同时开始,然后在每一步消除最小显着性的变量。 这种建模技术的目的是使用最少的预测变量数来最大化预测能力。 这也是处理高维数据集的方法之一。 5. 岭回归(Ridge Regression) 岭回归分析一种用于存在多重共线性(自变量高度相关)数据的技术。 在多重共线性情况下,尽管最小二乘法(OLS)对每个变量很公平,但它们的差异很大,使得观测值偏移并远离真实值。 岭回归通过给回归估计上增加一个偏差度,来降低标准误差。 上面,我们看到了线性回归方程。还记得吗? 它可以表示为:y=a+ b*x 这个方程也有一个误差项。完整的方程是: y=a+b*x+e (error term) , [error term is the value needed to correct for a prediction error between the observed and predicted value] => y=a+y= a+ b1x1+ b2x2+....+e, for multiple independent variables. 在一个线性方程中,预测误差可以分解为2个子分量。 一个是偏差, 一个是方差。 预测错误可能会由这两个分量或者这两个中的任何一个造成。 在这里,我们将讨论由方差所造成的有关误差。 岭回归通过收缩参数λ(lambda)解决多重共线性问题。 看下面的公式: 在这个公式中,有两个组成部分。 第一个是最小二乘项, 另一个是β2(β-平方)的λ倍,其中β是相关系数。 为了收缩参数把它添加到最小二乘项中以得到一个非常低的方差。 要点: 除常数项以外,这种回归的假设与最小二乘回归类似; 它收缩了相关系数的值,但没有达到零,这表明它没有特征选择功能,这是一个正则化方法,并且使用的是L2正则化。 6. 套索回归(Lasso Regression) 它类似于岭回归。 Lasso (Least Absolute Shrinkage and Selection Operator)也会惩罚回归系数的绝对值大小。 此外,它能够减少变化程度并提高线性回归模型的精度。 看看下面的公式: Lasso 回归与Ridge回归有一点不同,它使用的惩罚函数是绝对值,而不是平方。 这导致惩罚(或等于约束估计的绝对值之和)值使一些参数估计结果等于零。 使用惩罚值越大,进一步估计会使得缩小值趋近于零。 这将导致我们要从给定的n个变量中选择变量。 要点: • 除常数项以外,这种回归的假设与最小二乘回归类似 • 它收缩系数接近零(等于零),确实有助于特征选择 这是一个正则化方法,使用的是L1正则化 7. 回归(ElasticNet) ElasticNet是Lasso和Ridge回归技术的混合体。 它使用L1来训练并且L2优先作为正则化矩阵。 当有多个相关的特征时,ElasticNet是很有用的。 Lasso 会随机挑选他们其中的一个,而ElasticNet则会选择两个。 Lasso和Ridge之间的实际的优点是,它允许ElasticNet继承循环状态下Ridge的一些稳定性。 要点: 它可以承受双重收缩 • 选择变量的数目没有限制 • 在高度相关变量的情况下,它会产生群体效应 除了这7个最常用的回归技术,你也可以看看其他模型,如Bayesian、Ecological和Robust回归。 如何正确选择回归模型? 当你只知道一个或两个技术时,生活往往很简单。 我的老师曾告诉我,如果结果是连续的,就使用线性回归。 如果是二元的,就使用逻辑回归! 然而,在我们的处理中,可选择的越多,选择正确的一个就越难。 类似的情况下也发生在回归模型中。 在多类回归模型中,基于自变量因变量的类型,数据的维数以及数据的其它基本特征的情况下,选择最合适的技术非常重要。 以下是你要选择正确的回归模型的关键因素: 1. 数据探索是构建预测模型的必然组成部分 在选择合适的模型时,比如识别变量的关系和影响时,它应该首选的一步。 2. 比较适合于不同模型的优点,我们可以分析不同的指标参数 如统计意义的参数,R-square,Adjusted R-square,AIC,BIC以及误差项,另一个是Mallows' Cp准则。 这个主要是通过将模型与所有可能的子模型进行对比(或谨慎选择他们),检查在你的模型中可能出现的偏差。 3. 交叉验证是评估预测模型最好额方法 在这里,将你的数据集分成两份(一份做训练和一份做验证)。 使用观测值和预测值之间的一个简单均方差来衡量你的预
数据分析方法》 习题:2.4(Page79) 计算2班:陈磊 数据分析报告(线性回归、SAS)全文共25页,当前为第1页。 报告目录 问题重述 化妆品销售与人数、月收入关系 数据导入 本题数据导入、数据导入的几种方法 执行过程 proc reg、model语句 执行结果 方差分析、参数估计 多元线性回归设置 数据分析报告(线性回归、SAS)全文共25页,当前为第2页。 习题2.4题目 某公司管理人员为了解某化妆品在一个城市的月销量Y(单位:箱)与该城市中 适合使用该化妆品的人数 1(单位:千人)以及他们人均月收入 2(单位:元)之间 的关系,在某个月中对15个城市作了调查,得到上述各量的观测值如表2.12所示。 表2.12 化妆品销售数据(部分数据) ---------------------------------------------------------------------------- 城市 销量(y) 人数( 1) 收入( 2 ) ---------------------------------------------------------------------------- 1 162 274 2450 2 120 180 3254 3 223 375 3802 4 131 205 2838 ………………………………………………. ---------------------------------------------------------------------------- 假设Y与 1, 2之间满足线性回归关系 = 0+ 1 1+ 2 2+ , =1,2,…,15 其中 独立同分布于 (0, 2). 数据分析报告(线性回归、SAS)全文共25页,当前为第3页。 导入数据 title'《数据据分析方法》_习题2.4_page79';/*标题*/ data mylib.ch2_2_4; /*在逻辑库mylib中创建数据集ch2_2_4*/ input y x1 x2 @@; /*@@表示可连续输入*/ cards; /*开始输入数据*/ 162 274 2450 120 180 3254 223 375 3802 131 205 2838 67 86 2347 169 265 3782 81 98 3008 192 330 2450 116 195 2137 55 53 2560 252 430 4020 232 372 4427 144 236 2660 103 157 2088 212 370 2605 ; /*遗漏数据用"."表示,否则对应的这组数据会被自动删除*/ run; /*run语句用于说明处理当前程序步中该语句之前的所有行*/ .:SAS逻辑库名最多为8个字符,数据集的名称最多为32个字符。 ?:若去掉@@,上边能导入哪些数据数据分析报告(线性回归、SAS)全文共25页,当前为第4页。 导入数据 ——若干方法 1、在编辑框中输入数据,cards 2、从文件读入数据,infile infile'F:\mylib\ch2_2_4.txt'; 3、导入外部数据<1>向导导入;<2>import语句导入 proc import…… 4、已经建立数据集 proc reg data=mylib.ch2_2_4; 数据分析报告(线性回归、SAS)全文共25页,当前为第5页。 执行过程1 proc reg; /*调reg过程用*/ model y=x1 x2; /*因变量为y,自变量为x1、x2*/ run; Model语句:用于定义模型中因变量自变量、模型选项及结果输出选项。常 用选项有Selection=,指定变量选择方法;NOINT,表示在模型中不包括常数项; STB,输出标准化的回归系数;CLI,输出单个预测值置信区间;R,进行残差分 析,并输出分析结果。 格式:MODEL 因变量名=自变量名列/[选项] 例:model y=x1 x2 / selection=stepwise; /*逐步回归*/ 数据分析报告(线性回归、SAS)全文共25页,当前为第6页。 执行结果1 ——参数估计表 最小二乘估计: =( 0, 1, 2)=(3.45261,0.49600,0.00920) 回归方程:Y=3.45261+0.49600 1+0.00920 2 置信区间: 0.97512=2.17881(通过查t分布表得到) 1=0.496+/-2.179*0.00605,得出(0.4828,0.5092) 2=0.0092+/-2.179*0.00096811,得出(0.0071,0.0113) 数据分析报告(线性回归、SAS)全文共25页,当前为第7页。 执行结果1 ——方差分析表 误差方

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

安宁ᨐ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值