回归分析美赛学习

最新推荐文章于 2023-01-25 17:14:43 发布

weixin_46983328

最新推荐文章于 2023-01-25 17:14:43 发布

阅读量710

点赞数 1

文章标签：机器学习数据分析算法

本文链接：https://blog.csdn.net/weixin_46983328/article/details/112397339

版权

本文深入探讨回归分析的五大类别，包括线性、0-1、定序、计数和生存回归。重点阐述回归分析的三大使命：识别重要变量、判断相关方向及估计相关系数。通过实例解析回归模型的构建，如一元和二元线性回归，讨论了内生性问题及其影响。此外，介绍了如何处理定性变量和异方差性，以及在Stata中进行回归分析的基本操作。

摘要由CSDN通过智能技术生成

回归分析的任务是：
通过研究自变量x与因变量y的相关关系，去解释y的形成机理，进而	达到通过x预测y的目的

常见的回归分析有5类：
线性回归，0-1回归，定序回归，计数回归和生存回归
关键词：
相关性
注意，不要把相关性和因果性混淆！！
比如在夏天，游泳死亡人数与雪糕销量有正相关。但是他们之间没有因果关系。
Y：因变量（被解释变量），也是我们研究的核心变量

根据因变量的不同，回归问题的类别也不同
比如：
（1）经济学家研究影响GDP增长的因素，选择GDP增长率为因变量，那么Y为连续型数值变量。
（2）P2P公司研究贷款人能否按时还款，取Y为二值变量（0-1变量），则为0-1回归（使用逻辑回归解决）
（3）消费者调查得到的数据（1-不喜欢，2-一般喜欢，3-很喜欢），此时Y为定序数据
（4）管理学中RFM模型，F表示一定时间内客户到访的次数，次数实际上指的是一个非负的整数，这就是计数变量
（5）研究产品的寿命，人的寿命。比如选取一个样本，老王为60岁，我们不可能等到他去世再研究，比如他现在的年龄为60岁，那我们计他的寿命为60+，这是一个截断的数据，也就是生存变量

X：自变量，也称为解释变量

回归分析的步骤

回归分析要去识别，哪些变量X是真的与因变量Y有关
接下来，回归分析要去回答，剩下的变量X中，哪些与Y成正相关，哪些成负相关
在确定了重要的X的前提下，要给不同的X分配一个权重（回归系数），依次来确定X之间的相对重要性

总结：三个使命为（1）识别重要变量（2）判断相关方向（3）估计相关系数

数据的分类：

（1）横截面数据（cross section data）：在同一时间上得到的不同对象的数据
比如：发放问卷得到的数据、2018年各省份的GDP数据、大一新生体侧得到的数据

（2）时间序列数据（time series data）：同一对象在不同时间连续观察到的数据
比如：从出生到现在，你的体重的数据（每年测一次）
中国每年GDP的数据，某地方每隔一个小时测得温度的数据

（3）面板数据（panel data）：横截面数据与时间序列数据综合得到的数据
比如2008到2018年中国各省份的GDP

常见建模方法
见下表

横截面数据	时间序列数据	面板数据
多元回归分析	AR,MA,ARMA,ARIMA 等	固态效应和随机效应，动态面板和静态面板

一元线性回归：

一元线性函数拟合：
假设有一堆样本点为 $x_{i},y_{i}),i=1,2,3,...n$
我们设置拟合曲线为 $y = k x + b$
问题：k和b为何值时，拟合曲线与样本点最接近？

在一元线性回归模型中：
假设x为自变量，y为因变量，且满足下列线性关系
$y_{i} = \beta_{0}+\beta_{1}x_{i}+\mu_{0}$
$\beta_{0}和\beta_{1}是回归系数，\mu_{0}$ 是无法观测的且满足一定条件的扰动项。
令预测值 $\hat{y}=\hat{\beta_{0}}+\hat{\beta_{1}}x_{}$
其中 $\hat{\beta_{0}},\hat{\beta_{1}}=\arg \limits_{\beta_{0},\beta_{1}}\min(\sum\limits_{i=1}^{n}(y_{i}-\hat{y_{i}})^{2})=\arg \limits_{\beta_{0},\beta_{1}}\min(\sum\limits_{i=1}^{n}(y_{i}-\hat{\beta_{0}}-\hat{\beta_{1}}x_{i})^{2})$

最低0.47元/天解锁文章

weixin_46983328

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
回归分析美赛学习

回归分析的任务是：通过研究自变量x与因变量y的相关关系，去解释y的形成机理，进而达到通过x预测y的目的常见的回归分析有5类：线性回归，0-1回归，定序回归，计数回归和生存回归关键词：相关性注意，不要把相关性和因果性混淆！！比如在夏天，游泳死亡人数与雪糕销量有正相关。但是他们之间没有因果关系。Y：因变量（被解释变量），也是我们研究的核心变量根据因变量的不同，回归问题的类别也不同比如：（1）经济学家研究影响GDP增长的因素，选择GDP增长率为因变量，那么Y为连续型数值变量。（2）P2
复制链接

扫一扫