一元回归分析
方差分析,介绍了分类型自变量对数据型因变量影响的分析方法。
下面来研究数值型自变量和数值型因变量之间关系的分析方法。
拿到数据,首先画散点图,观察散点图的分布情况,再考虑建模,不要为了建模而建模。要根据数据特征和分析目的确定分析方法。
一、模型设定
线性:Y=β0+β1x+ε
非线性:Y=β0+e^β1x+ε
β0+β1*x—固定效应的部分,代表Y和X的固定关系
ε:不可控的噪声因素,一定是没有意义的。如果仍然有意义,那么方程有问题,没有完全提取X与Y的信息。
参数如何估计未知β:
最大似然函数:不同分布函数的相乘
最小二乘:数据要满足一定的满足条件:服从正态
二、模型拟合(最小二乘法)
估计方程,估计值
Y^=β0 ^+β1*x ^
其中,用最小二乘估计法是最简单的,最小二乘法的核心思想是散点图中的点 离 预估的直线方程,最短的距离。
这里之所以画的是垂直方向的直线,是因为斜边的距离能够代表点到直线的距离,使其最短。
上图仅表示一些固定的散点,但实际是,估计直线,像一个风筝一样,被各个实际散点吊着,在上下漂浮着