线性模型在经济与房产数据分析中的应用
1. 多重线性模型的拟合度量
在评估模型拟合度时,除了检查误差的标准差(SD),多重线性模型的均方误差(MSE)与常数模型的MSE之比也是一种有效的衡量方式,这被称为多重 $R^2$,其定义如下:
$R^2 = 1 - \frac{|y - X\hat{\theta}|^2}{|y - \bar{y}|^2}$
随着模型对数据的拟合度越来越高,多重 $R^2$ 会趋近于1。然而,这种方法存在一定问题,因为只要特征能够扩展 $X$ 的张成空间,即使向模型中添加无意义的特征,$R^2$ 也会继续增大。为了考虑模型的规模,通常会根据模型中拟合系数的数量对 $R^2$ 的分子和分母进行调整,即分子除以 $1/[n - (p + 1)]$,分母除以 $1/(n - 1)$。
2. 美国经济流动性的数据分析
2.1 研究背景与数据来源
美国被称为“机会之地”,经济学家 Raj Chetty 及其同事对美国的经济流动性进行了大规模数据分析,旨在探究美国是否真的是机会之地。他们获取了1980 - 1982年出生在美国的所有人在2011 - 2012年的联邦所得税记录,以及他们父母在其出生年份的纳税记录,数据集约有1000万人。
2.2 经济流动性的衡量指标
Chetty 通过计算特定地理区域内父母收入处于1980 - 1982年第25百分位的人群在2011年的平均收入百分位,来衡量经济流动性,这一指标被称为平均绝对向上流动性(AUM)。如果一个地区的 AUM 为25,说明该地区处于第25百分位的人群通常仍停留在该百分位;AUM 值越高,表明该地区的向上流动性