参考资料:连享会《平方项 = 倒U型 ?》(文章链接)
该文章为自学总结,大佬请忽视
1. 什么情况下要研究x与y的非线性关系?
- 假设我们要研究:喝水越多身体越健康吗?
- 在这里,喝水量为自变量,身体健康度(假设有该指标)为因变量。
- 常识告诉我们,适当喝水有益于身体健康,但是一旦饮水过度,反而会导致水中毒,损害身体健康。
- 所以,喝水量(x)对身体健康度(y)的影响并不是线性的,而是呈倒“U”状:随着x的增加,y先增加后减少。
- 综上,便是我们为什么在一些回归模型中看到某个自变量 x x x和 x 2 x^2 x2同时出现:
y = a + b x + c x 2 ( 1 ) y = a + bx + cx^2 (1) y=a+bx+cx2(1)
一句话来说——这种情况通常是要研究 x x x与 y y y的非线性关系。
2. 自变量平方项显著并不意味着x与y呈U型关系
- 公式1中平方项系数c显著,并不能断言x与y呈U型关系( c > 0 c>0 c>0)或倒U型关系( c < 0 c<0 c<0)
- 在现实问题的研究中,我们必须考虑自变量x的取值范围。如研究年龄与收入的非线性关系,自变量年龄则不能为负,在该问题中甚至需要大于18岁。
- 基于第2点,再考虑x的取值范围与U型曲线拐点的位置,很可能我们研究的问题只处在U型曲线的一侧,此时,x与y的关系还是单调的,只是x对y的边际影响在递增或递减。
3. 对于包含自变量及其二次项的回归模型的解读
- 仍以收入与食物消费的关系为例,假设二者回归模型为:
y ^ = 0.910 + 0.122 x − 0.006 x 2 ( 2 ) \hat{y}=0.910+0.122x-0.006x^2(2) y^=0.910+0.122x−0.006x2(2) - 公式2中0.122是线性关系系数,0.006是非线性关系系数
- 线性关系系数为正,说明随着x的增加,y也随之增加
- 二次项系数为负。说明随着x的增加,y又会随之减少
- 对两个系数取绝对值,由于一次项系数0.122大于二次项系数0.006,所以当x较小时,线性关系占主导作用,此时y随x增加而增加
- 但是,当x比较大的时候,受到平方项的加持,平方项系数会开始占主导,此时y随x的增加而减小
4. 关于拐点的注意事项
- 由公式1可知,当x与y呈U型关系时,存在拐点: x = − b