课程回顾
线性模型只能应用在自变量和因变量是线性或者接近线性的情况。在现实生活中,数据之间存在着大量非线性的关系。为了解决这类问题,我们就需要对线性模型进行改进。
例如在上面提到了预测商品房房价的例子中,我们假设这些数据之间符合线性关系,就可以得到一元线性回归模型。
那么能否假设为其他模型呢?我们也可以 假设为 x 和 y 的对数之间是线性关系。如下图所示。
这也被称为对数线性回归,表达式为:
也可以写成
可以看到,x 实际上是在 e 的指数尺度上的变化,x 和 y之间是非线性关系。
如果把这个 lny 用 Y 表示,那么从 x 到 Y之间,仍然是线性回归。
Y 是在 y 的外面又包裹了一层函数 g,或者说在线性组合 wx+b 的外面又包裹了一层函数 h ,
这个 h 和 g 互称为逆运算。因此,函数 y 也可以表示为这种形式:
得到的这个模型就称之为广义线性模型。
(这里在理解上需要注意,突出的是 y = h(wx+b),然后再 y 作为 g(y) 的自变量,而不是说g(y)=wx+b,其实上面的 g(y)=wx+b 写成 g(y) = y 更准确,它写成g(y)=wx+b,只是为了说明广义线性模型可以抽象成什么样子。)
其中,函数 g 也称为联系函数,
在这个例子中,这个 g 的逆函数是指数函数,它还可以是任何一个单调可微函数,使用不同的联系函数就可以描述多种不同分布的数据。
我们还可以把广义线性回归推广到高维模型。这里的 W 和 X 都是 m+1 维的向量,m是属性的个数,x0 等于1。
可以看到,线性模型虽然简单,却可以通过广义线性回归产生丰富的变化,满足实际任务中对非线性关系的需求。