线性回归与广义线性模型(GLM)简介

线性回归

假设我们有一堆数据 \left \{ (x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m),y^{(m)}}) \right \},我们的任务是根据这些数据建立一个模型,如果我们另外获得了新的样本x,我们要用该模型预测y。如果这是一个回归问题,最简单的一个想法是将它建立为线性模型(这里的线性是指对参数的线性):

                                                                  y = \theta_0 + \theta_1x_1 + ... + \theta_nx_n + \epsilon

这里\epsilon是噪音,通常我们会假设噪音满足\epsilon \sim Normal(0, \sigma^2 ),这样y满足一下分布:

                                                                        y \sim Normal(\theta^Tx, \sigma^2 )

接下来就是最大似然概率的事情了

                                                                  argmax_{\theta}L(\theta)\\ = argmax_{\theta} \sum_{i=1}^m - \frac{(y^{(i)} - \theta^Tx^{(i)})^2} {2\sigma^2 } \\ = argmin_{\theta} \sum_{i=1}^m (y^{(i)} - \theta^Tx^{(i)})^2

这里我们可以把上式变为矩阵形式(非常漂亮),我们设

                                                              

                                                                  

则原问题转化为

                                                          argmax_{\theta}L(\theta) \\ = argmin_{\theta}(X\theta - \vec{y})^T (X\theta - \vec{y}) \\

229我们对(X\theta - \vec{y})^T (X\theta - \vec{y})求导,中间推导过程比较长(可参考吴恩达CS229 note1)这里就省略了,最后可以得到 ,令其等于零,即结果。

广义线性模型

对于y是连续值得情况,我们可以用这种方式处理,但当y是离散值(比如count data,binary data 见wiki Statistical data type)我们用普通线性模型就不合适了,这时我们引用另外一种模型 --- Generalised Linear Models 广义线性模型。

为了获取GLM模型,我们列出3个条件:

1. ,也就是y|x为指数族分布,指数族分布形式:

2. 如果我们判断y的假设为 h(x),则h(x) = E[y|x]

3. 自然参数\eta和输入x呈线性关系:\eta = \theta^Tx

这3个条件的来由我们不讨论,我们只知道做这样的假设是基于“设计”的选择,而非必然。

我们以泊松回归为例, y服从泊松分布 p(y;\lambda) = \frac{e^{-\lambda}\lambda^y}{y!},化为指数族形式,我们可以得到b(y) = \frac{1}{y!}\eta = ln\lambdaT(y) = ya(\eta) = \lambda。所以p(y;x,\theta) = \frac{e^{-e^{\theta^Tx}}(e^{\theta^Tx})^y}{y!}

之后即为最大似然法的过程。

参考文献:

[1] 吴恩达 cs229 lecture note 1

[2] Introduction to Generalized Linear Models

 

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值