广义线性模型

广义线性模型

二分类问题的输出,二项分布,
多分类问题的输出,多项分布
回归问题的输出,高斯分布

这些任务都可以表示为广义线性模型

  1. 线性模型
    y = 1 2 π σ 2 e ( z − μ ) 2 σ 2 , z = θ T x y=\frac{1}{\sqrt{2\pi\sigma^2}}e^{\frac{(z-\mu)^2}{\sigma^2}},z = \theta^Tx y=2πσ2 1eσ2(zμ)2,z=θTx
  2. 二分类
    y 1 = e − z 1 + e − z , z = θ T x y_1 = \frac{e^{-z}}{1+e^{-z}},z=\theta^{T}x y1=1+ezez,z=θTx
  3. 多分类
    y j = e z j ∑ i e z i , z = θ T x y_j=\frac{e^{z_j}}{\sum_ie^{z_i}}, z=\theta^Tx yj=ieziezj,z=θTx

指数族 概率分布函数表达式:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VSmzIXf6-1571969864033)(./2019-10-24 20-31-29 的屏幕截图.png)]
许多分布都是是指数族的,比如伯努利分布,多项分布,高斯分布,泊松分布(建模count个数),gamma和指数分布(建模连续,非负随机变量,比如时间间隔),beta和狄利克雷分布(概率分布)

伯努利分布:
ϕ \phi ϕ参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5u39J2VR-1571969864034)(./2019-10-24 20-47-14 的屏幕截图.png)]

高斯分布:
μ \mu μ参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e3LVmLsv-1571969864035)(./2019-10-24 20-48-08 的屏幕截图.png)]

多项式分布:
ϕ 1 , ϕ 2 , . . . , ϕ k − 1 \phi_1,\phi_2,...,\phi_{k-1} ϕ1,ϕ2,...,ϕk1共计k-1个参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mqzBh5Qd-1571969864035)(./2019-10-24 21-13-16 的屏幕截图.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ODVm0upW-1571969864036)(./2019-10-24 21-13-38 的屏幕截图.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q2mKChnP-1571969864036)(./2019-10-24 21-13-56 的屏幕截图.png)]

将二项分布和多项分布表达为指数族的形式,就能得到 η \eta η与概率 ϕ \phi ϕ的关系表达式(sigmoid和softmax),其中 η \eta η可以由线性回归模型建模


广义线性模型

假设随机变量 y y y满足指数族概率分布,那么怎么根据x预测y的值,也就是说将y表示为x的函数呢?

我们先做以下三个假设:

  1. y   ∣   x ; θ y\, | \,x; \theta yx;θ ~ 指数族( η \eta η)
  2. 给定x,我们的目标是预测T(y)的期望值,在大多数例子中,T(y)=y
  3. 自然参数 η \eta η和输入x是线性相关的 η = θ T x \eta=\theta^Tx η=θTx

一般的深度学习模型

现有的深度学习模型,可以看做是广义线性模型的进一步推广,在GLM中有 η = θ T x \eta=\theta^Tx η=θTx,我们将其推广到非线性模型 η = f ( x ) \eta=f(x) η=f(x)。其中 f f f 为深度网络模型


最大似然估计

学习的过程采用 最大似然估计,就是说认为数据 { ( x i , y i ) } \{(x_i, y_i)\} {(xi,yi)}是存在噪声的,对于回归任务中的连续量 y i y_i yi,我们可以认为它符合高斯分布,模型做点估计(估计 μ \mu μ

对于多分类任务,数据集为 { ( x i , y i ) } , 其 中 y i ∈ 0 , 1 , 2 , . . . , k \{(x_i, y_i)\},其中y_i\in{0,1,2,...,k} {(xi,yi)},yi0,1,2,...,k
可以认为 y i y_i yi符合多项分布(one-hot向量),模型预测类别分布(同样是多项分布),最大化正类别的概率。

  1. softmax的交叉熵损失,最大化负对数概率
    l l o s s = − log ⁡ p l_{loss}=-\log{p} lloss=logp其中 p p p为softmax概率
  2. 线性回归的L2损失,最大化负高斯分布概率
    l l o s s = − log ⁡ 1 2 π σ 2 e − ( y − y ^ ) 2 2 σ 2 = ( y − y ^ ) 2 2 σ 2 + 1 2 log ⁡ 2 π σ 2 l_{loss}=-\log\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y-\hat{y})^2}{2\sigma^2}}=\frac{(y-\hat{y})^2}{2\sigma^2}+\frac{1}{2}\log{2\pi\sigma^2} lloss=log2πσ2 1e2σ2(yy^)2=2σ2(yy^)2+21log2πσ2 σ = 1 \sigma=1 σ=1的条件下, l l o s s = 1 2 ( y − y ^ ) 2 l_{loss}=\frac{1}{2}{(y-\hat{y})^2} lloss=21(yy^)2

我们在回归任务中假定 y i y_i yi是高斯分布的随机变量(测量是不准确的),对于分类任务,我们隐含的假设了 y i y_i yi是带有随机噪声的吗?显然并没有这样,我们直接使用了 y i y_i yi标签,那我们认为 x i x_i xi带有随机噪声吗?。。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值