广义线性模型
二分类问题的输出,二项分布,
多分类问题的输出,多项分布
回归问题的输出,高斯分布
这些任务都可以表示为广义线性模型
- 线性模型
y = 1 2 π σ 2 e ( z − μ ) 2 σ 2 , z = θ T x y=\frac{1}{\sqrt{2\pi\sigma^2}}e^{\frac{(z-\mu)^2}{\sigma^2}},z = \theta^Tx y=2πσ21eσ2(z−μ)2,z=θTx - 二分类
y 1 = e − z 1 + e − z , z = θ T x y_1 = \frac{e^{-z}}{1+e^{-z}},z=\theta^{T}x y1=1+e−ze−z,z=θTx - 多分类
y j = e z j ∑ i e z i , z = θ T x y_j=\frac{e^{z_j}}{\sum_ie^{z_i}}, z=\theta^Tx yj=∑ieziezj,z=θTx
指数族 概率分布函数表达式:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VSmzIXf6-1571969864033)(./2019-10-24 20-31-29 的屏幕截图.png)]
许多分布都是是指数族的,比如伯努利分布,多项分布,高斯分布,泊松分布(建模count个数),gamma和指数分布(建模连续,非负随机变量,比如时间间隔),beta和狄利克雷分布(概率分布)
伯努利分布:
ϕ
\phi
ϕ参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5u39J2VR-1571969864034)(./2019-10-24 20-47-14 的屏幕截图.png)]
高斯分布:
μ
\mu
μ参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e3LVmLsv-1571969864035)(./2019-10-24 20-48-08 的屏幕截图.png)]
多项式分布:
ϕ
1
,
ϕ
2
,
.
.
.
,
ϕ
k
−
1
\phi_1,\phi_2,...,\phi_{k-1}
ϕ1,ϕ2,...,ϕk−1共计k-1个参数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mqzBh5Qd-1571969864035)(./2019-10-24 21-13-16 的屏幕截图.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ODVm0upW-1571969864036)(./2019-10-24 21-13-38 的屏幕截图.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q2mKChnP-1571969864036)(./2019-10-24 21-13-56 的屏幕截图.png)]
将二项分布和多项分布表达为指数族的形式,就能得到 η \eta η与概率 ϕ \phi ϕ的关系表达式(sigmoid和softmax),其中 η \eta η可以由线性回归模型建模
广义线性模型
假设随机变量 y y y满足指数族概率分布,那么怎么根据x预测y的值,也就是说将y表示为x的函数呢?
我们先做以下三个假设:
- y ∣ x ; θ y\, | \,x; \theta y∣x;θ ~ 指数族( η \eta η)
- 给定x,我们的目标是预测T(y)的期望值,在大多数例子中,T(y)=y
- 自然参数 η \eta η和输入x是线性相关的 η = θ T x \eta=\theta^Tx η=θTx
一般的深度学习模型
现有的深度学习模型,可以看做是广义线性模型的进一步推广,在GLM中有 η = θ T x \eta=\theta^Tx η=θTx,我们将其推广到非线性模型 η = f ( x ) \eta=f(x) η=f(x)。其中 f f f 为深度网络模型
最大似然估计
学习的过程采用 最大似然估计,就是说认为数据 { ( x i , y i ) } \{(x_i, y_i)\} {(xi,yi)}是存在噪声的,对于回归任务中的连续量 y i y_i yi,我们可以认为它符合高斯分布,模型做点估计(估计 μ \mu μ)
对于多分类任务,数据集为
{
(
x
i
,
y
i
)
}
,
其
中
y
i
∈
0
,
1
,
2
,
.
.
.
,
k
\{(x_i, y_i)\},其中y_i\in{0,1,2,...,k}
{(xi,yi)},其中yi∈0,1,2,...,k ,
可以认为
y
i
y_i
yi符合多项分布(one-hot向量),模型预测类别分布(同样是多项分布),最大化正类别的概率。
- softmax的交叉熵损失,最大化负对数概率
l l o s s = − log p l_{loss}=-\log{p} lloss=−logp其中 p p p为softmax概率 - 线性回归的L2损失,最大化负高斯分布概率
l l o s s = − log 1 2 π σ 2 e − ( y − y ^ ) 2 2 σ 2 = ( y − y ^ ) 2 2 σ 2 + 1 2 log 2 π σ 2 l_{loss}=-\log\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(y-\hat{y})^2}{2\sigma^2}}=\frac{(y-\hat{y})^2}{2\sigma^2}+\frac{1}{2}\log{2\pi\sigma^2} lloss=−log2πσ21e−2σ2(y−y^)2=2σ2(y−y^)2+21log2πσ2在 σ = 1 \sigma=1 σ=1的条件下, l l o s s = 1 2 ( y − y ^ ) 2 l_{loss}=\frac{1}{2}{(y-\hat{y})^2} lloss=21(y−y^)2
我们在回归任务中假定 y i y_i yi是高斯分布的随机变量(测量是不准确的),对于分类任务,我们隐含的假设了 y i y_i yi是带有随机噪声的吗?显然并没有这样,我们直接使用了 y i y_i yi标签,那我们认为 x i x_i xi带有随机噪声吗?。。。