多项式分布
多项式分布是二项式分布的推广。二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔 n n 次硬币,次为正面的概率即为一个二项分布概率。二项式分布只涉及到两个事件,例如扔硬币的正面与反面,如果将事件个数推广到 k k 个,这就是多项式分布。典型的例子是扔骰子,假设扔次,点数 k(k=1,2,3,4,5,6) k ( k = 1 , 2 , 3 , 4 , 5 , 6 ) 出现的 nk n k 次的概率 P(n1,n2,...n6) P ( n 1 , n 2 , . . . n 6 ) 就是多项式分布。
假设某随机事件有
k
k
个可能的事件,它们出现的概率分别为,那么在
n
n
次试验中它们出现的次数为的概率即为多项式分布:
多项式分布的期望为:
随机变量 ni,i=1,2,...,k n i , i = 1 , 2 , . . . , k 的方差为:
随机变量的协方差矩阵为:
Softmax
softmax模型假设后验概率
P(y|x)
P
(
y
|
x
)
服从
n=1
n
=
1
的多项式分布, 即
n1+n2+...+nk=1
n
1
+
n
2
+
.
.
.
+
n
k
=
1
,由上式推导可得:
其中, I{s} I { s } 为指示函数,当 s s 为真时,,否则为0。
因为
ϕ1+ϕ2+...+ϕk=1
ϕ
1
+
ϕ
2
+
.
.
.
+
ϕ
k
=
1
,所以
ϕk=1−(ϕ1+ϕ2+...+ϕk−1)
ϕ
k
=
1
−
(
ϕ
1
+
ϕ
2
+
.
.
.
+
ϕ
k
−
1
)
,从而可以省略一个参数,方便计算。同理,
I{y=k}=1−∑k−11I{y=i}
I
{
y
=
k
}
=
1
−
∑
1
k
−
1
I
{
y
=
i
}
。
接下来,将其写指数族分布的形式。
其中,
由于
所以
根据广义线性模型,写出假设函数
hθ=E[T(y)|x]
h
θ
=
E
[
T
(
y
)
|
x
]
,这里
T(y)
T
(
y
)
是一个向量,表示在一次实验中样本属于某一类。亦即:
这里令 ηk=0。 η k = 0 。
现在的问题转换成如何求解
θ
θ
。由上文可知,
P(y|x)
P
(
y
|
x
)
服从指数分布,因此问题可以转换成求
P(y|x)
P
(
y
|
x
)
关于
θ
θ
的最大似然估计。
这里 m m 为样本数,对其取对数:
当
n=j
n
=
j
时
当 n≠j n ≠ j 时
因此,可以得到:
因为
∑kj≠n1{y(i)=j}=1−1{y(i)=n}
∑
j
≠
n
k
1
{
y
(
i
)
=
j
}
=
1
−
1
{
y
(
i
)
=
n
}
所以