1 逻辑斯谛回归模型
-
逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。
P ( Y = k ∣ x ) = exp ( w k ⋅ x ) 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) , k = 1 , 2 , . . . , K − 1 P(Y=k|x)=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)},k=1,2,...,K-1 P(Y=k∣x)=1+∑k=1K−1exp(wk⋅x)exp(wk⋅x),k=1,2,...,K−1
P ( Y = K ∣ x ) = 1 1 + ∑ k = 1 K − 1 exp ( w k ⋅ x ) P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)} P(Y=K∣x)=1+∑k=1K−1exp(wk⋅x)1
这里 x x x为输入特征, w w w为特征的权值。
-
逻辑斯谛回归模型可以用于二分类或多分类,当 K = 2 K=2 K=2时,为二分类;
-
逻辑斯谛回归模型源自逻辑斯谛分布,其分布函数 F ( x ) F(x) F(x)是 S S S形函数;
-
逻辑斯谛回归模型:由输入的线性函数表示的输出的对数几率模型。
2 最大熵模型
-
最大熵模型由以下条件概率分布表示的分类模型。最大熵模型也可以用于二分类或多分类;
P w ( y ∣ x ) = 1 Z w ( x ) exp ( ∑ i = 1 n w i f i ( x , y ) ) P_w(y|x)=\frac{1}{Z_w(x)}\exp(\sum_{i=1}^nw_if_i(x,y)) Pw(y∣x)=Zw(x)1exp(i=1∑nwifi(x,y))
Z w ( x ) = ∑ y exp ( ∑ i = 1 n w i f i ( x , y ) ) Z_w(x)=\sum_y\exp(\sum_{i=1}^nw_if_i(x,y)) Zw(x)=y∑exp(i=1∑nwifi(x,y))
其中 Z w ( x ) Z_w(x) Zw(x)是规范化因子, f i f_i fi为特征函数, w i w_i wi为特征的权值。 -
最大熵原理:概率模型学习或估计的一个准则
-
最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型
-
最大熵原理应用到分类模型的学习中,有以下约束最优化问题:
m i n − H ( P ) = ∑ x , y P ~ ( x ) P ( y ∣ x ) log P ( y ∣ x ) min-H(P)=\sum_{x,y}\tilde P(x)P(y|x)\log P(y|x) min−H(P)=x,y∑P~(x)P(y∣x)logP(y∣x)
s . t . P ( f i ) − P ~ ( f i ) = 0 , i = 1 , 2 , . . . , n , ∑ y P ( y ∣ x ) = 1 s.t. \quad P(f_i)-\tilde P(f_i)=0,i=1,2,...,n,\sum_yP(y|x)=1 s.t.P(fi)−P~(fi)=0,i=1,2,...,n,y∑P(y∣x)=1求解此最优化问题的对偶问题得到最大熵模型。
-
逻辑斯谛回归模型与最大熵模型都属于对数线性模型;
-
逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计,或正则化的极大似然估计
-
逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题
-
求解该最优化问题的算法有改进的迭代尺度法、梯度下降法、拟牛顿法。