逻辑斯谛回归与最大熵模型
总述
逻辑斯谛回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯谛回归与最大熵模型都属于对数模型。
逻辑斯谛回归模型
1.1 逻辑斯谛分布
逻辑斯谛分布:设 X X X是连续随机变量, X X X服从逻辑斯谛分布是指 X X X具有下列分布函数和密度函数:
式中, μ \mu μ为未知参数, σ > 0 \sigma>0 σ>0为形状参数。
分布函数在中心附近增长速度较快,在两端增长速度较慢。形状参数 σ \sigma σ的值越小,曲线在中心附近增长越快。
1.2 二项逻辑斯谛回归模型
二项逻辑斯谛回归模型是一种分类模型,由条件概率分布 p ( Y ∣ X ) p(Y|X) p(Y∣X)表示,形式为参数化的逻辑斯谛分布。这里,随机变量 X X X取为实数,随机变量 Y Y Y取为0或1,通过监督学习的方法来估计模型参数。
逻辑斯谛回归模型:二项逻辑斯谛回归模型是如下的条件概率分布:
逻辑斯谛回归比较两个条件概率值的大小,将实例 x x x分到概率值较大的一类。
从事件几率的角度看(几率指该事件发生的概率与不发生的概率的比值),如果事件发生的概率是 p p p,那么该事件的几率是 p / ( 1 − p ) p/(1-p) p/(1−p),该事件的对数几率或logit函数是:
l o g i t ( p ) = l o g ( p / ( 1 − p ) ) logit(p)=log(p/(1-p)) logit(p)=log(p/(1−p))对逻辑斯谛回归而言,有
由此可见,在逻辑斯谛回归模型中,输出 Y = 1 Y=1 Y=1的对数几率是输入 x x x的线性函数。
从分类角度看,考虑对输入 x x x进行分类的线性函数 w ∗ x w*x w∗x,其值域为实数域,这里 x ∈ R n + 1 , w 属 于 R n + 1 x∈R^n+1,w属于R^n+1 x∈Rn+1,w属于Rn+1。通过逻辑斯谛回归模型定义式可以将线性函数 w ∗ x w*x w∗x转化为概率:
线性函数的值越接近正无穷,概率值越接近1;线性值越接近负无穷,概率值越接近0。
1.3 模型参数估计
逻辑斯谛回归模型学习时,对于给定的训练数据集
T = T= T={
( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x n , y n ) , (x_1,y_1), (x_2,y_2),..., (x_n,y_n), (x1,y1),(x2,y2),...,(xn,yn),}
其中, x i 属 于 R n , y i ∈ x_i属于R^n, y_i∈ xi属于Rn,yi∈{0,1}。可以应用极大似然估计法训练估计模型参数,从而得到逻辑斯谛回归模型。
设: p ( Y = 1 ∣ x ) = π ( x ) p(Y=1|x)=π(x) p(Y=1∣x)=π(x), p ( Y = 0 x ) = 1 − π ( x ) p(Y=0x)=1-π(x) p(Y=0x)=1−π(x)
似然函数为
对数似然函数为
对 L ( w ) L(w) L(w)求极大值,得到 w w w的估计值。问题变成了以对数似然函数为目标函数的最优化问题,通常采用梯度下降或拟牛顿法求解。
1.4 多项逻辑斯谛回归
假设离散型随机变量 Y Y Y的取值集合为{
1 , 2 , . . . , K 1,2,...,K 1,2,...,K},则多项逻辑斯谛回归模型是
2 最大熵模型
2.1 最大熵原理
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
假设离散随机变量 X X X的概率分布是 p ( X ) p(X) p(X),则其熵是
熵满足下列不等式
0 ≤ H ( p ) ≤ l o g ( x ) 0≤H(p)≤log(x) 0≤H(p)≤log(x)
式中, ∣ X ∣ |X| ∣X∣是 X X X的取值个数,当且仅当 X X X的分布是均匀分布时右边的等号成立。即当 X X X服从均匀分布时,熵最大。
在没有更多信息的情况下,那些不确定的部分都是“等可能的”,最大熵原理通过熵的最大化表示等可能性。
2.2 最大熵模型的定义
假设分类模型是一个条件概率分布 p ( Y ∣ X ) p(Y|X) p(Y∣X),给定一个训