主要参考文献:The equivalence of logistic regression and maximum entropy models,John Mount
一、声明
- x(1),x(2),...,x(m) 表示 n 维空间的一个样本, x(i) 表示第i个样本, x(i)j 表示第i个样本的第j维的数据(因为 x 是一个n维向量)。
-
y(1),y(2),...,y(m) 表示 k 维空间的一个观测结果,记k从1,2,…,k变化,即分类问题中的k个类别,也可以0为下标开始,不影响推导。 π() 是我们学习到的概率函数,实现样本数据到预测结果的映射: Rn→Rk ,(其实就是样本经过函数 π() 计算后得到各个类别的预测概率,即一个k维向量),
π(x)u 表示数据样本x属于类别u的概率,我们希望 π() 具有如下性质:- π(x)v>0 (样本x属于类别v的概率大于0,显然概率必须大于0)
- ∑kv=1π(x)v=1 ,样本x属于各个类别的概率和为1
- π(x(i))y(i)在所有类别概率中最大
A(u,v) 是一个指示函数, 当u=v时A(u,v)=1,当u≠v时A(u,v)=0,如A(u,y(i)) 表示第i个观测结果是否为u
二、逻辑回归求解分类问题过程
对于二分类问题有k=2,对线性回归函数 λx 进行非线性映射得到:
π(x)1=eλ⋅xeλ⋅x+1(1)
π(x)2=1−π(x)1=1eλ⋅x+1(2)
对于多分类问题有:
π(x)=eλv⋅x∑mu=1eλu⋅x(3)
对 λ 求偏导可得:
u=v时,∂π(x)vλv,j=xjeλv,j⋅x⋅∑mu=1eλu,j⋅x−xjeλv,j⋅xeλv,j⋅x(∑mu=1eλu,j⋅x)2=xje