一、逻辑斯蒂回归模型
1. 二项逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是如下的条件概率分布:
P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)
P(Y=0|x)=11+exp(w⋅x+b)
注意: P(Y=1|x) 模型也经常写成 hθ(x)=11+exp(−θT⋅x) 。
事件的 几率(odds)是指该事件发生的概率与该事件不发生的概率的比值。
如果事件发生的概率是p,那么该事件的几率是 P1−P ,该事件的对数几率(log odds)或logit函数是: logit(P)=logp1−p 。
逻辑回归的对数几率是:
log(P(Y=1|x)1−P(Y=1|x))=w⋅x
意义:在逻辑斯蒂回归模型中,输出Y=1的对数几率是输入x的线性函数。或者说,输出Y=1的对数几率是由属于x的线性函数表示的模型,即逻辑斯蒂回归模型。(这里需要再理解下)
感知机只通过决策函数( w⋅x )的符号来判断属于哪一类。逻辑斯蒂回归需要再进一步,它要找到分类概率 P(Y=1) 与输入向量x的直接关系,再通过比较概率值来判断类别。
令决策函数( w⋅x )输出值等于概率值比值取对数,即:
logp1−p=w⋅x⟹p=exp(w⋅x+b)1+exp(w⋅x+b)
逻辑斯蒂回归模型的定义式 P(Y=1|x) 中可以将线性函数 w⋅x 转换为概率,这时,线性函数的值越接近正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就接近0.
2. 模型参数估计
应用极大似然法进行参数估计,从而获得逻辑斯蒂回归模型。极大似然估计的数学原理参考这里。
设:
P(Y=1|x)=π(x),P(Y=0|x)=1−π(x)
似然函数为:
∏i=1N[π(xi)]yi[1−π(xi)]1−yi
上式连乘符号内的两项中,每个样本都只会取到两项中的某一项。若该样本的实际标签 yi=1 ,取样本计算为1的概率值 π(xi) ;若该样本的实际标签 yi=0 ,取样本计算的为0的概率值 1−π(xi) 。
对数似然函数为:
L(w)====∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]∑i=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]∑i=1N[yi(w⋅xi)+log11+exp(w⋅xi)]∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]
对上式中的 L(w) 求极大值,得到 w 的估计值。
问题转化成以对数似然函数为目标函数的无约束最优化问题,通常采用梯度下降法以及拟牛顿法求解
假设 w 的极大估计值是
P(Y=1|x)=exp(wˆ⋅x)1+exp(wˆ⋅x)
P(Y=0|x)=11+exp(wˆ⋅x)
3. 多项逻辑斯蒂回归
多项逻辑斯蒂回归用于多分类问题,其模型为:
P(Y=k|x)=exp(wk⋅x)1+∑k=1K−1exp(wk⋅x),k=1,2,⋯,K−1
P(Y=K|x)=11+∑k=1K−1exp(wk⋅x)
上面的公式和二分类的类似,式中 k 的取值只能取到
4. 交叉熵损失函数的求导
逻辑回归的另一种理解是以交叉熵作为损失函数的目标最优化。交叉熵损失函数可以从上文最大似然推导出来。
交叉熵损失函数为:
y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))
则可以得到目标函数为:
J(θ)==−1m∑i=1my(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))−1m∑i=1m[y(i)θTx(i)−log(1+eθTx(i))]
计算J(θ)对第j个参数分量
θj
求偏导:
∂∂θjJ(θ)====∂∂θj(1m∑i=1m[log(1+eθTx(i))−y(i)θTx(i)])1m∑i=1m[∂∂θjlog(1+eθTx(i))−∂∂θj(y(i)θTx(i))]1m∑i=1m⎛⎝x(i)jeθTx(i)1+eθTx(i)−y(i)x(i)j⎞⎠1m∑i=1m(hθ(x(i))−y(i))x(i)j