1. Sigmoid 函数
g(z)=11+e−z
g′(z)=g(z)(1−g(z))
2. 假设函数
hθ(x)=g(θTx)=11+e−θTx
逻辑回归将线性回归的预测值转换成范围是(0,1)的概率值,主要用于二分类。
P(y=1|x;θ) P(y=0|x;θ)=hθ(x)=1−hθ(x)=hθ(−x)
输出
Y
的对数几率是输入
logP(y=1|x;θ)P(y=0|x;θ)=θTx
分离超平面:
θTx=0
当
θTx>0
时,预测为1;
当
θTx<0
时,预测为0。
3. 损失函数
J(θ)=1m∑i=1m[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]
y(i) 为真实类别0或1, hθ(x(i)) 为类别1的预测概率。
4. 梯度下降法
更新第
j
个
θj:=θj−α∂∂θjJ(θ)
∂∂θjJ(θ)=1m∑i=1m(hθ(x(i))−y(i))x(i)j
5. 用极大似然估计推倒损失函数
综合表示条件概率:
P(y|x;θ)=hθ(x)y(1−hθ(x))1−y
似然函数:
L(θ)=∏i=1mP(y(i)|x(i);θ)=∏i=1mhθ(x(i))y(i)(1−hθ(x(i)))1−y(i)
对数似然函数:
l(θ)=logL(θ)=∑i=1m[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]
J(θ)=−1ml(θ)
将最大化 l(θ) 转化为最小化 J(θ) 。
6. 正则化
J(θ)=1m∑i=1m[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]+λ2m∑j=1nθ2j
梯度下降
j=0
时,即偏置:
θ0:=θ0−α1m∑i=1m(hθ(x(i))−y(i))x(i)0
j>0
时,即权重:
θj:=θj−α[1m∑i=1m(hθ(x(i))−y(i))x(i)j+λmθj]
7. 多分类
P(Y=k|x)=eθTkx1+∑K−1k=1eθTkx,(k=1,2,...,K−1)
P(Y=K|x)=11+∑K−1k=1eθTKx