Logistic Regression 逻辑回归
参考李航《统计学习方法》第六章
1. Logistic distribution
逻辑斯蒂分布,主要就是逻辑斯蒂分布函数F。因为其函数值在[0, 1]之间,符合概率的分布特点,良好的对称性也是选择它的一个原因。
一般的逻辑斯蒂分布函数如下:
F ( x ) = 1 1 + e − ( x − μ ) / γ (1.1) F(x)= \frac{1}{1+e^{-(x-\mu)/\gamma }} \tag{1.1} F(x)=1+e−(x−μ)/γ1(1.1)
其实 μ \mu μ 为位置参数, F(x) 关于点 ( μ , 1 2 ) (\mu, \frac{1}{2}) (μ,21) 中心对称。 γ > 0 \gamma >0 γ>0 为形状参数,值越小,曲线在中心附近增长越快。
当 μ = 0 γ = 1 \mu=0 \ \gamma=1 μ=0 γ=1 时,分布函数F为
F ( x ) = 1 1 + e − x (1.2) F(x)= \frac{1}{1+e^{-x}} \tag{1.2} F(x)=1+e−x1(1.2)
这个就是我们常用的sigmoid函数 (S形曲线)。
2. 二项Logistic 回归模型
对于二分类的模型,有如下的条件概率分布:
p ( y = 1 ∣ x ) = 1 1 + e − w x (2.1) p(y=1|x) = \frac{1}{1+e^{-wx}} \tag{2.1} p(y=1∣x)=1+e−wx1(2.1)
p ( y = 0 ∣ x ) = 1 − p ( y = 1 ∣ x ) = 1 1 + e w x (2.2) p(y=0|x) =1-p(y=1|x) =\frac{1}{1+e^{wx}} \tag{2.2} p(y=0∣x)=1−p(y=1∣x)=1+ewx1(2.2)
其实 w x w\ x w x 都是拓展后的向量。 w = ( w ( 1 ) , w ( 2 ) , w ( 3 ) , . . . , w ( n ) , b ) x = ( x ( 1 ) , x ( 2 ) , x ( 3 ) , . . . , x ( n ) , 1 ) w=(w^{(1)},w^{(2)},w^{(3)},...,w^{(n)},b)\ x=(x^{(1)},x^{(2)},x^{(3)},...,x^{(n)},1) w=(w(1),w(2),w(3),...,w(n),b) x=(x(1),x(2),x(3),...,x(n),1)
在这个模型中,它只是做了两件事儿:
- 线性变换: w x + b wx+b wx+b
- 将线性变换的值代入sigmoid函数中
3. 二项模型参数估计
3.1 参数估计的过程就是最大似然估计+最优化问题
训练数据 T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . , ( x n , y n ) } T=\{(x_1, y_1),\ (x_2, y_2),\ (x_3, y_3),\ ...,\ (x_n, y_n)\ \} T={
(x1,y1), (x2,y2), (x3,y3), ..., (xn,yn) }
似然函数为
∏ i = 1 n P ( y = 1 ∣ x i ) y i ( 1 − P ( y = 1 ∣ x i ) ) 1 − y i (2.3) \prod_{i=1}^{n}P(y=1|x_i)^{y_i}\ {(\ 1-P(y=1|x_i)\ )}^{1-y_i} \tag{2.3} i=1∏nP(y=1∣xi)yi ( 1−P(y=1∣xi) )1−yi(2.3)
对数似然函数为
L ( w ) = ∑ i = 1 n [ y i l o g P ( y = 1 ∣ x i ) + ( 1 − y i ) l o g ( 1 − l o g P ( y = 1 ∣ x i ) ) ) ] = ∑ i = 1 n [ y i ( w ∗ x i ) − l o g ( 1 + e w ∗ x i ) ] (2.4) \begin{aligned}L(w) =& \sum_{i=1}^{n}[y_i\ logP(y=1|x_i)+(1-y_i)\ log(1-log\ P(y=1|x_i)))] \\ =& \sum_{i=1}^{n}[y_i\ (w*x_i)- log(1+e^{w*x_i})] \tag{2.4} \end{aligned} L(w)==i=1∑n[yi logP(y=1∣xi)+(1−yi) log(1−log P(y=1∣xi)))]i=1∑n[yi (w∗x