背景
闲来无事翻了一下之前买的一个机器学习课程及之前记录的网络笔记,发现遇到公式都是截图,甚至是在纸上用笔推导的。重新整理一遍之前逻辑回归函数的学习笔记,主要是为了玩一下 LaTex 语法,写公式挺有意思的。
整理之前三篇笔记汇总如下:
逻辑回归数学函数
回顾一下逻辑回归函数:
g
(
z
)
=
1
1
+
e
−
z
g(z)=\frac{1}{1+e^{-z}}
g(z)=1+e−z1
该函数在学术上被称为 Sigmoid 函数,它的函数曲线图如下:
逻辑回归和线性回归的关系
逻辑回归和线性回归的关系:对逻辑回归的概率比取自然对数,则得到的是一个线性函数,推导过程如下。
首先,看逻辑回归的函数定义:
g ( z ) = 1 1 + e − z (公式 1 ) g(z)=\frac{1}{1+e^{-z}} (公式1) g(z)=1+e−z1(公式1)
对于某一个变量 z i z_i zi,可以按照该公式计算出对应的值 g ( z i ) g(z_i) g(zi) 值,要么是 0,要么是1。
其次,变量
z
i
z_i
zi ,假定它满足线性回归模型,且是具有 N 个独立变量
X
i
=
(
X
1
,
X
2...
X
n
)
X_i=(X_1,X2...X_n)
Xi=(X1,X2...Xn) 的线性模型。表示为:
z
i
=
w
0
x
0
+
w
1
x
1
+
.
.
.
+
w
i
x
i
z_i=w_0x_0+w_1x_1+...+w_ix_i
zi=w0x0+w1x1+...+wixi
向量 W = ( w 0 , w 1 , . . . , w n ) W=(w_0,w_1,...,w_n) W=(w0,w1,...,wn) 代表该线性模型的参数列表。
那么变量
z
i
z_i
zi 就表示为两个向量的乘法,即 W 向量的转置和 X 向量的乘法:
z
i
=
W
T
X
(公式
2
)
z_i=W^TX (公式2)
zi=WTX(公式2)
第三步,将公式2 代入公式1,则逻辑回归函数就成了:
g
(
z
i
)
=
1
1
+
e
−
W
T
X
(公式
3
)
g(z_i)=\frac{1}{1+e^{-W^TX}} (公式3)
g(zi)=1+e−WTX1(公式3)
第四步,按公式3,计算概率比,因为逻辑回归总体值不超过1,所以某个概率 y 和它的反面
1
−
y
1-y
1−y 的概率比计算如下:
y
1
−
y
=
1
1
+
e
−
W
T
X
1
−
1
1
+
e
−
W
T
X
(公式
4
)
\frac{y}{1-y} = \frac{\frac{1}{1+e^{-W^TX}}}{1-\frac{1}{1+e^{-W^TX}}}(公式4)
1−yy=1−1+e−WTX11+e−WTX1(公式4)
令: A = 1 + e − W T X A=1+e^{-W^TX} A=1+e−WTX (公式5)。
用
A
A
A 简化公式4:
y
1
−
y
=
1
A
1
−
1
A
=
1
A
1
A
(
A
−
1
)
=
1
A
−
1
(公式
6
)
\frac{y}{1-y} =\frac{\frac{1}{A}}{1-\frac{1}{A}}=\frac{\frac{1}{A}}{\frac{1}{A}(A-1)}=\frac{1}{A-1}(公式6)
1−yy=1−A1A1=A1(A−1)A1=A−11(公式6)
还原 A 将公式5代入公式6得到概率比:
y
1
−
y
=
1
1
+
e
−
W
T
X
−
1
=
1
e
−
W
T
X
=
(
e
−
W
T
X
)
−
1
=
e
W
T
X
(公式
7
)
\frac{y}{1-y}=\frac{1}{1+e^{-W^{T}X}-1}=\frac{1}{e^{-W^{T}X}}=(e^{-W^{T}X})^{-1}=e^{W^{T}X} (公式7)
1−yy=1+e−WTX−11=e−WTX1=(e−WTX)−1=eWTX(公式7)
对该概率比取对数:
l
n
y
1
−
y
=
l
n
(
e
W
T
X
)
=
W
T
X
ln\frac{y}{1-y}=ln(e^{W^{T}X})=W^{T}X
ln1−yy=ln(eWTX)=WTX
总结:在统计学上, P 1 − P \frac{P}{1-P} 1−PP 被称为发生比,即事件发生和不发生的比率,从上面推导的结果可以知道,逻辑回归中的回归是建立在假设事件发生比的对数是线性模型的基础上的。
逻辑回归函数的含义
逻辑回归模型使用了逻辑分布函数,在进行分类时,假设两种满足线性回归模型的不同的分类相互竞争,其中某一方胜出的概率分布在数学上近似为 Sigmoid 曲线,
即 Sigmoid 函数描述了某一方竞争胜出的概率。
以购物为例,假设有特征向量 X i = ( X 1 , X 2... X n ) X_i=(X_1,X2...X_n) Xi=(X1,X2...Xn) ,它们决定了某个顾客 i i i 的购物决定。顾客 i i i 的购物行为记做 y i y_i yi,购物行为分为两种买或者不买。
当 y i = 1 y_i=1 yi=1,表示顾客 i i i 购买; y i = 0 y_i=0 yi=0 ,则表示顾客 i i i 没有购买。
使用 Sigmoid 的曲线对顾客
i
i
i 的购物行为【即
y
i
=
1
y_i=1
yi=1】的概率,表达式为:
P
(
y
i
=
1
)
=
1
1
+
e
−
W
i
T
X
i
P(y_i=1)=\frac{1}{1+e^{-W_i^{T}X_i}}
P(yi=1)=1+e−WiTXi1
其中, X i = ( x 1 , x 2 . . . x i . . . x n ) X_i=(x_1,x_2...x_i...x_n) Xi=(x1,x2...xi...xn) 表示顾客 i i i 的特征, W i = ( w 1 , w 2 . . . w i . . . w n ) W_i=(w_1,w_2...w_i...w_n) Wi=(w1,w2...wi...wn) 为模型参数【即事件发生比的对数所对应的线性模型】。
推广到一组顾客,则所有的顾客的购买行为用矩阵表示,就可以写为:
P
(
Y
=
1
)
=
1
1
+
e
−
W
T
X
P(Y=1)=\frac{1}{1+e^{-W^{T}X}}
P(Y=1)=1+e−WTX1