逻辑斯蒂回归是一种分类方法。
逻辑斯蒂分布
设X是随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数
分布函数
F
(
x
)
=
P
(
X
≤
x
)
=
1
1
+
e
−
(
x
−
μ
)
/
γ
F(x) = P(X\leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}
F(x)=P(X≤x)=1+e−(x−μ)/γ1
密度函数
f
(
x
)
=
F
′
(
x
)
=
e
−
(
x
−
μ
)
/
γ
γ
(
1
+
e
−
(
x
−
μ
)
/
γ
)
2
f(x)=F'(x)=\frac{e^{-(x-\mu)/\gamma}}{\gamma(1+e^{-(x-\mu)/\gamma})^2}
f(x)=F′(x)=γ(1+e−(x−μ)/γ)2e−(x−μ)/γ
逻辑斯蒂回归是一个分类算法,这个算法的输出在0到1之间。
具体做法是,利用sigmoid函数,将每一个点映射到(0,1)之间。如果是用作二分类,则大于0.5可以判定为正类,小于0.,5可以判定为负类。
二项逻辑斯蒂回归模型
二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布
P
(
Y
∣
X
)
P(Y|X)
P(Y∣X)表示,形式为参数化的逻辑斯蒂分布。
P
(
Y
=
1
∣
x
)
=
e
x
p
(
w
∗
x
+
b
)
1
+
e
x
p
(
w
∗
x
+
b
)
P(Y=1|x)=\frac{exp(w*x + b)}{1+exp(w*x+b)}
P(Y=1∣x)=1+exp(w∗x+b)exp(w∗x+b)
P
(
Y
=
0
∣
x
)
=
1
1
+
e
x
p
(
w
∗
x
+
b
)
P(Y=0|x)=\frac{1}{1+exp(w*x+b)}
P(Y=0∣x)=1+exp(w∗x+b)1
w为权值向量,b为偏置。
x
∈
R
n
x\in R^n
x∈Rn是输入,
Y
∈
{
0
,
1
}
Y \in \{0,1\}
Y∈{0,1}为输出。
根据上面两个式子可以求得
P
(
Y
=
1
∣
x
)
和
P
(
Y
=
0
∣
x
)
P(Y=1|x)和P(Y=0|x)
P(Y=1∣x)和P(Y=0∣x),比较两个条件概率的大小,将实例x分到概率值较大的一类。
有时为了方便,将权值和输入向量进行扩充,仍记做w,x,
即
w
=
(
w
(
1
)
,
w
(
2
)
,
…
,
w
(
n
)
,
b
)
,
x
=
(
x
(
1
)
,
x
(
2
)
,
…
,
x
(
n
)
,
1
)
w=(w^{(1)},w^{(2)},\dots,w^{(n)},b),x=(x^{(1)},x^{(2)},\dots,x^{(n)},1)
w=(w(1),w(2),…,w(n),b),x=(x(1),x(2),…,x(n),1)
则有
P
(
Y
=
1
∣
x
)
=
e
x
p
(
w
∗
x
)
1
+
e
x
p
(
w
∗
x
)
P(Y=1|x)=\frac{exp(w*x)}{1+exp(w*x)}
P(Y=1∣x)=1+exp(w∗x)exp(w∗x)
P
(
Y
=
0
∣
x
)
=
1
1
+
e
x
p
(
w
∗
x
)
P(Y=0|x)=\frac{1}{1+exp(w*x)}
P(Y=0∣x)=1+exp(w∗x)1
一个事件的几率是指该事件发生的概率与该事件不发生的概率的比值。
如果事件发生的概率为p,那么该事件的几率为p/1-p,该事件的对数几率或logit函数是
l
o
g
i
t
(
p
)
=
l
o
g
p
1
−
p
=
l
o
g
P
(
Y
=
1
∣
x
)
1
−
P
(
Y
=
1
∣
x
)
=
w
∗
x
logit(p)=log\frac{p}{1-p}=log\frac{P(Y=1|x)}{1-P(Y=1|x)}=w*x
logit(p)=log1−pp=log1−P(Y=1∣x)P(Y=1∣x)=w∗x
参数模型估计
对于给定的训练数据集
T
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
…
,
(
x
N
,
y
N
)
}
T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}
T={(x1,y1),(x2,y2),…,(xN,yN)},其中,
x
i
∈
R
n
,
y
i
∈
{
0
,
1
}
x_i \in R_n,y_i \in \{0,1\}
xi∈Rn,yi∈{0,1},可以应用极大似然估计法估计模型参数。
设
P
(
Y
=
1
∣
x
)
=
π
(
x
)
,
P
(
Y
=
0
∣
x
)
=
1
−
π
(
x
)
P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)
P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)
似然函数为
∏
i
=
1
N
[
π
(
x
i
)
]
y
i
[
1
−
π
(
x
i
)
]
1
−
y
i
\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}
∏i=1N[π(xi)]yi[1−π(xi)]1−yi
对两边求对数,则对数似然函数为
L
(
w
)
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
+
(
1
−
y
i
)
l
o
g
(
1
−
π
(
x
i
)
)
]
L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]
L(w)=∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]
=
∑
i
=
1
N
[
y
i
l
o
g
π
(
x
i
)
1
−
π
(
x
i
)
+
l
o
g
(
1
−
π
(
x
i
)
)
]
\quad\quad\quad=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]
=∑i=1N[yilog1−π(xi)π(xi)+log(1−π(xi))]
=
∑
i
=
1
N
[
y
i
(
w
∗
x
i
)
−
l
o
g
(
1
+
e
x
p
(
w
∗
x
i
)
]
\quad\quad\quad=\sum_{i=1}^N[y_i(w*x_i)-log(1+exp(w*x_i)]
=∑i=1N[yi(w∗xi)−log(1+exp(w∗xi)]
对L(w)求极大值,得到w的估计值。通常采用梯度下降法及拟牛顿法。
假设w的极大似然估计值是
w
^
\hat{w}
w^,那么学到的逻辑斯蒂回归模型为
P
(
Y
=
1
∣
x
)
=
e
x
p
(
w
^
∗
x
)
1
+
e
x
p
(
w
^
∗
x
)
P(Y=1|x)=\frac{exp(\hat w*x)}{1+exp(\hat w*x)}
P(Y=1∣x)=1+exp(w^∗x)exp(w^∗x)
P
(
Y
=
0
∣
x
)
=
1
1
+
e
x
p
(
w
^
∗
x
)
P(Y=0|x)=\frac{1}{1+exp(\hat w*x)}
P(Y=0∣x)=1+exp(w^∗x)1
多项式逻辑斯蒂回归
假设离散型随机变量Y的取值集合是{1,2,…,K},那么多项逻辑斯蒂回归模型是
P
(
Y
=
k
∣
x
)
=
e
x
p
(
w
k
∗
x
)
1
+
∑
k
=
1
K
−
1
e
x
p
(
w
k
∗
x
)
,
K
=
1
,
2
,
…
,
K
−
1
P(Y=k|x)=\frac{exp(w_k*x)}{1+\sum_{k=1}^{K-1}exp(w_k*x)},K=1,2,\dots,K-1
P(Y=k∣x)=1+∑k=1K−1exp(wk∗x)exp(wk∗x),K=1,2,…,K−1
P
(
Y
=
K
∣
x
)
=
1
1
+
∑
k
=
1
K
−
1
e
x
p
(
w
k
∗
x
)
P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}exp(w_k*x)}
P(Y=K∣x)=1+∑k=1K−1exp(wk∗x)1