MLE --framework – MAP
M
L
E
:
a
r
g
m
a
x
P
(
D
∣
θ
)
MLE:argmax P(D|\theta)
MLE:argmaxP(D∣θ)
M
A
P
:
a
r
g
m
a
x
P
(
θ
∣
D
)
MAP:argmaxP(\theta|D)
MAP:argmaxP(θ∣D) =
a
r
g
m
a
x
P
(
D
∣
θ
)
P
(
θ
)
argmax P(D|\theta)P(\theta)
argmaxP(D∣θ)P(θ)
MAP 是在MLE的条件下考察
θ
\theta
θ的先验分布
from Guassian Prior to L2 Regularization
from Laplace Prior to L1 Regularization
LASSO回归VS特征选择
·如果维度太高,计算量也变得很高
·在稀疏性条件下,计算量只依赖于非0项的个数
·提高可解释性
在
N
<
D
N<D
N<D其中
N
N
N代表样本个数
D
D
D代表特征维度
特征选择的方法:
option1: Exhaustive Serah: all subsets
option2: Greedy Approaches:
·Forward Stepwise
·Backward Stepwise
option3: via Regularization
LASSO介绍
以线性回归的目标函数举例:
L
=
∥
X
ω
−
Y
∥
F
2
+
λ
∥
ω
∥
1
L = \lVert X\omega - Y\rVert_F^2+\lambda\rVert\omega\rVert_1
L=∥Xω−Y∥F2+λ∥ω∥1
∥
ω
∥
1
\lVert\omega\rVert_1
∥ω∥1对
ω
\omega
ω的梯度是多少:
∂
∥
ω
∥
1
ω
j
=
∂
∣
ω
j
∣
ω
j
\frac{\partial{\rVert\omega\rVert}_1}{\omega_j}=\frac{\partial{\vert\omega_j\vert}}{\omega_j}
ωj∂∥ω∥1=ωj∂∣ωj∣
根据
ω
j
\omega_j
ωj的取值分别有三种可能性。
Coordinate Descent
Goal: minimize some function g
g
(
ω
)
=
g
(
ω
1
,
ω
2
,
.
.
.
,
ω
n
)
g(\omega)=g(\omega_1,\omega_2,...,\omega_n)
g(ω)=g(ω1,ω2,...,ωn)
每次只在一个维度上求解最小值,把其他维度看做常量求解,怎样选择下一个coordinate:1.依次选择 2.随机选择
不需要设定step-size,对于lasso objective,会收敛
coordinate descent for lasso
L
=
∑
i
=
1
n
(
∑
j
=
1
d
ω
j
x
i
j
+
b
−
y
i
)
2
+
λ
∑
j
=
1
d
∣
ω
j
∣
L=\sum_{i=1}^n(\sum_{j=1}^d\omega_jx_{ij}+b-y_i)^2+\lambda\sum_{j=1}^d\vert\omega_j\vert
L=∑i=1n(∑j=1dωjxij+b−yi)2+λ∑j=1d∣ωj∣
∂
L
ω
l
=
2
∑
i
=
1
n
(
∑
j
=
1
d
ω
j
x
i
j
+
b
−
y
i
)
∗
x
i
l
+
λ
∗
∂
∑
j
=
1
d
∣
ω
j
∣
ω
l
\frac{\partial L}{\omega_l}=2\sum_{i=1}^n(\sum_{j=1}^d\omega_jx_{ij}+b-y_i)*x_{il}+ \lambda*\frac{\partial\sum_{j=1}^d\vert\omega_j\vert}{\omega_l}
ωl∂L=2i=1∑n(j=1∑dωjxij+b−yi)∗xil+λ∗ωl∂∑j=1d∣ωj∣
LASSO回归之所以产生稀疏解的原因,在于
C
l
C_l
Cl落在
[
−
λ
,
+
λ
]
[-\lambda,+\lambda]
[−λ,+λ]之间时就会强行令
ω
l
\omega_l
ωl为0。