LASSO回归之特征选择

最新推荐文章于 2025-03-11 10:39:41 发布

子颠三号倒四

最新推荐文章于 2025-03-11 10:39:41 发布

阅读量7.9k

点赞数 1

文章标签：机器学习正则表达式

本文链接：https://blog.csdn.net/weixin_45629601/article/details/105980081

版权

MLE --framework – MAP

$P(D|\theta)$
$MAP:argmaxP(\theta|D)$ = $P(D|\theta)P(\theta)$
MAP 是在MLE的条件下考察 $\theta$ 的先验分布
from Guassian Prior to L2 Regularization
from Laplace Prior to L1 Regularization
在这里插入图片描述

LASSO回归VS特征选择

·如果维度太高，计算量也变得很高
·在稀疏性条件下，计算量只依赖于非0项的个数
·提高可解释性
在 $N < D$ 其中 $N$ 代表样本个数 $D$ 代表特征维度
特征选择的方法：
option1: Exhaustive Serah: all subsets
option2: Greedy Approaches:
·Forward Stepwise
·Backward Stepwise
option3: via Regularization

LASSO介绍

以线性回归的目标函数举例: $\lVert X\omega - Y\rVert_F^2+\lambda\rVert\omega\rVert_1$
$\lVert\omega\rVert_1$ 对 $\omega$ 的梯度是多少：
$\frac{\partial{\rVert\omega\rVert}_1}{\omega_j}=\frac{\partial{\vert\omega_j\vert}}{\omega_j}$
根据 $\omega_j$ 的取值分别有三种可能性。

Coordinate Descent

Goal: minimize some function g
$g(\omega)=g(\omega_1,\omega_2,...,\omega_n)$
每次只在一个维度上求解最小值，把其他维度看做常量求解，怎样选择下一个coordinate:1.依次选择 2.随机选择
不需要设定step-size,对于lasso objective,会收敛

coordinate descent for lasso

$L=\sum_{i=1}^n(\sum_{j=1}^d\omega_jx_{ij}+b-y_i)^2+\lambda\sum_{j=1}^d\vert\omega_j\vert$
$\frac{\partial L}{\omega_l}=2\sum_{i=1}^n(\sum_{j=1}^d\omega_jx_{ij}+b-y_i)*x_{il}+ \lambda*\frac{\partial\sum_{j=1}^d\vert\omega_j\vert}{\omega_l}$
在这里插入图片描述
LASSO回归之所以产生稀疏解的原因，在于 $C_l$ 落在 $[-\lambda,+\lambda]$ 之间时就会强行令 $\omega_l$ 为0。