几何角度理解:L1比L2范数更具有稀疏性的理解

在这里插入图片描述

很多解释L1和L2稀疏性比较的文章都有上面这图。都说:因为L1和h(x)的交点更容易出现在轴上,所以会使得系数取0,获取稀疏的权重。但之前一直不理解,为什么交点就是最小误差的点呢?

这里记录下现在的理解:

error = h(x ) + C * L1
设h(x) = a, L1=b, 它们的等值线分别如下图所示

在这里插入图片描述

假设现在任取一个点w4,w4分别位于 h(w) = a1 和 L1=b1 上,所以当前 error = a1 + b1。从图上可以看到,w2和w4在L1的同一条等值线上,且h(w2)<h(w4) (h(w)的最小值点在椭圆中心),所以当L1(w)的值固定时,显然w2是最优解。(有些时候h(w)和L1(w)的切点也会在w4这,这时,w4就是最优解了,不过这种情况比较少见)。这就解释了为什么交点容易产生在轴上。
对于w1,w2,w3的比较,从图上可以看出h(w)和L1(w)时互相冲突,h(w)增大,则L1(w)减少,反之亦然。(当h(w)的最小值点在L1(w)的方框内时,两者同时增大,缩小,不过因为要求min error,L1(w)的框会很快缩小,同时减少L1和h的值,直到h的最小值点不在L1的框内)。至于w1,w2,w3哪个更好,就要看C的值了。error = h(w) + C * L1(w),通过C判断h(w) 和 L1(w)哪个更重要。
<think>嗯,用户想了解L1范数和L2范数。首先,我需要回忆一下这两个概念的定义和区别。L1范数应该就是向量各元素的绝对值之和,而L2范数是欧几里得范数,平方和的平方根。对吧? 接下来,得考虑用户可能的背景。他们可能是刚开始学习机器学习或者优化方面的内容,因为在正则化中经常用到L1和L2。所以需要解释清楚两者的数学形式和应用场景。 然后,用户可能需要知道两者的区别,比如稀疏性和鲁棒性。比如L1倾向于产生稀疏解,这在特征选择中有用,而L2防止过拟合,计算上平滑。这部分需要详细说明,但要注意用例子帮助理解。 还有,应用实例部分,比如Lasso回归和Ridge回归,这会让用户容易联系实际。同时,几何解释可能也有帮助,比如L1在二维空间是菱形,L2是圆形,这样约束下的最优点位置不同。 需要检查数学公式是否正确,按照用户的要求,行内公式用$...$,独立公式用$$...$$。比如L1是$\| \mathbf{x} \|_1 = \sum_{i=1}^n |x_i|$,L2是$\| \mathbf{x} \|_2 = \sqrt{\sum_{i=1}^n x_i^2}$。对吗? 还要注意语法正确,比如绝对值符号用|,平方根用\sqrt,向量用\mathbf。另外,是否需要提到其他范数,比如L0或Lp?可能不需要,用户只问了L1和L2。 可能需要提到计算上的差异,比如L2可导,容易优化,而L1在零点不可导,使用次梯度等方法。这也是为什么L1能产生稀疏解的原因,因为优化时会倾向于某些维度为零。 总结部分要对比两者的优缺点和应用场景,确保用户能根据需求选择。比如特征选择多选L1,防止过拟合选L2,或者结合成Elastic Net。 最后,检查结构是否清晰,分点是否明确,有没有使用中文术语准确,比如“正则化”、“稀疏解”、“过拟合”等。确保回答符合用户的要求,步骤清晰,帮助理解。</think>### L1范数与L2范数介绍 #### 1. **基本定义** - **L1范数**(曼哈顿范数): 对于向量 $\mathbf{x} = (x_1, x_2, \dots, x_n)$,L1范数是其各分量绝对值的和: $$\| \mathbf{x} \|_1 = \sum_{i=1}^n |x_i|$$ 例如:向量 $(3, -4)$ 的L1范数为 $|3| + |-4| = 7$。 - **L2范数**(欧几里得范数): L2范数是向量各分量平方和的平方根: $$\| \mathbf{x} \|_2 = \sqrt{\sum_{i=1}^n x_i^2}$$ 例如:向量 $(3, 4)$ 的L2范数为 $\sqrt{3^2 + 4^2} = 5$。 --- #### 2. **几何意义** - **L1范数**在几何上表现为“菱形”或“钻石形”边界(二维时)。 **L2范数**表现为“圆形”边界(二维时),高维时为超球面。 **示例**:若约束条件为 $\| \mathbf{x} \|_1 \leq 1$,解集是顶点在坐标轴上的菱形;若为 $\| \mathbf{x} \|_2 \leq 1$,解集是一个圆。 --- #### 3. **特性对比** | 特性 | L1范数 | L2范数 | |---------------------|--------------------------------|--------------------------------| | **稀疏性** | 倾向于产生稀疏解(部分分量为0) | 通常产生非稀疏解 | | **计算复杂度** | 优化时需用特殊方法(如坐标下降)| 可导,易于梯度下降等优化算法 | | **抗噪声能力** | 对离群值鲁棒 | 对离群值敏感 | | **几何边界平滑性** | 有尖角(非光滑) | 光滑 | --- #### 4. **典型应用场景** - **L1范数**: - **特征选择**:如Lasso回归($ \min \| \mathbf{y} - X\mathbf{\beta} \|_2^2 + \lambda \| \mathbf{\beta} \|_1 $),通过稀疏性筛选重要特征。 - **鲁棒回归**:在噪声较多时减少异常点影响。 - **L2范数**: - **防止过拟合**:如Ridge回归($ \min \| \mathbf{y} - X\mathbf{\beta} \|_2^2 + \lambda \| \mathbf{\beta} \|_2^2 $),通过平滑约束降低模型复杂度。 - **物理意义明确**:常用于距离、能量等场景。 --- #### 5. **直观理解示例** - **稀疏性示例**: 假设优化问题要求 $\mathbf{\beta}$ 满足 $\| \mathbf{\beta} \|_1 \leq t$,最优解可能在坐标轴上(即某些分量为0);而L2约束的最优解可能接近原点但不严格为0。 - **几何优化示例**: 下图展示在约束 $\| \mathbf{\beta} \|_1 \leq t$(蓝色菱形)和 $\| \mathbf{\beta} \|_2 \leq t$(红色圆)下,损失函数等高线(椭圆)的最优解(交点): - L1的解可能位于顶点(稀疏),L2的解位于边界某点(非稀疏)。 --- #### 6. **总结** - **选择依据**: - 需要特征选择或稀疏性 → **L1范数**(如Lasso)。 - 需要平滑解或避免过拟合 → **L2范数**(如Ridge)。 - 二者结合 → **弹性网络(Elastic Net)**(同时用L1和L2正则化)。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值