拉普拉斯分布-简要介绍

拉普拉斯分布,又称双指数分布,是概率论中的一种连续概率分布。拉普拉斯分布是由法国数学家皮埃尔-西蒙·拉普拉斯在研究误差理论时提出的,在数据集中经常用于描述具有尖峰和长尾特征的分布。

拉普拉斯分布的定义

拉普拉斯分布的概率密度函数(PDF)定义为:

                                        ​​​​​​​        f(x \mid \mu, b) = \frac{1}{2b} \exp\left(-\frac{|x - \mu|}{b}\right)

其中:

1)μ 是位置参数,它表示分布的中心,类似于正态分布中的均值。

2)b>0 是尺度参数,决定分布的宽度。b 越大,分布越“扁平”;反之,b 越小,分布越“尖锐”。

3)x 是随机变量。

这个概率密度函数可以分为两部分来看:左边的\frac{1}{2b}是一个常数,用来确保整个概率分布的面积为 1,而右边的指数函数\exp\left(-\frac{|x - \mu|}{b}\right)描述了概率密度如何随 x 偏离 μ 而指数递减。

拉普拉斯分布的形状

从数学形式上看,拉普拉斯分布具有下列特征:

尖峰:拉普拉斯分布在 μ 处具有尖锐的峰值,而正态分布的峰值相对较为平缓。这意味着拉普拉斯分布更适合描述“尖峰状”数据,即大多数数据集中在均值附近,但也存在一些异常值。

双指数衰减:拉普拉斯分布在离开中心 μ 的两侧都呈现指数衰减。这种快速的衰减使得拉普拉斯分布的尾部相比正态分布略微“肥胖”,因此它能够更好地描述具有异常值或极值的现象。

        ​​​​​​​    

                                                          (正态分布图片)

拉普拉斯分布的期望与方差

拉普拉斯分布的期望和方差可以通过简单的积分得出:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        E(X)=\mu

这意味着拉普拉斯分布的中心位置就是其位置参数 μ。

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        D(X)=2b^{^{2}}

方差是尺度参数 b 的平方的两倍。尺度参数 b 控制了分布的“宽度”,因此 b 越大,数据的离散程度越高。

以上两点都可以从上面的图中看出来。

拉普拉斯分布的分布函数

拉普拉斯分布的分布函数可以通过对分布函数进行积分得到,不过注意由于绝对值的存在,所以积分时候要分范围讨论:

        ​​​​​​​        ​​​​​​​        ​​​​​​​        F(x \mid \mu, b) = \begin{cases} \frac{1}{2} \exp\left(\frac{x - \mu}{b}\right), & \text{ } x < \mu \\ 1 - \frac{1}{2} \exp\left(-\frac{x - \mu}{b}\right), & \text{ } x \geq \mu \end{cases}

这个分布函数描述了拉普拉斯分布在任意 x 处累积的概率。下面是一张分布函数的图:

        ​​​​​​​        ​​​​​​​   ​​​​​​​

后面可能会单独写一下拉普拉斯分布变量的生成,感觉需要求一个反函数,我先在wiki上面截个图下来(里面的sgn是符号函数,变量x大于0为1,小于0为-1,等于0为0):

有缘再会!

### 使用拉普拉斯分布作为稀疏先验 在机器学习和统计建模中,拉普拉斯分布常被用作参数的先验分布来实现稀疏性。这种做法尤其适用于贝叶斯框架下的模型。 #### 拉普拉斯分布简介 拉普拉斯分布概率论中也被称为双指数分布。其概率密度函数定义如下: \[ p(x|\mu, b) = \frac{1}{2b} e^{-\frac{|x-\mu|}{b}} \] 其中 \( \mu \) 是位置参数,\( b > 0 \) 是尺度参数[^2]。 当将拉普拉斯分布应用于权重向量中的各个分量时,可以促使这些权值趋向于零,从而达到稀疏化的效果。具体来说,在最大似然估计过程中加入基于拉普拉斯分布的正则项能够有效地减少不重要的特征对应的系数大小,使得最终得到的结果更加简洁有效。 #### 实现方法 为了更好地理解如何利用拉普拉斯分布构建稀疏先验,下面给出一段Python代码示例,展示了一个简单的线性回归问题,并通过引入Lasso惩罚(即绝对值形式的正则化),这实际上就是采用了拉普拉斯分布的形式来进行优化求解: ```python import numpy as np from sklearn.linear_model import Lasso # 创建模拟数据集 np.random.seed(42) X = np.random.randn(100, 5) beta_true = [1., .8, -.7, 0., 0.] y = X @ beta_true + np.random.normal(size=(100)) # 定义并训练带有Lasso罚项的线性回归模型 lasso_reg = Lasso(alpha=.1).fit(X, y) print("Estimated coefficients:", lasso_reg.coef_) ``` 上述代码展示了如何使用`sklearn`库里的`Lasso`类来拟合具有拉普拉斯先验特性的线性回归模型。这里设置的不同alpha值对应着不同程度上的稀疏程度控制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值