[Machine Learning] Density Estimation

华北小龙虾

已于 2023-06-13 22:02:37 修改

阅读量148

点赞数

文章标签：机器学习

于 2023-06-13 14:47:28 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45427144/article/details/131180448

版权

文章目录

Parametric Approach
- MLE
Non-parametric Approach
- Histograms
- Kernel Density Estimator (KDE)

Parametric Approach

MLE

给定一个模型和一组观测数据，最大似然估计法的目标是找到一组参数值，使得在这组参数下观测到实际数据的概率（即似然）最大。具体地，似然函数被定义为

$L(\theta|x) = \prod\limits^n_{i=1} f(x_i | \theta)$

这里， $f(x_i|\theta)$ 是给定参数 $\theta$ 下观测到 $x_i$ 的概率密度。如果我们假设所有的观测数据都是独立同分布的，那么整体的似然就是每一个观测值的似然的乘积。

由于似然函数通常包含乘法运算，为了简化计算，我们通常会取对数，将乘法转化为加法，于是就得到了对数似然函数：

$\mathcal{L}(\theta|x) = \ln L(\theta|x) = \sum\limits^n_{i=1} \ln f(x_i | \theta)$

然后，我们的任务就是找到一个参数 $\theta$ ，使得这个对数似然函数最大。这个参数就是我们所说的最大似然估计。

Non-parametric Approach

Histograms

Very simple visualization.
Sensitive to the number of bins chosen and bin width.

Kernel Density Estimator (KDE)

在KDE（核密度估计）中，每一个数据点都会构建一个以该点为中心的kernel function。这个密度函数通过将所有这些kernel function相加，然后除以数据的数量来得到，以确保满足以下条件：

密度函数的所有可能值都是非负的
密度函数在其支持集上的定积分等于1

对于简单的KDE（也叫箱型核），所有在一个给定宽度h（即窗口或带宽）内的点被赋予相同的权重。你可以将其想象成一个长方形的窗口，滑过所有的数据点，窗口内的点贡献同样的权重，窗口外的点不贡献权重。这就好比说，我们认为窗口内的所有点对估计密度的影响是一样的：

$\hat{f}(x) = \frac{1}{2nh} \sum\limits_{i =1}^n 1_{\{|X_i-x| < h\}}$

这里的 $1_A = 1$ 如果 $A$ 为真，否则 $1_A = 0$ 。

对于更通用的核密度估计，我们使用一个kernel function K来赋予不同的权重。这个kernel function是一个非负的函数，它的值在中心最大，在远离中心的地方逐渐减小，总和为1。这意味着在计算一个点的密度估计时，距离该点近的观测值将被赋予更大的权重，而距离远的观测值将被赋予更小的权重：

$\hat{f}(x) = \frac{1}{nh} \sum\limits_{i =1}^n K(\frac{X_i-x}{h})$

其中 $K$ 是kernel function， $h$ 是带宽参数（可能是固定的或变化的）。

Kernel function是一种特殊的概率密度函数，具有以下性质：

非负性： $\geq 0$
对称性： $K (- x) = K (x)$
单位测度： $\int K(x)dx = 1$

我们有两个主要的参数可以进行调整：

kernel function $K$ 的选择
带宽参数 $h$ 的选择

通常来说，kernel function的选择对结果的影响并不大，而带宽参数 $h$ 的选择对结果的影响就会很大。

选择合适的带宽 $h$ 可以平衡偏差和方差之间的权衡。

如果 $h$ 太小，密度估计将趋向于在观测数据附近的地方过度地局部分配概率密度，会导致估计的密度函数出现许多虚假的模式（即估计曲线波动太大）。如果 $h$ 太大，密度估计将过于分散地分配概率密度，可能会把 $f$ 的重要特征平滑掉（即估计曲线过于平坦）。

$Var(\hat f (X)) = O(\frac{1}{nh})$

$Bias(\hat f (X)) = O(h)$

总的来说，小的带宽会导致高的方差，大的带宽会导致高的偏差小的带宽会导致高的方差，大的带宽则会导致高的偏差。

以下是一些常用的kernel function：

Uniform Kernel: $\frac{1}{2} 1_{{|x| \leq 1}}$

Gaussian Kernel: $\frac{1}{\sqrt{2\pi}} e^{-\frac{1}{2}x^2}$

Epanechnikov Kernel: $\frac{3}{4}(1 - x^2) 1_{\{|x| \leq 1\}}$

华北小龙虾

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
[Machine Learning] Density Estimation

这个kernel function是一个非负的函数，它的值在中心最大，在远离中心的地方逐渐减小，总和为1。对于简单的KDE（也叫箱型核），所有在一个给定宽度h（即窗口或带宽）内的点被赋予相同的权重。你可以将其想象成一个长方形的窗口，滑过所有的数据点，窗口内的点贡献同样的权重，窗口外的点不贡献权重。总的来说，小的带宽会导致高的方差，大的带宽会导致高的偏差小的带宽会导致高的方差，大的带宽则会导致高的偏差。如果我们假设所有的观测数据都是独立同分布的，那么整体的似然就是每一个观测值的似然的乘积。
复制链接

扫一扫

华北小龙虾 CSDN认证博客专家 CSDN认证企业博客

码龄5年

46: 原创

39万+: 周排名

21万+: 总排名

1万+: 访问

: 等级

488: 积分

14: 粉丝

13: 获赞

11: 评论

13: 收藏

私信

关注

热门文章

最新评论

[Machine Learning] 领域适应和迁移学习
征途黯然.: This article provides a wealth of information about MachineLearning领域适应和迁移学习 and is quite profound.
[Machine Learning] 领域适应和迁移学习
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文
[Machine Learning] Learning with Noisy Data
白话机器学习: 文章内容通俗易懂，适合不同层次的读者。无论是初学者还是资深从业者，都能从中获得不同层次的收获
[Machine Learning] Learning with Noisy Data
征途黯然.: 我一直在寻找关于MachineLearningLearningwithNoisyData的好文章，而这篇绝对是一篇精品！
[Machine Learning] 绪论
CSDN-Ada助手: 恭喜您写出了第8篇博客，题目为“[Statistics] 机器学习”。您对机器学习的研究和总结给读者带来了很多的启发，让我们更深入地了解这个领域。希望您能继续保持创作热情，分享更多的知识和经验。下一步的创作建议是可以结合具体案例，深入探讨机器学习在实际应用中的效果和局限性。期待您的下一篇博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply8 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。