5003笔记 Statistic Chapter3-Density Estimation

大叔爱学习.

于 2021-11-17 23:08:25 发布

阅读量456

点赞数 1

分类专栏： statistic 统计文章标签：概率论统计模型

本文链接：https://blog.csdn.net/weixin_43716712/article/details/121384639

版权

statistic 同时被 2 个专栏收录

12 篇文章 2 订阅

订阅专栏

统计

9 篇文章 2 订阅

订阅专栏

Density Estimation：密度估计 在这里插入图片描述
Cumulative distribution：累计分布函数F(x)

注意，均值mean E(x) = np, Var(x) = np(1-p)

Continuous distribution：连续分布

连续的边界不重要，离散的边界重要

这里连续变量的PDF(probability density function)概率密度函数不同于上面离散变量的PDF(probality distribution function)概率分布函数。我们的Density Estimation就是去估计一条概率密度曲线。
在这里插入图片描述

给定几个独立的来自同一分布的样本点，让我们去估计PDF概率密度曲线。

Parametric density estimation：有参密度估计
我们需要选择哪个分布模型来估计呢？这是一个难点，按下不表。

假设是正态分布，我们要求μ和σ，最少需要知道2个点。
在这里插入图片描述
要说似然函数，就要从贝叶斯条件概率说起。似然函数就是吧后验概率转化成先验概率的函数。

当我们要解决likelihood问题时，就是我们已知样本以及样本分布情况，求原概率分布情况。（第3问就是likelihood问题，第2问就是求概率问题）
在这里插入图片描述
从population到sample。population就是概率密度曲线，当我们已知曲线的时候，可以通过pnorm求出sample阴影部分的面积。

Likelihood就是从sample到population的过程：

当只有一个点的sample时，如果是正态分布，一定是x=u的时候，概率最大，但是更多的情况是sample有很多点，比如有4个点。这个时候，就不一定是u最大了。要怎么求4个点的呢？因为他们相互独立，可以将他们的概率相乘。
在这里插入图片描述

对数似然函数

Kernel Function是一种特殊的PDF，不满足任何一种分布模型。不同于机器学习的核函数。

统计直方图是基于sample的，而概率密度曲线是基于populaton的。所以当直方图没有的时候，只是表明sample在这里没有，对曲线有影响，但并不是说概率就是0，只是概率比较低。
在这里插入图片描述

核密度估计KDE
公式中1后面表示距离x有h的距离所有点的个数，每一个算作1，有8个点，就是8.

xi是在x左右范围内的点。K是核函数

可以看到不同的KDE画出来的曲线都差不多。

关于h过大或者过小，考过
在这里插入图片描述
h过大，4个峰也没了。所以h过大，过于平滑也不好。重要信息丢失/稀释

大叔爱学习.

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
5003笔记 Statistic Chapter3-Density Estimation

Density Estimation：密度估计 Cumulative distribution：累计分布函数F(x) 注意，均值mean E(x) = np, Var(x) = np(1-p)Continuous distribution：连续分布连续的边界不重要，离散的边界重要这里连续变量的PDF(probability density function)概率密度函数不同于上面离散变量的PDF(probality distribution function)概率分布函数。我们的
复制链接

扫一扫