5003笔记 Statistic Chapter3-Density Estimation

Density Estimation:密度估计 在这里插入图片描述
Cumulative distribution:累计分布函数F(x) 在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
注意,均值mean E(x) = np, Var(x) = np(1-p)
在这里插入图片描述
Continuous distribution:连续分布
在这里插入图片描述
连续的边界不重要,离散的边界重要
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
这里连续变量的PDF(probability density function)概率密度函数不同于上面离散变量的PDF(probality distribution function)概率分布函数。我们的Density Estimation就是去估计一条概率密度曲线。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
给定几个独立的来自同一分布的样本点,让我们去估计PDF概率密度曲线。
在这里插入图片描述
在这里插入图片描述
Parametric density estimation:有参密度估计
我们需要选择哪个分布模型来估计呢?这是一个难点,按下不表。
在这里插入图片描述
假设是正态分布,我们要求μ和σ,最少需要知道2个点。
在这里插入图片描述
要说似然函数,就要从贝叶斯条件概率说起。似然函数就是吧后验概率转化成先验概率的函数。
在这里插入图片描述
在这里插入图片描述
当我们要解决likelihood问题时,就是我们已知样本以及样本分布情况,求原概率分布情况。(第3问就是likelihood问题,第2问就是求概率问题)
在这里插入图片描述
从population到sample。population就是概率密度曲线,当我们已知曲线的时候,可以通过pnorm求出sample阴影部分的面积。
在这里插入图片描述
在这里插入图片描述
Likelihood就是从sample到population的过程:
在这里插入图片描述
在这里插入图片描述
当只有一个点的sample时,如果是正态分布,一定是x=u的时候,概率最大,但是更多的情况是sample有很多点,比如有4个点。这个时候,就不一定是u最大了。要怎么求4个点的呢?因为他们相互独立,可以将他们的概率相乘。
在这里插入图片描述
在这里插入图片描述
对数似然函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Kernel Function是一种特殊的PDF,不满足任何一种分布模型。不同于机器学习的核函数。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
统计直方图是基于sample的,而概率密度曲线是基于populaton的。所以当直方图没有的时候,只是表明sample在这里没有,对曲线有影响,但并不是说概率就是0,只是概率比较低。
在这里插入图片描述
在这里插入图片描述
核密度估计KDE
公式中1后面表示距离x有h的距离所有点的个数,每一个算作1,有8个点,就是8.
在这里插入图片描述
在这里插入图片描述
xi是在x左右范围内的点。K是核函数
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看到不同的KDE画出来的曲线都差不多。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
关于h过大或者过小,考过
在这里插入图片描述
h过大,4个峰也没了。所以h过大,过于平滑也不好。重要信息丢失/稀释
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值