关于这一部分的学习有一点混乱,但最后还是通了的
先问了两个AI,然后看了一下同学介绍的b站视频,回忆了一下久远的概率论知识
对b站视频遇到的问题有一些思考总结(几乎都是概率论基础)无偏估计之类的
视频里介绍了一个我没想过的“投影的思想”,有点懂又没懂全,时间不够就没仔细看,简单做了一些记录
视频也有一些CR下界相关的,我记了一点,但是这个视频的讲法是基于投影,我对这个投影理解不太到位,就不是很懂,主要是根据最后bing给的柯西施瓦茨不等式推的
最后在有了基础以后,结合bing给出的柯西施瓦茨不等式求法,推导了克拉美罗下界等于费舍尔信息矩阵的逆矩阵
目录
为什么偏差越小,反而会欠拟合呢,偏差小说明拟合的好,不是应该更拟合吗
bing
克拉美罗下界是一种用来评估无偏估计量方差的下限的方法,它与费舍尔信息矩阵有密切的关系。费舍尔信息矩阵是一种描述观测数据中关于参数的信息量的矩阵,它的逆矩阵就是克拉美罗下界。也就是说,无偏估计量的协方差矩阵必须大于或等于费舍尔信息矩阵的逆矩阵¹²。如果一个无偏估计量的方差达到了克拉美罗下界,那么它就是有效的或最小方差无偏估计量¹²。克拉美罗下界可以用来评价不同的估计方法的性能,也可以用来设计新的估计方法³⁴。
源: 与必应的对话, 2023/5/26
(1) 第3章 Cramer-Rao下限(CRLB) - 知乎. https://zhuanlan.zhihu.com/p/403727086.
(2) 现代信号处理——参数估计理论(Fisher信息与克拉美罗 .... https://blog.csdn.net/qq_42233059/article/details/127072340.
(3) 克拉美罗界为什么比其他算法的RMSE要低? - 知乎. https://www.zhihu.com/question/294397111.
(4) 克拉美-劳界(Cramér-Rao Bound,CRB)及其修正型 - 知乎. https://zhuanlan.zhihu.com/p/620305243.
GPT如是说
(这么一看bing还是输了)
克拉美罗下界和费舍尔信息矩阵都是用来评估估计量的效果和精度的重要指标。
克拉美罗下界是指在给定一组观测数据和一个参数估计量时,该估计量能达到的最小方差。它是由信息矩阵的逆矩阵得到的,可以看作是一个理论上的极限。如果一个估计量的方差等于克拉美罗下界,那么它就是最优的估计量。
费舍尔信息矩阵是用来描述参数估计量的精确度和可靠性的矩阵。它的每个元素是参数估计量对应的偏导数的平方,表示该参数估计量对观测数据的变化做出反应的敏感程度。在估计量的方差的计算中,费舍尔信息矩阵是一个关键因素。
两者的关系在于,克拉美罗下界是由费舍尔信息矩阵的逆矩阵得到的。具体而言,设一个参数向量的估计量为 \hat{\theta}θ^,费舍尔信息矩阵为 I(\theta)I(θ),那么该估计量的方差的下界为 Var(\hat{\theta}) \geq I^{-1}(\theta)Var(θ^)≥I−1(θ)。这意味着,如果我们能够得到一个与费舍尔信息矩阵相等的矩阵,那么我们就能得到一个达到克拉美罗下界的最优估计量。
因此,费舍尔信息矩阵是估计量的方差下界的关键因素,而克拉美罗下界则是估计量精度的理论极限。两者的关系可以帮助我们评估和优化估计量的精度和可靠性。
1.回顾一下费舍尔信息矩阵
2.关于概率论相关的补充知识
学数学的同学推荐的链接,从p23开始看看
老师提到了方差和偏差,所以问一问
2.1方差和偏差
概率统计中,方差和偏差的区别
方差和偏差是两种衡量预测误差的指标,它们反映了不同的误差来源。
方差是描述预测值之间的离散程度,也就是预测值与其期望值之间的差异¹²。方差越大,说明预测值越不稳定,越容易受到数据扰动的影响。
偏差是描述预测值与真实值之间的偏离程度,也就是预测值的期望与真实值之间的差异²³。偏差越大,说明预测值越偏离真实数据,越不能反映数据的真实规律。
一般来说,方差和偏差是有冲突的,简单的模型会有较大的偏差和较小的方差,复杂的模型会有较小的偏差和较大的方差。我们需要在两者之间找到一个平衡点,使得总的预测误差最小。
源: 与必应的对话, 2023/5/27
(1) 偏差和方差有什么区别? - 知乎. https://www.zhihu.com/question/20448464.
(2) 偏差(Bias)与方差(Variance) - 知乎. https://zhuanlan.zhihu.com/p/38853908.
(3) [机器学习]偏差和方差的理解 - 知乎. https://zhuanlan.zhihu.com/p/57208761.
为什么方差和偏差是有冲突的
方差和偏差是有冲突的,是因为它们反映了模型的不同方面。
方差反映了模型对数据的敏感度,也就是模型的灵活性。方差越大,说明模型越灵活,越能够适应不同的数据,但也越容易受到数据噪声的影响,导致过拟合。
偏差反映了模型对数据的拟合程度,也就是模型的准确性。偏差越小,说明模型越准确,越能够反映数据的真实规律,但也越容易忽略数据的复杂性,导致欠拟合。
因此,方差和偏差是一对矛盾的指标,我们不能同时降低它们,只能在它们之间寻找一个折中的点。
个人思考补充:方差大,各个预测值之间可以突然跳变很多,所以会拟合的过于好,导致过拟合
为什么偏差越小,反而会欠拟合呢,偏差小说明拟合的好,不是应该更拟合吗
偏差小并不一定说明拟合的好,因为偏差是指预测值的期望与真实值之间的差异,而不是指单个预测值与真实值之间的差异。
如果模型过于简单,不能捕捉数据的复杂性,那么它的预测值可能都很接近真实值的平均值,这样偏差就会很小,但是这样的模型并不能反映数据的真实规律,也就是欠拟合。例如,如果我们用一条直线去拟合一个二次曲线的数据,那么直线的预测值可能都很接近二次曲线的平均值,但是直线并不能表达二次曲线的形状,所以这样的模型就是欠拟合的。
个人思考补充:感觉这个解释的很到位,主要在于是这个预测值的期望和真实值差小,(关键在这个期望),那么每个预测值可能都等于这个期望值,没有什么变化,不能很好的拟合真实值
2.2无偏估计
什么是无偏估计
无偏估计是一种用样本统计量来估计总体参数的方法,它的特点是估计量的数学期望等于被估计参数的真实值¹⁴。也就是说,无偏估计没有系统性的误差,只有随机性的误差。无偏估计可以反映总体参数的真实情况,是一种优良的估计量。例如,样本均值是总体均值的无偏估计,样本方差除以n-1是总体方差的无偏估计²⁵。
源: 与必应的对话, 2023/5/27
(1) 无偏估计和有偏估计的区别 - 知乎. https://bing.com/search?q=%e6%97%a0%e5%81%8f%e4%bc%b0%e8%ae%a1.
(2) 无偏估计和有偏估计的区别 - 知乎. https://zhuanlan.zhihu.com/p/121498768.
(3) 什么是无偏估计? - 知乎. https://www.zhihu.com/question/22983179.
(4) 方差的无偏估计如何计算? - 白白毛狗 - 博客园. https://www.cnblogs.com/hithink/p/10968326.html.
(5) 如何求一个无偏估计量(unbiased estimator)? - 知乎. https://www.zhihu.com/question/436657769.
(6) 如何理解无偏估计?无偏估计有什么用?什么是无偏估计 .... https://blog.csdn.net/varyshare/article/details/89887059.
为什么不是直接样本方差等于总体方差
如果直接用样本方差去估计总体方差,会产生一个偏差,这是因为样本方差的计算中使用了样本均值,而样本均值是一个随机变量,它的取值会受到样本的影响。如果样本均值偏离了总体均值,那么样本方差就会低估总体方差。为了消除这个偏差,我们需要用n-1来除以样本方差,这样就可以得到一个无偏估计 。
OS:当初学概率论推导过,明天有时间的话看看
3.尝试推导克拉美罗下界和费舍尔信息矩阵的关系
3.1 B站网课笔记(概率论基础)
概率论的基础 一致最小方差无偏估计
跟前面的文字也有一些呼应
提到了一点投影,后面有更详细的
也有一些CR下界相关的,但是这个视频的讲法是基于投影,我对这个投影理解不太到位,就不是很懂,主要是根据最后bing给的柯西施瓦茨不等式推的
3.2投影的思想
3.3bing给出了柯西施瓦茨不等式推导想法
为什么克拉美罗下界等于费舍尔信息矩阵的逆矩阵
克拉美罗下界等于费舍尔信息矩阵的逆矩阵是一个数学定理,它可以通过柯西-施瓦茨不等式来证明。¹²
简单地说,克拉美罗下界是用来衡量无偏估计量的方差或协方差矩阵的下限,它反映了估计问题的理论极限。而费舍尔信息矩阵是用来度量观测数据对未知参数的敏感程度,也就是信息量。¹²
如果费舍尔信息矩阵越大,说明观测数据对未知参数越敏感,那么无偏估计量的方差或协方差矩阵就越小,也就是估计越精确。反之亦然。因此,克拉美罗下界和费舍尔信息矩阵是互为倒数的关系。¹²
这个定理告诉我们,通过统计的方式认知世界是有极限的:人类可以通过各种手段无限接近真理(比如增加样本量)但是永远无法通过统计方式得到真理的真实面貌(参数或者分布类型)。²
源: 与必应的对话, 2023/5/27
(1) 克拉美-劳界(Cramér-Rao Bound,CRB)及其修正型 - 知乎. https://zhuanlan.zhihu.com/p/620305243.
(2) 怎么通俗理解概率论中的c r (cramer rao 克拉默拉奥)不等式?. https://www.zhihu.com/question/56411276.
(3) 现代信号处理——参数估计理论(Fisher信息与克拉美罗 .... https://blog.csdn.net/qq_42233059/article/details/127072340.
最后当g(θ)=0,求导就是1,所以只有信息矩阵的倒数