目录
0.前言
最近在学习Theory and Method of Statistics(统计理论方法),使用的教材是由Bradley Efron 、Trevor Hastie共同编写的Computer Age Statistical Inference: Algorithms, Evidence, and Data Science(《计算机时代的统计推断:算法、演化和数据科学》)。书中第四章讲述的Fisherian Inference and Maximum Likelihood Estimation(费雪推断和极大似然估计),其中提到现实应用中极大似然估计并没有那么容易求解,比如Cauchy分布和Gamma分布。
如果极大似然估计方法没有显式解,可以考虑用数值计算的方法求解(如牛顿法);更进一步,如果二阶导不存在或Hessian矩阵非正定,可以使用拟牛顿法;再复杂一些,可以使用MM算法(EM是MM的特例) 。本文以牛顿法为例,给出求解 Cauchy分布、Gamma分布的极大似然估计参数的理论并使用R和Python实现。
1.理论基础
本节给出牛顿法求分布的极大似然参数估计的一般理论。
如果随机变量 独立同分布于
,且已知一组样本
,为了估计该分布的参数,可以使用极大似然估计的方法。
首先写出样本的似然函数
对 进行对数化处理,得到对数似然函数
则求解未知参数等价于求解以下等式方程组
不妨假设收敛解为 ,将
在
的邻域内展开成泰勒级数得
这样就得到一个迭代关系式
如果是连续的,并且待求的零点是孤立的,那么在零点周围存在一个区域,只要初始值位于这个邻近区域内,那么牛顿法必定收敛。 并且,如果不为0, 那么牛顿法将具有平方收敛的性能。 粗略地说,这意味着每迭代一次,牛顿法结果的有效数字将增加一倍。
2.Cauchy分布的极大似然估计
如果随机变量服从柯西分布,记为
,其中
为最大值一半处的一半宽度的尺度参数(scale parameter ),
为定义分布峰值位置的位置参数(location parameter )
当 ,此时的Cauchy 分布称为标准Cauchy 分布
Cauchy 分布的最特别的性质是其期望及高阶矩都不存在,自然也就无法对参数进行矩估计。但Cauchy分布的cdf具有很好的性质,可以利用一组样本的分位点来对参数进行点估计。