首先一系列的假定条件。
服从正态分布,数据相互独立并且有着相同的概率分布。
实质就是给定一个离群点个数的上限r,进行r次独立的检验。然后比较检验统计量。
计算与均值偏离最远的残差
计算出元素的残差。就可以与接下里的lam比较。大于lam的就是离群点。
lam的计算公式:
lam的计算是在显著水平下求出来的。上式的变量n为数据量,tp,n-i-i是自由度为
n-i-i的t分布的100p百分位点。
t分布计算密度函数公式为:
p的计算公式为:
根据这两个工可以求得lam。然后比较,大于lan的数据就是离群点。(个人认为R的选取很重要。)
从https://wenku.baidu.com/view/639be24252d380eb63946d47.html看到的本文。