怎么用matlab剔除数据的异常值（3σ准则）

最新推荐文章于 2023-06-03 11:05:51 发布

潘聪明

最新推荐文章于 2023-06-03 11:05:51 发布

阅读量5.3w

点赞数 32

分类专栏： matlab基础

本文链接：https://blog.csdn.net/weixin_44719615/article/details/106955380

版权

matlab基础专栏收录该内容

9 篇文章 5 订阅

订阅专栏

参考：https://blog.csdn.net/weixin_30633405/article/details/95177009

3σ准则又称为拉依达准则，它是先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，

认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，含有该误差的数据应予以剔除。且3σ适用于有较多组数据的时候。

这种判别处理原理及方法仅局限于对正态或近似正态分布的样本数据处理，它是以测量次数充分大为前提的，

当测量次数较少的情形用准则剔除粗大误差是不够可靠的。因此，在测量次数较少的情况下，最好不要选用准则，而用其他准则。

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴

3σ原则为

数值分布在（μ-σ,μ+σ)中的概率为0.6826

数值分布在（μ-2σ,μ+2σ)中的概率为0.9544

数值分布在（μ-3σ,μ+3σ)中的概率为0.9974

可以认为，Y 的取值几乎全部集中在（μ-3σ,μ+3σ)区间内，超出这个范围的可能性仅占不到0.3%.

我的数据是244*119，即有244组样品，第一列是位置信息，随后的各个列为变量信息，即每一列为一个变量，剔除每一列中的异常值。

下面的代码实现的功能是找出剔除的异常值的位置信息，

for ii = 3:119
    P=data_jd(:,ii);
    ave = mean(P);%mean 求解平均值
    u = std(P);%求解标准差
    for i = 1:244
        if(abs(P(i)-ave)>3*u)
            P(i) = 0;
            P_ans = P(P==0);
            len=length(P_ans);
            if len == []
                continue
            else
                location=find(P==0)
                if len == 1
                    loc(1,ii)=location
                else
                    for iii=1:len
                        loc(iii,ii)=location(iii)
                    end
                end
            end
        else
            continue;
        end
    end

end

ans=loc(loc~=0);
ans=unique(ans);#删除重复的值

%% 根据索引去除异常值
data_jd(ans,:)=[]