局部线性拟合的最优数据选择

文章通过BCA法测定蛋白质含量的实验数据,探讨了如何处理系统误差和偶然误差。通过观测图形法,筛除异常数据点,进行线性拟合,分析模型的拟合效果。提出利用置信权重和数据点与拟合直线的距离进行综合评估,以筛选出更接近真实值的数据点。
摘要由CSDN通过智能技术生成

0.引言

在一些理工科定量测定实验中,往往由于系统误差的影响,两端的极端情况误差往往比较大,从而影响数据间的线性关系,同时偶然误差也不可避免,因此如何处理好系统误差和理论误差的关系,准确筛选出准确数据,让结果达到最真实的值成了个难题,本文则致力于分析解决该难题。

以下为本文使用的实验数据:(本文以用BCA法测定蛋白质含量的实验为例)

  1. 观测图形法

1.1做出数据所拟合的曲线图

(具体方法见我上一篇博客如何作出优美的曲线_zwhszdx的博客-CSDN博客

1.2筛除明显不合理的点

观测图像可知,最后5个数据点,明显与前面的点不逞线性关系,而且单位间距大影响了前面点的观测,明显没有统计学意义筛去。

继续观测图像可知,前面3个点也没有统计学意义,删去。

至此,我们就已经得到较为理想的数据了,从而接下来可以进行线性规划操作了。

1.3线性拟合

使用geom_smooth()函数对数据进行线性拟合,并画出95%的置信区间(图中灰色阴影部分)

geom_smooth(method='lm',aes(color = "Fitting curve"))

目测拟合效果不错,计算一下模型拟合的各方面参数:

fit <- lm(y ~ x)
summary(fit)

结果如下:

可以看到模型的拟合效果还是比较好,Multiple R-squared为0.985,Adjusted R-squared为0.983表明模型可以解释x的98.5%的变异性和y的98.31%的变异性。同时,模型的p值非常小(1.397e-08),表明说明x对y的影响是十分显著的。

当然我们也可以删去置信区间外的点从而获得更好的拟合效果,但这一行为也是充满争议的(我们会在下文中将进行详细的讨论),效果如下:

但要明确一点:因为系统误差的存在,拟合效果越好并不意味所得到的值越接近真实值

1.4优缺点分析

优点:该方法操作方便能够在短时间内筛掉不合理的点获得基本接近真实值的较为合理的数据。

不足之处:依赖于目测,并没有进行定性或定量分析,缺乏准确性。删去置信区间外的点时虽然会得到更好的拟合效果但会丧失很多信息,因此应该更加慎重一点。

所以,我们接下来将重新仔细分析背景做定量分析。

  1. 背景的深入分析

我们可以明确以下几个基本事实:

  1. 数据点越趋于两端系统误差越大可信度越小

  1. 中间会有段数据几乎没有系统误差符合理论线性关系(我们数据分析目的就是要找到这段区域数据)

  1. 在实验过程中会存在偶然误差影响

我们先忽略偶然误差影响,来分析一下系统误差对实验数据的影响:

由于笔者这方面理论知识匮乏,并不清楚有哪些主要的系统误差,以及产生怎么样的影响,因此笔者分了两种情况:(如果有大佬知道相关的信息,请在评论区告诉笔者,不胜感激)

1.系统误差有着不同方向的诸多因素,除两端导致吸光度变小外会导致吸光度明显变小因素外,还有其他显著的可以使吸光度变高的系统误差:

2.系统误差主要是某些因素导致吸光度变低,在两端尤其明显:

  1. 模型的确立

3.1主要思路

首先,我们将建立一个评价某点是否在真实值直线上的模型,将由置信权重与该点距离拟合直线的距离加和置信权重即为数据点的可信度,是用来评估系统误差的,距离则代表了它与拟合直线的偏离程度,这体现了一个系统误差偶然误差的综合评估。

尽管d可以作为系统误差和偶然误差的一个综合评估,但如果仅仅以d来看评估,可能会在一些位置出现偏差,例如B点明显是由于极大的偶然误差偏离了曲线,而接近了真实值直线,所以按逻辑来说,该点应该是不合理的,如果只看d的话,则不能很好地筛选出该点。

3.2 置信权重的确定

方法一中得到的结论基本是合理的,所以我们把它近似作为一个假设的真实值直线,我们首先将数据点做拟合处理,则将曲线认为是没有偶然误差的实验数据,那么在某蛋白浓度曲线上一点到真实值直线的距离则可把它作为一个置信权重,来估量系统误差。

3.3 数据的筛选

首先将数据拟合成曲线,直线;计算出每个点的综合评估结果,筛去评估结果最大的点,重复以上步骤,直至两次拟合结果相差不大(尽可能地保留原始数据)

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值