零基础学人工智能之统计学篇(2. 4) -----数据误差

2.4 数据的误差

数据的误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。
数据的误差有两类:抽样误差非抽样误差

2.4.1 抽样误差

抽样误差(smapling error)是由抽样的随机性引起的样本结果与总体真值之间的差异。

  • 在概率抽样中,我们依据随机原则抽取样本。根据不同的样本,可以得到不同的观测结果。
  • 例如,为检验一批产品的非优质品率,随机抽出一个样本,样本由若干个产品组成,通过检测得到非优质品率为30%。
  • 如果我们再抽取一个数量相同的样本,检测结果也可能是29%,31%。
  • 但是我们知道,总体真实的结果只能有一个。可以推测,虽然不同的样本会有不同的答案,但这些不同的答案应该在真值附近。如果不断地增大样本量,这些答案会向总体真值趋近。
  • 例如,如果总体真正的非优质品率是30%,那么,大部分的样本结果(如反复抽样中95%的样本结果)会落在 27.2 % ∼ 32.8 % 27.2\%\sim32.8\% 27.2%32.8%之间。
  • 读到这里,读者可能会问:既然都总体真值都不知道,怎么可能知道有 95 % 95\% 95%的样本结果与真值的差异是 2.8 % 2.8\% 2.8%呢?确实,总体真值我们是不知道,否则也就不用调查了。但是,通过样本可以计算出这个误差。
  • 即以总体的真值30%为中心,有95%的样本测量结果在 ± 2.8 % \pm2.8\% ±2.8%的误差范围内波动。
  • 这个 ± 2.8 % \pm2.8\% ±2.8%的误差是由抽样的随机性带来的,我们把这种误差称为抽样误差


由此看出,抽样误差并不是针对某个具体样本的检测结果与总体真实结果的差异而言的。抽样误差描述的是所有样本可能的结果与总体真值之间的平均差异

抽样误差的大小与多方面因素有关。

  • 最主要的是样本量的大小,样本量越大,抽样误差越小。当样本量大到与总体单位相同时,也就是抽样调查变成普查,这时抽样误差便减小到零,因为这时已经不存在样本选择的随机性问题,每个单位都需要接受调查。
  • 抽样误差的大小还与总体的变异性有关。总体的变异性越大,即各单位之间的差异越大,抽样误差也就越大,因为有可能抽中特别大或特别小的单位,从而使样本结果偏大或偏小;反之,总体变异性越小,各单位之间越相似,抽样误差也就越小。如果所有的单位完全一样,调查一个就可以精确无误地推断总体,抽样误差也就不存在了。现实中这种情况也是不存在的,否则,对这样的总体也就不用进行专门的抽样调查了。

2.4.2 非抽样误差

非抽样误差(non-sampling error)是相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。

  • 抽样误差是一种随机性误差,只存在于概率抽样中;
  • 非抽样误差则不同,无论是概率抽样、非概率抽样,还是在全面调查中,都有可能产生非抽样误差。

非抽样误差有以下几种类型:

  1. 抽样框误差
    • 在概率抽样中需要根据抽样框抽取样本。抽样框是有关总体全部单位的名录,在地域抽样中,抽样框可以是地图。
    • 一个好的抽样框应该是,抽样框中的单位和研究总体中的单位有一一对应关系。例如,在某个学校抽取一个学生样本,则抽样框是该学校所有学生的名单,这时,名单中的每个名字都对应一个学生,就存在一一对应的关系。
    • 但如果学生的名单是去年的,新入学学生的名字没有在名单上反映,这时,抽样框中的单位与研究总体的单位就不存在一一对应关系,**使用这样的抽样框抽取样本就会出现一些错误。
    • 例如,由于新入学学生名字在抽样框中没有,那他们那部分的信息就无法知道。
    • 这些统计推论的错误是抽样框的不完善造成的,我们把这种误差称为抽样框误差
  2. 回答误差
    • 回答误差是指被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有多种,主要有理解误差、记忆误差和有意识误差。
    • (1)理解误差:不同调查者对调查问题的理解不同,每个人都按自己的理解回答,大家的标准不一致,由此造成理解误差。
    • (2)记忆误差:有时,调查的问题是关于一段时期内的现象或事实,需要被调查者回忆。需要回忆的时间间隔越久,回忆的数据就可能越不准确。
    • (3)有意识误差:当调查的问题比较敏感,被调查者不愿意回答,迫于各种原因又必须回答时,就可能会提供一个不真实的数字。
  3. 无回答误差:无回答误差是指被调查者拒绝接受调查,调查人员得到的是一份空白的答卷。无回答也包括那些调查进行时被访者不在家的情况。
    • 无回答误差有时是随机的,有时是系统性的。假设无回答的产生与调查的内容无关,例如,邮寄的问卷丢失,或调查时被访者正在生病,无法接受调查。
    • 但当无回答的产生与调查的内容有关时,就可能产生系统性误差。例如,调查收入时拒绝回答者通常是收入比较高的人群,仅仅用收入低的回答结果进行推算,偏差就不可避免。
    • 如果无回答误差是随机的,可以通过增加样本量来解决。
    • 无回答的系统性误差令人头疼。解决的途径主要有两个方面:一方面是预防,即在调查前做好各方面的准备工作,尽量把无回答讲到最低程度。另一方面,当无回答出现后,分析无回答产生的原因,采取一些补救措施。例如,在无回答单位中再抽取一个样本,实施更有力的调查,并以此作为无回答层的代表。
  4. 调查员误差
    这是指由于调查员的原因而产生的调查误差。例如,调查员粗心,在记录调查结果时出现错误。调查员误差还可能来自调查中的诱导,而调查员本人或许并没有意识到。例如,在调查过程中调查员有意无意地流露出对调查选项的看法或倾向,调查员的表情变化、语气变化、语速变化都可能对被调查者产生某种影响。
  5. 测量误差
    如果调查与测量工具有关,则很有可能产生测量误差。例如,对小学生的视力状况进行抽样调查,而视力的测定 与现场的灯光、测试距离都有密切关系。调查在不同地点进行,如果各个测试点的灯光、测试距离有差异,就会给结果带来测量误差

2.4.3 误差的控制

  上面对调查中的误差问题进行了比较详细的讨论。如何有效地控制各种误差,提高数据的质量,这是对研究人员和现场调查人员面临的挑战。

  抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。令人欣慰的是,抽样误差是可以计算的。在对特定问题的研究中,研究人员对抽样误差有一个可以容忍的限度。

    • 例如,用抽检的方法检验产品的质量,对总体合格品率估计的误差不超过 ± 1 % \pm1\% ±1%,这个 ± 1 % \pm1\% ±1%就是允许的抽样误差。允许的抽样误差有多大,取决于对数据精度的要求。

  非抽样误差与抽取样本的随机性无关,因而在概率抽样和非概率抽样中都会存在(但抽样框误差仅在概率抽样中存在)。有很多原因会造成非抽样误差,因此控制起来比较困难,有兴趣的小伙伴们可以参考有关文献。
  如果采用概率抽样,就需要抽样框,抽样框误差就可能出现。其实,对同一个调查问题,有时可以构造不同的抽样框。

    • 例如,对学校教师进行抽样调查,以了解他们对建设一流大学的看法,抽样框可以是教师的名单,可以是教师住所的门派号码,可以是教师家的电话号码。不同的抽样框,其质量可能会有所差别,通过认真分析可以选择出比较好的抽样框。


  一份好的调查问卷可以有效地减少调查误差。问卷中的题目类型、提问的方式、使用的词汇、问题的组合等,都可能会对被调查者产生哪怕是十分微小的影响,而大量微小影响的累加是不可忽视的。做好问卷设计是减少非抽样误差的一个方面。

  非抽样误差控制的重要方面是调查过程的质量控制。这包括:调查员的筛选,调查员的培训,对调查结果进行的检验、评估,对现场调查人员进行奖惩的制度,等等。目前在规范的专业性市场调查咨询公司都有一些进行质量控制的规章制度和经验。


总结

 本篇介绍数据误差,误差分为抽样误差非抽样误差,然后我们又学习了如何去控制误差
 到此,第二大篇就结束咯,伙伴们继续努力,hhh~~。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值