“数据不会说谎”,如何看穿大数据背后的真相?

我们生活在一个数据爆炸的时代,数据的作用被无限放大。美国管理学家、统计学家爱德华·戴明有一句名言:除了上帝,任何人都必须用数据说话。然而,这也带来了一个问题:数据也许是客观的、科学的,但是分析和处理数据的方法,却被描述成了耸人听闻、华而不实、迷惑不清且过分简单的东西。


在报道社会和经济趋势、进行科学研究时,要用到大量数据,此时方法和术语就不可或缺,但是如果作者不能诚实地报道,甚至根本没有理解这些研究方法,读者也就无法明白作者所说的内容,那么这些分析结果就只能是无稽之谈。
   在这里相信有许多想要学习大数据的同学,大家可以+下大数据学习裙:957205962,即可免费领取套系统的大数据学习教程

除此以外,同一现象,分析方法不同,导致结论不同的情况也较为常见。因此,关于数据会不会说谎的争论一直未曾停歇,如果在百度搜索“数据会说谎”或“数据不会说谎”,都可以轻易获得数十万条检索记录。然而,谈论到数据产生误导的原因,有研究者认为至少有三种类型:一是读数据的人缺乏专业知识;二是分析数据的人采用了不合理的方法;三是数据不说谎,做数据的人也不想说谎,但是读数据的人只想读到自己想读到的数据。
   

数据量的影响
   

统计量
   

随着社会生活方式的巨大转变,目前研究者面对的问题已经从数据匮乏走向了另一个极端——数据量过大。在统计调查中,随着样本量的扩张,有时我们获得的结论可能仅具备统计学意义,却缺乏现实意义。下面我们以研究者基于样本均值来检验关于位置总体的假设统计,以t统计量为例(该问题也存在于其他统计量中,如z),t统计量的公式为。从公式中可以看出,其他因素不变,n越大,t越大,随着样本量变大,将会影响t检验的统计学意义。



表为黑色金属和有色金属价格变化幅度独立样本t检验
   

表中选择了对黑色金属和有色金属的价格变化幅度进行t检验,仅仅是数据的多次重复就可以使得p值(Sig)在样本量扩大(4扩大到48)之后降低至0.05以下,达到了统计学上的显著性。如果只留存第二行数据,以此来说明问题,则会对结果产生一定程度的误导。
   

效果量
   

一般的统计检验方法是基于虚无假设的显著性检验进行的,但是这种方法只能告诉我们在假定某虚无假设

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值