“数据不会说谎”，如何看穿大数据背后的真相？

最新推荐文章于 2023-05-20 22:26:00 发布

金豆数据工程师

最新推荐文章于 2023-05-20 22:26:00 发布

阅读量2.1k

点赞数

分类专栏：大数据文章标签：大数据人工智能机器学习数据挖掘数据分析

本文链接：https://blog.csdn.net/weixin_44386969/article/details/86571576

版权

我们生活在一个数据爆炸的时代，数据的作用被无限放大。美国管理学家、统计学家爱德华·戴明有一句名言：除了上帝，任何人都必须用数据说话。然而，这也带来了一个问题：数据也许是客观的、科学的，但是分析和处理数据的方法，却被描述成了耸人听闻、华而不实、迷惑不清且过分简单的东西。

在报道社会和经济趋势、进行科学研究时，要用到大量数据，此时方法和术语就不可或缺，但是如果作者不能诚实地报道，甚至根本没有理解这些研究方法，读者也就无法明白作者所说的内容，那么这些分析结果就只能是无稽之谈。
在这里相信有许多想要学习大数据的同学，大家可以+下大数据学习裙：957205962，即可免费领取套系统的大数据学习教程

除此以外，同一现象，分析方法不同，导致结论不同的情况也较为常见。因此，关于数据会不会说谎的争论一直未曾停歇，如果在百度搜索“数据会说谎”或“数据不会说谎”，都可以轻易获得数十万条检索记录。然而，谈论到数据产生误导的原因，有研究者认为至少有三种类型：一是读数据的人缺乏专业知识；二是分析数据的人采用了不合理的方法；三是数据不说谎，做数据的人也不想说谎，但是读数据的人只想读到自己想读到的数据。

数据量的影响

统计量

随着社会生活方式的巨大转变，目前研究者面对的问题已经从数据匮乏走向了另一个极端——数据量过大。在统计调查中，随着样本量的扩张，有时我们获得的结论可能仅具备统计学意义，却缺乏现实意义。下面我们以研究者基于样本均值来检验关于位置总体的假设统计，以t统计量为例（该问题也存在于其他统计量中，如z），t统计量的公式为。从公式中可以看出，其他因素不变，n越大，t越大，随着样本量变大，将会影响t检验的统计学意义。

表为黑色金属和有色金属价格变化幅度独立样本t检验

表中选择了对黑色金属和有色金属的价格变化幅度进行t检验，仅仅是数据的多次重复就可以使得p值（Sig）在样本量扩大（4扩大到48）之后降低至0.05以下，达到了统计学上的显著性。如果只留存第二行数据，以此来说明问题，则会对结果产生一定程度的误导。

效果量

一般的统计检验方法是基于虚无假设的显著性检验进行的，但是这种方法只能告诉我们在假定某虚无假设

最低0.47元/天解锁文章

金豆数据工程师

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
“数据不会说谎”，如何看穿大数据背后的真相？

我们生活在一个数据爆炸的时代，数据的作用被无限放大。美国管理学家、统计学家爱德华·戴明有一句名言：除了上帝，任何人都必须用数据说话。然而，这也带来了一个问题：数据也许是客观的、科学的，但是分析和处理数据的方法，却被描述成了耸人听闻、华而不实、迷惑不清且过分简单的东西。在报道社会和经济趋势、进行科学研究时，要用到大量数据，此时方法和术语就不可或缺，但是如果作者不能诚实地报道，甚至根本没有理解...
复制链接

扫一扫