如何识别数据造假?神奇的30.1%扒光造假者的伪装!

ba003f08075b2982705e68f156085c92.png

编 辑:彭文华

来 源:大数据架构师(ID:bigdata_arch)

彭友们好,我是你的老彭友。今天聊点什么呢?扯点高大上的吧。我听说有人财务造假非常厉害,能从最细颗粒度的数据开始造,除非是查原始单据,否则根本查不出来。 

这个我一开始就不信。因为造出来的数据,必然会带有人工雕琢的痕迹,就像是鬼斧神工和能工巧匠一样,泾渭分明。

不信?

c8fb09b23d7deac3e32a6d5a4fbebf69.png

总统选票造假了吗?

现实中就有这样的案例:美国总统竞选。

美国大选每次都非常好玩,成为全球争论的热点。有一个问题始终盘旋在所有人的脑海中,就是美国大选到底有没有造假?

首先,在大选的程序上,肯定是合法、合规的,这个毋容置疑。但是真的没有丝毫的破绽吗啊?

我们来看下面两张图,分别是芝加哥、宾夕法尼亚州阿勒格尼的拜登、川普和霍华德的选举数据。你先别管具体数据是啥意思,从数据分布上能看出啥异常不?

37c71755095ae7c3929a7fcad2228b3c.png

9e7b2860cd43998b9f0ee278f8f7cb6f.png

图片来自于Github

答对了!拜登的数据跟其他二位的不太一样,2、3号柱比较长。我在这里解释一下,这类的横坐标1234,代表的是选票号码的首位。

你可能会说,这有啥用啊?

6619a0ef85323c7fa290e7a7af776a5f.png

真实不随机

其实这是一道数学题。

假定一组数据是自然规律产生的,那么首位数字出现的概率必然是从1-9依次下降。

这里的自然规律指的是非人为的,或者是计量导致的,比如身高,那基本上都是1开头,没有3、4、5、6、7、8、9开始 的。或者手机号码,都是1开头,没有其他的。

有些朋友第一反应是:这不是随机的么,概率应该是一样的啊?嘿嘿。。。反直觉了吧?

其实这跟随机还真不是一码事儿:

首位是1的数字出现的概率是最大的,占30%;

首位是2出现的概率为17.6%;

首位是3出现的概率为12.5%;

首位是4出现的概率为9.7%;

首位是5出现的概率为7.9%;

首位是6出现的概率为6.7%;

首位是7出现的概率为5.8%;

首位是8出现的概率为5.1%;

首位是9出现的概率为4.6%;

这就是大名鼎鼎的“本福特定律”。这个定律的解释我就不抄了,各位可以自行百度。大致的意思就是自然出现的数字,首位为1的概率是最大的。其他依次下滑。

如果出现违背此规律的,必然属于人为操作的。这一点就是鬼斧神工和能工巧匠之间的天差地别。

cb572623b2c2fb5866b929c514bc7bc7.png

神奇的30.1%

是不是很神奇?是不是很意外?数字世界就是这么好玩,你以为万无一失的时候,冥冥中就有天注定。人工雕琢的痕迹就是那么明显。

造假手段再好,也有一项是避不过去的:就是仿造天然的成本太高太高了!

只要人为处理,就会导致违背本福特定律的情况出现。所以你再看看浑水机构怎么调查瑞幸咖啡的?嘿嘿。。。去搜集小票。

不过他们发现小票的更大一个漏洞,就是“跳号”。其实也应该归功于本福特定律,因为查“首位数字”本就是洞悉财务造假的重要手段之一。

这个30.1%是真的很牛,牛到没彭友的那种。因为这根本不是一般人能洞察出来的,而且,这个本福特定律是一个“定律”,也就是适用于所有自然增长数据(需一定样本量,一般要超过3000)。

财务报表、订单号、山峰高度、星星之间的距离等等,全部符合!你说牛不牛?

这就是数据,开启上帝之眼的神器!

21aac1716d16014d03904bc4f6d38e3f.gif

排版 | 老彭

审校 | 老彭  主编 | 老彭

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值