编 辑:彭文华
来 源:大数据架构师(ID:bigdata_arch)
彭友们好,我是你的老彭友。今天聊点什么呢?扯点高大上的吧。我听说有人财务造假非常厉害,能从最细颗粒度的数据开始造,除非是查原始单据,否则根本查不出来。
这个我一开始就不信。因为造出来的数据,必然会带有人工雕琢的痕迹,就像是鬼斧神工和能工巧匠一样,泾渭分明。
不信?
总统选票造假了吗?
现实中就有这样的案例:美国总统竞选。
美国大选每次都非常好玩,成为全球争论的热点。有一个问题始终盘旋在所有人的脑海中,就是美国大选到底有没有造假?
首先,在大选的程序上,肯定是合法、合规的,这个毋容置疑。但是真的没有丝毫的破绽吗啊?
我们来看下面两张图,分别是芝加哥、宾夕法尼亚州阿勒格尼的拜登、川普和霍华德的选举数据。你先别管具体数据是啥意思,从数据分布上能看出啥异常不?
图片来自于Github
答对了!拜登的数据跟其他二位的不太一样,2、3号柱比较长。我在这里解释一下,这类的横坐标1234,代表的是选票号码的首位。
你可能会说,这有啥用啊?
真实不随机
其实这是一道数学题。
假定一组数据是自然规律产生的,那么首位数字出现的概率必然是从1-9依次下降。
这里的自然规律指的是非人为的,或者是计量导致的,比如身高,那基本上都是1开头,没有3、4、5、6、7、8、9开始 的。或者手机号码,都是1开头,没有其他的。
有些朋友第一反应是:这不是随机的么,概率应该是一样的啊?嘿嘿。。。反直觉了吧?
其实这跟随机还真不是一码事儿:
首位是1的数字出现的概率是最大的,占30%;
首位是2出现的概率为17.6%;
首位是3出现的概率为12.5%;
首位是4出现的概率为9.7%;
首位是5出现的概率为7.9%;
首位是6出现的概率为6.7%;
首位是7出现的概率为5.8%;
首位是8出现的概率为5.1%;
首位是9出现的概率为4.6%;
这就是大名鼎鼎的“本福特定律”。这个定律的解释我就不抄了,各位可以自行百度。大致的意思就是自然出现的数字,首位为1的概率是最大的。其他依次下滑。
如果出现违背此规律的,必然属于人为操作的。这一点就是鬼斧神工和能工巧匠之间的天差地别。
神奇的30.1%
是不是很神奇?是不是很意外?数字世界就是这么好玩,你以为万无一失的时候,冥冥中就有天注定。人工雕琢的痕迹就是那么明显。
造假手段再好,也有一项是避不过去的:就是仿造天然的成本太高太高了!
只要人为处理,就会导致违背本福特定律的情况出现。所以你再看看浑水机构怎么调查瑞幸咖啡的?嘿嘿。。。去搜集小票。
不过他们发现小票的更大一个漏洞,就是“跳号”。其实也应该归功于本福特定律,因为查“首位数字”本就是洞悉财务造假的重要手段之一。
这个30.1%是真的很牛,牛到没彭友的那种。因为这根本不是一般人能洞察出来的,而且,这个本福特定律是一个“定律”,也就是适用于所有自然增长数据(需一定样本量,一般要超过3000)。
财务报表、订单号、山峰高度、星星之间的距离等等,全部符合!你说牛不牛?
这就是数据,开启上帝之眼的神器!
排版 | 老彭
审校 | 老彭 主编 | 老彭