源头茫昧虽难觅,活水奔流喜不休。
——法国著名数学家、科学哲学家昂利·彭加莱(Henri Poincare)
在本章,基本上是按照从古到今的时间轴线,漫谈数据的发展简史[1]。在了解大数据的内涵之前,很有必要简要地回顾一下大数据时代黎明前的漫长历史。数据是人类认识客观世界的标度,人类与数据的历史,可谓是源远流长。
著名社会学家费孝通先生曾说[2],人类的“当前”,包含着从“过去”历史中拔萃出来的投影和时间选择的积累。
翻开人类的科技史,我们很快就会发现,这就是一部人类对事物数据化的历史。在某个领域,越是能够用数据来表征,其科学化的程度就越高,人类对其认识的程度也就越深入[3]。
就数据的增长曲线而言,当初极小的初值,需要经历极其漫长的发展过程,才能达到人类能感知的曲线拐点。当下,“大数据”作为一个时髦专业术语(buzz word),其历史还很短暂,但是它所依赖的很多基础却是在很久以前就建立了[4]。人类的文明与进步,在某种意义上来说,就是通过对数据的收集、处理和总结而达成的。历史对于我们来说,并不是什么可有可无的点缀之饰物,而是实用的、不可或缺的前行之基础。了解相关的历史,有助于培养我们的数据思维和基于数据的创新能力。
人类的数觉与计数系统
自从人类开始有文字和数字起,数据就开始产生。数据作为一种计量工具与技术相融合,充分体现了其精确性和实用性的特征。人类文明的历程,大部分都可归属于小数据时代,甚至极小数据时代。
美籍俄裔理论物理学家乔治•伽莫夫(GeorgeGamow),在其著名科普著作《从一到无穷大》中,杜撰了这么一个小故事[5]:
在非洲一个原始部族里,有两个酋长决定做一个数数游戏——比一比谁说出的数字大,谁就赢。
“好,” 一个酋长说,“你先说吧!”
另一个酋长绞尽脑汁想了好几分钟,终于说出了他所能想到的最大数字:“3”。 现在轮到另一个酋长动脑筋了。在苦思冥想半天后,他表示认输:“你赢啦!”
图1-1 两个酋长比数数
上面的小故事,其实是想说明,在远古时代,由于物质极其匮乏,人类对计数系统的认知,还处于懵懂状态。对少于三个的事物,人们尚能掌控,但对3个以上的事物,就只能称之为“很多”或“数不胜数”。在这种情况下,人类远古时代是很难出现完整的计数系统的。
人类文明的发展,存在严重的区域性不平衡。在澳大利亚的原始森林中,至今还有停滞于原始发展水平的部落。他们对数字的感知,普通人也就知道一、二、三。即使是部落里的“聪明人”,也就只知道四和五。数量再多,他们一概称之为“很多很多”。这是人类远古状态的无变异延续,可视作“活化石”。
数的概念,始于原始人采集、狩猎等生产活动之中,他们通过对不同类事物之间的比较,逐渐认识到存在某种共同的特征,然后从感性认识,升华至抽象层面,于是就产生了数。
数从萌芽到诞生,经历了极其漫长的岁月。
在进化的蒙昧时期,人类已经具备一种才能,即在由同类事物组成的小样本集合中,当增加或者减少集合中的元素时,尽管我们的先祖还不能确切地知道增减多少,但却能够感知到其中有所变化。美籍数学家托拜厄斯•丹齐克(TobiasDantzig)将这种能力,称之为“数觉(number sense)”[6]。所谓数(shù)觉,就是不通过数(shǔ)数(shù),一眼就能看出物体多寡的感觉。
这种原始的数觉,在某些动物身上也有体现。例如,有些鸟类就具有数觉,但也仅局限于小数量的“数觉”。有这么一侧试验,鸟巢里原有4个蛋,可以安然地拿走一个(余下3个),“笨鸟”不会察觉其中的变化,但如果拿去2个蛋(余下2个),那这只 “笨鸟”可能就要“先飞”了——因为鸟巢中蛋的数量变化,已经触发了它的“数觉”——让它意识到危险,有外物“动了它的蛋”。这表明,有些鸟类,在用某种方法辨别2和3是不同的。
丹齐克在其科普名作《数:科学的语言》中,提供了一个更有趣的例子:
有一只乌鸦,在一个庄园主的望楼里筑巢,庄园主不胜其扰,决心打死这只乌鸦,他尝试了多次,都没有成功,因为人一旦靠近,乌鸦就非常警惕地离开巢穴,远远地待在树上,耐心地等人离开望楼后,再飞回巢穴。
有一天,园主心生一计:决定让2个人同时走进望楼,然后留一个潜藏里面,另一个出来走开。但这个乌鸦并不上当,它还是等着,直到第二个人出来。
这个实验一连做了几天:两个人,三个人,四个人,都没有成功。最后,用了五个人:也像前几天一样,先一起进望楼,然后留一人潜藏其内,其他四个人走出来。这次奏效了,乌鸦的数觉“失灵”了——也就是说,但集合变大后,乌鸦已经无法辨别四与五的差别,因此它马上飞回巢里,然后被留在望楼的人,逮个正着。
图1-2 乌鸦的数觉
“数觉”是动物的基本心理特征。丹齐克指出,“一种比鸟类高强不了多少的原始数觉,就是产生我们数概念的核心。毫无疑问,如果人类单凭这种直接的数觉,在计算的技术上,就不会比鸟类有什么进步。但是经历了一连串的特殊的环境,人类在极为有限的数觉之外,学会了另一种技巧来给自己帮忙,这种技巧注定了使他们未来的生活受到巨大的影响。这技巧就是计数,并且,正是由于有了计数,我们赢得了用数来表达我们的宇宙的惊人成就。”
需要说明的是,数觉与计数不能混为一谈。数觉是人类早已有之的能力,而计数能力的出现则要晚得多,这也可能是人类独有的能力。正是有了计数,才使得具体的、表现形式各异的表达多寡的概念,结合成为统一的、抽象的数的概念。这是数学得以蓬勃发展的重要前提。
需求是发明之母。在需求的驱动下,人类首先发明了数字。数字是计数系统的基础。很多历史学家都认为,数字最初起源于对事物的计数,例如在人数、财产(牛羊数等)或交易中的计数。知名技术作家查尔斯·佩措尔德(Charles Petzold)在其著作《编码》[7]一书中给出了一个非常生动的例子:
在远古时期,如果有人拥有4只鸭子,可以用图表示为如图1-3-a所示。后来,专门负责画鸭子的人会“偷懒”地想:为什么我非要画4只鸭子呢,这太麻烦了!为什么不能就画一只鸭子,再用划线的多少来表示鸭子的数量呢,于是就出现了如图1-3-b所示的简化画法。
类似地,我们还可以用这种简化画法用于画4头牛、4只羊、……,诸如此类。慢慢地,这个数字“4”就慢慢被抽象出来了(图1-3-c)。
1-3 数字的抽象化
英国著名哲学家、历史学家——伯特兰·罗素(Bertrand Russell,1872~1970)针对数的抽象性,总结道[8]:“仅仅在文明的高级阶段上,我们方能以一串数(自然数串)作为我们发现的起点。发现一对锦鸡和两天都是数字二的实例,一定需要很多时代。其中所包含的抽象程度确实不易达到。”
再后来,人们发现当手头上的财产多了,譬如说有了27只鸭子,再用这种划线的方法来标识数量多少,过程就显得非常之繁琐,数量也难以做到一目了然(如图1-4-a所示)。这就激励人们要想出一种更好的方法——于是,一个计数系统就这样呼之欲出。
从古时至今,人们可能发明了很多计数系统,但延续至今还在用的当属罗马数字了。今天,人们还可以在手表盘上、纪念碑上、一些图书的页码上,看到这些罗马数字。有了罗马数字,27只鸭子就可以相对简洁的表示为如图1-4-b所示。
图1-4 数字系统的形成
如图1-4-b所示的概念很容易理解:每个X表示10个划线、V表示5个划线,而每个竖线代表一个划线。
在罗马数字产生之前的更早期,数字还没有书写形式时,人类最方便的、最“触手可及”的计数工具,当属自己的双手十指。
在中国成语中,有个词叫“屈指可数”,表示扳着手指就可以数清楚,形容数量稀少。但在人类社会早期,十个手指头已经不算少了,作为计数“利器”,给人类自己的发展帮了大忙。
随着人类祖先狩猎水平的不断提高,及部落之间的社交活动日渐频繁,彼此间需要表达的数也多了起来。于是,人们觉得有必要进一步提升他们的计数能力。用一个手指代表一,五个手指代表五,这样“一五一十”地来计数。就这样,数的表达范围得到了扩大。
在英语中,“Digit(数字)”这个词,除了有“数字”的意思,同时也有“手指或足趾”的含义,这并不是巧合。而“five(五)”和“fist(拳头)”这两个单词,拥有相同的词根(fi-),也并非偶然。
丹齐克认为,人类在计算方面之所以成功,应当归功于人类的“十指分明”。也就是说,正是有了“十指”,才教会了人类计数,从而把数的范围无限扩展,以至于形成现在复杂的数论系统。倘若没有这套“装置”,人类对数的感知,不会比原始人的数觉高明多少。
手指除了计数,还可以作一些简单的加减法运算。在某种程度上,手指可以看作人类最早的“计算器”。
用手指计数和计算,固然很方便,可是不能长时间保留计算结果,因为人们还得用双手打猎干活呢!于是,就有人想到了用小石块、小树棍等外物表示数。类似地,小石块、小树棍等不仅被用作计数,而且还用作简单的加减法。于是,计数和计算的工具,开始外围化、“专业化”,这无疑也是一个进步!
在这个发展阶段中,人们已经抛弃了必须将被数的物品拿在手中或置于脚下的做法。对此,加尔斯基认为,在数学上,人类完成了第一次抽象。
从以手指计数,到用外物代表数,人类的这段历史,至今依然可从幼儿身上看到它的缩影。婴儿从牙牙学语开始,就对“有或无”及“多或少”有了最初步的概念,他们会用笑或哭,来表达自己对喜爱之物的“数觉”。幼儿再稍大一些后,父母或启蒙老师就可教他们用手指计数(数数)了。
一个常见的温馨场面是:当你问幼儿园的小朋友口袋里有几颗糖,或家里来了几个客人时,他(她)一定会扳着小手指,一个、两个、三个……认真地数给你看。直到上小学一、二年级,“屈指计数”还一直都是小朋友们做数学加减法的“利器”。
因此,丹齐克认为,在一定程度上,如果没有手指,就没有数的发展,自然也就没有随之而来的、人类在物质和精神上进步所依赖的精确科学的发展。
人类的十指,毫无疑问地影响了我们计数系统中的进制基底的选择,这也是今天我们使用十进制的最根本原因,这是一种“生理上的凑巧”。因此,可以推断的是,如果人类最初就长有12个手指头,那么流行于今天的计数系统,恐怕就是十二进制了。
从文化史的观点来看,丹齐克认为,“改变数制的基底,即使可行,也是极不受欢迎的。只要人类一直用十来计数,他的十个手指就一直会使他意识到,他的精神生活的这一最重要方面,也起源于人类自身。”
因此,就让十进制在“人是万物的尺度”[9]的见证下,而永存下去吧。
[1] 本章之所以说是漫谈,是因为笔者所介绍的一些历史,虽力图保证史实的正确性,但毕竟不是专业的科技史工作者,故难免有不尽人意之处。此外,既然是漫谈,内容也不见得十分扣题,信马由缰的地方也是有的,但这或许也是趣味之所在。
[2]费孝通.乡土中国.北京大学出版社.2012年10月
[3]黄欣荣. 大数据对科学认识论的发展[J]. 自然辩证法研究, 2014,第9期:83-88.
[4] Bernard Barr. A Brief History of Big Data Everyone Should Read. https://www.linkedin.com/pulse/brief-history-big-data-everyone-should-read-bernard-marr
[5]乔治•加莫夫. 暴永宁(译).从一到无穷大[M].北京:科学出版社, 2014.
[6](美) 托拜厄斯•丹齐克 著. 苏仲湘 译.数:科学的语言——为有文化而非专攻数学的人写的评论性概述(Number: The Language of Science --A critical survey written for thecultured non-mathematician)[M].上海教育出版社.1985
[7] 查尔斯•佩措尔德 著. 左飞,薛佟佟译.编码:隐匿在计算机软硬件背后的语言.电子工业出版社,2012年10月
[8]伯特兰·罗素. 数理哲学导论[M]. 商务印书馆, 1982.
[9] 对应的英文是:“Man is the measure ofall things.”普罗泰戈拉是公元前5世纪希腊哲学家,诡辩派的主要代表人物。 "人是万物的尺度",认为事物的存在是相对于人的感觉而言的,人的感觉怎样,事物就是怎样。万物的存在与否、性质形态都是相对的,完全取决人的主观感觉。