第二章:别怕这些大词,我来给你讲明白什么是算力与数据
第二讲我要给大家讲明白两个专有名词。如果我能把这两个词讲明白,让每个人都听懂,我就成功了。所以第二讲的标题,我起了一个有趣的名字——“别怕这些大词儿,我来给你讲明白什么是算力和数据”。
我要给大家讲明白算力和数据的原因是,人工智能其实就是三件事儿:算力、数据和算法。我们学过马克思的资本论,一个人想要获得财富或一个时代想要获得财富,无非要搞明白生产力、生产关系和生产资料。对于学理科的同学,可能不太理解这些概念,我稍微跟大家解释一下:
- 生产力:指在生产过程中人们使用的工具、设备和技术将原材料转化成产品的能力。例如,在农业社会,生产力指的是农民使用工具种植农作物的能力。在工业社会,生产力指的是工厂使用机器和流水线制造产品的能力。
- 生产关系:指在生产过程中人们之间的经济关系和社会关系。简单来说,就是人们在生产过程中怎么分工、怎么合作。在农业社会,生产关系可能是地主和农民之间的关系,地主提供土地,农民负责耕种。在工业社会,生产关系可能是工厂老板和工人之间的关系,工厂老板提供设备和场地,工人负责生产。
- 生产资料:指的是用于生产产品的所有资源、工具、设备和原材料。简单来说,就是生产东西需要的材料和工具。在农业社会,生产资料包括土地、种子、锄头和犁。在工业社会,生产资料包括机器、原材料和能源,如电力和煤炭。
为什么要讲这些?因为在新时代,这些概念发生了变化:
- 数据是新的生产资料:在AI时代,数据就像工业时代的原材料,是AI系统运行和学习的基础。所有的AI应用都需要大量的数据来训练和优化。
- 算力是新的生产力:算力是指计算能力,类似于工业时代的机器设备。高效的算力可以快速处理和分析大量数据,是推动AI发展的关键。
- 算法是新的生产关系:算法是指一系列计算步骤和规则,它们指导AI系统如何处理数据并做出决策。虽然算法设计者数量有限,但这些算法决定了AI系统的性能和效率。
今天我们重点讲数据和算力。为什么不详细讲算法呢?因为全世界搞算法的就那么几百个人,超级厉害的几乎都在美国。咱们国家搞算法的人特别少,但是普通人能够理解算力和数据就已经很厉害了。所以这个标题我们只解决算力和数据。
我有一个视频跟大家讲,未来一定是数据资产。那么什么是数据资产?今天一节课要讲明白,先记住一句话:算力和数据是驱动现代科技的核心。算法,如果有一天ChatGPT能开源,算法根本不重要,每个人得到的东西差不多,但算力和数据是推动科技前进的核心。
什么是算力?我用最简单的方式跟你解释一下。算力就是计算机处理数据的能力,它就像大脑思考的速度和能力。更多的算力意味着电脑能更快、更好地完成任务。算力由什么决定?由芯片决定。为什么英伟达的市值这么高?因为算力的大小由英伟达产生的芯片决定,他们把所有工作都做好了。
为什么算力重要?因为计算机的基本工作原理就是靠算力。计算机通过执行指令和处理数据来完成任务,这就是算力。算力怎么提高?很简单,增加处理器的数量,提升处理器的速度。这里给大家推荐一本书叫《算力时代》。算力不同,计算机就不同。比如,市面上常见的笔记本电脑价格差异为什么大?因为它们的配置不同。高配置的有更高的算力,为什么苹果的电脑能卖那么高的价格?我们普通人一定要买一台好电脑,因为它算力好的时候,你玩游戏都不会卡,心情愉快很多,更别说做枯燥的工作。手机也是一样,算力越高,体验越流畅,否则就会滞后、卡顿。简单来说,没有算力,我们的当下生活会面目全非。所以大家要去看看这本书《算力时代》,它的三位作者都是中国移动的大神,这本书刚好探讨了算力的未来。
为了讲明白算力这个词,后面会大量用到,我一定要拉回到历史去讲,因为怕我们这课过时了。算力,从历史层面看,就是人类处理信息的能力。所以,算力的发展历程就是人类处理信息能力的发展历程。这个历程从什么时候开始呢?从人们进化出手指开始。当我们有两只手,十个手指数数的时候,就已经有了算力这个词。人们现在为什么用十进制的计数法?因为只有十个手指。而到了中国的春秋时期,人们开始用长度、粗细或小棍子来计数。大家如果看过电影《封神榜》,里面的周文王就是用小棍子来算卦,这些小棍子通过横竖不同的摆放方法表示1到9九个数字,这叫算筹,是人类最早的算力工具。算筹可以帮助人们实现基本的计数,但如果小棍子多了,涉及到加减乘除就麻烦了。所以到了元代后期,我们有了算盘,算盘代替了算筹,这是历史上最早公认的计算工具。算盘还流传到了日本、朝鲜、东南亚各国,后来又传到了西方。算盘可以解决一些简单的算术,但如果遇到计算量大的情况,算力就显得不足了。这也是算盘被替换的原因。我们小时候还要正儿八经交钱去算盘班学算术,这其实都是算力的一部分。
到了1642年,法国有一个数学家叫帕斯卡,他发明了一种滚轮式的加法器。加法器的外形是一个长方体的盒子,盒子里面从右到左分布着五个定位齿轮,代表着个、十、百、千、万。用的时候,人们用钥匙旋紧发条来转动每个齿轮,顺时针拨动齿轮是做加法,逆时针是做减法。这是人类历史上第一台机械式计算工具。不要小看这个工具,它对未来计算工具的发明有很大的影响。因为30年后,德国数学家莱布尼茨在帕斯卡加法器的基础上,发明了著名的莱布尼茨乘法器,这是历史上第一台能够进行四则运算的机械式计算器。
在19世纪初,英国有一位数学家叫查尔斯·巴贝奇,他发明了一种更先进的计算器,叫巴贝奇拆分机。它不仅能够计算,还多了一个非常重要的功能,为未来所有的计算器提供了灵感,那就是储存数据。换句话说,你算完了,它还能记得住。巴贝奇拆分机里有齿轮式的储存库,每个齿轮可以存储十个数,齿轮组成的列阵一共可以储存一千个50位的数。这是人类历史上最早的数据存储。而对于这些数据,巴贝奇还发明了一种分析机,用来分析数据。到今天,我们使用的所有计算机都是在这种设计的基础上发展而来的。你有了数据还不够,你还需要分析。而这种分析机由储存装置、运算装置和控制装置三个部分组成,现在的电脑依然沿用这种结构。
到了20世纪中期,电子计算机出现了,人们的计算工具发生了质的变化,从机械工具变成了电子工具,从每一步都需要人工操作变成了只需下达指令,自动计算。电子计算机的能力,也就是我们所说的算力,取决于它内部的芯片。从20世纪中期第一台电子计算机的出现到今天,计算机的体积越来越小,运算速度越来越快。从一开始计算机占地上百平方米,如一栋房子大小,到现在计算机可以如同一本书般大小装进包里。从一开始每秒只能进行几百到几千次运算,到现在每秒可以进行几千万次、亿万次,甚至更高。
现在,我们的智能手机和电脑集成了数据计算、图形计算、信号处理等多种功能,这些功能集合在一颗小小的芯片上。包括智能手表、智能耳机、智能跑鞋和智能家居,这些设备之所以能接收我们产生的行为数据,就是因为它们内部的传感器和集成处理芯片。分析这些数据,并且给出相应的反馈,靠的就是它们内部的计算能力。我们要感谢伟大的巴贝奇,因为他奠定了现代计算机的结构,所以现在计算机的专利主要就是这么来的。一句话总结,人类的科技发展史就是不断提升对能量使用的能力和对信息处理能力的历史,这就是算力的发展史。
讲完算力之后,我们要讲数据。我们老听到一个词叫“大数据”,我们现在在网上说的每一句话,打的每一个字,拍的每一帧视频,全都是数据。随着数据的不断积累和产生,数据的容量越来越大,类型越来越多,这就是大数据。大数据的特点是容量大、类型多,而且随时随地都在产生新的数据。
原来你去买一张火车票,它只是一个通行证;现在,它是你的出行数据。原来你去吃饭,吃完就结束了;现在,你吃饭、购物的记录都在网上,被转化为你的消费数据。如果你还打开了微信运动或智能手表,你的心跳、运动、行程全都变成了数据。这些数据只有在近些年才被转化为可以利用的资源。以前你做了什么事,做了就做了,没人知道;但现在,只要你的手机还在,你的数据就会被记录下来。
所以,这些数据越来越多,如果没有足够的算力支持,我们就无法对这些数据进行收集、描述和归类,无法将这些数据转化为现实生活中有用的信息和知识。因此,请大家记住,数据放在你自己那里没用,数据必须公开才有用。有人说隐私怎么办?我的理解是,隐私就不要变成数据,但只要你的数据做好准备被公开,它才有可能有用。
数据的应用是怎么体现的呢?很简单,从数据到信息再到知识,这是一个过程。这个过程我用一个案例来解释。你在一家餐厅吃饭,餐厅老板收集了顾客的点单时间、点的菜品、付款金额,这是数据。通过这些数据,人工智能可以推断出顾客对菜品的喜好和一天中不同时段的流量变化,这是信息。根据这些信息得出规律,餐厅可以制定出应该做什么菜、什么时候开门、什么时候关门,这就是知识。所以,数据、信息和知识是层级关系。先有数据,通过人工智能把它们总结成信息,再由人脑总结成知识。因此,光有数据是不够的,你必须将其系统性地整理。
这是为什么在这个时代数据是新的生产资料。因为数据越来越多,你需要算力作为支持,你需要内部的处理芯片让算力变得越来越强大。当然,在大数据时代,光靠手机内部的芯片来计算是不够的,所以现在有了一个新词,叫云计算。你把这些东西上传到云端,这是一种大数据时代的重要算力输出形式。通过网络把计算任务从本地挪到远方某个大的计算中心完成,然后把计算结果再传回本地,这样就节省了你手机本地的算力,不用花大功夫在本地处理数据。
云计算的例子很多,比如谷歌,现在的云计算拥有的服务器已经超过了100万台,在加州、爱荷华州,甚至欧洲的爱尔兰、芬兰、比利时,以及亚太地区的日本、韩国,还有巴西也有数据中心。中国的云端服务器目前是保密的,但根据中国信息通信研究院的估算,2020年我国的算力产业达到两万亿元,各种直接间接带动的经济产出加起来是八万亿元。所以平均来看,在算力产业上每投入一块钱会带动3到4块钱的GDP增长,算力产业规模每增长1%,能撬动GDP增长0.2%。这个数据不是我编的,是中国信息通信研究院发布的一篇文章。这也是为什么我们要拥抱AI,为什么商业要和AI结合。这么多钱投入其中,你不看、不去拥抱,财富怎么来呢?
总结一下,数据、算力和算法构成了这个时代最基本的生产机制。数据是新的生产资料,算力是新的生产力,算法是新的生产关系。现在这个时代,特别是在AI和科技领域,什么是生产力?比如自动驾驶技术中的计算机处理大量实时数据进行驾驶决策的能力,就是现在的生产力。什么是生产关系?可以是公司内部不同团队的合作关系,或者是人和AI之间的互动关系。比如AI工程师开发算法,数据科学家提供数据,这种合作关系就是现代的生产关系。也可以是我在这里给大家讲课,AI给我提供一些资料让我备课,这也是生产关系。
生产资料,特别是在AI和科技领域,生产资料包括计算机、数据、算法和软件工具。比如开发一个AI系统需要的计算机硬件、训练数据、开发环境和算法就是现代的生产资料。所以时代变了,如果没有算力的提高,根本不会有大数据的出现。因为有了大数据,需要研究,需要更多的数据,于是就需要更强的算力。要更好地了解这个时代,我们就需要理解这两个词,数据和算力。我希望我讲明白了。