ChatGPT 启示录:知识到底是什么?

文章探讨了知识如何通过实体和关系来建模,强调了语言作为编码工具的作用。从古代的文字存储到现代的数据库和区块链技术,再到神经网络对隐含关系的存储,阐述了信息和知识的编码、存储和传播过程。文章提到了图数据库和键值数据库在处理复杂关系时的重要性,并指出ChatGPT等神经网络如何学习和存储实体间的关系。
摘要由CSDN通过智能技术生成

        知识是人类对客观世界的认识和经验,人类通过语言来表示知识,句子是语言的基本单位,一句话往往包含主谓宾,主语和宾语可被称为实体,谓语表示了主语宾语间的关系。所以,世界在人类大脑中,就是无数个实体,以及这无数个实体之间的关系。

        似乎实体、关系(也可以称为节点和连接)这种简化模型就是世界的本来面目:

  • 人类社会:人是实体,人和人之间的关系(如亲子、上下级、官与民)是关系
  • 互联网物联网:电脑、服务器、手机等是实体,局域网、互联网和5G网络是关系
  • ChatGPT:ChatGPT 是人工神经网络,神经元是实体,神经元间的连接是关系
  •       节点和连接

语言


        人类的语言是一种编码和约定,世上没有天然的语言,一个从未听人说话的孩子是不可能会说话的。动物们只能使用动作、面部表情进行交流,而人类具有清晰的发音系统和发达的大脑,可以将世界万物映射成发音,并且生活在群体中的人都认可、并能记住和固化这些发音,于是人类语言就产生了。

        语言是人类进化的产物。幼儿在学会说话之前,已经有了许多手势语,到了一岁左右,开始说单词句,后来说双词句,到了三岁左右就可以进行日常生活的交际,在学龄前就基本掌握了口语系统。

        语言和文字是外部世界在人类大脑中的一种映射和编码,计算机通过0/1对万物进行编码和表示。例如 ChatGPT 中,一个单词可以表示成一个向量(专业说法叫词表示,Word Embedding),GPT-3 中词向量的长度大约是 13000。

 一切都是编码和映射

        一切都是编码和映射,人类用不同的语音语调、不同的文字符号表示世间万物,对应的计算机用一长串数字给世间万物编码。这番操作后,万物就成了大脑可以加工的实体和关系,万物也成了计算机可以加工的实体和关系。

存储


        知识和数据必须存储起来,否则无法沿着时间和空间在群体中传播。汉朝之前古人把文字刻画书写在甲骨和简帛上面,或铸造在青铜器上面。竹简分量重,帛价格贵,人们使用起来受到很大限制。当时皇帝批阅竹简奏折是个体力活,成捆的竹简由太监用车拉来,抬着放到御案前堆积成山。之后蔡伦改进了造纸术,使用廉价原料降低了造纸成本,生产的纸张平滑光洁适宜书写,在公元 3至4世纪,纸基本取代简牍绢帛,成为中国唯一的书写材料。

        计算机上数据的储存也是一个演化过程。20 世纪 60年代,人们使用打孔纸带来存储数据,后来储存介质变为磁带、光盘、硬盘。直到现在,个人电脑常用的存储是 DDR 内存条和固态硬盘。

        知识可由实体和关系表示,存储时既要保存实体又要保存关系。计算机的文件系统并不能很好的表示关系,于是发展出了关系型数据库(Orcale、Access、MySQL 数据库等)。关系数据库的理论基础是集合论和谓词逻辑,数据库表中每行每列都可以认为是一个实体,主键和同一行各列之间是属性关系、两个表间的外键也表示着同一、包含等关系。

知识存储

        关系型数据库还是设计过于复杂,不适合超大规模的数据。于是产生了新的数据库,键值数据库和图数据库是最常用的NoSQL数据库。键值数据库中键和值(Key 和 Value)是实体,把两个实体存放放在一起就暗含了他们间是关联的,例如存储 <身份证号,姓名> 这组数据,本身就声明了个人身份证和姓名之间的关系。图数据库(如Neo4j)中,使用节点来存储数据实体,使用边来存储实体之间的关系。

        类比于人类社会,所有知识不可能存放在某一个人的大脑里,而是分散在地球上所有人的大脑里。随着数据规模的增大,计算机数据存储也只能是分布式的。区块链可以认为是一个去中心化的分布式的数据库,数据按时间顺序打包成块并附上数字签名等,一个个块串起来,就形成了可追溯防篡改的分布式账本。

         神经网络

如果说文件、数据库和区块链倾向于存储实体、以及实体间确定性的关系,那么ChatGPT之类的神经网络可以认为存储了实体间的隐含关系。一个用于车牌识别的神经网络,可以认为实体是一张张图片,和一串串数字,这个神经网络存放的是从图片实体到一串数字实体间的关系。英文 - > 中文翻译的深度网络也是如此,它存储了从英文词句空间到中文词句空间的所有关系。

总结


  1. 世界在人类大脑中,就是无数个实体,以及这无数个实体之间的关系
  2. 一切都是编码和映射,人类的语言是一种编码和约定
  3. 知识必须存储起来,否则无法沿着时间和空间在群体中传播
  4. 文件、数据库和区块链倾向于存储实体、以及实体间确定性的关系
  5. 神经网络可以认为存储了实体间的隐含关系
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值