美国大模型水平领先,国内大模型蓄势而发。
国内大模型参与者众多,百度文心一言第一个有勇气站出来发布。
此处应有掌声。
事前事后,中国网友的呐喊声不绝于耳:“文心一言到底什么水平啊?”
其实网友更想知道:国内AI大模型到底什么水平。
因为国内目前只发布了一个AI大模型,所以在打造知名度上,百度领先。
同时,据“亲爱的数据”获得的信息,2023年3月底还会有一个国产AI大模型发布。但是,未获许可,不能公开。
有竞争是好事,内卷式消耗才是坏事。
社会各界人士的花式问答固然有趣,“亲爱的数据”还是选择了一位AI大佬设计的“蜜熊测试”。
《蜜熊测试:5分钟感受大模型“实力指数”》(可点击跳转阅读)
对,没看错,“蜜熊”就是蜂蜜和熊。
理解它几乎没有任何难度,可以说这是个零门槛游戏。
我们从“蜜熊测试”游戏中找几个难题。
问:一头熊一天吃14罐蜂蜜,请问它一年吃多少罐蜂蜜?
文心一言:14×365=5110 罐。
问:一头熊一天吃14罐蜂蜜,请问它闰年吃多少罐蜂蜜?
文心一言:14×4=56 罐蜂蜜。
测试考察:小学语文+简单的数学能力。算错可能不理解闰年。
难题来了。
问:请画一张小熊吃蜂蜜的 ascii art 图片?
文心一言:很抱歉,我没有构思好这幅作品,请您稍后再试。
这题谁出的,站出来,为什么这么难?
果然,文心一言被考住了,连我也很难画得如此“言简意赅”。
ChatGPT用点和线,“拼出”了一个看上去坐着的熊,耳朵清晰可见,稍显粗糙,我说它是狗也没错,但能“画”成这样,也很厉害了。
测试考察:难度略高,涌现能力。
ChatGPT有“涌现能力”。
又来一道难题。
问:一只熊抱着一罐蜂蜜从一个点出发,向南走一公里,再向东走一公里,再向北走一公里,正好又回到了起点,请问:这只熊是什么颜色的?
文心一言:
这只熊是棕色的。
由于蜂蜜罐的存在,熊只能向南、北和东三个方向移动。由于它最终会回到起点,因此只有在熊从任何一个方向出发时才可以达到起点。这意味着它可以选择从南方或北方开始移动,但不能从东方开始移动。因此,由于蜂蜜罐的存在,熊必须向南走一公里才能到达起点。
如果蜂蜜罐没有被拿走,熊将继续沿着北边的路线前行,直到它回到原点,因此它是棕色的。
对于难题,不会做或做错都很正常。
因为国内多家大模型参与者的模型还没有开放或者只是半开放测试机会,所以,“一高一低”不等于“一个最好,一个最差”。
ChatGPT领先,文心一言还行。
这是一个游戏,大家“感受”模型的实力,而不是测试模型的真正实力。
“游戏”结束了,那么ChatGPT为什么会做“难题”?
或者说,ChatGPT如何就能触类旁通地学习了?
ChatGPT背后的内核模型已经升级到GPT4了。显然,GPT4有涌现能力。
涌现能力,英文名Emergent Ability。
一开始,当模型小于一定规模时,模型性能一般。
然后,模型参数增长,可惜模型性能效果无提升。
但是,当模型超过某个规模之后,性能突然就上去了,这就是“涌现”。
中国科学院自动化研究所紫东太初大模型中心常务副主任、武汉人工智能研究院院长王金桥告诉我:
“研究发现,在100亿到1000亿参数区间产生能力涌现。”
他还谈道:“如果在较小的模型中不存在,但在较大的模型中存在,则该能力就是涌现的。”
专业说法是,有了涌现能力的大模型,就能解决未知任务。
或者说,AI大模型也能回答超纲题。
简单说,学武到了一定境界,对从未见过的招式也能触类旁通。
2023年3月15日,王金桥院长在上市公司航天宏图的内部讨论会上以这样一句话展开他的演讲:“ChatGPT的问世,标志着NLP(自然语言处理)中间任务的消亡。”
这句话令人唏嘘不已,一个AI的技术阶段悄无声息地落下帷幕。很多NLP子领域不再具备独立研究价值。
我问王金桥院长:
“我们如何描述涌现能力之于大模型的重要性?”
他的答案是:“涌现能力是认知智能是否具备的一个重要现象。就是能够在模型学习的有限任务的基础上,做相关未知任务,举一反三,具备数学逻辑和知识推理的能力。”
他强调:
“没有涌现能力就没有认知智能,例如语言大模型训练过程中,无论参数和迭代次数增加多少,始终不能在多任务语言任务上有突然的性能提升,就说明模型失败了。”
有了ChatGPT,AI不会抢饭碗,比你更会用AI的人才会抢饭碗。
快来一本这样的书吧——《ChatGPT高效提问指南》。