测评了8个国产AI大模型,差点崩溃……

850e02723ccf9b88316512171a4b54d3.png

出品:「顿悟山丘」咨询  

策划:黄哲铿 Mr.K、张建华、李国山、黄勇

测评:Wendy.L

近年来,人工智能技术的发展可谓是日新月异,尤其是大模型的应用,更是成为了科技界的焦点。从自然语言处理到语音识别,从情感分析到知识问答,大模型的应用已经渗透到我们生活的方方面面。而在国内,各大科技公司也纷纷投入到大模型的研发和应用中,一时间,各种大模型如雨后春笋般涌现出来。

为了帮助广大用户进行筛选和甄别,我们举行了一场【大模型风采大赛】,本着公平公正公开的原则,本次参赛选手均是来自国内的8位大模型才俊,他们也是出身各异,有的背景雄厚一掷千金,有的草根出身筚路蓝缕。

【大厂系嫡子】:百度的文心一言、科大讯飞的讯飞星火、阿里的通义千问、360的智脑、以及抖音的云雀大模型等;

【学院派大牛】:智谱AI的智谱清言

【初创系新贵】:百川智能的百川大模型MiniMax的“abab”大模型等。

本次测评主要是从一个普通用户的角度,围绕用户体验(交互界面、响应速度、稳定性)、基础能力(理解、生成、逻辑、记忆)、多模态输出能力以及场景模型(支持的数量丰富度以及质量)作为测评方向,目的是帮大家找到更适合自己使用的大模型。

笔者作为一名【大模型测评官】,爆肝两天两夜,亲自对这些大模型进行一次综合的考察,结果考察完了之后整个人差点崩溃。

具体是怎么崩溃的呢? 话不多说,我们直接上图:


一、文心一言

0b16ad973a0378d4a7f7662a0e1ade0e.png

我们体验的是3.5版本,文心一言的交互界面简洁且通用,支持百度系的很多应用插件,界面通用性强(看得出来真的是在用AI原生思维重构产品)。

响应速度快且稳定度高(4.0体验更好,但是需要氪金),即使在用户并发高峰期也不特别受影响,支持多模态输入和输出。用户体验总体能打4星,交互方面有一个不算是不足的地方,是比较直男,属于没特别惊喜但也没什么硬伤的。

33fb21fddd3d72e58708ca1b3fd51fb9.png

不错很切题,你果然是懂中文诗词语义理解的。

让我们再来问一遍:

9ec50416d5f92e181bb8c4690278ec5b.png

什么?登鹳雀楼这个,你是认真的吗?

0085f50c8fa40a8f7f7249b8defd4420.png

好的,你也是懂得一本正经胡说八道的,但我还是被你说服了,那么继续下一题。

2b867ab1e4848597765d9bf5e5e2307c.png

还不错,这是你的章节大纲吧?我们继续往下看。

40a83931f82766b65ce9c6acf8cd3cf5.png

李白和王之涣,这个平平淡淡的故事,竟然被你写得这么刺激?

你要是在耽美文学界,一定能大放异彩。

我先考考你的记忆能力吧。

524af0084efb60b1995c469f0a9007f4.png

好的,看得出前后逻辑能自洽。最后再来一个问题。

c956684ba8438e5209aaba11896184a6.png

这作诗水平,我一个理科生只能流着眼泪说,真的牛B!

最后的最后,忍不住请隔壁豆包(https://www.doubao.com/chat)也来吃瓜作画。

e49fa953e17c6f3296782e55fd7f5144.png

82e9a426c914f3d8c0859b180cbf05c3.png

5833b8dc023bcd612e8a9de44697723a.png

d4c81c13c18a8167b5d728b428837a50.png

5fe1d1cc74ae9028c7abb9ecd749eaf3.png



二、讯飞星火

830eeb06e3d9c90b972c8d805a884958.png

这个界面呢,也是一目了然的,而且暗藏了很多小心机,把很多优势功能都给一目了然显示在主页上,总的来说还是比较友好。唯独就是我在测试的过程中,感觉没有那么稳定,出现过短暂类似宕机的体验,而且也支持多模态输出,场景模型很多。

0926cbd0d96e1f2a41cdb12e57895084.png

怎么说呢?您能不能先把每一句诗人和诗词的内容给对应上,我真的谢谢你了!



三、通义千问

30986f7bb0ca3226de40d721f1db4466.png

通义千问跟讯飞的交互差不多,属于简洁但是有“心机”的,图片理解和文档解析这两个十分重要的功能,放在了非常显眼的主交互区位置,用起来很方便,不像其它大模型应用,人还得找半天。

ef956aa9cebd3e95aab66214196d81e9.png

啊,杜甫这个诗??。。。请问你是中了跟楼上一样的毒吗?


四、360智脑

0875ca66cbe099e83c26d42060b6bd63.png

我比较喜欢360智脑的一个原因是,它有着非常沉浸式的虚拟数字人角色扮演,而且也支持多模态,场景很丰富且好用。但不足的地方在于,这个响应速度真的很慢。

然后,换一个角色,诸葛亮吧哈哈哈。

7c9c7f35576d18e9c98860722450f233.png

360这个角色扮演真的可以!

不过你怎么也说王之涣?你是看了隔壁文心一言写的小说了吗?

27017b7e42428dc41b8d3dc6e5f57c76.png

真不愧是卧龙先生,是知错能改的。

de0b5789e37e83ed7543a6d5e6c7023f.png

接下里我要考你创作了,孔明先生您准备好了吗?

abd7db618a9ab45e54ef1138b6b11f60.png

先生您谦虚了,那么还是作一首诗吧。

880afe5b9c60081e166e3c9590acfca2.png

私人觉得这首诗不如前面文心一言作的,那我们再来一首吧

63cbf74eccfe1fca6b173f0868a58380.png



五、百川智能

这是一个交互比较简陋的大模型,但是界面还是比较友好的,特别对于开发者来说,应该还是有很多空间。

d3637fad559b0f5bf7ba35fc99bb9734.png

可以,算是中规中矩吧,这位选手我们接下来可以进入创作环节。

7156e408bb0218a9595ab2da55e4efc0.png

怎么说呢,我总想再看到点什么……

7c90baab81441cbf89cce5b71baef3cb.png

我天,我有点吃惊的,难道这不是一个武侠小说吗?怎么成玄幻了?

7fc9546fbefaa97080c6277e508efcff.png

426d63852c028404e935000a8e88479f.png

作为一个十级小说阅读者,我总觉得还想看到点什么……

f7dd67064f5f190610e046d5b0728159.png

百川说:我是一个正经的人工智能,没有狗血剧情。

6429963f94ec855ffebb3e54eaf9ce2e.png

可你这个人的名字是不是取得有点潦草了。

57bb181a77956a44dad9a76b91cb766e.png

最后再来创作一首吧。

1422d95ad3c1b08004df941e2b38ef03.png

好吧,虽然词一言难尽,但你似乎确实懂写歌的。



六、MiniMax

其实从交互界面上来说,风格像极了二十年前的网站,喜欢怀旧风格的人可以尝试下。

83a9118441e2af6ce9fa2f991d0a9484.png

背后是一个初创公司,但是其今年的估值已经达到了12亿美元,还是不可小觑的,目前这个模型支持的场景相对来说也是逐渐丰富了。

a6a9b749243f07ec8e09800051fc1fc8.png

麻雀虽小但五脏俱全,甚至还有数字人定制这种功能,还是看得出满满都是诚意。

c9dc65ab0fbd4d7b8487e23a722c139f.png

当然了,我最终还是用了别人创建的数字人,跟它聊天的。

e62de144dc830c5484e0a6b92a88dd0e.png

好吧,看样子它是最有个性的聊天机器人了。


七、智谱清言

78a582bac54c9d0dc8b1ca5fd535ec17.png

他家的交互页面我觉得对于程序员或者想学编程的人来说,真的是比较友好的,而且响应速度也很快。

b3c8915a3e2d653de6974225087aee7d.png

怎么说呢?我感觉你是懂的,但好像又不全对。

f4c0798514f32a066d73700f6196a94f.png

那么接下来是记忆和创作。

599a8f1ab7608634123aa85dc2d66395.png

什么?。。。是我这道题太难了吗?

好吧,我们叫隔壁豆包来作画。

b8755a70b4f950e66d0f3b28ca553cbf.png

豆包的AI漫画生成这个也是一言难尽,但是看得出它真的努力想把这些元素拼接再一起了。

我们换成豆包AI生成图的功能。

edbfcc6456fa44a2cc6a1d301ffd4cea.png

感觉这回是对味多了。


八、豆包

这是我们今天最后一位选手,从用户交互的友好程度来说,我认为它能拿到最高分,果然字节是懂用户的,希望隔壁几位选手都能学一学。

5e14f57c486dafb1eca22b02ad8ada55.png

接下来就考一考它的实际本事:

5466fd7a8e22e33ba860248bb660d373.png

好吧,貌似也是没什么可说的,进入创作环节。

f11c62bf03cb623586c9280600dc2b45.png

这小说的套路还是那个套路,那就接下来继续问它一些问题吧。

a38119a18fb39578aca19e5fb17c471f.png

虽然,创作确实有不少漏洞。

fe98e5f541dd903232edab9bfcbdfc24.png

好吧,不管是刀还是剑,我真的是已经感觉自相矛盾了,要是说,明月拿着天涯赠给她的“相思明月刀”去寻找天涯,或许这样会更好。

2626a13dc35661f1954eaa429a49e42d.png

怎么说呢,它虽然表示赞同,但好像并没有实际更改。

310574ec39a356fe7b9483587c1960f1.png

好吧,我真的是无能为力,咱还是换个你的优势赛道,来作画吧。

3c7bf61e436797c441c7e746ba0ddc3f.png

画风感觉是对的,可是。。。这你是认真的吗?

4d657ca130fc9099360e0ddc311df611.png

看起来豆包同学像是在网上搜图的,不过看在你这么尽心尽力敷衍我的份上,也就原谅你了。

e97c0cfc345206fbc42544db8aa5c3cc.png


最后再来个彩蛋

帮我画一个甄嬛传里的华妃娘娘,边喝奶茶,边说“奶茶就是矫情”扁平插画,可爱Q版#创意图#

1)讯飞星火

c986b2dd72bb4e18fa358174fdd8caca.png

这个华妃,看起来在宫斗剧里活不过两集的样子。

2)智谱清言

ebd162c73ae12f595ec64295b5adde67.png

啊...这排场,简直就是皇太后娘娘啊。

3)豆包

281b9975e29d2f35ca9bc70b1acb9529.png

好吧,倒是很美很像华妃,可是奶茶呢?

4)360智脑

b2eed4567d31fd57c655a482818228d1.png

没有奶茶也就算了,你还没有华妃!

5)文心一言

bdcc56b369efa5a37e856cfbb22e4b77.png

这张实在是入魂了哈哈哈。


结语:

本次的测评内容仅为部分节选,并没有全面展示各家大模型的能力(主要还是以基础能力展示为主),虽然测评的结果是槽点满满,“人工智能”看起来也有很长的路要走。

但瑕不掩瑜,以上大模型各有特色,各有侧重,有的专注于自然语言处理和生成,有的专注于中文语境的理解和生成,有的则专注于语音识别和生成,还有的擅长作画。

在下一篇文章中,笔者将整理这一系列测评的结果,对各个大模型进行中立评价,通过对结果数据的分析,希望能够帮助大家更好地了解这些大模型的技术优势和应用场景,同时也希望能够为大家在选择和使用大模型时提供一些参考和建议。

国产大模型,进化之路漫长,但我们相信未来可期!

c46f91cb6b6a352b7da5dee649d169ce.png


机构简介「顿悟山丘」咨询,致力于企业数字化转型咨询与方案落地。是由国内知名数字化转型专家 Mr.K(黄哲铿),与多位来自头部互联网公司的技术专家共同创办。凭借领先的方法论、丰富的行业经验,获得了数十家上市公司及独角兽企业的青睐和赞誉,并保持长期、紧密合作。


添加“顿悟山丘”创始人Mr.K,私人微信

866bb352af5784d441f65f2773a6d00c.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值