打工人、宝妈、学生党都能用上大模型？我们实测了6款国产大模型的实用性

最新推荐文章于 2024-07-05 16:44:12 发布

程序员二飞

最新推荐文章于 2024-07-05 16:44:12 发布

阅读量625

点赞数 12

文章标签：人工智能语言模型自然语言处理学习

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/138971131

版权

从卷参数、卷文本长度再到开卷多模态，国产大模型的角逐赛打的愈发激烈。

特别是2024年初以来，“长文本”悄然走入大众视野，在众多晦涩技术用词之外，让不少用户眼前一亮。

今年3月，月之暗面的Kimi智能助手宣布可支持200万字上下文，紧随其后，通义千问免费开放1000万字的长文档处理功能；4月，讯飞星火也可支持长文本、长图文、长语音，甚至还能进行超拟人语音对话、一句话声音复刻。

5月14日凌晨，OpenAI推出最新旗舰大模型GPT-4o，能够对文本、音频、图像的任意组合作为输入，并生成文本、音频和图像输出。

大模型能力竞争来到了新的水平线。

不过，不论是模型参数，还是长文本能力，都并非以数字取胜。简言之，大模型并非参数越大越好用，文本也并非越长，效果就越好。

大模型到底好不好用，长文本的价值究竟几何？为了解答这些疑问，凤凰网科技对多款国产大模型进行了实测，横向比较了Kimi、文心一言3.5、通义千问、讯飞星火3.5、智谱清言与商汤商量共6款国产大模型， 以日常合同、保险赔付、学习辅导、会议资料整理与日常生活等垂直应用行业为具体案例，呈现6大国产大模型的差异之处。

长文本，好用还是鸡肋？

起初将长文本概念带火的正是月之暗面，其旗下的Kimi智能助手主打的就是长文本。

在月之暗面创始人杨植麟看来，通往通用人工智能（AGI）之路，无损的长上下文将会是一个很关键的基础技术。

目前，Kimi支持200万字超长无损上下文，其相关负责人表示，长文本可进一步帮助打开对AI应用场景的想象力，包括完整代码库分析理解、可自主帮人类完成多步骤复杂任务的智能体Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。

当然，理论说明并不直观，既然Kimi号称有超强长文本能力，我们就来横向对比下，以日常合同、保险赔付、日常会议等为例，Kimi与文心一言、通义千问、讯飞星火、商汤商量、智谱清言的差别所在。

● 长文本识别及筛选能力实测：

我们在日常生活中有非常多合同使用的场景，而快速阅读字数繁多的合同、整理要点是普遍痛点，我们以房屋租赁合同为例，测试了以上几款产品在处理长文本上的能力。得到的结果如下：

Kimi的回答详尽且条理清晰，重点信息也做了突出显示，把注意事项一一列举了出来。

讯飞星火的总结同样对要点进行了提炼，并一一列举了注意事项。

通义千问的列举详尽，也对重点内容进行了标注。

智谱清言同样交出了一份合格的回答，涵盖了核心重点内容。

商汤商量分为对话大模型和文档大模型，合同需要发给文档大模型处理，两个模型入口可能对用户来说不是很方便，在处理结果上，商汤大模型给出的回答也较为全面。

● 长文本问答能力实测：

我们以汽车出险赔付为例，参照平安保险机动车商业保险条款，了解事故发生后我们该如何进行保险理赔。

Kimi的回答依旧条理清晰，可行性较高，基本上解决了机动车出现事故后该具体如何操作问题。

讯飞星火的回答同样逻辑清晰，虽没有Kimi的解答那么细，但仍旧全盘列出了现场处理要点以及注意事项。

文心一言的回复相对而言比较泛泛而谈，无法一步到位直接解决当下的问题。

通义千问的回答同样有着不错的实用性，基本涵盖了事故发生后需要进行的操作。

商汤商量的回答较为全面，依然需要在文档大模型中单独使用，操作上略有不便。

智谱清言在此问题上的回答虽然相对简略，但同样涵盖了核心步骤。

● 长文本生成能力实测：

在具体的应用场景中，长文本除了识别与归纳，最核心的功能，就是生成功能了。这里我们设定需要这些大模型生成一份人工智能产业报告（2023）。

在长文本生成方面，Kimi仍旧呈现出了显著的专业性，不仅内容探讨方向更加丰富，且专业内容扎实，实用度高，几乎可直接拿来做报告的初步提纲。

讯飞星火的文本生成能力同样可圈可点，虽在条理性上略逊Kimi一筹，但展现出了更强的文采能力。

相比较之下，文心一言的学术性能力就稍逊一筹，产出的内容较为简单、基础，很难直接使用。

通义千问的回答稍微有一点文不对题，虽然给出了一张封面，但具体内容可用性较弱。

商汤商量生成的报告，在结构上比较完整，并涵盖了当前领域中的专业术语。

在长文本生成方面，智谱清言的回答中规中矩，有简单的基础信息，但还是专业度不足。

长图文、长语音，谁在抢跑多模态大模型

在大模型参数已经卷无可卷的当下，越来越多企业正在从细分方向突出重围，以让人们感觉大模型的好用之处。除了前文提及的长文本，多模态也是一个关键的研究方向。

对于人来说，多模态是一种十分自然的交互模式。但对于计算机来说，多模态却是极其复杂且困难的。

例如，随着CNN技术的突破，一度带动了人脸识别、视频识别技术的广泛应用，准确率可以远超人类，但该项技术却难以在文本理解方面取得显著的突破。直到2023年，大语言模型掀起了新一轮技术迭代，典型代表如ChatGPT，才使得AIGC再度向前迈进了一步，但以上多项技术突破，仍旧是以单模态见长。

所以可以认为，当下能够处理更多模态信息的如文字、图像、视频、语音等多模态大模型，可以更加灵活自如的与人们交流互动，也就更加接近真正意义上的AGI。

4月底讯飞星火3.5的更新，就在努力朝这一方向演进。不久前商汤日日新5.0也刚刚更新，提升的核心指标也包括多模态能力，号称图文感知能力达到全球领先水平。通义千问与文心一言目前也均有多模态模型。Kimi方面，实际上在Sora于今年初惊艳亮相之后，其内部就在推进多模态模型的研发，其联合创始人周昕宇表示，预计2024年会推出多模态模型及产品，但截至目前，相关产品仍未面世，可以说，在多模态能力方面，Kimi已经晚了一步。

凤凰网科技也就目前已经发布的几款大模型的多模态处理能力，进行了综合实测。

比如我们上传了一张小米su7发布会的PPT实拍图，让大模型对该页PPT进行重点总结。

讯飞星火准确的识别出了该张PPT中的重点信息，与此同时，对部分信息进行了推理，在多模态能力上呈现出了部分优势。

智谱也准确识别出PPT的信息，并在最后进行总结。

商汤商量识别出了PPT中的主要文字信息，对于图片的识别能力稍逊色了一点点。

通义千问和商汤的表现相近，整理了图片中的文字内容，但分析和归类能力较弱。

文心一言涉及了部分推理演绎，不过理解有部分错误，比如将800cltc续航里程和时速搞混了。

再比如我们在日常生活中有非常多辅导孩子学习的场景，我们截取了一张初中数学题的图片，交给大模型进行识别并给出解题思路。

商汤商量识别出了文字内容，并进行了解题，但解题思路有误，把长方形的长和宽搞错了，直接给出了错误答案。

讯飞星火不仅精准的识别出了图片中的文字，并给出了十分精准且正确的解题思路。如果在日常辅导孩子学习的场景下，非常实用。

通义千问、文心一言和智谱清言的解题思路基本相近，但逻辑上不是特别清晰，对于辅导来说，比较难教给孩子清晰、有逻辑的解题思路。

同样在图文识别方面，我们上传了2023年世界人工智能大会的议程，希望大模型能帮忙整理一份重点。

讯飞星火的内容识别凝练且主次分明，看起来更加方便。

通义千问的信息提取较为全面，但缺乏对重要信息的筛选和过滤。

商汤商量则将图片中的所有文字进行了提取，基本是原封不动的进行了复述。

智谱清言的识别最为丰富，对论坛信息进行了突出显示。

在音视频识别层面，目前业内布局尚不多：

我们上传了2020东京奥运会，乒乓球男单决赛樊振东与马龙对决的视频片段，让大模型为我们整理下视频的核心内容：

智谱清言则直接表示无视频分析能力。

实际上，目前文心一言、通义千问、商汤商量等均不支持音视频的上传与解析。

在音视频这类十分多见的应用场景中，讯飞星火已经有了显著的领先性。

基因虽不同，但好用才是正义

当下，越来越多人开始追求大模型实用与否，尤其是在学习、办公、日常生活等常见场景下的具体应用。

可以看到，在长文本、长图文与长语音方面，几款国产大模型已经基本上有了显著差异，比如Kimi的确在长文本方面展现出了较强的能力，但遗憾的是，多模态能力的缺失，让Kimi的使用场景有显著的短板。

此外，加强后的商汤商量、讯飞星火，在多模态上已经比通义千问、文心一言的表现更亮眼一些，尤其是讯飞星火，本就有更强的逻辑推理能力和数学能力，加上多模态能力的提升，除了准确的识别文字，还能对音视频文件进行处理，应用场景更为广泛。

经过长文本识别与生成能力、多模态输入和识别能力、数理能力等几个维度，得出测试结果如下：

可能大家都想学习AI大模型技术，也想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好，希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

程序员二飞

关注

12
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
打工人、宝妈、学生党都能用上大模型？我们实测了6款国产大模型的实用性

从卷参数、卷文本长度再到开卷多模态，国产大模型的角逐赛打的愈发激烈。特别是2024年初以来，“长文本”悄然走入大众视野，在众多晦涩技术用词之外，让不少用户眼前一亮。今年3月，月之暗面的Kimi智能助手宣布可支持200万字上下文，紧随其后，通义千问免费开放1000万字的长文档处理功能；4月，讯飞星火也可支持长文本、长图文、长语音，甚至还能进行超拟人语音对话、一句话声音复刻。5月14日凌晨，OpenAI推出最新旗舰大模型GPT-4o，能够对文本、音频、图像的任意组合作为输入，并生成文本、音频和图像输出。
复制链接

扫一扫