大模型到底用那个才是最优解?
2025年的春节,DeepSeek-R1的出世犹如哪吒闹海一般,将逼着很多闭源的厂商都开始准备开源一部分代码(不针对于closeAI)。
紧接着奥特曼的死对头马斯克发布了号称史上最强的Grok3,Claude家族也更新了3.7-Sonnet,前两天OpenAI发布了GPT-4.5,以高情商高价格高姿态的三高特点引起了全网群嘲。
今年注定是国内国外大模型大混战的一年,但作为普通人,普通开发者,却陷入了焦虑与迷茫:
“旗哥,写文章润色那个模型更好用?”
“写代码用GPT?还是Gemini?还是用Claude?”
这篇文章,我带着大家一起停止迷茫,直奔主题,通过国内外测评网站的排名和什么场景下什么模型最合适的角度,给大家真实测评一下最合适某个场景的大模型。
大模型竞技场地址、场景以及适合的模型,我放到结尾了。中间的部分嫌啰嗦的话,可以直接跳转到结尾~
一、大模型的排名
截止到2025-02-07,全网共计272w+人投票
1、全网排名
其中,老马的Grok-3在综合能力上获得了第一名。Gemini家族紧跟其后,可以看到我们的国产开源之光Deepseek-R1紧跟其后。
2、代码场景排名:
前三名分别是Grok-3、Gemini2.0-pro和Claude3.7-Sonnet,其余的都不用关注了,写代码就直接用这个三个,但目前用的最多的是Gemini Flash 2.0 和 Claude 3.7 Sonnet,每日的调用Token量直接甩了其他模型几条街。
3、中文场景:
在中文场景,看到了几个熟悉的面孔,分别是智谱的GLM4-plus、阿里的Qwen千问系列以及阶跃星辰的step-2,但居榜首的还是Gemini-2.0-Flash-Thinking模型。相信不久的将来,国产大模型有一天一定会登顶世界之巅!
二、不同场景下的实测
我们在语言的理解能力、写作能力、代码能力,以及知识储备推理能力几个方面,将上述几个排名靠前的大模型进行一个比较。
2.1 写代码
我们来试试全网比较火爆的弹跳小球测试。
让不同的大模型写一个Python程序,本次选取的为DeepSeek-V3、Claude3.7-Sonnet、Grok-3、GPT4o、Gemini-2-Flash。
思考推理版的大模型不在本次测评内(一般我们写代码的时候,不使用推理大模型,太慢了)
提示词:
write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
Deepseek-V3
代码成功运行
但球没弹跳起来。。。
Grok-3
成功运行
但球飞了。。。。
Claude-3.7-Sonnet
代码成功运行
六边形转起来了,但球体的弹跳不是很好。
Gemini-2-Flash
效果和Claude-3.7差不多
GPT-4o
执行代码的过程中报错。。。。
结果显示:
在写代码的过程中,以及作者近1年多的Ai编程经验来看,写代码用Claude 3.7 Sonnet系列和Gemini 2.0 Flash 即可。
2.2 写作场景实测
在写作的过程中,不管是写方案、写公众号、写小红书,再不经过提示词调教的前提下,大模型写出来的都是一股Ai味。
下面我们来试试各个大模型谁写出来的Ai味最重。
提示词:
以《幻想一下2045年的社会》为题,写一段200字的小作文
要求:
1、要结合人工智能对社会结构的影响
2、内容输出尽可能符合人工撰写,避免机械化的回复
Deepseek-R1
拽的词太多,不接地气。
Grok3-Thing
看完Grok3的回复,中规中矩,可读型还是比较高的。
Claude-3.7-Sonnet-Think
不愧是最好用的大模型之一,写出来的内容可以直接抄到作文本上了。
Gemini-2.0-Flash-think
emmm。。。怎么说呢,一般般吧~
GPT4.5
GPT-o3-high
GPT系列的还是Ai味道很重。
从同一套问题的回答效果来看:写作场景还得看Grok3 和 Claude。
三、写到最后
技术永远在迭代,但把握核心场景需求,才是你驾驭AI的关键。
当前AI大模型百家争鸣,各有所长。从各大模型的实测表现来看,写代码首选Claude 3.7和Gemini Flash,写作场景则是Grok3和Claude更胜一筹。
国产模型如DeepSeek、GLM4和千问系列也在迅速崛起。
选择适合自己场景的大模型,才能真正发挥AI的最大价值,提升工作效率,解决实际问题。
我是旗哥,年长的可以叫我小王,码字不易,觉得有价值的话请点个在看~ 或者转发一下。
关注我,了解最新的Ai趋势,学习Ai技能,了解Ai给普通人带来的副业机会,我们下篇文章再见👋🏻
你更看好哪个大模型?打在评论区~
Chatbot Arena 大模型竞技场:https://lmarena.ai/?p2l
OpenRouter Rankings 大模型排名 :https://openrouter.ai/rankings