别再浪费时间了!5分钟读懂各大AI模型优劣,一文搞懂那个大模型最好用?

大模型到底用那个才是最优解?

2025年的春节,DeepSeek-R1的出世犹如哪吒闹海一般,将逼着很多闭源的厂商都开始准备开源一部分代码(不针对于closeAI)。

紧接着奥特曼的死对头马斯克发布了号称史上最强的Grok3Claude家族也更新了3.7-Sonnet,前两天OpenAI发布了GPT-4.5,以高情商高价格高姿态的三高特点引起了全网群嘲。

今年注定是国内国外大模型大混战的一年,但作为普通人,普通开发者,却陷入了焦虑与迷茫:

“旗哥,写文章润色那个模型更好用?”

“写代码用GPT?还是Gemini?还是用Claude?”

这篇文章,我带着大家一起停止迷茫,直奔主题,通过国内外测评网站的排名和什么场景下什么模型最合适的角度,给大家真实测评一下最合适某个场景的大模型。

大模型竞技场地址、场景以及适合的模型,我放到结尾了。中间的部分嫌啰嗦的话,可以直接跳转到结尾~

一、大模型的排名

截止到2025-02-07,全网共计272w+人投票

1、全网排名

image.png

其中,老马的Grok-3在综合能力上获得了第一名。Gemini家族紧跟其后,可以看到我们的国产开源之光Deepseek-R1紧跟其后。

2、代码场景排名:

image.png

前三名分别是Grok-3Gemini2.0-proClaude3.7-Sonnet,其余的都不用关注了,写代码就直接用这个三个,但目前用的最多的是Gemini Flash 2.0Claude 3.7 Sonnet,每日的调用Token量直接甩了其他模型几条街。

3、中文场景:

image.png

中文场景,看到了几个熟悉的面孔,分别是智谱的GLM4-plus、阿里的Qwen千问系列以及阶跃星辰的step-2,但居榜首的还是Gemini-2.0-Flash-Thinking模型。相信不久的将来,国产大模型有一天一定会登顶世界之巅!

image.png

二、不同场景下的实测

我们在语言的理解能力写作能力代码能力,以及知识储备推理能力几个方面,将上述几个排名靠前的大模型进行一个比较。

2.1 写代码

我们来试试全网比较火爆的弹跳小球测试

让不同的大模型写一个Python程序,本次选取的为DeepSeek-V3Claude3.7-SonnetGrok-3GPT4oGemini-2-Flash

思考推理版的大模型不在本次测评内(一般我们写代码的时候,不使用推理大模型,太慢了)

提示词:

write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically
Deepseek-V3

代码成功运行

但球没弹跳起来。。。

image.png

Grok-3

成功运行

但球飞了。。。。

image.png

Claude-3.7-Sonnet

代码成功运行

六边形转起来了,但球体的弹跳不是很好。

PixPin_2025-03-01_15-53-49.gif

Gemini-2-Flash

效果和Claude-3.7差不多

PixPin_2025-03-01_15-55-17.gif

GPT-4o

执行代码的过程中报错。。。。

image.png

结果显示:

在写代码的过程中,以及作者近1年多的Ai编程经验来看,写代码用Claude 3.7 Sonnet系列和Gemini 2.0 Flash 即可。

2.2 写作场景实测

在写作的过程中,不管是写方案、写公众号、写小红书,再不经过提示词调教的前提下,大模型写出来的都是一股Ai味。

下面我们来试试各个大模型谁写出来的Ai味最重。

提示词:

以《幻想一下2045年的社会》为题,写一段200字的小作文

要求:
1、要结合人工智能对社会结构的影响
2、内容输出尽可能符合人工撰写,避免机械化的回复
Deepseek-R1

拽的词太多,不接地气。

image.png

Grok3-Thing

看完Grok3的回复,中规中矩,可读型还是比较高的。

image.png

Claude-3.7-Sonnet-Think

不愧是最好用的大模型之一,写出来的内容可以直接抄到作文本上了。

image.png

Gemini-2.0-Flash-think

emmm。。。怎么说呢,一般般吧~
image.png

GPT4.5

image.png

GPT-o3-high

image.png

GPT系列的还是Ai味道很重。

从同一套问题的回答效果来看:写作场景还得看Grok3 和 Claude。

三、写到最后

技术永远在迭代,但把握核心场景需求,才是你驾驭AI的关键。

当前AI大模型百家争鸣,各有所长。从各大模型的实测表现来看,写代码首选Claude 3.7和Gemini Flash写作场景则是Grok3和Claude更胜一筹

国产模型如DeepSeek、GLM4和千问系列也在迅速崛起。

选择适合自己场景的大模型,才能真正发挥AI的最大价值,提升工作效率,解决实际问题。

我是旗哥,年长的可以叫我小王,码字不易,觉得有价值的话请点个在看~ 或者转发一下。

关注我,了解最新的Ai趋势,学习Ai技能,了解Ai给普通人带来的副业机会,我们下篇文章再见👋🏻

你更看好哪个大模型?打在评论区~

Chatbot Arena 大模型竞技场:https://lmarena.ai/?p2l

OpenRouter Rankings 大模型排名 :https://openrouter.ai/rankings

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值