别再浪费时间了！5分钟读懂各大AI模型优劣，一文搞懂那个大模型最好用？

最新推荐文章于 2025-04-27 11:25:41 发布

旗哥说 Ai

最新推荐文章于 2025-04-27 11:25:41 发布

阅读量1.5k

点赞数 19

文章标签：人工智能

王傲旗的大数据之路

本文链接：https://blog.csdn.net/weixin_43893397/article/details/145952025

版权

大模型到底用那个才是最优解？

2025年的春节，DeepSeek-R1的出世犹如哪吒闹海一般，将逼着很多闭源的厂商都开始准备开源一部分代码（不针对于closeAI）。

紧接着奥特曼的死对头马斯克发布了号称史上最强的Grok3，Claude家族也更新了3.7-Sonnet，前两天OpenAI发布了GPT-4.5，以高情商高价格高姿态的三高特点引起了全网群嘲。

今年注定是国内国外大模型大混战的一年，但作为普通人，普通开发者，却陷入了焦虑与迷茫：

“旗哥，写文章润色那个模型更好用？”

“写代码用GPT？还是Gemini？还是用Claude？”

这篇文章，我带着大家一起停止迷茫，直奔主题，通过国内外测评网站的排名和什么场景下什么模型最合适的角度，给大家真实测评一下最合适某个场景的大模型。

大模型竞技场地址、场景以及适合的模型，我放到结尾了。中间的部分嫌啰嗦的话，可以直接跳转到结尾~

一、大模型的排名

截止到2025-02-07，全网共计272w+人投票

1、全网排名

其中，老马的Grok-3在综合能力上获得了第一名。Gemini家族紧跟其后，可以看到我们的国产开源之光Deepseek-R1紧跟其后。

2、代码场景排名：

前三名分别是Grok-3、Gemini2.0-pro和Claude3.7-Sonnet，其余的都不用关注了，写代码就直接用这个三个，但目前用的最多的是Gemini Flash 2.0 和 Claude 3.7 Sonnet，每日的调用Token量直接甩了其他模型几条街。

3、中文场景：

在中文场景，看到了几个熟悉的面孔，分别是智谱的GLM4-plus、阿里的Qwen千问系列以及阶跃星辰的step-2，但居榜首的还是Gemini-2.0-Flash-Thinking模型。相信不久的将来，国产大模型有一天一定会登顶世界之巅！

二、不同场景下的实测

我们在语言的理解能力、写作能力、代码能力，以及知识储备推理能力几个方面，将上述几个排名靠前的大模型进行一个比较。

2.1 写代码

我们来试试全网比较火爆的弹跳小球测试。

让不同的大模型写一个Python程序，本次选取的为DeepSeek-V3、Claude3.7-Sonnet、Grok-3、GPT4o、Gemini-2-Flash。

思考推理版的大模型不在本次测评内（一般我们写代码的时候，不使用推理大模型，太慢了）

提示词：

write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically

Deepseek-V3

代码成功运行

但球没弹跳起来。。。

Grok-3

成功运行

但球飞了。。。。

Claude-3.7-Sonnet

代码成功运行

六边形转起来了，但球体的弹跳不是很好。

Gemini-2-Flash

效果和Claude-3.7差不多

GPT-4o

执行代码的过程中报错。。。。

结果显示：

在写代码的过程中，以及作者近1年多的Ai编程经验来看，写代码用Claude 3.7 Sonnet系列和Gemini 2.0 Flash 即可。

2.2 写作场景实测

在写作的过程中，不管是写方案、写公众号、写小红书，再不经过提示词调教的前提下，大模型写出来的都是一股Ai味。

下面我们来试试各个大模型谁写出来的Ai味最重。

提示词：

以《幻想一下2045年的社会》为题，写一段200字的小作文

要求：
1、要结合人工智能对社会结构的影响
2、内容输出尽可能符合人工撰写，避免机械化的回复

Deepseek-R1

拽的词太多，不接地气。

Grok3-Thing

看完Grok3的回复，中规中矩，可读型还是比较高的。

Claude-3.7-Sonnet-Think

不愧是最好用的大模型之一，写出来的内容可以直接抄到作文本上了。

Gemini-2.0-Flash-think

emmm。。。怎么说呢，一般般吧~

GPT4.5

GPT-o3-high

GPT系列的还是Ai味道很重。

从同一套问题的回答效果来看：写作场景还得看Grok3 和 Claude。

三、写到最后

技术永远在迭代，但把握核心场景需求，才是你驾驭AI的关键。

当前AI大模型百家争鸣，各有所长。从各大模型的实测表现来看，写代码首选Claude 3.7和Gemini Flash，写作场景则是Grok3和Claude更胜一筹。

国产模型如DeepSeek、GLM4和千问系列也在迅速崛起。

选择适合自己场景的大模型，才能真正发挥AI的最大价值，提升工作效率，解决实际问题。

我是旗哥，年长的可以叫我小王，码字不易，觉得有价值的话请点个在看~ 或者转发一下。

关注我，了解最新的Ai趋势，学习Ai技能，了解Ai给普通人带来的副业机会，我们下篇文章再见👋🏻

你更看好哪个大模型？打在评论区~

Chatbot Arena 大模型竞技场：https://lmarena.ai/?p2l

OpenRouter Rankings 大模型排名：https://openrouter.ai/rankings