OpenAI 震撼发布 o3/o4-mini 模型:多模态「博士级AI」正式登场,带图思考时代开启了。
今日凌晨 1 点,OpenAI 通过全球技术直播正式发布代号为 o3 和 o4-mini 的两款多模态模型,“视觉推理+自主工具调用”的天下来了。
这两款模型不仅是当前性能最强的通用 AI,更首次实现“带图思考”能力,被业内称为“博士水平 AI”的里程碑突破。
01
大招一:o3/o4-mini 发布
1️⃣ 核心亮点:性能碾压、多模态革命
学术与代码能力封神
o4-mini 在 AIME(美国数学邀请赛)2024/2025 测试中分别取得 93.4%和 92.7% 的准确率,超越满血版o3,达到顶尖人类数学竞赛水平。
Codeforces 编程测试得分 2700 分,跻身全球前200名程序员行列,可独立完成价值超 6.5 万美元的软件工程项目
多模态“全科状元”
支持文本、图像、音频的同步处理:例如上传倒置的手写笔记图片,AI会自动旋转、放大、OCR识别并结构化输出内容,全程仅需20秒。
视觉推理能力爆炸式提升:在 MMMU(大学级视觉问答)、MathVista(数学图表解析)等测试中,准确率最高达86.8%,远超GPT-4的55%
2️⃣ 技术突破:从“识别”到“思考”
图像融入思维链
传统 AI 仅能识别图像内容,而o3/o4-mini可将图像作为推理链条的一部分。例如分析医学影像时,模型会结合病理学知识自动标注异常区域,并生成诊断建议
强化学习驱动工具调用
OpenAI 通过强化学习训练模型自主判断何时使用工具。例如用户上传报错截图时,AI 会先识别关键信息,再调用代码库搜索解决方案,而非被动等待指令
成本与性能平衡
o4-mini 体积更小但性能更强,响应速度比 o3 快40%,适合高频轻量级任务;
满血版 o3,则面向复杂场景,支持更长上下文和精细推理。
02
大招二:开源了 AI 编程 Agnet工具
除了发布了最新模型 o3/o4 mini,还开源了一款名为 Codex 的编程 Agent 工具。
开源地址:https://github.com/openai/codex
OpenAI 发布 Codex CLI:一款轻量级代码智能体工具,开源后 5 小时即获 5000 星,预计当天突破 1 万星,备受关注。
强大功能:支持自动生成代码、运行代码、安装依赖、重构和测试代码、数据库迁移、文件批量重命名等,终端表现优异。
兼容性强:支持 OpenAI 最新大模型(o3、o4-mini、GPT-4.1)。
未来规划:OpenAI 将持续推出更多智能体产品,并考虑收购 AI 编程平台 Windsurf,显示其在智能体编程领域的雄心。
03
都读到这了,关注下吧
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了: