谷歌史上最强推理模型全面屠榜！

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/146642302

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

最近一周AI科技圈又有啥新进展

谷歌发布Gemini 2.5 Pro，多项基准测试夺冠并支持200万tokens长上下文

谷歌推出Gemini 2.5 Pro实验版本，该模型在大模型竞技场中以1443分的成绩领先，比第二名高出39分。在Humanity’s Last Exam测试中得分较OpenAI o3-mini提升近5%，提升比例达34%。此外，Gemini 2.5 Pro支持100万tokens上下文窗口，即将升级至200万tokens，还具备原生多模态处理能力，擅长创建美观的Web应用和智能体编程

https://mp.weixin.qq.com/s/U5AO2-oj84F726DZYIMUyQ

华为ModelEngine全流程AI开发工具链正式开源

华为ModelEngine AI全流程工具链在全球开发者面前正式开源，旨在解决AI行业化落地中的数据工程耗时长、模型训练和应用落地难等问题。该工具链围绕数据使能、模型使能和应用使能打造，内置数据处理算子、完整模型管理流程，并提供低代码编排、RAG框架及自定义插件能力，助力缩短通用大模型基于行业私域数据训练成行业大模型并开发成AI应用的整体周期。代码已托管在GitCode、Gitee和GitHub等平台

https://github.com/ModelEngine-Group

OpenAI 推出 GPT-4o 原生图像生成功能，挑战谷歌 Gemini 2.5 Pro

OpenAI 在直播中展示了 GPT-4o 的图像生成技术升级，包括梗图制作、文本渲染、多轮交互生成等功能。GPT-4o 能够处理多达 10-20 个物体的复杂图像生成任务，支持多种风格转换，并且可以精准遵循用户提示，生成实用且具有上下文感知能力的图像。该功能已向 ChatGPT 和 Sora 的所有用户开放

https://www.ithome.com/0/840/746.htm

OpenAI 发布新一代音频模型，涵盖语音转文本与文本转语音功能

OpenAI 推出新一代音频模型，包括 gpt-4o-transcribe（语音转文本）、gpt-4o-mini-transcribe（语音转文本精简版）和 gpt-4o-mini-tts（文本转语音）。其中，gpt-4o-transcribe 单词错误率显著降低，优于现有 Whisper 模型；gpt-4o-mini-transcribe 速度更快、效率更高；gpt-4o-mini-tts 首次支持「可引导性」，开发者可控制语音风格。三款模型定价分别为每分钟 0.006 美元、0.003 美元和 0.015 美元。OpenAI 还推出 Agents SDK 集成，简化开发流程，并举办广播比赛，鼓励用户创作和分享音频

https://mp.weixin.qq.com/s/fab8tYA_Xse5kL6v6uCF0A

阿里推出视觉推理模型QVQ-Max，可分析推理图片视频并助力多场景应用

阿里通义千问团队发布新一代视觉推理模型QVQ-Max，具备细致观察、深入推理和灵活应用三大核心能力。它能快速识别图片和视频中的关键元素，结合背景知识进行分析推理，还能设计插画、生成短视频脚本等。该模型已上线Qwen Chat，用户上传图片或视频并提问即可使用其推理能力，未来还将持续优化和扩展功能

https://qwenlm.github.io/blog/qvq-max-preview/

阿里云Qwen2.5-Omni开源，7B全模态模型性能全球领先

阿里云正式开源通义千问Qwen2.5-Omni-7B，这是通义系列首个端到端全模态大模型，可处理文本、图像、音频和视频等多种输入，并实时生成文本与语音输出。该模型在OmniBench等权威测评中刷新纪录，性能远超Google的Gemini-1.5-Pro等同类模型。Qwen2.5-Omni采用创新的Thinker-Talker双核架构及多项新技术，支持多模态输入与流式处理，语音生成测评分数达4.51，与人类持平。其7B的小尺寸使其在产业应用中更具优势，可在手机等终端轻松部署。目前，该模型已在魔搭社区和Hugging Face开源，用户可免费下载商用并体验

https://github.com/QwenLM/Qwen2.5-Omni

豆包新版深度思考功能开启测试，支持边想边搜

豆包新版深度思考功能正式开启测试，其核心亮点在于将推理过程与搜索深度相结合，支持边思考边搜索。在制定方案和规划时，豆包可通过多轮搜索完善结果；在辅助专业文章写作中，可深度挖掘资料并提供创新思路；在模糊条件搜索时，能精准锁定目标答案

https://mp.weixin.qq.com/s/GmLjK5Zl0-xWUCzqKTrLGg

昆仑万维发布全球首款音乐推理大模型Mureka O1

昆仑万维正式发布Mureka O1和Mureka V6两款AI音乐模型，其中Mureka O1为全球首款音乐推理大模型，采用自研MusiCoT技术，性能超越Suno，登顶SOTA。Mureka V6支持10种语言的音乐创作，并引入ICL技术优化声场与混音设计。两款模型支持多种音乐风格与情感表达，并提供歌曲参考和音色克隆功能，用户可上传音频或音色进行创作。此外，Mureka还开放API服务与模型微调功能，助力开发者构建AI音乐生态

https://mp.weixin.qq.com/s/1JPYXUwX-1JAVpz3IgygtQ

美团开发内部大模型 LongCat，AI 策略聚焦主动进攻

美团 CEO 王兴在财报电话会议中表示，美团已开发内部大语言模型 LongCat，并将其应用于日常工作，推出 AI 编码、智能会议与文档助手等工具。美团的 AI 策略为“主动进攻”，计划推出原生人工智能产品，并持续投资打造内部大模型。2024 年，美团收入达 3375.92 亿元，同比增长 22%，核心本地商业分部收入同比增长 20.9%，到店业务订单量同比增长超 65%

https://www.ithome.com/0/840/222.htm

腾讯发布自研深度思考模型混元T1，推理能力显著提升

腾讯正式推出自研深度思考模型混元T1正式版，该模型在推理能力上表现出色，尤其擅长超长文处理。在多项基准测试中，混元T1取得优异成绩，如在MMLU-PRO中得分87.2分，仅次于o1。其采用的Hybrid-Mamba-Transformer融合架构，有效降低了计算复杂度和内存占用，同时针对长序列处理进行了优化，解码速度提升2倍。混元T1已上线腾讯云，企业用户可通过官网申请试用

https://llm.hunyuan.tencent.com/#/chat/hy-t1

vivo进军机器人领域，聚焦家庭消费级产品

vivo在博鳌亚洲论坛2025年年会上宣布成立“vivo机器人Lab”，正式进军机器人行业。vivo计划利用其在AI大模型、影像技术及混合现实领域的积累，着重研究机器人的“大脑”和“眼睛”，目标是打造面向个人和家庭场景的消费级机器人产品。据预测，到2028年我国机器人整机市场规模约在20至50亿元，2035年规模可达约500亿元，2045年后人形机器人整机市场规模有望达到约10万亿元级别