小米发布首个推理大模型！

最新推荐文章于 2025-06-05 22:56:29 发布

啥都生

最新推荐文章于 2025-06-05 22:56:29 发布

阅读量916

点赞数 25

分类专栏： AI资讯文章标签：人工智能

本文链接：https://blog.csdn.net/zzh516451964zzh/article/details/147684052

版权

AI资讯专栏收录该内容

65 篇文章

订阅专栏

B站：啥都会一点的研究生
公众号：啥都会一点的研究生

AI科技圈最近一周又发生了点啥

DeepSeek开源Prover-V2强推理模型

DeepSeek开源了其Prover-V2强推理模型，引发了网友的广泛关注，甚至有人表示“奥数从没这么简单过”。此外，CVPR 2025上，Mona团队展示了其小而强大的CV微调技术，声称“我小、我强、我省资源”，在资源利用方面表现出色。南京大学李武军教授课题组也推出了分布式训练算法UniAP，可将大模型训练最高加速3.8倍

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main

小米推出首个推理大模型MiMo，仅用7B参数超越32B模型

小米开源了首个推理大模型MiMo，该模型在数学推理和代码竞赛等公开测评集上表现出色，仅用7B参数规模便超越了OpenAI的o1-mini和阿里Qwen的32B开源推理模型。MiMo通过预训练和后训练阶段的创新，挖掘了大量推理语料，并采用高效稳定的强化学习算法和框架，显著提升了推理能力。目前，MiMo-7B系列已开源4个模型至HuggingFace。

https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

Qwen3发布：大型语言模型性能与多语言能力大幅提升

Qwen3系列大型语言模型正式发布，其旗舰模型Qwen3-235B-A22B在代码、数学和通用能力测试中表现卓越，超越多个顶级模型。小型MoE模型Qwen3-30B-A3B激活参数数量仅为QwQ-32B的10%，性能却更胜一筹。此外，Qwen3支持119种语言和方言，预训练数据量达36万亿个token，是前代的两倍。其后训练流程包括四阶段强化学习，进一步提升了推理和响应能力。Qwen3还提供思考模式与非思考模式切换功能，满足不同任务需求。开源模型已在Hugging Face等平台开放使用

https://mp.weixin.qq.com/s/OvobsCPW0IwxeSm8pljv-A

清华大学成立人工智能医院，推动医疗模式变革

清华大学成立人工智能医院，旨在打破传统医院运行模式，从底层设计融入AI智能体功能，协助医生精准决策，提高医疗服务效率和患者满意度。医院初期将在全科医学科和眼科、放射诊断科等专科试点，未来将构建“AI+医疗+教育+科研”生态闭环，推动医疗资源高效扩容与均衡布局。同时，清华大学学术临床中心也正式启动，致力于推动医疗资源整合与标准化建设，助力“健康中国2030”战略实施

https://mp.weixin.qq.com/s/n-87KYCszONioyJrmqOJ5A

ICML 2025放榜：接收率26.9%，高分被拒与低分录用引发争议

第42届国际机器学习大会（ICML）将于2025年7月在加拿大温哥华举行。今年大会共收到12107篇投稿，较去年增加28%，最终接收3260篇论文，接收率为26.9%。其中，313篇论文被选为“spotlight poster”。尽管一些高分论文如字节跳动的“MARS”和“ShadowKV”被接收，但也有部分高分论文被拒，甚至出现低分论文被接收的情况，引发了学术界的广泛讨论。此外，评审过程中的矛盾和不完整评审意见等问题也备受关注

https://www.jiqizhixin.com/articles/2025-05-02-4

大模型竞技场可信度遭质疑：Llama4私下测试27个版本引发争议

大模型竞技场（Chatbot Arena）作为LLM领域的首选排行榜，其可信度近日因一篇名为《排行榜幻觉》的论文而受到质疑。研究指出，少数大厂如Meta在发布Llama4前私下测试了27个版本，并仅公开最佳表现，导致排名膨胀。此外，专有模型获得的用户反馈数据远多于开源模型，且使用竞技场数据训练可使模型性能提升高达112%。研究还发现，243个公开模型中有205个被“静默弃用”，远超官方列出的47个。对此，竞技场官方回应称，其排行榜反映的是数百万人类的真实偏好，并非存在偏见。研究团队则提出了包括禁止提交后撤回分数、限制非正式模型数量等5点改进建议。这一争议也提醒AI社区，单一榜单或许无法全面反映模型的真实能力

https://arxiv.org/abs/2504.20879

中国气象局推出全球首个全链式空间天气大模型“风宇”，预测能力达国际领先水平

中国气象局在第八届数字中国建设峰会·数字气象分论坛上首次推介了全球首个空间天气链式基础大模型“风宇”。已完成太阳风、磁层和电离层的全链式耦合训练。融合卫星观测数据与自主研发的数值模式数据，创新性地采用链式训练结构，实现了多区域、多尺度之间的信息交互与动态响应模拟，显著提升了对空间天气变化的理解和预测能力。在长达一年的测试中，“风宇”在24小时短临预测方面表现出色，尤其是在近两年的大磁暴事件中，其电离层部分预测误差基本控制在10%以内，处于国际领先水平