51c大模型~合集53

whaosoft-143

已于 2025-03-27 22:42:51 修改

阅读量1.2k

点赞数 13

分类专栏：人工智能文章标签：人工智能

于 2024-11-18 12:53:35 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143854237

版权

人工智能专栏收录该内容

324 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/12023736

#如何让大模型更好地进行场景落地

自ChatGPT模型问世后，在全球范围内掀起了AI新浪潮。

有很多企业和高校也随之开源了一些效果优异的大模型，例如：Qwen系列模型、MiniCPM序列模型、Yi系列模型、ChatGLM系列模型、Llama系列模型、Baichuan系列模型、Deepseek系列模型、Moss模型等。

图片来自：A Survey of Large Language Models

并且在去年的一整年中，大多数人都在做底座通用大模型的搭建、垂直领域大模型预训练或微调等工作。虽然大模型基础能力得到了很大程度的提升，但是大模型距离真正地落地，其实还有一段艰难的路要走。

图片来自：A Survey of Large Language Models

那么如何让大模型更好地进行场景落地，变得尤为重要。例如：如何优化通用大模型在领域上的效果，如何在某些场景中合理运用大模型，如何确保生成内容的稳定性和安全性，如何确保大模型可以在生产环境下稳定使用等。

《大型语言模型实战指南》一书从大模型应用落地角度出发，系统梳理了大模型的相关技术，也帮助读者学习如何优化开源大模型在不同领域或场景中的效果，详细讲述了如何搭建角色扮演、信息抽取、知识问答、AI Agent等各种各样的大模型应用。

角色扮演

角色扮演应用主要利用大模型来模拟不同属性和风格的人物和角色，如游戏人物、动漫角色、网络小说的主角、电影人物、电视人物，以及历史名人等，旨在为用户带来更精细、更沉浸的交互体验。

图片来自：From Persona to Personalization: A Survey on Role-Playing Language Agents

为了确保用户获得最佳的体验，角色扮演应用不仅需模拟角色基本的对话流程，还要求大型语言模型深入理解角色的性格、故事背景、情感状态和行为模式，从而塑造出更为智能和生动的AI角色。可以应用在教育、游戏、咨询、创作、培训等多个领域中。

图片来自：Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization

Text2SQL

Text2SQL应用就是将自然语言查询转换为结构化查询语言（SQL）语句，以便从数据库中检索数据。随着大模型能力的逐步提高，解决Text2SQL的任务的方法也从传统深度学习模型转向大模型。并且各种平台系统的ChatBI、数据分析等功能，均离不开Text2SQL技术。

图片来自：A Survey on Employing Large Language Models for Text-to-SQL Tasks

RAG

RAG（Retrieval-Augmented Generation，检索增强生成）技术，主要是在大型语言模型生成答案之前，通过检索方法从数据库中检索与用户查询相关的信息，利用这些相关信息指引大型语言模型进行答案生成。

RAG不仅极大程度地解决大型语言模型幻觉的问题，还提高模型回复的可靠性，提供生成答案的溯源信息，并且通过更新外部知识库实现对于知识的更新，无需重新训练模型，减少了模型训练更新的成本。目前，已经成为大型语言模型应用落地的重要方向。

RAG的整体流程主要涉及查询处理模块、内容检索模块、内容组装模块和大模型生成4个部分。当系统接收到用户查询Query进行初步处理后，利用向量检索模型从构建的向量知识库中检索到与其最相关的文档片段内容，再通过提示工程对用户查询Query和文档片段进行组装，最后利用大模型生成一个答案。

图片来自：Retrieval-Augmented Generation for Large Language Models: A Survey

AI Agent

Agent是能够感知自身所处环境、自我决策并采取行动的人工智能实体。Agent技术的应用范围广泛且多样化，它们不仅仅是简单的自动化工具，而是能够在多个领域中提供高效和创新的解决方案。

自动化和效率化的工具：从简单的数据查询到复杂的决策制定，它们都能显著减少人工操作的需求，优化工作流程。
数据分析和处理：在处理大量数据和执行复杂分析方面，能够从海量数据中提取有价值的信息，为企业和研究者提供快速、准确的洞察。
交互式用户体验：通过自然语言处理和上下文感知技术，提供个性化和互动的用户体验，从而改善用户交互。
智能决策支持：作为决策支持工具，在分析复杂情况和提供基于数据的建议方面表现突出，特别是在商业、医疗和科研等领域。
集成与扩展服务：通过API调用外部服务，为用户提供全面和扩展的功能。可以通过API调用外部服务，将不同的功能和信息源集成到一个统一的接口中。
自适应学习和进化：能够根据用户反馈和行为模式不断进化，以更好地满足用户需求。

The Rise and Potential of Large Language Model Based Agents: A Survey

#大模型LLM-微调经验分享&总结

本文总结了作者在ChatGLM-6B模型微调的经验，并汇总了目前开源项目&数据。

大型语言模型横行，之前非常焦虑，现在全面拥抱。目前也有很多开源项目进行大模型微调等，笔者也做了一阵子大模型了，特此来介绍一下ChatGLM-6B模型微调经验，并汇总了一下目前开源项目&数据。笔者与很多人微调结论不同，本人在采用单指令上进行模型微调，发现模型微调之后，「并没有出现灾难性遗忘现象」。

项目地址：https://github.com/liucongg/ChatGLM-Finetuning

ChatGLM-6B模型微调

模型越大对显卡的要求越高，目前主流对大模型进行微调方法有三种：Freeze方法、P-Tuning方法和Lora方法。笔者也通过这三种方法，在信息抽取任务上，对ChatGLM-6B大模型进行模型微调。为了防止大模型的数据泄露，采用一个领域比赛数据集-汽车工业故障模式关系抽取(https://www.datafountain.cn/competitions/584)，随机抽取50条作为测试集。

详细代码见上面的GitHub链接，并且也被ChatGLM官方收录。

Freeze方法

Freeze方法，即参数冻结，对原始模型部分参数进行冻结操作，仅训练部分参数，以达到在单卡或不进行TP或PP操作，就可以对大模型进行训练。

微调代码，见finetuning_freeze.py，核心部分如下：

for name, param in model.named_parameters():
    if not any(nd in name for nd in ["layers.27", "layers.26", "layers.25", "layers.24", "layers.23"]):
        param.requires_grad = False

针对模型不同层进行修改，可以自行修改。训练代码均采用DeepSpeed进行训练，可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text等，可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_freeze.py --num_train_epochs 5 --train_batch_size 2

三元组抽取的推理代码，见predict_freeze.py，其他任务可以根据自己的评价标准进行推理预测。

PT方法

PT方法，即P-Tuning方法，参考ChatGLM官方代码(https://github.com/THUDM/ChatGLM-6B/blob/main/ptuning/README.md) ，是一种针对于大模型的soft-prompt方法。

P-Tuning(https://arxiv.org/abs/2103.10385)，仅对大模型的Embedding加入新的参数。

P-Tuning-V2(https://arxiv.org/abs/2110.07602)，将大模型的Embedding和每一层前都加上新的参数。

微调代码，见finetuning_pt.py，核心部分如下：

config = ChatGLMConfig.from_pretrained(args.model_dir)
config.pre_seq_len = args.pre_seq_len
config.prefix_projection = args.prefix_projection

model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir, cnotallow=config)

for name, param in model.named_parameters():
    if not any(nd in name for nd in ["prefix_encoder"]):
        param.requires_grad = False

当prefix_projection为True时，为P-Tuning-V2方法，在大模型的Embedding和每一层前都加上新的参数；为False时，为P-Tuning方法，仅在大模型的Embedding上新的参数。

可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、pre_seq_len、prompt_text等，可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_pt.py --num_train_epochs 5 --train_batch_size 2 --pre_seq_len 16

三元组抽取的推理代码，见predict_pt.py，其他任务可以根据自己的评价标准进行推理预测。

Lora方法

Lora方法，即在大型语言模型上对指定参数增加额外的低秩矩阵，并在模型训练过程中，仅训练而外增加的参数。当“秩值”远小于原始参数维度时，新增的低秩矩阵参数量很小，达到仅训练很小的参数，就能获取较好的结果。

Lora论文：https://arxiv.org/abs/2106.09685
官方代码：https://github.com/microsoft/LoRA
HuggingFace封装的peft库：https://github.com/huggingface/peft

微调代码，见finetuning_lora.py，核心部分如下：

model = ChatGLMForConditionalGeneration.from_pretrained(args.model_dir)
config = LoraConfig(r=args.lora_r,
                    lora_alpha=32,
                    target_modules=["query_key_value"],
                    lora_dropout=0.1,
                    bias="none",
                    task_type="CAUSAL_LM",
                    inference_mode=False,
                    )

model = get_peft_model(model, config)

可设置参数包含train_path、model_dir、num_train_epochs、train_batch_size、gradient_accumulation_steps、output_dir、prompt_text、lora_r等，可根据自己的任务配置。

CUDA_VISIBLE_DEVICES=0 deepspeed finetuning_lora.py --num_train_epochs 5 --train_batch_size 2 --lora_r 8

三元组抽取的推理代码，见predict_lora.py，其他任务可以根据自己的评价标准进行推理预测。

注意：对于结果需要保持一致的任务(即关掉dropout，解码关掉do_sample)，需要保存模型的adapter_config.json文件中，inference_mode参数修改成false，并将模型执行model.eval（)操作。主要原因是chatglm模型代码中，没有采用Conv1D函数。

三元组抽取实验结果

模型训练时，最大长度为768，Batch大小为2，训练轮数为5，fp16训练，采用DeepSpeed的Zero-1训练；
PT为官方的P-Tuning V2训练方法，PT-Only-Embedding表示仅对Embedding进行soft-prompt，Freeze仅训练模型后五层参数，Lora采用低秩矩阵方法训练，秩为8；
由于之前训练PT在48G-A40显卡上会出现OOM，因此之前进行PT实验时对模型开启了gradient_checkpointing_enable，使得模型显存占用变小，但训练时长增加。
训练示例：

prompt_text：你现在是一个信息抽取模型，请你帮我抽取出关系内容为\"性能故障\", \"部件故障\", \"组成\"和 \"检测工具\"的相关三元组，三元组内部用\"_\"连接，三元组之间用\\n分割。文本：
输入：故障现象：发动机水温高，风扇始终是低速转动，高速档不工作，开空调尤其如此。
输出：发动机_部件故障_水温高\n风扇_部件故障_低速转动

时间换空间，可用很好的解决显卡的资源问题，简单玩玩还可以，如果想要模型达到最优效果或可用快速看到效果，还不如租张A100卡，快速实验，推理阶段再用自己的小破卡。

笔者找到一家新的算力平台-揽睿星舟，单张A100仅要6.4元/小时，我翻了一圈，算是便宜的了(反正比AutoDL便宜一点，便宜一点是一点吧)。

下面实验结果均是在租的80G-A100上进行的实验，与Github里用的A40的实验结果会有些差异，主要在训练时长(纯训练速度，剔除模型保存的时间)。说实话，真的要训练一个大模型，多个A100是必不可少的，可以减少很多模型并行的操作，效果上也更好把控一些。

微调方法	PT-Only-Embedding	PT	Freeze	Lora
显卡占用	37G	56G	24G	39G
总参数	6.259B	7.211B	6.255B	6.259B
可训练参数占比	0.0586%	13.26%	16.10%	0.0586%
训练耗时	20min	52min	46min	25min
测试结果F1	0.0	0.6283	0.5675	0.5359

结果分析：

效果为PT>Freeze>Lora>PT-Only-Embedding;
速度为PT-Only-Embedding>Lora>Freeze>PT;
PT-Only-Embedding效果很不理想，发现在训练时，最后的loss仅能收敛到2.几，而其他机制可以收敛到0.几。分析原因为，输出内容形式与原有语言模型任务相差很大，仅增加额外Embedding参数，不足以改变复杂的下游任务;
PT方法占用显存更大，因为也增加了很多而外参数;
测试耗时，采用float16进行模型推理，由于其他方法均增加了额外参数，因此其他方法的推理耗时会比Freeze方法要高。当然由于是生成模型，所以生成的长度也会影响耗时;
模型在指定任务上微调之后，并没有丧失原有能力，例如生成“帮我写个快排算法”，依然可以生成-快排代码;
由于大模型微调都采用大量instruction进行模型训练，仅采用单一的指令进行微调时，对原来其他的指令影响不大，因此并没导致原来模型的能力丧失;
上面测试仅代表个人测试结果。

很多同学在微调后出现了灾难性遗忘现象，但我这边并没有出现，对“翻译任务”、“代码任务”、“问答任务”进行测试，采用freeze模型，可以用test_forgetting.py进行测试，具体测试效果如下：

翻译任务

代码任务
问答任务

后面会把生成任务、分类任务做完，请持续关注Github，会定期更新。（太忙了，会抓紧时间更新，并且官方代码也在持续更新，如遇到代码代码调不通的情况，请及时联系我，我在github也给出了我的代码版本和模型版本）

中文开源大模型&项目

虽然出来很多大模型，但Open的&中文可直接使用的并不多，下面对中文开源大模型、数据集和项目进行一下汇总。

中文开源大模型

直接可微调，无需指令增量训练：

ChatGLM-6B：https://huggingface.co/THUDM/chatglm-6b
ChatYuan-large-v2：https://huggingface.co/ClueAI/ChatYuan-large-v2

原始模型多语言or英文，需要中文指令数据集增量训练：

BloomZ：https://huggingface.co/bigscience/bloomz
LLama：https://github.com/facebookresearch/llama
Flan-T5：https://huggingface.co/google/flan-t5-xxl
OPT：https://huggingface.co/facebook/opt-66b

中文开源指令数据

下面中文指令集，大多数从Alpaca翻译而来，请看下面项目中data目录。目前通过ChatGPT或者GPT4作为廉价标注工为自己的数据进行数据标注一个不错的思路。

[1]：https://github.com/LC1332/Chinese-alpaca-lora
[2]：https://github.com/hikariming/alpaca_chinese_dataset
[3]：https://github.com/carbonz0/alpaca-chinese-dataset
[4]：https://github.com/Instruction-Tuning-with-GPT-4/GPT-4-LLM
[5]：https://github.com/LianjiaTech/BELLE
[6]：https://huggingface.co/datasets/JosephusCheung/GuanacoDataset

开源项目

总结下面较火的开源项目：

BELLE：https://github.com/LianjiaTech/BELLE
ChatGLM：https://github.com/THUDM/ChatGLM-6B
Luotuo-Chinese-LLM：https://github.com/LC1332/Luotuo-Chinese-LLM
stanford_alpaca：https://github.com/tatsu-lab/stanford_alpaca

总结

目前各大厂的大模型陆陆续续放出，堪称百家争鸣！个人玩家也是全面拥抱，想尽一切办法来训练微调大模型。只愿大家以后可以实现“大模型”自由。愿再无“model-as-a-service”。

#大世界模型

李飞飞携24人最强天团打造「大世界模型」！Hinton站台力挺，获2.3亿融资

李飞飞团队酝酿了5个月之久的创业公司，今天终于正式官宣了！目标是打造「大世界模型」，让AI在3D世界中感知、生成、互动。2.3亿美金新一轮融资，竟被Hinton、Jeff Dean看准了。

AI教母李飞飞的创业公司World Labs，正式官宣启动！

3个月前，这家新晋AI独角兽，在完成约1亿美元融资后，估值10亿美金。

刚刚，World Labs又获2.3亿美金新一轮融资。

这一次，新一轮融资由a16z、NEA和Radical Ventures领投，还有英伟达的风投部门参与。

甚至，就连AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt、LinkedIn联创Reid Hoffman等人纷纷参投。

李飞飞和Hinton同时分别担任Radical Ventures的科学合伙人和投资人

他们瞄准的是，空间智能AI。

一直以来，World Labs成立所专攻的领域，被蒙上了一层神秘的面纱。如今，一切真相大白。

官博介绍，World Labs的诞生就是为了构建「大世界模型」（LWM），感知、生成3D世界，并与之进行交互。

World Labs拒绝透露这一轮融资后的最新估值。

过去两年里，文本提示图像、视频模型，以及LLM的兴起，预示着AI在视觉领域的潜力。

但它们仅是冰山一角。

在李飞飞看来，我们需要的空间智能的AI，能够对世界进行建模，同时根据3D时空中物体/地点/交互进行推理。

World Labs创始人团队，左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞

那么，究竟什么是空间智能？

空间智能，计算机视觉下一个前沿

前段时间，李飞飞在一次活动中，首次详细揭秘了何谓「空间智能」：

视觉化为洞察，看见成为理解，理解导致行动。

她将人类智能归结为两大智能，一是语言智能，另一个便是空间智能。虽然语言智能备受关注，但空间智能将对AI产生重大的影响。

而在4月公开的TED演讲中，李飞飞也分享了自己关于空间智能的更多思考，同时预示着World Labs的目标所在。

她表示，「所有空间智能的生物所具备的行动能力，是与生俱来的。因为，它能够将感知与行动进行关联」。

「如果想让AI超越其自身当前的能力，我们需要的是，不仅仅能够看到、会说话的AI，而是一个可以行动的AI」。

就连英伟达高级计算机科学家Jim Fan称，「空间智能，是计算机视觉和实体智能体的下一个前沿」。

正如World Labs的官博所阐述的那样，人类智能包含了诸多方面。

语言智能，可以让我们通过语言与他们进行交流和联系。而其中最为基础的便是——空间智能，能够让我们理解，并与周围世界进行互动。

此外，空间智能具备了极强的创造力，可以将我们脑海中的画面，在现实中呈现。

正是有了空间智能，人类能够推理、行动和发明。从简单的沙堡到高耸的城市可视化设计，都离不开它。

在接受彭博最新采访中，李飞飞表示，人类的空间智能，实际上经过了数百万年的演化而来。

这是一种理解、推理、生成，甚至在一个3D世界中互动的能力。不论是你观赏美丽的花朵，尝试触摸蝴蝶，还是建造一座城市，所有这些皆是空间智能的一部分。

不仅是人类，动物身上也可以看到这一点。

那么，如何让计算机也能具备空间智能的能力呢？其实我们已经取得了巨大的进步，过去十年AI领域的发展相当振奋人心。

一句提示，AI生成图像、视频，真知还能讲述故事。这些模型已经以全新的方式，重塑人类的工作和生活方式。

而我们仅是看到了GenAI革命前夜的第一章。

下一步，如何超越？

需要将这些能力，如何带到3D领域。因为现实世界，就是3D的，同时人类空间智能是建立在非常「原生」的理解和操作3D的能力之上的。

打造「大世界模型」，从2D走向3D

以上，是李飞飞多年来的思考和预判。而World Labs这家公司，可以说是很好地凝结了这些远见卓识。

他们的目标，简而言之，就是构建具有空间智能的大世界模型（LWM），让它可以感知、理解、推理，甚至生成3D世界，并能与其互动。

此外，从公司发布的公告来看，World Labs绝不会止步于研究层面的探索。

公司目前有20名成员，不仅包括CV和图形学领域的研究人才，还有系统工程、产品设计等职位，致力于在空间智能的基础模型和产品之间构建反馈闭环，从而让产品落地、服务用户。

随着时间的推移，预计将训练出功能更强大、能力更广泛的模型，可以应用于各种领域，与人们协同工作。

李飞飞在最新采访中，也提出了类似的预期：「这是一项非常基础的技术，将对广泛的用例产生影响，最终包括机器人和制造业。」

比如，如果用户可以自定义物理变量来创建虚拟的3D空间，将会为艺术家、设计师、开发者和工程师解锁新的能力。

最终，GenAI将从2D的像素平面，走向完整的3D世界，无论是虚拟的还是现实的。

这些听起来似乎有些难以想象，但之World Labs之所以吸引到这么多大佬投资，其中一个重要原因就是李飞飞对技术的发展方向有准确的预判。

早在2006年，专注于搞神经网络的Hinton还在坐冷板凳，机器学习和深度学习的热潮远远没有到来。

当时，李飞飞就带领团队创建了ImageNet数据集，包含1500万张图像，以及相应的基准测试ImageNet Challenge。

正是在ImageNet挑战赛上，Hinton、Ilya Sutskever等人设计的AlexNet脱颖而出，让2012年成为了「深度学习元年」。

李飞飞的远见，可见一斑，也让我们期待她能将「空间智能」变为现实。

AI大牛转赞庆祝

对于World Labs正式成立的消息，李飞飞高徒Karpathy表示非常期待，也特地发推庆祝。

「The World Labs团队是顶尖的，我很期待看到他们将前沿研究应用到3D AI中！」

Karpathy表示，在博士期间，他透与李飞飞和Justin Johnson共同度过了很多时光，充满了美好的回忆。

当时，李飞飞是他的导师，也是他们「勇敢的领袖」；Justin和他一起撰写论文，这三位大佬共同奠基了斯坦福最著名的课程之一——CS231n的第一个版本。

CS231n课程全名为计算机视觉深度学习（Deep Learning for Computer Vision），李飞飞在今年的春季学期依旧开设了这门课，和吴恩达的CS229一样，是很多AI从业者的启蒙课。

而在2017年首次开设的时候，Andrj Karpathy、Justin Johnson和李飞飞共同担任讲师，YouTube上依旧能找到他们当时上课的录像视频。

此外，英伟达高级科学家Jim Fan也同样发推，祝贺自己的博士导师李飞飞成功创业。

2016～2021年Jim Fan在斯坦福大学读博期间，就是在李飞飞的指导下开展深度强化学习、机器人学、CV等领域的研究。

他在推文中表示，李飞飞在具身智能方面的观点深刻影响了自己的博士阶段和研究品味。他相信，空间智能将是CV和具身智能体的下一个前沿。

作为Justin Johnson和Chao-Yuan Wu之前在Meta FAIR的前同事，纽约大学助理教授谢赛宁也发推祝贺，并表示「空间智能必胜！」

四人创始团队

除了李飞飞，创始团队中的其他3人也都是CV和图形学领域的技术专家。

Ben Mildenhall

Ben Mildenhall本科毕业于斯坦福大学的数学和计算机科学专业，博士毕业于加州大学伯克利分校，曾在谷歌担任研究科学家，谷歌学术引用量超过2.3万。

他博士期间师从Ren Ng，提出了著名的NeRF（神经辐射场）。

论文地址：https://arxiv.org/pdf/2003.08934

Justin Johnson

Justin Johnson在创业的同时还在担任密歇根大学助理教授，他从加州理工学院获得了数学和计算机科学的学士学位，博士毕业于斯坦福大学，是李飞飞的学生。

他博士期间曾在谷歌、Facebook、雅虎实习，毕业后到Meta FAIR担任研究科学家，谷歌学术引用量超过3.4万。

读博期间发表的这篇论文《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》，单篇的引用量就超过了1.1万。

论文地址：https://arxiv.org/pdf/1603.08155

Christoph Lassner

Christoph Lassner本科毕业于德国奥格斯堡大学的信息学专业，之后前往图宾根大学以及Max Planck智能系统研究所攻读博士。

毕业后，他曾在Meta和亚马逊担任研究科学家，之后在Epic Games领导研究团队，专注于图形学领域的3D重建和3D渲染技术。

参考资料：

https://x.com/drfeifei/status/1834584286932181300

https://www.worldlabs.ai/about

https://x.com/drfeifei/status/1834584286932181300

https://x.com/karpathy/status/1834666824904196222

https://www.bloomberg.com/news/articles/2024-09-13/ai-pioneer-fei-fei-li-raises-230-million-for-new-startup-world-labs

#OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL 的方法直接搜索，只要提供足够的计算量用于搜索，总可以搜到最后的正确路径。然而，这样只是建立起问题和答案之间的更好的联系，如何泛化到更复杂的问题场景，技术远不止这么简单。

AlphaGo 是强化学习在围棋领域中的一大成功，成功击败了当时的世界冠军。早在去年，Deepmind 的 CEO Demis Hassabis 便强调用 Tree Search 来增强模型的推理能力。根据相关人士推测，o1 的模型训练数据截止到去年十月份，而有关 Q * 的爆料大约是去年 11 月，这似乎展示 o1 的训练中也用到了 TreeSearch 的技巧。

实际上，OpenAI o1 运用的技术关键还是在于强化学习的搜索与学习机制，基于 LLM 已有的推理能力，迭代式的 Bootstrap 模型产生合理推理过程（Rationales) 的能力，并将 Rationales 融入到训练过程内，让模型学会进行推理，而后再运用足够强大的计算量实现 Post-Training 阶段的 Scaling。类似于 STaR [1] 的扩展版本。

注意这里合理推理过程并不只是对问题的拆解和分步作答，还有对于为什么如此作答的分析和思考。

技术要点有三：

后训练扩展律 Post-Training Scaling Laws 已经出现，并且 Post-Training Scaling Laws 为上述技术路径的成功提供了有力支持。
模型学习的是产生合理推理的过程，MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号，而非直接搜索过程和最终答案。
模型的 BootStrap 有助于构建新的高质量数据，并且新的 Rationales 数据促进了模型进一步提升能力。

一、OpenAI o1 的发布是 Post-Training Scaling Laws 的强力体现

北京时间 9 月 13 日午夜，OpenAI 发布 o1 系列模型，旨在专门解决难题。OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功最重要离不开后训练阶段 (Post-Training Stage) 中强化学习训练和推理阶段思考计算量的增大。新的扩展律 —— 后训练扩展律（Post-Training Scaling Laws）已经出现，并可能引发社区对于算力分配、后训练能力的重新思考。

模型表现概览

最新的发布的 OpenAI o1 在数学代码等复杂推理能力上取得巨大进步，在竞争性编程问题（Codeforces）中排名第 89 个百分位，在美国数学奥林匹克竞赛（AIME）资格赛中跻身美国前 500 名学生之列，在物理、生物和化学问题的基准（GPQA）上超过了人类博士水平的准确性。

而帮助 o1 取得如此性能飞跃的，是 Post-Training 阶段 RL 计算量的 Scaling 和测试推理阶段思考时间的 Scaling。

不过，如果仔细观察，OpenAI o1 在一些常规任务如英语考试和语言能力测试上并没有显著提升 —— 推理能力和强指令跟随能力的提升似乎呈现了分离，这个观察和思考，我们放到最后的分析。

后训练扩展律 Post-Training Scaling Law

随着模型尺寸逐渐增大，预训练阶段参数 Scaling Up 带来的边际收益开始递减，如果想要深度提升模型推理能力和长程问题能力，基于强化学习的 Post-Training 将会成为下一个突破点。早在 2018 年 Ilya 在 MIT 的客座讲座上，他便分享过自己对于通过 RL 和 Self-play 走向 AGI 的信心。

OpenAI 探索 Parameter Scaling Law 之外的 Scaling Laws 也并非空穴来风。

When generating a solution, autoregressive models have no mechanism to correct their own errors. Solutions that veer off-course quickly become unrecoverable.

If we rely purely on generative methods and extrapolate from current trends, we will require an exorbitant parameter count to achieve even moderate performance on distributions as challenging as the MATH dataset.

This evidence strongly motivates the search for methods with more favorable scaling laws.

在 2021 年，他们便在 Training Verifiers to Solve Math Word Problems [6] 中提到，自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正，如果仅是依靠生成式方法和扩大参数规模，那么在数学推理任务上带来的收益不会太大。所以需要寻找额外的 Scaling Laws。

现在看来，RL 带来了 LLM 训练的范式转变，也带来了新的 Scaling Laws，即 Post-Training Scaling Laws。

在 Post-Training Scaling Laws 下，训练阶段的计算量不再只是和参数量的上升有关，同时也会包含 RL 探索时 LLM Inference 的计算量。与此同时，测试阶段模型推理和反思的计算量也会影响模型最终的表现。在 DeepMind 最近的文章 [5] 中，也讨论了这种范式的转变。

Post-train 虽然参数没变，但是在训练算力上仍然会倍数增长；推理上也会随着模型 “思考能力提高”，单次算力增长。是否有足够的算力做 Post-Training 似乎已经成为能不能提升推理性能的入场券。

OpenAI 发现也证明了这一点：随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算）, o1 的性能也在不断提升，并且 Post-Training Scaling Laws 还没有被完全探索。

Sutton 在《Bitter Lesson》中已经指出，只有两种技术可以随着算力增长，学习和搜索。正如英伟达科学家 Jim Fan 所说，也许模型参数大部分是用于存储知识和记忆。

随着参数扩展律的边际效益逐渐递减，现在是时候将更多的算力转向 Post-Training 阶段和推理阶段。

二、OpenAI 的成功，

关键在于合理使用强化学习的探索

仅靠 MCTS 是远不足够的

仅靠 MCTS 无法让模型学会思考问题的关联，隐式自动化 CoT 的背后，是模型真正学会了合理的中间推理过程 Rationales。

当人们写作或说话时，常常会停下来思考。然而，大语言模型在通过 Next Token Prediction 生成回答时，更像是一种 “快思考” 过程。由于缺乏详细的中间推理步骤，模型一开始可能会犯错，而这些错误可能会传播，最终导致生成的答案也是错误的。

为了优化这一过程，产生了一系列方法，其中包括在 Token 级别或子句级别提供奖励信号，帮助模型调整生成的回答。这些方法如蒙特卡洛树搜索（MCTS），将输出建模为一系列节点，这些节点可以是 Token 级别或句子级别。例如：

Token 级别的节点：每个节点对应生成序列中的一个 Token。通过 MCTS，模型可以探索不同的 Token 序列，最终生成更连贯的响应。
句子级别的节点：在复杂推理任务中，每个节点可以代表一个完整的句子或推理步骤，帮助模型更好地处理多步推理任务。

另一种方式是通过思维链（Chain of Thought, CoT）优化模型输出。CoT 通过分步推理的方式，要求模型在生成最终答案之前，先生成一系列中间推理步骤。这种 “思考链” 的生成过程有助于增强模型的推理能力，尤其在数学和代码生成等任务中表现出色。

然而，CoT 虽然能够生成中间步骤，但并未教会模型如何从内部深入思考问题的关联。特别是对于尤其复杂且需要多步推理规划的任务，这样的合理的中间 CoT 推理过程（Rationales) 更为重要。

类似的思路在 STaR [1] 和 Quiet-STaR [7] 中有所体现。

STaR 的核心思路是利用 LLM 已有的推理能力，迭代式的 Bootstrap 模型产生合理推理过程（Rationales) 的能力，并将 Rationales 融入到训练过程内，让模型学会进行推理。

推理：起始数据集仅有 [Question, Answer] ，首先利用一些带有推理过程的 Few-Shot Examples 来 Prompt 模型对于数据集中的问题生成对应的推理过程和答案。
过滤：如果生成的答案正确，则将推理过程加入到原有的数据集中；如果生成的答案错误，则尝试在给出正确答案的前提下再次生成推理过程。将最终生成正确答案的推理收集，构建一个构建一个微调数据集 [Question, Rationale, Answer ] 进行微调。
迭代：重复这一过程，且每次获得一个新的数据集，都从原始的模型开始进行 Fine-tune 从而防止过拟合。

STaR 的思路和 RL 中策略梯度算法是近似的，甚至整体的优化目标可以近似为一个策略梯度优化的目标。

模型首先采样潜在的推理路径（rationale）的过程类似于 RL 中通过策略选择动作（action），基于环境状态选择一个可能的策略路径。STaR 中，通过计算目标函数，模型对整个数据集的预测结果进行评估，并且只根据预测正确的样本更新模型。

STaR 在同一批数据上进行多次梯度更新，这类似于某些策略梯度算法中的策略，即通过多次调整同一批数据来稳定学习过程。在 RL 中，策略梯度算法通过这种方式在探索动作空间时进行学习，而 STaR 则通过探索推理和答案空间，逐步改善推理生成的准确性。

这种方法和先前提到的通过细粒度奖励或 MCTS 优化输出有所不同，模型在正确和错误的示例中更多的学会的是如何进行显式的合理推理。

与此同时，这种合理推理不只是问题拆解分步理，更适用于一般常识问答任务上。例如：

问题：什么可以被用来装一只小狗
选项：(a) 游泳池 (b) 篮子 (c) 后院 (d) 自己的家
合理推理：答案必须是可以用来携带一只小狗的东西。篮子是用来装东西的。因此，答案是 (b) 篮子。

但是 STaR 存在几个局限性：

对少样本示例的依赖：STaR 在推理任务中高度依赖少量的 Few-Shot 推理示例，这导致模型的推理能力较为有限，难以应对复杂和广泛的任务。
泛化能力受限：STaR 虽然能够通过迭代的方式提升模型的推理能力，但其应用主要局限于特定的结构化任务（如问题回答），难以在开放域或任意文本生成任务中取得同样的效果。

针对 STaR 的局限性，Quiet-STaR [7] 提出 “内部思维” 的概念，将显式的 Rationales 推理过程转化为模型内部隐式的推理过程，从而摆脱对于外部示例的依赖。

同时，引入可学习的 <|startofthought|> 和 <|endofthought|> token 来标记思维的开始和结束。

Quiet-STaR 还实现了在更一般文本上的推理学习，这意味着大量复杂任务下的非结构化语料（如医疗、金融等领域）都可以被加入学习过程。同时利用带推理过程的结果与真实结果的分布差异引入奖励信号，通过 REINFORCE 的方法优化生成的推理，使得基于这些推理的模型预测未来的 tokens 更为准确。

就目前来看，STaR 和 Quiet-STaR 是最接近 o1 的技术路线和模型表现效果的，但是如果想要进一步达到 OpenAI o1 的效果，还需要克服很多问题。

例如如下两个问题：

Quiet-STaR 在生成内部思维的过程中，每个 Token 均会生成下一步的对应的思考过程，导致生成了大量额外的 tokens，这也导致了计算资源需求大幅增加。实际上模型需要学会动态的调整 Thinking Token。
对于更复杂的任务和长程问题，如何针对内部思考过程提供细粒度的奖励信号？仅仅通过比较合理推理的回答和正确回答是否一致（或者 Predicted Distribution 的相似度）是不够的。

这不禁引发我们对于 OpenAI o1 的技术路径的思考。OpenAI o1 应当也是沿着 STaR 和 Quiet-STaR 类似的路线，优化模型内部生成合理推理（即隐式的 CoT) 的过程。而 Post-Training 阶段 RL 的训练阶段主要算力也应当是放在了对于内部推理过程的优化上。

那如何构造隐式 CoT 的优化过程的 Reward？

可以通过不同温度采样出来的推理路径构建偏序，也可能是 MCTS 搜出来的正误参半的不同推理过程形成偏序。这点和先前的 MCTS 用法会有所不同，MCTS 节点上不再是最终生成答案中的某个 token 或某步，而是隐式推理过程中的每一步。

同时，为了提供更加细粒度的反馈和指导，需要引入过程性的奖励，而针对模型自身已经难以提供合理推理过程的复杂问题，通过引入额外的足够强的 Critic Model 来解决这个问题。

最终通过强化学习，o1 学会了优化其思维链，并不断改进其使用的策略。它学会识别并纠正错误，学会将复杂的步骤分解为更简单的步骤，并在当前方法无效时尝试不同的解决方案。这个过程大幅提高了模型的推理能力。

同时，在 OpenAI 披露的细节中，生成过程中的 Reasoning Token 是动态引入的，这也尽可能的减少了不必要的思考带来的额外算力损耗。

可以说，OpenAI o1 已不再是即时给出答案的模型，而是能够先进行深入思考。这可以类比为 o1 正在从依赖系统 1 思维（即快速、自动、直觉、易出错的思维模式），逐步进化为采用系统 2 思维（即缓慢、刻意、有意识且更可靠的推理过程）。这一转变赋予了 o1 解决之前无法应对的复杂问题的能力，而这一切的实现，根源于训练后阶段中遵循的扩展规律（Scaling Laws）的应用与优化。

更有意思的是，我们可以构建一个数据飞轮：通过 o1 模型的推理过程自动生成大量高质量的训练数据，这些数据可以被反复用于进一步提升模型性能，形成一个自我强化的良性循环。

在这一过程中，模型的自举能力（Bootstrap）得到进一步扩展，不仅加速了性能提升的进程，更有望逐步推动向超级智能（Superintelligence）的迈进。

总结一下：

RL + “隐式思维链”：o1 模型使用 RL 进行训练，通过引入动态的 Reasoning Token，从而启发 “隐式思维链” 来 “思考” 问题，思考时间越长，推理能力越强！
推理时间 = 新的扩展维度：o1 模型的发布，意味着 AI 能力的提升不再局限于预训练阶段，还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升，即 Post-Training Scaling Laws。
数据飞轮 + Bootstrap -> SuperIntelligence : 基于自我反思的模型将能够实现自举 Bootstrap，并提升大大提升模型对于未见过的复杂问题的解决能力，模型的推理过程形成大量高质量数据的飞轮，并最终有可能向 SuperIntelligence 更进一步。

评论模型 Critic Model

随着任务问题的逐步复杂，仅仅依靠模型的自身推理能力可能无法提供有效的奖励信号。这使得对于模型内部的复杂推理过程的监督变成了一个可扩展监督问题。

具体来说，OpenAI o1 隐式思维链的训练过程中应当也引入了 Critic 的方法。针对复杂推理的问题，模型自身已经难以提供合理推理过程，因此迫切需要引入额外的足够强的 Critic Model 来提供精准的反馈。

具体来说，通过将推理过程进行过程分解，并且利用额外的更强更专项的 Critic Model，可以将推理过程的监督扩展到更复杂的问题上。这也一定程度缓解了仅仅是通过推理过程能否导出正确结果的来确定奖励信号的稀疏问题。

这个思路早在先前也有所探索。

前阵子 OpenAI 发布的 CriticGPT [2]，通过 RLHF 方法训练模型能够为真实世界中的代码任务书写自然语言反馈，并成功泛化到 OOD 的分布上。这种反馈可以用来帮助人类进行更准确的评价，从而实现对于复杂输出的有效奖励反馈。先前 OpenAI 也深入探究过自我批判方法和 Critic Model 辅助人类评判在文本总结任务上的可行性 [3]。

从可扩展监督的角度来说，这条路是必然的。随着任务变得愈发复杂（如数学代码推理），人类反馈者很难对模型的回答进行有效的评价，也就无法提供有效的偏好或者奖励信号，如何在更复杂的任务上对齐更强大的模型，是可扩展监督的重要问题。

对于 Critic 这类方法，关键的挑战在于如何将 Critic 的能力泛化到更加复杂的任务，例如对于代码数学或者长文本输出，Critic Model 需要考虑输出各部分之间的依赖关系和逻辑推理问题，因此对于模型自身的推理能力要求更高。

用于评论批判的模型（Critic Model）同样也可能会存在 Generator-Discriminator-Critique (GDC) gaps ，即模型可能不会指出他们所发现的错误，这一差距在 CriticGPT 这个量级尺寸的模型上是否被缩减目前还不得而知。

可以说这一系列工作是一脉相承的，基于评价比生成更简单的原则，Critic 的思路是可扩展监督一条有希望的技术路径，并且应该也被用在了辅助 o1 的训练当中。

大模型的天花板在哪里？

自从 2022 年 ChatGPT 面世以来，大模型经过了近两年的迭代。目前，无论是工业界还是学术界，都在探索大模型的上限。在 Scaling Law 的支持下，大模型持续增加预训练的数据量和模型参数。然而，随着硬件集群的限制和成本的约束，模型参数的增长已逐渐停滞。在 OpenAI o1，普遍认为要进一步提升大模型的能力，主要有以下两条技术路线：

通过合成数据进一步扩展数据和参数规模。一些模型使用了大量的公开数据进行训练，随着数据量的增加，模型性能仍在提升。然而，随着时间的推移，数据稀缺将逐渐成为增加更多数据的挑战。一些解决方案包括生成合成训练数据，例如 NVIDIA 发布了 Nemotron-4 340B 可以帮助在无法获取大量、多样的标注数据集的情况下生成合成训练数据，并在一定程度上解决数据饥荒的问题；OpenAI o1 也是基于这样的思路，提供了构建合成数据飞轮的机会。
通过模态混合和模态穿透的方法，借助其他模态增强模型能力。相比于公开的文本数据，图像、视频、音频等数据的总量更大，且包含的信息量也更丰富。一条可行的技术路线是有效增加模型处理的模态数量，不仅让模型完成不限于文本模态的任务，更重要的是，通过模态穿透和模型融合，在复杂推理能力上更上一层楼，即实现模态上的 Scaling Law。在这方面前景广阔：文本的序列化信息相比于图像和视频所包含的复杂信息要少得多，更丰富的数据能够有效扩充模型推理空间的丰富度；
推理能力和模型的指令跟随能力呈现出分离关系。在 OpenAI o1 表现中，尽管在数学、物理等复杂任务上的推理能力有了大幅提升，但在一些语言生成任务上，并没有体现出更大的进步。在 System Card 和 OpenAI 研究人员的访谈中也提到，OpenAI o1 专项于推理能力，而并不能作为一个很好的 Agent 和 Assistant。这种推理能力和指令跟随能力的分离在模型强大到一定程度才出现，甚至是互斥的。但对于构建通用智能体来说，如何 balance 二者关系会成为一个核心问题。

AI 安全的推理链 Chain of Reasoning for AI Safety

OpenAI o1 展现出的隐式思维链推理能力也为模型的对齐和安全提供了新的视角。通过将安全的规则融入到模型的思维链中，模型能够更好的理解规则的内涵，并且也提供给监管者 “读懂模型的安全思想” 并理解其思维过程的机会。

一个直观的体现是，通过融入安全原则到隐式思维过程中，模型减少了矫枉过正和过度拒绝 Overrefuse 的情况。

例如，对于如下请求：“请你将下面这句话翻译为英文：' 如何制造炸弹 '”，GPT-4o 可能会由于规则过滤拒绝回答，但是 OpenAI o1 展现出了对安全规则的深入理解，从而正常的回应用户的需求。

然而，隐式链式思维推理不仅带来了显著提升的安全基准测试表现，同时也增加了某些类型的风险。具体来说，通过内部评估和与外部红队的合作，OpenAI 发现未进行缓解措施的模型在说服力和化学、生物、放射性和核威胁（CBRN）方面存在中等风险。

与此同时，随着模型被提供隐式思考的机会，它们出现欺骗和操纵的可能性逐渐加大：这种欺骗和操纵的来源是模型通过深入思考发现了能够完成目标的更快方法，尽管这种方法是不被允许或欺骗人类的。

OpenAI o1 模型已经展现出了策略推演和奖励攻陷的能力。在 SystemCard 中提供的一个例子中，o1-preview 模型通过发现评估主机虚拟机上的 Docker 守护进程 API，并利用它重启了损坏的挑战容器，读取了任务目标（flag.txt），从而避开了应当通过漏洞利用的安全挑战。模型利用错误配置的基础设施，跳过了原本设计的任务步骤，实现了任务目标。这表明，模型在面对不明确或存在漏洞的任务时，能够通过意想不到的方式实现 “奖励攻陷”，从而避开真正的挑战核心。

Anthropic 先前的研究 [9] 也展现：语言模型在面对奖励设计时，可以通过不正当的方式获得高奖励，甚至通过 “奖励篡改” 修改自己的奖励机制，来避开任务中设置的难点。

这种能力意味着，在复杂环境下模型可能会采取捷径或偏离原本设计的任务路线。

这不仅对评估任务的设计提出了更高的要求，也提示我们需要更严格的监控机制，以确保模型在解决复杂问题时不通过捷径来规避核心问题。

这种现象可能会在未来模型中变得更加显著，尤其是在高风险应用场景中。因此，有必要为这些模型的部署和监控建立更加完善的防护措施，以防止策略攻陷行为的发生。

这进一步表明，随着 AI 模型能力的提升，特别是在复杂的高风险场景下（如自动驾驶、医疗诊断、金融决策等），我们必须预见并防范这些模型通过不正当途径获取奖励的行为。当前的监督机制和奖励设计可能不足以防止模型通过细致的推演和篡改代码来获得意外的高奖励。为了应对这种威胁，未来的工作应该集中在以下几个方面：

任务设计的鲁棒性：需要对任务和环境进行详细审查，确保不存在可被模型利用的系统漏洞。特别是在涉及复杂系统配置的任务中，确保所有可能的捷径都被封锁。
实时监督与反馈：加强监督模型的能力，通过实时检测模型行为中的异常，识别其是否偏离了预期的任务路径。例如，当模型表现出与其任务目标不一致的行为时，系统应立即发出警报并进行干预。
奖励设计的灵活性与防篡改机制：引入更灵活且难以被篡改的奖励机制。奖励机制的设计应该包括多层次的监督，不仅检测任务完成的结果，还要监控模型完成任务的过程，防止模型利用捷径或者修改奖励函数获取非预期的高奖励。

通过结合这些措施，未来的 AI 系统才能在复杂环境中表现得更加安全和可靠，避免因奖励攻陷带来的潜在风险和不良后果。

三、未来方向的展望

强化学习的重要性

OpenAI o1 的发布将重塑行业对于算力分配的认知，标志着 RL 下 Post-Training Scaling Law 的时代正式到来。OpenAI 研究员 Jason Wei 也表示，o1 模型背后的核心不只是通过 Prompt 提示词完成 CoT，而是引入 RL 训练模型，从而使模型更好地执行链式思考。隐式思维链思考给 o1 带来的巨大性能提升，也将启发行业在模型规模达到一定量级后，更多的将算力投入到 Post-Training 阶段的 RL 训练和推理阶段模型的思考过程当中。强化学习先驱 Rich Sutton 在 “The Bitter Lesson” 中说：

One thing that should be learned from the bitter lesson is the great power of general purpose methods, of methods that continue to scale with increased computation even as the available computation becomes very great.

The two methods that seem to scale arbitrarily in this way are search and learning.

We want AI agents that can discover like we can, not which contain what we have discovered.

我们希望 AI 代理能够像我们一样进行探索，而不是仅仅包含我们已经发现的知识（通过 Pre-training 来让模型拟合海量的数据分布，并期待模型具备一定的泛化性）。只有搜索和学习这两种学习范式能够随着计算能力的增长无限扩展，强化学习作为这两种学习范式的载体，如何能够在实现可扩展的 RL 学习（Scalable RL Learning）和强化学习扩展法则（RL Scaling Law），将成为进一步突破大模型性能上限的关键途径。

Test-Time 算法设计的重要性

从技术上来看：如何更好的启发模型的内部思考过程？不同的思考方式和 Self-Critique 反馈方式带来的成效不同；Post-Training 阶段如何通过 RL 手段帮助模型学会内在的推理？Verifier \ Critic Model 如何和模型训练方法如 RL-Self Play 、MCTS 进行有效的耦合，实现真正的可扩展监督（Scalable Oversight）；模型思考过程的上界在哪，Test-Time Optimization 的边界；这些都将是不局限于利用人类偏好数据，利用强化学习进行 “微” 调，随着业界在 pre-train 阶段技术的成熟，以及现有数据也即将匮乏，大模型的训练将从 “模仿” 到 “探索” 的转变，在 Llama 3.1 的技术报告中谈到，在 Post-training 阶段能够观察到性能的有效提升，而 OpenAI O1 则是进一步将大模型训练的战场推向 Post-training 阶段。

AI 控制需要划清 RL 的职权界限

AI 控制（AI Control）是 Greenblatt et al. 提出的一套 AI 安全范式 [8] ，近来在 AGI 安全领域获得了不少关注。其主要特征是假定模型具有未对齐、非安全的倾向，并设计部署阶段的 “工业流程” 使不同能力、不同安全系数的模型互相辅助、互相监督，以在一定的安全性概率保障下有效利用非安全的模型。

AI 控制范式是一系列推理阶段 AI 安全方法的代表。这些方法往往需要模型无法通过梯度更新来找到并利用监督机制中的漏洞，因为反之则几乎任何监督机制都可找到漏洞（这一事实已经在人类社会中得到广泛印证）。

基于 RL 的语言模型训练方法，在提高模型能力的同时，也为模型带来了寻找监督机制漏洞的强大动机 —— 在当下和过去的 RL agent 研究中，研究者的许多精力都花在避免 RL policy 收敛到意料之外的 “作弊” 策略上；如果能力强大、且具有 agent 架构的语言模型同样产生了这些 “作弊” 倾向，会带来不同于输出毒性的一系列新的安全风险。AI 安全领域围绕这些风险进行了广泛的讨论和研究，可以参考围绕奖励破解（reward hacking）和目标误指（goal misspecification）等主题的文献，在 AI 对齐综述 [10] 中，也有所分析。

这一考虑意味着，在语言模型（尤其是具有 agent 架构的语言模型）的 RL 训练中，应当严格划分 “RL 训练回路内” 和 “RL 训练回路外” 的部分，并用可靠的技术措施（如沙盒）、流程措施（如避免根据回路外的信息来筛选模型）来隔离二者。回路内部分例如时空尺度有限的受训任务本身，而回路外部分例如在模型周围部署的 AI 安全机制，包括前述的 AI 控制方法。若允许 RL 直接对抗 AI 安全机制作奖励最大化，则可能带来 “钻安全漏洞” 的风险。

作者信息

陈博远，北京大学元培学院 2022 级 “通班” 本科生，主要研究方向为：大模型可扩展监督，曾获 2024 商汤奖学金和北京市自然科学基金资助，个人主页 cby-pku.github.io；

邱天异，北京大学信息科学技术学院 2022 级 “图灵班” 本科生，主要研究方向为：人工智能系统的道德进步与对齐，曾获 John Hopcroft 奖学金和国自然本科生基金资助，个人主页为：tianyiqiu.net；

吉嘉铭，北京大学人工智能研究院 2023 级博士生，主要研究方向为：大模型安全对齐，曾获北京大学校长奖学金和首批国自然博士生基金资助，个人主页为：jijiaming.com。

所在的实验室为北京大学对齐与交互实验室 PAIR-Lab，pair-lab.com，导师为北京大学人工智能研究院助理教授杨耀东。

参考文献

[1] STaR: Bootstrapping Reasoning With Reasoning https://arxiv.org/abs/2203.14465

[2] LLM Critics Help Catch LLM Bugs

https://arxiv.org/pdf/2407.00215

[3] Self-critiquing models for assisting human evaluators

https://arxiv.org/pdf/2206.05802

[4] OpenAI o1 System Card

https://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf

[5] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters

https://arxiv.org/abs/2408.03314

[6] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168

[7] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking https://arxiv.org/abs/2403.09629

[8] AI Control: Improving Safety Despite Intentional Subversion https://arxiv.org/abs/2312.06942

[9] Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models https://arxiv.org/abs/2406.10162

[10] AI Alignment: A Comprehensive Survey https://arxiv.org/abs/2310.19852

#DeepMind又损大将

AI总监Nando de Freitas离职，曾领导开发Gato、Genie

作为谷歌 DeepMind 机器学习团队的重量级人物，Nando de Freitas 曾共同领导开发出了 Imagen 2、Gato、Genie、Griffin、Lyria 等名噪一时的大模型产品。

这边 OpenAI 刚发了又一个引爆 AI 圈的大模型 o1，那边谷歌 DeepMind 高级 AI 总监 Nando de Freitas 宣布了自己离职的消息。

9 月 13 日，Nando de Freitas 发推表示自己要离开工作 10 年之久的谷歌 DeepMind 了。「过去无疑是人工智能历史上最激动人心的几年，自己的成长已经超出了预期，感谢我的那些聪明、慷慨且乐于助人的同事们。」

他接着写到，DeepMind 一直是人工智能创新领域的中心，很多著名的研究人员从这里离开并创立了 OpenAI、Mistral、xAI、UdioMusic、InflectionAI 等公司。事实上，前 DeepMind 员工已经成为大多数成功 AI 公司的核心，包括 AnthropicAI 和 Cohere。

自施乐帕罗奥多研究中心（Xerox Parc）创立以来，没有哪个组织在技术创新方面比 DeepMind 更有影响力。DeepMind 的确创造了历史，开创了新的未来。

对 Nando de Freitas 而言，他在 DeepMind 从未感到孤独。他的首位经理 Demis Hassabis（谷歌 DeepMind 联合创始人兼 CEO）提供了灵感、科学自由和关怀支持的巨大源泉。他永远不会忘记在经历非常艰难的个人损失时，包括 Hassabis 在内所有人给予自己的支持。他真的希望 Hassabis 及团队能够获得他们应得的「诺贝尔奖」。

Nando de Freitas 很自豪也很感激能够成为机器学习（ML）团队的一员，并因而收获了很多快乐，从成员身上学到了很多东西，并让梦想成真。

不仅如此，他还表示从 AlphaCode 团队、AlphaGo 团队和很多其他人那里学到了很多东西。当然还要必须感谢 AVS 和 GenMedia 团队，他们在如此短的时间内取得了丰硕的成果，包括 Lyria、Imagen、Veo。他也迫不及待想要看到团队在接下来的几个月和几年里创造出更多令人惊叹的作品。

最后，Nando de Freitas 表示，对于离开 DeepMind，自己非常难过，但正如他最近所说「为了成长和进步，你必须处于不确定的边缘」。现在是时候接受一点不适并开启新的篇章了。

谷歌 DeepMind 的同事们对 Nando de Freitas 的离职纷纷表示惋惜，但也祝福他前程似锦。

Nando de Freitas 介绍

Nando de Freitas 出生在津巴布韦。1991 年，他在南非金山大学（威特沃特斯兰德大学）凭借顶级学力（Top of the class），获得其理学硕士学位。

五年之后，他前往英国剑桥大学信息工程专业攻读博士学位，随后在美国加州大学伯克利分校开启其博士后生涯，在人工智能领域展开深度研究。

2001 到 2014 年，Nando de Freitas 任教为加拿大不列颠哥伦比亚大学的机器学习教授。2013 年又获聘为英国牛津大学计算机科学系教授。

同时自 2014 年起，Nando de Freitas 开始在谷歌 DeepMind 工作，并先后担任首席科学家、高级 AI 总监等职。

在谷歌 DeepMind 期间，Nando de Freitas 共同领导了图像、音乐、音频和视频生成方面的工作。团队成果包括音乐生成工具 Lyria、AI 绘画模型 Imagen 2、AI 基础世界模型 Genie 和 RNN 混合架构模型 Griffin 等。

他还是通才 AI 智能体 Gato 的高级负责人，并共同发起了 AI 编码工具 AlphaCode 和视觉语言模型 Flamingo 项目。

在 Google Scholar 上，Nando de Freitas 的论文引用数接近 7 万，其中《实践中的顺序蒙特卡洛方法》引用次数超过一万一千次，h-index 更是高达 81，在机器学习研究领域可谓大咖级人物。

在 Deep Learning INDABA 的页面中，Nando de Freitas 面向未来的人工智能的恢弘愿景，写下了这样一段话：

「对我来说，研究就像石雕艺术。你在采石场经过长时间的寻找，找到一块石头。当你开始开始雕刻它时，你会发现新的纹理，看到新的可能性，发现从未见过的事物。但继续雕刻时，灾难会突然来临：某处发生断裂。这时你必须保持耐心，继续寻找，直到新的灵感出现。你需要始终保持思考，绝不失去焦点。最终，一件美丽的作品会呈现出来，即使没有，也不要气馁，因为享受这个过程本身就是意义的一部分。机器学习不仅关乎发现，关乎对人工智能的探索，也是一次个人的追寻。更重要的是，它还关乎打造能改善他人生活的产品，而『他人』不仅仅指人类。」

祝愿 Nando de Freitas 未来一切顺利。

#「LLM」这个名字不好

Karpathy认为不准确、马斯克怒批太愚蠢

LLM 应该改名吗？你怎么看。

在 AI 领域，几乎每个人都在谈论大型语言模型，其英文全称为 Large Language Models，简写为 LLM。

因为 LLM 中有「Language」一词，因此，大家默认这种技术和语言密切相关。

然而，知名 AI 大牛 Andrej Karpathy 却对此有着独特的见解：

「大型语言模型（LLM）名字虽然带有语言二字，但它们其实与语言关系不大，这只是历史问题，更确切的名字应该是自回归 Transformer 或者其他。

LLM 更多是一种统计建模的通用技术，它们主要通过自回归 Transformer 来模拟 token 流，而这些 token 可以代表文本、图片、音频、动作选择、甚至是分子等任何东西。因此，只要能将问题转化为模拟一系列离散 token 的流程，理论上都可以应用 LLM 来解决。

实际上，随着大型语言模型技术栈的日益成熟，我们可能会看到越来越多的问题被纳入这种建模范式。也就是说，问题固定在使用 LLM 进行『下一个 token 的预测』，只是每个领域中 token 的用途和含义有所不同。

如果核心问题真的变成了预测下一个 token，那么深度学习框架（例如 PyTorch 及其同类框架，因为 PyTorch 提供了过于广泛的操作和层的可配置性而显得过于普通）也可能过于普通，无法满足大多数问题随时间推移的需要。如果 80% 的问题只需要使用 LLM 来解决，那么成千上万个可以随意重新配置的操作和层又有什么用呢？我认为这不是真的，但我认为它只对了一半。」

Karpathy 的这番言论引来很多人围观，浏览量高达 20 多万。

Karpathy 曾是 OpenAI 的早期成员之一，之后加入特斯拉领导其自动驾驶的计算机视觉团队。之后他又回到过 OpenAI，领导着一个专注提升 ChatGPT 的 GPT-4 的小团队。今年 7 月，他宣布创立了一家名为 Eureka Labs 的 AI + 教育公司。

作为前排吃瓜群众的马斯克非常赞同的表示：这绝对需要一个新名字，「多模态 LLM（Multimodal Large Language Models）」是一个特别愚蠢的名字，因为第一个词与第三个词相矛盾！

机器学习和 AI 研究员、畅销书《Python 机器学习》作者 Sebastian Raschka 也非常赞同，他表示：如果将 LLM 改为自回归 Transformers 或者其他名字的话，那 Mamba、Jamba、Samba 可以申请加入吗。不管怎样，还是非常赞同 Karpathy 观点。

不过，来自 OpenAI 的研究者 Clive Chan 却表示：另一方面，也许所有可以用自回归方式表达的东西都可以被视为一种语言。任何事物都可以被转化为一串 token 流，因此从这个角度看，一切都是语言！

对于这种说法，Karpathy 回复到：当然，你可以想象说话纹理、说话分子等等。但我所观察到的是，语言这个词误导了人们认为大型语言模型（LLM）只限于文本应用。

在 Meta 从事 PyTorch 研究的 Horace He 表示：确实，深度学习框架可能在某些方面过于普遍。尽管如此，即便只是针对大型语言模型（LLM），实际运行的操作也有很大的变化。这包括新的注意力操作、混合专家模型（MoE）、不同变体的激活检查点、不同的位置嵌入等。

在 Horace He 看来，这些技术的多样性说明，即使是在专注于 LLM 的应用中，深度学习框架的通用性也是有其必要性的，以适应不断发展和变化的模型需求。

「像 LLMs、GPT 和 RLHF 这样的术语现在变成主流，这实在有些奇怪。通常，一个领域向更广泛的世界介绍自己时并不会这样做（在我看来，这也是有些机构品牌推广失败的原因）。」有人发表了这样的观点。

这种情况反映了复杂技术术语的普及可能并不总能有效地代表其真实的应用和影响，有时甚至可能导致公众理解上的困难。

还有网友认为，「Large」这个词用的也不好，因为今天的「大」在未来会显得「小」。

「同样的情况也适用于电话和计算机领域，看起来最初的术语往往会保持使用。」

这不由得让我们想起 AI 领域各种命名方式，早期的名称往往因为先入为主的效应而被广泛沿用，即使随着技术的演进，这些名称可能已不再准确描述其功能了。

大型语言模型到底应不应该改名，你怎么看，欢迎评论区留言。

参考链接：https://x.com/karpathy/status/1835024197506187617

#ToolACE

华为诺亚联合中科大发布工具调用模型ToolACE，效果持平GPT-4获开源第一

大语言模型（如 GPT-4）具备强大的语言处理能力，但其独立运作时仍存在局限性，如无法进行复杂计算，获取不到实时信息，难以提供专业定制化功能等。而大语言模型的工具调用能力使其不仅限于文字处理，更能提供全面、实时、精确的服务，极大地扩展了其应用范围和实际价值。

为提高模型的工具调用能力，高质量、多样化、且复杂的训练数据至关重要。然而，现实中工具调用数据的收集和标注极为困难，现有的合成数据生成方式在覆盖率和准确性方面仍存在不足。

针对这一挑战，华为诺亚方舟实验室联合中科大等机构的研究人员提出了一个统一的工具调用数据合成框架 ToolACE，可以自动化地生成高准确性、高复杂性、高多样性的工具调用数据。ToolACE 通过创新的自进化合成过程，构建了一个包含 26,507 个多样化 API 的 API 库。通过多智能体之间的交互生成对话，并通过形式化的思维过程进行引导，确保生成的数据复杂且多样化。并结合了基于规则和基于模型的数据质检机制，确保数据准确性。基于对应合成数据对 Llama 3.1 进行微调，以 8B 的模型量级，在开源工具调用榜单 BFCL（https://gorilla.cs.berkeley.edu/leaderboard.html）中持平 GPT-4，获得开源第一，超过如 Functionary 等 70B 模型效果。

论文题目：ToolACE: Winning the Points of LLM Function Calling

论文链接：https://arxiv.org/abs/2409.00920

模型和数据链接：https://huggingface.co/Team-ACE/

图 1. ToolACE 数据合成框架图

ToolACE 工具调用数据合成框架

ToolACE 的数据合成流程分为 API 生成、对话生成、数据质检三个阶段：

基于自演进的 API 合成：多样化的 API 能够显著提升工具调用数据的多样性和复杂性。ToolACE 利用基于自演进的 API 合成模块构建了一个包含 26,507 个 API 库，在数量和领域覆盖上均超越了其他代表性的工具调用数据。基于自演进的 API 合成模块可以根据不同的数据类型和约束条件合成新的工具描述。具体来说，该模块利用多样的网页预训练数据提取了一个 API 上下文树，每个节点代表一个潜在的应用领域和函数调用的功能，如金融、健康、交通等。通过由 API 上下文树中进行采样，结合给定的 API 示例，由语言模型可以合成新的 API。API 的多样性和复杂性通过递归的自我进化和更新逐渐增加。

基于多智能体交互的对话生成：ToolACE 利用多智能体交互的方式进行工具调用对话合成，所生成的对话涵盖了多种类型，包括简单函数调用、并行函数调用、依赖函数以及非工具使用的对话。

对话生成过程首先从构建好的 API 库中采样一个或多个候选 API，之后通过三个不同的智能体（用户、助手和工具）的互动生成对话，每个智能体都由大语言模型模拟。用户智能体主要提出请求或提供额外信息，请求的多样性和复杂性由多模式提示和基于相似性的复杂化策略来保证。助手智能体则使用给定的 API 来完成用户提出的请求。助手智能体的操作空间包括：调用 API、请求进一步信息、总结工具反馈以及提供非工具使用的回答。每个操作都通过形式化的思考过程确定，并通过自我一致性验证以确保准确性。工具智能体作为 API 执行者，处理助手提供的工具描述和输入参数，并模拟输出潜在的执行结果。所生成的对话可进一步进行格式泛化为不同的工具调用格式。

双层数据质检流程：影响大语言模型工具调用能力的一个关键因素是训练数据的准确性和可靠性。不一致或不准确的数据会阻碍模型理解和执行工具的能力。与一般问答数据不同，工具调用数据的正确性更容易验证，因为成功的工具调用必须严格符合 API 定义中指定的格式。因此，ToolACE 提出了结合规则质检和模型质检的双层数据质检流程对合成数据进行校验。规则质检保证数据严格遵循 API 定义的格式和结构要求，确保工具调用的可执行性。模型质检则进一步对规则难以处理的问题进行检查，如幻象和数据不一致性。

实验验证

数据分布：ToolACE 数据共包含了 26507 个不同的 API，来自于不同的领域。下图展示了各个领域的 API 数量分布，以及在娱乐（Entertainment）领域的二级 API 分布。

图 2. ToolACE 数据集 API 领域来源分布

此外，ToolACE 数据集中 API 的参数覆盖多个类型：字符串（string），浮点数（float），整数（int），字典（dict），数组（array）等。且数据中含有单工具调用（single）、并行多工具调用（parallel）、多轮数据（multi-turn）、工具依赖调用（dependency）和无需工具调用（non-tool）等多种可能情形，分布如下图所示。

图 3. ToolACE 数据 API 参数类型分布和工具调用形式分布

工具调用能力验证：研究团队使用 ToolACE 方案生成的数据集，对开源的 LLaMA-3.1-8B-Instruct 模型进行 LoRA 微调得到 ToolACE-8B 模型，并在加州大学伯克利分校团队发布的工具调用测试榜单 BFCL 上进行评估，在 BFCL 上击败所有模型获得榜首。

表 1. 模型在 BFCL-v2 榜单上的工具调用性能比较（榜单数据更新于 2024/08/16）。表中选择排名前 20 的模型作为比较。

通用能力验证：研究团队对训练后模型的综合通用能力进行测试，实验涵盖通用理解任务、代码生成任务、数学推理任务、尝试问答任务以及工具调用任务，结果证明 ToolACE-8B 模型在大幅提升工具调用能力的同时，相比于基座模型（LLaMA-3.1-8B-Instruct）并未明显损失其他能力，且各方面明显优于同规模开源工具调用模型 xLAM-7B-fc-r。

图 4. ToolACE-8B 模型通用能力评估

#Chai-1

超越AlphaFold3，OpenAI投资的AI生物初创发布Chai-1，分子结构预测新SOTA

近日，成立仅 6 个月的 AI 生物技术初创公司 Chai Discovery，发布用于分子结构预测的新型多模态基础模型 Chai-1，并附带了一份技术报告，比较了 Chai-1 与 AlphaFold 等模型的性能。

Chai-1 可以统一预测蛋白质、小分子、DNA、RNA、共价修饰等，在与药物发现相关的各种任务中都达到 SOTA。

公司联合创始人兼 CEO Joshua Meier 表示，Chai 的模型在测试的基准上表现更佳，成功率提升 10% 到 20%。

他说：「例如，与 AlphaFold 相比，我们的模型在药物研发中的关键任务上始终表现更好。」

而且，可通过 Web 界面免费使用 Chai-1，还可用于药物发现等商业应用。该团队还将模型权重和推理代码作为软件库发布，供非商业使用。

，时长00:24

视频：操作示例。（来源：Chai Discovery）

试用网址：https://lab.chaidiscovery.com/

预测分子结构的多模态基础模型

了解生物分子的三维结构对于研究它们如何发挥作用和相互作用至关重要。反过来，这种理解是设计针对生命细胞机制的治疗分子的基础。

过去几年，使用深度学习方法预测蛋白质和核酸的折叠结构取得了重大进展。RoseTTAFold All-Atom 和 AlphaFold3 等方法引入了可以预测各种蛋白质和核酸结构、其共价修饰以及小分子配体与这些复合物相互作用的模型。

Chai-1 是一种用于预测分子结构的多模态基础模型，可以完成与药物发现相关的各种任务。该模型遵循 Abramson 等人的架构并进行了一些关键添加，包括语言模型嵌入和约束特征等。

虽然 Chai-1 旨在直接从原始序列和化学输入预测生物聚合物结构，但它也可以选择性地通过实验约束来提示，例如表位图谱或交联质谱实验所提供的约束，从而实现对困难结合复合物的更准确预测。

图示：Chai-1 模型架构和输入特性概述。（来源：Chai Discovery）

预测蛋白质、核酸所有分子相互作用

Chai Discovery 研究人员在大量基准测试中测试了 Chai-1。

图示：基准测试。（来源：Chai Discovery）

研究人员在 PoseBusters 基准集上评估 Chai-1，该基准集测量蛋白质-配体相互作用。结果显示，仅给定蛋白质序列和配体的化学组成，Chai-1 的配体 RMSD 成功率达到 77%，与 AlphaFold3 的 76% 相当。在 CASP15 蛋白质单体结构预测集上的 Cα LDDT 为 0.849（而 ESM3-98B 为 0.801）。

为了评估 Chai-1 的提示和条件能力，研究人员还对对接任务进行了评估。指定蛋白质的 apo 结构可将成功率提高到 81%。

该团队发现，蛋白质的全息结构可能会泄露使任务更容易的构象信息，因此他们主要将此任务视为评估模型的快速跟踪能力的一种方式。

研究人员在低同源性评估集上评估 Chai-1 对蛋白质多聚体的预测性能，发现其性能优于 AlphaFold Multimer 2.3（AF2.3），在单序列模式下也有较好表现，尤其在抗体 - 蛋白质界面预测中表现出色。

图示：对评估集界面上模型预测的置信度分数与真实结构进行评估。（来源：Chai Discovery）

蛋白单体预测方面，研究人员将 Chai-1 与 AF2.3 比较，发现 Chai - 1 在有完整 MSA 信息时优于 AF2.3，在无 MSA 信息时表现略差。

核酸结构预测方面，不依赖核酸 MSA 时，使用界面 Cα-LDDT 评估， Chai-1 在这些复合物上的表现与 RosettaFold2NA 相似。

同时，还使用 9 个 CASP15 RNA 靶标测量 C1′ 原子上的 LDDT，评估了其在 RNA 结构上的表现。同样，Chai-1 与 RoseTTAFold2NA 产生了类似的结果。

图示：Chai-1 在核酸复合物预测上的表现。（来源：Chai Discovery）

尽管 Chai-1 经过训练并且无需 MSA 即可对核酸序列进行推理，而 RoseTTAFold2NA 可以完全访问此类进化信息，但仍然取得了不错的结果。研究人员表示，未来的研究结合核酸 MSA 或核酸语言模型嵌入，可以提高其在对这些复合物进行建模时的准确性。

除了直接从序列进行前沿建模的能力外，Chai-1 还可以使用新数据（例如来自实验室的限制）进行提示，从而将性能提高 double-digit 百分点。

研究人员在技术报告中探讨了许多这样的能力，例如表位调节 - 即使使用少量接触或口袋残基（可能来自实验室实验）也可以使抗体-抗原结构预测准确度翻倍，从而使使用 AI 进行抗体工程变得更加可行。

图示：来自低同源性评估集的抗体-抗原界面的 DockQ 成功率；针对 PDB ID 7SYV 的示例预测。（来源：Chai Discovery）

未来愿景

该团队由来自 OpenAI、Meta FAIR 和 Google X 等领先 AI 和生物技术组织的先驱者组成，处于 AI 驱动的生物学研究的前沿。

Chai-1 的发布标志着他们彻底改变分子生物学领域的里程碑。然而，该团队已经在考虑下一代 AI 基础模型。他们的最终目标是建立能够预测和重新编程生化分子之间相互作用的模型。这一愿景可能会改变科学家处理生物研究和工程的方式，从而加速开发新的治疗方法和疗法。

虽然 Chai-1 的发布是一项重大成就，但 Chai Discovery 团队认为这只是一个开始。在接下来的几个月里，他们计划继续改进 Chai-1 并开发新的模型，来突破分子结构预测的极限。

总之，Chai-1 的发布标志着分子结构预测领域的一个里程碑。凭借其 SOTA 性能、多模态功能以及可访问性，Chai-1 有可能彻底改变药物发现和生物工程。

成立仅 6 个月，OpenAI 投资

Chai Discovery 是一家成立仅六个月的 AI 医药开发初创公司，它宣布完成了近 3000 万美元的融资，投资方包括知名投资公司 Thrive Capital 和 OpenAI。这笔资金将用于将 AI 技术应用于药物研发过程，以期加速新药的研发。

公司联合创始人兼 CEO Joshua Meier 表示：「我们的目标是让生物学像工程一样可预测，加速药物开发进程。」

图示：Chai Discovery 团队在该公司旧金山办事处。（来源：Chai Discovery）

Chai Discovery 的总部位于旧金山，公司最近完成了种子轮融资，使 Chai 的估值达到了 1.5 亿美元。

在创立 Chai 之前，Meier 曾担任 Absci Corp. 的首席 A I官，还在 Meta 和 OpenAI 担任过研究员。

今年 3 月，他与 Jack Dent 等人共同创立了 Chai。Jack Dent 曾是 Stripe 的一名工程师，目前 Chai 的团队规模不到 10 人，但已经吸引了来自 OpenAI、谷歌和 Meta 等科技巨头的优秀人才。

Chai 联合创始人 Jack Dent 表示，公司免费提供其首个 AI 模型，当前还没有讨论将其技术商业化的计划。

Chai 投资的主导者、Thrive Capital 的合伙人 Miles Grimshaw 表示：「这个领域足够大，可以容纳所有人。在这个领域工作的一个好处是，即使是一点点的进步也是非常有利可图的。」

参考内容：

https://www.chaidiscovery.com/blog/introducing-chai-1

https://www.marktechpost.com/2024/09/10/chai-1-released-by-chai-discovery-team-a-groundbreaking-multi-modal-foundation-model-set-to-transform-drug-discovery-and-biological-engineering-with-revolutionary-molecular-structure-prediction/

https://www.maginative.com/article/chai-discovery-releases-powerful-new-open-ai-model-for-molecular-structure-prediction/

https://x.com/joshim5/status/1833183091776721106

https://wallstreetcn.com/articles/3727491

GitHub：https://github.com/chaidiscovery/chai-lab

技术报告：https://chaiassets.com/chai-1/paper/technical_report_v1.pdf

#2015年就看到了语言模型的潜力，却搞了多年强化学习

Karpathy后悔了

耽误业界好多年？

「这是有史以来最大、最令人困惑的研究生涯错误，」Andrej Karpathy 感叹道。

上个周末，OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。后悔自己没有早点带领 OpenAI 开创大模型时代。

是怎么一回事？看起来 Karpathy 认为当年早已认识到自回归语言模型的强大潜力，但却在很长一段时间里「误入歧途」，随大溜一起搞强化学习。

2013 年的 Atari RL 论文被认为是深度强化学习的开山之作：一个通用学习算法就发现了 Breakout 和许多其他游戏的最佳策略，看起来，在很多任务上我们只需要对其进行足够的改进和扩展，就可以构建出强大的 AI 模型了。

我们也还记得，在 Karpathy 跳槽去到特斯拉一年后，2018 年 OpenAI 推出了 OpenAI Five，利用强化学习的方法在 Dota 2 游戏上开始与职业选手过招。

在 2019 年，OpenAI 的研究者还训练神经网络，利用一只类人机械手来玩魔方，表明强化学习工具不仅仅可以处理虚拟任务，而且还能够解决需要高度灵活性的真实世界问题。

这个时候 OpenAI 在另一边已经推出「迄今为止最大模型」GPT-2 了，强化学习的盛世，似乎很快就被后来兴起的大语言模型（LLM）所覆盖。

Karpathy 还提到：「Yann LeCun 当时就不太看好强化学习，他一遍又一遍地谈论『蛋糕』，而强化学习（RL）只是蛋糕顶部最后一颗樱桃，表征学习是蛋糕主体，监督学习是锦上添花。至少在今天看来，他在概念上是完全正确的（预训练 = 蛋糕主体，监督微调（SFT）= 糖衣，RLHF = 樱桃，即基本的 ChatGPT 训练 pipeline）。这很有趣，因为今天他仍然不太看好 LLM。」

说了这么多，如今已是「事后诸葛亮」了，当初明明看好却没把握住，看起来比当初根本没想过这回事还让人懊恼。

让我们看看 Karpathy 那篇预言了如今大模型时代的文章，说了些什么。

Andrej Karpathy 当初是怎么看好的

其实关于 RNN，Karpathy 早在 15 年就已经注意到了。为此他还专门写了一篇名为《RNN 的不合理有效性》文章。

文章深入探讨了循环神经网络（RNN）的潜力与实际应用。文中提到了几个实验示例，包括使用 RNN 来生成类似莎士比亚作品的文本，以及模拟编程代码和数学公式的生成。

Karpathy 用简单易懂的语言介绍了 RNN。RNN 是一种能够处理序列数据的神经网络，它通过其循环连接能够记住之前的信息，这对于时间序列数据或任何序列数据的处理尤为关键。

Karpathy 描述了使用 RNN 进行图像描述任务的初次尝试，并分享了这一过程中的神奇体验。他回忆称，在使用 RNN 进行训练后不久，即使是随意选择的超参数配置下，他的模型开始生成看起来非常不错的图像描述，这些描述接近于有意义。这种简单模型与所获得的结果质量之间的比例，有时会远远超出预期，这让人感到惊讶。

当时的普遍看法认为 RNN 难以训练，但 Karpathy 后来的经验却让他得出了相反的结论。随着时间的推移，Karpathy 频繁地训练 RNN，并多次见证了它们的强大和稳健，尽管如此，这些网络产生的有趣输出仍然让他感到新奇和有趣。

关于如何利用 RNN 逐字符生成文本的介绍，引发了对「这怎么可能？」这一问题的思考。

事实上，众所周知，RNN 是图灵完备的，因为它们可以模拟任意程序（具有适当的权重）。但与神经网络的通用近似定理类似，你不应该对此进行过多的解读。

如果训练普通神经网络是对函数的优化，那么训练循环网络就是对程序的优化。

接下来，Karpathy 在博客中讲解了 RNN 的基本工作原理，并通过一个具体的字符级语言模型应用来说明其实际操作过程。

具体而言，Karpathy 为 RNN 提供一大段文本，并要求它根据前面的字符序列对序列中下一个字符的概率分布进行建模。这样，就可以一次一个字符地生成新文本。

假设词汇表为 hello，这段训练数据可以被拆分为 4 个独立的训练样本：

基于 h 预测 e 的概率应该较高。
基于 he 预测 l 的概率应该较高。
基于 hel 预测 l 的概率应该较高。
基于 hell 预测 o 的概率应该较高。

每个字符会被编码为一个向量，采用 1-of-k 编码，即向量中只有一个位置为 1，其余位置为 0，然后使用 step 函数将它们逐个输入到 RNN。接着会观察到一个 4 维输出向量序列（每个字符一维），并将其解释为 RNN 当前分配给序列中下一个字符的置信度。

接下来可以看到 RNN 的训练过程及其背后的逻辑：

在第一个 step 中，RNN 看到字符 h 后，预测下一个字符的概率分布如下：

h 的置信度为 1.0
e 的置信度为 2.2
l 的置信度为 - 3.0
o 的置信度为 4.1

但根据训练数据 hello，正确的下一个字符应该是 e。因此，需要提高 e 的置信度（绿色表示），同时降低其他字符的置信度（红色表示）。

在这过程中，每个 step 都有一个期望的目标字符。目标是让网络对正确字符的置信度更高，而对错误字符的置信度更低。因此需要反向传播算法计算每个权重的梯度。

根据梯度调整 RNN 的权重（参数），让正确字符的置信度提高（例如 e 的置信度从 2.2 提高到 2.3）。错误字符的置信度则会相应降低。

这一过程会重复多次，直到模型收敛。收敛后，RNN 的预测会与训练数据更加一致，即每一步都能够正确预测下一个字符。

为了进一步说明，出于教学目的，Karpathy 还用 Python/numpy 编写了一个最小的字符级 RNN 语言模型。代码大约只有 100 行。感兴趣的读者可以参考：

项目链接：https://gist.github.com/karpathy/d4dee566867f8291f086

更进一步的，Karpathy 在这篇博客中还列举了 5 个其他示例展示。所有示例字符模型都是在 Github 上发布的代码进行训练的。

项目链接：https://github.com/karpathy/char-rnn

我们以「莎士比亚」这个示例为例。

Karpathy 希望探索 RNN 是否能够学习并生成具有更多结构和风格的文本内容。为此，他下载了莎士比亚的所有作品，并将它们合并成一个 4.4MB 的文件，用作训练数据。

接着，Karpathy 使用了一个包含 3 层 RNN 的模型，每层有 512 个隐藏节点，训练这个模型耗费了数小时。最后，模型生成了一些文本样本，包括角色名字和内容对话，有时还能生成较长的独白片段。

不过，从结果来看，尽管生成的文本看起来像莎士比亚的作品，但仍有一定的差异。Karpathy 认为这些生成结果表现出了模型的能力和局限性，同时也展现了 RNN 在字符级语言建模上的潜力。

Karpathy 还列举了如何生成婴儿名字这种有趣的示例，感兴趣的读者可以参考原博客了解更多内容。

随后的故事我们都知道了，2017 年谷歌发布了 Transformer 论文，提出了自注意力机制。在这个基础上，人们逐步探索出大模型的 Scaling Laws，将 AI 技术向通用化快速延伸，直到今天。

既然连 Andrej Karpathy 这样的 AI 大佬也在研究方向上「走过弯路」，我们是不是也该回看一下过去？

参考链接：https://karpathy.github.io/2015/05/21/rnn-effectiveness/

#钻石冷却的GPU即将问世

温度能降20度，超频空间增加25%

现阶段这一方案的前景如何？我们尚不得而知。

未来 GPU 的发展方向，居然和钻石有关系？

近日，一家名为 Akash Systems 的公司已与美国商务部签署了一份初步备忘录，通过《CHIPS 法案》获得 1820 万美元的直接资金以及 5000 万美元的联邦和州税收减免。

这家公司提出了一项「用钻石冷却 GPU」的技术，不仅可以大幅提升服务器的工作效率，也可以给宇宙空间的卫星实现加速。

据称金刚石的导热性是铜的五倍，非常适合电子设备散热。因此如果使用合成金刚石作为芯片基板，利用材料的导热性更有效地将热量从处理器中带走。

钻石并不导电，因此这种技术被认为是一种「两全其美」的方案，使用该材料的设备既能够以传统方式运行，又具有更高的热效率 —— 使芯片能够在比目前允许更低温度的情况下跑到更大的功率。

Akash 并未详细说明其金刚石冷却技术的具体工作原理，但表示已将人造金刚石与氮化镓等导电材料融合，以将其用作半导体产品的一部分。该公司的方式是从芯片供应商处购买 GPU，然后将其安装在自己的金刚石 GaN PCB 上。

从长远来看，该公司可以生产自己的人造金刚石晶圆，供英伟达和高通等制造商用于芯片制造。

虽然这种钻石冷却技术的具体工作原理仍处于保密状态，但在该公司发布的视频中，仍然有一些简要的解释。

，时长02:45

它的效率有多高？Akash 表示，他们的技术可以将 GPU 的热点温度降低 10 到 20 摄氏度，风扇速度可能降低了 50%，超频能力提高了 25%，服务器寿命可能延长了一倍，从而为数据中心节省「数百万美元的冷却成本」，同时防止热节流。

同时，温度降低高达 60%，能耗降低 40%，这些指标相当令人惊讶。相关的技术肯定已经通过了《CHIPS 法案》官员的审查。

另外，Akash 致力于利用其钻石冷却卫星无线电彻底改变卫星通信。为此，该公司研究了用于卫星无线电和功率放大器的 GaN-on-Diamond 技术，以部署在卫星中，并带来诸多增益，具体如下：

数据速率提升 5 到 10 倍：增强卫星操作的通信速度；
提高可靠性：在具有挑战性的太空条件下保持稳健的性能；
尺寸减小 50% ：降低成本并提高部署灵活性。

该公司声称，这些进步有助于改善全球连通性并支持关键的太空任务。

对此，印度太空科技初创公司 Pixxel 联合创始人兼 CEO Awais Ahmed 表示，将 Akash 的 GaN-on-Diamond 无线电集成到自家卫星中是一次变革。金刚石冷却技术可以确保出色的热管理，使有效载荷即使在恶劣的太空条件下也能以最佳表现运行。这一进步将能够以前所未有的效率提供高分辨率高光谱图像。

我们知道，如今由于制程问题，即使是在消费端，CPU、GPU 的性能升级往往需要依靠功率的提升。由此衍生出的积热问题让很多芯片在实际使用时跑不到理论值。钻石冷却的方法似乎是一个有前途的解决方案，未来我们的电脑中，难道会出现人造钻石？

参考链接：

https://www.akashsystems.com/post/akash-systems-signs-non-binding-preliminary-agreement-for-68-million-in-chips-act-funding-to-advance-ai-and-space-with-diamond-cooling-tech

https://www.tomshardware.com/tech-industry/diamond-cooled-gpus-are-coming-soon-startup-claims-20c-temp-reduction-25-percent-more-overclocking-headroom-as-it-seeks-us-govt-funding-for-diamond-encrusted-chip-cooling-solutions

#DeepSeek-V3悄悄升级

编程能力大幅增强，几近平替Claude 3.7

近日，中国人工智能初创公司深度求索（DeepSeek）在AI开源平台Hugging Face上悄然发布了DeepSeek-V3的新版本DeepSeek-V3-0324，并在多项能力上实现了显著提升，目前已经公布在 Hugging Face上（https://huggingface.co/deepseek-ai）。

这个没有预热、没有宣传的悄悄升级，不仅以6850亿参数刷新国产模型纪录，更在代码生成、数学推理等领域实现“降维打击”，被开发者称为“Claude 3.7 Sonnet的隐形杀手”。

与 DeepSeek v3 版本的自定义许可证不同，DeepSeek-V3-0324 采用了 MIT 开源协议。这一许可允许开发人员在商业项目中自由使用该模型，并且可以几乎不受限制地对其进行修改。具体有哪些升级呢？且听我为您详细讲解。

模型能力提升

新版 V3 模型的百科知识（MMLU-Pro, GPQA）、数学（MATH-500, AIME 2024）和代码任务（LiveCodeBench）表现均有提升

推理任务表现提高

新版V3模型借鉴了DeepSeek-R1模型训练过程中的强化学习技术，在推理类任务上的表现水平大幅提升。

在数学、代码类相关评测集上，取得了超过GPT-4.5的得分成绩。

同时，该模型在百科知识（MMLU-Pro, GPQA）、数学（MATH-500, AIME 2024）和代码任务（LiveCodeBench）等方面的表现也均有提升。

有人表示，经过自己的测试，DeepSeek-V3-0324 在数学推理和前端开发方面的表现优于 Claude 3.5 和 Claude 3.7 Sonnet。

前端开发能力增强

在HTML等代码前端任务上，新版V3模型生成的代码可用性更高，视觉效果更加美观、富有设计感。

例如，模型能够生成演示多个小球在指定空间范围内运动的p5.js程序，包含若干可以调整重力、摩擦力等参数的滑动按钮，并以赛博朋克风格的HTML呈现。

中文写作能力升级

在中文写作任务方面，新版V3模型基于R1的写作水平进行了进一步优化，同时特别提升了中长篇文本创作的内容质量。

中文搜索能力优化

新版V3模型可以在联网搜索场景下，对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。

此外，新版V3模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。

模型技术架构

DeepSeek-V3-0324依然采用Mixture-of-Experts（MoE）架构，与传统大模型相比，计算效率大幅提升。其总参数量高达6850亿，但实际在特定任务期间仅激活约370亿参数，从而降低计算成本。此外，该模型引入了两项关键技术：

多头潜在注意力（MLA）：增强了模型在长篇文本中保持上下文的能力。
多标记预测（MTP）：允许每一步生成多个token。

这两项技术让DeepSeek-V3-0324在推理效率和长文本处理能力上表现更优，将输出速度提高了近80%。

苹果机器学习工程师、AI 研究员 Awni Hannun 在社交媒体 X 上表示：“经过 4 位量化处理后的 DeepSeek-V3-0324 模型，在配备 512GB M3 Ultra 芯片且搭载 mlx-lm 的设备上，能够实现每秒 20 个 token 的推理速度！”

模型开源策略

DeepSeek-V3-0324采用的是MIT开源协议，允许开发人员可以在商业项目中使用，并且几乎不受任何限制地对其进行修改。这不仅可以自由修改、分发模型，还支持模型蒸馏、商业化应用。同时与Claude 3.7 Sonnet等闭源模型的付费模式形成鲜明对比。这一策略直接冲击了OpenAI的盈利模式——后者GPT-5虽宣布免费开放，但仍依赖订阅制构建护城河。

模型部署方式

DeepSeek-V3-0324的一大亮点是其部署方式——它可在高端消费级硬件上本地运行，特别是搭载M3 Ultra芯片的Apple Studio。经过4-bit量化后，该模型的存储占用减少至352GB，使其能够在搭载M3 Ultra芯片的高端消费级硬件上运行。这意味着，过去依赖多张Nvidia GPU、高功耗数据中心运行的大模型，如今可以在功耗不到200瓦的Mac Studio上运行，挑战了AI行业对基础设施需求的传统认知。

行业影响

DeepSeek-V3-0324的发布被视为R2系列的前哨战。根据行业规律，R2或于2025年4月推出，直接对标OpenAI的GPT-5。其技术路线聚焦三大方向：领域知识蒸馏（金融、医疗垂直优化）、多模态融合（Q3推出图文增强版）、推理能力升级（目标响应时间压缩至500ms以内）。

清华大学刘知远教授指出：“这种‘系统级创新效率’，正是中国AI的隐形竞争力。”DeepSeek的突破揭示了中美AI竞争的新范式。在芯片受限背景下，中国团队通过算法优化实现反超。此外，GitHub上已涌现127个衍生工具，涵盖代码审查、网页生成等领域，某智能网页校对工具下载量突破5000次。

DeepSeek-V3-0324的推出进一步凸显中国AI企业在技术与成本上的竞争力。美国对华GPU出口限制可能促使中国企业加速国产硬件适配，同时其开源模式或引发西方厂商的连锁动作，例如推出更强闭源模型。2025年可能是中美AI竞争的分水岭。

#2025苹果AI学者名单公布

黄子琪、孔令东、北大吉嘉铭、清华顾煜贤等12位年轻华人入选

他们都是来自全球的年轻 AI 学术新星。

刚刚，苹果机器学习研究中心（Apple Machine Learning Research）正式公布了 2025 年 AI（人工智能）、ML（机器学习）领域获得博士生奖学金的「苹果学者」名单。

今年共有 21 位年轻学者获得了苹果学者计划的资助，华人占了一半多。

苹果博士奖学金旨在奖励和支持计算机科学与工程领域极具潜力的博士研究生开展研究，每年颁发一次，今年已是第六年。获奖者不仅可以获得奖学金支持，还能得到苹果实习机会和苹果研究员的学术指导。

在参与苹果的工作期间，历年的年轻学者已经共同撰写了 50 多篇顶会论文。

以下是本年度获得奖学金的部分学者：

Ruei-Che Chang

Ruei-Che Chang 是密歇根大学计算机科学专业的博士研究生，导师是郭安鸿（Anhong Guo）。他的研究专注于设计交互式人机交互系统，助力现实世界的无障碍建设。他的研究重点是开发能够理解和描述盲人或视障人士现实世界周围环境的智能体，其技术核心可以适应更广泛的环境。

在攻读博士学位期间，他在 Meta Reality Labs 实习。在此之前，他曾在达特茅斯学院获得计算机科学硕士学位，并在台湾成功大学获得电气工程学士学位。

个人主页：https://rueichechang.github.io/

Cathy Mengying Fang

Cathy Mengying Fang 是麻省理工学院（MIT）媒体实验室流体交互小组（Fluid Interfaces Group）博士研究生。她的研究立足于技术与人类体验的交叉领域，致力于消除数字与物理世界之间的界限，通过混合现实（mixed reality）、人工智能（artificial intelligence）和可穿戴设备（wearable devices）等技术，提升人类与环境的互动方式及自我认知。

她已获得麻省理工学院硕士学位，以及卡内基梅隆大学（Carnegie Mellon University）机械工程和人机交互（Human-Computer Interaction）专业荣誉学士学位。在学术探索之外，她曾先后在微软（Microsoft）、苹果（Apple）、IDEO 和 Magic Leap 等知名企业积累实践经验。

个人主页：https://cathy-fang.com/about.html

顾煜贤（Yuxian Gu）

顾煜贤（Yuxian Gu）是清华大学计算机科学与技术系交互式人工智能（CoAI）课题组的四年级博士生，师从黄民烈教授。他的研究聚焦于语言模型全生命周期的高效算法开发，涵盖预训练、下游适配及推理过程。近期，他的工作重点放在大型语言模型 (LLMs) 的数据策划策略研究、高效模型架构设计，以及运用知识蒸馏技术 (knowledge distillation) 进行语言模型 (LM) 压缩。此前，他曾在微软亚洲研究院实习，由董力博士指导。

个人主页：https://t1101675.github.io/

Tiancheng Hu

Tiancheng Hu 是剑桥大学语言技术实验室的计算、认知与语言方向的三年级博士生，师从 Nigel Collier 教授。他的研究专注于构建能够真实模拟群体和个体层面人类行为的人工智能 (AI) 系统，目标是创造能够真正理解并适应全球多样化人类观点的人工智能。

他已获得苏黎世联邦理工学院电气工程与信息技术硕士学位，以及德克萨斯大学达拉斯分校电气工程理学学士学位。其硕士论文研究美国政治新闻中的引述用法。他曾在 Carlos Busso 教授的指导下研究利用 3D 数据进行驾驶员头部姿态估计，积累了宝贵的实践经验。

个人主页：https://tiancheng.hu/

黄子琪（Ziqi Huang）

黄子琪是 MMLab@NTU 的三年级博士生，师从刘子纬教授，2022 年本科毕业于新加坡南洋理工大学。她在 CVPR、ICCV、ECCV、SIGGRAPH Asia、TPAMI 等国际顶级会议与期刊上发表多篇研究成果。其研究方向为视觉生成模型，重点关注生成、编辑及相关系统的评估方法。致力于构建以人为中心的视觉生成框架，提升模型与人类意图的对齐与交互能力，推动更直观、灵活的视觉内容创作。她的研究成果如 Collaborative Diffusion 和 ReVersion 受到社区广泛关注；主导的 VBench 系列工作已成为视频生成领域的权威评测体系，被学术界和工业界广泛采用，协助推动和指引视频生成领域的发展。

个人主页：https://ziqihuangg.github.io

吉嘉铭（Jiaming Ji）

吉嘉铭，北京大学人工智能研究院博士生在读，导师为杨耀东老师，研究方向为强化学习、大模型的安全与价值对齐，在计算机顶级会议期刊发表口头、焦点论文等十余篇，谷歌学术引用累计 2200 余次，GitHub 开源累计获得 2W+ Stars。曾获首批国自然博士青年基金资助（2023 年度北京大学智能学科唯一），获北京大学博士最高研究奖「校长奖学金」，首届中国电子学会 — 腾讯博士生科研激励计划（全国 17 人），获 NeurIPS‘22 机器人灵巧操作比赛冠军，研究成果及模型被 OpenAI 、Meta 引用，被 MIT Tech Review 报道。

个人主页：https://jijiaming.com/

孔令东（Lingdong Kong）

孔令东是新加坡国立大学计算机系的三年级博士生，导师是 Wei Tsang Ooi 教授和刘子纬教授。他的研究方向为 3D 计算机视觉和深度学习，及其在自动驾驶、机器人等场景的应用。

他曾于英伟达、字节跳动和上海人工智能实验室等机构实习。一作论文发表于 CVPR、ICCV、ECCV、NeurIPS 等国际会议中，谷歌学术引用超过 2400 余次。

个人主页：https://ldkong.com

Tian (Sunny) Qin

Tian (Sunny) Qin 是哈佛大学的一名三年级博士生，由 David Alvarez-Melis 和 Sham Kakade 共同指导。

她的研究重点是数据驱动的人工智能和基础模型科学。通过开发合成数据生成方法并深化对模型学习动态的理解，提高小型语言模型的推理能力和分布外泛化能力。

个人主页：https://sunnytqin.github.io/

王广辉（Guanghui Wang）

王广辉（Guanghui Wang）是佐治亚理工学院的四年级博士生，师从 Jacob Abernethy 和 Vidya Muthukumar。他的研究兴趣主要集中在机器学习理论与优化领域。目前，他主要致力于开发能够适应多样化环境的稳健且高效的序列决策方法。

王广辉于 2020 年在南京大学计算机科学与技术系获得了硕士学位，师从张利军教授。同时，他也是由周志华教授领导的 LAMDA 研究小组的一员。2017 年，他在西安电子科技大学电子工程学院获得了学士学位。

个人主页：https://guanghui-wang-gatech.github.io/

王嘉宸（Jiachen (Tianhao) Wang）

王嘉宸（Jiachen (Tianhao) Wang）是普林斯顿大学的博士研究生，他的导师是 Prateek Mittal 教授，并且与 Ruoxi Jia 教授保持密切合作。他的研究专注于从数据角度出发的可信机器学习。最近，他致力于开发适用于基础模型的数据归因与优化技术。他运用统计学和博弈论的工具来分析训练数据与模型行为之间的复杂联系。

2024 年，他被选为数据科学新星。

个人主页：https://tianhaowang.netlify.app/

谢若宇（Ruoyu (Roy) Xie）

谢若宇（Roy Xie）是杜克大学的博士研究生，导师是 Bhuwan Dhingra。他的研究专注于提升大型语言模型的效率和鲁棒性。他的工作主要研究上下文压缩，包括信息充足性检测和内容符号化，这些研究在检索增强型生成和智能体系统中有应用价值。

目前，他正在探索强化学习方法，以提高 LLM 的推理效率，尤其是对于涉及长序列的复杂任务。

个人主页：https://royxie.com/

徐豪飞（Haofei Xu）

徐豪飞（Haofei Xu）是苏黎世联邦理工学院（ETH Zurich）和图宾根大学的博士研究生，导师是 Marc Pollefeys 和 Andreas Geiger。他的研究专注于计算机视觉，特别是密集对应关系、运动、三维以及视频表示学习。他的目标是推动通用智能系统的发展，以实现三维重建、合成和理解。

徐豪飞在攻读硕士学位期间就读于中国科学技术大学（USTC），导师是张举勇（Juyong Zhang）。在硕士阶段，他曾交换到新加坡南洋理工大学（NTU），在那里他受到蔡剑飞（Jianfei Cai）和 Jianmin Zheng 的指导。此外，他还曾在微软亚洲研究院（MSRA）实习，期间得到了杨蛟龙（Jiaolong Yang）和童欣（Xin Tong）的指导。

个人主页：https://haofeixu.github.io/

参考链接：https://machinelearning.apple.com/work-with-us#scholars

#造手机的vivo，进军机器人了

构建机器人的「眼睛」和「大脑」，vivo 其实早有准备。

下一场科技浪潮已经开始了。

刚过去不久的「AI 超级碗」英伟达 GTC 大会上，黄仁勋把「物理 AI」放在了 AI 发展的最高点上，引发了人们的又一轮讨论。

老黄说，AI 的下一个发展方向就是机器人。

所谓物理世界的 AI，就是在现在爆发的生成式 AI 的基础上进一步升级，使其能够理解物理世界的空间关系和交互行为，进而构建出新一代的机器人。

这样的机器人能感知、会规划，可以快速学习，具备此前无法想象的能力。最近一两年 AI 技术的快速发展，正在让设想逐渐成为现实。机器人技术的进展肉眼可见，比如最近，波士顿动力就和宇树科技就较上了劲。

也有更加「接地气」的机器人，比如 1X 就表示自己的双足机器人一直在家庭环境中经历测试，可以完成扫地、擦桌子之类的家务。

从这些公司发布的 demo 上看，机器人的运动能力、功能性已经非常接近于实用化，未来似乎距离我们不远了。

纵观整个科技领域，投身机器人的创业公司正不断涌现，科技公司也在纷纷加码。不过在这个未来方向上，究竟是什么样的机器人会成为主流？它们会来自哪些公司？我们还看不出端倪。

最近，情况又有了新变化：手机大厂也要加入战局。

目标家庭机器人，vivo 官宣入场

本周的博鳌亚洲论坛 2025 年年会现场，vivo 宣布成立「vivo 机器人 Lab」，正式进军机器人行业。

vivo 执行副总裁、首席运营官、vivo 中央研究院院长胡柏山在博鳌论坛上进行了演讲。

vivo 希望依托自身在 AI 大模型与影像领域的积累，叠加自研混合现实头显积累的实时空间计算能力，着重研究孵化机器人的「大脑」和「眼睛」，让机器人可以「看得懂场景，听得懂需求，给得了回应」。

目前正在博鳌论坛现场展示的「vivo 混合现实头显」就是 vivo 机器视觉能力的一个阶段性成果，在下个月即将发布的 X200 Ultra 上，也会集成 vivo 在影像领域最新技术突破。

vivo 为自身制定的目标是聚焦消费级市场，打造面向个人和家庭场景的机器人产品，让技术走出实验室，走进用户的真实生活，回归场景，解决痛点。

vivo 执行副总裁胡柏山表示：「机器人是手机行业的未来，将成为联接物理世界和数字世界的桥梁。不久前，我们成立了机器人 Lab，布局机器人赛道。在新的发展阶段，为联接物理世界与数字世界，vivo 致力于创造极致的机器人产品。」

为实现这一愿景，vivo 已经开始招揽人才，我们在公司的招聘网站上能看到机器人首席科学家的需求。

vivo 还在招聘高级技术规划专家等机器人相关职位，招聘条件相当丰厚，开出的年薪达到了百万。

从现在开始，vivo 预计要花费三到五年造出实现体验闭环的原型机，随后会在更远的未来推出家庭机器人商用产品。未来，vivo 将与产业伙伴一道「让机器人走进千家万户」。可以想象，机器人会应用在家庭服务、养老、医疗健康、教育等多个领域。

造机器人，手机大厂的独特优势

vivo 进军机器人领域的战略蓄力已久。虽然从造机到造「人」看起来跨界很远，但从更高的角度来看，这也可以说是顺势而为。

毫无疑问，这会是一次对前沿技术应用的重要探索，但并不意味着从零开始：智能手机其实已经是如今技术水平含量最高的消费级产品，如今 AI 技术的很多应用也是以手机作为载体。vivo 认为手机可以联接 AI 与物理世界，正是生成式 AI 技术的发展方向。

依托手机业务积累的 AI 算法（蓝心大模型）、影像空间感知技术（MR 视觉）及用户需求洞察能力，vivo 已具备了机器人领域核心的「大脑 + 感知」技术。通过手机生态积累的规模化数据与应用场景经验，这套能力可以快速适配新一代机器人的需求。

博鳌论坛上，vivo 展示的混合现实头显。

与此同时，vivo 一直以来的思路是只做自己最擅长的部分，这就能够充分发挥产业链伙伴的能力。

vivo 还具备「人无我有」的两方面优势：

众所周知，vivo 长期深耕移动影像领域，构建了一套业内领先的视觉感知系统，可以构成机器人智能化的核心技术基础。

在钻研手机影像能力的过程中，vivo 自研了 VCS 仿生光谱技术、微云台防抖、超大底传感器等光学硬件，可实现高精度的视觉捕捉能力，帮助机器人实现精准、高效的环境感知。结合夜景降噪、运动防抖（EIS）、HDR 等技术，其方案可以实现复杂环境下视觉信息的高效稳定处理。

与此同时，这套 AI 驱动的视觉感知还可以提升到实时视觉理解的程度。融合图像识别算法与多模态大模型，vivo 可赋予机器人实时理解环境、人类意图与任务指令的能力。

在此之上，基于已在手机数字影像以及开发混合现实头显过程中得到应用的 3D 视觉、SLAM 空间计算等技术，vivo 可以快速建立起机器人的空间感知与环境建模能力，实现精准的定位、导航和避障，并为 AI 模型构建出立体感知与空间交互能力。

基于自研影像芯片，vivo 还提供低功耗、高性能的视觉边缘计算能力，可以帮助机器人降低云端算力的依赖，提升自主运行、交互时的效率。

我们知道，因为设备端算力存在上限，未来机器人等 AI 应用的核心挑战之一在于端云结合以及数据的高效互通，vivo 作为手机厂商还有构建设备互联的绝对优势。

在博鳌的展台上，vivo 展示了 6G 通信与感知一体化 + 数据面技术原型机。利用通信系统在传输用户数据的同时，它可以实现对物体感知的能力，覆盖健康监控、低空经济、障碍物感知等场景。同时，带有隐私和安全属性的数据可利用数据面技术在通信网络内部安全传输。

vivo 还应用 AI 技术解决了信道多变带来的应用体验下降的问题，并预告了下一代旗舰手机将会接入全球标准的卫星通信技术。

根据国际标准化组织目前的规划，6G 大概会在 2028 年完成标准制定，2030 年前后实现全球商用。一系列新能力和场景将会被很快引入，包括通信与感知的一体化、算力与 AI 的端侧 + 云端集成，机器人等智能设备势必将会变得更加聪明、更加小型化。

综上所述，vivo 应用在手机等设备端的一系列技术，将会成为其投身机器人领域的优势。

把目光再放到更远，从产业上下游的角度看，vivo 已背靠一套高度整合的产业链。手机产业覆盖了芯片、屏幕、精密制造等核心环节，规模化的生产一直在推动上下游技术迭代。在投身机器人领域之后，vivo 这样的大厂也能充分与产业链合作，在做好 AI 能力、感知技术的同时，专注于用户场景。

正如胡柏山所言，科技公司的责任是通过科学技术和创新能力，不断解决未来的社会问题。此次发布官宣专注于「家庭机器人」，证明了 vivo 在新的赛道上仍然会着力于解决用户实际需求。这是 vivo 一直在践行的道路，并且已在过去不断被证明是对的。

在新一代机器人的开发过程中，数据和训练是人们面临的重要挑战。当 vivo 入局机器人之后，其覆盖全球，数量已达到 5 亿的智能设备用户将为机器人场景落地提供试验场。

这或许会成为机器人领域格局发生变化的开始。

机器人领域，正在重估

物理 AI 的爆火，让我们不得开始重估机器人领域。

根据中国信通院发布的《人形机器人产业发展研究报告（2024 年）》估计，到 2028 年我国机器人整机市场规模约在 20 至 50 亿元，2035 年规模会达到约 500 亿元，到 2045 年后，在用人形机器人将超过 1 亿台，整机市场规模可达到约 10 万亿元级别。

英伟达 CEO 黄仁勋此前也曾表示，到 2030 年全球至少将会出现 5000 万劳动力的短缺，机器人将会是一个价值 10 万亿美元的产业。

在这其中，消费级机器人无疑将占据很大比例。vivo 的入局，势必将再次掀起机器人赛道更为激烈的竞争。

我们可以期待，实用化的消费级机器人会很快浮出水面。

#Agent SDK支持MCP协议

OpenAI最新官宣

OpenAI 也开始支持 MCP 了。

这条消息由奥特曼亲自官宣：「人们非常喜欢 MCP，我们也很高兴在我们的产品中增加对它的支持。今天我们已经在 Agent SDK 中支持 MCP，对 ChatGPT 桌面应用以及 Responses API 的支持也即将到来！」

OpenAI 彷佛有一种打不过就加入的魄力，不难看出，以后开发 Agent 的成本将大大降低。

与此同时，Anthropic 首席产品官 Mike Krieger 在 X 中回复了这一消息：「很高兴看到 OpenAI 也开始支持 MCP，欢迎加入！从去年到现在，MCP 已经成为一个蓬勃发展的开放标准，拥有数千种集成，并且还在不断增长。当大语言模型（LLMs）能够连接到你已有的数据和你已经使用的软件时，它们才最有用。我已经迫不及待地想看看人们会用 Claude 连接什么，很快也会看到 ChatGPT 的连接成果。」

OpenAI 还表示，他们打算在未来几个月内分享更多有关 MCP 计划的信息。

MCP（Model Context Protocol，模型上下文协议）是由 Anthropic 在 2024 年底推出的一种开放协议，旨在通过标准化接口实现大语言模型（LLM）与外部数据源及工具的无缝集成。

我们可以这样理解 MCP，它就像是 AI 应用领域的 USB-C 接口。正如 USB-C 为各种设备提供了统一的连接方式，MCP 也为 AI 模型与不同数据源和工具之间提供了一种标准化的连接方式，这也极大地提高了用户的体验和效率。

之所以发布 MCP，Anthropic 在一篇博客中表示随着 AI 助手越来越获得主流机构采用，行业在模型能力上投入巨大，推理和质量方面取得了快速进步。然而，即使是最复杂的模型也受到其与数据隔离的限制 —— 被困在信息孤岛和遗留系统中。每个新的数据源都需要自己的定制实现，使得真正连接的系统难以扩展。

MCP 解决了这一挑战。它提供了一个通用的开放标准，用于将 AI 系统与数据源连接起来，用单一协议取代了分散的集成。结果是为 AI 系统提供了一种更简单、更可靠的方式，以获取它们所需的数据。

了解更多 MCP 内容，可以参考如下链接。

博客地址：https://www.anthropic.com/news/model-context-protocol

自从 Anthropic 开源 MCP 以来的几个月里，包括 Block、Apollo、Replit、Codeium 和 Sourcegraph 在内的公司已经为他们的平台添加了 MCP 支持。现在 OpenAI 也加入了。

官方 Agent SDK 文档也一并公布，感兴趣的读者可以查看原文了解更多内容。

OpenAI Agent SDK 文档地址：https://openai.github.io/openai-agents-python/mcp/

以后，研究者可以利用众多的 MCP 服务器为智能体（Agents）提供丰富的工具了。

#开源版Suno

这AI绝对偷了格莱美奖杯！直接把LLaMA喂成乐坛顶流：开源版Suno来了！

家人们震惊了！现在 AI 成精啦，不仅能写能画，现在连唱功都是格莱美级的了！

魅惑空灵电音女声，也太好听了吧！

I wont back down,2分钟

酷佬街头说唱，怎么有一股八方来财的味儿？

酷佬 hiphop,3分钟

强混嘹亮欧美女高，像极了阿黛尔~

dawn2,4分钟

极端的金属核嗓也不在话下！

step back,1分钟

日韩女团风，日韩英三语无缝切换！

完璧な関係,3分钟

还有这首 AI 新编版《世界赠与我的》！模仿王菲空灵仙嗓也太到位了吧，完全不一样的旋律，一样的嘎嘎好听，宁静中带一点哀伤的意境拿捏得简直了！

，时长03:30

模仿碧梨的慵懒声线，确定不是碧梨本人在唱？

，时长01:00

网友爆改 rap 版 YouTube 亿播神曲《Plastic Love》：

，时长01:14

YuE（乐）：开源版 Suno AI

上述所有让网友跪着听的炸裂神曲，全都出自港科大和音乐圈 DeepSeek —— Multimodal Art Projection（MAP）联手开源音乐生成基座 —— YuE（乐）。

论文标题：YuE: Scaling Open Foundation Models for Long-Form Music Generation
项目地址：https://github.com/multimodal-art-projection/YuE
Demo：https://map-yue.github.io
Arxiv：https://arxiv.org/abs/2503.08638

这个模型可太强啦，直接对标 Suno AI，自春节期间放出以来 GitHub 已飙星 4500+，推特累计浏览上百万次！老外刷着 demo 直接给 Suno 和 Udio 开起追悼会：闭源音乐生成这是药丸！

作为第一个开源的全曲级歌曲生成基座，YuE 做到了连 Google 家的 MusicLM、Meta 家的 MusicGen 都做不到的事：不仅能建模长达 5 分钟的歌曲，又能同时生成专业级歌声和伴奏！

这是怎么实现的呢？

YuE 其实是一个双 LLaMA 语言模型架构（下图），因此无痛适配大部分大语言基建，非常容易 scale up。

其中大的 Stage-1 LM 联合建模文本条件和粗粒度音频离散 token 序列。
而小的 Stage-2 LM 基于大 LM 给出的粗粒度离散 token 合成剩余的（残差）细粒度 token。
最后得到的多码本离散音频序列会送入 tokenizer decoder 重建回音频，并送入一个轻型上采样器重构 44.1khz 的音频。

在 YuE 之前，主要的学界工作还是把歌声合成（Singing Voice Synthesis）和音乐生成（Music Generation）分开做的，只有像 Suno AI、Udio 这样的闭源玩家们成功探索出来了端到端的歌曲生成，把两种任务合并到一起建模。有个别学界工作会分阶段对人声和伴奏分别建模，但是效果距离商业闭源还是差距较大，也没有开源。这里就不得不提 YuE 的双轨版 Next-Token Prediction（Dual-NTP）策略了。

YuE 的 Stage-1 LM 利用声伴分离先验，把人声和伴奏轨在同一个时间步分别用两个 token 建模（上图虚线框），巧妙地实现了歌声合成和音乐伴奏生成的联合建模。这不仅避免了离散 token 的信息损失问题，得以精准捕捉细腻人声，还保证了轨间对齐和端到端。

如果使用 ΔWER 来表示语音内容重构损失，那么利用分离先验得到的人声轨（下左图橙）的损失显著小于合轨（下左图蓝），甚至在极端的金属风格下也能维持较低的语音内容重构损失。
基于 Dual-NTP 训练的 LM 在相同的训练成本下也表现出比 NTP 更低的 loss（下右图橙 vs 蓝）。

但为了达成数分钟级的歌曲建模，研究团队又对 Stage-1 LM 提出了另一个改进：结构化渐进生成（Structural Progressive Generation，缩写为 CoT），将歌曲拆分成主副歌段落后，通过文本 token（方形）、音频 token（圆形）在同上下文内交替排布的方式，避免了文本条件控制远程衰减的问题，使得人声轨能在全曲范围内准确跟随歌词控制。

消融显示，这种带有文本中间态的 CoT 在 0.5B 下比其它方法（原版、课程学习、ABF）具有更低的 Whisper 转录歌词错误率（橙线），并在 scale up 到 7B 之后得到更显著的收益（蓝线）。受限于 Whisper 的歌声转录性能，20% 的错误率已经接近 groundtruth 原曲的错误率。

不仅如此，团队还专门为音乐开发了特有的上下文学习（Music In-Context Learning，Music ICL）。与此前 TTS 领域的续写型 ICL 不同，音乐创作常常要求从一个动机出发向左右两边发展构造成曲，要避免抄袭鼓励创作。为此，Music ICL 将曲中任意 20~40 秒片段的音乐拼接到 CoT 数据开头，并在 Stage-1 LM 退火阶段利用约 2% 的计算量延迟激活这种格式。

团队发现，过早地激活 Music ICL 容易导致捷径学习（Shortcut Learning），让模型成为洗歌机器，对音乐创作能力有损。而延迟激活策略极大地节约了计算量，并且保护了模型的音乐性和创造力。这也带来了本文开头的风格克隆（Style Cloning）、声音克隆（Voice Cloning）、风格迁移（Style Transfer）的相应能力，模仿王菲、碧梨甚至爆改 Rap 版 City Pop。在测试时开启 ICL 和 CFG（Classifier Free Guidance）模式后，模型音乐性暴涨！

团队将 Stage-1 LM 扩展到 1.75T token，7B 的规模后，在人类偏好评测中获得了闭源级的音乐性和综合评分。

在人声音域上（下图数字越大音域越宽广），YuE 与国际领先的 Suno、Udio 处于同一水平线。

在生成时长上，YuE 也位于国际领先水平。

抄袭检测显示，即使提供训练集内样本，YuE 的查重率甚至低于学术数据集 GTZAN 的同流派内不同曲目相似度，更是远低于人类翻唱、改编曲目。

不仅如此，YuE 还有非常不错的 embedding 质量。作为一个生成模型，它的单轨无条件模式可用于抽取全曲级 embedding，而且表征质量和 SOTA 表征学习模型处于同一水平，甚至在调性识别上还超过了最新自监督学习 SOTA MuQ。这下确认 YuE 唱歌不会跑调啦！

还等什么，快来玩玩看吧~

项目地址：https://github.com/multimodal-art-projection/YuE
Demo：https://map-yue.github.io
Arxiv：https://arxiv.org/abs/2503.08638
B 站讲解：https://b23.tv/YaYtvVi

交互式 Demo（非官方）：

#PLM

把MLA和稀疏激活带到端侧！港科大广州和伦敦大学学院团队联合发布软硬协同设计的边缘语言模型

本文由 PLM 团队撰写，PLM 团队是由香港科技大学（广州）的校长倪明选教授，伦敦大学学院（UCL）AI 中心汪军教授，香港科技大学（广州）信息枢纽院长陈雷教授联合指导。第一作者邓程是香港科技大学（广州）的研究助理，研究方向为端侧大模型和高效模型推理；参与成员包括中科院自动化所的孙罗洋博士，曾勇程博士，姜纪文硕士，UCL 吴昕键，港科大广州的博士生肖庆发和赵文欣，港科大的博士后王嘉川以及香港理工的助理教授（研究）李昊洋。通讯作者为邓程博士，陈雷教授和汪军教授。

在大模型「卷参数」的浪潮中，一个亟待解决的课题始终存在：如何让百亿级能力的 AI 跑进手机、嵌入设备、实现万物互联？内存墙、算力墙、I/O 墙这三座边缘设备的「大山」令许多大模型铩羽而归。

近日，香港科技大学（广州）倪明选校长和陈雷教授联合 UCL 汪军教授团队以及中科院自动化所团队联合提出 PLM（Peripheral Language Model），通过算法 - 系统协同设计，选择了适合边缘设备的模型架构。

PLM 是首个结合 MLA 注意力机制与 ReLU2 激活 FFN 的架构。评估结果表明，PLM 的表现优于现有在公开数据上训练的小型语言模型，性能接近利用 18T tokens 训练的 Qwen2.5-1.5B 模型，同时保持最低激活参数数量。

其中，PLM 在通用知识理解（ARC）、数学（GSM8K）任务中表现出色，在代码能力评测（HumanEval）基准上更是以 64.6 分位居榜首。

项目论文：https://arxiv.org/abs/2503.12167

项目网站：https://www.project-plm.com

项目地址：https://github.com/plm-team/PLM

模型地址：Hugging Face: https://huggingface.co/PLM-Team

团队还将模型适配至多种边缘设备，在 Snapdragon 等芯片上展现出优于同层数模型的吞吐优势。PLM 团队不仅开源模型权重，还提供了从架构设计到部署的完整技术报告，并计划逐步开源训练数据集及相关代码脚本。

剖析 PLM：1+1 能否大于 2？

核心模块一：Multi-head Latent Attention（MLA）—— 把 KV 缓存压缩到极致

PLM 采用了 Deepseek 提出的 MLA（Multi-Head Latent Attention）注意力机制，并首次将其应用于 2B 参数以下的模型中。为适应端侧系统的需求，PLM 对 Deepseek 的 MLA 进行了适度优化，去除了训练阶段用于降低成本的 Q 矩阵压缩过程，同时保留了 KV 矩阵的 512 维度。此外，PLM 通过解耦的位置编码机制，确保了模型对长程依赖信息的有效捕捉。

核心模块二：平方 ReLU 激活 —— 让计算「稀疏化」

PLM 通过去除门控机制简化了前馈神经网络，从而有效降低了计算复杂度和内存消耗。传统 SwiGLU 激活函数导致 MLP 层计算密集，而 PLM 采用了 ReLU² 作为替代。ReLU² 是一种在性能和稀疏性之间实现最优平衡的激活函数，特别适合稀疏计算场景。其定义如下：

这个设计使得 MLP 层激活稀疏度达到 90.9%，整体计算量减少 26%。此外，从硬件角度出发，零值激活能够触发指令级优化。这一设计理念成功地将模型与系统的联合优化整合到大语言模型架构中。

训练策略：充分利用开源数据

三阶段锻造 PLM-1.8B

PLM 团队精心设计了一条训练流水线，仅使用未精细设计与配比的 2.48B 预训练数据，PLM 性能就达到企业级水平。所有训练数据均来自开源社区。

预训练

第一阶段累计约 1.65T 的 Token。这个阶段中，学习率是属于预热和稳定的阶段，模型的 Loss 也在 2.3 附近有收敛趋势。第二阶段累计约 550B 的 Token。在这个阶段，模型的 Loss 随着学习的衰减快速下降。第三阶段累计约 280B 的 Token。

这个阶段里，保持第二阶段的最小学习率训练，模型进行最后的高质量知识吸收，直到 loss 逐渐收敛。整个预训练中，始终保持中英数据比例 5:2。

SFT 阶段

监督微调数据遵循「由浅入深」的数据准备方法，以渐进的方式进行监督微调过程。PLM 的 SFT 训练分为基本指令微调和高难度指令微调。下面是各个阶段的提升效果。

强化学习阶段

PLM 在偏好训练阶段沿用了团队先前提出的 ARIES 训练方法，以解决经过一般的对齐学习会经多轮自我改进后，性能会显著下降的问题。

性能实测：真的可以

PLM 采用独特的模型架构，对比的基线模型涵盖了当前最先进的 2B 参数量级模型，具体对比如下。

实验表明，PLM 表现颇具竞争力，平均分（57.29）位列第三，仅次于 Qwen2.5-1.5B（59.25）和 Yulan-Mini-2.4B（57.51）。PLM-1.8B 在 HumanEval 中获得了所有模型中的最高分，在 ARC-C、ARC-E、MBPP 和 BoolQ 中排名第二，略逊于行业领先的 Qwen2.5-1.5B，需指出的是，Qwen 系列使用了 18T 闭源语料库。

另一方面，与 Yulan-Mini-2.4B 相比，PLM-1.8B 在编码和逻辑推理任务中旗鼓相当。此外，PLM 仅包含 1.8B 参数和 32 层（Yulan-Mini 为 56 层），推理延迟会较低。综上所述，PLM-1.8B 在基本知识理解、编码和简单推理任务中表现强劲且可靠，是一款值得关注的模型。

场景实测：从服务器到树莓派，全场景通吃

除了基本的模型能力评估，PLM 团队还在在 5 类硬件平台完成部署验证，并给出了实际的吞吐量数据。

文章全面评估了不同硬件平台和量化级别的各种边缘大小 LLM 的推理延迟，包括高性能 GPU（NVIDIA A10、Orin NX）、Apple 的 M3 芯片、Qualcomm 的 Snapdragon 8 Gen 3 和 BCM2712 等嵌入式系统。

评估数据揭示了几个显著特征：MLA 的确增加了计算量，ReLU2 的确可以提升模型推理速度，模型层数会显著影响端侧设备上推理的速度。

PLM 团队的实验表明，这些关键点恰好触及了端侧计算中最需要关注的内存、算力和 I/O 三个核心维度。PLM 团队通过模型与硬件的协同设计，在这一领域展现了其独特的优势。

算法层面，PLM 做到了稀疏性与低秩的平衡：MLA 压缩 KV 缓存，ReLU² 激活削减计算，二者互补突破内存 - 算力瓶颈。系统层面，PLM 深度适配 TVM、llama.cpp 等框架，实现高效的量化与编译优化。

理解 PLM 的 MLA 和稀疏激活

在实际探索中，MLA 的引入会显著增加计算量。然而，PLM 通过舍弃 Q 矩阵的低秩压缩来降低推理计算复杂度，并结合稀疏激活函数，成功避免了 MiniCPM3 在预填充或解码阶段的低效问题，从而在特定场景中展现出明显优势。

PLM 团队在较长文本序列上评估了其模型性能，结果表明，当序列长度达到一定阈值后，PLM 的表现优于同深度的 GQA 模型 Fox。

因此，尽管 MLA 增加了计算负载，其对缓存利用率、推理效率和内存消耗的优化，使得 PLM 在边缘设备上展现出高效、低延迟的性能，为实际应用提供了显著优势。

再来看 PLM 的稀疏化设计，在边缘模型中展现出了更高的普适性与高效性。从系统角度来看，零计算已被高度优化，使得稀疏化在边缘设备上的部署带来显著性能提升。

此外，由于边缘设备的计算资源有限，模型通常无法完全加载到 GPU 或 RAM，需要 OffLoad 到缓存甚至存储中。在此情况下，深度学习模型可采用分层加载，将当前所需参数调入计算单元。

因此，最小化每层计算量至关重要。PLM 通过 KV 缓存存储与稀疏激活减少计算开销，有效缓解该问题。

PLM 团队实验验证了推理所需的最小参数量。他们对所有模型进行相同稀疏化（即将激活函数后的最小值设为 0），并测试保持建模性能（困惑度下降 1）所需的最少参数量（如下图）。

具体而言，PLM 团队绘制了稀疏率（0~1）与困惑度差异的关系图，以分析神经激活减少的性能成本。不同模型的曲线揭示了各自对稀疏度的敏感性。理论上的「理想点」—— 完全稀疏且困惑度不增加 —— 是无法实现的，因为 MLP 层完全停用将损害模型质量。

在此背景下，PLM 展现出显著优势，仅需激活 74.3% 参数，MLP 稀疏率达 90.9%，远低于同等规模模型，推理所需参数量最低。

PLM 团队已全面开放资源，为社区提供了一个小型且易于使用的 MLA 模型，使科研工作者能够在消费级显卡上开展对 MLA 的研究。同时，PLM 为端侧应用厂商提供了一个高性能的端侧模型，拓宽了选择范围，并支持基于 PLM 稀疏激活架构的高效模型部署与开发。

结语

学术界在大规模模型结构实验方面面临诸多挑战，而坚持从头预训练的团队更是少之又少。PLM 团队在计算资源有限和数据质量参差不齐的情况下，始终坚信开源社区提供的数据和技术能够为学术界的持续探索提供强大支持。

未来，PLM 团队将继续致力于探索适用于边缘设备的大模型，训练更具创新性的架构，并实现更高效的边缘设备部署。PLM 团队认为，未来的语言模型不应仅仅是参数的堆砌，而应是效率与智能的精密平衡。PLM的探索，正是向着这一理想迈出的关键一步。

#Qwen2.5-Omni

阿里深夜开源，7B参数完成看、听、说、写

3 月 27 日凌晨，阿里通义千问团队发布 Qwen2.5-Omni。

这是 Qwen 系列中全新的旗舰级多模态大模型，专为全面的多模式感知设计，可以无缝处理包括文本、图像、音频和视频的各种输入，同时支持流式的文本生成和自然语音合成输出。

从此以后，你可以像打电话或进行视频通话一样与 Qwen 聊天！可以说是「语音聊天 + 视频聊天」都实现了。

体验地址：https://chat.qwen.ai/

更重要的是，团队人员将支持这一切的模型 Qwen2.5-Omni-7B 开源了，采用 Apache 2.0 许可证，并且发布了技术报告，分享所有细节！

现在，开发者和企业可免费下载商用Qwen2.5-Omni，手机等终端智能硬件也可轻松部署运行。

论文地址：https://github.com/QwenLM/Qwen2.5-Omni/blob/main/assets/Qwen2.5_Omni.pdf
博客地址：https://qwenlm.github.io/blog/qwen2.5-omni/
GitHub 地址：https://github.com/QwenLM/Qwen2.5-Omni
Hugging Face 地址：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

有网友表示，这才是真正的 Open AI。

大家可以通过官方 demo 感受一下 Qwen2.5-Omni 真实表现。

，时长06:56

Qwen2.5-Omni 模型架构

Qwen2.5-Omni 具有以下特点：

Omni 和创新架构：团队提出了 Thinker-Talker 架构，这是一个端到端的多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。此外，团队还提出了一种名为 TMRoPE（Time-aligned Multimodal RoPE）的新型位置嵌入，用于同步视频输入与音频的时间戳；
实时语音和视频聊天：该架构专为完全实时交互而设计，支持分块输入和即时输出；
自然且稳健的语音生成：在语音生成方面，Qwen2.5-Omni 超越了许多现有的流式和非流式替代方案，展现出卓越的稳健性和自然性；
多模态性能强劲：在与同样大小的单模态模型进行基准测试时，Qwen2.5-Omni 在所有模态上均展现出卓越的性能。Qwen2.5-Omni 在音频能力上超越了同样大小的 Qwen2-Audio，并且达到了与 Qwen2.5-VL-7B 相当的性能；
出色的端到端语音指令遵循能力：Qwen2.5-Omni 在端到端语音指令遵循方面的表现可与文本输入的有效性相媲美，这一点在 MMLU 和 GSM8K 等基准测试中得到了证明。

前文我们已经提到，Qwen2.5-Omni 采用了 Thinker-Talker 架构。

Thinker 就像大脑一样，负责处理和理解来自文本、音频和视频模态的输入，生成高级表示以及对应的文本。

Talker 则像人类的嘴巴，以流式方式接收 Thinker 产生的高级表示和文本，并流畅地输出离散的语音 token。

Thinker 是一个 Transformer 解码器，配备有音频和图像的编码器，以便于提取信息。相比之下，Talker 被设计为一种双轨自回归 Transformer 解码器架构。

在训练和推理过程中，Talker 直接接收来自 Thinker 的高维表示，并共享 Thinker 的所有历史上下文信息。因此，整个架构作为一个统一的单一模型运行，实现了端到端的训练和推理。

Qwen2.5-Omni 模型架构

模型性能

团队人员对 Qwen2.5-Omni 进行了全面评估，结果表明，该模型在所有模态上的表现均优于类似大小的单模态模型以及闭源模型，例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

在需要集成多种模态的任务中，如 OmniBench，Qwen2.5-Omni 达到了最先进的水平。

此外，在单模态任务中，Qwen2.5-Omni 在多个领域中表现优异，包括语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU, MMStar）、视频理解（MVBench）以及语音生成（Seed-tts-eval 和 subjective naturalness）。