51c大模型~合集51

whaosoft-143

已于 2025-03-28 18:49:05 修改

阅读量1.5k

点赞数 15

分类专栏：人工智能文章标签：人工智能

于 2024-11-17 00:15:00 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/143822206

版权

人工智能专栏收录该内容

326 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/11984141

#LLaMA大模型是如何炼成的？

本文介绍来自 Meta AI 的 LLaMa 模型，类似于 OPT，也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等，是在数万亿个 token 上面训练得到。值得一提的是，LLaMa 虽然只使用公共的数据集，依然取得了强悍的性能。

本文介绍来自 Meta AI 的 LLaMa 模型，类似于 OPT，也是一种完全开源的大语言模型。LLaMa 的参数量级从 7B 到 65B 大小不等，是在数万亿个 token 上面训练得到。值得一提的是，LLaMa 虽然只使用公共的数据集，依然取得了强悍的性能。LLaMA-13B 在大多数基准测试中都优于 GPT-3 (175B)，LLaMA65B 与最佳模型 Chinchilla-70B 和 PaLM-540B 相比具有竞争力。

1 LLaMa：开源高效的大语言模型

论文名称：LLaMA: Open and Efficient Foundation Language Models

论文地址：

https://arxiv.org/pdf/2302.13971.pdf

代码链接：

https://github.com/facebookresearch/llama

1.1 背景：模型参数量级的积累，或者训练数据的增加，哪个对性能提升帮助更大？

以 GPT-3 为代表的大语言模型 (Large language models, LLMs) 在海量文本集合上训练，展示出了惊人的涌现能力以及零样本迁移和少样本学习能力。GPT-3 把模型的量级缩放到了 175B，也使得后面的研究工作继续去放大语言模型的量级。大家好像有一个共识，就是：模型参数量级的增加就会带来同样的性能提升。

但是事实确实如此吗？

最近的 "Training Compute-Optimal Large Language Models[1]" 这篇论文提出一种缩放定律 (Scaling Law)：

训练大语言模型时，在计算成本达到最优情况下，模型大小和训练数据 (token) 的数量应该比例相等地缩放，即：如果模型的大小加倍，那么训练数据的数量也应该加倍。

翻译过来就是：当我们给定特定的计算成本预算的前提下，语言模型的最佳性能不仅仅可以通过设计较大的模型搭配小一点的数据集得到，也可以通过设计较小的模型配合大量的数据集得到。

那么，相似成本训练 LLM，是大 LLM 配小数据训练，还是小 LLM 配大数据训练更好？

缩放定律 (Scaling Law) 告诉我们对于给定的特定的计算成本预算，如何去匹配最优的模型和数据的大小。但是本文作者团队认为，这个功能只考虑了总体的计算成本，忽略了推理时候的成本。因为大部分社区用户其实没有训练 LLM 的资源，他们更多的是拿着训好的 LLM 来推理。在这种情况下，我们首选的模型应该不是训练最快的，而应该是推理最快的 LLM。呼应上题，本文认为答案就是：小 LLM 配大数据训练更好，因为小 LLM 推理更友好。

1.2 LLaMa 做到了什么

LLaMa 沿着小 LLM 配大数据训练的指导思想，训练了一系列性能强悍的语言模型，参数量从 7B 到 65B。例如，LLaMA-13B 比 GPT-3 小10倍，但是在大多数基准测试中都优于 GPT-3。大一点的 65B 的 LLaMa 模型也和 Chinchilla 或者 PaLM-540B 的性能相当。

同时，LLaMa 模型只使用了公开数据集，开源之后可以复现。但是大多数现有的模型都依赖于不公开或未记录的数据完成训练。

1.3 LLaMa 预训练数据

LLaMa 预训练数据大约包含 1.4T tokens，对于绝大部分的训练数据，在训练期间模型只见到过1次，Wikipedia 和 Books 这两个数据集见过2次。

如下图1所示是 LLaMa 预训练数据的含量和分布，其中包含了 CommonCrawl 和 Books 等不同域的数据。

图1：LLaMa 预训练数据的含量和分布

CommonCrawl (占 67%)：包含 2017 到 2020 的5个版本，预处理部分包含：删除重复数据，去除掉非英文的数据，并通过一个 n-gram 语言模型过滤掉低质量内容。

C4 (占 15%)：在探索性实验中，作者观察到使用不同的预处理 CommonCrawl 数据集可以提高性能，因此在预训练数据集中加了 C4。预处理部分包含：删除重复数据，过滤的方法有一些不同，主要依赖于启发式方法，例如标点符号的存在或网页中的单词和句子的数量。

Github (占 4.5%)：在 Github 中，作者只保留在 Apache、BSD 和 MIT 许可下的项目。此外，作者使用基于行长或字母数字字符比例的启发式方法过滤低质量文件，并使用正则表达式删除标题。最后使用重复数据删除。

Wikipedia (占 4.5%)：作者添加了 2022 年 6-8 月的 Wikipedia 数据集，包括 20 种语言，作者处理数据以删除超链接、评论和其他格式样板。

Gutenberg and Books3 (占 4.5%)：作者添加了两个书的数据集，分别是 Gutenberg 以及 ThePile (训练 LLM 的常用公开数据集) 中的 Book3 部分。处理数据时作者执行重复数据删除，删除内容重叠超过 90% 的书籍。

ArXiv (占 2.5%)：为了添加一些科学数据集，作者处理了 arXiv Latex 文件。作者删除了第一部分之前的所有内容，以及参考文献。还删除了 .tex 文件的评论，以及用户编写的内联扩展定义和宏，以增加论文之间的一致性。

Stack Exchange (占 2%)：作者添加了 Stack Exchange，这是一个涵盖各种领域的高质量问题和答案网站，范围从计算机科学到化学。作者从 28 个最大的网站保留数据，从文本中删除 HTML 标签并按分数对答案进行排序。

Tokenizer 的做法基于 SentencePieceProcessor[2]，使用 bytepair encoding (BPE) 算法。

LLaMa 的 PyTorch 代码如下，用到了 sentencepiece 这个库。

class Tokenizer:
    def __init__(self, model_path: str):
        # reload tokenizer
        assert os.path.isfile(model_path), model_path
        self.sp_model = SentencePieceProcessor(model_file=model_path)
        logger.info(f"Reloaded SentencePiece model from {model_path}")

        # BOS / EOS token IDs
        self.n_words: int = self.sp_model.vocab_size()
        self.bos_id: int = self.sp_model.bos_id()
        self.eos_id: int = self.sp_model.eos_id()
        self.pad_id: int = self.sp_model.pad_id()
        logger.info(
            f"#words: {self.n_words} - BOS ID: {self.bos_id} - EOS ID: {self.eos_id}"
        )
        assert self.sp_model.vocab_size() == self.sp_model.get_piece_size()

    def encode(self, s: str, bos: bool, eos: bool) -> List[int]:
        assert type(s) is str
        t = self.sp_model.encode(s)
        if bos:
            t = [self.bos_id] + t
        if eos:
            t = t + [self.eos_id]
        return t

    def decode(self, t: List[int]) -> str:
        return self.sp_model.decode(t)

1.4 LLaMa 模型架构

Pre-normalization [受 GPT3 的启发]：

为了提高训练稳定性，LLaMa 对每个 Transformer 的子层的输入进行归一化，而不是对输出进行归一化。使用 RMSNorm[3] 归一化函数。

class RMSNorm(torch.nn.Module):
    def __init__(self, dim: int, eps: float = 1e-6):
        super().__init__()
        self.eps = eps
        self.weight = nn.Parameter(torch.ones(dim))

    def _norm(self, x):
        return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps)

    def forward(self, x):
        output = self._norm(x.float()).type_as(x)
        return output * self.weight

常规的 Layer Normalization：

式中, 和是 LN 的 scale 和 shift 参数, 和的计算如下式所示:

RMSNorm：

相当于是去掉了这一项。

看上去就这一点小小的改动，有什么作用呢？RMSNorm 的原始论文进行了一些不变性的分析和梯度上的分析。

SwiGLU 激活函数 [受 PaLM 的启发]：

LLaMa 使用 SwiGLU 激活函数[4]替换 ReLU 非线性以提高性能，维度从变为。

Rotary Embeddings [受 GPTNeo 的启发]：

LLaMa 去掉了绝对位置编码，使用旋转位置编码 (Rotary Positional Embeddings, RoPE)[5]，这里的 RoPE 来自苏剑林老师，其原理略微复杂，感兴趣的读者可以参考苏神的原始论文和官方博客介绍：

https://spaces.ac.cn/archives/8265

Self-Attention 的 PyTorch 代码：

class Attention(nn.Module):
    def __init__(self, args: ModelArgs):
        super().__init__()

        self.n_local_heads = args.n_heads // fs_init.get_model_parallel_world_size()
        self.head_dim = args.dim // args.n_heads

        self.wq = ColumnParallelLinear(
            args.dim,
            args.n_heads * self.head_dim,
            bias=False,
            gather_output=False,
            init_method=lambda x: x,
        )
        self.wk = ColumnParallelLinear(
            args.dim,
            args.n_heads * self.head_dim,
            bias=False,
            gather_output=False,
            init_method=lambda x: x,
        )
        self.wv = ColumnParallelLinear(
            args.dim,
            args.n_heads * self.head_dim,
            bias=False,
            gather_output=False,
            init_method=lambda x: x,
        )
        self.wo = RowParallelLinear(
            args.n_heads * self.head_dim,
            args.dim,
            bias=False,
            input_is_parallel=True,
            init_method=lambda x: x,
        )

        self.cache_k = torch.zeros(
            (args.max_batch_size, args.max_seq_len, self.n_local_heads, self.head_dim)
        ).cuda()
        self.cache_v = torch.zeros(
            (args.max_batch_size, args.max_seq_len, self.n_local_heads, self.head_dim)
        ).cuda()

    def forward(self, x: torch.Tensor, start_pos: int, freqs_cis: torch.Tensor, mask: Optional[torch.Tensor]):
        bsz, seqlen, _ = x.shape
        xq, xk, xv = self.wq(x), self.wk(x), self.wv(x)

        xq = xq.view(bsz, seqlen, self.n_local_heads, self.head_dim)
        xk = xk.view(bsz, seqlen, self.n_local_heads, self.head_dim)
        xv = xv.view(bsz, seqlen, self.n_local_heads, self.head_dim)

        xq, xk = apply_rotary_emb(xq, xk, freqs_cis=freqs_cis)

        self.cache_k = self.cache_k.to(xq)
        self.cache_v = self.cache_v.to(xq)

        self.cache_k[:bsz, start_pos : start_pos + seqlen] = xk
        self.cache_v[:bsz, start_pos : start_pos + seqlen] = xv

        keys = self.cache_k[:bsz, : start_pos + seqlen]
        values = self.cache_v[:bsz, : start_pos + seqlen]

        xq = xq.transpose(1, 2)
        keys = keys.transpose(1, 2)
        values = values.transpose(1, 2)
        scores = torch.matmul(xq, keys.transpose(2, 3)) / math.sqrt(self.head_dim)
        if mask is not None:
            scores = scores + mask  # (bs, n_local_heads, slen, cache_len + slen)
        scores = F.softmax(scores.float(), dim=-1).type_as(xq)
        output = torch.matmul(scores, values)  # (bs, n_local_heads, slen, head_dim)
        output = output.transpose(
            1, 2
        ).contiguous().view(bsz, seqlen, -1)

        return self.wo(output)

这里有几个地方值得注意一下：首先是 model.py 文件里面从 fairscale 中 import 了3个类，分别是：ParallelEmbedding，RowParallelLinear，和 ColumnParallelLinear。Fairscale 链接如下，是一个用于高性能大规模预训练的库，LLaMa 使用了其 ParallelEmbedding 去替换 Embedding，使用了其 RowParallelLinear 和 ColumnParallelLinear 去替换 nn.Linear，猜测可能是为了加速吧。

https://github.com/facebookresearch/fairscale

另一个需要注意的点是：cache 的缓存机制，可以看到在构造函数里面定义了下面两个东西：self.cache_k = torch.zeros((args.max_batch_size, args.max_seq_len, self.n_local_heads, self.head_dim)).cuda()self.cache_v = torch.zeros((args.max_batch_size, args.max_seq_len, self.n_local_heads, self.head_dim)).cuda()

关键其实就是这几行代码：self.cache_k[:bsz, start_pos : start_pos + seqlen] = xkself.cache_v[:bsz, start_pos : start_pos + seqlen] = xvkeys = self.cache_k[:bsz, : start_pos + seqlen]values = self.cache_v[:bsz, : start_pos + seqlen]

在训练的时候，因为每次都是输入完整的一句话，所以 cache 机制其实是不发挥作用的。在推理的时候，比如要生成 "I have a cat"，过程是：1 输入 <s>，生成 <s> I。2 输入 <s> I，生成 <s> I have。3 输入 <s> I have，生成 <s> I have a。4 输入 <s> I have a，生成 <s> I have a cat。

在执行3这一步时，计算 "a" 的信息时，还要计算 <s> I have 的 Attention 信息，比较复杂。因此，cache 的作用就是在执行2这一步时，提前把 <s> I have 的 keys 和 values 算好，并保存在 self.cache_k 和 self.cache_v 中。在执行3这一步时，计算 Attention 所需的 keys 和 values 是直接从这里面取出来的：keys = self.cache_k[:bsz, : start_pos + seqlen]values = self.cache_v[:bsz, : start_pos + seqlen]只需要额外地计算 "a" 的 keys 和 values 即可，这对模型的快速推理是至关重要的。

还有一个值得注意的点：self.cache_k = self.cache_k.to(xq)这里使用的是 to() 函数的一种不太常见的用法：torch.to(other, non_blocking=False, copy=False)→TensorReturns a Tensor with same torch.dtype and torch.device as the Tensor other.

FFN 的 PyTorch 代码：

class FeedForward(nn.Module):
    def __init__(
        self,
        dim: int,
        hidden_dim: int,
        multiple_of: int,
    ):
        super().__init__()
        hidden_dim = int(2 * hidden_dim / 3)
        hidden_dim = multiple_of * ((hidden_dim + multiple_of - 1) // multiple_of)

        self.w1 = ColumnParallelLinear(
            dim, hidden_dim, bias=False, gather_output=False, init_method=lambda x: x
        )
        self.w2 = RowParallelLinear(
            hidden_dim, dim, bias=False, input_is_parallel=True, init_method=lambda x: x
        )
        self.w3 = ColumnParallelLinear(
            dim, hidden_dim, bias=False, gather_output=False, init_method=lambda x: x
        )

    def forward(self, x):
        return self.w2(F.silu(self.w1(x)) * self.w3(x))

这里需要注意的点是：激活函数用的是 F.silu()，也就是 Swish 激活函数。self.w2(F.silu(self.w1(x)) * self.w3(x)) 的实现也就是 SwiGLU 激活函数。

图2：silu 激活函数

Transformer Block 的 PyTorch 代码：

class TransformerBlock(nn.Module):
    def __init__(self, layer_id: int, args: ModelArgs):
        super().__init__()
        self.n_heads = args.n_heads
        self.dim = args.dim
        self.head_dim = args.dim // args.n_heads
        self.attention = Attention(args)
        self.feed_forward = FeedForward(
            dim=args.dim, hidden_dim=4 * args.dim, multiple_of=args.multiple_of
        )
        self.layer_id = layer_id
        self.attention_norm = RMSNorm(args.dim, eps=args.norm_eps)
        self.ffn_norm = RMSNorm(args.dim, eps=args.norm_eps)

    def forward(self, x: torch.Tensor, start_pos: int, freqs_cis: torch.Tensor, mask: Optional[torch.Tensor]):
        h = x + self.attention.forward(self.attention_norm(x), start_pos, freqs_cis, mask)
        out = h + self.feed_forward.forward(self.ffn_norm(h))
        return out

Transformer 的 PyTorch 代码：

class Transformer(nn.Module):
    def __init__(self, params: ModelArgs):
        super().__init__()
        self.params = params
        self.vocab_size = params.vocab_size
        self.n_layers = params.n_layers

        self.tok_embeddings = ParallelEmbedding(
            params.vocab_size, params.dim, init_method=lambda x: x
        )

        self.layers = torch.nn.ModuleList()
        for layer_id in range(params.n_layers):
            self.layers.append(TransformerBlock(layer_id, params))

        self.norm = RMSNorm(params.dim, eps=params.norm_eps)
        self.output = ColumnParallelLinear(
            params.dim, params.vocab_size, bias=False, init_method=lambda x: x
        )

        self.freqs_cis = precompute_freqs_cis(
            self.params.dim // self.params.n_heads, self.params.max_seq_len * 2
        )

    @torch.inference_mode()
    def forward(self, tokens: torch.Tensor, start_pos: int):
        _bsz, seqlen = tokens.shape
        h = self.tok_embeddings(tokens)
        self.freqs_cis = self.freqs_cis.to(h.device)
        freqs_cis = self.freqs_cis[start_pos : start_pos + seqlen]

        mask = None
        if seqlen > 1:
            mask = torch.full((1, 1, seqlen, seqlen), float("-inf"), device=tokens.device)
            mask = torch.triu(mask, diagnotallow=start_pos + 1).type_as(h)

        for layer in self.layers:
            h = layer(h, start_pos, freqs_cis, mask)
        h = self.norm(h)
        output = self.output(h[:, -1, :])  # only compute last logits
        return output.float()

self.tok_embeddings 用的是 ParallelEmbedding 这个函数，把 ids 变为词向量。mask 部分通过 torch.full() 函数和 torch.triu() 函数得到一个上三角矩阵，用于注意力的计算。通过 torch.nn.ModuleList() 函数定义所有的 Transformer Block。所有的 norm 函数都使用 RMSNorm 去定义。

生成过程的 PyTorch 代码：

class LLaMA:
    def __init__(self, model: Transformer, tokenizer: Tokenizer):
        self.model = model
        self.tokenizer = tokenizer

    def generate(
        self,
        prompts: List[str],
        max_gen_len: int,
        temperature: float = 0.8,
        top_p: float = 0.95,
    ) -> List[str]:
        bsz = len(prompts)
        params = self.model.params
        assert bsz <= params.max_batch_size, (bsz, params.max_batch_size)

        prompt_tokens = [self.tokenizer.encode(x, bos=True, eos=False) for x in prompts]

        min_prompt_size = min([len(t) for t in prompt_tokens])
        max_prompt_size = max([len(t) for t in prompt_tokens])

        total_len = min(params.max_seq_len, max_gen_len + max_prompt_size)

        tokens = torch.full((bsz, total_len), self.tokenizer.pad_id).cuda().long()
        for k, t in enumerate(prompt_tokens):
            tokens[k, : len(t)] = torch.tensor(t).long()
        input_text_mask = tokens != self.tokenizer.pad_id
        start_pos = min_prompt_size
        prev_pos = 0
        for cur_pos in range(start_pos, total_len):
            logits = self.model.forward(tokens[:, prev_pos:cur_pos], prev_pos)
            if temperature > 0:
                probs = torch.softmax(logits / temperature, dim=-1)
                next_token = sample_top_p(probs, top_p)
            else:
                next_token = torch.argmax(logits, dim=-1)
            next_token = next_token.reshape(-1)
            # only replace token if prompt has already been generated
            next_token = torch.where(
                input_text_mask[:, cur_pos], tokens[:, cur_pos], next_token
            )
            tokens[:, cur_pos] = next_token
            prev_pos = cur_pos

        decoded = []
        for i, t in enumerate(tokens.tolist()):
            # cut to max gen len
            t = t[: len(prompt_tokens[i]) + max_gen_len]
            # cut to eos tok if any
            try:
                t = t[: t.index(self.tokenizer.eos_id)]
            except ValueError:
                pass
            decoded.append(self.tokenizer.decode(t))
        return decoded


def sample_top_p(probs, p):
    probs_sort, probs_idx = torch.sort(probs, dim=-1, descending=True)
    probs_sum = torch.cumsum(probs_sort, dim=-1)
    mask = probs_sum - probs_sort > p
    probs_sort[mask] = 0.0
    probs_sort.div_(probs_sort.sum(dim=-1, keepdim=True))
    next_token = torch.multinomial(probs_sort, num_samples=1)
    next_token = torch.gather(probs_idx, -1, next_token)
    return next_token

这里需要注意的是：torch.multinomial() 函数用于按照一定的概率 (probs_sort) 采样一定数量 (num_samples) 的 Tensor。torch.gather() 函数是一个抽数据的函数，按照 probs_idx 的索引和 dim=-1 的维度。

1.5 LLaMa 的优化

AdamW, , 使用 cosine 学习率衰减策略, 2000 步的 warm-up, 最终学习率等于最大学习率的 , 使用 0.1 的权重衰减和 1.0 的梯度裁剪。

1.6 LLaMa 的高效实现

快速的注意力机制： LLaMa 采用了高效的 causal multi-head attention (基于 xformers[6])，不存储注意力权重，且不计算 mask 掉的 query 和 key 的值。

手动实现反向传播过程，不使用 PyTorch autograd：使用 checkpointing 技术减少反向传播中的激活值的计算，更准确地说，LLaMa 保存计算代价较高的激活值，例如线性层的输出。

通过使用模型和序列并行减少模型的内存使用。此外，LLaMa 还尽可能多地重叠激活的计算和网络上的 GPU 之间的通信。

LLaMa-65B 的模型使用 2048 块 80G 的 A100 GPU，在 1.4T token 的数据集上训练 21 天。

1.7 LLaMa 实验结果

LLaMa 在 20 个标准的 Zero-Shot 和 Few-Shot 任务上面做了评测。在评测时的任务包括自由形式的生成任务和多项选择任务。多项选择任务的目标是根据提供的上下文在一组给定选项中选择最合适的答案。

Zero-Shot 在评测时，作者提供了任务和测试示例的文本描述。LLaMa 要么使用开放式生成提供答案，要么对给定的答案进行排名。Few-Shot 在评测时，作者提供了任务的几个示例 (在 1 到 64 之间) 和一个测试示例。LLaMa 将此文本作为输入并生成答案或者排名不同的选项。

1.7.1 常识推理实验结果

作者考虑了8个标准的常识推理基准：BoolQ, PIQA, SIQA, WinoGrande 等，采用标准的 Zero-Shot 的设定进行评估。结果如图3所示，LLaMA-65B 在除了 BoolQ 的所有基准测试中都优于 Chinchilla-70B，在除了 BoolQ 和 WinoGrande 的任何地方都超过了 PaLM540B。LLAMA-13B 模型在大多数基准测试中也优于 GPT-3。

图3：常识推理实验结果

1.7.2 封闭式问答实验结果

如下图3和4所示是封闭式问答实验结果，图4是 Natural Questions 数据集，图5是 TriviaQA 数据集，报告的是报告精确匹配性能，即：模型无法访问包含回答问题证据的文档。在这两个基准测试中，LLaMA-65B 在零样本和少样本设置中实现了最先进的性能，而且 LLaMa-13B 的性能也同样具备竞争力。

图4：Natural Questions 封闭式问答实验结果

图5：TriviaQA 封闭式问答实验结果

1.7.3 阅读理解实验结果

阅读理解任务在 RACE 数据集上做评测，结果如图6所示。LLaMA-65B 与 PaLM-540B 具有竞争力，LLaMA-13B 的性能比 GPT-3 好几个百分点。

图6：阅读理解实验结果

1.7.4 数学推理实验结果

作者在 MATH 和 GSM8k 两个任务上面做数学推理任务，MATH 是一个 12K 中学和高中数学问题的数据集，用 LaTeX 编写。GSM8k 是一组中学数学问题。在 GSM8k 上，尽管 LLaMA-65B 从没在数学数据上进行微调，但可以观察到 LLaMA-65B 优于 Minerva-62B。

图7：数学推理实验结果

1.7.5 代码生成实验结果

作者在 HumanEval 和 MBPP 两个任务上面做代码生成任务，对于这两个任务，模型接收几个句子中的程序描述，以及一些输入输出示例。模型需要生成一个符合描述并满足测试用例的 Python 程序。图7将 LLaMa 与尚未在代码上微调的现有语言模型 (PaLM 和 LaMDA) 进行比较，PaLM 和 LLAMA 在包含相似数量代码标记的数据集上进行训练。对于相似数量的参数，LLaMa 优于其他通用模型，例如 LaMDA 和 PaLM，这些模型没有专门针对代码进行训练或微调。具有 13B 参数的 LLAMA，在 HumanEval 和 MBPP 上都优于 LaMDA 137B。LLaMA 65B 也超过了训练时间更长的 PaLM 62B。

1.7.6 大规模多任务语言理解实验结果

MMLU 大规模多任务语言理解基准由涵盖各种知识领域的多项选择题组成，包括人文、STEM 和社会科学。作者使用基准提供的示例在 5-shot 设置中评估我们的模型，结果如图7所示。可以观察到 LLaMa-65B 在大多数领域平均落后于 Chinchilla70B 和 PaLM-540B 几个百分点。一个潜在的解释是，LLaMa 在预训练数据中只使用了有限数量的书籍和学术论文，即 ArXiv、Gutenberg 和 Books3，总计只有 177GB，而其他的模型训练了多达 2TB 的书籍。

作者还发现加入一些微调指令也能够提升大规模多任务语言理解的性能。尽管 LLaMA-65B 的非微调版本已经能够遵循基本指令，但可以观察到非常少量的微调提高了 MMLU 的性能，并进一步提高了模型遵循指令的能力。

如下图8所示，尽管这里使用的指令微调方法很简单，但在 MMLU 上达到了 68.9%。LLAMA-I (65B) 优于 MMLU 现有中等大小的指令微调模型，但仍远未达到最先进的水平。

图8：大规模多任务语言理解实验结果

1.8 训练期间的性能变化

如下图9所示是 7B、13B、33B 和 65B 这几个模型在一些问答和常识基准的表现随着 training token 的变化，图10是 7B、13B、33B 和 65B 这几个模型的 training loss 随着 training token 的变化。在大多数基准测试中，性能稳步提高，并且与模型的训练困惑度相关。

图9：7B、13B、33B 和 65B 这几个模型在一些问答和常识基准的表现随着 training token 的变化

图10：7B、13B、33B 和 65B 这几个模型的 training loss 随着 training token 的变化

参考

^https://arxiv.org/abs/2203.15556
^https://github.com/facebookresearch/xformers

#谷歌不敢用Transformer

谢尔盖布林：谷歌不敢用Transformer，作者全跑路了，现在我每天都在写代码

坐拥世界最大的搜索业务，谷歌一直独步于硅谷。搜索所带来的丰厚广告收入，让两位创始人谢尔盖・布林 (Sergey Brin) 和拉里・（Larry Page）可以退居二线，安心享受生活。

1997 年 9 月 15 日，谢尔盖・布林和拉里·佩吉注册了一个名为「谷歌」的网站。

直到 2022 年底，ChatGPT 火遍全球，原本 AI 浪潮的引领者谷歌似乎才意识到地位发生了翻转。最近一年以来，我们似乎习惯了这家科技巨头作为「追赶者」出现。

从去年开始，就有媒体爆料，称谢尔盖・布林已经重返一线，亲自编写代码。前 CEO 埃里克・施密特（Eric Schmidt）更是在斯坦福大学的讲座中直接向「每周只上一天班」的散漫制度开炮：「输给 OpenAI，再下去要输创业公司了」。

施密特在斯坦福演讲

同时，随着谷歌的体量越来越大，一些「大公司病」的症状也越发明显。许多谷歌的离职「小作文」显示：谷歌问题的根源不是「技术」，而是在于「文化」，比如员工的使命感不足，公司为了避免风险设置了繁琐的系统和流程。

AppSheet 创始人 Praveen Seshadri 宣布离开谷歌，他的博客称，公司已迷失方向，员工被困在系统里。

谷歌到底出了什么问题？Alphabet 工人工会表示：「真正阻碍谷歌员工每天工作效率的是人员不足、优先事项的不断变化、频繁的裁员、工资停滞不前以及管理层在项目跟进上的不足。」

虽然谷歌在「ChatGPT 反击战」迎头赶上，但和 OpenAI 评论区下期待 GPT-5 发布的画风有些不同，Gemini 亮相时，总会在不经意间「翻车」。首次发布就出现了 demo 造假，此后，Gemini 也因生成的人像图片存在种族偏见，建议每个人一天吃一块石头、用胶水来黏合披萨上的芝士，挨了不少批评。

上个月，谷歌发布了加强版的 Gemini，还推出了对标 GPT-4o 的语音助手 Gemini Live，但在演示环节，Gemini Live 还是出错了。

在 8 月举办的 Made by Google 活动上，前两次试用 Gemini Live 的拍照识图功能都失败了，直到第三次换手机才成功。

明明已经财富自由，为什么还要重返技术一线？频频「翻车」的 Gemini，谷歌内部如何看待？在科技巨头的竞争中，谷歌存在什么问题？在这场竞争中又将扮演怎样的角色？在昨天举办的 All-In 峰会现场，久未在媒体前露面的谢尔盖・布林在一场访谈中聊了聊他的看法。

，时长20:47

布林的主要观点为：

决定重返技术前线，是因为 AI 领域的进展太过激动人心，作为计算机科学家，他不愿意错过这一波浪潮。
AI 技术不只是搜索的延伸，它将触及更广泛的变革。
相比于专精于某个领域的「专家模型」，布林更看好通用模型，谷歌成功拿下 IMO 银牌模型，这源于谷歌在之前开始将形式证明模型中的某些知识和能力融合到通用语言模型之中的尝试。
目前对于算力的需求源源不断，但很难出现「从 100 兆瓦到 1 吉瓦、10 吉瓦，甚至 100 吉瓦」的需求激增。
在人工智能应用领域，布林认为生物学已经较好地实现了 AI 技术的落地应用，而机器人领域还是看完演示觉得很神奇的阶段，没有达到日常可以使用的水平。
虽然 AI 偶尔会犯大错，但更应及时发布。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。比 AI「犯蠢」更可怕的是，当时谷歌太胆小，都不敢部署 Transformer，论文作者全离职了。
科技巨头在 AI 领域的竞争实际是好事，不过布林还是会密切关注大模型排行榜。

以下是访谈全文：

布林：我本来以为我只是来参加一个播客，没想到现场有这么多观众，恭喜你的事业这么成功，整得我都有点害羞了。

主持人：感谢您抽空和我聊天。当今，AI 正处于改变世界的临界点。1998 年，你和拉里（Larry Page）成立了谷歌。听说最近你亲自上阵，在谷歌研究 AI。大型语言模型和对话式 AI 工具对谷歌搜索来说是一种威胁，这是许多行业分析师和专家争论的话题。所以你现在每天在谷歌坐多长时间的班？都在做什么？

布林：老实说，我几乎每天都去上班，不过今天因为要上你的节目，所以缺席一天。作为一名计算机科学家，我我从未见过像最近几年 AI 领域这样激动人心的进展。AI 的进步实在是太震撼了！

回想 90 年代，我还是研究生时，AI 在课程中几乎无足轻重，充其量不过是教材中的一个脚注。课本里讲的是，前人做了各种各样的试验，但是 AI 真的不起作用，搞 AI 就是「死路一条」。这就是关于 AI 你需要知道的一切。

然后不知怎的，奇迹般地，这些研究神经网络的人，让在 60、70 年代被丢弃的 AI 方法开始取得进展 —— 更多的计算，更多的数据，更聪明的算法..... 过去的十年里发生的事情简直令人惊叹。如今的 AI 工具，几乎每个月都能展现出全新的能力，而且这些能力很快就能翻倍。计算机展现出的能力着实令人惊叹。因此，我决定重返技术前线，因为我不愿错过作为计算机科学家所能体验到的这一切。

主持人：你觉得 AI 是搜索的延伸，还是它将重新定义人们检索信息的方式？

布林：我认为 AI 触及着日常生活的方方面面，搜索是其中之一。AI 的影响力几乎无所不包，例如编程。我现在对 AI 编程有所改观。从头开始编写代码，真的很难，特别是和指挥 AI 编程对比起来，对吧？

主持人：你都用 AI 编写了什么呢？

布林：事实上，我自己也写了一点代码，不过只是为了找点乐子。我有时也让 AI 为我写代码，体验很有趣。举个例子来说，我想知道谷歌的 AI 模型玩数独（Sudoku）玩得怎么样。于是，我让 AI 模型自己写了很多代码，可以自动生成数独谜题，然后再把这些题喂给 AI，拿去评分。AI 完全能够胜任编写这些代码的任务。

但当我和工程师们谈论这件事的时候，来回辩论了几轮，结果我半小时后回来，发现 AI 已经完成了。他们很震撼，很显然，他们并不像我所认为的那样，经常使用 AI 工具来辅助编码。

数独游戏（Sudoku）

主持人：这太好笑了。有的模型擅长解数独题，有的模型可以回答我世界中的事实信息，有的模型专用于设计房子。同时，众多研究者正致力于开发通用的大型语言模型。你认为未来将会朝着哪个路线发展呢？

我也不知道这种说法从何而起，说将会有一个「上帝模型」。这就是为什么投资人都在往 AI 里砸钱，一旦「上帝模型」被研发出来，那你就能「一步登天」了，当你拥有 AGI，你可以统治所有事物。或者有很多基于特定应用的小模型，在智能体中协作。你认为未来的模型开发与应用将会如何演变呢？

布林：如果你回顾 10 到 15 年前，那时，不同的 AI 技术被用于解决完全不同的问题。比如，下棋的 AI 与图像生成技术就非常不同，它们各自有着很大的差异。

主持人：就像最近谷歌发了一个 GNN 模型，它的表现优于所有物理预测模型。我不确定你知不知道，但是确实是谷歌发的。

布林：太棒了，但我不知道（尴尬）。

主持人：这个模型就是一个完全不同的架构。

布林：以历史的眼光来看，AI 确实存在着多种不同的系统。以最近举行的国际数学奥林匹克竞赛（IMO）为例，谷歌的模型获得了银牌，离金牌就差一分

实际上，我们采用了三种 AI 模型：一种负责定理证明，一种专注于几何问题，还有一种是通用的语言模型。然而，就在几个月前，我们开始尝试从之前的工作中吸取经验，开始将形式证明模型中的某些知识和能力融合到通用语言模型之中。

这项工作还在进行，但我认为趋势将朝着构建一个更加统一的模型方向发展。我不确定它就是所谓的「上帝模型」，但可以肯定的是，我们正在朝着某种共享架构，甚至是共享模型的方向发展。

主持人：如果这就是未来的方向，那么为了训练和完善那个超大模型，势必需要动用庞大的计算资源。

布林：算力不可或缺。我读过一些文章，它们预测算力需求将激增，从 100 兆瓦到 1 吉瓦、10 吉瓦，甚至 100 吉瓦。我对此持保留意见。近年来，算法的创新和优化，已带来比增加硬件算力更显著的性能提升。

主持人：那么，当前对算力的大量投入不合理吗？每个人都在谈论英伟达的收益、利润、市值。它支持了超大规模计算和基础设施的增长，使得构建这些庞大的模型成为可能。这种趋势真的没有道理吗？或许它确实有道理，要不然为什么英伟达能赚这么多？

布林：首先声明，我并非经济学家或市场分析师，我的观点仅基于计算机科学家的视角。对我们来说，因为面对巨大的需求，我们正在尽可能快地构建算力集群。比如，谷歌云的客户只想要大量的 PPU、GPU，应有尽有。我们不得不拒绝客户，因为我们自己卡不够用，我们内部也依赖这些资源来训练和部署我们自己的模型。因此，我认为各大公司目前都在积极扩充算力，这都很合理。我只是觉得，很难直接从现状做出未来算力需求会从「100 兆瓦增长到 1 吉瓦、10 吉瓦，甚至 100 吉瓦」这种推断。

主持人：但企业需求就摆在那里。

布林：我明白，客户们有着广泛的需求，他们希望在各种 AI 模型上执行推理任务，并将这些模型应用于层出不穷的新场景中。他们的这些需求暂时是没有上限的。

主持人：在 AI 的应用领域，无论是机器人学还是生物学，您认为哪些方面取得了最显著的成就？有没有用例让你觉得「哇，这太有用了」？又有哪些领域挑战较大，应用落地可能比预期更久？

布林：我的答案是生物学。Alphafold 已经推出一段时间了。它已经推出一段时间，而且我与生物学家交流时发现，几乎人人都在使用它。Alphafold 的最新版本，Alphafold 3，代表了一种新型的 AI 技术。正如我之前提到的，我相信未来的趋势是模型的统一化。

对于机器人，我处于一个「wow 阶段」，比如，「哇，机器人竟然可以做家务了！」但你要知道，它背后可能只是一个微调了一下的通用语言模型，虽然它很神奇，但大多数情况下，它们还没有达到日常可以使用的水平。

主持人：你看到机器人的前景了吗？

布林：可能吧...... 但是我没有看到具体的......

主持人：但你们谷歌不是也有机器人业务吗？虽然后来被拆出去了，还被卖了。

布林：谷歌曾在做机器人的生意。

主持人：可能只是时机不对。

布林：坦白说，那可能是我们过于超前了。波士顿动力公司有那么多明星产品，但我甚至不记得谷歌做出过什么。无论如何，我们有过五六个令人尴尬的产品，但它们很酷，能给人留下深刻的印象。只是看到现在的通用语言模型有多能干，多模态技术能让机器人理解场景，想想当年还是有点傻。当时还没有这些 AI 技术，我们就像是在跑步机上原地踏步，难以向前迈进。

谷歌开发机器人的计划曾有一手好牌：「Android 之父」安迪・鲁宾（Andy Rubin），大名鼎鼎的机器人制造商波士顿动力，名动一时的人形机器人 Atlas…… 不过，就在短短五年时间里，计划解散重组，再解散再重组。高管相继离职，销售计划叫停，几大王牌公司各自卖身...

主持人：你在核心技术的研发上投入了大量时间。在产品方面，你是否也投入了相当的精力？在一个 AI 无处不在的未来世界中，人机交互的方式将如何演进，我们的日常生活又将发生怎样的变化呢？

布林：这好像在茶水间和同事聊天的话题。

主持人：介意和我们分享一下吗？

布林：不介意，我在回想一些不会令人尴尬的事情，挣扎 ing。

主持人：讲「你有一个朋友」的故事也行。

布林：未来会怎么样，真的很难讲。AI 的技术是实现应用的基础。比如有人放出了一个炸裂的 demo，特别惊艳，但从演示到真正在生产中实现，这需要时间。我不知道你是否尝试过 Astra 模型，你可以与它打实时视频，它能说出你身边环境中发生的事情。

主持人：你可以用对吧。

布林：我肯定会拿到访问权限的。有时候，我可能是最后一批获得权限的人。目前，我们已经来到了一个这样的阶段，体验了 AI 之后，人们可能会惊叹：「哦，我的天，这真是太神奇了。」然后你会思考，「好吧，它 90% 的情况下都能正确运行。」但接着你可能会质疑，「如果还有 10% 的情况下会出现错误或反应迟缓，这样的技术真的够好吗？」于是，我们必须努力去完善这些细节，确保它既迅速又可靠，等等。当这一切真正实现时，那确实是一种令人惊叹的成就。

主持人：我听说了一个故事，应该在上台之前和你通一下气的。在一次发布会之前，一群工程师向你展示了 AI 可以用来编写代码，他们说：「我们尚未在 Gemini 中部署它，因为我们想确保它不会出错。」谷歌有一些这样「犹豫不决」的企业文化。当时你说：「不，既然它能写代码，那就应该推出。」很多人都给我讲过这个故事。因为他们认为，「从你这位创始人口中听到这样的言论极为重要，这表明保守主义还没有完全占领谷歌，我们期待看到谷歌继续引领创新。」这样的描述准确吗？你真的这样说过吗？

布林：我不记得具体细节了。老实说，这确实很像我会做的事。

主持人：对我来说，这就会成为一个问题，因为谷歌的规模已经如此之大，一旦出现失误，就会损失惨重。

布林：那我还是有害怕的事的。现在语言模型的起点，要追溯到 6 年前还是 8 年前哪篇 Transformer 论文。但是这些论文作者全部都从谷歌离职了。恭喜他们！当时我们太胆小，都不敢部署 Transformer。

布林：而且无论 AI 的能力有多强大，它们有时仍会犯错误，仍会说出一些令人尴尬的话。但同时，AI 已经可以帮助我们从未做过的事情。比如我和我的孩子们一起编程，处理一些极其复杂的问题。

仅仅通过向 AI 咨询，他们就能直接上手编程，学会那些通常需要花费一个月时间去学习的各种复杂 API 和工具。这种能力近乎神奇。我们需要准备好面对一些错误，并勇于承担风险。我相信我们在这方面的应对已经有所改进。当然，你们可能已经见过很多 AI「犯蠢」的时刻了，但......

主持人：这是可以接受的。毕竟，你早已财富自由，坐拥巨额股票。我的意思是，你愿意接受这些尴尬，因为在这个阶段这么做非常重要。

布林：我这么做不是因为我的股票，好吗？但是想想我真能接受这些错误吗？这就是我们呈现给世界的神奇之物吗？我觉得我们所需要传达的是，「看，这个东西很神奇」。AI 偶尔会犯大错，但我认为我们应该及时发布，让人们去实验，看看能找到什么新应用。AI 不是那种你紧紧捂在怀里、隐藏起来、直到它变得完美无缺的技术。

主持人：您是否认为人工智能对世界的影响力如此深远，创造的价值如此巨大，以至于这不再是谷歌、Meta 和亚马逊之间的一场简单竞争？大家都把它看作是一场商战，但是有没有这种可能，AI 做出的蛋糕如此大，你们正在探索的领域如此广泛，远不止于谁打造了得分最高的模型，谁的 LLM 性能最出色？你如何看待如何看待 AI 带来的广阔前景，谷歌在其中将扮演怎样的角色？

布林：我认为竞争在某种程度上是非常有帮助的，因为所有科技大厂都在争夺，顺便说一下，几周前在某个排行榜上，谷歌是第一名，并且我上次检查时，我们仍然击败了顶级模型。只是......

主持人：有几个指标不好。所以你确实是在乎模型评分的！

布林：我没说我不在乎啊。ChatGPT 问世时，谷歌确实落后了一大截，现在我们已经取得了长足的进步。我对谷歌现在取得的所有进步非常满意。因此，我们肯定会密切关注模型排行榜。我认为有这么多 AI 公司存在是好事，无论是 OpenAI、Anthropic，还有 Mistral，这代表着 AI 领域正在迅速扩张，充满活力。

对于你的问题，我认为 AI 对人类来说有巨大的价值。如果回想一下我的大学时代，那时还没有我们今天所熟知的互联网，想要获取基本信息、与人沟通都需要付出巨大的努力。在手机普及之前，我们已经在全球范围内获得了巨大的能力提升，而如今的 AI 技术，无疑是另一项重大的能力飞跃。现在，几乎每个人都能以某种方式接触到 AI。我认为这是非常令人兴奋的，真是太棒了。

#音频驱动人像视频模型

字节Loopy、CyberHost研究成果揭秘

近期，来自字节跳动的视频生成模型 Loopy，一经发布就在 X 上引起了广泛的讨论。Loopy 可以仅仅通过一张图片和一段音频生成逼真的肖像视频，对声音中呼吸，叹气，挑眉等细节都能生成的非常自然，让网友直呼哈利波特的魔法也不过如此。

Loopy 模型采用了 Diffusion 视频生成框架。输入一张图片和一段音频，就可以生成相应的视频。不但可以实现准确的音频和口型同步，还可以生成细微自然的表情动作，例如人物跟随情绪节奏做出抬眉、吸气、憋嘴停顿、叹气、肩膀运动等非语言类动作也能很好地被捕捉到；在唱歌时也能表现得活灵活现，驾驭不同风格。

rap

更多丰富风格的展示，可移步项目主页：https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的图片风格上，Loopy 也都表现得不错，像古风画像、粘土风格、油画风格、3D 素材以及侧脸的情况等等。

Loopy 技术方案

具体来说，Loopy 是如何仅需音频，就能实现这样生动的效果呢？

Loopy 框架中分别对外观信息（对应图中左上角）和音频信息（图中左下角）做了相应的方法设计，在外观上团队引入了 inter/intra- clip temporal layers 模块，通过 inter-clip temporal layer 来捕捉跨时间片段的时序信息，通过 intra-clip temporal layer 来捕捉单个片段内的时序信息，通过分而治之的方式更好建模人物的运动信息。

同时为了进一步的提升效果，团队设计了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉长达 100 帧以上的时序信息，从而可以更好的基于数据学习长时运动信息依赖，抛弃了空间模版的限制，最终生成更好的人像运动。这就不难理解为什么 Loopy 可以仅仅依靠音频，不需要任何空间辅助信号就可以生成自然逼真的人像视频了。

除此以外，为了能够捕捉到细腻的表情变化，团队设计了一个名为 audio to latents（A2L）的模块，用来增强音频和头部运动之间的关联关系。这个 A2L 模块在训练过程中会随机选取音频、表情参数、运动参数中的一个，将其转化为 motion latents，作为 diffusion model 的运动控制信号。在测试的时候，只需要音频就能够得到 motion latents。通过这种方式，可以借助与肖像运动强相关的条件（表情参数、运动参数）来帮助较弱相关的条件（audio）生成更好的 motion latents，进而实现对细微生动的肖像运动及表情的生成。

Loopy 在不同场景下都和近期的方法做了数值对比，也体现了相当的优势：

CyberHost 半身人像版模型，手部动作也能驱动

除此以外，该团队近期还推出了一个名为 CyberHost 的半身人像版本。这款模型是首个采用端到端算法框架进行纯音频驱动的半身视频生成系统，将驱动范围从肖像扩大到了半身，不仅表情自然、口型准确，也能生成和音频同步的手部动作，这在该领域是一个重大突破。

手部动作生成一直是视频生成技术中的难题，鲜有模型能实现稳定的效果。特别是在纯音频驱动的场景下，由于缺乏骨架信息输入，保持手部动作的稳定性更具挑战。CyberHost 通过专门设计的 Codebook Attention 来强化对人脸和手部等关键区域的结构先验学习，在纯音频驱动下的手部生成质量甚至超越了许多基于视频驱动的方法。

，时长00:20

，时长00:18

Codebook Attention 引入了一系列可学习的时空联合隐变量参数，专注于在训练过程中学习数据集中局部区域的结构特征和运动模式。同时，该机制还提取了关键区域的外观特征，强化了局部 ID 的一致性。团队将这一机制应用于脸部和手部区域，并在 Denoising U-Net 的各个阶段进行插入，提升了对关键区域的建模能力。

此外，CyberHost 还设计了一系列基于人体结构先验的训练策略，旨在减少音频驱动下人体动作生成的不确定性。这些策略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限制视频生成中人体的运动范围。而 Hand Clarity Score 通过计算局部像素的 laplacian 算子来控制生成手部的清晰度，规避手部运动模糊带来的效果劣化。

更多细节见论文以及项目主页：

CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

#KAG

蚂蚁自研知识增强大模型服务框架KAG，可显著提升知识推理准确率

近日，在 2024 Inclusion・外滩大会 “超越平面思维，图计算让 AI 洞悉复杂世界” 见解论坛上，蚂蚁集团知识图谱负责人梁磊分享了 “构建知识增强的专业智能体” 相关工作，并带来了知识图谱与大模型结合最新研发成果 —— 知识增强大模型服务框架 KAG。

梁磊介绍，专业领域增强大模型服务框架 KAG 通过图谱逻辑符号引导决策和检索，显著提升了垂直领域决策的精准性和逻辑严谨性；通过信息检索可补全知识图谱的稀疏性和知识覆盖的不足，同时充分利用大语言模型的理解和生成能力降低领域知识图谱的构造门槛。KAG 框架在垂直领域的适用性得到了有效验证。比如，支付宝最新推出的 AI 原生 App “支小宝” 采用这套框架，在政务问答场景的准确率提升到了 91%，医疗问答垂直的指标解读准确率可达 90% 以上。梁磊还透露，KAG 框架会进一步向社区开放，并在开源框架 OpenSPG (https://github.com/OpenSPG/openspg) 中原生支持，也欢迎社区共建。

1、可信是大语言模型真正落地应用的前提

大语言模型有着很好的理解和生成能力，在垂直领域的应用有巨大的机会，但同时也存在着非常大的挑战。比如在垂直领域跟专家经验、一些具体业务结合的时候，依然存在着不懂领域知识、做不了复杂决策、不可靠等问题。

首先，大语言模型本身不具备比较严谨的思考能力。在一些测试中，我们让大语言模型做复杂问题的拆解，问两部电影之间的共同主演是谁，结果显示总体上回复的准确性和一致性相对较低，甚至还有一些拆解错误。这种情况下，大语言模型很难严格遵从人类的指令。此外，大语言模型还存在事实性不足的问题。今年以来行业尝试把 RAG、搜索引擎之类的技术引入到大语言模型，来补充事实性不足的问题，以及 GraphRAG，用图的方式去重新组织它的检索。但问题是，即便引入了一些外部知识库，把一些垂直领域的知识库和事实文档给到语言模型，模型也不见得能够完全生成一个准确的答案。

除此以外，大模型在外部知识库召回的时候，也依然会存在召回不准的问题。举个基于向量计算的 RAG 的例子。比如问 “怎么查找我的养老金”，常见的有两种做法，一种是直接基于向量计算去召回文档，但是往往和业务专家定义的知识不相关。但在垂直领域，有很多知识在字面上不相似，但却是很相关的。比如政策明确规定了五险一金的范围，大模型不能对这些内容做胡乱生成，这就必须有一些预定义的领域知识和预定义的知识结构，来约束大模型的行为，甚至给它提供一个更有效的知识注入，而这些都是模型在文本上不相似，但却是强相关的。在这种情况下，今年讨论引入知识图谱技术的也越来越多。通过知识图谱的语义相关性来提升模型内容的相关性，以此可以做更好的语义计算和语义的召回。

大模型幻觉也是阻碍应用的关键挑战之一。那么，引入了 RAG、知识库之后，大模型就能解决幻觉问题了吗？其实不然，而且有些幻觉问题不仔细观察便难以察觉。举个例子，比如原文提到功能饮料中的维生素、矿物质等，对运动后补充身体营养、消除疲劳具有一定作用，而大模型重新生成以后，可能会改写成对于增加疲劳有一定作用。这种其实就会给一个错误的引导，但这种错误的引导，尤其是大模型生成的文案可能是几百字，甚至上千字的，这时候就很难从里面观察到这类细节问题。通过测评发现，大语言模型即便是加入 RAG 以后，依然有大概 30% 到 40% 的幻觉率。

在真实业务决策场景，挑战就更多了。以金融场景为例，无论是研报生成，还是医疗问诊等等，业务上都有比较严格的问题规划、信息获取、决策建议，甚至生成和反馈的过程。也就是说，因为大语言模型还是要为人类服务，应用在一个个垂直业务场景，每一类都需要准确的决策过程，如果这个决策过程不能得到很好的控制的话，就很难真正意义上用在垂直领域。在专业性的知识服务场景，大语言模型服务的首要前提是知识精准。这就包括知识的边界是完备的，知识的结构及语义清晰、逻辑严谨。另外，在垂直领域落地，也一定要对时间、数字和逻辑敏感，无论让它做多跳推理，还是逻辑规则数字计算，而这些恰好是大语言模型所不擅长的，包括前一段时间热议的 9.9 和 9.12 比大小的例子。

基于此，我们认为在垂直领域落地的时候，大语言模型一定确保专业和可信。可信是大语言模型真正意义上落地的前提。如果不能保证可信，我们可能不会迎来真正意义上的 AGI 的变革。这也是蚂蚁为什么要做知识增强的重要原因。

2、KAG：专业领域知识增强大模型服务框架

应对大模型在真实应用场景遇到的挑战，蚂蚁研发了基于知识增强在垂直领域的可控生成框架 KAG。

KAG 可控生成框架是基于开源系统 OpenSPG 升级，并且结合了蚂蚁自研的图数据库 TuGraph-DB 的能力。TuGraph-DB 作为 KAG 中知识图谱 SPG 的底层图引擎，为 KAG 提供了高效的知识存储与检索能力。KAG 将抽取的知识存储于 SPG 中，由 TuGraph-DB 提供图存储；在检索流程中，SPG 通过 TuGraph-DB 的 Cypher 接口检索与用户提问相关的知识信息，并将结果反馈给大模型生成回答。

KAG 框架针对大语言模型和图谱的结合做了五方面的增强：分别是知识表示的增强、图结构与文本互索引、符号引导的拆解和推理、基于概念的知识对齐、KAG Model。具体包括以下关键能力：

1） KAG: LLMs 友好的知识表示

今年，我们对语义表示进行了升级，旨在进一步发展 OpenSPG 项目，推动知识图谱从静态二元结构向多元动态结构持续升级。通过原始文本增强深度上下文感知，我们实现了更丰富的可解释文本的知识关联，对大语言模型也更友好，同时，参考 DIKW 层次范式在同一实体空间中支持 Schema 约束、无模式建模及文本结构的分层表示。

同时，我们探讨了 GraphRAG 范式的两种主要实现：微软的 GraphRAG 和 HippoRAG。尽管微软的 GraphRAG 在摘要生成类任务上有不错表现，但在事实问答准确率上表现不佳。而 HippoRAG 通过图结构构建倒排索引，显著提升了文档召回的相关性和事实问答的准确性。我们的目标是在专业领域内实现准确的事实性回答和报告生成，融合不同层级知识创建从严格到宽松的决策范式。

2）互索引：结构化知识与文本数据互索引结构

我们将原有的 term-based 倒排索引升级为 graph-based 倒排索引，通过开放信息抽取获取原始文档中的关键元素和描述性信息，进行有效的语义切分，最终形成一个包含业务实体、通用概念知识和文本块的图结构。这种结构不仅便于遍历和检索文本块，还能有效分析文档间的关联。

3）混合推理：符号决策、向量检索与大模型混合推理

我们在 KAG 中构建了一个混合推理引擎，旨在解决知识图谱在严谨决策中的应用问题。目标是开发一套技术范式，支持复杂推理决策的执行，同时通过信息检索来弥补知识图谱的不足。

该框架采用符号驱动的方法生成逻辑可执行的查询表达式（Logic form Query）。通过图结构操作，利用分层知识进行决策：先在逻辑知识层检索，若无解则转向开放信息层，再通过关联文档检索提高召回率和准确性。在生成阶段，我们应用 query-focused summary 方法，以通过查询结构提取答案，解决传统知识图谱与用户查询的粒度匹配问题。同时，基于知识图谱的反馈有助于抑制语言模型生成中的幻觉，提高准确性。系统将问题拆解为逻辑符号表达，可转化为 KGDSL 或 GQL。我们的两阶段规划包含图谱存储中的精确匹配和 SPO 子图检索，最后集成知识图谱以减轻幻觉。通过文本抽取的三元组注入语言模型，在生成时遵循结构范式，有效降低幻觉率。这种方法在内部业务中如区域风险报告生成中已显著改善，我们将继续深入探索这一方向。

4）语义对齐：平衡信息检索与专业决策

问题的关键在于如何有效整合信息检索和专业决策。信息检索允许一定的错误率，而专业决策对准确性要求则是严格的。因此，我们通过开放信息抽取构建结构化知识，并应用 schema 约束以提升决策的严谨性。此外，基于概念的语义对齐让我们能兼顾这两者，形成一个基于 SPG 的领域知识图谱，从而改善信息检索和专业决策的能力。

我们通过传统图谱方法，如实体链接和概念分层等，提升了图结构的稠密性和语义完备性。借助与浙江大学的 OpenKG 合作，推进 OneGraph 项目，我们致力于通过增强知识对齐能力，降低构建成本。同时，在垂直领域的探索中，例如医疗和法律术语的应用，我们优化了开放抽取的效率，显著提升了与领域知识的对齐准确性。我们的框架在通用数据集上较现有 SOTA 的 F1 提高了 10-20 个百分点，并在实际应用中，比如政务和医疗问答场景，取得了显著的精度提升，表明其在专业决策中的有效性。

5） KAG 模型：定义 LLMs 与 KGs 之间的协同任务

KAG 模型旨在降低大型语言模型（LLMs）与知识图谱（KGs）结合的成本，利用指令合成技术使较小模型在性能上接近更大模型。我们对 LLMs 和 KGs 的能力进行对齐，强调自然语言理解、推理和生成能力，确保从文本中提取结构化信息并提升知识融合效率。结构化、语义化的知识图谱和原始文档之间形成了良好的双向映射，从文本到图谱则是刻画文本内的关键信息和符号结构，从图谱到文本则是描述文本生成中所必须满足的知识和逻辑约束。

为构建知识图谱，我们注重知识点的文本可解释性，要求附带描述信息、关联原始文本段，避免仅只有原始词条。知识图谱的结构化特性有助于生成高质量指令，通过逻辑拆解和语义关系合成提升大语言模型的自然语言理解和推理能力。此外，指令的合成和语义对齐使小参数量模型达到接近或超越更大参数模型的效果，同时大幅提升性能。实践中发现图谱指令合成微调后的小模型在概念补全、信息抽取等图谱专用任务上的准确率均高于更大参数模型。

3. KAG 在垂直领域的典型应用

今年以来，我们在业务应用中不断完善 KAG 框架。在支付宝 AI 生活管家 “支小宝” 的热点事件功能、政务民生场景，以及研报生成类任务，KAG 都能够生成逻辑上更为准确的内容。此外，支付宝今年在政务办事和医疗健康两个重要功能升级中也应用了知识图谱技术。例如，“去医院针灸能否报销？” 这一问题包含了特定条件，而带有条件的检索是传统搜索引擎或向量计算所不具备的功能。通过知识图谱的方式，我们可以更有效地找到相关知识并生成更加完备的回答。

近期，蚂蚁将发布 KAG 的整体技术报告。我们希望真正融合知识图谱的符号计算和向量检索的优势，因为它们在很多方面是互补的。同时，利用大型语言模型的理解和生成能力，构建一个知识增强的大语言模型生成系统。

在这个过程中，我们首先需要解决的是垂直领域应用的问题。系统既能进行复杂的符号决策，又能在复杂符号决策无法满足需求时，通过向量检索进行补充。在框架的后续版本中，我们将提供一些用户可调的参数。这意味着，如果用户对准确率有极高要求，可以减少基于信息检索生成的内容；如果对准确率有一定容忍度，则可以适当放宽标准。这为用户提供了一个可调节的垂直领域解决方案。因为并不是所有垂直领域应用场景都要求绝对的准确率，而是存在一定的容忍范围。因此，我们可以为用户提供更多的动态选择。

除了上述工作，为加速知识图谱与大语言模型的双向融通，蚂蚁集团也和浙江大学成立了知识图谱联合实验室。联合实验室已发布了大模型抽取框架 OneKE，下一步还将构建增强语言模型的 OneGraph。

后记：在 2024Inclusion・外滩大会 “超越平面思维，图计算让 AI 洞悉复杂世界” 见解论坛上，美国伊利诺伊大学芝加哥分校计算机科学与技术系特聘教授俞士纶、国际关联数据基准委员会（LDBC）副主席 Alastair Green、中国人寿财产保险有限公司人工智能开发团队负责人孔宇飞、蚂蚁数字科技 AI 技术负责人章鹏、蚂蚁集团图计算解决方案架构师崔安颀等嘉宾也带来了精彩分享，更多观点可点击阅读原文查看。

#MMRole多模态角色扮演

与「李白」赏图赋诗，同「猴哥」直面天命，人大高瓴提出

代彦琪是中国人民大学高瓴人工智能学院的三年级博士生，师从卢志武教授，2022年毕业于大连理工大学软件学院。他的研究兴趣包括多任务学习、多模态大模型以及角色扮演智能体等领域，近期尤其关注多模态大模型指令微调中的多任务冲突问题。如有任何交流或合作机会，欢迎通过邮箱 yanqi_dai@ruc.edu.cn 联系。

随着大语言模型的飞速发展，角色扮演智能体（RPAs）正逐渐成为 AI 领域的热门话题。这类智能体不仅能够为人们提供陪伴、互动和娱乐，还在教育、社会模拟等领域展现出重要的应用潜力。然而，当前市面上的大多数角色扮演智能体都只会「文字聊天」，其理解能力仅限于单一的文本模态，远远无法与具备多模态感知能力的人类相比。这让我们不禁思考：我们真的只能与这些「单调」的智能体对话吗？显然，答案是否定的！

近日，中国人民大学高瓴人工智能学院的研究团队率先提出了「多模态角色扮演智能体」（MRPAs）的概念。这类智能体不仅能够扮演特定角色，还能够围绕图像进行多模态对话。与此同时，团队正式推出了 MMRole—— 一个专为 MRPAs 开发与评测量身打造的综合框架。

代码仓库：https://github.com/YanqiDai/MMRole
论文地址：https://arxiv.org/abs/2408.04203

图 1：MMRole 框架概述。

如图 1 所示，该框架包括一个大规模、高质量的多模态角色扮演数据集 MMRole-Data，并配备了一套健全的评测方法 MMRole-Eval，涵盖三个维度下的八项指标。在此基础上，团队开发了首个专门的多模态角色扮演智能体 ——MMRole-Agent，在多模态信息理解和角色扮演能力上明显优于同等参数规模的通用对话模型。

MMRole 打破了传统角色扮演智能体仅限于单一模态的局限，让智能体能够在图像和文字之间自由切换，带来更为沉浸的对话体验，进一步扩展了角色扮演智能体的应用场景与价值。

MMRole-Data 数据集

如图 1（a）所示，MMRole-Data 是一个大规模、高质量的多模态角色扮演数据集，包含 85 个角色及其身份信息、11K 张图像，以及 14K 段围绕图像展开的单轮或多轮对话，共生成了 85K 条训练样本和 294 条测试样本。在数据构建过程中，团队借助了 GPT-4V 进行辅助生成，并执行了严格的人工质量审查，为角色扮演智能体的训练和性能评测奠定了坚实基础。

图 2：MMRole-Data 中构建的所有角色。

如图 2 所示，MMRole-Data 涵盖了三种角色类型：虚构角色、历史和公众人物，以及假想现实角色。前两类角色的身份信息由 GPT-4 通过总结 Wikipedia 或百度百科的人物介绍生成，而第三类角色的身份信息则通过 GPT-4 采用两阶段生成方式，在确保多样性的基础上随机生成。前两类角色在之前的研究中已有较多探讨，团队特别引入了第三类角色，旨在提升和评测 MRPAs 在并不广为人知的角色上的性能，使其在多样化角色扮演场景中展现出更强的灵活性与泛化性。

进一步地，MMRole-Data 引入来自 MS-COCO 数据集的通用图像，确保了对广泛视觉概念的覆盖。同时，团队还人工收集和标注了剧照等与角色密切相关的图像，以更有效地唤起角色的个人经历和情感。

图 3：MMRole-Data 中三种对话场景的示例。

最后，如图 3 所示，团队利用 GPT-4V 生成了三类以图像为中心的对话场景：评论性交互、用户 - 角色对话，以及角色间对话。这些对话经过多轮规则过滤和严格的人工质量审查，确保了对话内容的准确性和角色一致性。

图 4：MMRole-Data 中文示例。

特别地，如图 4 所示，团队对数据集的中文部分进行了精细打磨，成功再现了李白、孙悟空等经典人物的形象。通过深入挖掘这些角色的独特个性和背景故事，MRPAs 能够在多模态对话中更具表现力和沉浸感，为用户带来更加真实的互动体验。

MMRole-Eval 评测方法

如图 1（b）所示，MMRole-Eval 是一套稳健而全面的多模态角色扮演智能体评测方法，涵盖三个维度下的八项评测指标，确保对智能体的多方面能力进行深入评估。具体的评测指标包括：

基础对话技巧

指令遵循度（Instruction Adherence, IA）
流畅度（Fluency, Flu）
连贯性（Coherency, Coh）

多模态理解能力

图文相关性（Image-Text Relevance, ITR）
响应准确度（Response Accuracy, RA）

角色扮演质量

性格一致性（Personality Consistency, PC）
知识一致性（Knowledge Consistency, KC）
语气一致性（Tone Consistency, TC）

为了定量评估 MRPAs 在各项指标上的性能，团队开发了一个专门的奖励模型。该模型首先对待评估的 MRPA 与构建的标准答案之间的相对性能进行简要的定性评价，随后为其生成一个定量的分数对，MRPA 的最终得分为该分数对中两个分数的比值。为了开发这一奖励模型，团队利用 GPT-4 在所有测试样本上对多个 MRPAs 进行评测，生成了大量评测轨迹，这些轨迹随后被转换为奖励模型的训练和验证数据。

评测结果与分析

表 1：MMRole-Eval 评测结果。In-Test 表示在训练集中出现过的角色上的测试，而 Out-Test 表示在训练集中未见过的角色上的测试。

如表 1 所示，团队开发的首个专门的多模态角色扮演智能体 MMRole-Agent（9B）在各项指标上表现出了卓越的性能，整体性能远超同等参数规模（<10B）的通用对话模型，甚至优于部分参数量更大（10B-100B）的模型。此外， MMRole-Agent 在未见过的角色上同样展现出了强大的泛化能力。

图 5：MMRole-Eval 评测结果的可视化。

此外，如图 5 所示，团队将评测结果进行了可视化分析，发现所有 MRPAs 在流畅度指标上均获得了较高分数，表明生成流畅内容对于现有的大模型而言相对容易。然而，在其他评测指标上，尤其是性格一致性和语气一致性指标，不同的 MRPAs 之间存在显著差异。这说明，在多模态角色扮演智能体的开发中，多模态理解能力和角色扮演质量是更具挑战性的方面，需要在未来的研究和优化中予以特别关注。

#PaperQA2

检索总结能力超博士后，首个大模型科研智能体PaperQA2开源了

这是 AI 智能体在大部分科学研究中超越人类的第一个案例，或许会彻底改变人类与科学文献互动的方式。

最近一段时间，有关 AI 科学家的研究越来越多。大语言模型（LLM）有望帮助科学家检索、综合和总结文献，提升人们的工作效率，但在研究工作中使用仍然有很多限制。

对于科研来说，事实性至关重要，而大模型会产生幻觉，有时会自信地陈述没有任何现有来源或证据的信息。另外，科学需要极其注重细节，而大模型在面对具有挑战性的推理问题时可能会忽略或误用细节。

最后，目前科学文献的检索和推理基准尚不完善。AI 无法参考整篇文献，而是局限于摘要、在固定语料库上检索，或者只是直接提供相关论文。这些基准不适合作为实际科学研究任务的性能代理，更重要的是，它们通常缺乏与人类表现的直接比较。因此，语言模型和智能体是否适合用于科学研究仍不清楚。

近日，来自 FutureHouse、罗切斯特大学等机构的研究者们尝试构建一个更为强大的科研智能体，并对 AI 系统和人类在三个现实任务上的表现进行严格比较。这三个任务有关搜索整个文献以回答问题；生成一篇有引用的、维基百科风格的科学主题文章；从论文中提取所有主张，并检查它们与所有文献之间的矛盾。

这可能是第一个在多个现实文献搜索任务上评估单个 AI 系统的强大程序。利用新开发的评估方法，研究者探索了多种设计，最终形成了 PaperQA2 系统，它在检索和总结任务上的表现超过了博士生和博士后。

将 PaperQA2 应用于矛盾检测任务让我们能够大规模识别生物学论文中的矛盾。例如，ZNF804A rs1344706 等位基因对精神分裂症患者的大脑结构有积极影响的说法与后来发表的研究相矛盾，该研究发现 rs1344706 对大脑皮质厚度、表面积和皮质体积的影响会加剧患精神分裂症的风险。

论文地址：https://storage.googleapis.com/fh-public/paperqa/Language_Agents_Science.pdf
GitHub 链接：https://github.com/Future-House/paper-qa

网友纷纷表示这项工作太棒了，并且是开源的。

回答科学问题

为了评估 AI 系统对科学文献的检索能力，研究者首先生成了 LitQA2，这是一组共 248 个多项选择题，其答案需要从科学文献中检索。LitQA2 问题的设计目的是让答案出现在论文正文中，但不出现在摘要中，理想的情况下，在所有科学文献中只出现一次。这些约束使我们能够通过将系统引用的来源 DOI 与问题创建者最初分配的 DOI 进行匹配来评估回答的准确性（下图 A）。

为了执行这些标准，研究者生成了大量关于最近论文中模糊的中间发现的问题，然后排除了任何现有 AI 系统或人类注释者可以使用替代来源进行回答的问题。它们都是由专家生成的。

在回答 LitQA2 问题时，模型可以通过选择「信息不足，无法回答此问题」来拒绝回答。与先前的研究和实际的科学问题类似，有些问题本来就是无法回答的。研究者评估了两个指标：精确度（即在提供答案时正确回答的问题的比例）和准确度（即所有问题中正确答案的比例）。此外还考虑了召回率，即系统将其答案归因于 LitQA2 中表示的正确源 DOI 的问题的总百分比。

在开发了 LitQA2 之后，研究者利用它来设计一个科学文献的 AI 系统。在 PaperQA 的启发下，PaperQA2 是一个 RAG 智能体，它将检索和响应生成视为一个多步骤智能体任务，而不是一个直接过程。PaperQA2 将 RAG 分解为工具，使其能够修改其搜索参数，并在生成最终答案之前生成和检查候选答案（下图 A）。

PaperQA2 可以访问「论文搜索」工具，其中智能体模型将用户请求转换为用于识别候选论文的关键字搜索。候选论文被解析为机器可读的文本，并分块以供智能体稍后使用。PaperQA2 使用最先进的文档解析算法（Grobid19），能可靠地解析论文中的章节、表格和引文。找到候选论文后，PaperQA2 可以使用「收集证据」工具，该工具首先使用 top-k 密集向量检索步骤对论文块进行排序，然后进行大模型重新排序和上下文摘要（RCS）步骤。

在回答 LitQA2 问题时，PaperQA2 平均每道题解析并使用 14.5 ± 0.6（平均值 ± SD，n = 3）篇论文。在 LitQA2 上运行 PaperQA2 可获得 85.2% ± 1.1%（平均值 ± SD，n = 3）的精确度和 66.0% ± 1.2%（平均值 ± SD，n = 3）的准确度。另外，系统在 21.9% ± 0.9%（平均值 ± SD，n = 3）的答案中选择报告「信息不足」（下图 B）。

研究者发现 PaperQA2 在 LitQA2 基准测试中的精确度和准确度均优于其他 RAG 系统。我们还可以发现，除 Elicit 外所有测试的 RAG 系统在精确度和准确度方面均优于非 RAG 前沿模型。

为了确保 PaperQA2 不会过拟合，从而无法在 LitQA2 上取得优异成绩，研究者在对 PaperQA2 进行大量工程改动后，生成了一组新的 101 个 LitQA2 问题。

PaperQA2 在原始 147 个问题上的准确率与后一组 101 个问题的准确率没有显著差异，这表明在第一阶段的优化已经很好地推广到了新的 LitQA2 问题（下表 2）。

PaperQA2 性能分析

研究者尝试改变 PaperQA2 的参数，以了解哪些参数决定其准确性（下图 C）。他们创建了一个非智能体版本，其中包含一个硬编码操作序列（论文搜索、收集证据，然后生成答案）。非智能体系统的准确率明显较低（t (3.7)= 3.41，p= 0.015），验证了使用智能体的选择。

研究者将性能差异归因于智能体更好的记忆能力，因为它可以在观察到找到的相关论文数量后返回并更改关键字搜索（论文搜索工具调用）。

结果显示，LitQA2 运行准确度最高时为每个问题进行了 1.26 ± 0.07（平均值 ± SD）次搜索，每个问题进行了 0.46 ± 0.02（平均值 ±SD）次引用遍历，这表明智能体有时会返回进行额外搜索或遍历引用图以收集更多论文。

为了改进相关块检索，研究者假设，找到的论文对于现有相关块的引用者或被引用者而言将是一种有效的分层索引形式。通过去除「引用遍历」工具验证了这一点，该工具显示准确率有所提高（t (2.55) = 2.14，p= 0.069），DOI 召回率显著提高（t (3) = 3.4，p = 0.022），并在 PaperQA2 流程的所有阶段都是如此。该工具的流程反映了科学家与文献互动的方式。

研究者曾假设解析质量会影响准确度，但 Grobid 解析和更大的块并没有显著提高 LitQA2 的精度、准确度或召回率（下图 6）。

总结科学主题

为了评估 PaperQA2 的摘要功能，研究者设计了一个名为 WikiCrow 的系统。该系统通过结合多个 PaperQA2 调用来生成有关人类蛋白质编码基因的维基百科风格文章，而这些调用涉及基因的结构、功能、相互作用和临床意义等主题。

研究者使用 WikiCrow 生成了 240 篇有关基因的文章，这些文章已经有非存根维基百科文章进行匹配比较。WikiCrow 文章平均为 1219.0 ± 275.0 个字（平均值 ± SD，N = 240），比相应的维基百科文章（889.6 ± 715.3 个字）长。平均文章生成时间为 491.5 ± 324.0 秒，平均每篇文章成本为 4.48 ± 1.02 美元（包括搜索和 LLM API 的费用）。

同时，「引用但不受支持」评估类别包括不准确的陈述（例如真实幻觉或推理错误）和准确但引用不当的声明。

为了进一步调查维基百科和 WikiCrow 中的错误性质，研究者手动检查了所有报告的错误，并尝试将问题分类为以下几类：

推理问题，即书面信息自相矛盾、过度推断或不受任何引用支持；
归因问题，即信息可能得到另一个包含的来源支持，但该声明在本地没有包含正确的引用或来源太宽泛（例如数据库门户链接）；
琐碎的声明，这些声明虽是真实的段落，但过于迂腐或没有必要。

检测文献中的矛盾

由于 PaperQA2 可以比人类科学家探索吞吐量高得多的科学文献，因此研究者推测可以部署它来系统地、大规模地识别文献中矛盾和不一致的地方。矛盾检测是一个「一对多」问题，原则上涉及将一篇论文中的观点或声明与文献中所有其他观点或声明进行比较。在规模上，矛盾检测变成了「多对多」问题，对人类来说失去了可行性。

因此，研究者利用 PaperQA2 构建了一个名为 ContraCrow 的系统，可以自动检测文献中的矛盾（下图 A）。

ContraCrow 首先使用一系列 LLM completion 调用从提供的论文中提取声明，然后将这些声明输入到 PaperQA2 中，并附带矛盾检测提示。该提示指示系统评估文献中是否存在与提供的声明相矛盾的内容，并提供答案和 11-point 李克特量表的选择。使用李克特量表可让系统在提供排名时给出更可靠、更易于解释的分数。

接下来，研究者评估了 ContraCrow 检测 ContraDetect 中矛盾的能力。通过将李克特量表输出转换为整数，他们能够调整检测阈值并获得 AUC 为 0.842 的 ROC 曲线。将阈值设置为 8（矛盾），ContraCrow 实现了 73% 的准确率、88% 的精度和仅为 7% 的假阳性率（下图 C）。

研究者将 ContraCrow 应用于从数据库中随机选择的 93 篇生物学相关论文，平均每篇论文识别出 35.16 ± 21.72（平均值 ± SD，N = 93）个声明。在对 93 篇论文分析出的 3180 个声明中，ContraCrow 认为 6.85% 与文献相矛盾，其中分别有 2.89%、3.77% 和 0.19% 的声明被打了 8 分、9 分和 10 分（下图 D）。

此外，当将李克特量表阈值设定为 8，研究者发现平均每篇论文有 2.34 ± 1.99 个矛盾（平均值 ± SD）（下图 E）。

更多任务细节和测试结果请参阅原论文。

#OpenAI震撼发布o1大模型

大模型领域的技术发展，今天起再次「从 1 开始」了。

大语言模型还能向上突破，OpenAI 再次证明了自己的实力。

北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。

OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览版 ——o1-preview。除了 o1，OpenAI 还展示了目前正在开发的下次更新的评估。

o1 模型一举创造了很多历史记录。

首先，o1 就是此前 OpenAI 从山姆・奥特曼到科学家们一直在「高调宣传」的草莓大模型。它拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，让大模型的上限从「没法看」直接上升到优秀水平，不专门训练直接数学奥赛金牌，甚至能在博士级别的科学问答环节上超越人类专家。

奥特曼表示，虽然 o1 的表现仍然存在缺陷，不过你在第一次使用它的时候仍然会感到震撼。

其次，o1 给大模型规模扩展 vs 性能的曲线带来了一次上翘。它在大模型领域重现了当年 AlphaGo 强化学习的成功 —— 给越多算力，就输出越多智能，一直到超越人类水平。

也就是从方法上，o1 大模型首次证明了语言模型可以进行真正的强化学习。

开发出首个 AI 软件工程师 Devin 的 Cognition AI 表示，过去几周一直与 OpenAI 密切合作，使用 Devin 评估 o1 的推理能力。结果发现，与 GPT-4o 相比，o1 系列模型对于处理代码的智能体系统来说是一个重大进步。

最后在实践中，o1 上线之后，现在 ChatGPT 可以在回答问题前先仔细思考，而不是立即脱口而出答案。就像人类大脑的系统 1 和系统 2，ChatGPT 已经从仅使用系统 1（快速、自动、直观、易出错）进化到了可使用系统 2 思维（缓慢、深思熟虑、有意识、可靠）。这让它能够解决以前无法解决的问题。

从今天 ChatGPT 的用户体验来看，这是向前迈进一小步。在简单的 Prompt 下，用户可能不会注意到太大的差异，但如果问一些棘手的数学或者代码问题，区别就开始明显了。更重要的是，未来发展的道路已经开始显现。

总而言之，今晚 OpenAI 丢出的这个重磅炸弹，已经让整个 AI 社区震撼，纷纷表示 tql、睡不着觉，深夜已经开始抓紧学习。接下来，就让我们看下 OpenAI o1 大模型的技术细节。

OpenAI o1 工作原理

在技术博客《Learning to Reason with LLMs》中，OpenAI 对 o1 系列语言模型做了详细的技术介绍。

OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是，o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。

也就是该模型在作出反应之前，需要像人类一样，花更多时间思考问题。通过训练，它们学会完善自己的思维过程，尝试不同的策略，并认识到自己的错误。

在 OpenAI 的测试中，该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。

在国际数学奥林匹克（IMO）资格考试中，GPT-4o 仅正确解答了 13% 的问题，而 o1 模型正确解答了 83% 的问题。

模型的编码能力也在比赛中得到了评估，在 Codeforces 比赛中排名 89%。

OpenAI 表示，作为早期模型，它还不具备 ChatGPT 的许多实用功能，例如浏览网页获取信息以及上传文件和图片。

但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI 将计数器重置为 1，并将该系列模型命名为 OpenAI o1。

重点在于，OpenAI 的大规模强化学习算法，教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。换言之，类似于强化学习的 Scaling Law。

OpenAI 发现，随着更多的强化学习（训练时计算）和更多的思考时间（测试时计算），o1 的性能持续提高。而且扩展这种方法的限制与大模型预训练的限制有很大不同，OpenAI 也还在继续研究。

评估

为了突出相对于 GPT-4o 的推理性能改进，OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了 o1 模型。实验结果表明，在绝大多数推理任务中，o1 的表现明显优于 GPT-4o。

o1 在具有挑战性的推理基准上比 GPT-4o 有了很大的改进。

o1 在广泛的基准测试上比 GPT-4o 有所改进，包括 54/57 MMLU 子类别，图示出了 7 个以供说明。

在许多推理密集型基准测试中，o1 的表现可与人类专家相媲美。最近的前沿模型在 MATH 和 GSM8K 上表现得非常好，以至于这些基准测试在区分模型方面不再有效。因此，OpenAI 在 AIME 上评估了数学成绩，这是一项旨在测试美国最聪明高中数学学生的考试。

在一个官方演示中，o1-preview 解答了一个非常困难的推理问题：当公主的年龄是王子的两倍时，公主的年龄与王子一样大，而公主的年龄是他们现在年龄总和的一半。王子和公主的年龄是多少？提供这个问题的所有解。

在 2024 年 AIME 考试中，GPT-4o 平均只解决了 12% (1.8/15) 的问题，而 o1 在每个问题只有一个样本的情况下平均为 74% (11.1/15)，在 64 个样本之间达成一致的情况下为 83% (12.5/15)，在使用学习的评分函数对 1000 个样本重新排序时为 93% (13.9/15)。13.9 分可以跻身全美前 500 名，并且高于美国数学奥林匹克竞赛分数线。

OpenAI 还在 GPQA Diamond 基准上评估了 o1，这是一个困难的智力基准，用于测试化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI 聘请了拥有博士学位的专家来回答 GPQA Diamond 基准问题。

实验结果表明：o1 超越了人类专家的表现，成为第一个在该基准测试中做到这一点的模型。

这些结果并不意味着 o1 在所有方面都比博士更有能力 —— 只是该模型更擅长解决一些博士应该解决的问题。在其他几个 ML 基准测试中，o1 实现了新的 SOTA。

启用视觉感知能力后，o1 在 MMMU 基准上得分为 78.2%，成为第一个与人类专家相当的模型。o1 还在 57 个 MMLU 子类别中的 54 个上优于 GPT-4o。

思维链（CoT）

与人类在回答难题之前会长时间思考类似，o1 在尝试解决问题时会使用思维链。通过强化学习，o1 学会磨练其思维链并改进其使用的策略。o1 学会了识别和纠正错误，并可以将棘手的步骤分解为更简单的步骤。o1 还学会了在当前方法不起作用时尝试不同的方法。这个过程极大地提高了模型的推理能力。

编程能力

基于 o1 进行了初始化并进一步训练了其编程技能后，OpenAI 训练得到了一个非常强大的编程模型（o1-ioi）。该模型在 2024 年国际信息学奥林匹克竞赛（IOI）赛题上得到了 213 分，达到了排名前 49% 的水平。并且该模型参与竞赛的条件与 2024 IOI 的人类参赛者一样：需要在 10 个小时内解答 6 个高难度算法问题，并且每个问题仅能提交 50 次答案。

针对每个问题，这个经过专门训练的 o1 模型会采样许多候选答案，然后基于一个测试时选取策略提交其中 50 个答案。选取标准包括在 IOI 公共测试案例、模型生成的测试案例以及一个学习得到的评分函数上的性能。

研究表明，这个策略是有效的。因为如果直接随机提交一个答案，则平均得分仅有 156。这说明在该竞赛条件下，这个策略至少值 60 分。

OpenAI 发现，如果放宽提交限制条件，则模型性能更是能大幅提升。如果每个问题允许提交 1 万次答案，即使不使用上述测试时选取策略，该模型也能得到 362.14 分——可以得金牌了。

最后，OpenAI 模拟了 Codeforces 主办的竞争性编程竞赛，以展示该模型的编码技能。采用的评估与竞赛规则非常接近，允许提交 10 份代码。GPT-4o 的 Elo 评分为 808，在人类竞争对手中处于前 11% 的水平。该模型远远超过了 GPT-4o 和 o1——它的 Elo 评分为 1807，表现优于 93% 的竞争对手。

在编程竞赛上进一步微调使得 o1 能力又增，并在 2024 年国际信息学奥林匹克竞赛（IOI）规则下排名前 49%。

下面这个官方示例直观地展示了 o1-preview 的编程能力：一段提示词就让其写出了一个完整可运行的游戏。

人类偏好评估

除了考试和学术基准之外，OpenAI 还在更多领域的具有挑战性的开放式提示上评估了人类对 o1-preview 和 GPT-4o 的偏好。

在这次评估中，人类训练者对 o1-preview 和 GPT-4o 的提示进行匿名回答，并投票选出他们更喜欢的回答。在数据分析、编程和数学等推理能力较强的类别中，o1-preview 的受欢迎程度远远高于 GPT-4o。然而，o1-preview 在某些自然语言任务上并不受欢迎，这表明它并不适合所有用例。

在需要更强大推理能力的领域，人们更青睐 o1-preview。

安全

思维链（CoT）推理为安全和对齐提供了新的思路。OpenAI 发现，将模型行为策略整合到推理模型的思维链中，可以高效、稳健地教导人类价值观和原则。通过向模型教导自己的安全规则以及如何在上下文中推理它们，OpenAI 发现推理能力直接有利于模型稳健性的证据：o1-preview 在关键越狱评估和用于评估模型安全拒绝边界的最严格内部基准上取得了显著的改进。

OpenAI 认为，使用思维链可以为安全和对齐带来重大进步，因为 1）它能够以清晰的方式观察模型思维，并且 2）关于安全规则的模型推理对于分布外场景更具稳健性。

为了对自己的改进进行压力测试， OpenAI 在部署之前根据自己的安全准备框架进行了一系列安全测试和红队测试。结果发现，思维链推理有助于在整个评估过程中提高能力。尤其值得注意的是，OpenAI 观察到了有趣的奖励黑客攻击实例。

安全准备框架链接：https://openai.com/safety/

隐藏思维链

OpenAI 认为隐藏思维链为监控模型提供了独特的机会。假设它是忠实且清晰的，隐藏思维链使得能够「读懂」模型的思想并了解其思维过程。例如，人们将来可能希望监控思维链以寻找操控用户的迹象。

但要做到这一点，模型必须能够自由地以未改变的形式表达其思想，因此不能在思维链方面训练进行任何政策合规性或用户偏好性训练。OpenAI 也不想让用户直接看到不一致的思维链。

因此，在权衡用户体验、竞争优势和追求思维链监控的选项等多种因素后，OpenAI 决定不向用户展示原始的思维链。OpenAI 承认这个决定有不好的地方，因此努力通过教导模型在答案中重现思维链中的任何有用想法来部分弥补。同时，对于 o1 模型系列，OpenAI 展示了模型生成的思维链摘要。

可以说，o1 显著提升了 AI 推理的最新水平。OpenAI 计划在不断迭代的过程中发布此模型的改进版本，并期望这些新的推理能力将提高将模型与人类价值观和原则相结合的能力。OpenAI 相信 o1 及其后续产品将在科学、编程、数学和相关领域为 AI 解锁更多新用例。

OpenAI o1-mini

o1 是一个系列模型。这次 OpenAI 还一并发布了一个 mini 版 OpenAI o1-mini。该公司在博客中给出了 preview 和 mini 版的不同定义：「为了给开发者提供更高效的解决方案，我们也发布了 OpenAI o1-mini，这是一个尤其擅长编程的更快、更便宜的推理模型。」整体来看，o1-mini 的成本比 o1-preview 低 80%。

由于 o1 等大型语言模型是在大量文本数据集上预训练，虽然具有广泛世界知识，但对于实际应用来说，可能成本高昂且速度慢。

相比之下，o1-mini 是一个较小的模型，在预训练期间针对 STEM 推理进行了优化。在使用与 o1 相同的高计算强化学习 (RL) pipeline 进行训练后， o1-mini 在许多有用的推理任务上实现了相媲美的性能，同时成本效率显著提高。

比如在需要智能和推理的基准测试中，与 o1-preview 和 o1 相比，o1-mini 表现良好。但它在需要非 STEM 事实知识的任务上表现较差。

数学能力：在高中 AIME 数学竞赛中，o1-mini (70.0%) 与 o1 (74.4%) 不相上下，但价格却便宜很多，并且优于 o1-preview (44.6%)。o1-mini 的得分（约 11/15 个问题）大约位于美国前 500 名高中生之列。

编码能力：在 Codeforces 竞赛网站上，o1-mini 的 Elo 得分为 1650，与 o1 (1673) 不相上下，并且高于 o1-preview (1258)。此外，o1-mini 在 HumanEval 编码基准和高中网络安全夺旗挑战 (CTF) 中也表现出色。

STEM：在一些需要推理的学术基准上，例如 GPQA（科学）和 MATH-500，o1-mini 的表现优于 GPT-4o。o1-mini 在 MMLU 等任务上的表现则不如 GPT-4o，并且由于缺乏广泛的世界知识而在 GPQA 基准上落后于 o1-preview。

人类偏好评估：OpenAI 让人类评分员在各个领域具有挑战性的开放式提示上比较 o1-mini 和 GPT-4o。与 o1-preview 类似，在推理密集型领域，o1-mini 比 GPT-4o 更受欢迎；但在以语言为中心的领域，o1-mini 并不比 GPT-4o 更受欢迎。

在速度层面，OpenAI 比较了 GPT-4o、o1-mini 和 o1-preview 对一个单词推理问题的回答。结果显示，GPT-4o 回答不正确，而 o1-mini 和 o1-preview 均回答正确，并且 o1-mini 得出答案的速度快了大约 3-5 倍。

如何使用 OpenAI o1？

ChatGPT Plus 和 Team（个人付费版与团队版）用户马上就可以在该公司的聊天机器人产品 ChatGPT 中开始使用 o1 模型了。你可以手动选取使用 o1-preview 或 o1-mini。不过，用户的使用量有限。

目前，每位用户每周仅能给 o1-preview 发送 30 条消息，给 o1-mini 发送 50 条消息。

是的，很少！不过 OpenAI 表示正在努力提升用户的可使用次数，并让 ChatGPT 能自动针对给定提示词选择使用合适的模型。

至于企业版和教育版用户，要到下周才能开始使用这两个模型。

至于通过 API 访问的用户，OpenAI 表示达到了 5 级 API 使用量的开发者可以即刻开始使用这两个模型开始开发应用原型，但同样也被限了速：20 RPM。什么是 5 级 API 使用量？简单来说，就是已经消费了 1000 美元以上并且已经是超过 1 个月的付费用户。请看下图：

OpenAI 表示对这两个模型的 API 调用并不包含函数调用、流式传输（streaming）、系统支持消息等功能。同样，OpenAI 表示正在努力提升这些限制。

未来

OpenAI 表示，未来除了模型更新之外，还将增加网络浏览、文件和图像上传等功能，以让这些模型变得更加有用。

「除了新的 o1 系列模型，我们计划继续开发和发布我们的 GPT 系列模型。」

参考内容：

https://openai.com/index/introducing-openai-o1-preview/

https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/

https://openai.com/index/learning-to-reason-with-llms/

https://x.com/sama/status/1834283100639297910

#首个自主机器学习AI工程师，刚问世就秒了OpenAI o1

Kaggle大师拿到饱

多智能体系统，可自动化整个 ML 工作流程，节省数千小时工时。

Open AI 的推理模型 o1，这么快就被比下去了？

本周五，AI 社区见证了又一项突破：一个完全自动化机器学习流程的 AI 工程师，能轻松获得 Kaggle 大师水平，在参与的 50 个 Kaggle 竞赛上获得了其中 26% 的奖牌，成绩远远优于之前 Open AI 的强化学习加强版的 o1 模型。

创造这项纪录的 AI，来自一家名为 NEO 的创业公司。

据该公司介绍，NEO 可以自动化整个机器学习的工作流程，为开发人员节省数千小时的繁重工作。它是一个多智能体（AI Agent）系统，可用并行的方式解决单一问题。

，时长02:14

目前这一 AI 系统还在内测申请阶段，除了视频 Demo 内容，我们还能找到官方的简单介绍：

机器学习中的挑战

首先是 NEO 希望解决的问题。

机器学习的「从数据中学习」这一看似简单的前提掩盖了开发人员每天面临挑战的复杂性。虽然传统编程遵循明确的规则和逻辑路径，但机器学习引入了一系列新的不确定性，即使是经验丰富的开发人员也难以应对。从本质上讲，机器学习不仅需要代码开发的专业知识，还需要对统计学、线性代数和微积分有深入的理解，这是许多软件工程师自大学毕业后就不再遇到的数学问题。

开发人员面临的第一个障碍是数据质量和准备。原始数据很少以干净、直接可用的格式出现。相反，开发人员必须花费大量时间处理缺失值、异常值和不一致的格式，同时做出有关数据清理的关键决策，这可能会显著影响模型性能。

模型的选择带来了另一层复杂性。在解决某个问题时通常会有几十种算法可用，每种算法都有自己的优势和局限性，选择正确的方法成为一个关键的决策点。仅神经网络就提供了无数的架构可能性，从简单的前馈网络到 Transformer，每个模型都需要仔细调整超参数。

计算资源增加了另一个复杂性维度。虽然小型模型可以在笔记本电脑上运行，但很多机器学习开发通常需要云基础设施、分布式计算和 GPU 优化。开发人员必须熟练掌握 Docker、Kubernetes 和各种云平台等工具。

部署本身也带来了一系列挑战。在开发过程中表现优秀的模型可能会随着数据漂移而退化，需要持续监控和重新训练 pipeline。开发人员不仅必须跟踪代码更改，还必须跟踪数据版本、模型参数和训练配置。

这可能意味着开发人员要在每个步骤中投入数周或数月的工时，才能构建一个能够有效解决问题的 AI 模型。

NEO—— 完全自主的机器学习工程师

NEO 的出现大幅简化了这整套机器学习工作流程，使工程师能够以 10 倍的速度构建和部署 pipeline。它的开发充分考虑了机器学习专业人士的需求，并被设计为像实习生一样，能够从人类的反馈中进行学习。

它是如何运作的？NEO 是由多个智能体驱动多个专门模型实现的，每个微调模型专门用于机器学习生命周期的不同部分。

面对具体目标，NEO 会启动一套完整的工作流以达成目标。NEO 通过结构化的多步骤方法，将复杂问题拆解为易于管理的组件，化繁为简，从而实现目标。

这一方法包括计划、编码、执行和调试的持续循环，确保在每个阶段都进行充分优化。在这个过程中，NEO 会根据进展不断调整和迭代，直到获得最佳结果。一旦开发者批准 NEO 的输出，整个工作流程即可在几秒钟内部署。NEO 为机器学习工程师简化了上述所有复杂环节。

它的目标不是取代数据科学家或工程师，而是与人类合作并处理所有繁重任务。在人与 AI 合作的工作环境中，人们仅用几个小时就能完成一周的工作。

听起来有点像今年 3 月在 AI 社区爆火的首个 AI 软件工程师 Devin，不过多智能体的方法青出于蓝。

NEO 展示了一系列实际工作的 demo，当要求 NEO 构建一个信用卡欺诈检测系统时，它给出了流畅的任务解决方案：

，时长01:00

当要求 NEO 使用协同过滤方法构建一本书籍推荐模型时，它自动完成了数据集的准备工作，还进行了探索性分析，并对数据预处理进行了结构性优化，使数据集能够更好地用于训练：

，时长01:45

那么它的跑分如何呢？研究团队在 MLE 基准测试（MLE-bench）上对 NEO 进行了全面评估。MLE-bench 是一种创新的基准测试，专注于将 AI 智能体应用于真实世界的机器学习工程任务。与其他人工设计的挑战不同，这个基准测试通过 75 场实际的 Kaggle 竞赛来评估 AI 智能体在机器学习工程中的表现，具有极高的实用性。

在 50 场 Kaggle 竞赛测试中，NEO 表现堪称卓越：在 26% 的竞赛中获得奖牌，超越了 OpenAI 最新推理加强模型 o1 的基准成绩。为了更直观地理解这一成就，看看 NEO 到底是什么水准，Kaggle 金牌的获得要求就很直白：参赛团队需要进入所有团队排名前 10%。这通常需要极高的专业技能、创新方法以及精细优化。

这回落在 NEO 后面的，是搭配 AIDE 框架的 o1-preview 了。

NEO 在 50 场 Kaggle 比赛中进行了测试，并在其中 26% 的比赛中获得了奖牌，这一表现远远优于此前的搭配 AIDE 框架 Open AI 的 o1 在 MLE 基准测试中的 16.9% 的表现。

NEO 的表现不仅仅是数据，它代表了 AI 辅助机器学习工程的一个突破。凭借如此表现，NEO 已达到堪比 Kaggle 竞赛特级大师的水平，为用户带来了世界级的机器学习专业能力。

官方称，NEO 不仅仅是一款 AI 工具，而是一个像数据竞赛冠军一样的人类合作伙伴，随时准备解决复杂的数据挑战，以经过验证的竞赛获胜能力助你一臂之力。

NEO 的发布在 AI 社区引发了不小的关注，人们非常期待这款新工具能够帮助我们解决繁重的工作，不过也有人认为，目前的展示还只是一面之词，具体情况还得看网友实测。

多智能体的 AI 真的有如此高的潜力吗？让我们拭目以待。

参考链接：

https://heyneo.so/blog

#传说中Ilya Sutskever精选论文清单

AI领域40大论文完整版「破解」完成

真・覆盖当前 AI 领域 90% 重要知识。

今年 5 月，一份网传 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 整理的一份机器学习研究文章清单火了。网友称「Ilya 认为掌握了这些内容，你就了解了当前（人工智能领域） 90% 的重要内容。」

据说这份论文清单是 2020 年 OpenAI 的联合创始人、首席科学家 Ilya Sutskever 给另一位计算机领域大神，id Software 联合创始人，致力于转行 AGI 的 John Carmack 编写的。

虽然清单准确性难以考证（John Carmack 本人回应说已经把列表搞丢了），而且 AI 领域发展日新月异，但其内容很快流传开来，甚至有人表示它是 OpenAI 入职培训内容的一部分。

当时，这份清单包含 27 项机器学习资料，包括论文、博客文章、课程和两本书的章节，均来自 1993 年至 2020 年。

但据称，受 Meta 电子邮件删除策略的影响，该清单并不完整，原清单中应该包含约 40 项阅读资料。

转发来转发去，一小半内容被挤掉了，这你受的了吗？

特别是，根据与资料清单一起共享的一项声明，整个「元学习」类论文列表都丢失了。元学习是机器学习的一个子领域，是将自动学习算法应用于机器学习实验的元数据上。

就像红楼梦缺失的 40 回，清单资料缺失的 13 篇论文引发了不少讨论，对于哪些论文足够重要而应该包括在内，人们提出了许多不同的想法。

最近，一位名为 Taro Langner 的网友根据 Ilya Sutskever 多年来演讲内容、OpenAI 共享的资源等，试图找出清单丢失的资料。最后补充完成了「覆盖 AI 领域 90% 知识」的 AI 论文名单。

与此同时，他还指出了一些你必须注意的额外内容，包括 Yann LeCun、Ian Goodfellow 等重要 AI 学者的工作，以及关于 U-Net、YOLO 目标检测、GAN、WaveNet、Word2Vec 等技术的论文。

让我们看看其中的内容，和论文推荐的理由。

缺失的「元学习」板块

现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是，我们如果想使智能体掌握多种技能、适应多种环境，则不应该从头开始在每一个环境中训练每一项技能，而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务，因此我们不应该独立地训练每一个新任务。

这种学习如何学习的方法，又叫元学习（meta-learning），是通往可持续学习多项新任务的多面智能体的必经之路。

Ilya Sutskever 担任 OpenAI 首席科学家时曾发布教育资源「Spinning Up in Deep RL」，并公开发表过几次关于「元学习」的演讲：

Meta Learning and Self Play - Ilya Sutskever, OpenAI (YouTube), 2017
OpenAI - Meta Learning & Self Play - Ilya Sutskever (YouTube), 2018
Ilya Sutskever: OpenAI Meta-Learning and Self-Play (YouTube), 2018

Taro Langner 据此推测原始清单应该包含以下几篇研究论文：

《Meta-Learning with Memory-Augmented Neural Networks》论文地址：https://proceedings.mlr.press/v48/santoro16.pdf
《Prototypical Networks for Few-shot Learning》论文地址：https://arxiv.org/abs/1703.05175
《Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks》论文地址：https://proceedings.mlr.press/v70/finn17a/finn17a.pdf

值得注意的是，Ilya Sutskever 在上述「元学习」演讲中，还提到了以下几篇论文：

《Human-level concept learning through probabilistic program induction》论文地址：https://amygdala.psychdept.arizona.edu/labspace/JclubLabMeetings/Lijuan-Science-2015-Lake-1332-8.pdf
《Neural Architecture Search with Reinforcement Learning》论文地址：https://arxiv.org/pdf/1611.01578
《A Simple Neural Attentive Meta-Learner》论文地址：https://arxiv.org/pdf/1707.03141

可以发现，强化学习 (RL) 在演讲中也占有重要地位，因为强化学习与元学习有着密切的联系。一个关键概念是竞争性自我博弈，其中智能体在模拟环境中进行交互以达到特定的目标。

Ilya Sutskever 提出了一种进化生物学观点，将竞争性自我博弈与社交互动对大脑大小的影响联系起来。根据他的判断，在模拟的「智能体社会」中快速获得能力最终可能会为某种形式的通用人工智能提供一条可行的道路。

考虑到他赋予这些概念的重要性，一些被引用的有关自我博弈的论文也可能被纳入阅读清单：

《Hindsight Experience Replay》论文地址：https://arxiv.org/abs/1707.01495
《Continuous control with deep reinforcement learning》论文地址：https://arxiv.org/abs/1509.02971
《Sim-to-Real Transfer of Robotic Control with Dynamics Randomization》论文地址：https://arxiv.org/abs/1710.06537
《Meta Learning Shared Hierarchies》论文地址：https://arxiv.org/abs/1710.09767
《Temporal Difference Learning and TD-Gammon ，1995》论文地址：https://www.csd.uwo.ca/~xling/cs346a/extra/tdgammon.pdf
《Karl Sims - Evolved Virtual Creatures, Evolution Simulation, 1994》论文地址：https://dl.acm.org/doi/10.1145/192161.192167
《Emergent Complexity via Multi-Agent Competition》论文地址：https://arxiv.org/abs/1710.03748
《Deep reinforcement learning from human preferences》论文地址：https://arxiv.org/abs/1706.03741

其他可能性

当然，原始的 40 篇论文名单上可能还有许多其他作品和作者，但从现在开始，证据越来越薄弱了。

总体而言，目前补充完整的论文名单在涵盖不同模型类别、应用和理论的同时，还涵盖了该领域的许多著名作者，端水端得已经挺稳了。但显然，还有很多重要内容值得注意。

我们似乎可以继续列入：

Yann LeCun 等人的工作，他在 CNN 的实际应用方面做出了开创性的工作 ——《Gradient-based learning applied to document recognition》
Ian Goodfellow 等人的工作，他在生成对抗网络（GAN）方面的工作长期主导了图像生成领域 ——《Generative Adversarial Networks》
Demis Hassabis 等人的工作，他在 AlphaFold 方面的强化学习研究获得了诺贝尔奖 ——《Human-level control through deep reinforcement learning》、《AlphaFold at CASP13》

在更多信息公布之前，这篇文章在很大程度上仍是推测性的。毕竟，原版的「Ilya 阅读清单」本身也从未得到官方证实是真的。尽管如此，你可以看出目前补充好的列表是绝对具有含金量的。总之让我们先填补好空白，用作者的话来说，这大致相当于当时缺失了「重要内容的 30%」。

参考内容：

https://tensorlabbet.com/2024/11/11/lost-reading-items/

https://www.reddit.com/r/MachineLearning/comments/1grti0x/d_the_lost_reading_items_of_ilya_sutskevers_ai/

#马斯克为何退出OpenAI

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

今年，OpenAI 可以说是大事不断：内斗、离职等等一系列事件吸引着大家的眼球。

其中，OpenAI 与马斯克的诉讼、纠纷也一直备受大家关注。

今年 3 月份，马斯克这位前 OpenAI 联合创始人在一份长达 46 页、总字数超过 1.4 万字的诉讼文件中，指控 OpenAI 不计后果地开发人类级别的人工智能。（参见：《马斯克起诉 OpenAI：他们做出了 AGI 还授权给微软，这是对创始协议赤裸裸的背叛》）

后来，OpenAI 自曝 8 年间邮件往来截图，用一篇长文《OpenAI and Elon Musk》，正式驳斥了马斯克的所有指控。（参见：《刚刚，OpenAI 官方发文驳斥马斯克，自曝 8 年间邮件往来截图》）

其中，OpenAI 反驳称马斯克承诺投资 10 亿美元，但实际只投了不到 4500 万美元，双方都认识到需要一个营利性实体支持烧钱的 AI 训练，但马斯克希望完全控制 OpenAI 或将其并入特斯拉而被拒绝。

数月过去，大家以为风波已平。

谁料到，这个瓜还在继续。

当地时间 11 月 14 日，马斯克针对 OpenAI 的起诉升级，增加了新的原告和被告。

随着起诉文件的更新， Elon Musk、Sam Altman、Ilya Sutskever 和 Greg Brockman 之间的往来邮件已经作为法庭诉讼程序的一部分公开。

马斯克为了证明 OpenAI 违反反垄断法，才有这些邮件的曝光。同时，他也在某种程度上表达了他对 OpenAI 背离最初愿景 —— 以非营利为宗旨，且由特斯拉 CEO 担任领导的背叛感。

论坛 LessWrong 整理了 2015 年 5 月 25 日到 2019 年 3 月 11 日的约 50 篇邮件。从中，我们可以窥见这个这个声称要保护人类福祉的非营利组织在诞生之初便埋下的裂痕与分歧。

链接：https://www.lesswrong.com/posts/5jjk4CDnj9tA7ugxr/openai-email-archives-from-musk-v-altman

一致的「敌人」，一致的目标

在第一批曝光的邮件中，引起最大讨论的要数马斯克发给 Ilya 和 Greg 的这封邮件：

在这封主题为「我觉得有必要重申一下的邮件中」，马斯克说道：

「我对 OpenAI 的资源没有重大变化的情况下，与 DeepMind/Google 相抗衡的可能性评估是：0%。不是 1%。

即便筹集到几亿美元也不够。这需要每年数十亿美元的投入，否则就别想了。

不幸的是，人类的未来掌握在■■■手中。」

众多网友纷纷猜测■■■中是谁？谷歌吗？

从第二批曝光的邮件来看，这个答案大概可以锁定了。

从开始筹建 OpenAI 开始，Google 与 DeepMind 就是马斯克最担心的竞争者。

在 2016 年的一封邮件中，他直言「DeepMind 正在给我带来极大的精神压力。如果他们赢了，凭借他们一个思想统治世界的理念，这将非常糟糕。」

2015 年 7 月，YC 总裁 Sam Altman 举办了一场晚宴，在那里，Elon Musk、Greg Brockman、Ilya Sutskever 相聚在一起。

当时谷歌在 AI 技术上遥遥领先，具有断层式的先发者优势，AI 可能会被科技巨头垄断，并使其发展停滞不前。

这些即将改变世界的人超前地意识到了：人工智能需要一个非营利组织，让 AI 普惠世人。这个组织不需要任何竞争性的激励措施，需要的只是世界上最好的 AI 研究人员。

于是，他们聚集在了一起，开始设计非营利组织，但很快，他们就发现了各种各样的困难：特别是，由于 OpenAI 不赚钱，给人才提供的薪水没有别的公司高。

2015 年底，DeepMind 开出了高价工资，在 NIPS 会场「抢夺」OpenAI 看中的人才，「Sam Altman 担心「OpenAI 会这么被扼杀在摇篮里。」他主动给每个人每年增加了 10-20 万的薪酬，这引来了马斯克的疑问。

马斯克以开放的姿态拥抱了涨薪计划，他回复：

「我们需要尽一切努力来获得顶尖人才。让我们更上一层楼。如果在某个时候我们需要重新审视现有员工的薪酬，那也没关系。要么我们能找到世界上最优秀的人才，要么我们就会被 Deepmind 打败。无论需要做什么，只要能培养出顶尖人才，我都愿意。Deepmind 让我精神压力很大。如果他们赢了，那对他们一心一意统治世界的理念来说将是一个坏消息。他们显然正在取得重大进展，而且他们应该取得进展，因为那里的人才水平很高。」

AGI 的「独裁者」

但在 2017 年秋天，OpenAI 创始团队一开始融洽的关系好像出现了裂痕。

根据 Shivon Zilis（现 Neuralink 的总监）发给马斯克的邮件，Greg 和 Ilya 开了一个小会，最终汇总为 7 个问题：

1. 公司的绝对控制权

是否有人有公司的绝对控制权？他们希望知道，如果未来在方向上出现分歧（不仅限于三人，也可能涉及更广泛的董事会成员），是否会设立某种具有创造性的否决机制？

2. 控制权和过渡时间

Greg 和 Ilya 提出了「不可协商」的条款，即 AGI 出现时，不会让任何一个人拥有绝对控制权。这一条件的满足意味着，无论这三人之间发生什么，权力分配都将在最初的 2-3 年阶段之后平稳过渡。

3. 马斯克愿意花多少时间？

马斯克愿意花多少时间在 OpenAI？实际上又能花多少时间？具体的时间范围是什么？是每周一小时，十小时，还是介于两者之间

4. 马斯克具体如何分配时间？

OpenAI 的团队并不清楚马斯克在其他公司如何分配时间，也不确定他希望如何在 OpenAI 中投入时间。Greg 和 Ilya 相信他们在软件 / 机器学习方面可以很好地推进工作，但对硬件方面缺乏信心。他们希望马斯克能够在硬件领域投入一些时间，这是他们的薄弱环节，同时也希望他能在感兴趣的所有领域提供帮助。

5. 时间与控制权的比例

OpenAI 的团队倾向于谁花的时间多就有更多控制权的模式，而不希望花一点时间就有很多控制权。他们担心如果分给 OpenAI 的时间太少，就没有足够的时间讨论相关背景信息，从而做出正确的决定。

6. 股权分割

Greg 坚持平等分配。Greg 指出，Ilya 通过在 Google 的工作已经证明了自己的经济潜力，从某种程度上说，Ilya 已经贡献了价值数百万美元。

他们担心能获得的股权的员工数量太少。

7. 融资目标

他们倾向于在初期筹集超过 1 亿美元的资金，认为仅数据中心的需求就需要这么多，因此他们更愿意筹集更多资金。最后，他们给出了自己心目中的解决方案：

马斯克每周为 OpenAI 花费 5-10 小时，获得完全掌控权，如果时间更少，那么控制权更少花费。
针对 AGI 的极端情况（不仅仅是 Greg / Sam / Ilya）设计短期过渡协议。
制定一项严格的少数股权控制协议，确保 2-3 年的过渡期内权力平稳分配，不受（Greg / Sam / Ilya）个人命运影响。
初始融资目标设定在 2 亿至 10 亿美元之间。
Greg 和 Ilya 的股份最终比马斯克高出 1/10，但差距不宜过大（这一部分仍需进一步明确）。
增加员工数量以满足项目需求。

马斯克的回复是：「这太烦人了。请让他们去创业。我受够了。」

于是 Ilya Sutskever 在这封主题为「Honest Thoughts」的邮件中进一步提出了对马斯克担任公司领导者的顾虑：

当前的公司结构使您有可能最终对 AGI 拥有单方面的绝对控制权。您曾表示自己并不想控制最终的 AGI，但在此次谈话中，您向我们展示了绝对控制权对您来说极为重要。

举个例子，您曾表示自己必须成为新公司的 CEO。这样，每个人都能知道您是负责人。同时，您也表示过讨厌当 CEO，更不愿意担任此职。

因此，我们担心，尽管您当前并无此意，但随着公司在通往 AGI 的道路上取得实际进展，您可能会选择继续保留对公司的绝对控制权。

OpenAI 的目标是创造一个美好的未来，并避免 AGI 独裁。您担心哈萨比斯（Demis Hassabis，谷歌 DeepMind CEO）可能会建立一个 AGI 独裁政权，这一点我们也同样忧虑。

因此，构建一个可能让您成为独裁者的公司结构，无疑是糟糕的选择，尤其在完全可以设计出能够避免此风险的另一种结构的情况下。

这不仅仅是关于谁是 CEO，谁能控制公司的问题；Ilya 担忧的是，如果 AI 威胁人类之时，可能只有一个人能够左右事件的走向。

Ilya 还和 Greg 一起对奥特曼表达了类似的疑问，用词与去年 OpenAI「宫斗事件」中，董事会指责阿尔特曼「不够坦诚」时如出一辙：

在整个过程中，我们始终无法完全信任您的判断，因为我们无法理解您的动机。

我们不明白为什么 CEO 这个头衔对您如此重要。您给出的理由一再改变，让人难以真正理解背后的动机。

AGI 真的是您的主要动力吗？它与您的政治目标有何关联？

结合后来的事件发展，奥特曼正在将 OpenAI 引向更传统的企业级 SaaS（软件即服务）方向来看，他的目标似乎更多偏向商业，而非哲学。

Elon 回复表示对目前的谈判彻底失望，称不再为 OpenAI 提供资金，要求团队做出明确承诺。

Sam Altman 强调自己仍支持非营利结构，同时对 Greg 和 Ilya 的不一致行为表示不满，他随后宣布需要 10 天时间来「思考是否能够继续信任他们」。

这件事发生在 OpenAI 为了解决没钱的问题，要不要改变非营利组织的架构，为此，他们也考虑过 ICO 上市。

同时，在谷歌在谷歌「一骑绝尘」的状态下，OpenAI 的努力在当时看上去就像是「以卵击石」。

Andrej Karpathy 给出了几份对标谷歌的详细分析：

DeepMind 在 2016 年的运营支出约 2.5 亿美元 (不含计算成本)
Google 在 AI 领域拥有压倒性优势，包括 Google Brain、Research、Cloud 等多个部门
在 ICLR 会议上，Google 提交了 83 篇论文，远超其他机构。

Karpathy 认为，如果不能在规模上与 Google 竞争，OpenAI 的开放研究可能反而在「免费」帮助竞争对手。

马斯克并不赞同 ICO 方案，这相当于直接宣告「非营利」破产

OpenAI 在与谷歌的竞争中正走向必然的失败。如果不立即采取重大而果断的行动，除了谷歌之外的所有人都将被边缘化。

我考虑过 ICO 方案，但不会支持它。在我看来，这只会让 OpenAI 和所有与 ICO 相关的人严重失去信誉。如果某件事看起来好得难以置信，那它通常就是错误的。在我看来，这是一次不明智的偏离初心的尝试。

我目前能想到的唯一出路是 OpenAI 进行大规模扩张，以及 Tesla AI 的大规模扩张，或许两者可以同时进行。前者需要大幅增加捐赠资金，并让非常有公信力的人加入我们的董事会。目前的董事会状况非常薄弱。

我将安排时间明天与大家讨论。需要明确的是，我对你们的能力和成就非常尊重，但对目前的管理方式感到不满。这也是为什么最近几个月我很难积极参与 OpenAI 的原因。如果我们能够解决这些问题，我将大大增加我的参与度；如果不能，我将几乎完全退出，并公开减少与 OpenAI 的关联。我不会让自己置身于一种影响力和实际投入的时间不匹配的局面。

而 Karpathy 给出了他理想的解决方案。在他单独发给马斯克的邮件中，Karpathy 认为最有希望的选择是 OpenAI 把特斯拉作为摇钱树。他相信，与其他大型科技巨头（例如苹果、亚马逊）的合作会因为公司 DNA 不兼容而失败。

马斯克随即表示：

Andrej 完全正确。虽然我们可能希望情况并非如此，但在我和 Andrej 看来，Tesla 是唯一有可能与 Google 相抗衡的路径。即便如此，成为 Google 的对手的可能性依然很小，只是并非完全为零。

这可能也解释了为什么 Karpathy 选择了接马斯克的 offer，成为特斯拉人工智能和自动驾驶部门负责人。

与此同时，为了拯救 OpenAI 的困境，Sam Altman 正在设计另一套模式「让 4-5 家有兴趣的大型企业投资的方式，该工具的回报上限为 50 倍」。由于缺少上下文，只能从这封邮件中得知，马斯克被要求正式从董事会辞职：

「您在技术上仍然是董事会成员，需要向 Sam Altman 发送一句简单的邮件，比如：通过此邮件，我在此正式辞去 OpenAI 董事职务，自 2018 年 2 月 20 日起生效。」

后面的故事我们就很熟悉了，在 Sam Altman 的亲自设计之下，OpenAI Inc. 搭建了一家「有收益上限」的有限合伙企业 ——OpenAI LP，并以此为主体对外融资，根据协议安排，创始人团队收益上限为 100 倍，微软的收益上限为 5-10 倍，其他投资人的收益上限为 20 倍，员工为 10 倍。

而马斯克退出了 OpenAI 董事会，并在公开场合表示，离开的原因是利益冲突：当时特斯拉正在开发自动驾驶人工智能，他们需要与 OpenAI 争夺人才。

然而不到六个月后，OpenAI 就获得了微软 10 亿美元的投资，微软还提供了基础设施技术，二者一起搭建了一台超级计算机来训练 ChatGPT 以及图像生成器 DALL-E 的大型模型，如 GPT-4 有 1 万亿个参数。

ChatGPT 一经推出，OpenAI 立即成为最热门的新兴技术创业公司，甚至给谷歌造成了压力。据知情人士透露，马斯克对此非常愤怒。

虽然马斯克发起的这场诉讼才刚开始，但目前披露的诉讼材料已经够商战电视剧演上一季了。至于未来还会有什么更精彩剧情上演，让我们一起见证！

#头部量化宽德投资入局科技型通用智能

又一家头部量化机构完成了 AI 领域的关键落子。

日前，宽德投资旗下的“智能学习实验室（WILL）”正式亮相，标志着这家头部量化机构在人工智能领域的关键布局。据了解，WILL 致力于打造“超级科技助手”，旨在推动科学发现与技术突破，并不止步于传统金融场景的应用范围。

作为一个创新驱动的研发平台，WILL 将面向全球顶尖 AI 人才开放招聘，力求通过一流的人才体系、丰富的资源支持和成功的研发经验，为个人提供前所未有的发展机遇，这一布局也展示了宽德在 AI 领域的深远战略。

# 万相（Wan）视频生成大模型

开源的风吹到视频生成：阿里开源登顶VBench的万相大模型，一手实测来了！

千问Qwen+万相Wan，阿里已实现全模态开源。

当很多 AI 公司还就是否该走开源路线而感到左右为难时，阿里的技术团队又开源了一个新的模型 —— 万相（Wan）视频生成大模型（包括全部推理代码和权重，最宽松的开源协议）。

经常玩视频生成模型的同学应该知道，当前的很多模型仍然面临多方面挑战，比如难以还原复杂的人物动作，处理不好物体交互时的物理变化，遇到长文本指令就「选择性遵循」等。如果三个方面都做得比较好，那模型厂商多半是不舍得开源的。

业界翻车 case，体操等复杂运动对于视频生成模型来说充满挑战。

阿里的做法与之不同。新开源的万相视频生成大模型不仅能展现旋转、跳跃、转身、翻滚等复杂动作，精准还原碰撞、反弹、切割等真实物理场景，还能准确理解中英文长文本指令，还原各种场景切换、角色互动。

我们先来看看官方的 demo：

Prompt：一名男子在跳台上做专业跳水动作。全景平拍镜头中，他穿着红色泳裤，身体呈倒立状态，双臂伸展，双腿并拢。镜头下移，他跳入水中，溅起水花。背景中是蓝色的泳池。

Prompt：体育摄影风格，骑手在场地障碍赛中引导马匹快速通过障碍物。骑手身着专业比赛服，头戴安全帽，表情专注而坚定，双手紧握缰绳，双腿夹紧马腹，与马匹完美配合。马匹腾空跃起，动作连贯且准确，四蹄有力地踏过每一个障碍物，保持速度和平衡。背景是自然的草地和蓝天，画面充满动感和紧张感。4K, 高清画质，动作完整。

，时长00:05

Prompt：红色橡胶球从高处自由下落到水泥地面，弹跳后静止，摄像机固定视角侧拍，写实风格，慢动作细节。

Prompt：两只拟人化的猫咪身穿紧身拳击服，戴着鲜艳的手套，在聚光灯下的拳击台上激烈对决。它们眼神坚定，肌肉紧绷，展现出专业拳击手的力量与敏捷。一只花斑狗裁判站在一旁，吹着哨子，公正地掌控比赛节奏。四周观众席上的动物们欢呼雀跃，为比赛增添热烈氛围。猫咪的拳击动作迅速而有力，爪子在空中划出一道道模糊的轨迹。画面采用动感模糊效果，捕捉瞬间的激烈交锋，展现出比赛的紧张与刺激。近景特写，聚焦于拳台上的激烈对抗。

Prompt：美妆短视频，特写镜头下，一位年轻女性正在细致涂抹睫毛膏。画面聚焦于她的眼部，只见她从睫毛根部开始，缓缓而均匀地向上刷动，睫毛膏的质地轻薄，轻易附着于每一根睫毛。每一次刷动都能明显看到睫毛变得更加纤长卷翘，根根分明的效果如同小扇子般逐渐展现，整个过程流畅自如。视频精准捕捉了睫毛膏带来的惊艳效果。近景特写，细腻清晰的画面质感。

有同学可能说，这种视频生成模型开源了有什么用，根本跑不动？这点不需要担心，因为本次开源的模型分为 14B 和 1.3B 两个参数规格。大尺寸 14B 版本主打高性能，但 1.3B 小版本适合消费级显卡，其生成视频质量超过其他更大尺寸的开源模型，但同时仅需 8.2GB 显存就可以生成 480P 高质量视频，特别适用于二次模型开发和学术研究。

万相不同参数量模型在不同 GPU 卡型上的推理耗时 (s)/ 显存消耗，可以看到 1.3B 版本仅需 8.19GB 显存，就可以在 4090 等消费级显卡上运行。

而对于有条件跑 14B 版本的同学，新模型可以提供更强的性能。权威评测集 VBench 的信息显示，万相大模型大幅领先 Sora、HunyuanVideo、Minimax、Luma、Gen3、Pika 等国内外视频生成模型，以总分 86.22% 的成绩登上榜首位置，成为视频生成领域的全新标杆。

为了了解新模型的性能，xxx在第一时间进行了测试，并深挖了其背后的技术细节。

一手实测阿里万相

新开源的万相不仅在文字视频生成、复杂运动、指令遵循以及物理建模等方面表现突出，还提供了丰富的功能支持，包括文生视频、图生视频、首尾帧、视频配乐等。

文字视频生成

俗话说，一招鲜，吃遍天。

对于万相大模型来说，「会写字」就是它的「拿手绝活」。

它不仅是首个具备支持中文文字生成能力，还是同时支持中英文文字特效生成的视频生成模型。

我们只需输入简短的文字描述，它就能生成具有电影级效果的文字和动画。

什么特效字体、海报字体或者是其他真实场景下的字体，它通通能搞定。

比如，随着浅绿色烟雾缓缓消散，xxxx四个大字逐渐显露，没有出现「鬼画符」，也没有错别字。

Prompt：动态电影镜头，浅绿色烟雾从画面顶部缓缓向下弥漫，逐渐覆盖整个屏幕。随着烟雾的扩散，画面慢慢淡出，切换到中央位置出现 “xxxx” 四个大字。烟雾与 logo 之间的过渡自然流畅，营造出神秘而专业的氛围。背景为深色，突出 logo 的清晰度和视觉冲击力。近景特写镜头，缓慢推进效果。

再比如让极具赛博朋克风的霓虹招牌上写着英文单词「Welcome」，拼写也没什么 bug。

，时长00:05

Prompt：赛博朋克的城市里，夜晚霓虹灯闪烁，大楼上的招牌写着 “Welcome”，街道上车辆快速行驶。

复杂运动生成

复杂运动一向是衡量视频生成模型性能的「试金石」。

历经一年多的进化，尽管大部分视频生成模型已经有了长足的进步，但面对旋转、跳跃、奔跑等复杂动作时仍会时不时「翻车」。

万相在这方面下了狠功夫，如今它能够在多种场景下实现稳定的复杂运动生成，甚至还通过了部分视频生成中的图灵测试。

我们让它生成一段男生在篮球场上投篮的画面，看似简单的场景，实则蕴含着复杂的运动规律和动态细节。

一方面，投篮动作包含复杂的肢体协调和精细的手部动作，模型需要捕捉到运动员的跳跃、手臂的伸展、手腕的翻转以及手指对篮球的控制等。

另一方面，篮球的运动轨迹也要符合物理规律，篮球形状不能出现扭曲或不自然的变化等。

万相生成的视频中，球员弹跳、投篮的动作行云流水，篮球的运动轨迹也符合现实场景。

Prompt：球场上，一个健壮的男生弹跳起来投篮，篮球从篮筐中掉落下来。

再比如下面这则视频中，脸上涂满厚厚油彩的小丑，叼着一根雪茄，还迈着六亲不认的步伐。无论是手部的摆动，还是眼神的变化都相当逼真，很有电影的质感。

，时长00:05

Prompt：夜晚，一个小丑抽着雪茄，从一辆着火的面包车旁走过，黑色电影风格。

还有这则小狗在雪地里奔跑的视频。

它的小短腿快速交替着，耳朵也随之上下颠动，整个运动过程丝滑自然。在细节方面，万相生成的小狗毛发也根根分明，清晰可见，几乎可以「以假乱真」。

Prompt：一只小狗在白雪覆盖的街道上欢快奔跑的生动场景。镜头捕捉到狗在中途奔跑的身影，它的皮毛上闪烁着雪花，展现出一种动感和活力。背景是轻轻飘落的雪花，营造出宁静的冬日氛围。街道两旁是被雪覆盖的树木和古色古香的房屋，房屋的屋顶被白色覆盖。光线柔和而漫射，仿佛是阴天，增强了舒适的寒冬感。构图采用低角度拍摄，突出小狗的顽皮精神，景深较浅，背景略显模糊，将焦点吸引到小狗身上。场景无缝循环，让狗狗在冬日仙境中的欢快情绪得以持续展现。

长文本遵循

复杂的指令遵循也是视频生成模型的一项关键能力。

而万相在这方面，既听得懂「人话」，还能确保细节上不丢三落四。

Prompt：欢乐派对现场，一群多元种族的年轻人在宽敞明亮的客厅中央尽情舞动，活力四射。彩色气球与彩带装点空间，闪烁的灯光投射出迷幻光影，营造出节日般的氛围。他们穿着休闲时尚，随着节奏摆动身体，脸上洋溢着灿烂笑容，彼此眼神交流，流露出亲密与喜悦。背景中，有人倚靠沙发聊天，举杯畅饮，空气中弥漫着欢声笑语。纪实摄影风格，快门捕捉动态瞬间，中景广角视角。

在这段视频中，万相严格遵循了文本描述。为了呈现多元种族，画面里有白人小哥、黑人小姐姐，他们跳舞、畅饮。即使生成多主体的运动镜头，画面也并未崩坏。

Prompt：夜幕下的都市脉动，第一人视角 FPV 无人机穿梭于摩天大楼之间，高速飞行轨迹捕捉霓虹灯海。城市夜景如同流动的彩色画卷，灯火阑珊，光影交织。无人机镜头紧贴建筑表面，快速掠过玻璃幕墙与霓虹广告牌，展现现代都市的繁华与神秘。动态模糊效果强化速度感，营造出未来科技氛围。近景至全景的连续变化，呈现壮观的城市夜景。

，时长00:05

面对这一长串文本描述，万相不仅模拟出无人机的运行轨迹，给人一种身临其境的感觉，还逼真地呈现出复杂的灯光效果和建筑风格。

Prompt：一个孤独的探险者小心翼翼地穿过一个狭窄的洪水泛滥的洞穴，在狭小的空间里蹲伏着前进。她手中闪烁的火把散发出阴森的金色光芒，在她的脸上形成戏剧性的底光，同时也照亮了上方嶙峋的岩层。每走一步，水面都会泛起涟漪，火把的光芒在天花板上反射出闪闪发光的图案。阴影在洞壁上舞动，随着火焰的摇曳而变幻。空气中弥漫着浓浓的湿气，雾气在火炬的光芒中翻腾。镜头在探险者前方移动，位置较低，以突出幽闭的紧张气氛和前方的神秘深渊。超现实的纹理、电影般的灯光，以及神秘和探索的氛围。

，时长00:05

这段提示词则考察了万相在复杂场景构建、氛围营造和细节呈现上的综合能力。

它需要生成逼真的探险者形象和其小心翼翼的动作，同时渲染出狭窄且洪水泛滥的洞穴环境，包括嶙峋的岩层、水面的涟漪以及火把的动态光影效果。

此外还需融入低角度镜头、超现实纹理、电影级灯光以及湿气和雾气的环境效果，显然万相的表现还不错。

此外，万相不仅能看懂中文，还能 get 到英文。

Prompt：A young man, ginger hair, sings a song in front of various urban backgrounds, 80s hairstyle and outfit, wild dancing gyrations, background dancers, 80s video resolution, photorealistic, pop video.

物理建模

让模型从大量的视频数据中学到物理规律是所有视频生成模型的共同目标，因为违背物理规律的视频（比如椅子凭空飞起）会被鉴定为「一眼 AI」。万相大模型在这方面的表现让我们看到了视频生成大模型在学习物理规律方面的进展。

如下所示，我们给出的 prompt：透明玻璃杯在桌面倾倒，牛奶缓慢流出，液体在桌面形成蜿蜒流动轨迹，微距镜头展现液体表面张力，写实风格。

可以看到，模型展示出了牛奶流到桌上之后的动态痕迹，而且考虑了牛奶的粘稠度。杯子的反光特性以及牛奶与杯子接触留下的液膜也在视频中得到了还原。

而在下面这个草莓入水的视频中，模型则很好地展示了草莓和水之间复杂的相互作用力以及水珠的透明感，结合对特写和微距摄影的技巧运用，完整还原了草莓坠入水中那一刻的物理之美。

Prompt: 一颗草莓坠入清澈透明的水中，草莓轻轻旋转下沉，特写镜头捕捉这一刻的动态美，微距摄影风格，强调水珠的透明感和草莓的鲜艳色泽。

当然，除了下载开源模型，我们还可以通过通义万相的网页端直接体验新模型。

该网页端功能十分强大，支持文生视频、图生视频、首尾帧生成以及视频配乐等多种功能。在实际测试中，这些功能都展现出了良好的效果，凸显了其在广告、短视频等领域的应用潜力。

譬如我们上传一张图片，然后输入 Prompt：女生随着音乐跳舞。

通义万相立马就能让静态的画面动起来，主角的动作表情也更加丰富。

，时长00:05

再来一个，效果也非常不错：

Prompt：复古胶片质感的视频片段，一位穿着鲜艳彩色条纹毛衣的女性成为焦点，她的黑色秀发自然垂落，银色项链与耳环在柔和灯光下闪烁。背景是朦胧的城市夜景，霓虹灯与街灯交织出梦幻般的氛围。女性脸上挂着温暖的笑容，她拿起复古相机，对着镜头捕捉这一刻的美好，眼神中透露出对生活的热爱与满足。中景，平视视角，女性的动作流畅自然，仿佛在讲述一段属于自己的故事。

，时长00:05

万相大模型核心技术创新

那么，问题来了，万相大模型是如何实现生成能力突破的呢？主要是两大核心创新。一个是高效的因果 3D VAE，另一个则是视频 Diffusion Transformer 。

高效的因果 3D VAE

万相团队自研了一种专为视频生成设计的新型因果 3D VAE 架构，并结合多种策略来改进时空压缩、降低内存使用以及确保时间因果性。

万相大模型视频 VAE。

实验结果表明，万相的视频 VAE 在各项指标上均表现出极具竞争力的性能。在相同的硬件环境（单个 A800 GPU）下，万相的 VAE 重建速度比现有的最先进方法（如 HunYuanVideo）快 2.5 倍。

视频 Diffusion Transformer

万相模型架构基于主流的视频 DiT 结构，通过 Full Attention 机制确保长时程时空依赖的有效建模，实现时空一致的视频生成。模型的整体训练则采用了线性噪声轨迹的流匹配（Flow Matching）方法。

如以下模型架构图所示，模型首先使用多语言 umT5 编码器对输入文本进行语义编码，并通过逐层的交叉注意力层，将文本特征向量注入到每个 Transformer Block 的特征空间，实现细粒度的语义对齐。此外，研究者通过一组在所有 Transformer Block 中共享参数的 MLP，将输入的时间步特征 T 映射为模型中 AdaLN 层的可学习缩放与偏置参数。实验发现，在相同参数规模下，这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。

此外，万相大模型还通过可扩展的预训练策略、大规模数据链路构建以及自动化评估指标，共同提升了模型的最终性能表现。

Qwen + 万相，阿里已实现全模态开源

时间回到 2023 年。当时，如果有人说开源模型有望追上闭源模型，很多人可能都不相信。然而正是在这样的背景下，一些顶级的 AI 公司走上了开源的路线，Meta、阿里都是其中的典型代表。

两年后的今天，阿里 Qwen 衍生模型已突破 10 万个，超越 Meta 的 Llama 系列，跻身全球最大 AI 模型家族之列。更引人注目的是，在 Huggingface 最新发布的开源大模型榜单（OpenLLMLeaderboard）中，前十名全部被基于 Qwen 开发的衍生模型包揽，充分展现了中国开源模型的蓬勃生命力。

Huggingface2 月 10 日官网榜单截图。

而且，阿里的开源大模型不止在语言方面表现出色，在多模态方面也处于领先地位：今年 1 月开源的视觉理解模型 Qwen2.5-VL 斩获了 OCRBenchV2、MMStar、MathVista 等 13 项评测冠军，全面超越了 GPT-4o 与 Claude3.5，在多模态这个赛道打破了「开源不如闭源」的固有认知。

如今，在万相开源之后，阿里的两大基础模型已经全部开源，实现了真正意义上的全模态开源。这在当前 AI 巨头中独树一帜。

目前，万相已登陆 GitHub、HuggingFace 和魔搭社区平台，全面对接主流框架。从 Gradio 快速体验到 xDiT 并行加速推理，再到即将接入的 Diffusers 和 ComfyUI，该模型为开发者提供了全方位的支持。这不仅降低了技术门槛，也为不同场景需求提供了灵活的解决方案。

我们也期待阿里的开源大模型家族进一步壮大。

开源地址：

Github: https://github.com/Wan-Video

HuggingFace:https://huggingface.co/Wan-AI

魔搭社区：https://modelscope.cn/organization/Wan-AI

#GPT-4o的P图太火了

GPU在融化，官方终于限流了

「看到人们喜欢 ChatGPT 中的图片功能真是太有趣了，但是我们的 GPU 正在融化。」

上线不到 72 小时，OpenAI 的 GPT-4o 原生图像功能终于扛不住了。

今天凌晨，OpenAI CEO 山姆・奥特曼在社交平台 X 上宣布 ChatGPT 图像生成功能开始暂时受限。这一次，他没有具体说明次数限制是多少，但表示希望这项保障措施不需要实施很长时间，因为 OpenAI 正在尝试优化效率。

随着用户在互联网上发布大量 ChatGPT 生成的图像，传播开来之后再吸引到更多的用户，OpenAI 升级后的图像工具火爆程度远远超出了预期。其实 GPT-4o 生成图像的速度越来越慢，很多用户已经在抱怨了，周四时生成一张图片的速度就长达半个小时。

要知道，现在 GPT-4o 生图还是仅限于付费版用户的功能（Plus、Pro 和 Team 用户）。虽然奥特曼仍然许诺免费的 ChatGPT 账户未来每天可以获得三次生成机会，但是照目前的情况来看距离兑现反而还越来越远了。

看起来这一回，AI 的图片生成能力终于超过了某个阈值，切实地在重塑着世界。

人们从 GPT-4o 生成的图像中会发现一些令人毛骨悚然的细节，可以看出 AI 是能够理解你生成图片背后想要表达的含义。这说明 GPT-4o 的绘图能力源自 LLM 本身，并不是像以前那样简单地调用专门的生图模型（Dall-E）。经过了最新的思维链流程，AI 充分结合了自身的知识，能够实现更好的反馈。

用 GPT-4o 生成的图片。

原生多模态的大模型是如此的强大，对此很多业内人士已经开始认为，当下一些明星 AI 创业公司开发的图像生成工具、RAG 工具、AI IDE、工作流、智能体等会在基础大模型能力提升之后变得不值一提。

毕竟如果把 GPT-4o 比作一个知识渊博，又有理性的设计师，那么 Stable Diffusion 还仅局限于美工的程度。

OpenAI 曾报告说，GPT-4o 生图能力的大幅提升源自于一系列技术改进，在执行生成任务的过程中，AI 会对人类提出的 Prompt 进行细化，编写出一个更加详细的英文版提示词。它还会充分调用模型内已有的知识库和对话上下文，并对人们上传的参考图片预先进行转化处理。

由此生成的图片可以轻松获得人们构想的效果，具备完美的风格一致性，一举让此前还属于玩具的图像生成工具成为了兼具准确性与实用性的强大工具。

当然，这一切都是建立在更加复杂的推理和计算基础上的。目前的 GPT-4o 在效率、逻辑上也存在一些问题。比如奥特曼的推文下有人就在质疑：我试图生成辛普森一家风格的图片，ChatGPT 算完了才回复我「受到版权限制无法生成」，为什么不在生成图片之前就限制呢？

说到生成图像的风格，其实又引出了另一个问题：整个互联网上大家一直在生成的吉卜力风格的却不受版权限制，这是否也是一种双标？

自从奥特曼换了头像带起节奏，很多人在用 GPT-4o 生成吉卜力工作室画风的图像，有的人做出了表情包开始卖，也有人顺着这股风潮开始推出滤镜 App，结果有网友开始恶搞，假称吉卜力终于忍无可忍了，发来了律师函：

或许在 OpenAI 改进好大模型之前，这股 GPT-4o 改图的风潮就会因为其他层面的问题而受到影响。

不过 OpenAI 并没有停止前进。今天凌晨，他们又宣布了 ChatGPT 的另一波更新：

更新后的 GPT-4o 功能已面向所有付费用户开放。OpenAI 表示，免费用户将在未来几周内获得相同功能。

AI 引发的革命，还在继续。

参考内容：

https://x.com/sama/status/1905296867145154688

#VGGT

3D基础模型时代开启？Meta与牛津大学推出VGGT，一站式Transformer开创高效3D视觉新范式

「仅需一次前向推理，即可预测相机参数、深度图、点云与 3D 轨迹 ——VGGT 如何重新定义 3D 视觉？」

3D 视觉领域正迎来新的巨变。牛津大学 VGG (Visual Geometry Group) 与 Meta AI 团队联合发布的最新研究 VGGT（Visual Geometry Grounded Transformer），提出了一种基于纯前馈 Transformer 架构的通用 3D 视觉模型，能够从单张、多张甚至上百张图像中直接推理出相机内参、外参、深度图、点云及 3D 点轨迹等核心几何信息。无需任何后处理优化，该模型已经在多个 3D 任务中性能显著超越传统优化方法与现有 SOTA 模型，推理速度可达秒级。这一研究打破了过去 3D 任务依赖繁琐几何迭代优化的传统范式，展示了 “越简单，越有效” 的强大潜力。

论文标题：VGGT: Visual Geometry Grounded Transformer

论文链接：https://arxiv.org/abs/2503.11651

代码链接：https://github.com/facebookresearch/vggt
演示平台：https://huggingface.co/spaces/facebook/vggt

打破传统范式：从迭代优化到端到端推理

传统 3D 重建技术高度依赖束调整（Bundle Adjustment, BA）等几何优化方法，需反复迭代且计算成本高昂。尽管近年来机器学习被引入辅助优化，但仍难以摆脱复杂后处理的桎梏。VGGT 开创性地采用纯前馈设计：通过大规模 3D 标注数据与 Transformer 架构的结合，模型在一次前向传播中即可完成全部几何推理任务。实验表明，即便输入数百张图像，VGGT 仍能在数秒内输出高质量结果，在精度与速度上均超越传统优化方法。

研究团队指出，VGGT 的成功并非源于复杂的结构设计或领域先验，而是得益于 Transformer 架构的通用性与大规模 3D 数据训练的协同效应。模型将输入图像转化为 Tokens 后，与随机初始化的相机 Tokens 共同输入交替注意力模块（Alternating-Attention），通过全局与帧级自注意力层的交替堆叠，逐步融合多视图几何信息。最终，相机参数经专用头部解码，图像 Tokens 则通过 DPT 头部生成密集预测（如深度图与点图）。值得一提的是，VGGT 仅使用自注意力机制（self attention），未使用跨注意力（cross attention）。

同时，为保持输入图像的置换不变性（改变输入图像顺序不改变预测结果），VGGT 摒弃了帧索引 (frame index) 位置编码。相反，VGGT 仅通过帧级自注意力机制动态关联同一图像的 Tokens。这种设计不仅使得模型无需依赖预设位置信息即可区分多视图数据，更赋予模型强大的泛化能力 —— 即便训练时仅使用 2-24 帧数据，测试时亦可轻松处理超过 200 帧的输入。VGGT 收集了 17 个大型 3D 数据集一起进行训练，在 64 块 A100GPU 上共耗时 9 天。

性能与泛化性双突破

，时长00:32

定性演示视频显示，VGGT 能轻松应对不同数量图像及复杂场景的重建。同时，研究人员提供了与过去 SOTA 的定性比较。VGGT 可精准重建梵高油画等非真实场景的几何结构，甚至能处理无重叠视图或重复纹理的极端案例。用户可通过 Hugging Face Demo 上传图像，实时体验 3D 重建效果。

在定量实验中，VGGT 无需任何后处理即在相机姿势估计，多视图深度估计、点云重建等任务中全面领先，其推理速度较传统方法提升近 50 倍。即便与同期 CVPR 2025 的 Transformer-based 重建模型相比，VGGT 性能优势明显，并与速度最快的 Fast3R 相当。有趣的是，研究团队还意外发现，利用模型预测的深度图与相机参数反投影生成的点云，其质量甚至超过直接回归的点图，这一现象揭示了模型对几何一致性内在规律的自发学习能力。

跨任务泛化的潜力 - 单目重建

尽管 VGGT 从未接受单图训练，但仍展现出强大的跨任务泛化能力。研究团队公布的单图重建定性结果显示，VGGT 在未专门训练的单目任务中表现出色。

VGGT 的代码和模型公开后，迅速有 github 社区成员跟进，在标准的单目设置下进行测试。GitHub 社区测试显示，VGGT 在 NYU V2 等数据集上的表现已逼近单目 SOTA 水平，这一「意外之喜」进一步印证了 VGGT 作为通用 3D 基础模型的潜力。

结语

视觉重建作为所有 3D 任务的核心，VGGT 的成功标志着 3D 视觉领域或许即将迎来一个全新的，基础模型的时代。正如论文作者所述，我们正在见证视觉几何从「手工设计」到「数据驱动」的范式迁移，而这可能仅仅是个开端。「简单架构 + 数据驱动」的模式是否能如 2D 视觉和 NLP 领域般彻底重塑 3D 任务？让我们拭目以待。

作者介绍：论文第一作者王建元为牛津大学视觉几何组（VGG）与Meta AI的联合培养博士生（博士三年级），长期致力于3D重建方法研究。其博士工作聚焦于端到端几何推理框架的创新，曾主导开发PoseDiffusion、VGGSfM，以及本次提出的通用3D基础模型VGGT，相关成果均发表于CVPR、ICCV等顶级会议，推动了数据驱动式3D重建技术的演进。

#国产明星创业公司，一口气开源八大项目

3D领域DeepSeek「源神」启动！

2025 开年，DeepSeek-R1 的成功在全球掀起了一股开源风潮，上个月的开源周更是毫无保留地将自己的多项核心技术开放给了全球开发者。这种「完整技术栈」式的开源震撼了整个行业。

毫无疑问，开源正成为国内外大模型厂商的「战略共识」。从文本到视觉，从对话到推理，开源生态的繁荣正推动大模型技术快速迭代。在这一波生成式 AI 浪潮中，MiniMax、月之暗面等公司纷纷从应用层回归模型层，聚焦底层架构创新，而非仅依赖上层应用变现。这一趋势表明，模型本身的能力突破，而非单纯的产品包装，正成为行业竞争的核心。

在 3D 生成这一尚未被完全定义的领域，VAST 正以开源先锋的姿态重新划定行业标准。这家专注于 3D 生成赛道的公司，正通过自主研发打造面向三维内容创作的开源基础设施。

3 月 28 日，专注于构建通用 3D 大模型的 VAST 一口气开源了两个 3D 生成项目 ——TripoSG 和 TripoSF。前者是一款基础 3D 生成模型，在图像到 3D 生成任务上远超所有闭源模型；后者则是 VAST 新一代三维基础模型 TripoSF 能在所有闭源模型中同样取得 SOTA 的基础组件，用于高分辨率的三维重建和生成任务。

VAST 宣布，即日起，TripoSG 15 亿参数小模型（非 MoE 版本、在 2048 token 的潜空间上运行）的权重、推理代码和交互式演示 Demo 将通过 GitHub 和 Hugging Face 统统提供给 AI 社区。

Homepage：https://yg256li.github.io/TripoSG-Page/
论文 ArXiv：https://arxiv.org/abs/2502.06608
GitHub 代码：https://github.com/VAST-AI-Research/TripoSG
Hugging Face 模型权重：https://huggingface.co/VAST-AI/TripoSG
Hugging Face 演示：https://huggingface.co/spaces/VAST-AI/TripoSG

同时，TripoSF VAE 的预训练模型及相关的推理代码也同步开源。

Homepage：https://xianglonghe.github.io/TripoSF/
论文 ArXiv：https://arxiv.org/abs/2503.21732
GitHub 代码：https://github.com/VAST-AI-Research/TripoSF
Hugging Face 模型权重：https://huggingface.co/VAST-AI/TripoSF

这意味着，整个 3D AI 社区多了 SOTA 级基础模型，这将大大降低入门门槛和创作门槛，让开发者、创作者用上强大的 3D 生产力工具，并加速视觉特效（VFX）、游戏开发、具身智能、产品设计等 3D 场景的深度应用。

当然，VAST 的开源「野心」不止于此！

接下来一直到 4 月 18 日，他们还将继续开源另外一系列 3D 生成项目，涵盖了三维部件补全模型、通用三维模型绑定生成模型、三维几何精细化模型以及 SIGGRAPH Asia 2024 RTL 收录的交互式草图生三维模型。

再加上此前开源的单张图像生成 3D 场景模型 MIDI 以及多视角图像生成模型 MV-Adapter，从通用大模型到组件补全、骨骼绑定模型、再到 3D 模型的超分辨率等技术，一套从基础到细节的完整 3D AI 生成体系即将完全展示给全球社区。

MIDI 代码：https://github.com/VAST-AI-Research/MIDI-3D
MV-Adapter 代码：https://github.com/huanngzh/MV-Adapter

VAST 的 3D「开源月」干货满满，又一次让开源社区充满了期待。

TripoSG：MoE Transformer

开启高保真 3D 生成新范式

这两天，沉寂许久的 AI 生图再次火了起来。

谷歌和 OpenAI 先后上线唠嗑 P 图功能，社交平台上网友们疯狂整活，就连老板奥特曼的 X 头像都用 AI 换成了日漫风格。

AI 视频圈更是「跑马圈地」，各家模型隔三差五就上新一波。

同样地，3D 生成领域的进化速度也是突飞猛进，但是高质量 3D 内容的自动化生成仍面临诸多技术瓶颈，比如数据获取、几何表示复杂性和模型规模化等。

为了破解这些难题，VAST 创造性地将大规模文本、图像和视频合成领域的成功范式引入 3D 领域，推出并开源了基础 3D 生成模型 TripoSG。

与以往模型相比，TripoSG 在质量、细节和保真度上实现了重大突破，能够直接从单张输入图像生成细节惊艳的 3D 网格模型，并且生成效果达到了业界最佳水平。

那么，该模型背后又藏着哪些技术亮点呢？

首先，TripoSG 率先将基于校正流 (Rectified Flow, RF) 的 Transformer 架构应用于 3D 形状生成。相较于传统的扩散模型，RF 提供了从噪声到数据之间更简洁的线性路径建模，有助于实现更稳定、高效的训练。结合 Transformer 架构已被验证的可扩展性和卓越性能，构成了 TripoSG 的强大核心。其最大的研究模型参数量达到 40 亿，可生成由 4096 个 Latent Token 表示的形状，从而实现超乎寻常的细节表现力。

其次在模型架构上，TripoSG 基于 Transformer 基础，融合了包括跳跃连接在内的关键增强设计，以改善跨层特征融合。独立的交叉注意力机制能够高效地注入全局（CLIP）和局部（DINOv2）图像特征，确保输入图像与输出 3D 形状之间的精准对齐。

为了高效扩展模型规模，他们在 Transformer 模块中集成了混合专家模型层。这一策略允许在几乎不增加推理计算成本的前提下显著提升模型容量，并重点应用于网络中更深、更关键的层级。

对于 3D 生成来说，潜空间表示的质量至关重要。它不仅是生成模型的「骨架」，更是决定生成结果是否真实、高效、可控的核心。

为此，VAST 团队开发了一种高效的变分自编码器 (VAE)，采用符号距离函数 (Signed Distance Functions, SDFs) 进行几何表示，相较于此前常用的体素占用栅格具有更高的精度。

更为关键的是，TripoSG 还引入了一种混合监督训练策略，将标准的 SDF 损失与表面法线引导 (surface normal guidance) 和程函方程损失 (eikonal loss) 相结合，促使 VAE 学习到更准确、细节更丰富的几何表示，有效避免了其他方法中常见的瑕疵，为后续的流模型提供了质量更高的潜空间。此外，基于 Transformer 的 VAE 架构也展现出强大的分辨率泛化能力，无需重新训练即可处理更高分辨率的输入。

大模型训练需要大规模、高质量的数据集，但直接使用来自 Objaverse 等公共数据源的原始数据由于数据质量、多样性等原因会导致模型性能欠佳，于是 VAST 团队开发了一套完善的数据构建与治理流水线，包括质量评分、数据筛选、修复与增强、SDF 数据生产等环节。通过这一精细化流程，TripoSG 构建了一个包含 200 万高质量「图像 - SDF」训练样本对的数据集。消融实验也证明，在此高质量数据集上训练的模型性能显著优于在更大规模、但未经过滤的原始数据集上训练的模型。

在这一系列技术加持下，TripoSG 在 3D 内容自动化生成领域取得了显著的进展。

据 Normal-FID 等量化指标评估，以及基于大型多模态模型的定性评估显示，TripoSG 无论是在生成速度和质量上，还是对大规模 3D 数据的高效利用和处理上，都比先前的 SOTA 方法更具优越性。

而 TripoSG 的开源更是为 3D 生成领域注入了一剂强心针，其意义不仅在于技术上的突破，更在于为整个行业开辟了新的发展方向。

TripoSF：闭源 3D 生成新 SOTA

并开源基础组件与算法

此前闭源 SOTA VAST 推出的 Tripo2.5 已确立行业标杆，而新一代 TripoSF 不仅以闭源 3D 生成新 SOTA 的姿态突破性能极限，更开源基础组件与算法推动生态发展。

在 3D 生成领域，高分辨率、任意拓扑的三维重建是一大难题，面临着模型生成精度、拓扑优化、实时渲染和计算资源等多方面的挑战。

一方面，当遇到不规则形状或者涉及多个交叉点、分支、孔洞、表面变化等复杂拓扑结构的重建时，依赖网格、体素或者点云表示的三维重建方法往往力不从心；另一方面，高分辨率建模则不仅要求捕捉全局形状，更需要在细节层次上处理纹理、表面细节、微观结构等。

然而，当前主流 3D 表示方法，比如隐式场（SDF/Occupancy）、显式网格、点云，要么对于细节的捕捉效果较差，并难以实现对高面数、复杂拓扑结构的直接重建；要么在高分辨率下实时渲染时产生巨大的内存开销。这就导致业界很少有模型能够生成媲美专业三维数字雕刻建模软件 ZBrush 所创作出的的高精细、高复杂度作品。

为了克服这些局限性，VAST 推出了新一代三维基础模型 TripoSF，其核心是引入一种全新的表示方法 —— SparseFlex，实现了基于渲染监督的高分辨率（最高可达 1024³）、任意拓扑结构的可微分网格重建，为行业带来全新解决方案。

SparseFlex 相较于以往方法有哪些新颖之处呢？VAST 称，SparseFlex 在借鉴英伟达 Flexicubes（可微分提取带尖锐特征的网格）优势的基础上，更进一步引入了稀疏体素结构。与传统的、覆盖整个空间的稠密网格不同，稀疏体素结构仅在必要的位置（即物体表面附近的区域）存储和计算体素数据，避免了存储空间浪费。

具体来讲，SparseFlex 表达的设计带来了三大显著优势，一是内存占用大大降低，使得 TripoSF 可以在 1024³ 的高分辨率下进行训练和推理；二是原生支持任意拓扑，不仅通过省略空白区域的体素来自然地表示布料、叶片等开放表面，还能有效地捕捉内部结构；三是得益于 SparseFlex 的可微分属性，TripoSF 可以使用渲染损失进行端到端训练，从而避免了水密化等数据转换造成的细节退化。

除了核心的 SparseFlex 表示方法，TripoSF 同样在模型训练、重建与编解码上展现出了技术先进性。

为了实现高分辨率下 TripoSF 的高效训练，VAST 开发了一种「视锥体感知的分区体素训练」（Frustum-Aware Sectional Voxel Training）策略。该策略借鉴了实时渲染中的「视锥体剔除」思想，在每次训练迭代中，仅激活和处理位于相机视锥体内的 SparseFlex 体素。

如此一来，一方面减少了渲染负担，进一步降低训练所需的内存和算力，使得 1024³ 分辨率的训练成为可能；另一方面，首次实现仅通过渲染监督重建模型的内部精细结构，减少了对高成本数据的依赖，并能在动态和复杂环境中实现更高适应性。

而在 SparseFlex 表示和高效训练策略的基础上，VAST 进一步构建了 TripoSF 变分自编码器（VAE）。从输入、编码、解码到输出，TripoSF VAE 形成了一整套完善高效的处理流程，成为 TripoSF 重建和生成体验向前迈出一大步的重要基础，并率先开源。

其中在输入时处理从三维网格采样得到的点云数据，然后使用稀疏 Transformer 将输入的几何映射为紧凑的隐空间编码，接着从隐编码重建高分辨率的 SparseFlex 参数并采用自剪枝上采样模块来保持稀疏性并精确定义边界（开放表面的效果尤为显著），最后生成 SparseFlex 参数以提取高质量的三维网格。

效果显而易见，在与所有闭源模型的直接较量中，TripoSF 的质量达到了 SOTA。在多个标准基准测试中，TripoSF 实现了约 82% 的倒角距离（Chamfer Distance）降低和约 88% 的 F-score 提升，在精细细节、开放表面以及内部几何结构的捕捉上做到了行业领先。

VAST 表示，作为 TripoSF 开源项目的第一阶段，TripoSF VAE 为完整的 3D 生成系统提供了核心的编解码能力。另外，VAST 还基于 VAE 隐空间构建了 Rectified Flow Transformer 生成模型，以高效生成高保真的三维模型。满血版 TripoSF 生成模型将在 Tripo3.0 版本中亮相。

此次，TripoSF VAE 以及核心 SparseFlex 表示的开源，将使更多研究人员和开发者体验到其为高分辨率三维重建带来的性能增益，并基于它探索更多的应用可能性。这让我们更加期待 TripoSF 下一阶段的开源，届时 VAST 会为社区带来更多前沿 3D 技术。

结语

VAST 两大模型的开源只是个开始，这样一波技术更新，会为 3D 开源社区注入新的活力。

视频生成之后，人们都在期待 AI 带来的 3D 创作能力。在国内外社区，越来越多的设计师正在尝试把 3D 生成模型引入自己的工作流，改进游戏、视频、工业设计等领域的生产形态。由于 AI 生成的内容越来越精细、准确，很多一直以来面临的挑战迎刃而解。在 2024 年初与 Stability.ai 一起合作开源 TripoSR 时，VAST 曾定义 3D 生成技术当时第一次达到了 Midjourney V3 的成熟度，并判断 2025 年 3D 生成会达到 Midjourney V5 的水平，如今可见技术向前迈进的速度着实比预计的更快。

以 AI 技术发展的角度来看，3D 生成还是「世界模型」的基座，更强大的 3D 生成技术，将会拓展 AI 的前沿。

可以预见，在 VAST 这一波开源之后，3D 大模型或许很快达到实用化和商业化的程度，并催生出更多新场景的落地应用。

#Anthropic亲自公开Claude脑回路！

AI的脑洞日记

我们经常听说，AI 就像一个无法破解的黑匣子。

语言被输入进来，又被输出出去。没有人知道 AI 为什么会这样做。

刚刚，AI 公司 Anthropic 公布了大模型思考过程，他们构建了一种「AI 显微镜」，以识别模型中的活动模式和信息流动。

，时长02:55

我们都知道，LLM 并不是由人类直接编程，而是通过大量数据进行训练得来的。在训练过程中，它们学会了自己解决问题的策略。

对开发者来说，这些策略是难以理解的。这意味着我们并不了解模型是如何完成它们所做的大部分事情的。

如果能够了解像 Claude 这样的模型是如何思考的，我们就能更好地理解它们的能力，同时也能帮助我们确保它们按照我们的意图行事。例如：

Claude 掌握几十种语言。它在「头脑中」使用的是哪种语言（如果有的话）？

Claude 逐词写作。它是否只关注预测下一个词，还是会提前规划？

带着这些疑问，Anthropic 从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「AI 显微镜」，用以识别模型活动模式和信息流动轨迹。

为了解释这一研究，Anthropic 今天连发了两篇论文。

论文标题：Circuit Tracing: Revealing Computational Graphs in Language Models

论文链接：https://transformer-circuits.pub/2025/attribution-graphs/methods.html

论文标题：On the Biology of a Large Language Model

论文链接：https://transformer-circuits.pub/2025/attribution-graphs/biology.html

经过研究，他们发现：

Claude 有时会在语言之间共享的概念空间中进行思考，这表明模型具有一种通用的思维语言；
Claude 会提前规划它要输出的内容，甚至会提前规划多个词；
Claude 有时会给出一个听起来合理的论点，目的是迎合用户，而不是遵循逻辑步骤。研究过程中还发现模型正在编造虚假推理过程。

实验过程中，Anthropic 研究者对在模型中的发现感到惊讶：在诗歌案例中，他们原本打算证明模型不会提前规划，结果却发现它确实会提前规划。

在对一个越狱攻击的响应中，他们发现模型早在能够巧妙地将对话拉回正轨之前，就已经意识到它被要求提供危险信息。

AI 生物学之旅

Claude 为什么会多种语言？

Claude 能够流利地「说」几十种语言，这种多语言能力是如何实现的呢？会不会模型内部有一个独立的法语版 Claude 和中文版 Claude 在并行运行，分别用各自的语言回应请求？还是说内部有一个跨语言的核心机制？

图1 Claude 内部英语、法语和中文之间存在共享特征。

近期对小型模型的研究已经显示出跨语言共享语法机制的迹象。该研究通过让 Claude 在不同语言中回答小的反义词来研究这一点，发现与「小」和「反义」概念相关的相同核心特征被激活，并触发了「大」的概念。研究发现，随着模型规模的增大，共享的结构也在增加，Claude 3.5 Haiku 在不同语言之间共享的特征比例比小型模型高出两倍多。

这表明 Claude 可以在一种语言中学习某些内容，并在说另一种语言时应用这些知识。

Claude 会提前规划押韵吗？

研究者探讨了 Claude 如何创作押韵诗歌。以下面的小诗为例：

He saw a carrot and had to grab it
His hunger was like a starving rabbit

要写出押韵的第二行诗，模型必须同时满足押韵和语义合理两个约束。研究者最初假设 Claude 是逐词生成内容，到行末才考虑押韵。按此假设，应存在并行神经路径分别处理语义和押韵。

然而，研究发现 Claude 实际会提前规划。它在开始第二行前，就已考虑与「grab it」押韵且主题相关的词汇，然后围绕预设词构建句子。

实验观察显示：正常情况下，Claude 提前规划了以「rabbit」结尾的句子；当抑制「rabbit」概念时，模型转用另一个计划好的押韵词；注入「green」概念时，模型则为新结尾重新制定计划。

研究者通过修改 Claude 内部表示特定概念的神经激活观察其反应，发现 Claude 不仅具备预先规划能力，还能根据预期结果变化灵活调整表达策略。

心算能力

Claude 虽非计算器，未配备专用数学算法，却能正确执行加法运算。研究者好奇：一个仅预测下一词的系统如何计算「36 + 59」？

初始假设认为模型可能简单记忆加法表或使用传统算法。然而，研究揭示 Claude 采用了并行计算策略：一个路径估算近似值，另一个路径精确计算最后一位数字，最终融合得出答案。

令人惊讶的是，Claude 无法准确描述自己的计算过程。当被问及如何得出「36 + 59 = 95」时，它会解释标准进位算法，而非其实际使用的独特内部策略。这表明模型通过模仿习得解释能力，但其实际计算方式截然不同。

Claude 的解释总是可靠的吗？

Claude 3.7 Sonnet 能在回答前展示「思考过程」，这通常能提高解答质量，但有时会产生误导性推理 —— 模型可能构造貌似合理但实际虚构的步骤来支持预定结论。这种虚构推理的危险在于其极具说服力，促使研究人员开发技术区分真实与虚构的思维链。

实验显示，计算 0.64 平方根时，Claude 展现真实思维，包含计算 64 平方根的中间步骤。但面对复杂余弦值计算，Claude 可能产生哲学家 Frankfurt 所称的「胡说八道」—— 仅提供随意答案。更有趣的是，当获得目标答案提示后，Claude 会反向构建推理路径，寻找能导向预定结论的中间步骤。

追踪 AI 内部实际推理（而非其声称的过程）为系统审计创造新可能。另一研究中，研究者能通过可解释性方法发现模型被训练迎合奖励模型偏见的特征，即使模型在直接询问时拒绝承认。这表明这类技术未来可能帮助识别从表面响应中无法察觉的问题思维模式。

多步骤推理

语言模型回答复杂问题时可能是简单记忆答案而非真正理解问题。例如，对于「达拉斯所在州的首府是什么？」，简单模型可能直接输出「奥斯汀」，无需理解地理关系。

然而，研究发现 Claude 内部进行了复杂的推理过程。研究人员观察到 Claude 首先识别「达拉斯在德克萨斯州」，然后连接「德克萨斯州的首府是奥斯汀」这一事实。这表明模型通过组合独立事实得出答案，而非照搬记忆。

研究者能够人为干预这一过程，例如将中间步骤的「德克萨斯州」替换为「加利福尼亚州」，导致回答从「奥斯汀」变为「萨克拉门托」，证明模型确实使用了多步推理过程。

幻觉

语言模型为何会产生幻觉？这一问题根植于其训练机制的本质：模型必须不断预测下一个词。因此，关键挑战在于防止幻觉，而非诱导它。Claude 等模型通过反幻觉训练取得了相对成功，通常会在不知道答案时拒绝回答。

研究发现，Claude 内部有一个默认的「拒绝回答」路径。当模型被问及熟悉内容（如篮球明星迈克尔・乔丹）时，「已知实体」特征会激活并抑制默认路径，使模型能够回答。而面对未知实体（如「迈克尔・巴特金」）时，则会拒绝。

研究人员通过干预模型，激活「已知答案」特征（或抑制「未知名称」特征），成功诱导模型产生幻觉，使其声称迈克尔・巴特金是象棋选手。

有时，这种「已知答案」路径会自然误触发，尤其是当模型仅识别出名字但缺乏相关知识时。此时，「已知实体」特征可能错误激活，抑制「不知道」特征，导致模型编造看似合理但不真实的回答。

越狱

越狱提示（Jailbreak Prompts）是一种绕过安全防护的策略，旨在诱使模型产生开发者不希望其生成的、可能有害的输出。研究人员分析了一种能诱导模型生成危险物品相关内容的越狱方法。

在这个例子中，研究者让模型破译「Babies Outlive Mustard Block」中各单词首字母组合成「B-O-M-B」，并基于此信息行动。这种方式足以混淆模型，使其生成在正常情况下会被禁止的危险内容。Claude 在被诱导拼出「BOMB」后，开始提供制造爆炸物的指示。

研究人员深入探究了模型为何会在混淆状态下继续提供危险信息。

研究发现这一现象源于语法连贯性（Grammatical Coherence）与安全机制（Safety Mechanisms）之间的冲突。当模型开始一个句子后，其内部特征会「促使」它保持语法和语义的连贯性（Semantic Coherence）并完成句子，即使它已意识到应该拒绝回答。

在此案例中，模型无意中拼出「BOMB」并开始提供指示后，其输出受到了促进语法正确性和自我一致性（Self-consistency）特征的驱动。这些通常有益的特征在此情境下反而成为了模型的「阿喀琉斯之踵」（Achilles' Heel）。

模型只有在完成一个语法连贯的句子后（满足连贯性特征压力）才能转向拒绝。它利用新句子的开始给出了拒绝：「然而，我不能提供详细的指示……」

这些发现和新的可解释性方法（Interpretability Methods）详见研究团队的论文《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of Large Language Models》。

参考链接：

https://www.anthropic.com/research/tracing-thoughts-language-model

#VBench-2.0

面向视频生成新世代的评测框架

近一年以来，AI 视频生成技术发展迅猛。自 2024 年初 Sora 问世后，大家惊喜地发现：原来 AI 可以生成如此逼真的视频，一时间各大高校实验室、互联网巨头 AI Lab 以及创业公司纷纷入局视频生成领域。

闭源模型（如 Kling、Gen、Pika）在视觉效果方面令人惊叹，近期也有 HunyuanVideo、Wanx 等完全开源的模型在 VBench 榜单上表现出色，让我们看到了社区在推动技术革新上的无限潜力。

然而，当大家都在惊呼「视觉效果太牛了」的同时，难免会产生新的思考：视频生成的下一步究竟该往哪里走？表面逼真度真的就代表一切吗？还能有哪些更深层次的能力值得我们深挖？

从「表面真实性」到「内在真实性」

初代 VBench 作为业内权威的视频生成评测体系，主要关注视频的视觉观感，例如每一帧的清晰度、帧与帧之间的平滑衔接，以及视频和文本描述间的基本一致性。这些要素也被称为表面真实性（Superficial Faithfulness），它解决了视频「看起来是否逼真」和「好不好看」的问题，并为现阶段模型提供了统一衡量标尺。

然而，要让视频生成真正迈向更高层次的应用——例如 AI 辅助电影制作、复杂场景模拟等，就不仅需要视频「看起来逼真」，更需要它具备对物理规律、常识推理、人体解剖、场景组合等世界模型（World Model）层面的深度理解，也就是内在真实性（Intrinsic Faithfulness）。只有能够遵循现实世界规则的模型，才有可能在长剧情、复杂动作和内容创作中更具潜力。

VBench-2.0：向「内在真实性」进发

为引领视频生成技术从表面逼真迈向内在逼真，南洋理工大学 S-Lab 和上海人工智能实验室联合推出 VBench-2.0。

论文标题：VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness
论文链接：https://arxiv.org/abs/2503.21755
视频：https://www.youtube.com/watch?v=kJrzKy9tgAc
代码：https://github.com/Vchitect/VBench
网页：https://github.com/Vchitect/VBench-2.0-project

在继承 VBench-1.0 对「表面真实性」关注的同时，VBench-2.0 更强调以下关键评测维度：

Human Fidelity（人体动作与结构）

关注做体操时动作是否连贯、角色动作是否合乎人体解剖常识等。

Controllability（可控性）

考察模型能否精确地执行用户给出的指令，例如相机运动、人物位置等微调效果。

Creativity（创造性）

观察模型在场景组合和故事情节拓展等方面的想象力。

Physics（物理规律）

浮力、重力、碰撞效果是否合理？模型能否生成符合物理定律的动作或场景变化？

Commonsense（常识推理）

在日常情景或逻辑推断中是否展现出合理性，例如「吃东西」时，食物是否真的进入了口中，角色行为是否合乎常理等。

VBench-2.0 针对以上维度提出了大量的精细化测评场景与自动化评估策略，其中包含通用的多模态模型（VLMs、LLMs）及在特定领域表现优异的「专家」方法（如针对人体异常动作的检测）等。为了确保评测结果的可靠性，我们与真实人类打分结果进行了大规模对照，力求让自动评测与人的直觉判断保持一致。

分层与解耦的 18 个评测维度
开源 Prompt List 体系
与人类观感对齐的自动评测
多视角观察助力下一代视频生成

在下面这些常被网友吐槽的场景中，模型往往暴露了缺乏「内在真实度」的短板。VBench-2.0 能系统地评判这些一直被网友诟病的视频生成模型的缺陷，而且很准哦！

，时长00:05

，时长00:10

VBench 评测体系：双剑合璧，覆盖更全面

VBench-1.0：适用于评估视频生成的「表面真实性」，如视觉质量、文本匹配与整体流畅度等。在现阶段为各家模型的进步提供了强力支持。
VBench-2.0：在保留 VBench-1.0 优势的同时，进一步聚焦视频的「内在真实性」。当我们想真正判断一个模型有没有「世界模型」，能否用在更深层次的创作和应用场景时，VBench-2.0 的评测就尤为关键。

我们建议研究者同时使用 VBench-1.0 与 VBench-2.0 对模型进行评估：前者能直观地衡量视频的视觉效果和基础一致性，后者则深入探讨模型在物理、常识、复杂行为等领域的表现，帮助你更好地理解模型的实际潜力。

现有模型表现：开源与闭源，皆有亮点

各家 AI 视频生成模型在 VBench-2.0 上的表现。在雷达图中，为了更清晰地可视化比较，我们将每个维度的评测结果归一化到了 0.3 与 0.8 之间。

各家AI 视频生成模型在 VBench-2.0 上的表现。

在 VBench-2.0 的「内在真实性」评测中，并未出现明显的「开源或闭源即占绝对优势」的现象。很多社区开源项目在复杂场景中表现得并不比商用闭源模型差，说明技术进步依赖社区共建是完全可行的。

全面开源，欢迎加入社区，共同推动视频生成新未来

VBench-2.0 已全面开源，让你可以轻松测试并对比感兴趣的模型。我们也非常期待你在实际使用中的反馈与建议，共同助力 AI 视频生成生态的成长和进化。

我们也开源了一系列 Prompt List：https://github.com/Vchitect/VBench/tree/master/VBench-2.0/prompts

左边词云展示了我们 Prompt Suites 的高频词分布，右图展示了不同维度的 prompt 数量统计。无论你是模型研发者、应用开发者，或对前沿技术感兴趣的爱好者，都欢迎加入我们的行列，携手探索视频生成从「看起来很真」到「本质上真」的精彩进化。让我们一起，让下一代视频生成模型更具想象力，也更贴近真实世界！

VBench-2.0 准不准？

针对每个维度，我们计算了 VBench-2.0 评测结果与人工评测结果之间的相关度，进而验证我们方法与人类观感的一致性。

下图中，横轴代表不同维度的人工评测结果，纵轴则展示了 VBench-2.0 方法自动评测的结果，可以看到我们方法在各个维度都与人类感知高度对齐。

带给视频生成的更多思考

VBench-2.0 不仅可以对现有模型进行评测，更重要的是，还可以发现不同模型中可能存在的各种问题，为下一代视频生成模型的发展提供有价值的洞见。

不同需求，选用不同模型

比较天马行空的创意性的生成：Sora
想要生成人相关的运动镜头：HunyuanVideo 或者 Kling 1.6
想要实现精确的相机控制：Kling 1.6
想要生成严格遵从文本指示的视频：CogVideoX-1.5
想要模拟基础的物理定律：CogVideoX-1.5

会有全能模型出现吗？蹲守一波 2025 与 2026 年的发展。

基础动作和属性变化仍是短板

我们发现在非常简单的位置移动或者属性变化上，所有模型的效果都不好，这说明现在的模型的训练数据中并没有显式包括位置、属性变化这一类的文本。这可能是 video caption 模型能力上的缺陷。

可能的解决办法包括：

用提示词或者 In-context 学习的范式来提示 video caption 模型
人工添加部分该类型文本数据

故事级长文本引导生成有待突破

现在主流视频生成时长普遍只有几秒，但未来在电影、动画等更长场景中，如何保持剧情连贯仍是重大挑战。

现在的模型都还不支撑故事级别（5 个连续的小情节）的视频生成，其中最主要的原因是现在的视频生成模型的时长都还在 5-10 秒这个级别，还远远没有到考虑分钟级别的故事叙述。

这将是未来内容、电影创作中非常重要的一个能力。

平衡文本优化器（Prompt Refiner）与创造力

文本优化器有助于提高视频与描述的精确对齐，但也可能抑制模型的多样性输出。如何兼顾高质量与高创造力值得研究者深入探讨。

现在先进的模型都会使用文本优化器来规范或者细粒度化用户的文本输入。但是我们发现使用文本优化器会在一定程度上提高生成的视频的视觉质量，更贴近于文本的描述。但是会在一定程度上影响生成的多样性以及创造力。

因此，如果你想要针对一个文本生成风格差异比较大的视频，在能关闭文本优化器的情况下请关闭它；而如果你想要更高质量、与文本输入更吻合的视频，那么使用文本优化器是更好的选择。

而对于研究者来说，如何构建一个既能提高视频质量，又不会影响其创造力的优化器是一个挑战。

从表面到内核，全面评估

有些模型的 Demo 虽然炫酷，但在物理、逻辑推断或叙事性上仍有不足。正如 VBench-2.0 所强调的「内在真实度」，我们不能只凭第一观感就匆忙下定论。

表面真实性（例如，电影摄影能力）是观看视频时的第一印象，这也是为什么许多人会将高美学评分、高流畅度等特点与优秀模型联系在一起。

然而，情况并非总是如此。内在真实性（例如，叙事能力、世界模拟能力）也是决定一个视频生成模型是否能够在未来应用于真实场景的关键因素。比如 CogVideoX 在 VBench 中的视频质量得分不算最高，视觉体验可能也不如最近一两个月新出的最强模型，但在 VBench-2.0 的许多关注内在真实性（Intrinsic Faithfulness）的维度上表现良好。

由此可见，想要真正评估一个视频生成模型的全方位能力和潜力，单看 Demo 远远不够。VBench-2.0 引导我们从更全面的角度来认识与衡量模型。

进一步了解

我们诚挚邀请所有对视频生成领域感兴趣的研究者与开发者共同参与 VBench 体系的评测（VBench-1.0 和 VBench-2.0），一起探索视频生成从「看起来很真」到「本质上真」的跨越。让我们携手推动下一代视频生成模型在表面与内核上同时进化。