TTT模型：AI界的下一个大热门还是昙花一现？

Momodel平台

于 2024-08-26 22:30:00 发布

阅读量159

点赞数

文章标签：人工智能语言模型 ai 开发语言

原文链接：https://techcrunch.com/2024/07/17/ttt-models-might-be-the-next-frontier-in-generative-ai/

版权

经过多年由被称为“变换器”的人工智能形式主导，现在人们正在寻找新的架构。
变换器是OpenAI的视频生成模型Sora的基础，它们也是像Anthropic的 Claude、Google 的 Gemini和GPT-4o 这样的文本生成模型的核心。但是，它们开始遇到技术障碍——特别是与计算相关的障碍。
变换器在处理和分析大量数据方面并不特别高效，至少在运行现成的硬件时是这样。这导致随着公司建设和扩展基础设施以适应变换器的要求，电力需求急剧增加，可能不可持续。
本月提出的一个有前景的架构是测试时训练（TTT），这是斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员在一年半的时间里开发的。研究团队声称，TTT模型不仅可以比变换器处理更多的数据，而且它们可以在不消耗几乎相同计算能力的情况下做到这一点。

变换器中的隐藏状态

变换器的一个基本组成部分是"隐藏状态"，它本质上是一长串数据。当变换器处理某物时，它会向隐藏状态添加条目以"记住"它刚刚处理的内容。例如，如果模型正在阅读一本书，隐藏状态值将是单词（或单词的一部分）的表示。
"如果你将变换器视为一个智能实体，那么查找表——它的隐藏状态——就是变换器的大脑，"斯坦福大学的博士后、TTT研究的共同贡献者Yu Sun告诉TechCrunch。“这种专门的大脑使变换器具有众所周知的能力，如上下文学习。”
隐藏状态是使变换器如此强大的一部分。但它也阻碍了它们。要"说"变换器刚刚阅读的书的一句话，模型必须扫描其整个查找表——这项任务在计算上要求与重新阅读整本书一样高。
因此，Sun和他的团队有了用机器学习模型替换隐藏状态的想法——就像AI的嵌套娃娃一样，模型中的模型。
这有点技术性，但要点是，与变换器的查找表不同，TTT模型的内部机器学习模型在处理额外数据时不会不断增长。相反，它将处理的数据编码成代表性变量，称为权重，这使得TTT模型具有高性能。无论TTT模型处理多少数据，其内部模型的大小都不会改变。
Sun相信，未来的TTT模型可以高效地处理数十亿个数据片段，从单词到图像，再到音频记录和视频。这远远超出了当今模型的能力。
"我们的系统可以在不重新阅读书X次的计算复杂性的情况下，说出关于书的X个词，"Sun说。“基于变换器的大型视频模型，如Sora，只能处理10秒的视频，因为它们只有一个查找表’大脑’。我们的最终目标是开发一个系统，可以处理一段长视频，类似于人类生活的视觉体验。”

对TTT模型的怀疑

那么，TTT模型最终会取代变换器吗？它们可能会。但现在说还为时过早。
TTT模型不是变换器的直接替代品。研究人员只为研究开发了两个小型模型，使得TTT作为一种方法现在很难与一些较大的变换器实现进行比较。
"我认为这是一个非常有趣的创新，如果数据支持它提供效率增益的说法，那是个好消息，但我不能告诉你它是否比现有架构更好，"没有参与TTT研究的伦敦国王学院信息学系的高级讲师Mike Cook说。“我的一个老教授在我本科时经常讲一个笑话：你如何解决计算机科学中的任何问题？增加另一层抽象。在神经网络内部添加一个神经网络肯定让我想起了这一点。”
无论如何，对变换器替代品的研究加速表明，人们越来越认识到需要突破。
本周，AI初创公司Mistral发布了一个基于变换器的另一种替代品，称为**状态空间模型（SSMs）**的模型，Codestral Mamba。SSMs和TTT模型一样，似乎比变换器更具计算效率，并且可以扩展到更大量的数据。
AI21实验室也在探索SSMs。Cartesia也在探索，它是一些最早的SSMs和Codestral Mamba的名字来源，Mamba和Mamba-2的先驱。
如果这些努力成功，它可能会使生成性AI比现在更易于访问和广泛——无论好坏。