51c大模型~合集43

我自己的原文哦~     https://blog.51cto.com/whaosoft/11870499

#PanoSent

情感分析的终极形态:全景式细粒度多模态对话情感分析基准

罗盟,本工作的第一作者。新加坡国立大学(NUS)人工智能专业准博士生,本科毕业于武汉大学。主要研究方向为多模态大语言模型和 Social AI、Human-eccentric AI。

情感计算一直是自然语言处理等相关领域的一个火热的研究课题,最近的进展包括细粒度情感分析(ABSA)、多模态情感分析等等。

新加坡国立大学联合武汉大学、奥克兰大学、新加坡科技设计大学、南洋理工大学团队近期在这个方向上迈出了重要的一步,探索了情感分析的终极形态,提出了 PanoSent —— 一个全景式细粒度多模态对话情感分析基准。PanoSent 覆盖了全面的细粒度、多模态、丰富场景和认知导向的情感分析任务,将为情感计算方向开辟新的篇章,并引领未来的研究方向。该工作被 ACM MM 2024 录用为 Oral paper。

论文地址:https://www.arxiv.org/abs/2408.09481

项目地址:https://panosent.github.io/ 

研究背景

在人工智能领域,让机器理解人类情感是迈向真正智能化的重要一步。情感分析是自然语言处理领域的一个关键研究课题。通过多年的研究,情感分析在各个维度和方面取得了显著的发展。该领域已从传统的粗粒度分析(如文档和句子级别分析)发展到细粒度分析(例如 ABSA),融合了广泛的情感元素,并发展出提取目标、方面、观点和情感等不同的情感元组。此外,情感分析的范围已从纯文本内容扩展到包括图像和视频的多模态内容。

因为在现实世界场景中,用户通常通过多种多样的多媒体更准确地传达他们的观点和情绪,提供超越文本的附加信息,如微表情、语音语调和其他线索。此外,研究已超越单一文本场景,考虑更复杂的对话情境,在这些情境中,个体在社交媒体平台(例如 Twitter、Facebook、微博、知乎、小红书、抖音等)上频繁进行关于服务、产品、体育等的多轮、多方讨论。

尽管情感分析领域已取得显著进展,目前的研究定义仍然不够全面,无法提供一个完整且详细的情感画面,这主要是由于以下几个问题。

首先,缺乏一个综合定义,将细粒度分析、多模态和对话场景结合起来。在现实生活应用中,如社交媒体和论坛上,这些方面往往需要同时考虑。然而,现有研究要么在多模态情感分析定义中缺乏详细分析,要么在对话 ABSA 中缺失多模态建模。最完整的基于文本的 ABSA 定义仍然无法完全涵盖或细致划分情感元素的粒度。

其次,当前的情感分析定义只考虑识别固定的静态情感极性,忽略了情感随时间变化或因各种因素变化的动态性。例如,社交媒体对话中的用户最初的观点,可能会在接触到其他发言者的新信息或不同观点后发生变化。

第三,也是最关键的,现有工作没有彻底分析或识别情感背后的因果原因和意图。人类情感的激发和变化有特定的触发因素,未能从认知角度理解情感背后的因果逻辑意味着尚未根本实现人类级别的情感智能。总的来说,提供一个更全面的情感分析定义可能会显著增强这项任务的实用价值,例如,开发更智能的语音助手、更好的临床诊断和治疗辅助以及更具人性化的客户服务系统。

为填补这些空白,本文提出了一种全新的全景式细粒度多模态对话情感分析方法,旨在提供一个更全面的 ABSA 定义,包括全景情感六元组提取(子任务一)和情感翻转分析(子任务二)。如图 1 所示,本文关注的是涵盖日常生活中最常见的四种情感表达模态的对话场景。

一方面,作者将当前的 ABSA 四元组提取定义扩展到六元组提取,包括持有者、目标、方面、观点、情感和理由,全面覆盖更细粒度的情感元素,提供情感的全景视图。

另一方面,作者进一步定义了一个子任务,监控同一持有者在对话中针对同一目标和方面的情感动态变化,并识别导致情感翻转的触发因素。在六元组提取和情感变化识别中,作者强调辨别潜在的因果逻辑与触发因素,力求不仅掌握方法,还要理解背后的原因,并从认知角度进行分析。

图片

为了对这一新任务进行基准测试,作者构建了一个大规模高质量的数据集,PanoSent。PanoSent 涵盖了 100 多个常见的领域和场景,基于多轮、多方的对话情境,情感元素在六元组中可能跨越多个句子。

为了更真实地模拟人类的情感表达习惯,数据集中的元素可以来自文本和非文本(音频或视觉)模态。情感可能以隐式的方式表达,数据集涵盖了隐式和显式的情感元素。

为确保基准的通用性,数据集包括三种主流语言:英语、中文和西班牙语。作者从现实世界来源收集数据,进行了精心的手动标注。为了扩大数据集的规模,作者进一步利用 OpenAI GPT-4 自动生成数据,并结合多模态检索技术进行扩展。严格的人工检查和交叉验证确保了高质量标准。PanoSent 总共覆盖了 10,000 个对话。表 1 对 PanoSent 与现有的一些多模态细粒度情感分析数据集进行了对比分析。

图片

与现有的 ABSA 任务相比,本文提出的新任务提出了更大的挑战,例如需要理解复杂的对话情境并灵活地从各种模态中提取特征,尤其是在认知层面识别因果原因。考虑到多模态大型语言模型(MLLMs)在跨多模态的强大语义理解方面最近取得的巨大成功,作者构建了一个主干 MLLM 系统,Sentica,用于编码和理解多模态对话内容。受人类情感分析过程的启发,作者进一步开发了一个情感链推理框架(CoS),用于高效地解决任务,该框架基于思维链的思想,将任务分解为从简单到复杂的四个渐进推理步骤。该系统能够更有效地提取情感六元组的元素,并逐步识别情感翻转,同时引导出相应的理由和触发因素。基于释义的验证(PpV)机制增强了 CoS 推理过程的稳固性。

全景式细粒度多模态对话情感分析基准:PanoSent

任务建模

PanoSent 包括两个关键任务,具体可参见图 1 的可视化展示。

  • 全景式情感六元组抽取:从多轮、多方、多模态对话中识别情感持有者、目标、方面、观点、情感及其原因。
  • 情感翻转分析:检测对话中情感的动态变化及其背后的因果关系。

PanoSent 基准数据集

研究团队构建了一个包含 10,000 个对话的大规模高质量数据集 PanoSent,数据来自现实世界的多样化来源,情感六元组元素经过手动注释,并借助 GPT-4 和多模态检索进行扩展。通过严格的人工检查和交叉验证,确保数据集的高质量。PanoSent 数据集首次引入了隐式情感元素和情感背后的认知原因,覆盖最全面的细粒度情感元素,适用于多模态、多语言和多场景的应用。

图片

图片

图片

多模态情感分析大模型:Sentica

图片

多模态大语言模型骨干

当前,大型语言模型(LLM)在理解语言语义方面表现卓越,多模态大语言模型(MLLM)则展示了对多模态数据的强大理解能力。基于此,研究团队为 PanoSent 设计了一款新的 MLLM——Sentica。该模型使用 Flan-T5 (XXL) 作为语义理解和决策的核心 LLM。对于非文本输入,采用 ImageBind 统一编码多模态信息,并将编码结果投影到 LLM 的嵌入空间。

链式情感推理框架

针对全景式情感六元组抽取和情感翻转分析任务,团队提出了受思想链(CoT)推理启发的链式情感推理框架(CoS)。该框架通过四个渐进的推理步骤,从简单到复杂,逐步解决每个任务,并为后续步骤积累关键线索和见解。步骤包括 “目标 – 方面” 识别、“持有者 - 观点” 检测、“情感 - 理由” 挖掘及 “情感翻转触发器” 分类。

步骤 1:“目标 - 方面” 识别

在给定对话文本及其多模态信号下,通过特定指令,要求模型识别对话中提到的所有可能的目标及其对应的方面,形成目标 - 方面对。

图片

步骤 2:“持有者 - 观点” 检测

在识别出 “目标 - 方面” 对之后,下一步是检测相关的持有者及其具体观点。输出应为包含持有者、目标、方面和观点的四元组,为后续的情感分析奠定基础。

图片

步骤 3:“情感 - 理由” 挖掘

基于已识别的四元组,分析与每个观点相关的情感并识别其背后的理由。最终输出为六元组,全面展现情感表达及其背后的因果逻辑。

图片

步骤 4:“情感翻转触发器” 分类

在识别出所有六元组后,最后一步是检测情感的翻转,即从初始情感到翻转情感的变化,对导致情感翻转的触发因素进行分类。输出应为包含上述情感元素的六元组或 “None” (如果没有情感翻转)

图片

基于复述的验证

为避免链式推理中可能产生的错误累积,研究团队设计了基于复述的验证机制(PpV)。在每个推理步骤中,通过将结构化的 k 元组转化为自然语言表达,并结合上下文检查其是否具有蕴涵或矛盾关系,从而确保每个步骤的准确性。这一机制不仅增强了情感分析的稳健性,还有效减轻了 LLM 固有幻觉的影响。

图片

图片

图片

图片

实验和分析

主实验结果

团队通过实验验证了 Sentica 在两个子任务中的表现。在六元组抽取任务中,Sentica 显著优于其他方法,尤其是在结合 CoS 和 PpV 机制后,表现达到最佳。在情感翻转分析中,Sentica 同样表现出色,特别是在多语言环境下,准确性显著提高。

图片

图片

验证构建合成数据的必要性

实验结果表明,尽管合成数据量较大,模型在真实数据上的训练效果更佳。这是因为真实数据的信息分布更为自然,帮助模型学习到更具代表性的特征。然而,合成数据作为补充则显著提升了模型的最终性能,进一步证明了合成数据在优化模型表现中的关键作用。因此,构建合成数据不仅是必要的,而且有助于提升情感分析的整体效果。

图片

验证多模态信息的重要性

研究团队深入分析了多模态信息在情感分析中的作用,发现其不仅是对文本信息的补充,还在六元组元素的判断中起到关键作用。实验结果显示,移除任何模态信号都会导致性能下降,尤其是图像信息的缺失对性能的影响最大。这表明,多模态信息在任务中不可或缺,对提高模型的识别精度至关重要。

图片

验证显性与隐性元素的识别性能

通过对显性与隐性情感元素的识别性能进行对比分析,结果显示,隐性元素的识别难度明显高于显性元素。这反映了识别隐性元素对上下文语义理解的更高要求,进一步说明在情感分析中,应特别关注对隐性元素的识别和处理。

图片

验证 PpV 机制的合理性

作者验证了基于复述的验证机制(PpV)的有效性。实验表明,通过 LLM 复述和直接验证,PpV 机制能够确保结构化数据与对话上下文之间的语义一致性,其性能优于仅依赖直接验证或不进行验证的方式。此外,使用固定模板复述结构化元组比依赖 LLM 复述更为可靠,这进一步增强了情感分析的稳健性。

图片

案例研究

作者通过多个实例展示了所提出模型在与其他模型对比中的优越性能。如图 12-14 所示,该模型展现了对复杂对话上下文的更深入理解,能够精准捕捉对话中的微妙细节,并推断出隐含意图。得益于卓越的多模态信息处理能力,该模型能够更准确地解释各种模态信号。此外,该模型在识别对话中隐含元素方面表现突出。这些优势使模型能够更全面地提取六元组信息,并更准确地分析对话中的情感翻转。

图片

图片

结论与展望

在这项研究中,团队引入了全新的全景式细粒度多模态对话情感分析基准 PanoSent,提出了两项新任务:全景情感六元组抽取和情感翻转分析。基于 MLLM 的链式情感推理方法在 PanoSent 数据集上展示了卓越的基准性能,为情感分析领域开辟了新的篇章。

未来的研究可以朝以下几个方向展开:

  • 多模态信息的进一步探索:开发更强大的多模态特征提取和融合方法,深入研究不同模态在情感识别中的具体影响。
  • 隐性情感元素的识别:探索更精准的技术来识别隐性情感元素,这是当前情感分析中较为棘手的挑战。
  • 情感认知与推理机制:研究情感元素之间的交互及其背后的因果机制,以开发更为稳健的情感推理解决方案。
  • 对话上下文的建模:增强模型对对话上下文的理解能力,特别是在处理对话结构和说话者共指解析方面。
  • 跨语言与跨领域迁移学习:研究多模态场景下的迁移学习方法,开发能适应不同语言和领域的通用情感分析模型。
#Llama系列下载量近3.5亿

全球3.5亿下载量破纪录! Llama家族暴涨10倍,开源帝国掀AI革命

诞生一年半,Llama家族早已稳坐开源界头把交椅。最新报告称,Llama全球下载量近3.5亿,是去年同期的10倍。而模型开源让每个人最深体会是,token价格一降再降。

Llama一举成为世界开源的领头羊。

截至目前,Llama模型在开源平台HuggingFace下载量近3.5亿。

Groq的创始人表示,这也太疯狂了,想想Linux花了多长时间才达到这个数字?

官博介绍,这一数字,是去年同期的10倍。而且,仅在上个月,模型的下载量超2000万次。

2023年2月,Llama 1首次亮相,经过多次迭代,到现在已经过去了整整18个月。

而在这仅有的一年半里,Llama已经从一个最先进的单体基础模型,发展成为,一个面向开发者的强大生态系统。

LeCun还不忘给自家模型宣传一波,越来越多的大公司、小公司、初创公司、政府和非营利组织,正基于此开发新的产品和服务。

还有高校机构、研究人员和工程师每天都在改进Llama,并提出新的用例。

另外,值得关注的一点是,自今年5月Llama 3.1发布之后,云服务商对模型API token调用需求,翻了一番还要多。

一些Meta最大的云服务提供商,从2024年1月到7月,Llama的每月token量增长了10倍。

从微软云、英伟达、谷歌云等科技巨头,到Groq、Databricks等初创公司,全都支持Llama模型的使用。

老黄称,「Llama深深地影响着最先进AI的进步」。

可见,Llama正引领着开源之光。

Llama开源,拉低token价格战

GPT-4级别模型开源,最先带来的好处是,token的价格不断下降。

AI大牛吴恩达在DeepLearning的博客中,算了一笔账:

近期,OpenAI官宣降价后,GPT-4o的token成本,现在是每百万token4美元。(假设是80%输入和20%输入token混合率)

还记得,2023年3月首发GPT-4时,每百万token的成本是36美元。

博客地址:https://www.deeplearning.ai/the-batch/issue-264/

17个月的时间,价格相当于每年下降了79%(4/36 = (1 - p)^{17/12})。

如你所见,token价格正迅速下降!

而推动token价格不断下降的一个因素,便是开源模型(如Llama 3.1)的发布。

这是因为,API提供商(如Anyscale、Fireworks、Together AI初创公司,以及一些大型云服务商)并不需要担心赚回开发模型所需的成本,因此他们可以直接在价格、速度等其他因素上,开启竞争。

此外,一些芯片公司Groq(快速生成token领先者)、Samba Nova(能以114 token/s速度运行Llama 3.1 405B)、Cerebras(以1800 token/s速率运行Llama 3.1 8B),以及英伟达、AMD、英特尔、高通等半导体巨头,在硬件上的创新,近一步拉低了模型价格。

Groq发文介绍了,如今支持Llama模型的生态。

「到目前为止,Groq已经使用Llama模型套件和自家LPU Inference,每天向40多万开发人员提供50亿个免费token」。

在构建用程序时,吴恩达发现,根据未来技术发展方向,进行设计是非常有用的,而非局限于当前水平。

基于多家软硬件公司的技术路线(改进半导体、更小的模型、推理架构中的算法创新),可以预见的是,token价格还将持续下降。

这意味着,即便你构建的智能体工作流看起来成本太高,而随着token价格不断下降,或许在某个时间,这套方案在未来也变得经济可行。

假设你创建了一个APP帮助人类,可每秒连续输出100个token。那如果百万token 4美元,每小时只花费1.44美元。

这远远低于美国,以及许多其他国家最低工资标准。

Meta挑战ChatGPT赢得数百万用户

小扎希望,到今年年底,让Meta AI成为全球使用量最多的AI助手,超越OpenAI的ChatGPT。

目前,这一切正朝着他的目标,取得了进展。

据内部2位员工透露,8月初,Meta AI(2023年9月发布)在发布不到一年时间里,收揽了至少4亿月活跃用户和4000万日活跃用户。

这些数字从侧面反映了,超30亿用户的Meta,每天至少使用Meta旗下的一款应用中的AI助手。

此外还包括,通过Meta AI专属网站,以及Ray-Ban智能眼镜,也收获了不少用户。

庞大的用户群,成为大型科技公司优势,希望从ChatGPT中夺取一部分市场份额和关注度。

其实,谷歌也向数十亿用户推广了对话式AI——Gemini,但力度却不如Meta。

但一些使用Meta应用程序的人,在Facebook、Reddit、X上,抱怨Meta过于激进地推广AI助手,比如在其APP的键盘上添加搜索按钮。

有的人还出了一个关闭Meta AI对话的教程。

出于对用户参与度的担忧,Meta员工可能会不定期讨论的一个问题是,是否有些用户无意间使用了Meta AI。

8月初使用数据显示,大约10%的月活跃用户,每天使用助手来回答问题、生成图像和执行其他任务。

而这一比例远低于Meta的其他应用程序。

Meta此前2月报告称,80%的月活跃用户每天至少使用一款自家的应用。

这些数字表明,Meta AI已经是ChatGPT强有力的竞争者之一。

2022年11月,ChatGPT首次推出。截至目前,每周有超2亿人使用。鉴于最近的使用数据,Meta AI可能相距不远。

与Meta AI不同,ChatGPT也是一项盈利的业务模型。

数百万用户每月需要支付20美元,成为ChatGPT Plus用户,才能用上最先进模型撰写、编程、答问的能力。

数据显示,ChatGPT订阅收入,每年大约高达20亿美元。

Meta已在今年投入高达400亿美金数据中心和其他基础设施。

而Meta AI被视为,未来公司获得这些巨额投资回报的关键部分,主要用于开发这一产品的背后大模型Llama。

虽有报道曝出,Meta正推出一个付费版的高级人工智能助手。

去年9月,Meta刚刚推出AI助手时,人们最初只能通过Instagram、WhatsApp或Messenger上的直接消息与Meta AI聊天。

今年,Meta开始在各种应用中, 让其变得更加显眼、容易访问。

4月,他们将Meta AI添加到其应用程序的搜索栏和信息流中,并为其推出了独立网站meta.ai。

同月,Meta还推出了一个新版本的AI助手,该版本能够识别和解析图像,并在其Ray-Ban智能眼镜中广泛应用。

目前,该助手在Meta的应用程序中可用的语言有8种,并在22个国家提供,同时在美国和加拿大的智能眼镜中提供英语版本。

开源AI如火如荼

开源AI技术正在迅速发展,推动着生成式AI的重大创新。通过GitHub和Hugging Face等可访问的研究和平台,社区已经启动了取得突破性成果的项目。

生态系统:稳步增长,走出泡沫化的底谷期(Trough of Disillusionment)

自2023年第一季度的温和增长以来,开发者的兴趣已经增长并稳定下来,进入了「稳步爬升的光明期」(Slope of Enlightenment)——价值驱动的创新在此增长。

2024年,开源AI中严肃的开发者参与(即GitHub贡献者)仍在继续增加。

市场分析:开发工具仍是热门,训练和监督势头正旺

- 开源AI产品初创企业数量显著增加

2024年,参与开源AI的参与者数量激增,新的参与者如Neum AI和Patronus AI进入了这一领域,而像Vian AI这样的老牌参与者也为其用户提供了开源工具包。

- 开发工具仍然热门;培训和监控工具竞争加剧

大多数初创企业仍专注于生成式AI的开发工具,这对于构建、部署和管理应用程序至关重要。

然而,围绕模型训练和监督用例的初创企业活动有所增加,这表明可能会向在小众数据上微调模型和增强AI治理的方向转变。

在开源模型领域,领先者开始显现,开发的新模型较少,更多的重点放在来自Mistral和Meta等公司的改进和更高效的版本上。

- 开源开发正在缩小与闭源解决方案的差距

开源使得研究更具成本效益和可访问性,促进了来自多元创作者的创新,并且法律限制较少。据统计,有41%的企业用户倾向于选择开源来满足生成式AI的需求。

融资环境:融资步伐加快,规模更大、后期交易增多

过去两年,开源AI领域已完成60多笔交易,总融资额超过130亿美元。这些交易中有超过45%属于A轮及以上的融资,表明对增长阶段投资的强烈关注。

- Deci AI被英伟达以3亿美元收购

- Scale AI完成了10亿美元的F轮融资

- Mistral AI完成了6.4亿美元的B轮融资

- Together AI完成了1.06亿美元的A轮融资

在开源AI领域中,模型训练和开发工具是获得资金最多的细分领域(不包括Mistral和Databricks),占总融资的60%。

其中,英伟达参与了8笔交易(包括Scale AI、Mistral AI、Together AI)。

基础模型:性能差距已缩小

如今,开源和闭源模型之间的基准差距现在比以往任何时候都要小——Meta Llama和Mistral在MMLU上的表现几乎与GPT-4o相同。

其他开源模型,如Qwen和Yi,也在性能上快速赶上。

为了解决现有评估(如Elo和MMLU)的局限性,Hugging Face于2024年6月正式推出了专注于复杂任务的开源LLM排行榜——Open-LLM-Leaderboard。

在过去的6个月中,随着新竞争者的出现,开源AI的格局发生了显著变化。

经过大量数据预训练的Qwen,于2024年6月在Huggingface Traction上获得了最高的下载量。

Github:Huggingface、MindsDB和Roboflow非常火爆

GitHub的stars是项目在GitHub上受欢迎程度的直接指标。

AutoGPT和ModularML的Mojo在2023年引领了GitHub热度——自那时以来,多个仓库已经获得了显著的进展。

LeRobot提供基于PyTorch的真实世界机器人模型、数据集和工具,旨在使机器人技术更易于访问。它具有最先进的模仿学习和强化学习方法,提供预训练模型、人类收集的数据集和模拟环境。

由英伟达支持的MindsDB是一个使用企业数据构建AI模型的平台。MindsDB简化了数据源和AI/ML工具之间的连接,自动化工作流程以创建定制的AI系统。

参考资料:

​https://ai.meta.com/blog/llama-usage-doubled-may-through-july-2024/?utm_source=twitter&utm_medium=organic_social&utm_cnotallow=image&utm_campaign=llama​

​https://x.com/ylecun/status/1829233754876834298​

​https://www.theinformation.com/articles/metas-ai-assistant-wins-millions-of-users-in-challenge-to-chatgpt?rc=epv9gi​

​https://synaptic.com/resources/open-source-ai-2024/​

开源启动!18个月Llama系列下载量近3.5亿,黄仁勋:快到难以置信

今天一大早,Meta 便秀了一把「Llama 系列模型在开源领域取得的成绩」,包括如下:

HuggingFace 下载量接近 3.5 亿次,较 2023 年同期增长了 10 倍;

过去一个月下载量达到了 2000 万次,使得 Llama 成为领先的开源模型系列;

云服务供应商对 Llama 需求巨大,自 5 月以来,Meta 最大云供应商的 token 使用量增加了一倍多;

Llama 模型正被整个行业采用,包括 Accenture、ATT、DoorDash、GoldmanSachs 等。

距离 Llama 3.1 的发布(7 月 24 日)仅仅过去了一个多月,Meta 已经将上下文扩展到了 128k,增加了对 8 种语言的支持,并且 405B 参数量的 Llama 3.1 成为全球最强的开源大模型。

可以说,Llama 的成果要归功于开源的力量。目前围绕 Llama 已经形成了一个充满活力和多样性的 AI 生态系统,开发者拥有了比以往更多的选择和能力,初创公司和各种规模的企业都在使用 Llama 来构建 On-premises(指公司的本地数据中心内运行的软件、服务或系统。)。

可以说,开源已经成为 Meta 的 DNA。此前,Meta 创始人扎克伯克公开写信声明开源的好处:这将促进更有活力的 AI 开发生态,对普通用户、Meta 以及其他公司都有利。

7 月 24 日,在 Llama 3.1 发布的同时,扎克伯格也发了一封标题为「拥抱开源 AI:通往未来的必由之路」的公开信。

历时 18 个月,Llama 成长为开源模型标杆

自 2023 年 2 月首次亮相以来,Llama 只用了 18 个月便从单一的先进基础模型发展成为面向开发者的强大系统。到如今,借助 Llama 3.1,Meta 为开发者提供了一个完整的参照系统,使他们可以轻松创建自己的智能体,并通过安全工具帮助他们负责任地创建。

除了下载量的持续增长,Meta 还与 AWS、微软 Azure、Databricks、戴尔、谷歌云、Groq、NVIDIA、IBM watsonx、Scale AI、Snowflake 等公司合作,帮助开发者发挥模型潜力。

发布 Llama 3.1 后,Meta 的主要云服务供应商的 Llama 使用量显著增长。具体来说,从 2024 年 5 月到 7 月,按 token 计算的使用量翻了一番多。

从今年 1 月到 7 月,Meta 的主要云服务供应商每月对 Llama 使用量增长了 10 倍。参数量最大的 Llama 3.1 405B 也很受欢迎,据某云服务供应商 8 月的数据显示,用户数最高的是 Llama 3.1 405B。

Llama 3.1 发布后,拥有访问 Llama 权限的合作伙伴增长了 5 倍,Wipro、Cerebras 和 Lambda 等知名企业也将成为其中的一员。

开发者社区对 Llama 的偏好也日益增长。据专注于 AI 基准测试的独立网站 Artificial Analysis 的调查,Llama 是开发者们的首选排行榜上的第二名。

在 Hugging Face 平台上,Llama 已有超过 60,000 个模型变体,活跃的开发者社区正在根据自己的需求,对 Llama 进行细致的定制和优化,包括 AT&T、DoorDash、高盛、Niantic、野村证券、Shopify、Spotify、Zoom 等在内的行业巨头,以及 Infosys 和 KPMG 等专业服务领域的领军企业,都已经将 Llama 集成到内部系统中。

在企业服务中,Llama 系列已经有一些成功的用例。基于 Llama 3.1 知名咨询公司埃森哲构建了一个用于 ESG(环境、社会和治理)报告的定制大模型。他们期望,用上了 AI 之后,写报告的生产力能提高 70%,质量提高 20% 至 30%。

通过微调 Llama 模型,美国电信巨头 AT&T 在客户服务搜索响应上取得了接近 33% 的大幅提升。这一改进不仅降低了成本,还提升了业务效率。

随着 Llama 生态系统的不断壮大,Meta AI 的功能和接入点也在同步扩展。现在,用户可以通过 Instagram、WhatsApp、Messenger 和 Facebook 等应用直接体验 Meta 的智能助手。

Meta 也没忘记心心念念的「元宇宙」,Meta 还在开发头显 Quest 系列和智能眼镜 Ray-Ban Meta,正在朝着一个目标迈进:届时,一个全天候待命、知冷知热、提供情绪价值的 AI 助手将以可穿戴的形式主动融入你的日常生活,为你提供帮助。

与此同时,OpenAI 也亮出了自己的数据,每周有超过 2 亿人在使用 ChatGPT,相比去年 11 月的报告,ChatGPT 每周的活跃用户数约为 1 亿,仅过半年,这个数字就涨了一倍。

在 ToB 赛道上,OpenAI 也不遑多让,92% 的财富 500 强公司都在使用 OpenAI 的产品,更便宜、更智能的 GPT-4o Mini 推出后,API 的使用量翻了一番。

评论两极分化:真·假开源

看到 Meta 的喜报,Grok 的 CEO Jonathan Ross 发来了贺电:一个大模型的下载量达到 3.5 亿次,太疯狂了!Linux 达到这个数字用了多久?

他还表示:开源赢了!到目前为止,Groq 已经向超过 40 万开发者每天提供 50 亿 Llama 系列模型的免费 token。但这仍然供不应求,Ross 称,即使 Groq 将部署的容量增加 10 倍,这些资源也会在 36 小时内用完。

Llama 系列以如此快的速度,达成了 3.5 亿次下载的成就,老黄也赶紧点了赞:「在过去的一个月里,我们见证了 Llama 3.1 以如此之快速度被应用部署,真是令人难以置信。」

但是在网友和合作伙伴的一片叫好声中,也有对 Meta 只开放代码,未开放模型权重的质疑声。

虽然 Meta 给自己全身贴满了「开源」的标签,但是最近开放源代码促进会(OSI)却明确表示:Llama 系列并不算真开源。

在 OSI 给出的定义下,判断一个 AI 模型真正开源,需要符合「四项基本自由」:不限制使用目的,允许深入研究其工作原理,支持随意修改,无论是否进行过修改都允许用户自由分享模型。

虽然 Llama 3 模型可以自由部署,但 Meta 限定了 Llama 3 可以生成的内容类型。因此, Llama 3 也不算真正的开源了。

然而 ,Meta 对 OSI 非黑即白的「二元论」提出了反对,他们认为开发大模型的成本很高,过程也很复杂。因此,对于开源的标准,应该有一个从完全开放到部分开放的范围,而不是只有完全开源或完全闭源两种极端状态,并且被 OSI 列入第一批「白名单」的开源模型中,都没有达到 Sota 的水准。

Meta 这么刚,知名杂志《经济学人》对此点评道:Meta 被指控正在「霸凌」开源社区。

在今年的 SIGGRAPH 大会上,扎克伯格曾在和黄仁勋的对谈中提及,Meta 做开源并非纯纯做慈善,而是一种明智的经营策略。在开源计算系统后,Meta 成为了行业标准,供应链主动对齐 Meta 的设计,这种为行业打造整套生态的经验,实际为 Meta 节省了数十亿美元。

同时,Meta 开源的决策也要拜苹果所赐,在以手机为代表的智能移动设备崛起后,苹果的闭源生态太过垄断,以至于扎克伯格放弃了很多想要开发的功能。为此,扎克伯格甚至当场爆粗。

但在 OSI 看来,Meta 现在的做法似乎让他们变成了「另一个苹果」。发出「Meta 正在霸凌开源社区」指控的正是 OSI 的执行董事 Stefano Maffulli:「扎克伯格真的在强迫整个行业跟随他的步伐」。

OSI 计划在今年 10 月正式揭晓对「开源 AI」定义的最终修订版。他们期望通过一个清晰而严格的标准,赋予开发者们信心:他们可以自由地使用、复制和修改像 Llama 这样的开源模型,而不必「受扎克伯格善意的摆布」。

#智谱「超大杯」模型

一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o

在与 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。还有 One More Thing:清言上线了视频通话功能,首批面向部分用户开放。

中国的大模型,正在世界舞台上站稳脚跟。

近日,数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开,来自中国的研究团队和科技企业纷纷亮相。其中,在 8 月 29 日举办的大语言模型日(Large Language Model Day)上,智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM,成为中国科技力量的鲜明代表 。

与此同时,他还介绍了智谱基础模型的重大升级,即新一代基座大模型 GLM-4-Plus。这是智谱全自研 GLM 大模型的最新版本,在语言理解、指令遵循、长文本处理等方面性能得到全面提升,保持了国际领先水平。

此外,他们还发布了文生图模型 CogView-3-Plus 和图像 / 视频理解模型 GLM-4V-Plus。前者具备与当前最优的 MJ-V6 和 FLUX 等模型接近的性能,后者具备卓越的图像理解能力和基于时间感知的视频理解能力,上线开放平台后将成为国内首个通用视频理解模型 API。

在视频生成方面,比 CogVideoX 2B 更大的 5B 版本也正式开源,其性能进一步增强,是当前开源视频生成模型中的最佳选择。

这些模型共同构成了智谱自主原创的全栈大模型谱系,推动智谱全面对标国际先进水平,巩固中国在全球大模型领域的领先地位。 

第一手实测

通用知识、视觉理解、图像生成体验升级

我们首先对刚刚发布的 GLM-4-Plus 的通用知识掌握程度、逻辑推理等相关能力来了一波测验。

先看官方给出的指标。从结果来看,在与 OpenAI 最强旗舰模型 GPT-4o 的全面较量中,GLM-4-Plus 已经可以在大多数任务上做到逼近甚至在某些任务上实现了超越。

对于逻辑推理任务,先让它尝试解答最近一段时间让大模型犯糊涂的「数字比较」问题。从结果看,GLM-4-Plus 很懂小数位比较的逻辑思路。

给 GLM-4-Plus 上上难度,看它能不能搞定经典的「瓶子装水」问题。显然它可以一步步厘清破解思路,并给出准确答案。

GLM-4-Plus 对 AI 圈名人 Ilya Sutskever 的最新近况也了如指掌,说明背后的搜索功能做得也不错。

接下来,我们测试了 GLM-4V-Plus 的图像理解能力。

给出一张有关英伟达的漫画,GLM-4V-Plus 能 get 到这是用淘金热比喻当下的 AI 热,指出英伟达是铲子卖家,其他 AI 公司是铲子买家,和漫画寓意相符。

接下来,我们又给了它一张包含多个人物的梗图。结果发现,GLM-4V-Plus 不仅能够描述出人物的穿搭、表情以及照片里模糊的背景,还能看出几个人之间的关系以及表情的成因,效果出乎意料。

GLM-4V-Plus 在「实战」中不仅可以理解网页内容,将它们转换为 html 代码,而且能够对复杂的视频内容进行透彻的理解与分析,并做到与人类之间类似的沟通。

我们也让 GLM-4V-Plus 生成了截图的 html 代码。它基本对设计稿进行了分区规划,排版方式用了比较现代的 flex,支持一定的响应式,具有一定的基于当前代码继续补充细节的可行性。

从代码功能来看,它能够正确识别模块的内容大概是什么(比如是 Logo、是 Banner 还是新闻),并且语义化给出 class 命名(如新闻板块命名为.news)。

眼见为实,GLM-4V-Plus 强不强,下面这个视频示例也会给我们答案。我们喂给模型一段 11 秒时长的篮球比赛现场视频:

然后分别从视频总结、推理、时间问答等几个角度考验 GLM-4V-Plus。

Q1: 这个穿绿色衣服的球员在整个视频都做了什么?

A1: 在整个视频中,穿绿色衣服的球员在场上运球,然后跳起将球投入篮筐。

Q2: 这个视频的精彩时刻是什么?发生在第几秒?

A2: 这个视频的精彩时刻发生在第 4 秒,当时穿绿色衣服的球员跳起并将球投入篮筐。

可以看到,GLM-4V-Plus 显然准确地 get 到了视频传达的内容,并进行了全面的总结。不仅如此,它还能根据「看到」的某些显著特征(如球员的服装)来展开进一步合理的推理判断;并针对具体时间节点的内容进行概括总结,在某种程度上可以说具备了时间感知能力。

我们测试了当前大火的《黑神话・悟空》片段,GLM-4V-Plus 也能按照时间顺序描述清楚,而且描述语言文学性高,与视频片段高度适配。

一个穿着传统中国盔甲的动画孙悟空,站在多云的天空下,散发出决心和战斗的准备。随着时间的推移,他的装束被详细展示,包括金色的盔甲、红色的流苏和类似羽毛的头饰,背景是雾蒙蒙的。他的表情从严肃的决心变为沉思,暗示着内省。场景转换到一个雾蒙蒙的山区地形,在那里,一个穿着华丽盔甲的战士面对着一个巨大的、有鳞片的生物,预示着一场史诗般的对抗。随着战士和生物之间的紧张关系升级,最终在多云的天空下,一场戏剧性的对峙达到高潮。

最后,从 CogView-3-Plus 生成的一系列图像示例中,我们体验到了文生图能力的显著提升。

比如在下面这张图中,我们看到 CogView-3-Plus 可以非常准确地生成单词,这在很多文生图应用中都是高频翻车区。

在下面这张图中,CogView-3-Plus 不仅准确还原了马斯克的面部特征,还创意性地给马加上了类似电路的纹理,非常富有想象力。

CogView-3-Plus 对于古诗词的理解有些出乎意料,不仅画出了所有的元素,还还原了诗词中的意境。

人物的生成则非常逼真,而且细节丰富、氛围感强。

可以说,智谱「超大杯」模型系列的实际体验效果,「兑现了」性能指标上的全面提升。

One More Thing

智谱版「Her」正式上线

除了以上基础模型的进展,智谱旗下 C 端产品 —— 生成式 AI 助手智谱清言也迎来了重磅升级。

我们知道,在 GPT-4o 出现后,大家都在猜测,下一个 Killer APP 的交互方式会是什么样子。很多人看好语音,但毋庸置疑,语音 + 视频会更加方便,所以顶级大模型厂商都在想方设法给自己的大模型安上「眼睛」,让大模型不仅会写、会听、会说,还会看。

在国内,智谱是首个把这项综合功能做成 C 端产品并开放给部分用户的公司。这部分用户只要下载最新版本的智谱清言,然后打开视频通话窗口,就可以和它视频通话。

这个视频通话跨越了文本、音频和视频模态,并具备实时推理的能力。随着该功能的加入,清言 APP 成为首个可以通过文本、音频、视频和图像来进行多模态互动的 AI 助手。

从官方 demo 来看,这个功能可以用在陪伴、教学、办公、生活等多种场景。

为了验证效果,在第一时间进行了尝试。

首先,我们尝试了一道小学数学题。在看到题目后,清言似乎自动代入了一个小学老师的角色,语速放慢且富有耐心。而且,它不是直接给出结果,而是用苏格拉底启发式教学法,引导提问者一步一步算出答案。这不就是家长想要的「作业辅导」搭子吗?

接下来,我们尝试了一下工作场景 —— 让清言帮忙解读一篇英文报道。可以看出,它不仅能把新闻概括出来,还能自行扩展新闻背后的信息,可以考虑拿来当工作搭子了。

目前,该功能也开放了外部申请。现在到智谱清言 APP 或登录 PC 端,就能站内申请内测。智谱表示会持续迭代并逐步放开规模,尽快让全员都可以使用。

此外,智谱还透露,这其实只是一个 beta 版本,清言的视频通话功能近期还会迎来大的版本迭代。看来,智谱有意将 C 端大模型卷到会写、会听、会说还会看的 Next Level,在行业内掀起新一轮竞赛。

密集的迭代背后

智谱有着充足的技术弹药

在众多大模型公司中,智谱是非常有辨识度的一家。这一方面是因为,智谱的模型早早就做到了接近 GPT-4 的水平;另一方面则是因为,没有哪家国产大模型公司像智谱的技术动作这样密集。

比如 2024 开年以来,智谱这家公司就一直「没消停过」。

比如,在模型方面,智谱在 1 月份就迭代出了新一代基座大模型 GLM-4。该模型整体性能成为当时最接近 GPT-4 的国产大模型。如今,GLM-4 再度进化,时间间隔也不过半年多。

在战火纷飞的小模型战场,智谱也没闲着,推出了 GLM-4-9B、GLM-4V-9B 等小模型。其中,GLM-4V-9B 还是多模态的,通过加入 Vision Transformer,该模型仅以 9B 的参数量就实现了比肩 GPT-4V 的能力。但和后者不同的是,这个模型是开源的。

而在产品方面,智谱也是在 1 月份就推出了对标 GPT-4 All Tools 和 GPTs 的 GLM-4-All Tools 和 GLMs。其中,GLM-4-All Tools 实现了根据用户意图自动理解、规划复杂指令,自由调用文生图、代码解释器、网页浏览、Function Call 等多项工具来完成复杂任务,这意味着 GLM 系列模型的全家桶能力实现工业化。GLMs 则实现了个性化智能体定制,帮助没有编程基础的用户实现大模型的便捷开发。

在清言这款 C 端产品上,智谱也是更新不断,其中动静最大的要数最近发布的视频生成功能「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。而且,和 OpenAI 迟迟没有上线的 Sora 不同,清影同源的视频生成模型 ——CogVideoX 也是开源的,而且一路从 2B 开源到 5B(未来可能更大),这在国内外开发者群体中都引发了不小的轰动。

今天 HuggingFace 热榜,CogVideoX-5b 排名第三,超过 Llama 了。

据悉,智谱开源模型累计下载量已突破 2000 万次。

可以看到,从基础大模型到小模型,从语言到多模态,从技术到产品,智谱在各个方向全面发展,且全方位对标 OpenAI。这在国内大模型厂商中并不常见。这是一种技术储备充足的表现。

在竞争激烈的全球大模型市场中,智谱正通过频繁的技术迭代和开源举措,不断推动行业和生图的发展,赢得了越来越多的关注与认可。

#Runway突然删除HuggingFace库

网友:真跑(Run)路(Way)了

太突然!也没有任何理由的!

Runway 就删除、清空了他们在 HuggingFace 上的所有内容。

在 Hugging Face 主页上,Runway 声明不再维护 HuggingFace。

Runway 之前的很多项目也无法访问了,比如 Stable Diffusion v1.5。

目前,Runway 在 GitHub上的代码库有 40 个。

网友热议

此事在 Reddit、Twitter 上也引起了大家的关注与热议。

帖子链接:https://www.reddit.com/r/StableDiffusion/comments/1f4epto/runway_took_down_15_and_15_inpainting/

有网友调侃称:Runway 真跑路了。

也有网友猜测是不是被收购了。

当然,也有热心网友趁机把魔搭社区的资源贡献给大家:

  • 1.5:https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-v1-5/files
  • 1.5 修复:https://www.modelscope.cn/models/AI-ModelScope/stable-diffusion-inpainting/files

但截至发文,我们还没能看到任何官方的解释。

#1X消费级人形机器人亮相

终于有了点赛博朋克的样子。

这真不是个穿着皮套的人类吗?

刚刚,OpenAI 押注的机器人创业公司 1X 宣布正式推出一款专为家庭使用而设计的双足人形机器人原型 ——NEO Beta。

NEO 身高 5 英尺 5 英寸,大概 1 米 65,体重 30 公斤,步行速度 2.5 英里 / 小时(1.12 m/s),跑步速度 7.5 英里 / 小时(3.35 m/s),NEO 专为做家务而设计,可以承重 20 公斤,运行时间可达 2 到 4 个小时。

NEO 能做哪些家务呢?1X 展示的全都是高难度动作。整理一下高脚杯吧:

正在做饭,需要鸡蛋吗,给:

你看起来要出门,背上包吧:

有趣的是,NEO 干活,全程「静音」,主打一个陪伴,沟通主要靠「眼神交汇」,手势比划:

网友评论道:是否需要称之为「他」?

「下回我和 Claude、GPT 之类的 AI 对话时可要小心了。」

1X 机器人的人工智能副总裁、前谷歌资深科学家 Eric Jang 表示,在硬科技领域,最简单的东西也是非常难做的。我们制造了一款超静音机器人,它在人类周围非常安全。

NEO Beta 超越了传统的僵硬机器人,成为了具有仿生设计、可以在人类中安全工作的人形机器人。这是人形机器人领域一项重大进展,也标志着机器人公司 1X 从概念开发过渡到将人形机器人带入消费者家庭。接下来,NEO 将在挪威的工厂内进行大规模生产。

1X 旨在构建与人类一起工作的安全、智能类人机器人,来创造充足的体力劳动供应。为了实现这一目标,1X 类人机器人必须能够适应复杂的真实环境,才能有能力执行各种任务。

1X 首席执行官 Bernt Børnich 表示:「我们的首要任务是安全,安全是我们能够自信地将 NEO Beta 引入家庭的基石,它将收集重要的反馈并在现实环境中展示其功能。今年,我们将在选定的家庭中部署数量有限的 NEO 装置,用于研究和开发目的。这意味着我们朝着实现我们的使命又迈出了一步。」

与众不同的 1X 人形机器人

NEO 的身体采用类似人类肌肉组织的结构设计,而不是刚性的液压系统,因此显得既强壮又温和,就像人类一样。

NEO 可以行走、慢跑、爬楼梯,并自然地在用户所处的实际空间中导航。随着移动和执行任务,NEO 会变得更加高效。

NEO 为何一登场,在技术上就如此成熟?

实际上,1X 公司早期推出的旗舰产品 —— 轮式人形机器人 EVE 已经成功地进入了职场,在美国和欧洲部分地区投入商业化应用,例如在制造业协助后勤搬运等等。

EVE 为 1X 积累了大量通用知识,而 NEO 正是建立在 EVE 多年真实世界经验的基础上。

1X 第一代人形机器人:EVE

1X 在每个 NEO 部署之前,都会在真实场景中反复进行测试。1X 表示:「如果用户需要帮助,NEO 的视觉和动作可以迅速由远程人类操作员接管。」

1X 的测试表明,NEO 是一款具有广泛能力的人形机器人,在安保、物流、制造、操作机械以及处理复杂任务等行业中的工业任务中表现出色。并且,与 NEO 互动得越多,与 NEO 一起生活的体验就会变得越自然和直观。NEO 将理解所处的环境以及如何处理易碎物品,从而实现无缝协作和沉浸式的人机互动。

1X 还在研究 NEO 如何为行动不便的人士提供支持,比如取物品和提供陪伴。NEO 的潜力还延伸至科研领域,帮助机器人社区探索心理学和人工智能等领域。

关于人形机器人的设计,1X 认为,首先人类本身非常灵活,可以以各种方式移动。通过模仿人类形体和动作,1X 的机器人可以执行复杂的任务,并轻松地在环境中移动。

其次,人类擅长通过表情和手势等非语言的方式相互理解,当机器人看起来像人类时,他们可以使用这些熟悉的方式与人类沟通和合作。

最后,由于人类生活的世界中的一切都是为人类设计的,所以拥有符合人类外形的机器人可以更容易地融入我们的世界,而不需要做出太多改变。

借助具身人工智能(Embodied AI)技术,NEO 将通过融合 AI「感知」与其物理身体来更深入地理解环境。NEO 会不断学习和改进,随着时间的推移变得更加智能和高效。

OpenAI 看好的人形机器人公司

1X 是人形机器人领域的领导者,致力于创建通用家庭机器人,并解决物理智能问题。1X 专注于安全性,为消费者家庭提供实用且易用的产品。

1X 公司于 2014 年创立,公司最初由首席执行官 Bernt Børnich 以 Halodi Robotics 之名成立,以实现一种新解决方案:能够与人类一起执行劳动的通用机器人。

2022 年,1X 与 OpenAI 合作,将机器人技术与人工智能结合,为具身学习奠定基础。

近年来,1X 收获了外界巨额资金的支持,2024 年 1 月的 B 轮融资达到 1 亿美元,支持者中也有 OpenAI 的身影。

参考链接:

​https://www.1x.tech/androids/neo​

​https://www.1x.tech/discover/announcement-1x-unveils-neo-beta-a-humanoid-robot-for-the-home​

#将Llama3蒸馏成混合线性 RNN

Transformer 在深度学习领域取得巨大成功的关键是注意力机制。注意力机制让基于 Transformer 的模型关注与输入序列相关的部分,实现了更好的上下文理解。然而,注意力机制的缺点是计算开销大,会随输入规模而二次增长,Transformer 也因此难以处理非常长的文本。

前段时间,Mamba 的出现打破了这一局面,它可以随上下文长度的增加实现线性扩展。随着 Mamba 的发布,这些状态空间模型 (SSM) 在中小型规模上已经可以与 Transformer 匹敌,甚至超越 Transformer,同时还能维持随序列长度的线性可扩展性,这让 Mamba 具有有利的部署特性。

简单来说,Mamba 首先引入了一个简单却有效的选择机制,其可根据输入对 SSM 进行重新参数化,从而可让模型在滤除不相关信息的同时无限期地保留必要和相关的数据。

最近,一篇题为《The Mamba in the Llama: Distilling and Accelerating Hybrid Models》的论文证明:通过重用注意力层的权重,大型 transformer 可以被蒸馏成大型混合线性 RNN,只需最少的额外计算,同时可保留其大部分生成质量。

由此产生的混合模型包含四分之一的注意力层,在聊天基准测试中实现了与原始 Transformer 相当的性能,并且在聊天基准测试和一般基准测试中优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,该研究还提出了一种硬件感知推测解码算法,可以加快 Mamba 和混合模型的推理速度。

论文地址:https://arxiv.org/pdf/2408.15237

该研究的性能最佳模型是从 Llama3-8B-Instruct 中蒸馏出来的,在 AlpacaEval 2 上相对于 GPT-4 实现了 29.61 的长度控制(length-controlled)胜率,在 MT-Bench 上实现了 7.35 的胜率,超越了最好的指令调整线性 RNN 模型。

方法

知识蒸馏(KD)作为一种模型压缩技术,用于将大型模型(教师模型)的知识迁移到较小的模型(学生模型)中,旨在训练学生网络模仿教师网络的行为。该研究旨在对 Transformer 进行蒸馏,使其性能与原始语言模型相当。

该研究提出了一种多级蒸馏方法,结合了渐进式蒸馏、监督微调和定向偏好优化。与普通蒸馏相比,这种方法可以获得更好的困惑度和下游评估结果。

该研究假设来自 Transformer 的大部分知识都保留在从原始模型迁移而来的 MLP 层中,并专注于蒸馏 LLM 的微调和对齐步骤。在此阶段,MLP 层保持冻结状态,Mamba 层进行训练。

图片

该研究认为线性 RNN 和注意力机制之间天然存在一些联系。通过删除 softmax 可以线性化注意力公式:

图片

但线性化注意力会导致模型能力退化。为了设计一个有效的蒸馏线性 RNN,该研究尽可能接近原始 Transformer 参数化,同时以有效的方式扩展线性 RNN 的容量。该研究没有尝试让新模型捕获精确的原始注意力函数,而是使用线性化形式作为蒸馏的起点。

如算法 1 所示,该研究将来自注意力机制的标准 Q、K、V 头直接馈入到 Mamba 离散化中,然后应用得到的线性 RNN。这可以看作是使用线性注意力进行粗略初始化,并允许模型通过扩展的隐藏状态学习更丰富的交互。

图片

该研究用微调线性 RNN 层直接替换 Transformer 注意力头,保持 Transformer MLP 层不变,不训练它们。这种方法还需要处理其他组件,例如跨头共享键和值的分组查询注意力。研究团队注意到,这种架构与许多 Mamba 系统中使用的架构不同,这种初始化允许用线性 RNN 块替换任何注意力块。

图片

该研究还提出了一种使用硬件感知多步生成的线性 RNN 推测解码新算法。

算法 2 和图 2 显示了完整的算法。该方法仅在缓存中保留一个 RNN 隐藏状态以进行验证,并根据多步内核的成功来延迟推进它。由于蒸馏模型包含 transformer 层,该研究还将推测解码扩展到 Attention/RNN 混合架构。在此设置中,RNN 层根据算法 2 执行验证,而 Transformer 层仅执行并行验证。

图片

图片

为了验证这种方法的有效性,该研究使用 Mamba 7B 和 Mamba 2.8B 作为目标模型进行推测。结果如表 1 所示。

图片

图 3 显示了多步内核本身的性能特征。

图片

H100 GPU 上的加速。该研究提出的算法在 Ampere GPU 上表现出强大的性能,如上表 1 所示。但在 H100 GPU 上面临巨大挑战。这主要是因为 GEMM 操作速度太快,这使得缓存和重新计算操作产生的开销更加明显。实际上,该研究的算法的简单实现(使用多个不同的内核调用)在 3090 GPU 上实现了相当大的加速,但在 H100 上根本没有加速。

实验及结果

该研究使用两个 LLM 聊天模型进行实验:Zephyr-7B 是在 Mistral 7B 模型的基础上微调而来, 以及 Llama-3 Instruct 8B。对于线性 RNN 模型,该研究使用 Mamba 和 Mamba2 的混合版本,其中注意力层分别为 50%、25%、12.5% 和 0%,并将 0% 称为纯 Mamba 模型。Mamba2 是 Mamba 的一种变体架构,主要针对最近的 GPU 架构而设计。

在聊天基准上的评估

表 2 显示了模型在聊天基准上的性能,主要对比的模型是大型 Transformer 模型。结果显示:

蒸馏后的混合 Mamba 模型 (50%) 在 MT 基准测试中取得的分数与教师模型相似,在 LC 胜率和总体胜率方面都略优于 AlpacaEval 基准测试中的教师模型。

蒸馏后的混合 Mamba (25% 和 12.5%) 的性能在 MT 基准测试中略逊于教师模型,但即使在 AlpcaaEval 中具有更多参数,它仍然超越了一些大型 Transformer。

蒸馏后的纯 (0%) Mamba 模型的准确性确实显著下降。

值得注意的是,蒸馏后的混合模型的表现优于 Falcon Mamba,后者是从头开始训练的,使用了超过 5T 的 token。

图片

一般基准评估

零样本评估。表 3 显示了从不同教师模型中蒸馏出的 Mamba 和 Mamba2 在 LM Eval 基准中的零样本性能。从 Llama-3 Instruct 8B 中蒸馏出的混合 Mamba-Llama3 和 Mamba2-Llama3 模型与从头开始训练的开源 TRI Mamba 和 Nvidia Mamba 模型相比表现更好。

图片

基准评估。表 4 显示经过蒸馏的混合模型的性能与 Open LLM Leaderboard 上最好的开源线性 RNN 模型相匹配,同时在 GSM8K 和 CRUX 中优于相应的开源指令模型。

图片

混合推测性解码

对于 50% 和 25% 的蒸馏模型,与非推测基线相比,该研究在 Zephyr-Hybrid 上实现了超过 1.8 倍的加速。

实验还表明,该研究训练的 4 层 draft 模型实现了更高的接收率,不过由于 draft 模型规模的增加,额外开销也变大了。在后续工作中,该研究将专注于缩小这些 draft 模型。

图片

与其它蒸馏方法的比较:表 6(左)比较了不同模型变体的困惑度。该研究在一个 epoch 内使用 Ultrachat 作为种子提示进行蒸馏,并比较困惑度。结果发现删除更多层会使情况变得更糟。该研究还将蒸馏方法与之前的基线进行了比较,发现新方法显示出较小的退化,而 Distill Hyena 模型是在 WikiText 数据集中使用小得多的模型进行训练的,并且显示出较大的困惑度退化。

表 6(右)展示了单独使用 SFT 或 DPO 不会产生太大的改进,而使用 SFT + DPO 会产生最佳分数。

图片

表 7 比较了几种不同模型的消融研究。表 7(左)展示了使用各种初始化的蒸馏结果,表 7(右)显示渐进式蒸馏和将注意层与 Mamba 交错带来的收益较小。

图片

表 8 比较了使用两种不同初始化方法的混合模型的性能:结果证实注意力权重的初始化至关重要。

图片

表 9 比较了有 Mamba 块和没有 Mamba 块的模型的性能。有 Mamba 块的模型性能明显优于没有 Mamba 块的模型。这证实了添加 Mamba 层至关重要,并且性能的提高不仅仅归功于剩余的注意力机制。

图片

#再见,AnandTech

他们成为了一个传奇故事。

「让人极度悲伤的是,这是我在 AnandTech 上撰写的有史以来最难以下笔的新闻。在 27 年疯狂的计算机硬件领域报道之后,今天是 AnandTech 的最后一天,」主编 Ryan Smith 写道。

昨天,老牌硬件科技网站 AnandTech 关停的消息在互联网上引发震动。多年以来,这家网站凭借其深入的硬件评论和分析在科技新闻界具有重要的影响力。

在硬件爱好者中,AnandTech 一直拥有忠实的受众群体,这归功于它对主板、芯片和其他硬件组件的详尽评测,细致的原理解读。其高质量的分析水准使其成为 PC 制造商、学者、同行记者及任何对计算机内部工作原理感兴趣的人的资源。

作为 AnandTech 的最后一篇文章,主编 Ryan Smith 发出了一封公开信:

无论如何,我们已经走到了漫长旅程的尽头 —— 从对 AMD 处理器的评测开始,到对 AMD 处理器的评测结束。这很有诗意,但也证明了我们在过去 27 年里一直做着自己喜欢的事情,报道作为计算机行业命脉的芯片。

在过去的四分之一个世纪里,很多事情都发生了变化 ——1997 年,英伟达甚至还没有创造「GPU」一词 —— 我们很幸运地看到硬件世界在这段时间里不断发展。我们已经从四四方方的台式电脑和笔记本电脑(今天我们可以宽容地将其归类为便携式电脑)发展到掌上电脑,即使是最便宜的设备也能让 1997 年最快的 PC 相形见绌。

这些年世界的发展也给出版界带来了翻天覆地的变化。AnandTech 当然不是第一个硬件爱好者网站,也不会是最后一个。但是,在过去的几十年里,我们很幸运地蓬勃发展了起来,这要归功于我们辛勤的工作、对人才和产品的战略投资,以及更辛勤的工作,还有我们许多朋友、同事和读者的支持。

然而,很少有东西能够永存,书面技术新闻的市场已经不复从前。所以,现在是 AnandTech 结束工作的时候了,让下一代技术记者在时代精神中占据一席之地。

过去 19 年里,我为 AnandTech 撰稿,并在过去十年里担任主编,这是我莫大的荣幸。虽然作为 AnandTech 的最后一位负责人,我感到很懊悔,但我至少可以为多年来取得的一切成就感到自豪,无论是赞扬一些传奇产品,编写至今仍具有现实意义的技术入门书,还是看着新星在我们预测的地方崛起。我还希望 AnandTech 能做更多的事情,但在发表了 2.15 万篇文章之后,可能一切已经无法继续了。

虽然 AnandTech 员工即将淡出,但我很高兴能告诉大家,该网站本身暂时不会消失。我们的出版商 Future PLC 将无限期地保留 AnandTech 网站及其众多文章。这样,我们多年来创建的所有内容都可以访问和引用。即使没有新文章添加到收藏中,我预计我们在过去几十年中撰写的许多内容在未来几年仍将具有现实意义,并且仍然可以访问。

AnandTech 论坛也将继续由 Future 的社区团队和版主团队运营。其中的论坛主题可以追溯到 1999 年(一些活跃成员的历史也一样长),论坛的历史几乎与 AnandTech 本身一样悠久。因此,即使 AnandTech 不再发布文章,我们仍然会为每个人提供一个讨论最新技术的地方,并且这些讨论会持续超过 48 小时。

最后,对于仍然需要技术写作帮助的每个人,我们过去 27 年来的对手 Tom’s Hardware 将继续报道科技世界。那里已经有几位熟悉的 AnandTech 老面孔提供他们积累的专业知识,该网站将继续尽最大努力提供有关技术新闻的书面报道。

Ryan Smith 回顾了 AnandTech 在过去 27 年取得的成就,感谢了很多个人、公司和团体。

Ian Cutress、Anton Shilov 和 Gavin Bonshor 在 ComputeX 2019 上。

27 年前,Anand Lal Shimpi 在自己的卧室里创办了 AnandTech。一个重要的节点是,2014 年 Anand 加入了苹果,成为 M 系列 Apple Silicon 芯片交付团队的一员。

虽然 Anand 早在十年前就已从科技新闻界退休,但他为质量设定的标准和他带来的经验至今仍在 AnandTech 中产生共鸣。

Ian Cutress、Anand Lal Shimpi、Joshua Ho 在 MWC 2014 上。

最后,对于所有正在或即将成为科技记者的人,Ryan Smith 请求他们履行职责,忠于自己,忠于读者需求,提供高质量的内容,保持真诚,为读者提供他们需要的深度报道。

深度报道或许没有其他内容那么吸引眼球,但在对抗现在众多浮夸和悲观的报道时,支持有根据的深度结论相比以往显得格外重要了。

1998 年,Anand 在主持 AGN 硬件 Show。

参考内容:

​https://www.anandtech.com/show/21542/end-of-the-road-an-anandtech-farewell​

​https://news.ycombinator.com/item?id=41399872​

#ViTaM 

穹彻智能-上交大最新Nature子刊速递:解析深度学习驱动的视触觉动态重建方案

随着人形机器人技术的迅猛发展,如何有效获取高质量的操作数据成为核心挑战。鉴于人类操作行为的复杂性和多样性,如何从真实世界中精准捕捉手与物体交互的完整状态,成为推动人形机器人操作技能学习的关键所在。面对这一挑战,穹彻智能携手上海交通大学卢策吾和刘景全团队,创新性地提出了名为 ViTaM 的视觉-触觉联合记录和追踪系统。该系统包括高密度可伸缩触觉手套和基于视觉-触觉的联合学习框架,不仅在触觉手套的设计和制造上实现了技术突破,更通过视觉与触觉的深度融合,为理解手物交互过程状态提供了全新的视角和强大工具。

在人形机器人操作领域,有一个极具价值的问题:鉴于操作数据在人形操作技能学习中的重要性,如何有效地从现实世界中获取操作数据的完整状态?

如果可以,那考虑到人类庞大规模的人口和进行复杂操作的简单直观性与可扩展性,人形机器人再也不用担心没有高质量的操作数据资源了。

穹彻智能携手上海交通大学卢策吾和刘景全团队意识到,分布式触觉技术对于重建完整人类操作至关重要,当操作被遮挡时,触觉可以作为视觉的有效补充,从而一同还原出操作区域的形变状态、接触力位点和大小。因此,该团队提出了一种全新的视觉 - 触觉联合记录和追踪系统 ViTaM(为 Visual-Tactile recording and tracking system for Manipulation 的缩写),包括一个可伸缩的触觉手套,与一个基于视觉 - 触觉的联合学习框架。文章在 24 个物体样本中进行实验,涵盖了 6 个类别,包含刚性物体和可形变物体,重建误差均值仅为 1.8 厘米。 

ViTaM 系统在未来发展中,有望被深度集成至机器人的电子皮肤之中,从而赋予机器人与周围环境进行无缝互动的能力。这不仅能够使机器人实时感知并精准响应多样化的环境刺激,更将极大提升其在复杂场景下的灵巧操作水平,推动智能机器人技术迈向更加先进和实用的新阶段。

  • 论文名称:Capturing forceful interaction with deformable objects using a deep learning-powered stretchable tactile array
  • 论文链接:https://www.nature.com/articles/s41467-024-53654-y
  • 项目地址:https://github.com/jeffsonyu/ViTaM

演示视频:

,时长01:04

,时长00:18

,时长00:38

,时长00:22

,时长00:32

可以看到,对于刚体和可形变物体,系统都能进行高水准的重建,也同时适用于不同类型的物体,如纸杯,橡皮泥,剪刀等日常生活中常见的物体。

ViTaM 方法详解

图片

图 1:A 人机交互中涉及人类操作的(i)无力交互和(ii)有力交互的任务及其响应结果。B ViTaM 系统概述:(i) 受人类启发的联合感知方法,在操作过程中同时处理跨模态的视觉和触觉信号,以实现状态跟踪;(ii) 可拉伸界面的应变导致的传感误差,它降低了力测量的精度和触觉传感器的应用效果;(iii) 触觉记录方案,包括具有主动应变干扰抑制功能的高密度可拉伸触觉手套,以及用于显式分布式力检测结果的 VR 界面;(iv) 由深度学习驱动的物体状态估计应用,能够重建物体的整体几何形状和接触区域的细粒度表面形变,特别是对于可形变物体。

ViTaM 系统核心挑战是要解决在与可形变物体进行带力交互时如何捕捉细粒度信息,当可形变物体能被正确捕捉时,刚性部件的交互就自然迎刃而解了。

该系统利用一个高密度、可拉伸触觉手套和一个 3D 相机记录操作过程,并利用一个视觉 - 触觉联合学习框架在几何层面上估计手 - 物体的状态。高密度触觉手套最多有 1152 个触觉传感通道分布在手掌上,当与物体交互时,会记录接触区域的手部物体状态,并以 13Hz 的帧速率准确捕捉手物交互过程中可拉伸界面上的力分布和动态(图 1B (iii))。同时,非接触区域的手与物体状态可以由高精度深度摄像头记录。

捕捉到的力测量和点云序列,经过视觉 - 触觉学习模型处理,融合跨模态数据特征,最终实现对不同形变材料的被操作物体的跟踪和几何三维重建(图 1B (iv))。

A. 硬件设计:触觉手套的设计与制造

在高精度触觉反馈系统中,如何准确地捕捉并传递手部与物体之间的交互力,一直是硬件设计中的一个核心挑战。特别是在涉及复杂手部运动和多点压力分布的情况下,传统的传感器系统往往难以满足高灵敏度和高可靠性的需求。因此,开发一款能够精确感知触觉信息并支持多通道力传感的手套式硬件设备显得尤为重要。受到现有触觉手套技术启发,团队研发了这一款创新的触觉手套系统。该手套包括多个模块(如图 2A 所示):触觉传感模块、织物手套、柔性印刷电路(FPC)、多通道扫描电路、处理电路以及一个腕带。系统设计的核心目标包括:

  1. 高效的数据传输与灵活的系统扩展:手套的设计采用模块化结构,便于根据不同需求调整传感器的密度或进行拆卸。其中,三种类型的 FPC 分别连接手指与掌心传感区域,支持最大 1152 个传感单元(原型系统配备 456 个传感单元)。
  2. 触觉传感的高精度与准确性:系统包含了力传感电路和应变干扰检测电路,以保证触觉数据的高精度采集与处理,这些传感器通过导电织物线路连接,形成行列电极阵列,以实现准确的力感应和应变测量。
  3. 人体工学舒适性:为了提高触觉手套的舒适性和适配性,采用了先进的织物传感技术,避免了传统方法中常见的胶层分层问题。每个触觉传感模块由正负应变传感器和力传感器阵列构成(图 2B)。这种全织法组装方式不仅提高了手套的耐用性和穿戴感,还使得手套更加适应复杂的手部运动和操作环境。
  4. 低成本与量产潜力:在系统的整体设计中,触觉手套经过多次测试验证,原型版的准确率达到 97.15%,证明其足以满足大多数人机交互应用的需求。成本方面,触觉手套的单价为 3.38 美元,而硬件总成本为 26.63 美元,使得该产品具备了较高的性价比,并有望广泛推广。通过加工工艺的逐步简化以及生产自动化技术的实现,该触觉手套在未来有着较大的量产潜力。

该触觉手套系统不仅能够精确捕捉力感信息,还具备高适配性和舒适性,适用于多种实际应用场景,如虚拟现实、机器人操作及医疗领域等。

图片

图 2:触觉手套的具体设计:A. 最大传感通道为 1152 的高密度可拉伸触觉手套的放大示意图;B. (i) 带有两对应变电极、行电极阵列和列电极阵列的触觉传感块的结构;(ii) 显示应变电极位置的放大图;(iii) 显示紧密装配的触觉传感块侧视图。

B. 视觉 - 触觉联合学习在人类操作中的应用

在操作可形变物体时,手部与物体接触的力分布能够帮助揭示因形变而发生的几何变化。然而,由于形变区域几乎具备无限的自由度,完全估算物体形变的几何形状一直是一个难题。尽管触觉手套能够测量接触区域的分布力并帮助感知形变,但其覆盖范围仅限于部分物体表面,且即便是高密度、分布式的传感器网络也难以全面捕捉物体的完整几何信息。因此,团队认为,还需要视觉观测来弥补这一不足,从而恢复完整的物体几何形态。此类视觉 - 触觉交互机制与人类的认知过程高度相似。

团队提出了一种视觉 - 触觉联合学习框架,旨在手 - 物体重建和跟踪中恢复物体几何信息,尤其是在高度非刚性形变的情况下。该框架通过结合触觉数据和视觉信息,能够有效重建被手部遮挡或形变的物体细节。为了评估这一框架,团队制作了一个视觉 - 触觉数据集,包括 7680 个样本,涵盖 24 种物体、6 个类别。数据集中包括海绵、橡皮泥、瓶子和杯子等可形变物体,以及折叠架和剪刀等刚性物体。每个物体都进行了 20 次触摸,并通过 16 个不同的摄像头视角进行了记录。训练数据来自 RFUniverse,它支持基于有限元方法(FEM)的仿真,测试数据则来源于实际操作。

图片

图 3: 该模型包含手部重建器、特征提取器、时间特征融合器和绕数场(WNF)预测器。全局和局部特征均从视觉和触觉输入中提取,并基于手部的区块位置。团队将这些特征融合在一起,利用时间交叉注意模块计算每点特征,预测采样位置的 WNF,并通过行进立方体算法重建物体几何形状。

实验验证

团队从两方面验证了系统的有效性:触觉手套与可形变物体交互分析,以及视觉 - 触觉联合学习的物体重建效果评估。

A. 触觉手套与可形变物体交互分析

为了验证触觉手套的性能,团队设计了一个动态的饺子制作任务,使用软橡皮泥作为高度可形变的物体进行实验。该任务包括将橡皮泥揉成球状,然后将其压成扁平形状(作为饺子皮),最后用手指捏合皮边。首先,当手掌将橡皮泥揉成球状时,图 4A 展示了手掌传感区域(称为手掌块)的归一化压力变化。其次,在手掌按压橡皮泥球时(图 4B),经过应变干扰校正后的归一化压力高于未经校正的结果。第三,将饺子皮对折并用拇指和食指捏合边缘(图 4C)。归一化的捏合压力显示,经过校正的压力曲线在三个子阶段明显增加,这可能是由于形变带来的显著应变和未校正的压缩力减少所致。

此外,团队还研究了在需要手指与手掌协作的操作中,应变干扰校正前后的触觉传感块表现。例如,在反复捏合并释放海绵时(图 4D)。未校正的操作只涉及六个活跃的手指块和九个活跃的手掌块,这些块的相关系数大于 85%(图 4E (i))。经过校正后,团队发现了两个额外活跃的手指块和五个手掌块(图 4E (ii))。图 4F (i) 展示了校正前活跃块的归一化压力变化,图 4F (ii) 则展示了校正后压力变化较小的块。Spearman 相关性结果分别展示了未校正和校正后的数据(图 4G (i) 与图 4G (ii))。位于中指远端指骨上的块 3-1 与其他块的相关性最高。校正后,出现了更多的相关性,表明所有手指块在捏合海绵时都发挥了作用,尤其是块 2-2、块 5-1、块 5-2 和块 5-3。像块 3-1 和块 2-1 这样的块,在校正后相关系数增加超过 85%,这表明相关块之间的协同效应得到了增强。图 4H 展示了校正后强相关数量的增加,进一步说明了即使在应变干扰的情况下,校正也有助于深入挖掘不同手指与手掌之间的依赖关系。

触觉手套还能够在操作过程中帮助估计物体形状,尤其是在抓取各种物体时 —— 无论是软物体(如塑料滴管、毛巾、塑料瓶)还是硬物体(如画笔、勺子、小针)。在虚拟现实界面中,可以明显看到沿物体边缘的力反应。

团队还考虑了手部姿态的干扰。图 5-1 与 5-2 分别比较了两种典型动作 —— 揉捏面团和抓取海绵 —— 在空手姿态和与真实物体交互时的归一化压力曲线。与空手姿态相比,实际交互时的归一化压力曲线分别增加了 12 倍、16 倍和 6 倍。较低幅度的噪声可以通过视觉 - 触觉联合学习框架轻松滤除。在监督学习设置下,相关信号(例如接触重建)得到增强,不相关信号则被抑制。

图片

图 4:包饺子任务以及三个动作的触觉反应和归一化压力结果:(A) 揉、(B) 压和 (C) 捏。D 反复捏放可形变海绵的抓取任务照片。E 海绵抓取任务中主动触觉传感块的分布(i)不含应变干扰抑制,(ii)含应变干扰抑制。F (i) 未进行应变干扰抑制的主动块和 (ii) 抑制后进一步显示的块的归一化压力曲线。G 海绵抓取任务中(i)无应变干扰抑制时和(ii)有应变干扰抑制时斯皮尔曼相关分析的弦图像。H 校正前后所有手指区块和手掌区块的强相关数量。

图片

图 5-1:(A) 揉捏操作中的手部姿势任务和 (B) 实际揉面动作与归一化压力曲线。

图片

图 5-2:(A) 在抓取操作中的手部姿势任务和 (B) 实际抓取海绵时的压力曲线。

B. 视觉 - 触觉联合学习的物体重建效果评估

为了验证 ViTaM 系统的有效性,研究者们进行了定性和定量对比测试,以回答以下问题:(1) 特定于触觉阵列的数据格式是否能有效地向学习算法传递几何信息?(2) 与其他形式的传感器(如 RGB-D 相机或光学触觉传感器)相比,它是否更有效?

a) 定性结果

为了展示提出的联合学习框架的有效性,团队展示了两个弹性物体(海绵)和一个刚性物体(剪刀)的接触物体重建。从图 6A 中可以看到,真实数据中的手和物体都得到了很好的重建,而且在触觉信息的帮助下,还可以重建手部遮挡的细节形状。更重要的是,在应变干扰抑制后,基于触觉反馈重建的可形变海绵可以在应变明显的区域显示出更多微小细节,而且由于应变干扰抑制方法有助于恢复施加在刚性边缘上的真实微小力,刚性物体的完整性也得到了改善。图 6B 展示了逐渐形变的塑性体,它代表了捏饺子皮的包饺子任务。塑性体在每个步骤中的形变都得到了很好的展示。在图 6C 中,团队重建了一个刚性折叠架,该折叠架采用了手与物体上不同位置的多次接触。折叠架的细节是通过多次接触与迭代触觉信息嵌入(tactile embedding)来逐步完成的。此外,为了证明视觉 - 触觉联合学习的必要性,在图 6D 中展示了剪刀、折叠架和瓶子的纯视觉结果和视觉 - 触觉结果。得益于视觉和触觉特征的结合,刚性和可形变物体都得到了很好的重构。在图 6E 中,重建的序列证明研究者所提出的方法能够处理多帧的连续数据。因此,该视觉 - 触觉模型性能的提高证明,引入应变干扰抑制的触觉信息对于获得手部遮挡的特征和获取可拉伸界面上物体的动态形变都是至关重要的。

图片

图 6:A. 在没有应变干扰抑制和有应变干扰抑制的情况下,两块弹性海绵和一把刚性剪刀的接触物体重建。B. 在没有应变干扰抑制和有应变干扰抑制的情况下,用手操作逐渐形变的饺子形塑性体的三个重建阶段。C. 手在物体不同位置多次接触后重建的刚性折叠架。D. 剪刀、架子和瓶子的纯视觉和视觉 - 触觉重建结果,显示了视觉 - 触觉关节学习的优越性。E 根据在现实世界中收集到的视觉 - 触觉数据对可形变的杯子和可形变的海绵进行重建的序列结果。

b) 定量结果

团队同样使用了定量指标对方法进行了评估。从表 1 中可以看到,ViTaM 在真机数据下的表现很理想, 大部分的物体都能做到重建误差的倒角距离在 1~2 厘米之内。在实验中,首先,团队将现有的纯视觉解决方案的性能与 ViTaM 系统的算法(不包括触觉编码器)进行了比较;其次,将该算法与之前的一项工作 VTacO 进行了比较,后者采用了基于硅胶的光学触觉传感器 DIGIT 来记录接触形变。在表 2 中可以看到 ViTaM 与前人方法的结果的倒角距离比较。可以发现,ViTaM 系统在重建弹性、塑性、铰链式和刚性四种类型的物体时,表现出优于纯视觉方法的性能。例如,使用 ViTaM 系统重建海绵的倒角距离仅为 0.467 厘米,与 VTacO 相比提高了 36%。基于硅胶的光学触觉传感器可以获得更高分辨率的局部几何信息,如尖锐边缘或严重形变,而分布式触觉手套设计则可以在遮挡过于严重而无法获得视觉信息时获得更全面的特征。

图片

表 1:ViTaM 方法在真机物体上的重建效果指标

图片

表 2:ViTaM 方法与前人的基线方法的定量指标的比较

结论与未来展望

在复杂的操作任务中,捕捉手与可形变物体之间的触觉数据并进一步估计手物状态一直是一个巨大挑战。特别是,缺乏准确、分布式且具有可伸缩性的触觉阵列,阻碍了视觉 - 触觉学习的融合,限制了对一般人类操作的理解。尤其是在可伸缩界面上的应变干扰,会严重影响力的测量准确性和应用效果。

本文提出了一种用于操作的视觉 - 触觉联合记录与跟踪系统,其中触觉输入通过一款具有 1152 个传感通道和 13Hz 帧率的高密度可伸缩触觉手套捕获。该触觉手套集成了一种主动的应变干扰抑制方法,其力测量的准确率达到 97.6%。与未经校正的测量数据相比,ViTaM 的传感器准确度提升了 45.3%。这一主动方法在材料 - 电路层面工作,更符合人类在接触刚性或可形变物体时的自适应触觉感知。与传统的应变干扰抑制策略相比,从结构设计和材料选择角度来看,本文提出的主动方法具有易于集成、成本效益高、大面积适配、耐用性强及广泛的应变抑制范围等优点。ViTaM 系统实现了跨模态数据特征的融合,揭示了手物交互过程中的被遮挡状态,推动了智能体在人形体与机器交互(HMI)中理解能力的发展,尤其是在力学交互方面,向人类触觉感知的水平迈进了一步。

展望未来,ViTaM 系统将被集成到机器人表面覆盖的电子皮肤中,实现与周围环境的无缝互动,能够感知并响应多种环境刺激。此外,捕捉和恢复人类操作过程中的动态状态将有助于更好地理解人类行为,并提升机器人灵巧操作的能力,推动从物体特定操作到通用操作场景的技术进步。

#OpenAI 、Anthropic、谷歌新模型表现均不及预期

五年内 AGI 还能否如期而至?

谷歌、Anthropic、微软和 OpenAI 都是 AI 领域的顶尖玩家,但现在看来,这些公司在开发更先进的 AI 大模型时都遇到了不小的困难。

OpenAI 曾接近一个重要的里程碑。9 月,他们完成了一个全新 AI 大模型的首轮训练,希望能远超 ChatGPT 现有技术水平,朝着打造超越人类的 AI 这个目标更近一步。

不过,彭博社援引两位知情人士消息,这个内部代号「Orion」的模型并没达到预期效果。比如,到了夏末的时候,Orion 在处理没见过的编程问题时表现还不够理想。

总的来说,和 OpenAI 现有的模型比起来,Orion 的进步幅度远不如从 GPT-3.5 升级到 GPT-4 时那么大。要知道 GPT-3.5 可是 ChatGPT 最早用的那个系统。 

一位消息人士告诉彭博社,这一挫折意味着 OpenAI 不太可能在明年年初之前向其用户推出 Orion。与此同时,据三位知情人士透露,谷歌的下一个 Gemini 迭代本应是一次重大升级,但其表现也低于内部预期。同样,期待已久的 Anthropic Claude 3.5 Opus 的发布也被推迟。生成式 AI 在训练中高度依赖于互联网数据。虽然它们在快速生成响应方面表现出色,但似乎已触及瓶颈,无法找到新的高质量内容源来开发更高级的 AI 系统。两位消息人士告诉彭博社,Orion 的编码性能不佳是由于缺乏足够的编码数据进行训练。出版商和作者则担心 AI 系统在未经同意或补偿的情况下抓取他们的内容进行训练。微软和 OpenAI 也正在应对多起版权侵权诉讼。OpenAI CEO  Sam Altman 承认,在没有版权内容的情况下开发类似 ChatGPT 的工具几乎是不可能的。他也指出,版权法并未明确禁止使用受版权保护的内容来训练 AI 模型。OpenAI 最近在一场版权侵权诉讼中胜诉。纽约联邦法官说得很明白:

让我们搞清楚这里真正的问题是什么。原告( Raw Story 和 AlterNet )真正想要追究的,并不是说 OpenAI 删除了版权管理信息,而是 OpenAI 没给钱就用了他们的文章来训练 ChatGPT。

高质量数据的缺乏并不是限制高级 AI 模型发展的唯一问题。构建和维护新模型的高成本也是一个重要障碍。据报道,在过去的几个月里,OpenAI 预计亏损 50 亿美元。然而,他们通过另一轮融资成功续命——从微软、英伟达和其他主要投资者那里筹集了 66 亿美元。

虽然这轮融资让市值飙升到了 1570 亿美元,但市场分析师预测,这家公司还没渡过难关。由于和微软的数十亿美元合作关系等因素,在 2029 年开始盈利之前,OpenAI 可能还要面临 440 亿美元的亏损。通过最新一轮融资获得的延长生命值后,OpenAI 也面临两难:要么在未来两年内转型成为营利性公司,要么就得把投资者的钱退回去。这种情况可能会引来外部势力的干预和恶意收购,其中就包括微软可能在未来 3 年内收购 OpenAI 的可能性。值得一提的是,这已经是 OpenAI 第八次向投资者伸手要钱来支持其 AI 项目的开发了。OpenAI 这一动作已经遭遇了重大阻力,包括马斯克提起诉讼,指控公司背离了创立初衷,还涉嫌参与敲诈勒索活动。专家预测,这一转变还会遭到员工、监管机构和政府部门的强烈反对。至于 OpenAI 何时会发布 Orion 模型,目前还没有确切时间表。据彭博社消息,模型已经进入训练后期阶段,这表明离正式对外发布已经不远了。不过,尽管 OpenAI 投入了大量精力,这个 AI 模型的表现还是不如预期。因此,公司决定把发布时间推迟到明年初。此外,OpenAI 似乎打算改变传统的模型命名方式。因此,这个新模型可能不会用我们熟悉的命名方式。Sam Altman 曾表示,GPT-4 的继任者会「更智能」,运作方式更像一个「虚拟大脑」。他还确认公司今年晚些时候会发布一些重要产品,但强调「不会叫 GPT-5 」。总的说来,这些公司都在追逐通用人工智能( AGI )这个目标,但按照 Sam Altman 的估计,这可不是件容易事。他说,要建造 36 座半导体工厂和额外的数据中心,需要投入 7 万亿美元,还得花很多年时间。这番话一出,很多人觉得简直是天方夜谭,也让 Altman 被贴上了「键盘侠」的标签。有意思的是,尽管说需要这么多投入,Altman 却又声称用现有的硬件就能实现 AGI 。

参考链接​https://www.bloomberg.com/news/articles/2024-11-13/openai-google-and-anthropic-are-struggling-to-build-more-advanced-ai​

#TokenFormer

Token化一切,甚至网络!北大&谷歌&马普所提出TokenFormer,Transformer从来没有这么灵活过!

本论文第一作者是汪海洋,北京大学20级博士生,目前主要关注是通用模型的架构设计和学习算法。指导教授主要包括王立威,北京大学智能学院教授;Bernt Schiele,德国马普计算所教授;Federico Tombari 谷歌人工智能科学家等。

新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦!

TokenFormer 不仅像原始 Transformer 一样 Token 化了 input data,并且 Token 化了网络参数,将 attention 机制拓展到 Token 和 parameters 的交互中,最大化了 Transformer 的灵活性,真正得到了一个 Fully attention-based 的网络结构。

这种方式打破了原有人们区别看待 data 和 model 的观念,即所有的计算都归纳为不同类型的 Token(e.g., data, param token)通过灵活的 attention 来交互。得益于这一灵活的性质,TokenFormer 允许 incremental scaling model size,基于训好的模型上增量的拓展新的更大的模型,大大节省了计算的开销:

图片

这项名为 TokenFormer 的新工作,由谷歌,马普计算所和北大的研究者提出,在 Twitter,HackerNews, Reddit 上得到广泛的讨论和关注 (Twitter 上有 150K + 的浏览量)。

目前代码、模型和项目主页均已放出:

  • 论文链接:https://arxiv.org/pdf/2410.23168
  • 开源代码:https://github.com/Haiyang-W/TokenFormer
  • 开源模型:https://huggingface.co/Haiyang-W

背景介绍

得益于其处理各种数据的灵活性,Transformer 网络结构在各个 AI 领域都取得了巨大的成功。

Transformer 模型通常将处理单个 Token 所需的计算分为两个部分:与其他 Token 的交互(Token-Token Interaction)和涉及模型参数的计算(Token-Parameter Interaction)。

Attention 促进了 Token-Token 之间的交互,使现代通用基础模型能够将多模态数据编码成统一的 Token 序列,并有效捕捉它们之间的复杂依赖关系。

相反,Token-Parameter 计算主要依赖于固定的 linear projection,大大限制 model size 的 scaling。Scaling model 是通常改变模型结构,往往需要从头训练整个模型,带来了过多的资源消耗,使其越来越不切实际。

在本文中,研究团队使用 token 这一概念建模所有的计算,即将 model parameters 也视为一种 token,网络的计算统一为各种不同的 token ( e.g., data tokens and parameter tokens) 之间通过 attention 来进行交互,大大增强了 Token-Parameter 交互的灵活性,从而能够增量式的扩展模型参数,有效地重用先前训练的模型,从而显著降低了训练负担。

为实现这一目标,研究团队引入了 TokenFormer。统一 Token-Token 和 Token-Parameters Interaction 的计算。其 Token-Parameter attention 具有灵活性,并能够处理可变数量的参数,从而本质上最大化了 Transformer 的灵活性,增强了模型的可扩展性。

TokenFormer 提供一种新的看待模型的视角,即网络的计算就是一些 Tokens 相互任意交互。基于这些 Tokens (e.g., data token, parameter token, memory token)和 attention 机制可以灵活地构造任意的网络结构。

该团队希望 TokenFormer 作为一种通用的网络结构,不仅在 incremental model scaling 上有贡献,还在 Sparse Inference, Parameter-Efficient Tuning, Vision and Language Models, Device-Cloud Collaboration 和 Model Interpretability 等领域有更多的贡献。

方法

Tokenformer 的核心创新是 Token-Parameter Attention(Pattention) Layer,它结合了一组 Trainable Tokens 作为 model parameters,并通过 cross-attention 来管理 Input Token 与这些 Parameter Tokens 之间的交互。

通过这种方式,Pattention 层引入了一个额外的维度 —Parameter Token 的数量,这一维度独立于输入和输出维度。此解耦方式使得输入数据可以与 variable number of parameters 进行交互,提供了增量模型扩展所需的灵活性。  

图片

Pattention Layer: 具体来说,就是让 input data 作为 query, 研究团队引入了两组具有 n 个可学习的 Tokens:

图片

代表 key, 

图片

表示 value。输出如下:

图片

其中 Θ 是改进的 softmax,为了防止梯度 exponential 带来的梯度问题,

图片

这里 f () 是任意非线性函数,默认使用 gelu。

图片

研究团队使用 Pattention Layer 替换掉标准 Transformer 中的所有的 linear projection,最大化 Transformer 的灵活性。

应用:天生的增量式 Model Scaling

有了 TokenFormer 这一灵活的性质,可以延伸出很多应用。这里以增量式 model scaling 为例。

图片

假设已经训练好了一个 TokenFormer,其 key parameters 和 value parameters 计为 

图片

图片

如上图所示,加入新的重新初始化的 key-value parameter pairs,计为 

图片

图片

,进而组合成新的 key-value set,

图片

然后使用 pattention layer,让 input data 与 Parameter tokens 进行交互。

图片

这里直观的理解就是每个 Key-Value 代表一种学好的 pattern,其组成一个巨大的知识库。文中的 incremental scaling 就是在原有的知识库上进一步拓展训练。

实验结果

增量式 model scaling:如下右图所示,模型在已经训好的 124M 的模型的基础上,采用增量式训练,只用十分之一的数据就可以达到从头训练策略相近的性能,让模型可以不断迭代,真正地活起来了。

图片

Language Modeling:如下表所示,研究团队比较了 Transformer-based 的模型和 TokenFormer 在语言建模上的能力。

图片

在相同规模、相同模型尺寸下, TokenFormer 在大大增加灵活性的前提下达到了比 Transformer 更好的 zero-shot 性能。这里研究团队 follow 了 pythia 标准的训练代码以及数据集:Pile (300B)。上述结果展现了 TokenFormer 在语言模型建模上的能力。

Visual Modeling: 为了进一步验证 TokenFormer 的表达能力,研究团队还和标准的 vision transformer 进行了对比。

图片

在 ImageNet-1K 的监督训练的 setting 上,使用相同的训练策略, TokenFormer 的性能超过了 vision-transformer,验证了其在 visual modeling 上的能力。

未来研究方向

极致的专家混合(Mixture-of-Experts)范式

研究团队认为 Tokenformer 是专家混合(MoE)框架的极致实例化,其中每一组键 - 值参数对都充当一个独立的专家。这种创新的类 MoE 架构有可能显著减少与 Token-Parameter 交互相关的计算成本。

新的参数高效微调范式

Tokenformer 的扩展方法通过集成额外的 key-value parameter pairs,展现了一种参数高效的微调策略。当面对新任务或数据集时,该模型可以通过加入新的 Token Parameters 来扩展其预训练参数,从而快速适应特定任务需求。

整合视觉和语言模型

利用 Tokenformer 的参数高效微调能力,可以实现视觉和语言模态的无缝集成。具体方法是将预训练的 Visual Tokenformer 和 Language Tokenformer 的 key-value parameter Tokens 统一为一个参数集,然后引入新的 Trainable Tokens 来执行视觉 - 语言对齐和指令微调。

端云协同

Tokenformer 可以在设备 - 云协作中充当云端知识库,为设备端的大语言模型(LLM)提供支持,其中每组 key-value parameter tokens 代表一个可学习模式,通过设备进行实时处理,并利用云端执行密集任务。

增强模型的可解释性

由于 Tokenformer 完全基于注意力机制,它自然受益于在 Token-Parameter 交互中与注意力相关的可解释性特性。这一特点增强了模型的可解释性,为 AI 社区开发更透明、易理解的模型贡献力量。

#脑波解码延迟仅80毫秒

实时「意念对话」技术登Nature子刊

无法说话的人,现在可以通过大脑扫描的方式实时地用自己的声音说话了。整个过程没有延迟,也不需要打字,不用发出任何声音。

本周,脑机接口的最新研究在社交网络上引发了人们的热烈讨论,一位推特博主的帖子浏览量突破了 150 万。

图片

先来看效果。视频中的受试者严重瘫痪,不能讲话。她的大脑活动被解码为目标句子,然后使用文本到语音模型一次合成一个单词。

我们可以看到连接受试者头部的设备(connector)。屏幕上出现了目标句子(target sentence),然后从大脑活动解码文本,并应用「单词级文本到语音合成」。

,时长00:16

接下来是更多的示例:

,时长01:22

论文一作 Kaylo T. Littlejohn 发推宣传团队的成果,他表示,这种流式「脑转语音」(brain-to-voice)神经假体可以让瘫痪患者恢复自然、流利和清晰的语言能力。

同时他强调,泛化能力至关重要,随着快速改进设备,现在构建的解码方法应能跨用例转换(比如非侵入式与侵入式的权衡),并为未来的临床语音神经假体打好基础。

图片

这项技术成果「牛」在哪里?

要知道在此之前,最好的脑机接口系统也只能让患者以每分钟 8-14 个字的速度「打字」。而这个新系统输出语音的速度可以达到每分钟 90+ 个英文单词,而且它不使用任何可听见的训练数据,用户甚至不需要尝试发出声音。

该研究来自加州大学伯克利分校(UC Berkeley),已经登上了最新一期《自然》子刊 Nature Neuroscience。

  • 论文:A streaming brain-to-voice neuroprosthesis to restore naturalistic communication
  • 论文链接:https://www.nature.com/articles/s41593-025-01905-6

该系统转录的目标是患者大脑的言语运动皮层,采用 253 通道 ECoG 阵列,深度学习神经解码器经过 2.3 万次转语音训练,构建了延迟仅 80ms 的 RNN-T 架构,既可以合成语音也可以进行实时转录,音色模仿自患者受伤之前的录音。

大多数脑机接口的系统在输出任何内容之前都需要等待人想出完整句子,但在新的系统上,人类正在思考中的内容就可以被转为语音,延迟大约为 1 秒。因此该系统可以称得上是实时的意念转语音了。

在实际测试中可以看到,语音转录的效果快速、流畅且准确:在 50 个短语集(护理需要)的测试中,新方法达到了 91 WPM 、12% 字错率 (WER)、 11% 字符错误率。在 1024 字集的自然句子测试中,该方法也达到了 47 WPM、59% WER 和 45% 字符错误率。虽然还不是很准确,但已经证明了该系统的有效性。

图片

此外,该系统成功地合成了在训练过程中未曾见过的新词汇。当给定 24 个新的词汇,例如 Zulu、Romeo,它正确识别出这些词汇的概率为 46%,而仅凭偶然猜测的概率为 3.8%。这一切仅通过神经活动就得以实现。

图片

此外,该系统采用了统一的神经网络架构,能够跨多种技术平台解码语音信号,具体包括:

  • ECoG(皮层脑电图),通过植入大脑表面的电极阵列读取神经信号,无需穿透脑组织,创伤性较低;
  • MEA(皮层内微电极),通过植入大脑皮层的微型电极记录单个神经元活动;
  • EMG(面部表面电极,无需手术)。

图片

一直以来,很多研究仅仅局限于试验阶段,相比之下,该系统能够持续工作,不需要预先编程就能够通过大脑活动检测到受试者何时开始和停止说话。研究者用时长 6 分钟的连续无声语音块对其进行了测试。结果显示,系统能够准确解码,几乎没有任何误报。

图片

这项研究的解码速度达到了新的标杆,此前最佳解码速度为 28 词 / 分钟(WPM),该系统的表现达到 90 词 / 分钟(WPM),且延迟更低。

更重要的是,受试者无需发声,借助该系统,受试者用意念就能「说话」。

从临床角度看,这项研究能让失去语言能力的人重新获得说话的权力。从技术角度看,它解决了实时、流畅的神经语音解码问题。大家期待已久的无声交流正在实现,这也表明了语言可以完全基于神经信号来传达。

如果这项技术普及开来,我们可以想象 20 年后的世界,那将是不再需要手机、不再需要键盘、不再需要语音指令等等,你要做的只是思考,你的话语便能被实时感知。

参考链接:https://x.com/IterIntellectus/status/1906995681253822519

#百度广告推荐系统在大模型时代的革新

2025 年,生成式 AI 的发展速度正在加快。

我们见证了 DeepSeek R1,用强大的推理能力再次点燃 AI 智力增长的火箭。

在上个星期,OpenAI 给 GPT-4o 的一波图像生成更新又让全网陷入了梗图、甚至玩梗视频制造的火热氛围中。

图片

用 GPT-4o 渲染过的《星际穿越》电影片段。

AI 的「想象力」一次又一次震撼着我们,基于先进大模型的应用正在越来越多的领域引发革命,被改变的也包括科技领域本身。

比如,生成式 AI 正在改变人们获取信息的方式。很多人认为,大型语言模型(LLM)既然强于生成和推理,那么应该也能从用户的历史行为中洞察出深层次的兴趣,进而为推荐系统找到全新的可能性。

既然生成式 AI 能通过已知上下文预测生成新内容,那么已知一些人们感兴趣的内容,AI 应该也可以预测出他们的下一个兴趣点。这个预测的内容可以是一篇文章、一段视频、某个品牌的商品或是 App 上的服务。

近日,百度推荐广告团队在广告生成式推荐取得了新成果,其构建的生成式 AI 推荐系统实现了前所未有的效果。

  • 论文标题:Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations
  • 论文 ArXiv:https://arxiv.org/pdf/2503.02453

在科技行业中,推荐系统虽不如图像生成、代码生成那样具有极高的讨论度,但一直是数字生态举足轻重的一部分。它在电商平台、视频 App 和社交网络上广泛出现,是提供符合用户偏好个性化内容的核心技术。

ChatGPT 推出以来,生成式检索(Generative Retrieval)逐渐成为了推荐系统领域最热门的研究方向。与传统的序列推荐方法不同的是,生成式模型可以根据用户的行为更加直接的进行预测,由 AI 模型处理复杂的用户 - 商品交互,可以提供推理和小样本学习等新能力,大幅提高推荐准确性和多样性。

尽管把生成式 AI 引入推荐系统的创新已有不少,但与序列密集检索方法相比,生成式检索方法仍然面临一些挑战,比如它们往往难以进行细粒度相似性建模。

谷歌的 TIGER 是推荐系统生成检索的知名方法,如图 1(左下)所示;百度则新提出了级联组织双表征生成式检索(Cascaded Organized Bi-Represented generAtive Retrieval,COBRA),这是一个将生成式和密集检索高效融合的框架。图 1(右)展示了 COBRA 的推理范式。

图片

COBRA 研究的主要贡献如下:

  • 级联双表示的检索框架:COBRA 作为一种新型生成式推荐框架,可在生成稀疏 ID 和稠密向量之间交替。通过将稠密表示合并到 ID 序列中,COBRA 弥补了基于 ID 的方法固有的信息损失。使用稀疏 ID 作为生成稠密向量的条件可以降低稠密表示的学习难度。
  • 端到端训练可学习的稠密表示:COBRA 利用原始特征数据作为输入,通过端到端训练生成稠密表示。与静态嵌入不同,COBRA 的稠密向量是动态学习的,可捕获语义信息和细粒度细节。
  • 生成过程由粗到细:在推理过程中,COBRA 首先生成稀疏 ID,然后将其反馈到模型中以生成精细的稠密表示,从而提取细粒度兴趣表征。此外,该研究还提出了 BeamFusion 来实现推荐多样性和精度的灵活可控。
  • 全面的实证验证:通过对多个基准数据集的大量实验,研究证明了 COBRA 在推荐准确率方面的表现优于现有的 SOTA 方法,验证了 COBRA 在推荐任务中真实有效性。

生成式检索

几波技术演进

其实,在形成如今 COBRA 方案之前,百度研究团队针对广告场景中的生成式推荐任务,经历了多个阶段的技术探索,并针对暴露出来的技术缺陷持续优化与完善。

在生成式推荐任务中,大模型要预测的 item 是综合体(如广告标题、品牌、多模信息等)⽽并⾮简单的 token。因此,1)如何对 item 进行表征,2)基于表征进行序列建模是生成式推荐的两个核心问题。

最开始,百度采用了「纯⽂本表征 + LLM 建模」的方案,直接利用 LLM 进行推荐。通过标题、落地页等文本来表征 item,虽然可以辅助理解用户意图、提升可解释性,但超长的输入导致了巨大的资源和性能开销,运行成本较高。随后尝试通过短语来表征 item,但短语很容易出现信息压缩过度、表达不全的情况,难以全面描述 item 的各种属性。此外,item 之间的序列关系偏重兴趣协同而并非单纯的语义关系,与 LLM 建模的语义关系存在着鸿沟。

在意识到无法简单的直接使用现有方法后,研究团队开始考虑对 item 进行压缩表达,全面满足性能、信息完备、item 关系建模的要求。

因此,研究团队形成了「稠密表征 + 对⽐学习度量」的方案,核心在于将 item 表征为稠密向量。为此,他们引入了一个编码器逐个对 item 内容进行编码,使得 item 序列转变为一组向量序列并输入到一个 Causal Decoder 中;接着通过 Next Item Prediction 的方式完成模型训练,在训练中引入对比学习,使得编码器、解码器能够同步更新。在推理阶段,算法通过编码器输出 item 向量来构建索引,并通过向量序列输入到解码器中获取用户表征,最终完成 ANN 召回。

这一方案的优势在于表达能力强,可以完整利用 item 原始信息,对比学习保证了端到端训练,进一步建模序列中隐含的协同信息。虽然 item 信息利用和序列关系建模两大关键问题得到了有效解决,但仍然是在较大稠密空间上建模,缺少了兴趣探索过程,建模复杂度并未降低。

图片

「稠密表征 + 对⽐学习度量」方案概览。

接下来,研究团队受到谷歌 TIGER 的启发,尝试了「稀疏表征 + 稀疏 ID ⽣成」的方案,通过稀疏 ID 来表征 item。

完整的实现过程是这样的:首先通过商业预训练模型对广告特征进行嵌入,然后使用残差量化变分自编码器(RQ-VAE)将嵌入向量量化为带层次结构的 ID Tuple(如 L1、L2、L3),最后将 ID 序列输入到 Causal Transformer 并通过下一个 ID 预测来建模序列。在推理阶段,在给定行为序列的情况下,模型可以通过自回归方式来生成下一个可能的广告 ID。

稀疏表征的引入充分发挥出了「嵌入 + 量化」的作用,将 item 转化为 ID,使模型在压缩空间中学习用户兴趣转移,尤其适合高度个性化推荐场景中的「千人千面广告推送」。然而,受限于相互隔离的「嵌入、量化、序列建模」,不可避免地出现了信息损失,导致对用户偏好的精细变化捕捉效果较弱。

在尝试了以上技术方案之后,研究团队认识到了单一表征方式难以同时兼顾粗粒度类别信息和细粒度特征信息的局限性,提出了 COBRA 框架,通过级联方式融合稀疏 ID 和稠密向量表征,形成了「稀疏 - 稠密级联表征 + ⽣成度量⼀体化」方案,大大增强了模型的灵活性和适应性。

COBRA 框架的四大创新

下图为 COBRA 的整体框架,在集成了级联稀疏 - 稠密表征和由粗到细生成之后,实现了当前 SOTA 级别的推荐性能。

图片

一是级联稀疏 - 稠密表征。

过程中,级联表征将稀疏 ID 和稠密向量集成在一个统一的生成式模型中。对于每个 item,它的稀疏 ID 和稠密向量组合起来以形成级联表征。这样做可以兼顾稀疏与稠密表征的优点,获得更全面的 item 特征,其中稀疏 ID 通过离散约束提供稳定的类别基础信息,稠密向量确保模型捕获高级语义和细粒度细节。

二是交替学习的序列建模。

得益于级联表征的方式,方案中将目标 item 的概率分布建模分为两个阶段,以利用稀疏与稠密表征的互补优势。COBRA 没有选择基于历史交互序列来直接预测下一个 item,而是转为交替预测稀疏 ID 和稠密向量。具体来说,采用 Causal Transformer 统一生成式模型接收级联表征作为输入,从而捕获序列依赖关系。

三是端到端训练。

COBRA 的端到端训练过程旨在同时优化稀疏和稠密表征预测。训练过程由一个复合损失函数控制,该函数结合了稀疏 ID 预测和稠密向量预测的损失。稀疏 ID 预测损失在基于历史序列预测下一个稀疏 ID 的过程中,保证了模型的效率;稠密向量预测损失用于细化稠密向量。同时,该稠密向量由端到端的可训练编码器生成,并在训练过程中进行优化,从而适应不同推荐任务的特定需求。

这种双目标的损失函数可以实现均衡的优化过程,使模型在稀疏 ID 的指导下动态地细化稠密向量,同时端到端的训练方法可以捕获高级语义和协同信息。

最后是由粗到细生成。

作为一种高效的策略,这有助于模型解耦与模块优化,并在保证候选多样化与覆盖性的同时进一步提高精度。在推理阶段,COBRA 采用由粗到细的生成过程,先生成稀疏 ID,后细化稠密向量,如下图 3 所示。

具体地,首先基于⽤户历史交互序列,使用 Transformer 解码器建模的 ID 概率分布,并利用 BeamSearch 算法生成下一个 item 的稀疏 ID。然后,将⽣成的稀疏 ID 追加到输⼊序列中,作为条件进⼀步⽣成对应的稠密向量,捕获 item 的细粒度特征。同时引⼊ BeamFusion 机制,并结合 BeamSearch 和近邻检索分数,在确保推荐精度的同时保证召回⼴告候选的多样性。

图片

由粗到细的生成过程。

COBRA 框架为生成式推荐领域提供了一个的新范式。

多场景性能提升

已实际应用

实测效果如何?研究团队使用公开和工业数据集对 COBRA 框架进行了全面评估,并重点展示了 COBRA 提升推荐准确率和多样性的能力,并通过离线和在线评估来验证实际效果。大量实验表明,COBRA 优于目前业内最先进的方法。

在公开数据集上,研究团队使用了 Amazon Product Reviews 数据集,并重点分析了「Beauty」、「Sports and Outdoors」以及「Toys and Games」三个子集。

实现结果如下表 2 所示,其中在「Beauty」数据集上,COBRA 的 Recall@5 和 Recall@10 相比之前的最佳模型 TIGER 分别提升了 18.3% 和 11.9%;在「Sports and Outdoors」数据集上,COBRA 的 Recall@5 和 NDCG@10 相比 TIGER 分别提升了 15.5% 和 18.8%;在「Toys and Games」数据集上,COBRA 的 Recall@10 和 NDCG@10 相比 TIGER 分别提升了 24.5% 和 19.2%。

图片

对于行业数据集,研究团队采用了 Baidu Industrial 数据集,它基于百度广告平台上的用户交互日志构建,涵盖了列表页、双栏、短视频等多种推荐场景,包含了 500 万用户和 200 万条广告,全面展现了真实用户行为和广告内容。

为了验证本文策略的有效性,研究团队对 COBRA 以及移除稀疏 ID 的变体 COBRA w/o ID、移除稠密向量的变体 COBRA w/o Dense 以及移除 BeamFusion 的变体 COBRA w/o BeamFusion 进行了比较。结果如下表 3 所示,相较于三种变体,COBRA 均体现出了优势,从而验证了该框架中各个组件的有效性。

在 K=800 时,COBRA 的召回率为 0.4466,相较没有稀疏 ID 的变体提升了 43.6%, 相较没有 BeamFusion 的变体提升了 36.1%。

图片

为了评估 COBRA 的表征学习能力,研究团队对广告稠密嵌入展开相似度矩阵分析,如下图 4 所示,展现了 COBRA 模型的类别内聚性和类别间分离性。相反,没有稀疏 ID 的模型变体显示出较弱的类别间分离性(图 4b),加入稀疏 ID 则可以增强内聚性和分离性(图 4c 差异矩阵定量分析)

这意味着 COBRA 不仅能够将同⼀类别的项目紧密地聚集在⼀起,还能将不同类别的项⽬有效地区分开来,从而在推荐时能够更精准地捕捉⽤户的兴趣点。

图片

进一步的可视化广告嵌入分布验证了 COBRA 的嵌入能力。通过随机抽取一万个广告,研究团队观察到了不同广告嵌入形成了明显的聚类中心,如下图 5 所示。我们可以看到,紫色、青色、浅绿色和深绿色聚类主要分别对应小说、游戏、法律服务和衣物广告。

图片

由于与大量业务直接相关,推荐系统是一个很「卷」的领域,在百度的研究中,工程师们把 COBRA 最终策略投放到真实生产环境上跑了一圈,在 A/B 测试中实现了转化率增加 3.6%,ARPU(平均每用户收入)增加 4.15% 的好成绩。

这些业务指标提升表明,COBRA 不仅在离线评估中表现出色,还能够在实际生产环境中带来可衡量的商业价值,目前该方法在百度广告推荐业务中已经全量上线。

结语

经过一系列提升和改进,生成式 AI 已经可以做到表达清晰、预测准确,并在百度的广告推荐系统中实现了应用。与很多领域一样,推荐系统正在向着需求个性化的方向快速发展,而在这个方向上,AI 提供的解决方案已经展现出了独特的优势。

对于普通人来说,在各种 App 上,大模型驱动的推荐系统可以帮助我们获取更多有用的内容,让信息流更加聪明。

对于科技公司而言,或许在几年之内,AI 驱动的业务就可以从目前的局部智能化进化到「需求预测 - 生产调度 - 仓储物流 - 营销交付」的全流程智能化阶段。

未来,AI 应用的深度将决定业务的增长速度。

#2025美国最新奥数题

让大模型集体翻车,DeepSeek R1平均分也不到5%

当 AI 翻开奥数题,CPU 也烧了!

还记得那些被奥数题折磨得彻夜难眠的日子吗?

当你在凌晨三点对着一道几何证明题抓耳挠腮、怀疑人生的时候,你可能会想:「要是有个超级大脑能帮我解决这些问题该多好啊!」

图片

好消息:大模型解数学题的能力很强!坏消息:它们好像也被奥数折磨得不轻。

很多针对大型语言模型(LLMs)的数学基准测试已经表明,最先进的推理模型在美国数学邀请赛(AIME)等数学竞赛中表现出色,O3-MINI 模型甚至达到了与顶尖人类参赛者相当的水平。然而,这些测试仅仅评估了最终答案,而忽略了推理和证明过程。

为弥补这一不足,专注于评估大模型数学能力的 MathArena 平台的研究人员,首次全面评估了模型解决复杂数学问题的完整推理和证明构建能力。

美国数学奥林匹克竞赛(USAMO)是全球最具挑战性的中学生数学竞赛之一。首先,该赛事强调严格证明与逻辑严谨性,题目均为证明题,要求选手通过严密的逻辑推导和完整的数学语言呈现解答,而非仅给出数值答案(如 AIME)。其次,题目难度极高,涉及数论、组合数学、代数、几何等核心领域,常需运用高级技巧(如生成函数、不等式放缩、图论构造等)。而且题目设计具有「门槛效应」:部分问题看似简单,但需洞察隐藏结构或非标准解法(如构造性证明、反证法)。

他们在 2025 年美国数学奥林匹克竞赛(USAMO)试题发布后立即测试了多个热门模型,结果令人失望:所有模型都表现欠佳,平均得分不到 5%。

图片

通过深入分析模型的推理过程,研究人员识别出了多种常见失败模式,并发现模型训练中的某些优化策略反而产生了负面影响。

图片

论文标题:PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD

论文链接:https://arxiv.org/pdf/2503.21934v1

项目主页:https://matharena.ai

项目代码:https://github.com/eth-sri/matharena

结果表明,当前的 LLM 在严格的数学推理方面,尤其是在形式化证明生成方面,仍然非常吃力。在未来的研究中,有必要改进训练方法,如纳入重证明的数据集、整合形式验证工具或开发优先考虑逻辑一致性而非答案优化的架构,弥合数值正确性与逐步证明能力之间的差距。

方法

评估基准与问题准备

研究团队选择了 USAMO 2025 作为基准测试,这是一个权威数学竞赛,包含六道需要证明的题目,为期两天。这个竞赛非常适合作为评估基准,因为题目具有挑战性,需要详细证明才能得满分,且数据未被污染.

图 1 展示了两个竞赛题目。在评估过程中,研究人员要求各模型提供全面详细的证明,并使用 LaTeX 格式。

图片

为降低结果的变异性,每个模型对每道题目进行了四次独立解答。所有解答均经过匿名化处理并转换为 PDF 格式进行评分,评分过程中不考虑思考过程部分。

评审团队

评分团队由四位资深数学专家组成,他们都曾是国家 IMO 队成员或进入过国家队最终选拔。评审前,他们接受了详细说明评估目标和方法的指导(可在 GitHub 查阅)。团队通过 USAMO 2024 三道题目的试评分熟悉了评分标准并解决歧义。

评分流程

USAMO 2025 的六个问题均由两名评审员独立评分,每位评审员负责三个不同问题。这种借鉴 IMO 的双重评分方法确保了评分的一致性并减少了主观偏见。由于官方不发布标准答案,研究团队从可靠的数学社区资源(尤其是 AoPS 论坛)收集整理了标准化评分方案,并验证了所有解法的准确性。

遵循 USAMO 惯例,每题满分七分,对有意义的进展给予部分分。评审员根据既定标准独立评分,对不完全符合评分方案的解法也适当给分,并记录了评分理由和部分分数的合理性说明。

失败模式分类

评估者在评分过程中记录了明显的失败模式 —— 即推理中首次出现的错误或解释不充分的实例,包括逻辑缺陷、无根据的假设、数学不准确或计算错误。这些错误被具体分为四类:

  • 逻辑:由于逻辑谬误或无根据的推理跳跃导致的错误,中断了推理过程。
  • 假设:由于引入未经证明或不正确的假设而产生的错误,这些假设破坏了后续步骤。
  • 创造力:由于无法识别正确方法而导致的从根本上错误的解决策略所造成的错误。
  • 代数 / 算术:由关键的代数或算术计算错误引起的错误。

研究团队还系统性地记录了模型在生成解决方案过程中表现出的显著行为模式和趋势,以便进行深入分析。这些观察结果有助于识别模型推理能力中存在的常见问题和需要改进的方向。

结果

主要结果

研究评估了六个推理模型(QWQ、R1、FLASH-THINKING、O1-PRO、O3-MINI 和 Claude 3.7)在 2025 年 USAMO 问题上的表现。

表 1 详细分析了各模型在每个问题上的表现,平均分基于四次评估运行计算,每题满分 7 分,每次运行总分 42 分。表中还包括使用各模型的总成本数据。

图片

评估发现,虽然当前顶尖语言模型在以数值答案为主的竞赛(如 AIME 和 HMMT)中可与顶尖人类竞争者相当,但在生成严格证明方面存在显著差距。所有评估模型的最高平均分不足 5%,近 150 个被评估的解答中无一获得满分。

所有模型都无法解决超过一个问题,这凸显了当前大型语言模型在奥林匹克级数学推理任务中的局限性。这表明现有优化方法如 GRPO 对需要高度逻辑精确性的任务可能尚不足够。

失败模式

人类参与者最常见的失误是无法找到正确解答,但他们通常能清楚判断自己是否成功解决了问题。相比之下,所有评估的大型语言模型都声称已解决问题,这对数学应用构成重大挑战,因为在缺乏严格人类验证的情况下,这些模型得出的结果不可信赖。

研究人员详细分析了评分过程中发现的错误类型。图 2 展示了评审员确定的错误类别分布。

最常见的是逻辑缺陷,包括无依据的推理步骤、错误理由或对先前进展的误解。另一个重要问题是模型倾向于将关键证明步骤视为琐碎而不提供适当证明。值得注意的是,尽管 O3-MINI 是表现最佳的推理模型之一,却经常通过将关键步骤标记为「琐碎」来跳过基本证明步骤。

图片

研究还发现模型推理缺乏创造性,通常在所有尝试中采用相同且错误的策略,未能探索替代方法。例外是 FLASH-THINKING,它在同一运行中尝试多种策略,但仅浅层探索每种方法,未能得出有效结论。

然而,模型在代数和算术计算方面普遍表现出色,能在没有外部支持的情况下成功执行符号运算。不过,R1 表现出明显更高频率的代数或算术错误,表明这是该模型需要改进的方向。

自动评分

研究团队探索了用 LLMs 替代人类评分员的可行性,选择 O3-MINI 和 Claude 3.7 作为评分模型。两个模型均获得了评分方案、验证解决方案和评估示例参考。

表 2 显示,两个模型都未能准确评分解决方案,均系统性地高估了解答质量。具体而言,它们经常为不正确或无依据的推理授予分数,导致分数膨胀最多达到 20 倍。

值得注意的是,FLASH-THINKING 从自动评估中获得的分数明显低于其他模型,研究人员推测这可能是因为它倾向于在每次尝试中生成多个解决方案,从而混淆了基于 LLMs 的评审系统。相比之下,QWQ 获得较高分数,可能是因为它通常生成更简洁的解决方案,更便于自动评审系统理解。

图片

定性讨论

答案框选

当前强化学习优化技术依赖从明确的最终答案中提取奖励,为此模型常被要求将最终答案放在 \boxed {} 环境中。然而,这在 USAMO 问题解答中产生了意外副作用:即使大多数评估问题不需要框选答案,模型仍习惯性地这样做。

一个典型例子是问题 5 中,QWQ 模型错误地限制自己只寻找整数解,尽管题目没有这样的要求。它坚持最终答案是 2,虽然已经正确推导出所有偶数都满足条件。这表明像 GRPO 这样的对齐技术可能无意中让模型认为每个数学问题都需要一个明确的框选答案,从而损害了其整体推理能力。

模式泛化

模型常表现出将小数值案例中观察到的模式过度泛化到更大未测试案例的倾向。虽然这种启发式方法对仅需数值答案的问题可能有效,但对于需要严格证明的问题,这种方法本质上存在缺陷。模型经常在缺乏正式证明的情况下,错误地断言小案例中观察到的模式具有普遍适用性。

解答结构与清晰度

不同模型提供的解答在清晰度和结构连贯性上存在显著差异。O3-MINI 和 O1-PRO 等模型通常以清晰、逻辑化且易于理解的方式呈现解答。相反,FLASH-THINKING 和 QWQ 等模型经常产生混乱且难以理解的回答,有时在单个解答中混合多个不相关的概念。

OpenAI 训练的模型在清晰度上的明显优势表明,专注于解答连贯性的额外训练显著提高了其可读性,这一特性在其他模型中明显受到较少重视。

所以,当下次有人警告你「AI 即将统治世界」时,不妨淡定地递给他一张奥数试卷:「先让它们过了这一关再说吧。」

#Impossible Videos

近千个反现实视频构建了「不可能」基准,哪个AI不服?来战!

白泽琛,新加坡国立大学 Show Lab 博士生,他的研究方向主要包括视频理解和统一的多模态模型,在 CVPR、ICCV、NeurIPS、ICLR 等会议发表多篇文章;曾在 Amazon AI 担任 Applied Scientist,在 ByteDance、Baidu 担任 Research Intern。

兹海,新加坡国立大学 Show Lab Research Fellow,于北京大学获得博士学位,主要研究方向为多模态模型的安全。

Mike Zheng Shou,PI,新加坡国立大学校长青年教授,福布斯 30 under 30 Asia,创立并领导 Show Lab 实验室。

"当物理、生命、地理与社会规律被颠覆,多模态模型(LMMs)是否还能识别它们的 “不可能性”?"

随着人工智能合成视频(AIGC)技术的飞速发展,我们正步入一个由 AI 主导的视频创作时代。当前的 AI 视频生成技术可以逼真地模拟现实世界,但在 “反现实”(anti-reality)场景方面仍然存在巨大的探索空间。

来自 NUS 的团队提出了 Impossible Videos 概念,即那些违背物理、生命、地理或社会常识的视频,并构建了 IPV-BENCH,一个全新的基准,用于评测 AI 模型在 “反现实” 视频生成与理解方面的极限能力。

  • 论文标题:Impossible Videos
  • 论文链接:https://arxiv.org/abs/2503.14378
  • 项目主页:https://showlab.github.io/Impossible-Videos/
  • 代码开源:https://github.com/showlab/Impossible-Videos
  • Hugging Face: https://huggingface.co/datasets/showlab/ImpossibleVideos

,时长01:35

Impossible Videos 示例,包括物理、生物、地理和社会规范下的不可能场景

为什么 Impossible Videos 重要?

当前的合成视频数据集大多模拟现实世界,而忽略了真实世界中不可能发生的反现实场景。

我们尝试回答两个核心问题:

1、现有的视频生成模型是否能按照提示生成高质量的 “不可能” 视频?

2、现有的视频理解模型是否能够正确识别和解释 “不可能” 视频?

Impossible Videos 的研究将推动:

  • 更强大的 AI 视觉推理能力。
  • 更深入的 AI 物理、社会和常识性理解。
  • 更安全可控的 AI 内容生成能力。

IPV-BENCH:首个 Impossible Video 基准

我们构建了 IPV-BENCH,一个涵盖 四大领域(物理、生物、地理、社会),共 14 个类别 的基准,用于评测视频模型的生成和理解能力。一共包含 260 个文本提示,902 个高质量 AI 生成 impossible videos,及相应反事实事件标注。与现有其他基准数据集相比,IPV-BENCH 拥有更丰富全面的数据模态及标注。

Impossible Videos 分类

图片

Benchmark 统计数据

图片

关键结果分析

1. 评测主流 AI 视频生成模型

使用 IPV-BENCH 提供的 260 条文本提示,我们测试了多个主流的开源和闭源 AI 视频生成模型,如 OpenAI Sora、Kling、HunyuanVideo 等。我们提出了评价指标 IPV-Score,综合考虑生成视频的视觉质量以及提示遵循情况。发现:

  • 大多数模型难以生成符合 “不可能” 概念的高质量视频。表现最佳的 Mochi 1 也仅在 37.3% 的例子中生成了高质量且符合提示要求的 “不可能” 视频,大多数模型的成功率徘徊在 20% 左右。
  • 模型在视频质量以及提示遵循两方面能力不均衡。商业模型在视觉质量上遥遥领先,但是难以严格遵循文本提示生成 “不可能” 事件。开源模型如 Mochi 1 视觉质量虽然逊色,但是提示遵循能力远强于闭源模型。
  • 影响生成能力的两点限制:1)“不可能” 的文本提示作为分布外数据,容易引起 artifacts,造成视频质量下降。2)过度强调对事实规律的遵循限制了模型的创造力。

图片

各视频生成模型评估结果

图片

图片

视频生成模型的失败案例。(上) Mochi 1: A car was driving on a country road when it suddenly began to leave the ground and fly into the sky. (下) Sora: On a city street, a yellow car gradually turns green as it drives.

2. 评测主流 AI 视频理解模型

使用 902 个高质量视频以及对应的人工标注,我们构建了三个不同任务评测主流多模态理解模型对超现实现象的理解能力,包括:1)AI 生成视频判断任务(Judgement),2)“不可能” 事件识别任务(选择题,MC),3)“不可能” 事件描述任务(自然语言,Open)。

图片

“不可能” 事件识别任务示例

图片

“不可能” 事件描述任务示例

根据是否需要时域线索进行判断,我们将 “不可能” 事件划分为空域 (Spatial) 和时域(Temporal)两类。 分析实验结果可以发现:

  • 现有模型展示出了对 “不可能” 事件一定程度的理解能力。在 “不可能” 事件识别任务(MC)中,现有模型在区分选项中的不可能事件和其他事件方面展示了较大的潜力。然而,在没有选项线索的开放描述任务中(Open),模型从视频中直接推理并解释” 不可能” 事件仍旧困难。
  • 物理规律类视频的理解更具挑战、生物、社会、地理类的视频理解相对容易。
  • 现有模型在时域动态推理方面仍存在不足。模型在时域任务上的性能显著低于在空域任务上的性能。

图片

视频理解模型在各类别任务上的表现

图片

视频理解模型在空域和时域任务上的表现

总结与未来方向

  • 首个 Impossible Videos Benchmark: 提供标准化评测体系。
  • 新挑战:从反事实的视角评测模型对现实世界规律的理解。
  • 面向未来:当前多模态模型在 “不可能” 事件理解、 时域推理、反事实生成 等方面仍存在巨大挑战。基于 Impossible Videos 的数据增强、模型微调等是帮助模型掌握世界规律的新视角。

参考文献

[1] Huang, Ziqi, et al. "Vbench: Comprehensive benchmark suite for video generative models." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[2] Ye, Junyan, et al. "Loki: A comprehensive synthetic data detection benchmark using large multimodal models." arXiv preprint arXiv:2410.09732 (2024).

[3] Kong, Weijie, et al. "Hunyuanvideo: A systematic framework for large video generative models." arXiv preprint arXiv:2412.03603 (2024).

[4] Bai, Zechen, Hai Ci, and Mike Zheng Shou. "Impossible Videos." arXiv preprint arXiv:2503.14378 (2025).

#稚晖君刚挖来的90后机器人大牛

逆袭履历堪比爽文男主

稚晖君挖来具身智能领域大佬

刚刚,稚晖君旗下创企智元机器人官宣了两个新动向——

一则是关于人事变动。

具身智能领域的国际领军学者罗剑岚博士,已于近日加盟并出任首席科学家

罗剑岚在该领域已深耕10年,曾担任Google X、Google DeepMind研究科学家,是UC伯克利17万引大佬Sergey Levine团队的核心成员。

他曾参与打造世界上首个超人类的机器人真机强化学习系统SERL/HIL-SERL——首次实现将任务成功率提升到100%,在全球范围内被广泛应用。

接下来他将牵头组建「智元具身智能研究中心」,主导前沿算法研发与工程化落地。

另一则是关于公司新合作。

国际顶尖具身智能公司Physical Intelligence(Pi)正式和智元机器人达成合作伙伴关系,双方将围绕动态环境下的长周期复杂任务,在具身智能领域展开深度技术合作。

图片

以及实属罕见的是,在竞逐AI、机器人以及软硬件的最前沿阵地,中美两家明星公司,竟然联手了。

稚晖君挖来具身智能领域大佬

罗剑岚,出生于1993年,本科毕业于武汉理工大学汽车学院。其后在AI和机器人重镇UC伯克利,拿到了博士学位。

从2015年开始,也是在机器人学习领域初步兴起的阶段,他就投身了机器人研究当中。

过程中,他逐渐将目光放在了将强化学习应用到真实机器人这一细分领域。

在积攒了一波学术经验后,2020年他毅然选择踏入工业界,进入谷歌多个机器人部门任职,包括Google X、DeepMind等。

在此期间,他与机器人学习领域的泰斗Stefan Schaal教授进行了一系列合作,主要学习了更多从底层动力学到上层控制的机器人系统知识。

值得一提的是,Stefan Schaal教授是UC伯克利机器人领域的领军专家,曾多次与李飞飞共同发表论文。

两年时间,当他所参与的项目被孵化为工业机器人创企Intrinsic后,他重新回到了伯克利从事博士后研究,师从 Sergey Levine。

Sergey Levine是UC伯克利电气工程和计算机科学系的副教授,专注于能够使Autonomous Agents通过学习获得复杂行为的算法,特别是能够使任何自主系统学习解决任何任务的通用方法。

Sergey Levine因两件事而声名远播。

一是他是领域内的大神,不仅谷歌学术被引用量为超过12.7万,还是不折不扣的顶会狂魔。

此前的不完全统计中,Sergey Levine 2018年在ML和NLP顶会上共发表22篇论文;ICML 2019,他参与论文数量排名第三;NeurIPS 2019、NeurIPS 2020,他均有12篇论文被接收……

其二,他属于UC伯克利的网红教授,此前推出的深度学习课程Deep Reinforcement Learning(课程代号CS 285)非常受欢迎。

回到罗剑岚,正是在回归学术界的这一时间,他参与产出了“强化学习+真机”这条路线上具有代表性的两篇论文:SERL和HiI SERL

SERL/HIL-SERL作为世界上首个超人类的机器人真机强化学习系统,首次实现将任务成功率提升到100%, 在全球范围内被广泛应用。

具体而言,在SERL这项研究中,机器人能用20分钟学会装配电路板,成功率达到了100%。

这一结果真实验证了强化学习的有效性,而在这之前,该方法一直受到行业诟病。

至于HIL-SERL,则是基于SERL的升级版。不过与SERL仅依赖人类的示范不同,HIL-SERL还结合了人类的纠正来训练强化学习策略。

实验结果显示,使用强化学习框架HIL-SERL,研究者可以直接在现实世界中训练基于视觉的通用机器人操作策略。

其中,机器人经过1~2.5小时的训练后,就能完成主板、仪表盘以及正时皮带组装等操作任务。

更重要的是,成功率也是100%。

手握上述重要机器人学习技术,罗剑岚博士这次又选择加入智元投身工业落地。

中美明星具身智能公司,罕见联手

与此同时,智元机器人这次也选择了和一家国外同行开展合作。

Physical Intelligence,去年3月官宣亮相的美国明星创业公司,其团队全是一群机器人和AI大佬,联合创始人就有罗剑岚博士后研究期间的导师Sergey Levine。

据了解,这家公司在去年11月完成了4亿美元的A轮融资,融资后估值为20亿美元,主要投资者包括亚马逊创始人贝索斯、OpenAI、Thrive Capital等知名公司或投资机构。

关于智元为什么会选择这家公司合作的原因,可能还要从Physical Intelligence所推出的产品或技术来追踪。

就在今年2月底,这家公司推出了“分层交互式机器人”(Hi Robot)系统,它能够将视觉-语言-行动(VLA)模型,如π0 ,纳入一个分层推理过程。

划重点,分层推理

面对“如何让机器人能像人类一样执行复杂任务”这个行业难题,Physical Intelligence早已明确给出答案:

让机器人学会以系统 2思维进行思考

合理推测,未来两家可能会在让机器人学会推理方面展开深度合作。

另外,据智元介绍,双方的合作已经初有成效,可以实现一个通用模型根据不同的指令输入执行多个任务。

同时也可以适配多种末端执行器,包括灵巧手、平行夹爪和旋转夹爪,并兼容鱼眼和针孔相机等多种传感器。

官方演示demo如下:

,时长03:15

可以看到,视频中的智元机器人能完成在镜子前戴上围巾、换垃圾袋,将物品从传送带移入物流箱等覆盖家庭和工业场景的多元复杂任务。

整体而言,对行业来说,两家明星具身智能公司的强强联合,不仅蕴藏了大模型推理技术在机器人领域的垂直应用趋势,而且还将进一步加速机器人真实落地家用场景。

One More Thing

当然,对于智元今日的人才大新闻,背后还有一段传奇佳话。

本科毕业于武汉理工的罗剑岚,实际也上演了一段“爽文男主”人生。

因为从中国一所211大学本科,能够拿到UC伯克利竞争激烈的王牌专业offer,并且硕博连读,每年5万美元奖学金!罗剑岚的故事堪称传奇,甚至被专门报道过。

据《长江日报》2015年报道称,当年UC伯克利的机器人方向博士生竞争非常激烈,收到了全球1500份申请,而招生名额仅有30个,最后罗剑岚成功脱颖而出,还打破了纪录——成为唯一一位被机器人和智能机器实验室录取的中国人。

在采访中,罗剑岚坦承自己因为在科研项目中关注到UC伯克利分校卡泽洛尼教授领衔的实验,其后有缘又在天津举办的机器人研究国际会议上,获得了直接向卡泽洛尼教授发问的机会,并进一步在会后递上了自己的简历,向教授明确表达:“我想读您的研究生!”

卡泽洛尼也被年轻本科生的履历吸引。据介绍,罗剑岚从大二开始就跟着武汉理工大学的导师田哲文做项目,发表了4篇核心期刊论文,参加全国和省级重大科研项目有5个,还获得了美国数学建模比赛一等奖。

卡泽洛尼教授给他的回答是:“或许我能有机会让你到伯克利来。”

也正是这句认可,点燃了罗剑岚心底的火苗。

回到武汉后,他又花了大半年时间,利用别人打游戏的时间,啃下了卡泽洛尼教授实验室发表的100多万字的学术资料。

其后2014年8月,罗剑岚更是上演了一段“孤身飞赴韩国追教授”的疯狂。

他查到卡泽洛尼教授将赴韩国参加一场有关机器人的国际会议,随即办好签证就追了过去。并在贵宾室外,等到了卡泽洛尼教授如厕的机会,再次表达了希望跟随读研读博的想法。

卡泽洛尼记得罗剑岚:哦,你住在首尔?

罗剑岚回答:不!我住在中国武汉,我来这里见您,就是希望读您的研究生!

而且也是在这次会议上,罗剑岚的半年苦功也换来了回报,他获得提问机会,把几个月来的思考化成几个刁钻的问题抛给了教授,卡泽洛尼会后再次找到他给出认可:“小伙子,不出意外,我想,我要把你带到伯克利。”

于是回国后,罗剑岚继续与卡泽洛尼教授联系,并附上自己的思考,通过电子邮件给对方发了过去。卡泽洛尼教授告诉他:你写的每篇综述我都看了七八遍,我不敢相信这是一位来自中国的本科生所写。

而也是在卡泽洛尼教授力荐下,罗剑岚在2015年夏天收到了加州大学伯克利分校的offer。

机器人和智能机器实验室,每年5万美元奖学金,从全球1500份简历中脱颖而出,成为了当年唯一一位被该顶级实验室录取的中国人。

参考链接:
[1]​​http://auto.whut.edu.cn/xyh/xywh/201912/t20191227_429864.shtml​​[2]​​https://x.com/physical_int/status/1894829058883731962​​[3]​​https://agibot-world.cn/collaboration​

#大模型轻量化推理技术最新综述

突破思维定式!Stop Overthinking

25年3月来自休斯敦 Rice U 的论文“Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models”。

大语言模型 (LLM) 在复杂任务中表现出卓越的能力。大型推理模型 (LRM)(例如 OpenAI o1 和 DeepSeek-R1)的最新进展通过利用监督微调 (SFT) 和强化学习 (RL) 技术来增强思维链 (CoT) 推理,进一步提高了数学和编程等系统 2 推理领域的性能。然而,虽然较长的 CoT 推理序列可以提高性能,但它们也会因冗长和冗余的输出而引入大量计算开销,这被称为“过度思考现象”。

高效推理旨在优化推理长度,同时保留推理能力,可提供实际好处,例如降低计算成本和提高对实际应用的响应能力。尽管高效推理具有潜力,但仍处于研究的早期阶段。

本文是一个结构化综述,系统地调查和探索当前在 LLM 中实现高效推理的进展。总体而言,依托 LLM 的内在机制,将现有工作分为几个关键方向:(1)基于模型的高效推理,考虑将全-长度推理模型优化为更简洁的推理模型或直接训练高效推理模型;(2)基于推理输出的高效推理,旨在在推理过程中动态减少推理步骤和长度;(3)基于输入提示的高效推理,旨在根据输入提示的属性(例如难度或长度控制)来提高推理效率。此外,介绍使用高效数据训练推理模型的方法,探索小型语言模型的推理能力,并讨论评估方法和基准测试。

大语言模型 (LLM) 已成为极为强大的 AI 工具,在自然语言理解和复杂推理方面展现出先进的能力。最近,专注于推理的 LLM(也称为大型推理模型 (LRM) [91])的出现,例如 OpenAI o1 [61] 和 DeepSeek-R1 [31],显著提高了它们在 System-2 推理领域 [8, 44](包括数学 [16, 35] 和编程 [7, 17])中的性能。这些模型从基础预训练模型(例如 LLaMA [30, 80]、Qwen [95])和下一个 token 预测训练 [23] 演变而来,利用思维链 (CoT) [86] 提示在得出最终答案之前生成明确的、逐步的推理序列,大大提高它们在推理密集型任务中的有效性。

LLM 中的推理能力通常是通过监督微调 (SFT) 和强化学习 (RL) 来开发的,这可以促进迭代和系统性的问题解决能力。具体来说,OpenAI o1 [61] 训练流水线可能将 SFT 和 RL 与蒙特卡洛树搜索 (MCTS) [71] 和处理奖励模型 (PRM) [47] 结合起来。DeepSeek-R1 最初使用 SFT 和由 RL 训练的 DeepSeek-R1-Zero 生成的长 CoT 推理数据进行微调,然后通过基于规则的奖励函数通过 RL 进一步完善。

然而,虽然长 CoT 推理显著提高了推理能力和准确性,但引入类似 CoT 的机制(例如,自洽性 [84]、思维树 [96]、激励 RL [31])也会导致输出响应过长,从而导致大量的计算开销和思考时间。例如,在向 OpenAI-o1、DeepSeek-R1 和 QwQ-32B-Preview 询问“2 加 3 的答案是多少?”[10] 时,就会出现“过度思考问题”。此类模型的推理序列有时会跨越数千个 tokens,其中许多是冗余的,对得出正确答案没有实质性贡献。这种冗长直接增加了推理成本和延迟,限制了推理模型在计算敏感的现实应用中的实际使用,包括实时自动驾驶系统、交互式助手、机器人控制和在线搜索引擎。

高效推理,特别是缩短推理长度,具有显著的好处,例如降低成本和增强实际部署中的推理能力。最近,许多研究 [32、33、54、56、98] 试图开发更简洁的推理路径,使高效推理成为一个突出且快速发展的研究领域。

如图所示:一个开发 LLM 高效推理的流水线

如图所示,现有的高效推理工作分为以下几个主要方向:(1)基于模型的高效推理,包括将全-长度推理模型优化为更简洁的推理模型或直接微调模型以实现高效推理;(2)基于推理输出的高效推理,在推理过程中动态减少推理步骤和输出长度;(3)基于输入提示的高效推理,通过利用提示属性(如提示引导长度或提示难度)来提高推理效率。与 LLM 中模型压缩技术的定义正交,例如量化 [27, 48] 或 kv-缓存压缩 [52, 103],它们专注于压缩模型大小并实现轻量级推理,LLM 中的高效推理强调通过优化推理长度和减少思考步骤来实现智能和简洁的推理。

本文综述对各种方法的分类如下图所示:基于模型的高效推理,包括长度奖励的 RL 优化和可变长度 CoT 的 SFT;(2)基于推理输出的高效推理,包括潜表征压缩和动态推理范式;(3)基于输入提示的高效推理,包括提示-引导的高效推理和问题属性的路由方法;(4)高效数据和模型,包括少训练数据和裁剪、量化&蒸馏;(5)基准和视角,即评估。

长 CoT 推理中的“过度思考现象” [10,78] 是指 LLM 生成过于详细或不必要复杂的推理步骤,从而损害其解决问题的效率的现象。具体而言,一些现代推理 LLM(尤其是一些具有推理能力的较小参数规模模型)往往会产生冗长的推理或多余的中间步骤,使得它们无法在用户定义的 token 预算用完之前提供答案,甚至更糟:由于冗长的推理步骤引入错误或降低逻辑清晰度而提供不正确的答案。

如图展示过度思考的例子。虽然过度思考 CoT 推理在其初始步骤中产生正确的答案,但其生成的推理步骤通常包括多个多余的中间步骤,从而导致不必要的复杂性和清晰度降低。考虑到与 LLM 解码阶段相关的极端资源成本(例如,OpenAI o1 每生成 100 万个 token 的成本为 60 美元),这是非常不受欢迎的行为;不言而喻,如果扩展推理生成导致错误答案,情况会更糟。相比之下,步骤更少的高效思考可以获得正确答案,这凸显了减少过度思考 token 的额外预算的可能性。

注:高效推理的挑战之所以被认为意义重大,是因为具有推理能力模型的预训练配方通常明确鼓励模型生成扩展推理步骤以追求正确答案。例如,当 DeepSeek-R1-Zero 训练时间更长时,其响应长度和基准性能都会增加 [31];观察这两种趋势通常被认为是成功推理支持训练配方的代表。因此,想要在推理时实现推理效率,在设计上就是违背模型的某些预训练目标,因此需要进行不凡的考虑。这项工作旨在总结不同的思维流派及其示范方法,以实现拥有高效而有能力推理模型这一具有挑战性但有益的目标。

基于模型的高效推理

从模型角度来看,这类工作侧重于对 LLM 进行微调,以提高其简洁高效推理的内在能力。

具有长度奖励设计的 RL

大多数推理模型都是使用基于 RL 的方法进行训练的(例如,DeepSeek-R1 [31]、DeepSeek-R1-Zero [31]、OpenAI o1 [61]、QwQ-32B-Preview [79]),这些方法侧重于准确性奖励和格式奖励 [31]。为了提高推理长度效率,一些研究提出将长度奖励整合到 RL 框架中,从而有效缩短推理过程(如图所示)。原则上,长度奖励会为简短、正确的答案分配更高的分数,同时惩罚冗长或不正确的答案,从而优化推理路径的长度。

现有的工作利用传统的 RL 优化技术结合显式的基于长度奖励来控制 CoT 推理的长度。下表显示一些详细的长度奖励。

这些基于 RL 的方法可以缓解具有推理能力的 LLM 中的过度思考,其中过度思考是指不必要地延长推理过程,导致推理时间更长并超出计算预算。通过实现与 LLM 原始推理能力的几乎无损对齐,这些预算高效的 RL 策略使资源受限场景中推理 LLM 的部署变得民主化。

带有可变长度 CoT 数据的 SFT

使用可变长度 CoT 数据对 LLM 进行微调是提高推理效率的有效方法。如图所示,这一系列工作通常涉及:(1)通过各种方法构建可变长度 CoT 推理数据集,以及(2)将 SFT 与收集的推理模型数据结合使用,使 LLM 能够学习封装有效知识的紧凑推理链。注:这种方法不仅限于 RL 训练的推理模型;它还可以通过注入高效的推理能力来直接增强推理模型,类似于蒸馏推理模型中使用的能力。(例如,DeepSeek-R1-Distill-Qwen [31])。

下表是 CoT 长度控制中不同策略优化方法的比较:

构建可变长度 CoT 推理数据集。可变长度 CoT 推理数据集是指可以指导 LLM 获得正确答案的长/短推理步骤的数据集。现有的研究通常通过向预训练的推理模型提出问题来收集长 CoT 数据。基于长 CoT 数据,关键挑战是:如何收集短 CoT 数据?总体而言,可变长度 CoT 推理数据集可以通过后推理或推理过程中创建。在下表中列出一些详细方法。

微调方法。在收集可变长度的 CoT 数据后,现有的研究通过多种方式对 LLM 进行微调以实现高效推理,其中包括标准微调(例如,参数高效微调,如 LoRA [36] 或全微调)和渐进微调。

基于推理输出的高效推理

从输出中推理步骤的角度来看,这类工作侧重于修改输出范式,以增强 LLM 简洁高效推理的能力。

将推理步骤压缩为更少的潜表示

虽然标准 CoT 方法通过明确编写推理步骤来提高 LLM 性能,但最近的研究 [22] 表明,只需添加中间“思考”token,甚至添加毫无意义的填充符(例如“......”)[63],也可以提高性能。[29] 通过在隐空间中反复扩展而不是冗长的文本来扩展更深层次的推理。这些发现强调,好处往往在于更多的隐藏计算,而不是纯粹的文本分解。基于潜在推理可以让 LLM 更高效、更灵活地推理,使用更少(或没有)显式文本中间步骤的见解,几种新方法侧重于用更紧凑的潜表示压缩或替换显式 CoT。

总体而言,这些方法可分为两类:使用潜表示训练 LLM 进行推理或使用辅助模型。如图显示其中一些方法的可视化比较。

推理过程中的动态推理范式

现有研究侧重于修改推理范式以实现更高效的推理。推理过程中的关键是选择适当的标准来指导推理策略。当前的无训练方法使用各种标准探索动态推理,例如奖励引导、基于置信度和基于一致性的选择性推理。此外,基于总结的动态推理方法,在训练过程中内在地整合 LLM 的输出总结范式。

通过显式标准进行动态推理。使用 RL [31] 进行训练-时间扩展可以显著增强 LLM 的推理能力。然而,它需要大量的计算资源来扩大模型训练,这使得它的成本过高 [31]。作为一种替代方案,研究人员探索测试-时间推理,也称为测试-时间扩展 [72]。测试-时间扩展不是依靠训练来学习 CoT 推理步骤,而是利用各种推理策略,使模型能够对复杂问题“思考更长远和更广泛”。这种方法通过增加推理期间分配的计算资源,持续提高需要推理的具有挑战性数学和代码问题性能 [5, 72]。

测试-时间扩展,利用各种推理策略来生成更长、更高质量的 CoT 响应。有几种方法可以扩大推理范围。(1)N 中最佳采样 [76, 85] 涉及为给定提示生成多个响应,扩大搜索空间以识别更好的解决方案。生成后,使用多数投票来选择最佳响应,其中选择最常出现的响应;或通过奖励模型,根据预定义的标准评估响应质量。这种方法已被证明可以显著增强 LLM 的推理能力 [5]。(2)基于波束搜索 [5, 24, 28],它与 N 中最佳不同,它将生成分为多个步骤。波束搜索不是一次性生成整个响应,而是在每一步使用过程奖励模型(PRM) [81] 选择最有希望的中间输出,同时丢弃较少的最优输出。这样可以更细粒度地优化响应生成和评估。 (3) 蒙特卡洛树搜索 (MCTS) [41],其中并行探索多个解决方案路径。 MCTS 沿着解决方案树的不同分支生成部分响应,对其进行评估,并将奖励值反向传播到较早的节点。 然后,该模型选择具有最高累积奖励的分支,与传统的波束搜索相比,确保了更精细的选择过程。

虽然测试-时间扩展可以显着减少训练时间扩展开销 [5],但生成的大量响应仍然使推理在计算上很昂贵。 为了解决这个问题,最近的研究一直在探索优化测试-时间扩展的方法。

基于总结的动态推理。一些现有方法选择通过训练 LLM 总结中间思维步骤来优化推理效率。LightThinker [101] 建议训练 LLM 学习何时以及如何压缩中间推理步骤。LightThinker 不会存储长思维链,而是将冗长的推理压缩为紧凑的“要点(gist)token”,以减少内存和计算成本。实现这种总结范式需要一个稀疏模式的注意掩码,确保模型只关注必要的压缩表示。InftyThink [94] 引入一种迭代推理方法,该方法可以实现本质上无限的推理链,同时保持很强的准确性,而不会超过上下文窗口限制。它通过迭代地生成一个想法、总结它并丢弃以前的想法和总结,只保留最新的总结来实现这一点。此外,InftyThink 提供一种将现有推理数据集转换为迭代格式的技术,以便在该范式下训练模型。

基于输入提示的高效推理

从输入提示和问题的角度来看,这类工作侧重于根据输入提示的特点强制长度约束或路由 LLM,以实现简洁高效的推理。

提示引导的高效推理

提示引导的高效推理明确指示 LLM 生成更少的推理步骤,可以成为提高推理模型效率的一种直接而高效的方法。如表所示,不同的方法提出不同的提示,以确保模型的简洁推理输出。

提示属性驱动的推理路由

用户提供的提示范围从简单到困难。高效推理的路由策略根据查询的复杂性和不确定性动态确定语言模型如何处理查询。理想情况下,推理模型可以自动将较简单的查询,分配给速度更快但推理能力较弱的 LLM,同时将较复杂的查询,定向到速度较慢但推理能力较强的 LLM。

通过高效的训练数据和模型压缩提高推理能力

使用更少的数据训练推理模型

提高推理模型的效率不仅需要优化模型架构,还需要优化用于训练的数据。最近的研究表明,仔细选择、构建和利用训练数据可以显著减少数据需求,同时保持甚至提高推理性能。虽然所有方法都侧重于高效的数据选择,但它们在定义和利用效率方面有所不同。

通过蒸馏和模型压缩实现小型语言模型的推理能力

LLM 已在各种复杂任务中展现出卓越的推理能力,这得益于它们对各种数据集的广泛训练。然而,它们对计算和内存的大量需求对在资源受限的环境(如边缘设备、移动应用程序和实时系统)中的部署提出了挑战。在效率、成本或延迟是主要考虑因素的情况下,小型语言模型 (SLM) 提供了一种可行的替代方案。SLM 在严格的资源限制下仍然运行时保持强大推理能力的能力,对于扩大 AI 驱动的推理系统的可访问性和实用性至关重要。为了实现这一目标,探索两类主要方法:蒸馏和模型压缩。

评估和基准

最近的研究引入基准和评估框架,以系统地评估 LLM 的推理能力。随着 LLM 在执行复杂推理任务的能力方面不断进步,对严格、标准化的评估指标和框架的需求变得越来越重要。

Sys2Bench。[62] 开发 Sys2Bench,这是一个全面的套件,旨在评估五个推理类别的 LLM,包括算术、逻辑、常识、算法和规划任务。该基准包含 11 个不同的数据集,涵盖各种推理任务。它包括用于算术问题的 GSM8K 和 AQuA、用于常识推理的 StrategyQA 和 HotPotQA、用于逻辑推理的 ProntoQA、用于算法任务的 Game of 24 和 Bin Packing,以及用于规划任务的 BlocksWorld、Rubik’s Cube、TripPlan 和 Calendar Plan。

评估过度思考。[19] 引入一个框架来系统地分析 LLM 中的“过度思考”,其中模型倾向于扩展内部推理而不是必要的环境交互。通过检查智体任务中的 4,018 条轨迹,该研究发现诸如分析瘫痪、流氓行为和过早脱离等模式。[19] 还提出了一种“过度思考分数”,并表明分数越高,任务绩效越差之间存在很强的相关性。缓解策略(例如选择过度思考分数较低的解决方案)可以将性能提高 30%,同时将计算开销降低 43%。

计算最佳测试-时间扩展 (TTS)。 [49] 研究 TTS 策略对 LLM 性能的影响,重点研究策略模型、过程奖励模型和问题难度如何影响 TTS 的有效性。他们的研究结果表明,计算最优的 TTS 策略高度依赖于这些因素。

#Scaling Language-Free Visual Representation Learning

视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知

扩展无语言的视觉表征学习。

在视觉问题解答(VQA)等多模态环境中,当前视觉自监督学习(SSL)的表现还比不上语言图像预训练(CLIP)。这种差距通常归因于语言监督引入的语义,尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。

在最近的一项研究中,Yann LeCun、谢赛宁等研究者探讨了一个基本问题: 语言监督对于多模态建模的视觉表征预训练是否必要?

  • 论文标题:Scaling Language-Free Visual Representation Learning
  • 论文链接:https://arxiv.org/pdf/2504.01017
  • 项目地址:https://davidfan.io/webssl/

「我们的目的不是要取代语言监督方法,而是要了解视觉自监督在多模态应用中的内在能力和局限性。为了进行公平的比较,我们在与最先进的 CLIP 模型相同的数十亿规模的网络数据(特别是 MetaCLIP 数据集)上训练 SSL 模型。在比较视觉 SSL 和 CLIP 时,这种方法可以控制数据的分布差异。」研究者表示。

论文共同一作 David Fan 表示,「视觉 SSL 终于可以在 VQA 任务上与 CLIP 匹敌了,即使在 OCR & Chart VQA 上也非常具有竞争力。我们的全新 Web-SSL 模型系列证明了这一点,并且仅仅基于网络图像训练,没有进行任何语言监督。」

image.png

在评估方面,研究者主要使用视觉问题解答(VQA)作为框架,大规模评估 SSL 模型的各种能力。具体来说,采用了 Cambrian-1 中提出的评估套件,跨越 4 个不同 VQA 类别的 16 项任务的性能: 通用、知识、OCR & 图表以及 Vision-Centric。

然后,他们使用上述设置训练了 Web-SSL,这是一个视觉 SSL 模型系列,参数范围从 10 亿到 70 亿不等,以便与 CLIP 进行直接和可控的比较。

通过实证研究,研究者提出了一些见解:

  • 视觉 SSL 可以在广泛的 VQA 任务中,甚至在 OCR & 图表理解等语言相关任务中,匹配甚至超越语言监督的视觉预训练方法(图 3);
  • 视觉 SSL 在模型容量(图 3)和数据(图 4)方面都有很好的扩展性,这表明 SSL 还有巨大的潜力有待挖掘;
  • 视觉 SSL 可以在分类和分割方面保持传统视觉性能的竞争力,同时在 VQA 方面也有所改进(图 7);
  • 对包含文本的图像进行更高比例的训练对于提高 OCR 和图表性能尤为有效(问题 4)。探索数据构成是一个很有前景的方向。

图片编辑助手\SCR-20250403-jsid.jpg

随后,研究者介绍了本文的实验设置,它通过以下方式扩展了之前的 SSL 工作:

(1)将数据集规模扩展到十亿级图像(第 2.1 节);

(2)将模型规模扩展到 1B 参数以上(第 2.2 节);

(3)除了 ImageNet-1k 和 ADE20k 等经典视觉基准之外,还使用开放式 VQA 任务(第 2.3 节)评估视觉模型。

扩展 Visual SSL

研究者也探讨了视觉 SSL 模型在模型和数据大小方面的扩展行为,这是仅对 MC-2B 图像进行训练的结果。这一部分重点讨论 DINOv2 作为视觉 SSL 方法,下一部分会重点讨论 MAE。

  • 扩展模型大小:研究者将模型大小从 1B 增加到 7B,同时将训练数据固定为 20 亿张 MC2B 图像。他们对每种方法都使用了现成的训练代码和配方,为了控制混杂变量,没有因模型规模不同而改变配方。
  • 扩展所见样本:研究者将重点转移到对固定模型大小的总数据进行缩放,并分析当训练过程中看到的图像数量从 10 亿增加到 80 亿时,性能是如何变化的。

扩展模型大小

研究者使用来自 MC-2B 的 20 亿张 224×224 分辨率的未标记图像,并且没有进行高分辨率适应,对 DINOv2 ViT 模型进行了预训练,参数范围从 1B 到 7B,以确保与 CLIP 的公平比较。他们使用 VQA 来评估每个模型,结果如下图 3 所示,包含了整体性能趋势和特定类别性能。

研究者表示,这是仅使用视觉自监督训练的视觉 encoder 第一次在 VQA 上取得与语言监督 encoder 相当的性能,即使是传统上被认为高度依赖文本的 OCR 和 Chart 类别也是如此。

关于性能变化趋势,图 3 还比较了模型容量增加时的性能趋势。WebDINO’s Average、DINOOCR & Chart 和 Vision-Centric VQA 的性能随着模型大小的增加几乎呈现对数线性提升,而通用(General)和知识(Knowledge)的提升程度较小。

相比之下,CLIP 在所有 VQA 类别中的表现在 3B 参数后基本饱和。这表明了,虽然较小规模的 CLIP 模型可以更高效地利用数据,但较大规模的 CLIP 模型基本丧失了这一优势。

Web-DINO 模型增加带来的持续性能提升表明了,视觉 SSL 会从更大规模的模型中受益,并且继续将视觉 SSL 扩展到 7B 以上是一个有潜力的方向。

关于特定类别的性能,随着模型大小的增加,DINO 在 Vision-Centric VQA 上的表现越来越优于 CLIP,在 OCR & Chart 和 Average VQA 上与 CLIP 的差距也大大缩小。

image.png

扩展所见样本

研究者探究了训练 Web-DINO ViT-7B 过程中增加所见样本的数量对性能变化有哪些影响,并将来自 MC-2B 中的图像数量从 1B 增加到 8B。

随着所见样本的增加,General 和 Knowledge VQA 的性能逐渐提升,并分别在 4B 和 2B 样本时达到饱和。Vision-Centric VQA 的性能在样本从 1B 增加到 2B 过程中急剧提升,并在 2B 以上达到饱和。相比之下,OCR & Chart 是唯一一个随着所见样本增加而持续改进的类别。

这表明了,随着模型所见样本的增加,它会学习到一种越来越适合文本任务的表征,而其他能力不会明显下降。

image.png

总的来说,上图 3 和图 4 的结果表明,随着模型大小和样本的增加,视觉 SSL 学习到的特征对于 VQA 越来越有效,尤其是在 OCR & Chart 类别。并且,基于 CLIP 的模型相较于视觉 SSL 没有绝对的优势。

Web-SSL 模型系列

研究者使用 VQA 和经典视觉基准分析了整体性能最佳的视觉编码器。表 3 展示了视觉编码器在 VQA 和经典视觉任务方面与近期现成的视觉编码器相比所取得的最佳结果。

image.png

在 VQA 和传统视觉任务中,Web-DINO 的表现都优于现成的 MetaCLIP。在 VQA 上,Web-DINO 的性能甚至可以与 SigLIP 和 SigLIP2 相媲美,尽管它看到的数据少了 5 倍,而且没有语言监督。总体而言,Web-DINO 在传统视觉基准测试中的表现优于所有现成的语言监督 CLIP 模型。

在所有 VQA 类别中,Web-DINO 也优于现成的视觉 SSL 方法,包括 DINOv2。在传统的视觉基准测试中,Web-DINO 也具有很强的竞争力。

从 224 分辨率到 378 分辨率再到 518 分辨率,Web-DINO 在平均 VQA 上稳步提升,在 OCR 和图表性能方面也有显著提高。传统视觉性能随着分辨率的提高而略有提高。在 384 分辨率下,Web-DINO 落后于 SigLIP。在 518 分辨率下,Web-DINO 在很大程度上弥补了这一差距。结果表明,Web-DINO 可从进一步提高高分辨率适应性中获益。

#MoTCoder

让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA

论文一作李靖瑶,香港中文大学博士生(DV Lab),师从贾佳亚教授。主要研究方向是大语言模型,包括模型预训练、后训练、推理优化。作者陈鹏光、夏彬等均为 DV Lab 成员。

大模型写代码早就是基操了,但让它写算法竞赛题或企业级系统代码,就像让只会煮泡面的人去做满汉全席 —— 生成的代码要么是 “铁板一块” 毫无章法,要么是 “一锅乱炖” 难以维护。

如何让大模型像工程师一样思考,用模块化思维拆解复杂问题?  

近日,贾佳亚团队提出 MoTCoder(Module-of-Thought Coder),通过创新的模块化思维指令微调(MoT Instruction Tuning),显著提升了模型在复杂编程任务中的准确率与可维护性。实验显示,在 APPS 和 CodeContests 等权威编程基准上,MoTCoder 的 pass@1 准确率直接刷新记录,甚至超越 SOTA 6%,让大模型在 “疯狂打码” 时更接近「人类智慧」。

  • 论文标题:MoTCoder: Elevating Large Language Models with Modular of Thought for Challenging Programming Tasks
  • 论文链接:https://arxiv.org/abs/2312.15960 

目前,团队已发出程序员快乐包 —— 代码、模型与数据集通通开源,欢迎在线体验:   

  • 代码库:https://github.com/dvlab-research/MoTCoder  
  • 32B 模型:https://huggingface.co/JingyaoLi/MoTCoder-32B-V1.5  
  • 7B 模型:https://huggingface.co/JingyaoLi/MoTCoder-7B-v1.5  
  • 350K 训练数据集:https://huggingface.co/datasets/JingyaoLi/MoT-Code-350K

复杂编程的解耦神器

当前主流代码生成模型(如 Qwen2.5-Coder)生成的代码往往就是这种单块式的结构,虽然在简单任务上表现良好,但面对复杂场景时难掩缺陷:

  • 拆解复杂任务:不存在的!让它写个分布式系统,输出代码堪比灾难现场;
  • 维护成本爆炸:生成的代码注释比程序员(bu shi)头发还少,debug 时被同事怀疑是祖传咒语。

试想象一下,你让模型写个自动驾驶算法,结果它吐出几千行密密麻麻的代码,像一团乱麻根本无从下手。这就是传统模型的单块式代码 —— 把所有逻辑塞进一个函数,不讲章法地一锅乱炖。

图片

图 1a: 传统模型生成的单块式代码

而 MoTCoder 则能 “遇招拆招”,把复杂任务拆成 “输入解析”、“核心算法”、“异常处理” 等标准化模块,像乐高积木般严丝合缝组装,每个模块还自带 “说明书”,强迫症患者看完都直呼舒适!

图片

图 1b: MoTCoder 生成的模块化代码

图片

图 2:MoTCoder 的两阶段模块化设计流程

MoTCoder 的三大核心突破  

(1)性能开挂:复杂任务准确率刷新 SOTA  

得益于模块化思维对复杂逻辑的拆解能力,在 APPS 数据集上,MoTCoder-32B 的 pass@1 超越同等规模模型 5.8%;在 CodeContests 数据集上,MoTCoder-32B 更是直接上演「屠榜」戏码,超越 SOTA 5.9%!

图片

图 3:MoTCoder 的战斗力曲线

(2)大模型代码质检员

MoTCoder 通过多轮自我反思机制,能自动检测并修正代码错误。实验显示:

  • 未修正状态下,MoTCoder 可达到 SOTA 模型 5 轮人工修正后的效果
  • 开启自检后,准确率更进一步提升 4%

(3)代码质量全面碾压传统模型

通过专业的代码质量分析工具 Radon 对 APPS 和 CodeContests 数据集上的生成代码进行评估,MoTCoder 在所有难度级别中都保持了明显更高的可维护性指数(Maintainability Index)。  

实验数据显示,相比普通微调模型和基线模型,MoTCoder 生成的代码具有更低的复杂度、更精简的代码量和更合理的注释比例。

程序员狂喜:简直好用哭了!

图片

图 4:MoTCoder 生成的代码具有更优的可维护性特征  

智能调度:简单题极简模式,难题乐高模式

这种优势源于 MoTCoder 的模块化训练方法,使生成的代码结构更清晰、逻辑更简明。在时间和内存消耗的对比中(图 5),MoTCoder 生成的代码展现出显著优势。虽然其运行时间与普通微调模型相当,但在内存占用上始终低于基准模型。这得益于 MoTCoder 对全局变量和函数局部变量的智能区分,能够及时释放未使用的内存资源。

图片

图 5:MoTCoder 生成的代码具有更低的内存消耗

图片

图 6:不同难度的代码函数数量与准确率关系

贾佳亚团队在开发过程中发现了一个有趣的现象(图 6): 

- 入门题:函数数量增加,准确率反而下降(简单问题无需拆解)  

- 面试题:函数数量变化对准确率影响较小(保持稳定)  

- 竞赛题:函数数量与准确率呈正相关(复杂问题必须模块化) 

MoTCoder 自带智能调度系统,问题复杂度决定了其模块化策略:面对两行代码就能搞定的题目,启动极简模式;而遭遇代码量堪比毕业论文的变态需求,则秒切乐高模式。而这种思维方式已达到人类工程师的解题路径。  

这种特性也使得 MoTCoder 可覆盖从算法竞赛到工业级开发多个落地场景:

  • 算法竞赛:秒解 Codeforces/LeetCode 难题,生成带注释的标准答案;
  • 大型系统设计:自动生成微服务架构代码,接口清晰、模块解耦;  
  • 企业级应用开发:生成可长期维护性的代码库,降低技术债务累积速度。

MoTCoder 让代码生成从 “功能实现” 跃迁至 “工程实践”,或许是时候重新定义智能编程了 —— 不仅要生成代码,更要生成好代码。贾佳亚团队表示,将继续深化智能编程的研究,并探索其在更多工业界场景的深度应用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值