我自己的原文哦~ https://blog.51cto.com/whaosoft/12219999
#FakeShield
提出基于多模态大语言模型的可解释图像篡改检测定位
本篇分享论文FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models
,北京大学提出基于多模态大语言模型的可解释图像篡改检测定位。
- 论文信息:Zhipei Xu, Xuanyu Zhang, Runyi Li, Zecheng Tang, Qing Huang, Jian Zhang*. FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models. arxiv preprint arxiv:2410.02761, 2024. (*张健为通讯作者)
- arxiv链接:https://arxiv.org/abs/2410.02761
- 论文网站:https://zhipeixu.github.io/projects/FakeShield/
- 项目网址:https://github.com/zhipeixu/FakeShield
随着生成式AI技术的快速发展,图像伪造和篡改变得越来越普遍,在真实性与安全性方面带来挑战。传统的图像伪造检测与定位(IFDL)方法存在检测原理未知和泛化性较差等问题。
为了应对这些问题,本文提出了一种全新的任务:可解释的图像伪造检测与定位(e-IFDL),并设计了一个新颖的多模态伪造检测定位框架:FakeShield。
如图1所示,与传统IFDL方法相比,FakeShield不仅能检测图像的真实性并生成篡改区域的掩膜,还可以基于像素伪影和图像语义错误等伪造线索提供合理的解释。
此外,我们创建了多模态篡改描述数据集MMTD-Set,并结合数据域标签(domain tag)引导的可解释的伪造检测模块DTE-FDM与多模态伪造定位模块MFLM,以实现细粒度伪造检测与定位。
实验结果显示,FakeShield在包含多种伪造方法的测试集上,展现了优越的性能以及出色的鲁棒性,泛化性。
图1:(a)传统IFDL方法,(b)可解释的IFDL方法
MMTD-Set数据集构建:如图2所示,我们根据篡改方法,将篡改图片分为PhotoShop、DeepFake、AIGC-Editing三个数据域。
基于现有的IFDL数据集,我们利用GPT-4o生成对于篡改图像的分析与描述,构建“图像-掩膜-描述”三元组,以支持模型的多模态训练。
另外,针对不同篡改类型,我们设计了特定的描述提示,引导GPT关注不同的像素伪影和语义错误。
图2:MMTD-Set数据集构建过程
FakeShield框架:如图3所示,该框架包括域标签引导的可解释伪造检测模块(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模态伪造定位模块(Multi-modal Forgery Localization Module,MFLM)两个关键部分。
DTE-FDM负责图像伪造检测与检测结果分析,利用数据域标签(domain tag)弥合不同伪造类型数据之间的数据域冲突,引导多模态大语言模型生成检测结果及判定依据。
MFLM则使用DTE-FDM输出的对于篡改区域的描述作为视觉分割模型的Prompt,引导其精确定位篡改区域。
图3:FakeShield框架图
在实验结果方面,我们从检测,定位,解释三个方面来评价FakeShield的效果,其在多个IFDL测试集中表现出优越性能,定量结果如表1,表2,表3所示,定位性能的定性结果如图4所示。
表1:FakeShield与主流IFDL方法的定位性能比较
表2:FakeShield与主流通用MLLM方法的解释性能比较
表3:FakeShield与主流IFDL方法的定位性能比较
图4:FakeShield与主流IFDL方法的定位性能的定性比较
实验室简介:
视觉信息智能学习实验室(VILLA)由张健助理教授于2019年创立并负责,主要围绕“智能可控图像生成”这一前沿领域,深入开展高效图像重建、可控图像生成和精准图像编辑三个关键方向的研究。
创立至今已在Nature子刊Communications Engineering、TPAMI、TIP、IJCV、SPM、CVPR、NeurIPS、ICCV、ICLR等高水平国际期刊和会议上发表论文90余篇。
近期工作包括无需GT自监督图像重建SCNet、超低采样率单光子压缩共焦显微成像DCCM、图像条件可控生成模型T2I-Adapter、全景视频生成模型360DVD、拖拽式细粒度图像编辑DragonDiffusion/DiffEditor、精确控制视频内容与运动的编辑ReVideo、面向3DGS动态场景重建与理解HiCoM/OpenGaussian、面向3DGS的隐写框架GS-Hider、面向AIGC内容篡改定位与版权保护的水印技术EditGuard/V2A-Mark等,欢迎关注!
更多信息可访问VILLA实验室主页(https://villa.jianzhang.tech/)或张健助理教授个人主页(https://jianzhang.tech/)。
#VBench
VBench评测第一,5周访问量暴增8倍多! 这款国产AI视频生成器「压番」Runway
这可能是目前国内最好的视频大模型。」
家人们,这难道不是一部电影的切片?:24
来自@StevieMac03(I2V,图生视频)
谁能不被这头苏醒过来的小飞象萌化?
使用了图生视频(I2V)last frame功能,来自@alexgnewmedia
讲真,要不是在 X 上晃悠时突然被这几个视频 「砸中」,咱还真不知道 MiniMax ,中国估值最高的大模型公司之一 ,又闷声整了个大活儿。
绷不住了,咋说碎就碎?
魔法降临,石膏天使也会醒来。
这些海外「自来水」们秀出的「魔法」,正出自海螺 AI 10 月才上线的新功能「图生视频」。
五周前,MiniMax 发布了视频模型 abab-video-1,并在海螺 AI 网页版上线了视频创作入口(主要是文生视频),正式入局 AI 视频赛道。
旋即,海螺 AI 在过去一个月内迎来爆发式增长,月访问量超 8 倍, 增速领跑全球 AI 产品。
在 AI 产品榜·网站榜( web )上,海螺 AI 网页版 9 月访问量在两个增速榜排名第一,全球增速榜 TOP 1、国内增速榜 TOP 1,增速高达 867.41%。
MiniMax稀宇科技
海螺 AI 官网链接:https://hailuoai.com/video
封印解除,创意狂欢
2024 年,没有比 AI 视频生成更「卷」的战场。
海螺 AI「出征」不算早,上线仅过月余,就吸引了大批专业人士,包括电影导演、制片人、数字艺术家、游戏开发者、KOL 等,遍布全球 180 多个地区。
无论创作者想要创作超现实主义作品、探索幻想和科幻主题,还是深入研究动漫和抽象视觉效果,海螺 AI 都能提供广泛的选择,满足不同创作需求。
一系列恶搞英国「地狱厨神」Gordon Ramsey 的 AI 视频,火爆出圈,网友用的正是海螺 AI 。
这位以爆粗口闻名的厨师总是卷入各种奇怪场面,要么和一只夹住裆部的龙虾搏斗,要么穿着 Slayer(美国重金属乐队)的 T 恤敲打肉排,又或者坐在厨房中间的马桶上。
再配上欢快的背景音乐,整个喜剧效果拉满。
现实题材中,情绪表达一直是一个难题——无论是对 AI 、还是明星来说,但「自来水们」已册封海螺 AI 为「动画表情之王」。
AI 设计师 Pierrick Chevallier 用过后惊呼「细节和真实感已经属于另一个 Level 了。」
来自Pierrick Chevallier | IA @CharaspowerAI
新加坡电影导演 EHuanglu 用它生成了一位女性的面部特写( T2V ),从快乐到悲伤,最后捂脸哭泣,情绪变化演绎相当到位。
该视频已有近 30 万次观看,评论区上百位网友争相抄作业。
科幻创作,也是很多专业人士、AI 爱好者一展创意的重要场景。
知名导演 Dave Clark 第一次利用海螺 AI 创作的星球大战片段( T2V ),一度在网络疯传。
试用了最新的图生视频( I2V )后,这位导演直言,「我一直在等待这种类型的恐龙运动。」
这只外星生物的面部细微动作( I2V ),可还行?
来自Alexandra Aisling@AllaAisling
动漫题材( I2V )也不在话下。请注意,主人公的鞋子细节。
来自@02121976_yama2
除了提供广泛的风格选择,媲美电影的质感也给海螺 AI 再上大分。
看看这个视频( T2V )。人物身体运动、情感表现以及整体画面质感,越来越接近纯粹的电影。
,时长02:19
来自Particle Panic@Magiermogul
据说,海螺 AI 不用特效模板,只依靠模型综合能力实现最顶级的影视特效。
有导演曾在电影中使用 3D 软件进行这种灾难场面制作,但要达到类似效果非常困难。
现在,海螺AI( I2V )可以轻松完成。
来自tabi_yume@U7991688174711
一些网友、YouTube 主在比较海螺 AI 与最好的视频生成器 Runway、国内快手的可灵后发现,在生成运动方面,海螺 AI 明显属于下一个 Level,尤其是人体动作的流畅性和逼真性,比 Runway、Luma AI 等竞对都要好。
有博主甚至认为,在人物动作上,海螺 AI 的性能足以媲美甚至超越市面上其他领先的 AI 视频生成器。
你看,这个视频中( I2V )的女人转向一侧,从眼镜、头发、衣服到所有东西,均保持一致,海螺 AI 合乎逻辑地填补了缺失信息!
一位电影制作人使用海螺 AI( I2V )后觉得很疯狂。
看第一帧,只能看见怪物的一只胳膊和手。但海螺 AI 居然可以自己「脑补」出新胳膊和手,还完美地融入了现有视频。
来自 Uncanny Harry AI@Uncanny_Harry
X 用户 Heather Cooper 曾发起线上投票,针对同样的提示,谁的表现最好?
评论区多数人将票投给了海螺 AI。
来自Heather Cooper@HBCoop_,提示词,"Tracking shot of a curator standing and speaking to the camera as she welcomes museum guests. Warm, inviting atmosphere."
除了生成动作方面的领先,几乎所有用户都承认海螺 AI 文本响应很好,能够较为准确地将提示词中的元素体现在视频中。
士兵转向摄像机,走向镜头,并用枪对准它,海螺 AI 抓住了每一个方位细节。
严格遵循指令中的运镜要求,也是一个典型例子。
凭借对 90 年代人物着装风格、建筑样式的准确还原,以及特殊鱼眼镜头下滑板动作的精准把控,这个视频让海螺 AI 在 reddit 中迎来好评。
目前,海螺 AI 视频模型在 VBench(视频生成模型评测框架)的第三方独立测试结果中综合排名第一,在画面质量、连贯性、流畅性等多维度均处于领先地位。
最近,香港中文大学和腾讯研究人员通过「 VideoGen-Eval 」项目,对当前主流AI视频生成模型进行了全面评估,肯定了海螺 AI 在文本控制方面突出能力,尤其在人物表情、运镜、多镜头生成和主体动态方面表现优异。
除了老司机,对于此前未接触过 AI 的新人而言,海螺 AI 也非常友好。
一位名叫 Ksenia_Galushkina 的艺术家新手,花了两天半时间,用海螺 AI 生成 80 多条视频,制作完成了这条迷你艺术片。
,时长01:07
超「戏精」的海螺 AI,要干掉好莱坞?
俗话说得好,光说不练假把式。海螺 AI 视频模型的实力究竟如何,还得看一手评测。
接下来,我们从海螺 AI 的拿手绝活开始试水。
打个响指,金箍棒秒变笛子
海螺 AI 上新的图生视频功能,不仅能准确识别上传的图片,还能准确理解超过图片内容之外的复杂文本。
换句话说,创作者可以化身任性的导演,只需下个指令,海螺 AI 就会发挥充分的想象力予以实现。
例如,让《武林外传》中的佟掌柜和邢捕头,上演一出苦情戏。
(图生视频。Prompt:女人悲伤地哭了起来,男人抱住并安慰她。)
不得不说,海螺 AI 的生成效果相当惊艳。佟掌柜眉一皱、嘴一撅,哭泣的表情非常逼真,邢捕头拥抱的动作也很自然流畅。
更难能可贵的是,虽然表情变化和动作幅度都较大,但画面并未崩坏。
再比如被网友玩坏了的「分心男友」经典梗图。我们输入 Prompt:穿红衣服的女生转身,三个人拥抱在一起。
海螺 AI 完美遵循了文字指令,红衣女子转身,和身后的一对情侣拥抱,整套动作一气呵成,没有任何卡顿。
尤其是六只胳膊交叠在一起,很容易出现扭曲变形,但它生成的视频中,几乎没什么明显的 bug。
我们还拿它各种「折腾」世界名画《蒙娜丽莎》。
(Prompt:蒙娜丽莎拿起手机,然后打起了电话。)
(Prompt:蒙娜丽莎戴上墨镜。)
海螺 AI 很会「无中生有」,手里要么掏出个大哥大式儿的手机,扣在耳边假装打电话;要么摸出个赛博朋克风格的墨镜,骂骂咧咧地架在鼻梁上,光影、色调等细节处理得都挺到位。
最让人惊喜的,还得是它对图片中物品的精准控制。
比如那张著名的地铁老人看手机的表情包。
不少人应该都见识过他吃手机的 AI 视频,这次我们来一次难度升级:老人拿着的手机变成鸡腿,并吃了起来。
上一秒老人还嫌弃地看着手机,下一秒就变成了鸡腿,然后大快朵颐。
为了体现地铁的高速运行,海螺 AI 对背景的渲染也很逼真,窗外的绿树快速后撤,环境不断变化,增强了沉浸感。
还有让猴哥的金箍棒秒变笛子,由此可见,海螺 AI 能够很好地解构指令框架和深层语义,并在视频生成中加以整合。
(prompt:男子手中的棍子变成了笛子。)
一张自拍 + 一个目的地,想去哪就去哪
在电影《镜像世界》中,导演使用大量特殊镜头和后期制作技术,让小哥从镜子中穿越到另一个时空。
而现在要完成这一效果,只需要一张自拍和一个目的地,海螺 AI 就能实现「跨屏」联动。
例如,将一位美女的照片和一幅风景图拼在一起,然后输入 prompt:女子走向绿地,站在草地上,望着美丽的湖面,镜头缓缓左移。
来瞅瞅效果:
右边的美女完美融合到左边的草地场景中,并且主体从原场景进入目标场景后,光影、色调都会完美嵌入新场景的设定。
(prompt:女子走向红色的森林列车,镜头缓缓左移。)
海螺 AI 按照文字描述,镜头随着女子的运动轨迹而移动,拼接处也逐渐消失。
轻松搞定好莱坞级特效
AI 时代,要有一颗会整活儿的心。
网友们就开发出各种特效玩法,比如 CG 合成、碎片化、变身、爆炸、流体……
要知道,特效这玩意儿,那是嘎嘎费钱。就拿《阿凡达》来说,它的总制作成本为 2.37 亿美元,其中特效成本就占了 1.5 亿美元。
财大气粗的电影制作公司可以狠砸真金白银,但对于独立电影人来说,一分钱都难倒英雄汉。
如今海螺 AI 不用特效模板,只依靠模型综合能力就能轻松实现好莱坞级别的特效,真・人人都能当导演。
X 网友 Stylez Morales 就用了一张图和一句提示词,得到一段变身特效镜头。
一个变形金刚机器人突然变身成一辆超跑,在赛博朋克的街道上疾驰,这画面,真有一种电影级别的超现实视觉效果。
(Prompt:dramatic action scene dynamic camera shot of a transformer robot running down a futuristic dystopian cybersteampunk street avoiding explosions and transforms into a highly advanced supercar to get away atmospheric cinematic hyperreal photorealistic award winning blockbuster movie directed by Michael bay)
再比如拟人特效。毛茸茸的玩具小鹿突然奔跑起来。
(Prompt:小鹿向前跑动。)
玩具小狗突然「复活」,还招朋引伴。
(Prompt:另一只小狗走进画面,两只小狗玩了起来。)
爆炸特效。《浴血黑帮》中的三兄弟大步流星往前走,身后的建筑在一片爆炸中摧毁。
(Prompt:三个男人往前走,后面的建筑爆炸。)
艺术审美在线
海螺 AI 在艺术审美上,也超能打。
它能用专业级调光与构图营造美学氛围,精细控制光影效果与景别变化,画面质感媲美大片。
比如一只拟人化的小羊在森林里跳舞。
画质高清,镜头缓慢推进,毛茸茸的小羊羔蹦跶着,耳朵也有节奏地上下扇动,效果丝毫不输迪士尼动画。
再来看看海螺 AI 制作的时尚大片。
女模特摆着各种时尚 pose,表情自然且富有表现力,头发也会随着动作而飘动,大衣纽扣等细节也处理得很精细。
(Prompt:Fashion blockbuster, the female model strikes a fashionable pose, with the camera following closely.)
我们还上传了一张戴着墨镜、身穿西装、端着酒杯的男模特图片,然后输入 Prompt:男人开心地举起酒杯,然后从画面左侧走出来一位美女。
海螺 AI 完成度相当高,画面也没有模糊、扭曲等问题。
与 Runway 同台竞技
没有对比,就没有发言权,让海螺 AI 和 Runway 打个擂台,谁强谁弱也就一目了然。
我们就先用 OpenAI 创始四人组的照片打头阵。
上传同样的照片,输入同样的提示词:The three people sitting on the sofa stand up and walk out of the frame to the left.
这是海螺 AI 的生成效果:
这是 Runway Gen-3 Alpha Turbo 的效果:
海螺 AI 严格遵循提示词,坐在沙发上的 Ilya、Greg、Murati 站起来,向左走出画面,独留 Altman 站在原地凌乱;而 Runway 生成的画面则崩得离谱,照片中的四个人飞出沙发,完全没有遵循物理世界的运动规律,甚至还出现了脑袋 360 度旋转的诡异画面。
再来一个多人物场景。
Prompt:strong man with cowboy hat in bar drinking beer with several women
海螺 AI 生成的画面,细节更丰富,场景更复杂,人物表情也更自然。
相比之下,Runway 的镜头较为简单,男子喝啤酒时,杯中的啤酒没有减少,左边女生的手部也出现了莫名其妙的动作。
Prompt:flying toward of a wide shot of an extremely large nuclear powered monster emerging from a fierce storm vortex walking over a city, epic shot in a cinematic fashion, pure destruction.
海螺 AI 的电影质感、画面丰富度更高,怪兽展现得也更生动。
Runway 则直接缺失了怪物主题,没有准确理解 prompt 的含义。
这可能是目前国内最好的视频大模型。
而在已经体验过的人群中,他们毫无例外地将海螺 AI 归入第一梯队。
如果说,9 月的海螺 AI 已经令人印象深刻,那么,新增 「图生视频」的海螺 AI 又更上一层楼。它并不完美,但比大家试过的许多 AI 视频模型都要好。
神奇海螺的智慧和魔力是不容被质疑的,既然 Sora 迟迟不来,为什么不问问神奇海螺呢?
海螺AI官网链接:https://hailuoai.com/video
#Hugging Face
国产模型首开Hugging Face月度下载全球第一,智源BGE累计下载逾亿
近日,Hugging Face更新了月度榜单,智源研究院的BGE模型登顶榜首,这是中国国产AI模型首次成为Hugging Face月榜冠军。BGE在短短一年时间内,总下载量已超数亿次,是目前下载量最多的国产AI系列模型。
BGE,全称BAAI General Embedding,是北京智源人工智能研究院研发的开源通用向量模型,该系列模型专为各类信息检索及大语言模型检索增强应用而打造。
自2023年8月发布首款模型BGE v1,历经数次迭代,BGE已发展为全面支持“多场景”、“多语言”、“多功能”、“多模态”的技术生态体系。BGE不仅性能综合卓越,多次大幅刷新BEIR、MTEB、C-MTEB等领域内主流评测榜单,而且始终秉持彻底的开源开放的精神,“模型、代码、数据”向社区完全公开。BGE在开源社区广受欢迎,许多RAG开发者将其比作信息检索的“瑞士军刀”。
除了个人用户,BGE亦被国内外各主流云服务和AI厂商普遍集成,形成了很高的社会商业价值。
左右滑动,查看全部内容
通用向量模型:为RAG提供一站式信息检索服务
时代背景
检索增强(RAG: retrieval-augmented generation)是自然语言处理与人工智能领域的一项重要技术:通过借助搜索引擎等信息检索工具,语言模型得以与外部数据库连通,从而实现推理能力与世界知识的整合。
早在2019年至2020年,谷歌与Meta的研究人员就在多项独立的研究工作中提出了该项技术。此后数年间,RAG被逐渐应用于问答、对话、语言模型预训练等许多场景。
然而,RAG技术真正得到广泛认知则是源于2022年11月ChatGPT的发布:大语言模型为社会大众带来了前所未有的智能交互体验。由此,行业开始思考如何应用该项技术以更好的促进生产力的发展。
在众多思路中,RAG技术是大语言模型最为成功应用范式之一。借助RAG这一工作模式,大语言模型可以帮助人们以非常自然的方式与数据进行交互,从而极大提升获取知识的效率。与此同时,RAG还可以帮助大语言模型拓展知识边界、获取实时信息、处理过载上下文、获取事实依据,从而优化事实性、时效性、成本效益、可解释性等关键问题。
向量检索
经典的RAG系统由检索与生成两个环节所构成。大语言模型已经为生成环节提供了有力的支撑,然而检索环节在技术层面尚有诸多不确定性。
相较与其他技术方案,向量检索(vector search)因其使用的便捷性而广受开发者欢迎:借助向量模型(embedding model)与向量数据库,用户可以构建本地化的搜索服务,从而便捷的支撑包括RAG在内的诸多下游应用。
在RAG兴起的2023年初,向量模型作为技术社区首选的信息检索工具被广泛使用,一时间风光无二。然而空前的热度背后,向量模型的发展却较为滞后。
传统的向量模型多是针对特定的使用场景、以点对点的方式开发得到的。在面对RAG复杂多样的任务诉求时,这些专属的向量模型由于缺乏足够的泛化能力,检索质量往往差强人意。此外,与许多其他领域的问题类似,传统向量模型的研发多围绕英文场景,包括中文在内的非英文社区更加缺乏合适的向量模型以及必要的训练资源。
通用模型
针对上述问题,智源提出“通用向量模型”这一技术构想。目标是实现适应于不同下游任务、不同工作语言、不同数据模态的模型体系,从而为RAG提供一站式的信息检索服务。实现上述构想在算法、数据、规模层面存在诸多挑战,因此,智源规划了多步走的策略。
首先,着眼于“任务统一性”这一可实现性最强同时需求度最高的能力维度,即打造适用于中英文两种最重要语种、全面支持不同下游任务的向量模型。
该系列模型被命名为BGE v1,于2023年8月份完成训练并对外发布。BGE v1经由3亿规模的中英文关联数据训练得到,可以准确表征不同场景下数据之间的语义相关性。主流基准MTEB(英文)、C-MTEB(中文)的评测结果显示,BGE v1的综合能力与各主要子任务能力均达到当时SOTA,超过了包括OpenAI Text-Embedding-002在内的众多高水平基线。其中,BGE v1在中文领域的优势尤为显著。这在很大程度上填补了中文向量模型的空白,极大的帮助了中文社区的技术开发人员。
第二,在实现任务层面的统一之后,新一版模型的迭代着眼于实现“语言统一性”。为此,智源推出了BGE M3模型,可支持100多种世界语言的统一表征,并实现各语言内部(多语言能力)及不同语种之间(跨语言能力)的精准语义匹配。
为了充分学习不同语言中的隐含信息,BGE M3模型使用了超过10亿条的多语言训练数据,并利用了大量机器翻译数据。这一训练数据的规模、质量、多样性都明显超过了此前提出的多语言向量模型。除了多语言能力,BGE M3模型还创造性的整合了向量检索、稀疏检索、多向量检索,首次实现了单一模型对三种主要检索能力的统一。同时借助位置编码及训练效率的优化,BGE M3的最大输入长度得以拓展至8192个词元(token),有效的支持了句子、篇章、以至超长文档等诸多不同粒度的检索对象。
BGE M3模型在2024年2月完成训练并对外发布。其检索质量显著超越了同一时期发布的OpenAI Text-Embedding-003模型,在MIRACL、MKQA等主流评测基准的效果均达到业内最佳。与此同时,其支持的语种范围也远超其他同类模型,对于很多语言,BGE M3的能力甚至超越了该语言此前的专属向量模型。
BGE M3一经发布便广受好评,一度位居Hugging Face Trending前三位、Github Trending前五位。Zilliz、Vespa等业内主要的向量数据库第一时间便对BGE M3进行了集成及商业化应用。
第三,基于初步的阶段性成果,BGE模型进一步发展出多个衍生版本。
其中,BGE-re-ranker、BGE-re-ranker-m3旨在实现精准排序功能,以支持多阶段、细粒度的语义检索任务。BGE visualized在文本模型之上进一步拓展视觉数据处理能力,从而实现多模态混合检索能力。BGE-ICL则首次使得向量模型具备了上下文学习能力,使之可以依照用户意图灵活适配下游任务。
相关模型不仅持续刷新MTEB在内的多个主要基准的最高记录,同时带来了算法层面的诸多创新,在海内技术社区引起广泛讨论。
社区应用
开源是智源研究院大模型研发的一贯立场。本着这一原则,BGE的模型权重、推理及训练代码、训练数据均面向社区开放。与此同时,研发团队致力于不断推动创新研究,并积极通过技术讲座、研讨会、hands-on tutorial等形式与社区互动,帮助向量检索、RAG等技术的不断发展。
BGE系列模型遵循开放的MIT许可协议,社区用户可以对其自由的使用、修改、并进一步分发。除了众多个人用户,BGE的另一大使用群体来自于社区中热门的向量数据库(如Milvus、Vespa、Pinecone)以及RAG开发框架(如Langchain、Llama Index、RAGFlow)。国内外各大云服务厂商也纷纷提供BGE的商业化服务API,这不仅进一步促进用户使用,同时创造了较高的社会商业价值。
自2024年初至今,BGE系列模型的累计下载量已超过1亿次,成为下载量最多同时也是首个下载量超过一亿次的国产开源AI模型。
未来演进:从通用向量模型到通用搜索智能
在过去一年时间里,包括智源在内的多家机构都在致力于开发“好用且易用”的检索工具,以推动相关领域的学术研究与产业应用。随着BGE等模型的不断发展,这一目标在2024年底已初步实现:对于大多数应用场景、工作语言、数据模态,开发者都可以比较容易的获取相应的开源检索工具。与此同时,RAG产业的发展也方兴未艾:各个大模型厂商都将RAG作为主要商业模式赋能千行百业,Perplexity、New Bing等基于检索增强的AI搜索引擎也为人们带来了全新的搜索体验。
然而应用侧繁荣的背后隐藏着技术层面的发展陷入相对停滞。相较于基础大模型、多模态等领域,信息检索在近期内鲜有激动人心的技术进展。
几朵乌云
在应用于RAG任务时,有三个关于检索工具的“小问题”常被提及。
一是领域适配问题:通用的向量模型在处理某些特定领域的问题时效果不佳,需要经过进一步微调方可达到可用的状态。
二是切片问题:过长的上下文需要经过切片、并独立编码,方可在RAG过程中进行使用;但是,最佳的切片尺寸往往难以选择。
三是控制机制问题:什么时候需要做检索,拿什么内容去做检索。
这几个小问题常在工程层面进行被讨论,但其背后暗含着传统检索工具(向量模型、排序模型)本质性的技术限制。
其一是静态属性。以传统的向量模型为例:输入数据会被单向性、一次到位地映射为高维向量。
无论是用户还是模型自身并不能自主依据不同任务、不同场景对模型功能进行自适应的调整。虽然此前曾有也学者提出使用提示指令(instruction)对模型进行个性化调整,但后来的实验证明,传统模型仅是机械性的记住了训练时见到过的指令,并不能像GPT那样泛化出一般性的指令遵循能力,唯有不断微调模型参数方可使之适应于新的任务场景。
因此,当前一众的通用向量模型处处都可用、但效果并非最佳。从搜索的全局视角看,他们更应该作为一种局部性的技术手段。
其二是机构化限制。当代的信息检索技术多发展自互联网的场景,因此都隐含着对数据的结构化或者半结构化的建设。
比如:一个网页、一条新闻或者一个维基段落就是一个独立的信息单元。数据天然就是可切分的,或者说数据存在平凡的切分最优解(trivial solution for optimal chunking)。
因此,传统的信息检索手段能够比较容易对数据进行编码与索引。但是这一假设在RAG场景中完全不适用。
数据会是一个超长的词元序列(如pdf文件、长视频、代码仓库、历史交互记录),而非按照某种结构定义好的知识。数据不存在所谓最优的切片策略:人们固然可以遵循某种归纳偏执对非结构化数据进行切片,但是对于某个问题有利的上下文切片策略,换做另一个问题就可能是一个非常糟糕的策略。
其三是僵化的工作机制。传统的信息检索主要针对“一问一答”这一固定的工作模式。用户需要较为清晰地表述“自己需要获取信息”以及“需要获取什么样的信息”。
也正是由于这样的限制,当前的RAG应用依然局限于简单的问答场景(quesiton-answering),在更加普遍的任务中尚不能获得取得令人满意的结果(如代码仓库的上下文管理、长期记忆、长视频理解)。
通用搜索智能
通用搜索的终极目标是能够在“任何场景、任何任务中,精准获取所需的各种形态的信息”。因此,理想的信息检索工具应具备主动发掘任务需求的能力,并能根据不同的应用场景进行自适应调整。同时,还要能够高效处理自然状态下的数据——无论是非结构化还是多模态的数据。
如何构建通用搜索智能仍然是一个未解的难题,而有效地改造和利用大模型将是实现这一目标的关键。
大模型的应用将为信息检索带来显著优势。与传统静态检索模型不同,大模型具有动态性:它们能够根据具体任务的输入进行调整,甚至通过自我提示和反思等机制进一步优化,进而更好地适应任务需求。此外,大模型能够自然处理非结构化和多模态数据,并具备主动发起信息需求的能力。
值得注意的是,2024年初曾爆发过关于RAG(检索增强生成)与长上下文大模型的讨论,表面上这两者似乎存在冲突,但实际上并无矛盾:语言模型直接处理海量信息的效率较低,必须借助有效的信息检索工具;而传统的信息检索工具智能化不足,需要更智慧的中枢来加以驱动。
因此,未来通用搜索智能的实现,依赖于大模型与检索工具的深度融合。
#看懂LLM推理
UCL汪军教授解读OpenAI ο1的相关方法
OpenAI 最近发布的 o1 系列模型堪称迈向强人工智能的一次飞跃,其强大的推理能力为我们描绘出了下一代人工智能模型的未来图景。近日,伦敦大学学院(UCL)人工智能中心汪军教授撰写了一份「LLM 推理教程」,深入详细地介绍了 OpenAI ο1 模型背后的相关方法。
他将在 10 月 12 号本周星期六早上于香港科技大学(广州)RLChina 2024 大会(http://rlchina.org/rlchina_2024/)上作相关内容的主题报告,并发布其团队开发的 LLM 推理开源框架以推动 o1 相关模型的发展。
链接:https://github.com/openreasoner/openr/blob/main/reports/Tutorial-LLM-Reasoning-Wang.pdf
o1 的训练使用了强化学习技术,通过显式地嵌入一个原生「思维链」(NCoT)过程,可出色地完成复杂的推理任务。也就是说,o1 在生成响应之前可通过一步步地推理实现「深度思考」。
从 OpenAI 发布的数据看,相比于之前的 ChatGPT 4o,o1 在数学和编程任务上的表现要强 5 倍。它在竞争性编程中排名第 89 位,在美国著名的数学奥林匹克资格赛中名列前 500 名,并在物理、生物和化学基准测试中超越了人类博士级的准确度。
o1 的一个关键创新是它允许在推理过程中花费更多时间进行推理,这标志着一种范式转变:从快速、直接的反应转向缓慢、深思熟虑、多步骤的推理时间计算。见图 1。
图 1:推理时间计算。(a) 自回归 LLM 是直接基于给定问题生成答案。(b) 思维链和逐步思考的概念则涉及到在得到最终答案之前,整合中间推理步骤。这些重复步骤操作允许 1) 不断重复访问之前的输出,2) 逐步推进到后续推理阶段,3) 探索多个推理路径或轨迹。
有趣的是,在指导人类决策和行为方面,人类认知中存在两种相关但不同的认知处理模式,其中每种都有各自不同的大脑回路和神经通路,见图 2。
图 2:人类认知和 LLM 的类比。(a) 和 (b) 人类有意识或无意识控制的行为依赖于部分不同的大脑回路。(a) 人类的无意识控制由一些专门的大脑区域维持,例如前脑岛和前补充运动区(pre-SMA)。(b) 而自主控制则涉及更大的网络,激活顶叶和前额叶内的许多区域。无意识控制通常快速而本能,通常由自动过程驱动,而有意识控制往往涉及更审慎、计算和深入的思考,需要仔细的反思和透彻的分析。
系统 1 思维快速、自动且直观,毫不费力且通常是无意识的。它依赖于能够快速处理的神经通路,尤其是在需要快速反应或认知资源受限的情况下。
系统 2 思维是深思熟虑的、费力的和有意识的,涉及集中注意力和分析式推理。它处理信息的速度更慢,常用于复杂的问题求解、逻辑推理和决策任务。
o1 的诞生非常激动人心,因为 大语言模型(LLM) 现在不仅能使用学习到的模式进行快速响应,而且还能通过思维链或其它形式的搜索等机制模拟复杂的推理过程。这就类似于人类的更深度的、步步执行的思考方式。
也正因如此,OpenAI ο1 在科学、编程和数学领域都取得了相当卓越的表现。此外,o1 在 AI 安全和对齐方面也取得了进展。该模型的思维链推理为整合人类价值观和原则提供了新的机会,从而可提高安全评估和越狱测试的性能。
事实上,在 LLM 领域,思维链推理和分步骤思考方法并非新技术。之前已有研究表明,如果在输入中添加「describe your reasoning in steps」或「explain your answer step by step」这样的指令或提供少样本示例,就可以让 LLM 生成中间推理步骤,进而提升其解决问题的能力,尤其是对于数学和编程任务。
但是,这些方法都基于已有的 LLM,并没有将思维链嵌入到模型本身之中。因此,LLM 无法内化这种学习能力,导致许多研究者在探索如何将其直接整合进模型训练中。之前人们提出的方法包括收集专门的训练数据、构建奖励模型和增加解码的计算复杂度,但目前还没有一种方法能大规模地在性能上取得重大突破。
汪军教授表示,我们目前尚不清楚 OpenAI 的 o1 创新是否植根于模型本身,还是依然依赖于外部提示系统。如果它确实涉及在架构中明确嵌入分步推理,那么这将是一个重大突破。
在大幅提高性能的基础上,OpenAI o1 还表明,传统上在训练期间应用的扩展原则现在也与推理阶段相关了。
这样一来,就需要考虑给推理阶段多分配一些算力了。如果能让 LLM 通过增加测试时间计算来提升输出,那便是朝着自我改进式智能体(self-improving agent)迈出的重要一步。
这个研究方向被汪军教授暂且称为 LLM 原生思维链(LLM-Native Chain-of-Thought/NativeCoT),其应当能够固有地反映人类系统 2 思维所具有的深思熟虑的分析过程。
不过,考虑到 o1 是一个闭源系统,因此它究竟是如何实现如此强大的推理能力的还依然是一个谜。
在本文中,汪军教授全面回顾了可能的相关文献,并探讨了这一突破背后可能的核心技术和方法。此外,他还提出了基于近期研究成果实现相应开源版本的方法,以加速该领域的研究。
下面首先将介绍典型自回归 LLM 常遇到的两个挑战,以强调对世界模型和思维链机制的需求。然后将给出一个 MDP 公式,用于将原生 CoT 整合进 LLM(进而得到类似 o1 的推理模型);同时还会探索其实现细节。最后会以文献评论作结,并给出未来的研究方向。
自回归 LLM 面临的挑战
这里就略过自回归 LLM 的基础介绍,重点来看汪军教授提到的两个挑战。
第一个挑战是预测下一 token 的目标。虽然有些人认为预测下一 token 可能会造就通用智能(AGI),但汪军教授表示,仅仅专注于预测下一个词会限制智能的潜力。为了得到更深层次的智能,可能需要不同的优化目标和学习范式。
传统自回归 LLM 面临着一个关键挑战:如何使系统超越其训练数据的界限并开发出新颖的、可能更优的策略?因为智能体的表现常常受限于其学习的演示的质量,无法超越其训练数据所体现出的技能水平。
但是,如果使用数据来开发更深度的理解或世界模型,就有可能实现复杂策略的演进,进而超越训练数据的限制。
世界模型(world model)代表了智能体对环境的理解。学习和优化这个世界模型,再加上模拟潜在结果的能力,有望极大提升 AI 智能体的能力。这些内部世界模型所提供的模拟能力将能实现深度思考(模拟),从而增强智能体的推理和泛化能力。基于模型的策略(如蒙特卡洛树搜索 (MCTS))是这种方法的经典例证。向系统 2 型推理的过渡(o1 可能就是一个例证)依赖于建立某种类型的世界模型并利用强化学习(奖励最大化),而不仅仅是最小化预测误差。这种方法的转变可能是 OpenAI o1 强大推理能力背后的关键过渡技术之一。
通过将 LLM 的预测能力与强化学习和世界建模的策略深度相结合,像 o1 这样的 AI 系统可以解决更复杂的问题和实现更复杂的决策过程。这种混合方法既可以实现快速模式识别(类似于系统 1 思维),也可以实现深思熟虑的逐步推理(系统 2 思维的特征)。这也许能解释 o1 表现出的强大性能。
第二个挑战则来自计算复杂性角度:LLM 运行时受到二次计算复杂性的约束。当 LLM 遇到多步数学难题时,这种约束会变得尤为明显。
但是,思维链却有望减轻这一限制。其可通过一系列「思维」步骤来扩展响应,由此支持一定数量的额外计算资源;它本质上是一个有限的内存,支持写入但缺乏删除或覆盖的能力。尽管该方法颇具潜力,但它仍然不是一个完全动态的内存系统,并且没有原生地融入解码阶段。这种必要性使得研究社区亟需超越当前 Transformer 解码器网络能力的高级计算架构。事实上,存在这样的需求:在推理和解码阶段实现类似于蒙特卡洛树搜索 (MCTS)的基于模型的复杂策略。
这种先进的推理时间计算系统将使 AI 模型能够维护和动态更新问题空间的表征,从而促进更复杂的推理过程。这种方法与认知科学中的工作记忆(working memory)概念一致;这对于复杂的问题解决和深度思考至关重要。通过整合这些功能,AI 系统可以模拟多个步骤,评估不同的场景,并做出更明智的决策 —— 类似于人类专家推理的深思熟虑过程。
将 LLM 推理看作是马尔可夫决策过程
为了建模问答或问题解答等任务中的推理过程,这里要将推理的结构调整成 Q → {R} → A 序列的形式。
- Q:表示启动推理过程的问题或提示词;
- R:表示为了得到解答,模型生成的中间推理步骤的序列;
- A:表示推理步骤完成后得到的最终答案或解。
这种结构允许 LLM 生成一系列推理步骤,从逻辑上将问题 Q 与最终答案 A 联系起来。
汪军教授表示,可以将该推理过程定义为一个马尔可夫决策过程(MDP)。MDP 能为建模推理提供一个灵活的框架。它允许模型自回归地生成迈向最终答案的顺序推理步骤,同时还通过在每个步骤采样多条路径来实现树结构以获得备选推理轨迹。通过结合顺序推理和分支推理这两种方法,该模型可以探索各种解决方案,从而创建一个多功能且全面的推理过程。
现在可以使用状态、动作、策略和奖励来描述这个推理过程了。其中 LLM 的任务是逐步生成与推理步骤和最终答案相对应的连贯 token 序列。
图 3:在该形式的马尔可夫决策过程中,LLM 的任务是逐步生成推理步骤和问题的最终答案。其中,LLM 策略的运作方式是生成 token,而,这些 token 可以形成更高级的推理结构。状态表示迄今为止的推理步骤序列,动作对应于选取新推理步骤或最终答案。LLM 策略控制动作的选择,过程奖励模型(PRM)的作用是提供有关推理步骤和最终答案质量的反馈。通过优化策略以最大化奖励,LLM 可以在 PRM 的引导下生成准确且有意义的推理过程。
其中状态表示迄今为止的推理步骤顺序,而动作对应于选择新推理步骤或最终答案。LLM 策略控制着动作的选择,而过程奖励模型 (PRM)则提供有关推理步骤和最终答案质量的反馈。通过优化策略以最大化奖励,LLM 可以在 PRM 的引导下生成准确且有意义的推理过程。
详细的论证过程这里就不多谈了。总之,可以基于此得到 LLM 的世界模型的定义:
定义 1:LLM 的世界模型可以定义为 (𝒯, 𝒱),其中:
- 𝒯 (s_t, a_t) 是转换模型,它是确定性的,因为当前状态 s_t 和动作 a_t 仅能定义唯一下一状态 s_(t+1) ,因此 s_(t+1) = s_t + a_t。
- 𝒱 (s_t, a_t) 是过程奖励模型(PRM),用于评估在状态 s_t 下动作 a_t 的质量。它能反映生成的推理步骤或 token 在得到最终答案过程中的合适程度和有效性:𝒱 (s_t, a_t)=𝑣_t。
由于转换是确定性的并且直接遵循策略,因此过程奖励模型 𝒱 (s_t, a_t) 封装了 LLM 与其环境之间的整个交互,可评估每个推理步骤或 token 对所得出的最终答案的贡献程度。
实际实现
接下来将介绍如何收集中间推理数据,并使用它来训练过程奖励模型(PRM),再利用 PRM 来训练 LLM 策略,并在解码阶段引导推理过程。
自动获取推理步骤数据
为了模拟出高级推理能力,就需要推理轨迹数据。最直接的方法当然是人工标注推理步骤,但这种方法缺点也很明显。
一种无需人类监督,特别有效的收集数据和提升 LLM 推理的方法是 Self-Taught Reasoner(STaR)。
使用 STaR 方法时,模型会自主生成中间推理步骤并使用它们来验证其内部推理能力。更方法的基础是 LLM 有能力通过生成中间步骤 {R_1, R_2, . . . , R_n} 从问题 Q 推理到最终答案 A,并使用自己的策略验证正确性。
也就是说,该方法首先会采用 LLM 的策略 π_LLM,基于初始问题 Q 和最终答案 A 来生成推理步骤 {R}。
生成 {R} 之后,就要验证其正确性。这里可以再次使用这个 LLM 策略。
之后,收集到的 {Q, {R}, A} 就可进一步用于训练策略 π_LLM,提升有效推理步骤的生成过程。
当推理序列较长时,还会用到蒙特卡洛树搜索(MCTS)。
自我增强式训练
如图 4 所示,PRM v (s) 和 LLM 策略 π_LLM 可以相互增强以实现自我提升。
图 4:将 PRM 的价值函数与 LLM 的策略生成相结合,可确保得到的结果是经过引导且可控的。在训练过程中,LLM 策略得到的生成结果和 PRM 提供的评估相互增强,从而可让这两个组件不断自我改进和优化。
- PRM 的价值迭代
有了推理数据之后,下一步就是训练世界模型了,也被称为过程奖励模型(PRM)。也就是说,由于状态转变是确定和已知的,因此重点就变成了学习一个之后可用于引导搜索、推理和解码过程的通用奖励模型。
该奖励模型通常被称为验证器,记为 vPRM (s),可以使用有标注的推理步骤数据集进行训练。其训练通常涉及根据推理步骤的正确性优化一个分类损失函数:
还有另一种方法,是将 PRM 视为一个可以通过价值迭代方法训练的价值函数,使其能够预测累积奖励并通过最佳动作选择指导推理过程。
假设有一个推理过程,其中状态 s 表示当前状态,并且其整合了之前的所有状态。该价值迭代方法的目标是学习一个由 θ 参数化的价值函数 V_θ (s),其可预测从状态 s 开始的预期累积奖励。该价值函数可通过评估不同动作的潜在结果来指导推理过程。r_φ (s) 是奖励函数,其会根据中间推理步骤或最终答案的正确性为状态 s 分配一个标量奖励。γ 是折扣因子,决定了未来奖励的相对重要性。该 PRM 的贝尔曼方程为:
为了学习该价值函数的 θ,这里将 TD 损失函数定义成当前值与贝尔曼目标之间的平方误差:
- LLM 策略的策略迭代
得到了 PRM 之后,就可以训练 LLM 策略以提升其推理能力了。这需要超越传统监督学习框架的方法。通过整合在线强化学习来优化推理任务,PRM 在此过程中发挥着重要作用。
这里来看看 Group Relative Policy Optimisation(GRPO),即分组相对策略优化。
假设对于每个问题 Q = q,策略都会生成推理步骤 {o_1, o_2, . . . , o_G},每个输出 o_i 由多个步骤 {a_{i,1}, a_{i,2}, . . . , a_{i,Ki} } 组成,其中 K_i 是输出 o_i 中的推理步骤(或 token)总数。现在,可以构建通过 PRM 学习 LLM 策略的 GRPO 了,如下所示。
对于每个问题 q,GRPO 从旧策略 π_θ_old 采样一组输出 {o_1, o_2, . . . , o_G},目标是通过最大化以下目标来优化策略:
GRPO 不会将 KL 惩罚直接纳入奖励,其规范策略的方式是将当前策略 π_θ 和参考策略 π_θ_ref 之间的 KL 散度直接添加到损失函数中。这可确保更新后的策略在训练期间不会过度偏离参考策略,从而有助于保持稳定性。
这种 GRPO 形式是通过利用推理步骤和最终步骤中的分组相对奖励来优化 LLM 策略,专门适用于通过过程奖励模型的推理任务。归一化的优势函数(advantage function)是根据相对性能计算的,鼓励策略偏向在一组采样输出中表现更好的输出。此外,KL 正则化可确保更新后的策略与参考策略保持接近,从而提高训练稳定性和效率。该框架提供了一种稳健的方法,可通过基于 PRM 的优化来指导 LLM 推理。
另外,还有 token 级 DPO 等不使用 PRM 的更高效的离线方法,详见相关论文《Token-level direct preference optimization》。
推理时间计算
训练完成后,LLM 策略必须在推理过程中高效地生成输出。LLM 常用的方法是自回归,即根据之前的 token 逐一生成新 token。但是,对于推理任务,还必需更复杂的解码技术。
为了在效率和效果之间取得平衡,有研究发现,波束搜索等更灵活的方法有利于推理任务。对于更复杂的推理任务,可以使用 MCTS 等向前看的模型。
MCTS 可模拟多条推理路径,并根据奖励系统对其进行评估,选择预期奖励最高的路径。这允许模型在推理过程中探索更大范围的可能性,从而增加其获得最优解的机会。使用 MDP,可以从形式上定义其推理过程结构。
定义 2:原生思维链(NCoT)是指大型语言模型(LLM)固有的推理能力,这让其无需外部提示词便可以自动执行逐步式的结构化推理。该能力可以表述为一个马尔可夫决策过程(MDP)(S, A, π, R),其中
- S 是状态空间,表示生成到给定位置处的 token 序列或推理步骤;
- A 是动作空间,由潜在推理步骤 R_t 或最终答案 A 组成;
- π_LLM (a_t | s_t) 是控制动作选择的策略(也是 LLM),其可根据当前状态 s_t 确定下一个推理步骤或最终答案;
- R (s_t a_t) 是过程奖励模型(PRM,其作用是根据所选动作 a_t 的质量和相关性分配奖励 r_t,以引导推理过程。
该模型既可以通过展开 MDP 来遵循顺序推理路径,也可以通过在每个状态下采样不同的推理步骤来探索多个轨迹,形成树状结构(图 5)。过程奖励模型 R 提供了对该空间的引导搜索,其控制推理轨迹的方式是支持能得到更有意义或更正确的推理步骤的动作。
图 5:借助 PRM,LLM 可以通过三种方法执行非自回归推理:1) 采样多条推理轨迹,2) 对潜在推理路径的树结构进行蒙特卡洛搜索,3) 结合前两种方法来增强推理的灵活性和稳健性。
相关文献
下面将回顾并讨论相关领域的几篇关键论文,介绍它们的贡献和局限性。图 6 描述了这些研究与更广泛的研究图景之间的联系。
图 6:LLM 原生思维链研究。
推理时间计算
有几篇论文重点关注优化 LLM 在推理时间的推理,比如:
- 论文《Alphazero-like tree-search can guide large language model decoding and training》提出了一种将蒙特卡洛树搜索(MCTS)与 LLM 解码整合起来的方法,研究证明这种组合能够有效地引导推理,尤其是复杂的多步骤任务。
- 论文《Scaling llm test-time compute optimally can be more effective than scaling model parameters》强调了优化测试时间计算的重要性,其通过实证研究表明,推理时间推理增强通常可以比简单地扩展模型参数产生更实质性的改进。这反映了人们日益增长的理解,即可以利用推理过程中的更多计算来实现更高质量的推理,而不必增加模型的大小。
- 论文《Think before you speak: Training language models with pause tokens》提出了另一种方法:在推理阶段使用暂停 token 强迫模型暂停并「思考」。该方法会引入一个隐式的推理模型,从而鼓励 LLM 对信息进行分块,模仿人类的思考。
验证器模型
验证器模型(结果奖励模型和过程奖励模型)已成为提高 LLM 推理可靠性的重要研究领域。
- 论文《Training verifiers to solve math word problems》最早尝试在数学推理任务中使用验证器(仅结果奖励),为后续研究奠定了基础。
- 论文《Solving math word problems with process-and outcome-based feedback》扩展了验证器的概念,整合了基于过程的推理机制。
- 论文《Let’s verify step by step》 研究了过程奖励模型,亦可参阅报道《OpenAI 要为 GPT-4 解决数学问题了:奖励模型指错,解题水平达到新高度》。
- 论文《Making large language models better reasoners with step-aware verifier》将验证器模型与大多数投票机制组合到了一起,以在推理任务中得到更可靠的输出。为了增强验证过程的稳健性,该方法会交叉检查多条推理路径并过滤掉不正确的步骤。
获取用于推理任务的数据
获取推理数据一直都是一大研究重心,研究包括:
- 论文《Star: Bootstrapping reasoning with reasoning》探索了自动获取与推理步骤相关的数据的方法。STaR 提出了一种自学习范式,让模型可通过生成和批评自己的步骤来提高其推理能力,从而产生更可靠的中间步骤。
- 论文《Math-shepherd: Verify and reinforce llms step-by-step without human annotations》进一步推进了该方法,表明无需成本高昂的标注也能逐步训练 LLM,其为推理数据问题提供更具可扩展性的解决方案。
- 论文《Multi-step problem solving through a verifier: An empirical analysis on model-induced process supervision》强调了实际数据采集对于推理任务的重要性,特别是对于编程问题。
- 论文《Alphazero-like tree-search can guide large language model decoding and training》使用了 MCTS 来获取数据。
- 论文《Improve mathematical reasoning in language models by automated process supervision》则在此基础上使用了线性搜索来提升效率。
理解和系统级提升
- 也有不少研究者致力于理解 LLM 逐步推理背后的机制,如论文《Why can large language models generate correct chain-of-thoughts?》和《Why think step by step? reasoning emerges from the locality of experience》。
- 论文《Llama: Open and efficient foundation language models》则是从图模型角度来分析思维链机制。
- 论文《Why think step by step? reasoning emerges from the locality of experience》探索了推理作为 LLM 的一种自然能力的内在原因。其认为推理是语言模型处理本地化经验和知识的一个副产物。
- 论文《Critique ability of large language models》对 LLM 批评自己的能力进行实证评估,结果表明自我批评往往很有限,并且通常只有当模型足够大时才会涌现这种能力。
- 论文《Pangu-agent: A fine-tunable generalist agent with structured reasoning》从系统角度提出了超越传统模型的结构化推理机制,类似于 OpenAI ο1 模型。这项研究反映了向更通用的推理智能体的转变,这些智能体能以更高的精度和灵活性处理更广泛的任务,描绘了下一代推理模型的愿景。
#scaling-with-vocab
大模型的词表大小,同样适用于Scaling Law
第一作者陶超凡(Chaofan Tao)是香港大学(HKU)的四年级博士生,导师是黄毅教授和罗平教授。他本科毕业于电子科技大学的英才荣誉学院。他的研究论文发表在ACL、EMNLP、ECCV、NeurIPS、ICML、T-NNLS等期刊和会议上。他获得了 ACL 2022 年的杰出论文奖。陶超凡的研究兴趣包括:1) 高效机器学习与模型加速:以低成本对模型进行高效调优和部署。2) 支持多种任务的通用大型模型,涵盖不同模态。
本文是一篇发表在 NeurIPS 2024 上的论文,单位是香港大学、Sea AI Lab、Contextual AI 和俄亥俄州立大学。论文主要探讨了大型语言模型(LLMs)的词表大小对模型性能的影响。
- 论文:https://arxiv.org/abs/2407.13623
- 代码:https://github.com/sail-sg/scaling-with-vocab/
- Demo (快速预计合适的词表大小):https://huggingface.co/spaces/sail/scaling-with-vocab-demo
摘要
研究大型语言模型(LLMs)的扩展法则(scaling laws)时,以前的工作主要关注模型参数和训练数据的大小,而忽略了词表大小的作用。本研究通过训练包含不同词表配置的模型(参数范围从 33M 到 3B,字符数最多 500B),提出了三种方法来预测计算最优的词表大小:基于 FLOPs 的、基于导数的和基于损失函数参数拟合的估计方法。研究结果表明,更大的模型应该配备更大的词表,且在给定算力的情况下,最优的词表大小是有上限的。例如,预测 Llama2-70B 的最优词表大小应该是至少 216K,远大于其实际的 32K。通过在不同 FLOPs 预算下训练 3B 参数的模型验证了这些预测,发现仅仅把原始词表的大小替换成预测的最优词表大小,就可以提高模型在多个下游任务的性能。
本文发现,模型中的非词表参数
与相应的最优词表参数
之间的关系遵循幂律,其中
的增长速度应慢于
,即
。实证结果与我们所提出的 3 种预测最优词表大小的方法的结果基本一致。其中较大的圆圈表示较高的损失值。这里
指的是词表大小。
第 1 章 引言
LLMs 通过在大量文本语料库上进行预训练,利用巨大的计算资源,已经取得了显著的性能。以往的研究主要集中在模型参数、训练数据量和计算资源(如 FLOPs)的变化对模型性能的影响,而忽略了词表大小这一重要因素。事实上,词表大小对语言模型的性能有着不小的影响。所以,本研究旨在填补这一空白,探讨词表大小对 LLMs 性能的影响,并提出预测最优词表大小的方法。
如图,我们提出 3 种预测最优词表大小的方法 (基于 FLOPs 的、基于导数的和基于损失函数参数拟合的估计方法),并且列出了当前主流的大型语言模型(LLMs)的词表参数和预测最优词表参数的关系。当前大多数 LLMs 的词表参数由于词表大小小于预测的最优值而处于次优状态。
第 2 章 预备知识
2.1 扩展法则
扩展法则 (scaling laws) 考虑了一个计算预算
(以 FLOPs 衡量),目标是在模型参数 N 和训数据量 D 之间最优地分配这个算力的预算:
通常情况,我们使用语言模型损失
来度量语言模型:
其中
是在给定上下文
和词表大小为
的分词器的情况下单词
的输出概率。
2.2 考虑词表的扩展法则
对训练数据量的统计方式
因为对于同一个训练语料和给定的分词算法,不同的词表大小会得到不同的词元量 (D), 因此我们以训练字符量(H)来衡量训练数据量。为了将我们的发现与现有的关于扩展规律的研究联系起来,我们需要能够从 H 映射到 D。这种映射是分词器的压缩比,可以通过
计算。分词器需要表示 H 的标记越多,D 就越大,因此压缩得越少。我们设计了一个简单的函数
来仅从选择的词表大小 V 估计这个比例:
在基于 FLOPs 和损失函数的估计方法中,我们可以直接统计出训练的词元数量。在基于导数的估计方法,我们是通过 FLOPs 关于
的解析式来导出最优的
,而不是使用具体的大量实验数据来拟合。这时候,我们需要使用
来估计 D 和 H 的关系。附录中我们可视化了拟合结果,并展示了我们的近似方法适用于不同的分词器,并且对不同的词表大小具有鲁棒性。
对词表大小非敏感的损失
语言模型损失
或者常用的困惑度(perplexity)是随词表大小变化而变的,因此在模型词表大小是非固定的情况,我们不能直接在扩展法则中直接采样这个损失来度量模型。为了公平地评估不同词表大小的模型,我们采样了一种归一化损失函数
,来消减由词表大小对语言建模损失带来的影响:
其中,
是给定上下文
和词表大小V的条件下,词
的输出概率。
是词
在分词之后的语料库中的出现频率。
备注:BPC (平均每字的比特数)也是一个值得尝试的、对词表大小非敏感的指标,本文认为
和 BPC 分别是从词元(token)和字符 (character) 的角度对语言建模损失进行归一化,达到对词表大小非敏感的特点。
第 3 章 分析:为什么最优词表大小受计算限制
我们分析了随着词表大小的增长,模型性能先是提高然后降低的原因。词表大小
对语言模型的性能的影响:
较小的 V:增加词表大小可以提高标记化分词的效率,也就是用更短的词元去表示文本,从而提高模型性能。
较大的 V:逐渐增加词表大小的时候,分词效率提高的收益会逐渐减少,且可能导致词表有关参数的欠拟合,特别是针对低频词的词表征。
进一步地,我们研究了在固定 FLOP 预算下,词表如何影响损失,并发现对于每个 FLOPs 预算,存在一个使损失最小化的最优词表大小。
图上是在不同 FLOP 预算下,不同词表大小的损失曲线。对于每个预算,都存在一个最小化损失的最优词表大小。并且随着 FLOPs 预算的增加,这个最优词表大小也会增加(向右移动)。
第 4 章:估计模型的最优词表大小
在第 4 章中,论文描述了三种不同的方法来估计大型语言模型(LLMs)的最优词表大小。这三种方法包括:通过 IsoFLOPs 估计幂律、基于导数的快速估计和损失公式的参数拟合。每一种方法都旨在预测在给定计算预算下,最优的词表大小应该是多少。不失一般性的,我们建立了词表大小
和词表参数
的关系,
, 其中 d 是词表征的维度。
4.1 方法 1:通过 IsoFLOPs 估计
这一方法的核心思想是通过保持 FLOPs 不变,变化词表配置,来探索词表大小对模型性能的影响。本文定义了 6 组模型,每组的非词表参数(模型总参数 - 词表参数)
从 33M 到 1.13B 不等。在每组中,只改变词表大小 V,从 4K 到 96K 选择了 10 种大小的词表,并在相同的 FLOPs 预算下评估不同的模型。模型架构遵循 Llama 模型的设计,训练数据集为 SlimPajama,一个大规模的文本清理和去重数据集,采用了 bfloat16 混合精度训练。本文选择了每个 FLOPs 预算下归一化损失最小的数据点,曲线如图所示:
我们发现了非词表参数
、词表参数
和训练字符数
与 FLOPs 预算
之间的关系可以用幂律表示。基于以前的研究 [1],数据量和模型参数在最优的算力分配下应该同比例的放缩,我们在拟合过程中,加入了假设:对于词表参数
和训练字符数
, 都和 FLOPs 保持同样的放缩比例。通过拟合,本文得到了以下幂律关系:
从拟合结果我们可以看出:
- LLMs 对数据需求量大。与非词表参数
- 相比,从业者应分配更多计算资源用于训练数据
- 词表参数与 FLOPs 呈幂律关系(
- )。随着模型计算量的增加,更大的词表大小增强了模型理解更多样化文本的能力,因此词表大小对模型扩展至关重要。
- 词表参数
- 应比非词表参数
- 增长得更慢。这种差异可以从它们的幂律指数中看出,即
- 。
4.2 方法 2:基于导数的快速估计
这一方法的核心思想是通过计算 FLOPs 相对于词表大小的导数,并找到零点解,来估计最优词表大小。根据前人的研究,transformer 架构的训练 FLOPs 可以近似表示为:
通过对 V 求导,我们可以得到:
通过设置导数等于 0,我们可以求解最优的
,也就是
。这个方程的解将给出在给定的 FLOPs 预算下,能够使 FLOPs 最小化的词表大小。这种方法的优势在于它不需要大量的实验数据,而是通过数学推导和数值方法来快速估计最优词表大小。这对于初步模型设计和快速迭代非常有用。
在具体的使用过程,我们是通过导数得到的最优的词表参数
和非词表参数
拟合出了一个符合幂律参数,也就是
中的
, 从通过一组轻量化小模型的实验数据点找出一组满足
和最优的
作为初始点,结合
,去预测任意
情况下的最优词表参数,详见原文。
4.3 方法 3:损失公式的参数拟合
这一方法的核心思想是直接预测给定非词表参数、词表参数和训练字符数量的损失,然后通过找到损失相对于词表的最小点来预测最优词表配置。本文设计了一个依赖于词表大小的损失函数:
其中,
是可学习的参数。
通过收集不同非词表参数、词表大小和训练数据量的实验点,并使用这些点来拟合上述损失函数的参数,我们拟合出这个有
有关的损失函数
,从而可以通过对
关于
求导的方式,找到最优的
。这个方法的好处在于,它可以给出任意的非词表参数
和训练数据量
的组合情况下的局部最优的词表大小,而不仅仅是
和训练数据量
等比例放缩情况下的最优词表大小。
第 5 章 进一步讨论
5.1 预测语言模型的理想词表大小
在这一节中,本文报告了基于三种方法预测的最优词表参数和大小,遵从以前的关于 scaling laws 中数据量和模型参数的算力分配有关工作 [1],训练数据的量与非词表参数等比例地随 FLOPs 预算缩放。
我们报告了在给定
的情况下,通过提出的三种方法预测的最优词表参数
和词表大小
。我们假设训练 FLOPs 被最优分配,即非词表参数和训练数据按相同比例扩展。结果分析:
- 预测结果显示,随着非词表参数的增加,最优的词表参数和词表大小也随之增加。
- 这表明对于更大的模型,更大的词表是必要的,以充分利用模型的容量。
值得注意的是,主流 LLMs 通常分配给词表参数偏少。然而,学界和工业界已经开始转向更大的词表大小。例如 Llama3 的词表大小从 Llama2 的 32K 增加到 128K。然而,扩展数据仍然是最关键的部分,解决数据稀缺问题应成为未来工作的重点。
为了验证这些预测,本文在 3B 参数的模型上进行了实验,这些模型在不同的 FLOPs 预算下进行了训练。实验中,本文比较了使用常规词表大小(例如 32K)与使用预测的最优词表大小的模型性能。性能通过多个下游任务进行评估,包括 ARC-Challenge、Hellaswag 等。实验结果表明,使用预测的最优词表大小的模型在多个任务上一致地优于使用常规词表大小的模型。
5.2 训练数据量对最优词表大小的影响
我们之前的实验主要集中在训练计算预算为主要约束条件的情况下,我们寻求将其最优分配给参数和训练数据。这是扩展规律研究中的典型设置。然而,在实践中,我们经常面临数据稀缺或者数据相对于模型大小过量的情况,迫使我们进行算力次优分配时候的训练。为了验证我们的方法 3 能够处理这些实际场景中由于训练数据量变化对最优词表大小的影响,我们将词表大小为
的模型与方法 3 预测的最优词表大小
的模型进行了比较。如表所示,我们的预测可以根据不同的训练数据量,有效调整词表大小,实现了更好的模型。
第 6 章 结论
本文通过实验验证了词表大小对语言模型性能有显著影响。他们发现,对于给定的计算预算,存在一个最优的词表大小,能够最大化模型性能。词表大小是影响模型性能的关键因素之一。更大的模型受益于更大的词表,因为它们需要更丰富的词表来表达更复杂的语言模式。另一方面,词表参数应该比非词表参数增长得慢,但仍然对性能至关重要。论文提出了三种方法来预测最优词表大小,这些方法都基于计算预算和模型性能之间的关系,论文强调了在设计和训练 LLMs 时,需要综合考虑模型参数、训练数据和词表大小。本文建议在分配计算资源时,应该考虑到词表大小的影响。
#AMD发布最强AI芯片
对标英伟达Blackwell,2025年上市
未来的大模型,或许都是 A 卡来算的?
从 PC 端到服务器,AMD 一次发布就完成了对 AI 计算的全覆盖。
今天凌晨,AMD 首席执行官苏姿丰(Lisa Su)在旧金山举行的 Advancing AI 2024 活动上发布了全新一代 Ryzen CPU、Instinct AI 计算卡、EPYC AI 芯片等一系列产品。
苏姿丰表示,在未来,人工智能将提高每个人的生产力。通过实时翻译等功能,人与人的协作将变得更加高效,无论创作者还是普通用户,生活都将变得更轻松。除此以外,更多的 AI 任务将在本地进行处理,以保护你的隐私。
基于这样的愿景,新一代 AMD Ryzen AI Pro PC 将支持 CoPilot+,并提供多至 23 小时的电池续航时间。
「我们一直与 AI PC 生态系统开发人员密切合作,」苏姿丰说道,并指出到今年年底将有 100 多家公司致力于开发 AI 应用程序。
Ryzen AI Pro:AI PC 专用 CPU 问世
首先是 CPU。AMD 今天推出了专为 PC 设计的全新 Ryzen AI Pro 300 系列处理器。新款 CPU 采用 4nm 工艺打造,使用该公司最新的微架构,结合 GPU 与 Microsoft Copiliot+ 认证的神经处理单元 (NPU),可实现 55 TOPS 性能的 AI 算力。
AMD Ryzen AI Pro 300 系列 CPU 处理器代号为 Strix Point,最多有 12 个 Zen 5 核心、RDNA 3.5 GPU,最多 1024 个流处理器,包含最新的 XDNA 2 NPU,性能为 50 TOPS – 55 TOPS(8-bit),以及一组适用于商用 PC 的功能,如远程管理、增强的安全功能(内存加密、安全启动过程、AMD 安全处理器 2.0、TPM 2.0)、云恢复和看门狗定时器。
目前,AMD 的 Ryzen AI Pro 300 系列产品线包括三种样式:最高端的 12 核 Ryzen AI 9 HX Pro 375,配备 55 TOPS NPU;速度稍慢的 12 核 Ryzen AI 9 HX Pro 370,配备 50 TOPS 算力的 NPU;以及八核的 Ryzen AI 7 Pro 360,配备 50 TOPS 的 NPU。
与英特尔 Core Ultra 7 165U 相比,最高版本的 Ryzen AI 9 HX PRO 375 可提供高达 40% 的性能提升和高达 14% 的生产力提升。
与往常一样,HX 版本的 TDP 高达 55W,面向高性能笔记本电脑(包括一体机),而常规处理器的 TDP 可以固定为低至 15W。
与上代 AMD Ryzen Pro 7040 系列处理器相比,Ryzen AI Pro 300 不仅具有显著更高的通用和图形性能,而且还支持微软的 Copilot+ 功能,其将在 11 月的下一次 Windows 更新中推出。AMD 在发布活动中宣传了 Copilot+ 的实时字幕和实时翻译、Cocreator 以及颇具争议的 Recall 功能 —— 这些都是新 CPU 支持的关键能力。
除此之外,其中的 NPU 还支持各种第三方软件供应商带来的 AI 增强应用,例如来自 Adobe、Bitdefender、Blackmagic Design 和 Grammarly 等公司的产品。
AMD 表示,到 2025 年,Ryzen AI Pro 平台将搭载于超过 100 款产品中,惠普和联想将率先在其商用 PC 上采用 Ryzen AI Pro 300 系列处理器。
对标英伟达最强 AI 芯片:Instinct MI355X 加速卡
最近,全球 AI 芯片供不应求,AMD 已成为 GPU 领域的重要玩家,今天该公司宣布了最新的 AI 加速器和用于 AI 基础设施的网络解决方案。
具体而言,AMD 推出了 AMD Instinct MI325X 加速器、AMD Pensando Pollara 400 网络接口卡 (NIC) 和 AMD Pensando Salina 数据处理单元 (DPU)。
AMD 声称 AMD Instinct MI325X 加速器为 Gen AI 模型和数据中心树立了新的性能标准。
AMD Instinct MI325X 加速器基于 AMD CDNA 3 架构构建,旨在为涵盖基础模型训练、微调和推理等要求苛刻的 AI 任务提供性能和效率。
AMD Instinct MI325X 加速器提供了业界领先的内存容量和带宽,256GB HBM3E 支持 6.0TB/s,比英伟达 H200 提供了高 1.8 倍的容量和 1.3 倍的带宽。与 H200 相比,AMD Instinct MI325X 的峰值理论 FP16 和 FP8 计算性能提高了 1.3 倍。
这种领先的内存和计算性能,较于英伟达 H200,能够在 FP16 精度下,为 Mistral 7B 模型提供高达 1.3 倍的推理性能,在 FP8 精度下为 Llama 3.1 70B 模型提供 1.2 倍的推理性能,同时在 FP16 精度下为 Mixtral 8x7B 模型提供 1.4 倍的推理性能。
AMD Instinct MI325X 加速器目前有望在 2024 年第四季度投入生产,预计从 2025 年第一季度开始将在包括戴尔、Eviden、技嘉、惠普、联想等在内的众多平台提供商的系统中广泛使用。
此外,AMD 还更新了其年度路线图,即下一代 AMD Instinct MI350 系列加速器。基于 AMD CDNA 4 架构,AMD Instinct MI350 系列加速器的推理性能比基于 AMD CDNA 3 的加速器提高了 35 倍。
具体来说,MI300X 目前能提供 1.3 petaflops 的 FP16 算力和 2.61 petaflops 的 FP8。相比之下,MI355X 将分别将其提升至 2.3 和 4.6 petaflops。与上一代相比,这个数字提高了 77%。
MI355X 不仅拥有更多的原始计算能力。FP4 和 FP6 数字格式的引入使潜在算力相对于 FP8 再次翻倍,因此单个 MI355X 可提供高达 9.2 petaflops 的 FP4 计算能力。这是一个有趣的数字,因为英伟达 Blackwell B200 也提供了 9 petaflops 的密集 FP4 计算能力 —— 功率更高的 GB200 可以为每个 GPU 提供 10 petaflops 的 FP4。
仅基于该规格,AMD 的 MI355X 可能提供的 AI 计算能力与英伟达的 Blackwell 大致相同。然而,AMD 还将提供高达 288GB 的 HBM3E 内存,这比目前 Blackwell 的内存多出 50%。Blackwell 和 MI355X 的每块 GPU 都将具有 8 TB/s 的带宽。
AMD Instinct MI350 系列加速器有望在 2025 年下半年上市。
「毫无疑问,AMD 凭借 EPYC 拉大了与英特尔之间的差距。目前,它在高端市场占有 50-60% 的份额,而且我认为这一趋势不会减弱。AMD 面临的最大挑战是获得企业市场份额。AMD 需要在销售和营销方面投入更多资金,以加速其企业增长,」Moor Insights & Strategy 分析师 Patrick Moorhead 表示。「很难评估 AMD 与 NVIDIA 在数据中心 GPU 方面的地位。到处都有数据,两家公司都声称自己更胜一筹。」
Moohead 补充道:「我可以毫不含糊地说,AMD 的新 GPU,尤其是 MI350,与前代产品相比,效率和性能都有所提高,对低比特率模型的支持也更好,这是一个巨大的进步。这是一场激烈的竞逐,英伟达遥遥领先,AMD 正在迅速追赶并取得了有意义的成果。」
AMD 下一代 AI 网络互联技术
AMD Pensando
AMD 正在利用可编程 DPU 为超大规模计算提供动力,为下一代 AI 网络提供支持。
AI 网络分为两部分:前端(向 AI 集群提供数据和信息)和后端(管理加速器和集群之间的数据传输)。
为了有效管理这两个网络并推动整个系统朝着高性能、可扩展和高效率发展,AMD 推出了用于前端的 AMD Pensando Salina DPU 和用于后端的 AMD Pensando Pollara 400。
AMD Pensando Salina DPU 是全球性能最高、可编程性最强的第三代 DPU,与上一代相比,其性能、带宽和规模提高了两倍。AMD Pensando Salina DPU 支持 400G 吞吐量,可实现快速数据传输速率,是 AI 前端网络集群中的关键组件。
AMD Pensando Pollara 400 搭载了 AMD P4 可编程引擎,是业界首款支持 UEC(Ultra Ethernet Consortium) 的 AI NIC。它支持下一代 RDMA 软件,并由开放的网络生态系统提供支持。
AMD Pensando Salina DPU 和 AMD Pensando Pollara 400 均于 2024 年第四季度向客户提供样品,并有望于 2025 年上半年上市。
用于生成式 AI 的 AI 软件
AMD 在旧金山举行的「Advancing AI 2024」活动。
AMD 将对软件功能和开放生态系统进行投资,以在 AMD ROCm 开放软件堆栈中提供强大的新特性和功能。
在开放软件社区中,AMD 正在推动 AI 框架、库和模型(包括 PyTorch、Triton、Hugging Face 等)对 AMD 计算引擎的支持。这项工作使得 AMD Instinct 加速器在流行的生成式 AI 模型(如 Stable Diffusion 3、Meta Llama 3、3.1 和 3.2)以及 Hugging Face 上的一百多万个模型上提供开箱即用的性能和支持。
除了社区之外,AMD 还继续推进 ROCm 开放软件堆栈,为用户带来最新功能以支持生成式 AI 工作负载的领先训练和推理。
现在,ROCm 6.2 支持很多 AI 应用,例如 FP8 数据类型、Flash Attention 3、Kernel Fusion 等。与 ROCm 6.0 相比,ROCm 6.2 在推理方面提供了 2.4 倍的性能改进,在各种 LLM 的训练方面提供了 1.8 倍的性能改进。
第五代 AMD Epyc CPU
在服务器端,Zen 架构已经让 AMD 的市场份额从 2017 年的零上升到 2024 年第二季度的 34%。
AMD 揭开了其全新 Zen 5 架构服务器 CPU 系列的详细细节。第五代 EPYC「Turin」处理器 CPU 适用于企业、AI 和云服务用例。
AMD 已将其具有全功能 Zen 5 内核的标准扩展优化模型和具有密集 Zen 5c 内核的扩展优化模型统一为一个堆栈,该堆栈以 EPYC 9005 Turin 为名,与英特尔的竞争对手 Xeon 处理器相比,性能表现令人印象深刻。
AMD 声称,其旗舰产品 192 核 EPYC 9965 比英特尔竞争对手的旗舰产品 Platinum 8952+ 快 2.7 倍,速度提升显著。在具体应用方向上,还包括视频转码速度提高 4 倍、HPC 应用程序性能提高 3.9 倍、虚拟化环境中每核性能提高 1.6 倍。AMD 还宣布推出其新的高频 5GHz EPYC 9575F,据称在用于加速 AI GPU 工作负载时,它比 Zen 4 EPYC 型号要快 28%。
值得注意的是,AMD 并未在本代推出带有堆叠 L3 缓存的 X 系列型号,而是暂时依赖其 Milan-X 系列。AMD 表示,其 X 系列可能会隔代进行升级。
AMD 的新系列最高端是一款 14813 美元的 192 核 / 384 线程 EPYC 9965,这是一款 500W 功率的庞然大物,利用台积电的 3nm 节点通过密集的 Zen 5c 内核实现极致的计算密度。还有另外五款 Zen 5c 驱动的型号,包括 96、128、144 和 160 核心的型号,适用于高密度应用。
标准型号的 Zen 5 内核在 4nm 节点上制造,最高可达 128 个内核和 256 个线程 —— 售价 12984 美元的 EPYC 9755。该堆栈共有 22 种型号,从仅仅 8 个内核开始,这是 AMD 为响应客户需求而创建的全新小内核级别。AMD 在其产品堆栈中还散布了四个单插槽「P」系列型号。
AMD 的标准 Zen 5 系列现在包括新的高频 SKU,最高可达 5.0 GHz,这是 AMD 数据中心 CPU 系列的新高水准,可最大限度地提高 GPU 编排工作负载的性能。AMD 共有五种 F 系列型号,适用于不同级别的性能和内核数。
标准 Zen 5 型号采用多达 16 个 4nm CCD(核心计算芯片,又称小芯片)。它们与大型中央 I/O 芯片配对,每个 CCD 提供多达 8 个 CPU 核心,TDP 范围从 155W 到 500W。Zen 5c 型号采用多达 12 个 3nm CCD,每个小芯片有 16 个 Zen 5c 核心,与相同的 I/O 芯片配对。
AMD 声称,基于全新 Zen 5 架构的 RPYC 9005 系列的 IPC 增加了 17%。Zen 5 还显著增加了对 AVX-512 的完整 512b 数据路径支持,不过用户也可以选择在「双泵」AVX-512 模式下运行芯片,将 512b 指令作为两组 256b 发出,从而降低功率要求并提高某些工作负载的效率。
除了旗舰 192 核型号外,所有 Turin 处理器都可以放入现有的服务器平台采用 SP5 插槽。192 核型号也适用于 SP5 插槽,但需要特殊的电源配置,因此该高端型号需要较新的主板。
Turin 系列仅提供 12 个 DDR5 内存支持通道,每台服务器的内存容量高达 12TB(每插槽 6TB)。AMD 最初将 Turin 的规格定为 DDR5-6000,但现在已将其提高到合格平台的 DDR5-6400。AMD 的平台仅支持每通道 1 个 DIMM(DPC)。
对于 AMD 来说,目前面临的环境即是机遇也是挑战,如何能将架构、制程上的优势转化为胜势?从今天凌晨的发布会上,我们或许已经看到端倪。
参考内容:
https://www.youtube.com/watch?v=vJ8aEO6ggOs
https://venturebeat.com/ai/amd-unveils-ai-infused-chips-across-ryzen-instinct-and-epyc-brands/
#多模态大模型评测集最全综述
本综述对200个多模态大模型评测集进行了全面的回顾和总结,涵盖了MLLM评估的五个关键领域:(1) 感知和理解,(2) 认知和推理,(3) 特定领域,(4) 关键能力,以及 (5) 其他模态,共包括20-30个详细类别。
arxiv论文:https://arxiv.org/pdf/2408.08632
主页:https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey
多模态大语言模型因其在视觉感知和问答、理解和推理等各种应用中的卓越表现,正在学术界和工业界获得越来越多的关注。在过去的几年中,大量的研究人员从各种维度和粒度对MLLM (Multimodal Large Language Model)进行了深入研究。本综述对200个多模态大模型评测集进行了全面的回顾和总结,涵盖了MLLM评估的五个关键领域:(1) 感知和理解,(2) 认知和推理,(3) 特定领域,(4) 关键能力,以及 (5) 其他模态,共包括20-30个详细类别。
此外,作者还展示了与MLLM评估相关的论文的随时间的增长趋势,表明该研究领域在近两年的飞速发展。此外,作者还提供了自2024年以来在83个基准测试中表现最好的MLLM的统计数据。相比之下,OpenAI的GPT-4和Google的Gemini表现十分优异。
Preliminary:多模态大模型的架构和训练
多模态大模型的架构通常可以分为三个主要模块:多模态编码器(如视觉、音频等)、多模态投影器(用于不同模态的对齐和融合)、以及大语言模型。训练过程中涉及的核心方法主要包括预训练和指令微调。
多模态编码器多模态编码器的任务是将输入的图像或其他模态的数据进行编码,提取出对应的多模态特征。这些特征随后会被传递给多模态投影器进行进一步的处理。典型的视觉编码器包括 CLIP、SigLIP 和 DINO 等模型,它们通过对原始视觉输入进行特征提取,生成用于跨模态分析的高维特征向量。
多模态投影器多模态投影器负责将多模态特征嵌入映射到文本特征空间。这个过程使多模态信号能够与文本信息进行对齐,并与语言模型的输入结合起来。为了提高处理效率,一些工作(如 BLIP-2 中的 Qformer)设计了新的投影器,通过减少多模态标记的数量,提升模型的性能。
大型语言模型大型语言模型是 MLLM 的核心,它使模型具备了零样本推理、指令执行和上下文学习等能力。模型接收包含多模态信号的输入序列,输出相应的文本序列。通常,语言模型会通过文本分词器将文本输入映射为文本标记,随后将文本和视觉标记连接在一起作为模型的输入,最终通过自回归的方式生成输出。典型的大型语言模型包括 LLaMA 系列、Phi、Gemma 和 Qwen,Intern 等,它们的参数规模从数十亿到上百亿不等。
预训练预训练阶段的主要目标是对齐不同模态的嵌入空间,使得语言模型能够接收来自多模态的输入。该阶段通常依赖于大规模的文本配对数据,如图像-文本对。通过这样的数据格式,模型能够学习多模态信息之间的关联,并采用“下一个词预测”的训练范式,最大化模型对图像描述的预测概率。在这一过程中,模型会使用标准的交叉熵损失函数进行优化,确保其在多模态输入下生成准确的描述。
指令微调指令微调阶段则着眼于通过特定任务的指令来进一步微调模型。该过程通常在监督微调范式下进行,指令微调的数据集通常会以单轮或多轮对话的结构呈现,模型通过这些指令学习如何应对特定任务。常见的策略是保持多模态编码器的权重固定,更新投影器和大型语言模型的预训练权重,从而提升模型在多模态任务中的执行能力。
多模态大模型评测集分类
1. 感知与理解:奠定多模态模型的基础
MLLMs的感知与理解能力是其多模态任务处理的核心。作者从综合评估、细粒度感知和图像理解三个角度对该领域的评估进行了总结。
1)综合评估: MLLMs依赖于强大的语言模型来执行多模态任务,研究人员提出了大量的综合评估基准,以全面测试MLLMs在感知与理解方面的表现。这些基准有效地评估了模型在对象识别、场景上下文理解以及响应视觉内容问题等任务中的准确性。
2)细粒度感知: 细粒度感知是MLLMs的重要组成部分,评估模型在检测和识别场景中可见物体的能力,尤其关注局部区域的细节处理能力和多模态信号与文本信息对齐的精度。细粒度感知对于多模态理解十分重要,能够有效提高模型在复杂场景中的表现。
3)图像理解: 图像理解任务测试MLLMs从视觉内容中提取有意义信息的能力。这类评估旨在衡量模型是否能够掌握场景的上下文,将视觉细节与文本信息有效结合,并生成连贯的描述和洞察。
2. 认知与推理:实现复杂任务的高级能力
在认知与推理方面,MLLMs展现了超越基础感知能力的复杂信息处理与逻辑推理能力。作者从通讯推理、基于知识的推理、智能与认知三个角度对该领域的评估进行了总结:
1)通用推理: MLLMs需要从多模态信号和文本输入中提取相关信息,从而推导出逻辑结论。评估模型的通用推理能力,主要集中在视觉关系推理、上下文推理及思维链推理等。模型需要展现其对多模态信号和文本信息之间复杂关系的理解与处理能力。
2)基于知识的推理: MLLMs在处理复杂任务时,基于知识的推理能力十分重要。评估模型是否能够利用外部知识库或常识性知识来回答问题,测试其在知识更新和维护中的准确性和一致性也是评估的一个重要方面。
3)智能与认知: 借鉴人类认知发展理,一些评估基准测试MLLMs在抽象信息推理和多学科问题中的表现。通过解决复杂的数学问题或多学科问题,评估模型是否能够在多个知识领域中整合和应用信息。
3. 特定领域应用:从理论到实践的延伸
MLLMs的特定领域应用能力近年来同样获得了越来越多的关注,尤其是在处理复杂专业任务和特定场景中的表现。作者从富文本视觉问答、决策代理、多文化和多语言、其他应用四个角度对该领域的评估进行了总结:
1)富文本视觉问答: 评估MLLMs在文本与图像信息集成分析中的表现,特别是文本识别、上下文理解和多模态文档处理能力。通过这种评估,可以深入了解模型在实际应用中的适应性,尤其是在处理含有复杂文本和图像组合的场景中。
2)决策代理: MLLMs在动态环境中执行基于代理的决策任务的能力是其智能化的重要体现。相关评估测试了模型在复杂场景中的规划与调度能力,这种能力对于解决如具身智能、自动驾驶等现实世界中的问题至关重要。
3)多样化文化与语言: 目前大多数基准测试主要集中在英语文本的语境下,而忽视了其他语言和文化背景的需求。为此,一些用于评估MLLMs在多语言和多文化场景中表现的基准被提出,以评估模型是否具备更广泛的适应性和应用能力。
4)其他应用: 此外,部分评估基准侧重于测试MLLMs在医学、工业设计等高度专业化领域中的表现。这些评估用于测试模型在处理特定领域数据时的适应性,从而展现MLLMs应对复杂的专业任务和现实应用场景的能力。
4. 关键能力:提升用户体验的核心
MLLMs的关键能力不仅影响其性能表现,还直接关系到用户的实际体验。作者从对话能力、幻觉及可信度三个角度对该领域的评估进行了总结:
1)对话能力: 部分评估基准测试了MLLMs在处理复杂对话场景中的表现,特别是在长上下文理解和复杂指令执行方面的能力。确保模型能够在多样化对话中进行有效的互动,并准确执行用户的复杂指令。
2)幻觉: 幻觉问题是MLLMs面临的主要挑战之一,幻觉指的是模型生成的内容与实际的多模态信号输入不符。相关评估测试了MLLMs在幻觉上的表现,并探索了如何通过更有效和更高效的方式来自动化地检测和评估幻觉问题。
3)可信度: MLLMs的可信度评估涉及多个方面,包括准确性、一致性以及在处理敏感内容时的安全性。稳健性评估测试了模型在面对不同或意外输入时的表现,确保其在各种条件下输出的可靠性。同时,安全性评估则关注模型是否能够避免生成有害或不当内容,从而保护用户免受潜在风险。
5. 其他模态:扩展多模态模型的潜力
除了图像模态外,视频、音频和三维场景等其他模态也提供了丰富的现实世界信息。这些模态不仅增强了模型理解复杂场景的能力,还为评估多模态大模型在真实任务中的表现提供了重要依据。作者从视频、音频、三维场景及全模态四个角度对该领域的评估进行了总结:
1)视频: 视频信号不仅包含图像信息,还涉及时序信息和视频上下文信息。评估模型在视频任务中的表现,尤其是在时间感知、动作理解和事件推理方面,是多模态大模型在视频理解中的关键任务。模型是否能够充分理解时序信息以及分析长视频的能力也构成了视频模态评估的重要维度。
2)音频: 音频模态通过语音、环境声和音乐等多种形式,为评估模型提供了额外的维 度。评估音频模态的关键在于模型如何处理和理解音频信号,特别是在跨模态任务中的表现,例如处理语音指令、理解环境音和音乐。在多模态交互中,模型不仅需要准确理解语音内容,还要能够综合分析音频与其他模态的关联性。
3)三维场景: 三维场景相比二维图像,提供了更为精确的空间关系、深度和遮挡信息,这对于解释复杂环境至关重要。评估模型在三维场景中的表现,尤其是在物体检测、场景理解和空间推理等任务中的能力,是确保模型能够有效处理三维信息的关键。快到whaoの开发板商城找测试设备
4)全模态: 现实世界中的多模态信息通常同时涉及音频、图像、视频和文本等多种模态。评估模型在处理多个模态同时出现的任务中的表现,能够更全面地评估其适应现实场景的能力。全模态评估不仅能够考察模型的多模态交互能力,还能揭示其在多任务环境中的潜在优势与不足。
总结:
这篇关于多模态大模型评测基准的综述,在当前AGI模型发展的背景下具有重要的指导意义。作者从五大核心领域进行了全面的分析与总结,评测不仅确保了多模态大模型能够有效处理多模态信号,还检验了它们在准确性、稳健性和公平性等方面的表现是否达到预期标准。这些分类不仅加深了我们对MLLM现状的理解,还明确了其在不同应用场景中的潜力与局限,为未来MLLM的发展提供了有价值的洞见。通过严谨的评估流程,能够清晰地识别出各模型的优势与不足,为进一步优化模型提供了明确方向,也为AI系统在实际应用中的部署奠定了技术基础。
#什么是 AGI?
深度|李飞飞:我不知道什么是AGI
你对人工通用智能(AGI)感到困惑吗?这就是 OpenAI 执着于最终以“造福全人类”的方式创造的东西。你可能想认真对待他们,因为他们刚筹集了 66 亿美元以更接近这个目标。
但如果你仍然在想究竟什么是 AGI,你并不孤单。
在周四的 Credo AI 负责任的人工智能领导峰会上,世界著名研究员常被称为“人工智能教母”的李飞飞表示,她也不知道什么是 AGI。在其他时刻,李飞飞讨论了她在现代人工智能诞生中的角色,社会应该如何保护自己免受先进人工智能模型的影响,以及她为什么认为她的新独角兽初创公司 World Labs将改变一切。
但当被问及她对“人工智能奇点”的看法时,李和我们其他人一样感到困惑。
“我来自人工智能学术界,接受过更严格和基于证据的方法的教育,所以我并不太清楚这些词的意思,”李在旧金山一个挤满人的房间里说,旁边是一扇俯瞰金门大桥的大窗户。“坦率地说,我甚至不知道 AGI 是什么意思。人们说你见到它就知道,我想我还没有见过。事实上,我并不花太多时间思考这些词,因为我认为还有很多更重要的事情要做……”
如果有人知道什么是 AGI,那可能是李飞飞。2006 年,她创建了 ImageNet,这是世界上第一个大型 AI 训练和基准数据集,对催化我们当前的 AI 热潮至关重要。从 2017 年到 2018 年,她担任谷歌云的 AI/ML 首席科学家。今天,李飞飞领导斯坦福人本中心 AI 研究所(HAI),她的初创公司 World Labs 正在构建“大型世界模型”。(如果你问我,这个术语几乎和 AGI 一样令人困惑。)
OpenAI 首席执行官奥特曼在去年的 The New Yorker 采访中尝试定义 AGI。奥特曼将 AGI 描述为“你可以雇佣的同事的中等人类的等价物。”(equivalent of a median human that you could hire as a coworker.)
与此同时,OpenAI 的章程将 AGI 定义为“在大多数经济价值工作中超越人类的高度自主系统。”( “highly autonomous systems that outperform humans at most economically valuable work.”)
显然,这些定义对于一家价值 1570 亿美元的公司来说并不够好。因此,OpenAI 创建了 五个级别,用于内部评估其向 AGI 的进展。第一个级别是聊天机器人(如 ChatGPT),然后是推理者(显然,OpenAI o1 是这个级别),代理(这 supposedly 是下一个),创新者(可以帮助发明事物的 AI),最后一个级别是组织级(可以完成整个组织工作的 AI)。
仍然感到困惑吗?我也是,李也是。此外,这听起来远远超过一个普通人类同事能做到的。
李在谈话早些时候提到,自小她就对智能的概念充满了好奇。这使她在人工智能尚未盈利之前就开始研究这一领域。在 2000 年代初,李表示她和其他几个人正在悄悄为这个领域奠定基础。
“在 2012 年,我的 ImageNet 与 AlexNet 和 GPU 结合——许多人称之为现代人工智能的诞生。它是由三个关键因素驱动的:大数据、神经网络和现代 GPU 计算。一旦那个时刻到来,我认为整个人工智能领域以及我们的世界都再也不同了。”
当被问及加利福尼亚州有争议的人工智能法案 SB 1047 时,李谨慎地发言,以避免重提州长纽森刚刚通过上周否决该法案而平息的争议。(我们最近与 SB 1047 的作者进行了交谈,他更愿意重新与李展开辩论。)
“你们中的一些人可能知道我对这项被否决的法案 [SB 1047] 表达过我的担忧,但现在我正在深思熟虑,并充满期待地展望未来,”李说。“我感到非常受宠若惊,或者说很荣幸,纽森州长邀请我参与后 SB 1047 的下一步。”
加利福尼亚州的州长最近邀请李以及其他人工智能专家组成一个工作组,帮助该州制定人工智能部署的保护措施。李表示,她将在这个角色中采用基于证据的方法,并将尽力倡导学术研究和资金支持。然而,她也希望确保加利福尼亚州不会惩罚技术人员。
“我们需要真正关注对人类和我们社区的潜在影响,而不是将责任归咎于技术本身……如果一辆车被故意或无意地滥用并伤害了一个人,我们惩罚汽车工程师——比如福特或通用汽车——是没有意义的。仅仅惩罚汽车工程师并不会让汽车更安全。我们需要做的是继续创新以实现更安全的措施,同时改善监管框架——无论是安全带还是限速——人工智能也是如此。”
这是我听过的针对 SB 1047 的更好论点之一,该法案将惩罚因危险 AI 模型而受到影响的科技公司。
尽管李正在为加利福尼亚州提供人工智能监管建议,但她也在旧金山经营她的初创公司 World Labs。这是李第一次创办初创公司,她是少数几位领导前沿人工智能实验室的女性之一。
“我们离一个非常多样化的人工智能生态系统还很远,”李说。“我确实相信,多样化的人类智能将导致多样化的人工智能,并将为我们带来更好的技术。”
在接下来的几年里,她很高兴能将“空间智能”更接近现实。李说,人类语言是今天大型语言模型的基础,可能花费了百万年的时间来发展,而视觉和感知则可能花费了 5.4 亿年的时间。这意味着创建大型世界模型是一项更复杂的任务。
“这不仅仅是让计算机看见,而是真正让计算机理解整个三维世界,我称之为空间智能,”李说。“我们不仅仅是为了命名事物而看……我们真正是为了做事、导航世界、相互互动而看,缩小看与做之间的差距需要空间知识。作为一名技术专家,我对此感到非常兴奋。”
本文翻译自:TechCrunch,https://techcrunch.com/2024/10/03/even-the-godmother-of-ai-has-no-idea-what-agi-is/