题图|天工AI生成
虽然今年只过去了三分之一,但AI领域的创新和迭代速度,依然会让不少人发出四郎般的疑问:你还有多少惊喜是“朕”不知道的?
如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,就突破了文字乃至图像的范畴。
2月中旬,OpenAI发布的“文生视频”(text-to-video)的大模型工具Sora直接生成60秒一镜到底、不同景别流畅切换的视频,将文生视频的效果提升数个维度,以至于在demo视频刚公布的最初几天,有人忍不住惊呼“现实世界不存在了”。
3月中旬,Suno团队发布的Suno AI V3版本,只要输入简单的文字描述,就可以生成两分钟以内、不同流派风格的音乐作品,效果惊艳,被称为“AI音乐的ChatGPT时刻”。
短短一年,大模型再度快速进化。与上一阶段人们热衷于测试大模型能否理解言外之意、能否编程、能否做数学题不同,大模型的能力维度变得更加丰富多元。这意味着什么?
通往AGI之路
AGI,通用人工智能,AI皇冠上的明珠,AI从业人士追寻的理想和目标,通俗地说,AGI的目标是模仿并超越人类的智力水平,但迄今为止,尚未有现实AGI成果出现,个中原因便在于,当前的AI无法克服认知模型复杂性这一难题。
人脑是天生的多任务处理器,机器不是。
当下的技术发展,使得人工智能在许多方面已经取得了媲美人类甚至超越人类的成就,例如以AlphaFold和AlphaZero为代表的专业领域AI,以及文书纠正AI Grammarly,DALL·E 2,Imagen等生图AI。但它们的强大仅局限于特定领域。
当人在欣赏一朵颜色艳丽、香味扑鼻、造型华丽的花朵时,大脑会自动将颜色、形状、气味等不同维度信息进行综合处理,这种对人类而言十分简单的事情,对机器来说是一件难事。如果机器能够充分理解物理世界不同介质的信息,并进行综合性的处理,这将是重要突破,也意味着AI能够更加智能,能处理更加复杂的事情,提供更加有价值的帮助。
大模型在文字、图片、视频、语音等方面取得的进展,意义便在于此。
当其他大模型在特定领域内谋求突破时,一位来自中国的选手正在打破模型间的围墙。4月17日,在「天工」大模型发布一周年之际,昆仑万维宣布,「天工3.0」以及「天工SkyMusic」正式开启公测。一年时间,从1.0到3.0,天工大模型发生了什么变化?
根据官方介绍,「天工3.0」是4000亿级参数全球最大规模的开源MoE大模型,也是中国首个音乐AIGC SOTA(深度学习专有名词,指领域内最好的模型)。相较上一代,「天工3.0」在模型语义理解、逻辑推理、以及通用性、泛化性、不确定性知识、学习能力等领域有很大的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。
而且,「天工3.0」新增了搜索增强、研究模式、调用代码、绘制图表、多次调用联网搜索等能力,集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI图片生成、AI漫画创作、AI图片识别、AI音乐生成、AI代码写作、AI表格生成等多项能力,实现了对大模型的多模态突破。
从搜索、查找、定方案,到生成报告、制作表格、制作音乐等等需要使用多个大模型才能完成的多项操作,如今在「天工3.0」可以全部搞定,这无疑能带来极大的便利。
惠及用户的同时,「天工3.0」会成为虚拟世界与物理世界的接口,并充当用户在虚拟世界的智能管家,「天工3.0」的价值将是平台级的。
在这个过程中,机器处理来自用户的各种复杂需求,输入了更多数据,进行了更多模态的后台处理,这样的输入输出对于AI变得更加智能,意义重大。
AI写歌,创作平权
「天工3.0」会的多,但绝不是把一堆功能生硬的粘合在一起,其更底层的支撑,来自于模型能力层的提升。
大模型很强,但用好有门槛。大部分普通用户没有代码开发经验,更不具备训练大模型提示词工程能力,要把大模型调教成趁手的个人AI助理,用户自己得先花时间好好学习。
针对这一现状,「天工3.0」深度训练Agent的能力,针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。
以买车这个日常生活中的典型场景为例,传统做法是找到对应车型的介绍,再自己列出不同车型的核心参数进行比较,涉及到很多繁琐的工作,这件事在「天工3.0」这儿变得特别简单。
当在搜索框中输入“特斯拉Model 3和Model Y哪个好”时,「天工3.0」首先会联网查询最新信息。
「天工3.0」给出的结果十分令人惊喜,因为它不仅突破了传统搜索只给出一堆链接、需要用户自己浏览总结的体验,直接把关键信息提炼了出来,更自动生成了两款车型的对比表格,让信息一目了然,便于用户查看。无论内容和还是形式都十分贴心到位。
结果出来后,「天工3.0」还进一步细化了提问方向,引导用户了解更加详细的信息维度,以做好决策。原本需要耗费大量时间做的信息搜集、整理和对比工作,在「天工3.0」这里简化成了一步:提问。
这种便捷体验的实现,是「天工3.0」多轮内容生成、调用搜索、画表格等能力在做支撑,底层则源自「天工3.0」深度训练Agent的能力,让大模型具有独立思考的能力,实现每一步都能独立思考,每一步都能判断是否调用模式。
判断一个大模型够不够聪明,很重要的一点就是它能不能解决复杂问题,数学与推理能力均提升超过30%的「天工3.0」逻辑推理能力大幅提升。这在天工的搜索研究模式、搜索增强模式中体现尤为明显。
比如,正值春天,很多人会有鼻塞打喷嚏的症状,在搜索增强模式下查询“春天鼻塞打喷嚏怎么办”后,「天工3.0」将这个比较模糊的问题延伸出了具体的原因和方法。
「天工3.0」基于自身的逻辑推理能力,帮用户的模糊提问厘清了思路,进而输出了一份信息全面、针对性也很强的回答。给出了不同的可能性,和相应的解决方案,并在最后继续延展出更加细化的方向,帮助用户结合自身情况进一步找到更加对症的解决办法。
「天工3.0」最令人惊艳的部分,莫过于内容创作能力。
其AI图片生成现在支持多轮修图和扩图,从下面的体验中可以看到,当用户输入“两个小孩在花园里玩耍”的需求时,「天工3.0」生成了四幅图片,随后,增加“加一条小狗”的需求后,「天工3.0」也正确的输出了有小狗和小孩一起在花园玩耍的画面。
当输入“扩展当前图片”指令后,「天工3.0」在已生成图片的基础上,进行了合理扩展,为画面增加了花树前景,令图片层次更加丰富、氛围感更足。
而在众多内容生成能力中,「天工3.0」最令外界期待的,莫过于旗下4月17日开放公测的「天工SkyMusic」音乐大模型,这是国内首个音乐AIGC SOTA模型。
专业术语定义的优秀或许过于抽象,不如先看具体体验。
将苏轼经典词作《水调歌头》输入「天工SkyMusic」,很快就生成了三首歌曲,歌曲时长最长为一分半,有男声也有女声。
天工SkyMusic搜索结果
女声现代版《水调歌头》
初次生成的曲风偏现代,进入编辑页面,使用参考歌曲功能,选择了《沧海一声笑》作为参考歌曲,让「天工SkyMusic」再次生成,再次生成三首歌曲,曲风产生了明显的变化。
男声古风版《水调歌头》
人声清晰、吐字标准、曲风有古意,显然,与其他AI音乐生成大模型相比,「天工SkyMusic」显然“更适合中国宝宝体质”。
达成这样的效果并不容易。
AI音乐生成有两大技术路径,符号音乐生成路线、大模型音乐音频生成路线。大模型音乐音频生成+Song(人声)可谓难上加难,而「天工SkyMusic」偏偏选了这条路。
对于一首音乐作品而言,人声是非常重要的元素,最能够体现生产作品的效果。过去,AI音乐行业大量研究都集中在符号音乐生成技术路线上,并且大多只能实现无人声背景音乐(Background Music,BGM)的生成,音乐的质量、效果、审美都远远达不到可用水平,产业迟迟未能爆发。
而从测试结果可以明显感觉到,「天工SkyMusic」的AI人声中文人声清晰度、咬字准确,听感清晰,显著好于国外产品,达到了业内顶级水平。
这是因为,与行业主流路径不同,「天工SkyMusic」采用自研大模型音乐音频生成技术路线,通过大模型技术实现乐器、人声、旋律、音量、音符的一体化端到端音乐生成,技术难度极大,全球只有极少数玩家参与,昆仑万维正是其中之一。
如今大语言模型(LLM)百花齐放的背后,很多开源项目可以被借鉴和参考,但在AI音乐大模型领域,几乎没什么开源资源可借鉴。没石头可摸,「天工SkyMusic」踏入湍急的河水中,砸入很多研发资源,摸索出一条路出来。宣布公测的同时,「天工SkyMusic」公布技术原理图——自己把坑踩完后,给行业复现的方案。
「天工SkyMusic」技术原理图
据介绍,在与海外顶尖的AI音乐大模型Suno V3的横向测评中,「天工SkyMusic」在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐SOTA模型。
「天工SkyMusic」还独创了方言歌曲生成能力,在人声自然度、发声可懂度等领域表现优秀,支持粤语、成都话、北京话等众多方言。
简单写了几句介绍北京特色小吃的歌词生成歌曲,儿化音倍儿地道。
同时,「天工SkyMusic」能够生成80秒44100Hz采样率双声道立体声AI歌曲——这是理论上的CD音质界限,质量很高。「天工SkyMusic」还能根据用户输入的歌词风格生成对应歌曲的风格,创作的易用性和个性化质量也很高。说唱、民谣、放克、古风、电子……不同音乐风格,「天工SkyMusic」都能驾驭。
另外,用户可以通过歌词来控制歌曲,让生成的歌曲可以明确分辨出不同歌词段落的情绪变化,体现出主歌和副歌、前奏和主歌的段落差异。独创的参考音乐生成功能,支持用户上传自有参考音乐,生成风格、唱腔类似的歌曲,进一步降低音乐大模型的使用门槛,让不熟悉乐理的用户也能轻松使用。相当内行、专业和贴心。
All in AGI与AIGC
从游戏业务起家,到成为全球平均月活跃用户近4亿、在海外孵化了多款千万级DAU爆品的企业,昆仑万维有安享舒适区的资本,但也有成为巨头的焦虑。
身为体量中型的互联网公司,昆仑万维始终在寻找第二曲线,期望实现突破,让公司规模和影响力更上一层楼。AI送来挑战,也带来希望。
2020年GPT-3给方汉带来极大的冲击。身为昆仑万维的管理者,他意识到,AI的高速发展必然会对内容产业带来颠覆性的改变,“AI的任何一点进步都会导致内容创作的大爆发,这是所有内容厂商必须面对的事实。”
AI对内容生态太重要了。当曾经必须投入重金才能产出的内容,变成只需对AI描述需求就能输出的产品,内容的生产成本被无限降低,创意的随机性和不可靠性也被大大压缩。这只是AI颠覆内容行业的一个维度。
内容产业本就是昆仑万维的主场,经过数十年发展,昆仑万维对于内容有深度理解,对变量也极度敏感,这些都让方汉明确一点:对昆仑万维而言,AI不得不做、必须要做,不然会被颠覆。
从2020年,昆仑万维就持续投入AI,2022年底,高管战略会更是决定要All in。在昆仑万维眼中,对AGI和AIGC的投入和追求,不是追逐时髦的one more thing,而是必须押上全部资源投入的未来。
战略上的确定推动着昆仑万维AI大模型、AI搜索、AI音乐、AI社交、AI游戏、AI视频六大业务矩阵的快速落地。
如今,「天工SkyMusic」的发布为昆仑万维发力AI创作者生态提供了可能性,而昆仑万维在这方面的布局,也将深刻影响行业的走向。
AI音乐生成大模型并不是音乐产业的破坏者,而是提供了更为先进的生产工具。就如同火车的发明只是为了帮助人们更好的出行一样,「天工SkyMusic」将音乐创作的门槛降低了,普通人的情绪、情感可以通过大模型工具得到更为广泛的表达。
比如,任何一个人都可以用「天工SkyMusic」为古诗词谱上美妙的旋律,通过更加生动有趣的方式,让大众进一步感受到古诗词的美和韵味,这对于诗词文化的传播以及文学教育具有很现实的意义。
在让不会乐器、不懂乐理但热爱音乐的普通人,可以无惧不懂乐理、缺乏能力,也能创作出属于自己的音乐后,具备内容生产能力的群体基数变大,文娱内容生产的成本自然会变低。昆仑万维董事长兼CEO方汉便曾透露,根据昆仑万维的观察,当内容创作的门槛下降一半的时候,内容创作者的人数就会翻倍。
而创作门槛的降低,更蕴藏着文化平权的深刻价值。
方汉观察到,在非洲等经济相对落后的国家和地区,当地生产力太落后,因此没有能力制作好的电影作品来跟强势欧美文化抗衡。而欧美文化能够在全球流行,本质上是做了大投入来创作好内容,达到强势垄断。
“当AIGC技术进化后,全世界所有人都可以低成本创作从音乐到小说,从漫画到影视的内容。每一个小语种都会更容易创作出属于自己的文化,这个实际上就是打破垄断的文化平权。”
对昆仑万维而言,从实际利益出发,AIGC赋予了人人平等的创作权利,小族群也能创作更多优质内容,这是一个蓝海市场,“在商言商,我们希望在这方面做出我们的差异化竞争”。更重要的是,当主流AIGC产品都以英文为主,中文效果相对没那么好,方言更不支持时,国产AIGC产品的崛起,也为文化的传承和传播提供了一层保护。
尽管「天工SkyMusic」目前仍在起步阶段,但已经让很多用户感受到了音乐创作的乐趣。未来随着持续优化完善,打造成一个专业且易用的全民音乐创作平台。这或许会促进更为丰富多样的音乐内容的产生,并在未来对产业的生产方式带来新的变革。其价值,不会局限于商业领域。作为中国首个音乐AIGC大模型,「天工SkyMusic」率先转动了变革的旋钮。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
123?spm=1001.2014.3001.5501)这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】