扎克伯格:为什么AI大模型应该开源?

“很多投资者和用户无法理解我们为什么要开源,我认为这在科技领域有着深刻意义,可以创造更多赢家。”扎克伯格说道。

近日,Meta首席执行官马克·扎克伯格(Mark Zuckerberg)接受了播客采访,对话中,扎克伯格介绍了他们最新推出的Llama-3人工智能大模型,并畅谈Meta AI的未来发展。他认为Llama-3的推出对于Meta AI来说是向前迈出了一大步,将为其产品提供发展动力。随后,当被问到Meta为什么在2022年就大量购入英伟达H100芯片时,扎克伯格承认当时是为了训练新模型,改变社交服务方式,追赶TikTok。

扎克伯格在分享中着重提到了AI的开源问题,他是坚定的开源支持者,还从哲学层面分析为什么AI大模型应该开源。他认为,未来人工智能的集中化有可能像它的广泛传播一样危险,而解决的有效方法就是开源,开源会让AI软件更安全、更稳定,它会创造更多赢家。

最后,扎克伯格还提到了元宇宙和创新,他坦言自己喜欢创新,喜欢去构建新事物,并认为“如果我停止创新,我就完了”。

在这里插入图片描述

价值100亿美元的大模型,我们也愿意开源

精彩观点如下:

1.最小规模的Llama-3与最大规模的Llama-2一样强大。

2.如果其他公司在AI推理方面取得了良好的进展,而我们的AI还停留在只会简单聊天的阶段,那我们的产品就显得很蹩脚。

3.未来人工智能的集中化有可能像它的广泛传播一样危险。

4.我们不倾向于开源产品,更多的是开源一些基础设施。

5.人们总是存在争论,是否有足够的信心去构建新事物,但对我来说,如果停止创新,我就完了。

6.整个组织的能力在很大程度上受到首席执行官和管理团队监督能力的限制。

7.AI不可能一夜之间变得极其聪明,我们需要时间去适应一下。

以下为对话(有删减):

1为了追赶TikTok,大量购买英伟达GPU芯片

主持人:大家很关心你们推出的新大模型,可以介绍一下吗?其中有哪些新鲜和令人兴奋的事情?

扎克伯格我们正在推出Llama-3,将其作为开发社区的开源项目,我们相信它将为Meta AI的发展提供动力。围绕Llama-3,市场肯定会有各种讨论,但我认为最重要的是Meta AI是人们可以免费使用的最智能的AI助手。我们还整合了Google和Bing的搜索功能为用户提供实时信息,并将Meta AI在Facebook和Messenger等应用中置顶,用户可以在搜索框里提出任何问题。

这次我们还新增不少功能,其中有一个是生成动画,我觉得很棒,你可以拍摄任何图像并将其制作成动画,速度非常快,几乎可以实时更新。这项功能目前只在少数国家和地区推出了,不过未来几周或几个月内我们还会开展更多工作。

Llama-3的推出对于Meta AI来说是向前迈出了一大步。这次我们训练了三个版本:80亿参数、700亿参数和4050亿参数。我们会先发布其中一个版本,目前它们的规模处于领先地位,我们将发布一篇相关博客文章,以便人们可以自行查看,它是开源的,每个人都有机会使用它。我们制定了即将推出的新版本的路线图,这些版本将带来更多模式、更强语言性以及更大的上下文窗口。希望我们能在今年晚些时候推出4050亿参数的版本。就目前的训练情况而言,该模型已经达到85亿参数左右,我们预计它在一系列测试中处于领先地位。

更有趣的是,我们这次推出的80亿参数版本几乎与我们发布的最大规模的Llama-2一样强大。也就是说最小规模的Llama-3与最大规模的Llama-2一样强大

主持人:你们公司已经进行了很长时间的人工智能研究,现在AI也成为你公司的核心业务之一了,那你们打算何时打造AGI(通用人工智能),这会是Meta人工智能发展的首要任务吗?

扎克伯格:毫无疑问,这是一件大事,大约10年前我们就开始做这件事。我们的想法是在通向AGI的道路上,将会有不同的创新,这将改善我们所做的一切。我们并没有将AI视为一种产品,它更像是一个研究小组,过去10多年来,它创造了许多不同的东西,改进了我们所有的产品,推动了该领域的发展,并允许该领域的其他人创造出同样改进我们产品的东西。

随着ChatGPT和围绕图像创建的扩散模型问世,过去几年显然发生了很大的变化。这是一些非常疯狂的东西,显然会影响人们与现有应用程序的交互方式。那时,我们成立了第二个小组,即生成式AI的小组,目标是将这些科技成果引入我们的产品中,并想要构建领先的基础模型来为我们的产品发展提供动力。

我们正在做的很多事情都充满了社交属性,无论是应用程序、智能眼镜还是VR,都是帮助人们与创作者互动、与企业互动,为企业销售产品提供客户支持。一开始并没有清晰地意识到AGI能支持这些用例,但通过努力,我们正在不断向AGI靠近。例如当时我们开发Llama-2时,没有优先考虑编码,因为人们不会在WhatsApp(免费的即时通讯和视频通话应用程序)中向Meta AI问很多编码问题。但在过去18个月中我们发现了令人惊讶的结果,**编码在AI大模型中至关重要。**即使人们不问编码问题,对模型进行编码训练可以帮助它们在回答问题时更加严谨,还能对问题进行推理。所以对于Llama-3,我们开始专注于通过大量编码来训练它,即使人们不问与编码相关的问题,这也能使它在服务中可以做得更好。

再比如推理,当你想与创作者聊天或者与客户互动时,并不是简单的一问一答,这是一个复杂的、有多个步骤的互动。需要大模型去思考“我要如何实现这个人的目标”。很多时候客户并不一定能清楚地表达他们想要什么,AI的工作并不仅仅是回答问题,需要更全面地思考,这就需要较强的推理能力。换言之,如果其他公司在AI推理方面取得了良好进展,而我们的AI还停留在只会简单聊天的阶段,那我们的产品就显得很蹩脚。所以我们意识到必须做AGI,解决这些问题,并且加大了投资来确保我们能做到这一点。

主持人:你2022年就开始大量购买H100芯片了,这是一笔不小的开支,你怎么知道未来会需要这些GPU芯片呢?

扎克伯格:因为我们正在制作Reels(Instagram新增的一项功能,允许用户拍摄或上传3至15秒的视频,对其进行编辑、配音或添加效果),我们总是希望有足够的能力来建造一些目前还看不到的东西。在制作Reels时我们需要很多GPU来训练模型。当时我们的社交媒体服务形式发生了重大变化,我们开始向用户推荐他们关注列表之外的内容,这种模式意味着我们的候选内容语料库已从数千个扩展到数亿个,这需要一个完全不同的基础设施,而我们当时没有,所以没办法尽快赶上TikTok的步伐。必须确保之后不会再遇到这种情况,因此我们订购了足够的GPU来执行我们需要在Reels上进行的工作。

当时我认为这种大模型的训练方式与内容有关,虽然还不太清晰,但觉得总会有用得上的地方,这也是与经营公司的模式相匹配。当时我们非常努力地推出Reels和其他产品,这对Instagram和Facebook来说是一个巨大的转变,能够向人们展示他们感兴趣的内容,这些内容很大一部分来自他们没有关注的人。现在回想起来,这是一个非常明智的决定。事实上,大多数时候我们做的一些最终看起来不错的决定,是因为之前我们把事情搞砸了,只是不想重复这个错误,绕过这个错误反而到达了新的方向。

2

为什么支持开源大模型

主持人未来几十年人工智能会发生什么

扎克伯格人类将会获得新的应用程序,这种创新带来的感觉更像是人类从没有电脑到拥有电脑时的感受。很难确切地推断出这种情况何时会发生,单从时间维度看,或许几十年就能实现,但AI不可能一夜之间变得极其聪明,我们需要时间去适应一下。不过毫无疑问的是,AI确实会改变我们的工作方式,为人类提供创意工具。

主持人:当你训练Llama-5或Llama-4时,发生什么会让你犹豫要不要开源它?

扎克伯格:现在回答这个问题还有点难,因为任何产品都可能带有负面影响,我们只能努力减轻它,就像我们一直在努力减轻社交媒体带来的不良影响一样。Llama-2也有不好的地方,我们花了很多时间来研究如何确保它不会帮助人们实施暴力行为或类似不好的事情。我认为问题并不是它会表现出什么行为,而是在它表现出这种行为之后我们无法解决它带来的负面影响。

事物的好坏有很多种,很难一一列举。目前我们从社交媒体中了解了19类会产生危害的情形,已经构建了人工智能系统来识别这些事情是什么,尽可能确保在我们社交网络上不会发生这些不好的事情。以后我们会研究出更多有害事件的分类方法,尽可能控制技术发展带来的不良影响。

主持人:如果未来人工智能系统没有得到广泛应用,我会感到失望,所以我想了解一下缓解减轻不良影响的具体措施是什么?

扎克伯格我认为开源是一项有效的措施。我支持开源还有一层哲学逻辑,未来人工智能的集中化有可能像它的广泛传播一样危险。**对于一个机构来说,拥有比其他人更强大的人工智能或许更可怕。我想到了一个安全类比,许多事物都存在安全漏洞,如果你比别人多了解一些安全漏洞,就可以入侵对方系统。相信一个非常聪明的人工智能能够识别一些漏洞,那如果它像人一样去入侵系统产生危害,那我们人类该如何去处理这个问题呢?

我想其中一个有效的方式就是开源人工智能模型,**当对人工智能模型进行改进时,它不会仅仅停留在一家公司的产品中,而是可以广泛部署到不同的系统,这样可以让该模型变得更安全、更稳定。**因为随着越来越多的人可以看到它、使用它,那它的工作模式就会逐渐标准化,所有依托于这个人工智能系统的软件都将在某种程度上受到控制,这是一个更健康的状态,有利于塑造更公平的竞争环境。

主持人:如果你们开发的大模型价值100亿美元,还能接受其他人对你们的模型进行微调吗?你们愿意开源价值100亿美元的模型吗?

扎克伯格:**只要开源对我们有利,就会去做这件事情。我们一直致力于开源软件,不过我们不倾向于开源产品,更多的是开源一些基础设施,比如我们不会开源Instagram的代码,但会开放Llama大模型。我们历史上最大的开源项目可能是开放计算机,我们对所有服务器、网络交换机和数据中心进行了设计,并将其开源,使得它变得非常有用。尽管很多人都可以设计服务器,但行业现在已经对我们的设计进行了标准化,这意味着供应链基本上都是围绕我们的设计构建的,所以我们的销量增加了,节省了很多成本。所以开源总的来说是利大于弊的,人们可以更便宜地使用大模型,虽然我们将在这些AI基础设施上花费数十亿、数千亿美元甚至更多,但如果我们能够提高10%的生产效率,就可以节省数十亿或数百亿美元,这本身就很有价值。特别是还要与其他大模型竞争,我们并不会放弃在这一领域拥有的独特优势。

主持人:那你觉得培训怎么使用大模型开发产品会被商品化吗?

扎克伯格“商品”意味着它会变得非常便宜,会有更多选择。我觉得移动生态系统普遍糟糕的一件事是苹果和谷歌这两家“看门人”公司会限制你构建什么,有很多次我们的应用推出或想要推出某一功能时,苹果的反应就是“你不会或不能推出这个”。这种感觉太糟糕了,我们是否已经为这样的人工智能世界做好了准备?会出现一些运行封闭模型的公司,这些公司将控制API,告诉你可以构建什么?我们必须自己建立一个大模型来确保我们在行业中的地位,我不希望任何其他公司告诉我们可以建造什么。

主持人:**你是否希望通过将你的模型授权给云服务商来获得可观的收入?

扎克伯格:我们希望有这样的安排。这基本上就是我们对Llama的许可。在很多方面,它都是一个非常宽松的开源许可证,除了对使用它的巨头公司有限制。我们希望这些巨头公司在使用我们的模型去赚钱时,能够与我们商谈,比如微软或亚马逊等大型云服务商,我们应该从中获得一些收入分成

因此,对于Llama-2,我们基本上与所有主要云公司都有交易。随着我们发布更大的模型,合作的规模还会进一步扩大。虽然这不是我们开源模型的主要目的,但如果这些公司要销售我们的模型,那我们应该以某种方式获得其带来的收益。

主持人:Llama系列模型什么时候可以在您自己的定制芯片上进行训练?

扎克伯格很快,或许Llama-4就能用上。我们采取的方法是首先构建自定义芯片,可以处理我们的排名和推荐内容的推理,例如滚动消息、动态广告等,这会消耗大量GPU,我们现在只能用昂贵的英伟达GPU进行训练。我们希望能拥有自己的定制芯片,然后先用它来训练一些简单的东西,最终也会实现用它来训练大型AI模型的目标。这个计划进展顺利,我们有一个长期路线图,会有条不紊地推出它。

3

元宇宙和创新

主持人:让我们来探讨一下元宇宙,你对人类历史上的哪个时期最感兴趣?在元宇宙中你想回到哪个时代?

扎克伯格:我对美国历史和古典历史非常感兴趣,我对科学史也很感兴趣。事实上,看到并尝试更多地了解一些重大进步是如何产生的会很有趣。其实我们目前所拥有著作在某种程度上是极其有限的,我不太确定在元宇宙中是否会允许你回到没有记录的时代。以后元宇宙或许对上历史课很有帮助,但这不是我最感兴趣的用例。我的想法是,无论身在何处,都能感受到与人在一起的感觉。

在我们正在进行的人工智能对话中,大部分内容都是关于所有这一切背后的物理限制。我认为技术的一个教训是,希望尽可能地将事物从物理约束领域转移到软件中,因为软件更容易构建和发展。或许不是每个人都会拥有数据中心,但很多人都可以获取开源代码并对其进行修改。当元宇宙实现了对现实世界的数字化构建,肯定会带来改变,人们或许不会再觉得他们必须一起做很多事情。总的来说,我认为元宇宙对社交、工作等很多事情产生重要影响。

主持人:你曾经有机会以10亿美元的价格卖掉公司,但你没有选择这么做,特别是当时市场并不看好元宇宙,我很好奇为什么你坚持发展元宇宙呢?

扎克伯格:我很喜欢创新,特别喜欢围绕人们如何沟通、如何表达自己以及如何工作来构建新事物。大学时我学习了计算机科学和心理学两门课程,这两门学科交织在一起,赋予我了一种非常深刻的驱动力。从本质上讲,如果我不构建新的东西,我就是在做错事。当我们在整理投资1000亿美元人工智能或元宇宙中巨额资金的商业案例时,我们制定了计划,这些计划已经非常清楚地表明,如果我们的产品有效,这将是一笔不错的投资。人们总是存在争论,是否有足够的信心去构建新事物,但对我来说,如果我停止创新,我就完了

**主持人:我还对你的一些事情感到好奇,19岁的马克在高中和大学时读过很多古代文学的经典著作,你从中学到了什么重要的教训?

扎克伯格:有一件我觉得很有意思的事情,奥古斯都(罗马帝国的开国君主)成为皇帝时试图建立和平,但当时并没有真正的和平概念,人们理解的和平是与敌人不可避免要发生战争时短暂的休息阶段。他的观点是,要把经济从唯利是图转变为对双方都有利的正和游戏。这在当时是一个非常新颖的想法,是当时人们所能想到的理性工作方式的界限。这同样也适用于元宇宙和人工智能的发展。**很多投资者和用户无法理解我们为什么要开源,我认为这在科技领域有着深刻意义,这实际上创造了很多赢家。有些模型可以用来构建人们常常无法理解的东西,他们无法理解这对人们来说是一件有价值的事情。

主持人:奥古斯都也是在19岁时完成了统一大业,非常年轻,我想你当时也是19岁看到他的故事,会不会也产生你在19岁想有一番作为的想法?

扎克伯格:我最喜欢的名言之一是毕加索曾说过的:“所有孩子都是艺术家,面对的挑战是在成长过程中保持艺术家的身份。”当你年轻时,更容易产生疯狂的想法,在你的生活和事业中,都存在着与创新者困境类似的困难。当你处于发展的早期阶段,会更容易转变和接受新想法。我认为这是经营公司的一个有趣的部分:如何保持活力,如何持续创新

主持人:当谷歌推出大模型Gemini时,你们对此有什么想法?

扎克伯格:对大部分公司来说,当你还是一家初创公司的时候,可能会受到更多的资金限制,但当你只是在研究一个想法,虽然没有资源,但在某些时候,会跨越你正在做的事情的某个阈值,接下来就能通过它们创造更多价值。总有这样的情况,组织中会发生一些随机的令人惊奇的事情,而我甚至都不知道,那些都很棒。总的来说,组织的能力在很大程度上受到首席执行官和管理团队监督能力的限制,这是我们需要关注的重点。正如风投家本·霍洛维茨(Ben Horowitz)所说:要把主要的事情放在首位,努力专注于那些关键优先事项。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 20
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值