一、大模型是什么?
1、大模型定义
大模型本质上是一个使用海量数据训练而成的深度神经网络模型,通过巨大的数据和参数规模实现了智能的涌现,展现出类似人类的智能(例如,自然语言处理、计算机视觉、语音识别等能力)。如下图所示,模型参数从2022年飞速提升,从百亿到十万亿的参数量,并且大部分是稠密型的dense类特征。要训练如此庞大的模型,需要海量的数据和算力(Money is all u need)。这也是近几年英伟达迅猛发展的主要原因,未来的算力将成为类似水电等基建。目前的大模型主要包括语言大模型、视觉大模型和多模态大模型。
2、AIGC是什么
AIGC是人工智能图形计算的缩写,是一种基于图形处理器(GPU)的计算技术,可以加速各种计算任务,包括机器学习、深度学习、计算机视觉等。
AIGC是一种基于GPU的计算技术,它利用GPU的并行计算能力来加速各种计算任务。GPU是一种专门设计用于图形处理的处理器,它可以同时处理大量的数据,因此被广泛应用于游戏、视频处理等领域。而AIGC则是将GPU的并行计算能力应用于人工智能领域,可以加速各种计算任务,包括机器学习、深度学习、计算机视觉等。
AIGC的优势在于它可以大幅提高计算速度,使得原本需要数小时甚至数天才能完成的计算任务,现在只需要几分钟或几秒钟就能完成。这对于研究人员和开发者来说是非常有价值的,因为它可以大幅提高他们的工作效率,同时也可以让他们更快地得到结果。
AI生成内容(AIGC,人工智能生成内容)是一种新型的内容创作方式,它继承了专业生产内容(PGC,Professional-generated Content)和用户生成内容(UGC,User-generated Content)的优点,并充分发挥技术优势,打造了全新的数字内容生成与交互形态。随着科技的不断发展,AI写作、AI配乐、AI视频生成、AI语音合成以及最近非常热门的AI绘画等技术在创作领域引起了广泛讨论。
3、AGI是什么
是Artificial General Intelligence的缩写,中文应该是“通用人工智能”,是指一种能够像人类一样思考、学习和执行多种任务的人工智能系统。
4、大模型与过往AI区别——范式突破
- 过往ML:需要“喂”,之后“模仿”,基于的是“对应关系”;
- 大模型:需要“教”,之后“懂”,基于的是“内在逻辑”;
(1)过往机器学习的范式 – 鹦鹉学舌
机器学习,包括深度学习,所遵循的范式是“data fitting”,即找到数据中的“对应关系”并应用。具体来说,就是Y=f(X),给定一些优化目标,机器学习寻找X和Y的对应关系,来优化一个特定的方程。对应关系找得好,让我们在见到一个未知的X‘的时候,也能根据规律,总结出Y‘是什么,能最好达到设定的目标。
从信息论的角度,这样的范式,所能总结的规律,应该是在“已有X所包含信息的范畴之内”。换句话说,遇到一个新的X‘,虽然没见过,但是应该和过去的X长得差不多。用图像识别举例,如果模型只在小狗小猫的数据上训练过,是无法区分马车和汽车的。
由此可见。过往AI应用的拓展主要是来自几点:
-
高质量的数据,模型的发展,算力的提升,让模型越来越准、快、和发现更多更深的“对应关系”,能进行更好的优化;
-
更好地把商业问题转化为优化问题;
-
和其他能力的深度结合;
但是这些都是基于“鹦鹉学舌”这一范式的。过往的NLP(natural language processing,自然语言处理)就是一个很好的例子。发展了那么多年,语音助手能根据指令来达成一些目标,但是从来都没有真的“懂”那些指令。过往的NLP只能做“填表”,必须背后有一个人设定好具体的任务,规划好如何把语音或者文字形成固定的function,该function如何调用相应的能力。如果没有人提前规划,那模型就无法实现。
-
亚马逊Alexa的思路和大多数商业语音助手的思路就是招一群程序员来写if then,高情商说法是针对具体使用场景做深度优化。这里有总结。[9]
-
谷歌的思路是用一个大模型做底座,一堆小模型做输入,另一堆小模型做输出。这条路也遇到明显瓶颈。
归根结底,离开了“懂”的能力,鹦鹉的设计师,是很难穷尽世界上所有的语言应用组合的。说这么多,是为了告诉大家,“懂”这件事,是过往AI梦寐以求都想突破的瓶颈。
“懂”字,如果深究的话,会发现大家对它的定义其实存在很大分歧。我如果让狗狗伸手,狗狗伸手了,是“懂”吗?过去NLP的懂和ChatGPT的懂,又有什么区别呢?同样的问题存在其他词汇中,比如理解、推理、演绎、创新,等等。所以想要真的抓住ChatGPT新能力的本质,描述就要更加精确和具体。
②大模型可能的新范式 – 乌鸦
总结一下,城市中的乌鸦通过观察,自主串通了:
-
汽车能压碎坚果;
-
红绿灯能控制汽车;
-
车能撞死我;
这三件事情,从而利用红绿灯和汽车,来帮自己达到“安全打开坚果”这一任务结果。如果类比成机器学习模型,过往“鹦鹉学舌”范式的解法,是要求所有乌鸦可以共享一个大脑,它们有很清晰的优化目标,即“保住性命的前提下打开坚果”。它们的方式是,随机尝试所有事件的组合,并向着最优解的方向不断演化。
但现实世界的乌鸦无法共享大脑,也不能去冒着死亡风险去尝试所有可能。乌鸦只有一次机会,把观测到的两个现象,产生了一个新的可能性,并应用在一个全新的场景下。这里最接近的词汇可能是“inference”,是“基于证据和逻辑推演,得到结论”的过程,有的时候,还要加入很多猜测、抽象、泛化。举个例子,这篇文章把朱教授对于乌鸦的比喻,跟ChatGPT最本质的能力联系起来,就是在做inferencing这件事。
但很明显,inferencing不是乌鸦智能的全部。而且在机器学习领域里,inferencing特指使用训练好的深度学习模型来预测新的数据这一件事,会产生误解。其他词汇也有类似问题,所以我们在自己文章里,会直接使用“乌鸦能力”来指代ChatGPT的新能力。在对外交流时,我们没办法每次都把乌鸦能力是什么解释一遍,所以我们会用“理解”能力来进行指代。从“乌鸦”到“理解”,当然是一个信息量损失很大的过度概括。但是好处是可以把ChatGPT的本质能力凸显出来。过往互联网的两次能力跃进一次来自于搜索,一次来自于推荐,现在ChatGPT带来了“理解”,也非常有结构感。
二、大模型能做什么?
1、语义向量产生的AI能力
大模型最基础的能力基本都是通过语义向量完成的。语义向量(word vector)是一种用数学方式表示词语、短语或文本语义含义的技术 。它可以将语言中的语义信息编码为固定维度的数值向量,便于计算机处理和分析。有如下性质:
-
语义相近的词语,其向量在空间中距离较近。通过余弦相似度等方法可计算向量间的语义相似度.
-
语义向量支持加减乘除等数学运算。例如"king - man + woman ≈ queen"这样的类比推理。
-
语义向量的映射:语义/内容理解(上下文和世界知识)、情感分析
-
语义向量的距离计算:近义词判断、分类聚类
-
语义向量的截取:信息抽取、实体识别
-
语义向量的转换:文生图/视频(跨模态)、翻译(跨语种)、古文&诗词翻译(跨文体)、风格改写(跨文风)
-
语义向量的缩放:文本扩展、概括
-
语义向量的延伸递进:问答(明确方向的延伸)、评价/对话(模糊方向的延伸)、推理(模糊方向的节点递进/路径搜索)
从向量操作的角度理解大模型完成任务的难度:
向量映射 < 距离计算 < 向量截取 < 向量转换 < 向量缩放 < 延伸递进
这是从向量空间角度的粗粒度划分难度,但实际还是有些特例,比如:
-
向量缩放的文本扩展,如果需要输出有创意的长文本,比如小说,也会因输出过长,而导致上下文遗忘和错误累加,影响文本连贯性,难度非常高。但概括只需要理解大意并总结输出,相对容易。
-
向量转换中的跨模态,由于需要不同模型的表征空间对齐,对数据和模型能力要求都很高,对目前的模型来说难度同样很大。
-
向量延伸递进中的问答,如果是简单的知识检索回答(不需要多步推理),对大模型的难度很小,因为很符合训练数据和目标。
2、大模型能力
大模型除了开放世界的理解能力之外,还具有很多其他能力特性,在领域应用中尤为值得关注:
①组合创新能力
通过在训练阶段引导大模型学习多个不同任务,从而可以让大模型组合创造出解决更多复合任务的能力。例如,我们可以让大模型根据李清照的诗词风格写一个Python代码的注释,这要求它既具备写诗的能力,又具备编写代码的能力。大模型通过对指令学习的结果进行组合泛化,模拟了人类举一反三的能力,从而让机器能够胜任一些从未学习过的新任务。
②评估评价能力
通用大模型具有出色的。具有一定规模的大模型(特别是百亿以上的大模型)在常见的文本任务结果评估方面具有优良性能。传统的文本任务,其结果评估工作往往需要人工参与,耗费昂贵的人力成本。而现在,我们可以利用大模型进行很多评估任务。例如,我们可以让大模型扮演一个翻译专家的角色,对翻译质量进行评估。通过设计合理的评价标准、给出有效的评分示例、给出翻译专家评价过程思维链,巨型大模型(比如GPT4)是能够出色的完成诸如习语翻译这类非常专业的评价工作。大模型的评价能力能够显著领域任务中的人工评价的成本,从而显著降低领域智能化解决的方案的落地成本。
③复杂指令理解及其执行能力
复杂指令理解及其执行能力是大模型的核心特点之一。只需给予大模型详细的指令,清晰表达任务约束或规范,超大模型就能够按指令要求地完成任务。这种忠实于指令要求的能力与大模型的情境化生成能力高度相关。给定合理提示,且提示越是丰富、细致,大模型往往越能生成高质量内容。大模型的情景化生成能力刷新了我们对智能本质的认识,传统关联认为智能是人类的知识发现和应用能力。这类定义是从人类视角出发,知识是人类认知世界的产物。而从大模型的角度来看,只要在给予的情境提示做出合理生成,就是一种智能。这种情景化生成能力本质上体现了一种建模世界的能力,且无关于人类对于世界的认知方式。
④复杂任务的分解能力和规划能力
复杂任务的分解能力和规划能力是大模型的另一项优势。它可以将复杂任务分解为多个步骤,并合理规划任务的执行顺序。这为垂域应用提供了重要的机会,使得大模型能够与传统信息系统协同工作,将传统IT系统中数据库、知识库、办公自动化系统、代码库等众多系统高效协同,完成以往传统智能系统难以胜任的复杂决策任务,从而提升整个信息系统的智能水平。
⑤符号推理能力
此外,大模型还具备符号推理能力,可以进行常识推理、以及一定程度的逻辑推理、数值推理。虽然这些推理能力在面对复杂的领域文本任务时仍需进一步提升其专业水平。此外,价值观对齐能力也是大模型落地的重要特性,以确保大模型的输出与我们人类谁的伦理道德、意识形态、价值观念相一致。
⑥上下文/小样本学习
能够从指令提供的小样本中学习到专项任务下的注意力权重,效果类似于隐式微调。简单理解:给模型打了个样,于是模型学会了照葫芦画瓢。
3、大模型在业务中切入点的思考
-
拆解日常工作流,识别人力耗费多的重复性工作环节。
-
从业务现状出发,列举业务中当前技术做不好的功能和环节。
-
从业务需求出发,抽象出对能力的要求,评估是否可用大模型实现。
案例:
1、从世界知识和推理能力思考,可以对推荐系统做数据增强,比如特征方面,可以基于用户行为和物品特点用“常识”推理出偏好,而不仅是从类目频次统计和item的embedding聚合来刻画用户偏好。还有在样本纠偏和补充方面也可以做很多工作,都会有额外的信息价值。
2、从多模态生成能力思考,可以智能生成商品图片和视频等,帮助用户有更全面的感知,降低决策成本。
3、从对话问答能力思考,可以给用户答疑解惑,比如智能客服机器人。
大模型感觉用不好,主要是在于没有很好地结合大模型能力,在工作流中找到合适的切入点。工作流中不同环节依赖能力不同,所有环节都给大模型做是不切实际的,但大概率有模型能力可以覆盖的环节,这就是切入点。
所以在应用时,业务层面需要抽象,拆清楚工作流,每个环节需要什么能力。模型知识层面,需要了解模型具备哪些能力,以及通过哪些方式优化。最终结合业务和模型,找到适合切入点。
还有一点感想,在设计大模型的工作流时,大模型很多时候是替代“人”的角色,而不是代码的角色。基于代码思维的一些设计,很多时候是“委曲求全”,并没有真正拟合人的能力和流程。从人是怎么完成任务的角度来设计流程和方案,或许更适合大模型。
4、大模型写代码的思考
在与 大模型一起完成代码功能时,我们需要通过上下文信息补充,指导 大模型 生成更接近我们所需的代码。这个过程中,具体的程序编写是由 大模型 完成的,而要做什么、怎么做则是由人来指定的。
软件工程不仅仅是编写代码。写代码在软件开发中只占很小的比例,甚至还不是最困难的根本复杂度。实际上,软件工程还涉及问题解决、需求分析、系统设计、测试和维护等方面。
有效编码的前提是,所需的知识已经被有效地获取了。知识先存在于大脑中,然后才能体现在软件里。如果所有的知识都已经被掌握,那么编码也不会花费太多的气力。
对于普通的开发人员来说,通过会议反复确认需求、构思正确的解决方案、查找文档、百度寻求问题解答、通过调试理解存在于代码中的逻辑构成了开发工作的主要内容。与之相比,真正编码的时间反而不会太多。而对于高水平的程序员而言,在写代码之前,80% 的代码都已经在头脑中构思好了。敲出来,也不过是一种必须的负担而已。所以写代码从来都不是软件开发的核心部分。
但编码的确是一个琐碎且繁杂的活动,它甚至掩盖了我们工作中最有价值的部分:获取、学习并传递知识。LLM 正在改变软件开发的面貌,它们可以自动化一些编码工作,它们将使软件工程师能够更多地专注于复杂问题的解决和创新,专注于更有价值的部分。
那么,如何系统的去学习大模型LLM?
作为一名从业五年的资深大模型算法工程师,我经常会收到一些评论和私信,我是小白,学习大模型该从哪里入手呢?我自学没有方向怎么办?这个地方我不会啊。如果你也有类似的经历,一定要继续看下去!这些问题啊,也不是三言两语啊就能讲明白的。
所以我综合了大模型的所有知识点,给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢,我就曾放空大脑,以一个大模型小白的角度去重新解析它,采用基础知识和实战项目相结合的教学方式,历时3个月,终于完成了这样的课程,让你真正体会到什么是每一秒都在疯狂输出知识点。
由于篇幅有限,⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》,扫码获取~
👉大模型学习指南+路线汇总👈
我们这套大模型资料呢,会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
👉①.基础篇👈
基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程,带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念,用最易懂的方式带你入门大模型。
👉②.进阶篇👈
接下来是进阶篇,你将掌握RAG、Agent、Langchain、大模型微调和私有化部署,学习如何构建外挂知识库并和自己的企业相结合,学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
👉③.实战篇👈
实战篇会手把手带着大家练习企业级的落地项目(已脱敏),比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等,从而帮助大家更好的应对大模型时代的挑战。
👉④.福利篇👈
最后呢,会给大家一个小福利,课程视频中的所有素材,有搭建AI开发环境资料包,还有学习计划表,几十上百G素材、电子书和课件等等,只要你能想到的素材,我这里几乎都有。我已经全部上传到CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
相信我,这套大模型系统教程将会是全网最齐全 最易懂的小白专用课!!