惊!大模型参数里藏着这些 “秘密武器”

在这里插入图片描述
你搞明白了这些大模型的参数意思了吗?

场景:办公室茶水间,小李和老张正准备冲咖啡

小李:“老张,你最近上网没?现在大模型可火了,到处都是相关消息,什么 GPT、文心一言,还有一堆奇奇怪怪的参数,看得我一头雾水。”

老张:“嗨,这你就不知道了吧!我最近研究了一下,这里面学问可大了。就说这些大模型啊,它们可不是一个模子里刻出来的,种类多着呢,那些参数也都有各自的门道。”

小李:“真的吗?快给我讲讲,我正想了解呢,以后和别人聊天也能显摆显摆。”

老张:“行嘞,那今天我就给你好好科普科普,让你也变成大模型小专家。”

大模型的发展历程

老张:“你知道不,人工智能的发展那可是经历了好几个阶段。早在 1956 年,计算机专家约翰・麦卡锡提出了‘人工智能’这个概念,从那时候起,AI 就开始慢慢发展起来了。最开始它是基于小规模专家知识的,后来逐渐发展成基于机器学习。1980 年,卷积神经网络的雏形 CNN 诞生了,这就像是一颗小小的种子,为后来的发展奠定了基础。1998 年,现代卷积神经网络的基本结构 LeNet - 5 诞生,机器学习方法就从早期基于浅层机器学习的模型,变成了基于深度学习的模型,这对自然语言生成、计算机视觉等领域的深入研究意义重大,就像是为这些领域打开了一扇新的大门。这个阶段可以说是大模型发展的萌芽期,是以 CNN 为代表的传统神经网络模型阶段。”

小李:“哇,没想到发展历程这么复杂,那后来呢?”

老张:“到了 2006 年 - 2019 年,这是大模型发展的沉淀期,是以 Transformer 为代表的全新神经网络模型阶段。2013 年,自然语言处理模型 Word2Vec 诞生了,它首次提出将单词转换为向量的‘词向量模型’,这就好比给计算机配上了一副特殊的‘眼镜’,让它能更好地理解和处理文本数据。2014 年,GAN(对抗式生成网络)诞生了,这被誉为 21 世纪最强大算法模型之一,它的出现标志着深度学习进入了生成模型研究的新阶段,就像是在深度学习的领域里开辟出了一条新的道路。2017 年,Google 提出了基于自注意力机制的神经网络结构 ——Transformer 架构,这可太重要了,它奠定了大模型预训练算法架构的基础,就像是为大模型搭建了一个坚固的框架。2018 年,OpenAI 和 Google 分别发布了 GPT - 1 与 BERT 大模型,从这时候起,预训练大模型就开始成为自然语言处理领域的主流了。”

小李:“听着确实很厉害,感觉大模型就是这几年突然火起来的。”

老张:“没错,2020 年 - 2023 年,那就是大模型发展的爆发期啦,是以 GPT 为代表的预训练大模型阶段。2020 年,OpenAI 公司推出了 GPT - 3,模型参数规模达到了 1750 亿,这在当时简直就是巨无霸一样的存在,而且它在零样本学习任务上实现了巨大性能提升,就像是突然解锁了一项超能力。随后,各种策略如基于人类反馈的强化学习(RHLF)、代码预训练、指令微调等开始出现,都是为了进一步提高大模型的推理能力和任务泛化能力。2022 年 11 月,搭载了 GPT3.5 的 ChatGPT 横空出世,它凭借逼真的自然语言交互与多场景内容生成能力,迅速引爆了互联网,就像是一颗炸弹在科技圈里爆炸了一样。从那以后,Gemini、文心一言、Copilot、LLaMA、SAM、SORA 等各种大模型就像雨后春笋一样,一个接一个地冒出来,2022 年也被誉为大模型元年。2023 年 3 月,超大规模多模态预训练大模型 ——GPT - 4 发布了,它具备了多模态理解与多类型内容生成能力,变得更加强大了。”

小李:“看来大模型的发展真是日新月异啊。”

老张:“对呀,2024 年 1 月,AI 大模型应用在加速落地,国家互联网信息办公室公开发布第三批境内深度合成服务算法备案清单,129 款算法获备案。2024 年,谷歌 DeepMind 团队和斯坦福大学研究人员开发的搜索增强事实评估器(Search - Augmented Factuality Evaluator,SAFE),可通过大型语言模型分解聊天机器人生成的文本,再分别核查其中所涉及的事实信息准确性。大模型的发展可谓是不断给我们带来新的惊喜和变化。”

大模型的类型区分

小李:“那老张,这些大模型都有哪些类型啊?”

老张:“这类型可多了,先说对话大模型吧,顾名思义,就是专门用来和人聊天对话的。你看 ChatGPT,它就像一个特别健谈而且知识渊博的朋友,你可以和它聊各种话题,从生活琐事到科学难题,从历史文化到未来幻想,它都能接上话,而且回答得还挺像那么回事儿。它能理解你说的话,然后根据自己学到的知识和算法,生成一段合适的回复。比如说你问它:‘明天天气怎么样?’它可能就会根据它所获取到的天气数据信息,给你一个大概的天气情况预测。又或者你问它:‘给我讲个笑话吧。’它就会从它那海量的笑话库里,挑出一个讲给你听。这种对话大模型在客服领域应用可广泛了,很多公司都用它来做智能客服,能快速回答客户的问题,提高服务效率。”

小李:“这个挺有意思,那生图大模型呢?”

老张:“生图大模型可就厉害了,它能根据你给出的一些描述,生成对应的图片。比如说你告诉它:‘给我生成一幅蓝天白云下,有一片美丽草原,草原上还有一群羊的图片。’过一会儿,它就能给你生成出一幅符合你描述的图片。像 Midjourney、StableDiffusion 这些就是很有名的生图大模型。它们在设计领域特别受欢迎,设计师们可以用它们来快速生成一些设计灵感图,或者一些概念图。比如说做一个游戏场景设计,设计师就可以先用生图大模型生成一些大概的场景图,然后再根据这些图进行细化和完善,能节省不少时间和精力呢。”

小李:“哇,还有这么神奇的。那视频大模型又是什么情况?”

老张:“视频大模型呢,主要是用来处理视频相关的任务。它可以根据一些文本描述生成视频,也可以对已有的视频进行编辑、特效添加等操作。比如你输入一段文字:‘一个超级英雄在城市中飞翔,拯救市民的视频。’视频大模型就有可能给你生成一段这样的视频片段。虽然目前生成的视频质量和效果可能还不是特别完美,但是发展潜力巨大。在影视制作领域,以后说不定导演们可以用视频大模型快速生成一些分镜头脚本的视频小样,方便他们更好地规划拍摄内容。”

小李:“那语音大模型呢,是和语音有关吗?”

老张:“没错,语音大模型主要和语音打交道。它可以实现语音识别,就是把你说的话转换成文字;也能进行语音合成,把文字变成语音读出来。像科大讯飞的一些语音大模型,在语音识别方面就做得很不错。在一些语音助手应用中,语音大模型就发挥着重要作用。你对着手机说:‘帮我查一下明天去北京的航班。’语音助手通过语音大模型识别你的语音,然后转换成文字,再去查询相关信息,最后又通过语音大模型把查询结果用语音的方式告诉你。在一些有声读物制作、智能客服语音交互等场景中,语音大模型都有着广泛的应用。”

小李:“那嵌入大模型和重排序大模型呢,感觉这两个名字有点抽象。”

老张:“嵌入大模型可能相对来说比较抽象一点。它的作用是把一些数据,比如文本、图像、音频等,转换成一种特殊的向量表示,这些向量包含了数据的一些关键特征信息。比如说对于一段文本,嵌入大模型可以把它转换成一个向量,这个向量能反映出这段文本的主题、情感倾向等信息。在信息检索领域,嵌入大模型就很有用。比如说你在一个文档库里搜索关于‘人工智能发展’的文档,嵌入大模型可以把文档库里的每一篇文档都转换成向量,也把你的搜索关键词转换成向量,然后通过计算向量之间的相似度,快速找到和你搜索内容最相关的文档。重排序大模型通常是在已经有了一些初步的结果之后,对这些结果进行重新排序。比如说在搜索引擎中,一开始可能根据一些简单的算法,找到了很多和你搜索关键词相关的网页,但是这些网页的排序可能不是特别合理。这时候重排序大模型就可以根据一些更复杂的因素,比如网页的相关性、权威性、用户的点击历史等,对这些网页进行重新排序,把最符合你需求的网页排在前面。在电商平台的商品搜索结果排序中,重排序大模型也经常被用到,它可以根据商品的销量、评价、价格等因素,对搜索出来的商品进行重新排序,让用户更容易找到自己想要的商品。”

大模型的标签含义

小李:“听你这么一说,大模型的类型确实丰富。那老张,我看还有什么视觉、Tools、FIM、Math、Coder、可微调这些标签,都是啥意思啊?”

老张:“带有视觉标签的大模型,主要是处理和视觉相关的任务,像图像识别、物体检测、图像生成等。比如说一个有视觉标签的大模型,它可以识别出一张图片里有什么物体,是猫、狗,还是汽车、房子。在安防监控领域,视觉大模型可以实时监测监控画面,一旦发现有异常物体出现,比如有人闯入禁区,就可以及时发出警报。在自动驾驶领域,视觉大模型对于汽车识别道路上的各种标识、行人、其他车辆等起着关键作用,帮助汽车做出正确的行驶决策。有 Tools 标签的大模型,意味着它可以和各种外部工具进行交互和整合。比如说它可以调用搜索引擎来获取最新的信息,或者调用计算器进行复杂的数学计算,还能调用翻译工具进行语言翻译。以办公场景为例,带有 Tools 标签的大模型在处理文档时,如果遇到一个需要查询最新资料的问题,它就可以自动调用搜索引擎,获取相关信息并整合到文档中。又比如在做一些数据分析报告时,它可以调用专业的数据分析工具,对数据进行处理和分析,然后生成报告内容,大大提高工作效率。”

小李:“有点明白了,那 FIM 标签呢?”

老张:“FIM(Fill - in - the - Middle)标签的大模型,擅长处理文本填充任务。比如说给它一段不完整的文本,中间有一些缺失的部分,它可以根据上下文的语义,合理地把缺失的部分补充完整。比如文本‘我今天去了 [地点],买了一些 [物品]。’FIM 大模型就可以根据它对日常场景和语言习惯的理解,推测出合适的地点和物品,像‘我今天去了超市,买了一些水果。’在文本修复、自动补全句子等场景中,FIM 大模型能发挥很大作用。Math 标签表明这个大模型在数学方面有很强的能力。它可以解决各种数学问题,从简单的加减乘除到复杂的微积分、线性代数问题。比如你问它:‘345 + 567 等于多少?’它能快速给出正确答案。要是遇到更复杂的数学证明题,像‘证明勾股定理’,它也能按照数学逻辑,一步一步地给你进行推导和证明。在教育领域,Math 大模型可以作为学生学习数学的辅助工具,帮助他们解答数学难题;在科研领域,对于一些需要进行大量数学计算和推导的研究,Math 大模型也能提供有力支持。”

小李:“Coder 标签是不是和编程有关?”

老张:“你猜对了,Coder 标签的大模型是编程爱好者和开发者的好帮手。它可以根据你的需求生成代码,比如你告诉它:‘用 Python 写一个计算 1 到 100 之和的程序。’它就能马上给你生成相应的 Python 代码。它还能对代码进行解释、调试和优化。在软件开发过程中,Coder 大模型可以帮助开发者快速生成一些代码模板,提高开发效率,也能帮助新手程序员更好地理解代码逻辑,学习编程知识。可微调标签的大模型,就像是一个可塑性很强的‘学习能手’。它在经过大规模数据预训练之后,你还可以用自己特定领域的数据对它进行进一步的微调,让它更符合你的具体需求。比如说有一个通用的语言大模型,如果你是一家医疗公司,你可以用大量的医疗领域文本数据对这个大模型进行微调,这样微调后的模型在处理医疗相关的文本任务,比如病历分析、医学文献检索等方面,就会比原来的通用模型表现得更好。在很多行业,为了让大模型更好地服务于自己的业务,都会选择可微调的大模型,然后进行针对性的微调。”

大模型上下文的含义

小李:“老张,我还看到什么 8K、16K、32K、64K、128K 上下文,这又是什么意思啊?”

老张:“这里的 8K、16K、32K、64K、128K 指的是大模型能够处理的上下文长度,通常是以 token(一种文本处理中的基本单位,可以理解为一个词或者一个子词)为单位来衡量的。比如说 8K 上下文的大模型,它能够处理连续 8000 个左右 token 的文本信息。上下文长度就好像大模型的‘记忆长度’,上下文越长,它能考虑到的前文信息就越多,在处理一些需要前后文关联理解的任务时就更有优势。举个例子,如果你让一个 8K 上下文的大模型续写一个故事,它就能参考前面 8000 个左右 token 的故事内容来进行续写,这样续写出来的内容可能和前文的逻辑连贯性更好。而如果是一个 16K 上下文的大模型,它能参考的前文信息就更多,在处理长篇小说分析、复杂技术文档理解等任务时,可能会比 8K 上下文的大模型表现得更好。随着技术的发展,上下文长度越来越长的大模型不断出现,它们在处理复杂文本任务时的能力也越来越强。”

大模型规格的含义

小李:“那 MoE、10B、50B、100B、671B 等规格又代表什么呢?”

老张:“这里的 MoE 指的是混合专家模型(Mixture of Experts),它是一种特殊的模型架构。在这种架构下,模型就像一个由很多‘专家’组成的团队,每个‘专家’都擅长处理某一类特定的任务。当模型遇到一个输入时,它会根据输入的特点,自动选择最合适的‘专家’来进行处理,这样可以提高模型的效率和性能。比如说在处理自然语言时,有的‘专家’擅长处理语法问题,有的‘专家’擅长处理语义问题,MoE 模型就可以根据具体的文本情况,让对应的‘专家’发挥作用。而 10B、50B、100B、671B 这些数字,指的是模型的参数规模,也就是模型中可学习参数的数量,单位是十亿(Billion)。参数就像是模型的‘智慧结晶’,参数越多,模型能够学习和存储的知识就越多,理论上它的能力也就越强。比如 10B 参数规模的模型,就有 100 亿个可学习参数,而 671B 参数规模的模型,它的可学习参数数量就非常庞大了。一般来说,参数规模大的模型在各种任务上的表现往往会更好,但是训练这样的模型也需要更多的数据、更强的计算能力和更长的时间。就好像一个知识储备丰富的人,在解决各种问题时可能会更得心应手,但是要积累这么丰富的知识,也需要付出更多的努力和时间。”

大模型的应用领域

小李:“大模型这么厉害,那在实际生活中有哪些应用领域呢?”

老张:“在医疗领域,大模型可帮了大忙。比如说基于 AI 大模型的智能辅助诊断系统,它就像一个超级‘医生助手’。医生把患者的医学影像,像 X 光片、CT 片,还有病历数据输入到这个系统里,大模型就可以通过分析这些数据,辅助医生进行癌症诊断、肺炎诊断等复杂疾病的诊断。它能从影像中发现一些医生可能容易忽略的细微病变特征,还能综合病历里的各种信息,给出一个更全面准确的诊断建议。而且在药物研发方面,大模型也能发挥重要作用。研发新药需要进行大量的实验和研究,时间长、成本高。大模型可以通过模拟生物体内的化学反应,帮助科学家快速筛选出有潜力的药物分子,加速新药的研发过程。就好像在一个巨大的药物分子‘海洋’里,大模型能快速找到那些可能有效的‘珍珠’,大大提高了研发效率,也降低了研发成本。”

小李:“金融领域是不是也会用到大模型?”

老张:“没错,金融领域也离不开大模型。基于 AI 大模型的智能风控系统,就像一个时刻保持警惕的‘风险卫士’。它可以实时分析海量的金融数据,包括市场行情、交易记录、客户信用信息等等,通过这些数据来监测金融市场的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xiatian_win123

您的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值