Task01：引言-大模型基础-CSDN博客

本文链接：https://blog.csdn.net/yxg2012_04_06/article/details/135609570

本文概述了语言模型的发展，从自回归模型到神经网络和Transformer，讨论了它们在自然语言处理中的作用。着重分析了大型语言模型的潜力、风险，如可靠性、社会偏见、有害内容和法律问题，以及课程架构，包括模型行为、数据背后的问题、构建方法和未来挑战。

摘要由CSDN通过智能技术生成

1.1什么是语言模型
1.1.1语言模型定义：是一种对令牌序列（token）的概念分布。
1.1.2语⾔模型需要具备卓越的语⾔能⼒和世界知识，才能准确评估序列的概率。
1.1.3⾃回归语⾔模型(Autoregressive languagemodels)将序列的联合分布的常⻅写法是使⽤概率的链式法则
1.1.4退⽕条件概率分布通过将原始概率分布的每个元素都取幂1/T，然后重新标准化得到的新分布。
1.1.5总结：
语⾔模型是序列 x1:L 的概率分布 p。
直观上，⼀个好的语⾔模型应具有语⾔能⼒和世界知识。
⾃回归语⾔模型允许有效地⽣成给定提示 x1:i 的补全 xi+1:L。
温度可以⽤来控制⽣成中的变异量

1.2大模型的历史
1.2.1熵用户度量概率分布的。
1.2.2英语的熵感兴趣，将其表示为⼀系列的字⺟.
1.2.3交叉熵:H(p,q)=∑xp(x)log1q(x)
1.2.4⽤于下游应⽤的N-gram模型,语⾔模型⾸先被⽤于需要⽣成⽂本的实践应⽤：语⾳识别,机器翻译（最早由⾹农引⼊，但针对的是字符）。在⼀个n-gram模型中，关于的预测只依赖于最后的n-1个字符，⽽不是整个历史。
1.2.5贝叶斯定理：关于随机事件A和B的条件概率(或边缘概率）的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
1.2.:6神经语⾔模型两个关键发展：Recurrent Neural Networks（RNNs），包括⻓短期记忆
（LSTMs），使得⼀个令牌的条件分布可以依赖于整个上下⽂x1:i-1（有效地使n=∞），但这些模型难以训练。Transformers是⼀个较新的架构（于2017年为机器翻译开发），再次返回固定上下⽂⻓度n，但更易于训练（并利⽤了GPU的并⾏性）。此外，n可以对许多应⽤程序“⾜够⼤”（GPT-3使⽤的是n=2048）。
1.2.7总结：
语⾔模型最初是在信息理论的背景下研究的，可以⽤来估计英语的熵。
N-gram模型在计算上极其⾼效，但在统计上效率低下。
N-gram模型在短上下⽂⻓度中与另⼀个模型（⽤于语⾳识别的声学模型或⽤于机器翻译的翻译模型）联合使⽤是有⽤的。
神经语⾔模型在统计上是⾼效的，但在计算上是低效的。
随着时间的推移，训练⼤型神经⽹络已经变得⾜够可⾏，神经语⾔模型已经成为主导的模型范式。

1.3课程意义
1.3.1能力
1.3.1.1语⾔模型主要作为较⼤系统的组成部分使⽤（例如语⾳识别或机器翻译），但如今语⾔模型越来越具备作为独⽴系统的能⼒
1.3.1.2能⼒的示例：这种简单的接⼝为语⾔模型通过改变提示来解决各种各样的任务打开了可能性。
1.3.1.3与监督学习的关系：在正常的监督学习中，我们指定了⼀组输⼊-输出对的数据集，并训练⼀个模型（例如通过梯度下降的神经⽹络）以拟合这些示例。每次训练运⾏都会产⽣⼀个不同的模型。然⽽，通过上下⽂学习，只有⼀个语⾔模型可以通过提示来完成各种不同的任务。上下⽂学习显然超出了研究⼈员预期的可能性，是新出现⾏为的⼀个例⼦。
1.3.2现实世界的语言模型
1.3.2.1研究领域：⾸先，在研究领域，⼤型语⾔模型已经彻底改变了⾃然语⾔处理（NLP）社区。
1.3.2.2⼯业界：对于影响真实⽤户的⽣产系统，由于⼤多数这些系统是封闭的，很难确定确切的情况。⼀个重要的注意事项是，语⾔模型（或任何技术）在⼯业界的使⽤是复杂的。它们可能会针对特定场景进⾏微调，并被精简为更具计算效率的较⼩模型以进⾏⼤规模服务。可能会有多个系统（甚⾄全部基于语⾔模型），协同⼯作以⽣成答案。
1.3.3风险
1.3.3.1可靠性：如果你尝试使⽤GPT-3，你会发现它的表现⽐你预期的要好，但⼤部分时间它仍然⽆法产⽣正确的答案。在医疗等⾼⻛险应⽤中，提供错误的信息是不可接受的。我们如何使语⾔模型更可靠？
1.3.3.2社会偏⻅：已经有充分的证据表明，机器学习系统存在偏⻅：它们在不同⼈群之间存在性能差异，并且其预测可能会强化刻板印象。社会偏⻅当然存在于数据中，基于这些数据进⾏训练的模型将继承数据的特性。那么我们应该如何更谨慎地选择数据以减少偏⻅？在训练过程中可以采取哪些⼲预措施？退⼀步说，我们如何定义或衡量社会偏⻅？
1.3.3.3有害性：⼤型语⾔模型是基于⼤量互联⽹数据（例如Reddit）进⾏训练的，其中不可避免地包含了冒犯性内容。
1.3.3.4虚假信息：GPT-3可以轻松制造虚假的新闻⽂章。这项技术可以被恶意⾏为者更轻松地⽤于进⾏虚假信息宣传。
1.3.3.5安全性：：⼤型语⾔模型⽬前是基于公共互联⽹的抓取进⾏训练的，这意味着任何⼈都可以建⽴⼀个可能进⼊训练数据的⽹站。从安全⻆度来看，这是⼀个巨⼤的安全漏洞，因为攻击者可以进⾏数据中毒攻击。
1.3.3.6法律考虑：语⾔模型是基于版权数据（例如书籍）进⾏训练的。这是否受到公平使⽤的保护？即使受到保护，如果⽤户使⽤语⾔模型⽣成恰好是受版权保护的⽂本，他们是否对版权侵权负责？
1.3.3.7成本和环境影响：最后，⼤型语⾔模型在使⽤过程中可能⾮常昂贵。。成本的⼀个社会后果是为供电GPU所需的能源，以及由此产⽣的碳排放和最终的环境影响。然⽽，确定成本和效益的权衡是棘⼿的。
1.3.3.8获取：由于很多大语言模型开始封闭，只能通过API访问，鉴于语⾔模型⽇益增⻓的社会影响，社区的开源精神，尽可能让更多学者能够研究、批评和改进这项技术。
1.3.4总结：
单⼀的⼤型语⾔模型是⼀个万事通（也是⼀⽆所⻓）。它可以执⾏⼴泛的任务，并且能够具备上下⽂学习等新出现的⾏为。
它们在现实世界中得到⼴泛部署。
⼤型语⾔模型仍然存在许多重要的⻛险，这些⻛险是开放的研究问题。
成本是⼴泛获取的⼀⼤障碍。

1.4课程架构
1.4.1⼤型语⾔模型的⾏为：⽬标是理解这些被称为⼤型语⾔模型的对象的⾏为，就像我们是研究⽣物体的⽣物学家⼀样。
1.4.2⼤型语⾔模型的数据背后：深⼊研究⽤于训练⼤型语⾔模型的数据，并解决诸如安全性、隐私和法律考虑等问题。
1.4.3构建⼤型语⾔模型：研究如何构建⼤型语⾔模型（模型架构、训练算法等）。
1.4.4超越⼤型语⾔模型：超越语⾔模型的视⻆。语⾔模型只是对令牌序列的分布。语⾔模型也属于更⼀般的基础模型类别，这些模型与语⾔模型具有许多相似的属性。