【大模型之旅---入门】一文搞懂大模型相关知识!

大模型

大模型(Large Language Models,LLM)是指拥有有数十亿或数百亿个参数的大型预训练语言模型,如GPT系列模型。它们在解决各种自然语言处理任务方面表现出强大的能力,甚至可以展现出一些小规模语言模型所不具备的特殊能力,如涌现能力。LLM的研究已成为当前AI界的热点,其技术发展将彻底改变我们开发和使用AI算法的方式。

语言建模(Language Model, LM)

语言建模是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来(或缺失)tokens的概率

 语言模型的发展历程

语言模型一共经历了以下四个发展阶段

当然任何新兴起的技术都或多或少存在缺陷,因此经过一步一步的迭代,最终孕育出了--大模型

统计语言模型

基于统计学习方法开发,经典例子如n-gram模型,在n-gram模型中,一个词出现的概率只依赖于它前面的n-1个词。

神经语言模型

是使用神经网络来预测词序列的概率分布的模型。与传统的统计语言模型(如n-gram模型)使用固定窗口大小的词来预测下一个词的概率不同,神经语言模型可以考虑更长的上下文或整个句子的信息。

例如:

循环神经网络(RNN):包括LSTM和GRU等变体,能够处理变长的序列数据。

该阶段的重要概念:

分布式表示:在神经语言模型中,每个单词通常被编码为一个实数值向量,这些向量也被称为词嵌入(wordembeddings)。词嵌入可以捕捉词与词之间的语义和语法关系。

预训练语言模型(Pre-trained Language Model, PLM)


这些模型通常在大规模无标签语料库上进行预训练任务,学习词汇、短语、句子甚至跨句子的语言规律和知识。通过这种预训练,模型能够捕获广泛的通用语义特征,然后可以在特定任务上进行微调(fine-tuning),以适应特定的应用场景

预训练语言模型与神经语言模型不同点就在于Transformer这个模型的提出

Transformer:
2017年在论文《AttentionIsA You Need》提出的Transformer,Transformer模型通过其自注意力机制和高度的并行化能力,极大地提高了序列处理任务的效率和效果,它能够在处理序列数据时捕捉全局依赖关系,同时具有并行计算的能力,是近年来自然语言处理领域的重要进展之一。

Transformer是今年来自然语言处理的重大突破,它主要带来了以下这两个创新点:
· 自注意力机制:这使得模型能够捕捉到长序列文本中各个词之间的关系,从而更好地理解上下文信息
· 并行化能力:我们可以使用更多的计算资源来处理更大量的数据,从而训练出更强大的语言模型

大语言模型(Large Language Models, LLM)

大语言模型(大模型)是指那些具有大量参数、在大规模数据集上训练的语言模型。这些模型能够理解和生成自然语言,通常是通过深度学习和自注意力机制(如Transformer架构)实现的。它们在自然语言处理(NLP)的多个领域都有广泛的应用,包括但不限于文本生成、翻译、摘要、问答和对话系统。
大语言模型通常有数十亿甚至数万亿个参数。例如,GPT-3拥有1750亿个参数。

典型的代表我想已经人尽皆知了吧,那就是:ChatGPT

两大大分支

BERT VS GPTBERT

BERT(Bidirectional Encoder Representations from Transformers)GPT (Generative Pretrained Transformer)都是基于Transformers的架构.
BERT是由Google AI在2018年提出的一种预训练语言表示模型。它的主要特点是双向的Transformer编码器。这意味着BERT在处理一个单词时,会同时考虑这个单词前面和后面的上下文,这种全方位的上下文理解使得BERT在理解语言时更为精准。

大模型特点


参数数量庞大:大模型通常含有极多的参数,这些参数是模型在训练过程中学习到的权重和偏置。

数据需求巨大:为了训练这些模型,需要大量多样化的数据。数据的多样性可以帮助模型更好地泛化到未见过的情况。

计算资源密集:训练大模型需要大量的计算资源,这通常依赖于高性能的GPU或TPU集群。

泛化能力强:由于模型参数众多,大模型通常具有更好的学习能力和泛化能力。

迁移学习效果佳:大模型在一个任务上训练好之后,可以通过迁移学习的方式快速适应新的任务。


大模型问题


幻觉:幻觉是指 LLM 生成的输出是错误的,胡编乱造。比如“钢丝球炒西红柿”,由于大语言模型会预测下一个语法正确的字词或短语,因此并不能完全解读人类的意思。这导致有时会产生所谓的“幻觉”。

资源消耗:训练大模型需要消耗大量的电力和计算资源,这带来了环境和经济成本。

数据偏见:训练数据的代表性不足可能导致模型继承并放大现实世界的偏见和不平等。

可解释性差:大模型的决策过程往往是黑箱的,难以解释和理解。

安全性问题:大模型可能被用于生成假新闻、欺诈性内容等,引发安全和道德问题。

小模型训练过程

小模型是根据某种场景,提供特定的数据,进而为了完成特定的任务进行训练的,换了一个场景则就需要重新训练了,而且小模型的训练需要给数据做大规模的标记,因此训练成本也很高,不仅如此,训练小模型包括数据的收集,处理,提取特征,打标签,以及训练,调参等等一系列的工作,因此这需要算法工程师或者数据科学家才可以胜任的工作

想完成以上的基本的模型的一个训练过程,通常都是有一些算法背景的人可以做到

大模型

大模型的训练,是不用给数据做标记的,这使得模型更能深刻理解文本上下文的语义,给大模型提供一个特定领域的数据后,它就可以解决特定领域的问题了

大模型是具有处理许多常见问题的能力的,因此小模型所能处理的问题,大模型都可以处理,而无需使用小模型,直接使用大模型,这使得即使没有算法背景和编程能力的人也可以直接使用大模型来开发自己的应用程序

大语言模型与AIGC之间的区别

AIGC(Artificial Inteligence Generated Content)是一个总称,是指有能力生成内容的人工智能模型。AIGC技术利用机器语言学习模型,甚至深度学习模型可以实现文本生成代码、生成图像、视频和音乐。
热门的开源AIGC技术有LLaMA、Stable Diffusion
大模型也是一种AIGC,它基于文本进行训练并生成文本内容。

  • 25
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
知识蒸馏是一种知识增强技术,已经受到越来越多的关注。在大语言模型中,知识蒸馏可以通过将一个大模型(教师模型)的知识传授给一个小模型(学生模型)来提高性能。知识蒸馏的关键问题是如何从教师模型中提取丰富的知识,并将这些知识转移到学生模型的训练中。知识蒸馏系统通常由三个主要部分组成:知识、蒸馏算法和师生架构。\[1\]\[2\] 对于大语言模型知识蒸馏,有许多挑战需要解决。首先是知识的均等性,即如何确保从教师模型中提取的知识能够平衡地传递给学生模型。其次是蒸馏的类型,不同的蒸馏策略可以选择不同的知识传递方式,例如软标签、相似性约束等。此外,师生体系结构的设计也是一个重要的问题,需要考虑如何构建一个有效的师生模型来实现知识的传递。最后,知识蒸馏的理论基础也是一个研究的重点,研究人员正在探索知识蒸馏的原理和机制。\[2\] 关于知识蒸馏的研究和应用已经有很多论文和技术。如果你对知识蒸馏感兴趣,可以查阅《Knowledge Distillation: A Survey》这篇综述论文,或者参考这个GitHub仓库中的分类论文列表,其中包含了一系列经典的知识蒸馏技术。\[3\] #### 引用[.reference_title] - *1* *2* *3* [万字综述 | 一文读懂知识蒸馏](https://blog.csdn.net/u012347027/article/details/111415197)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值