LLM技术发展及在垂直领域中如何应用-经验学习大全

大语言模型综述

前景

语言建模(LM)是提高机器语言智能的主要方法之一。一般来说,LM旨在对词序列的生成概率进行建模,以预测未来tokens的概率。语言建模的研究在文献中受到了广泛关注,可以分为四个主要发展阶段:

  • 统计语言模型(SLM): 起源于 20世纪90年代。其基本思想是基于马尔可夫假设建立词预测模型,由于需要估计指数级数量的转换概率,因此很难准确估计高阶语言模型。因此需要专门设计平滑策略,如回退估计和古德图灵估计被引入以缓解数据稀疏问题。

  • 神经语言模型(NLM): 通过神经网络,如循环神经网络(RNN),来描述单词序列 的概率。作为一个显著贡献。工作引入了词的分布式表示这一概念,并在聚合上下文特征的条件下构建词预测函数。有研究开发了一种通用神经网络方法来为各种NLP任务构建统一解决方案。word2vec提出了构建一个简化的浅层神经网络来学习分布式单词表示方法,这些表示在各种NLP任务重被证明非常有效。

  • 预训练语言模型(PLM): 作为早期尝试,ELMo被提出来通过预训练一个双向LSTM网络来捕捉上下文感知的词表示,然后根据特定的下游任务微调biLSTM网络。进一步,基于自注意力机制的高度并行化Transformer架构,BERT作为双向 语言模型,在大规模无标签库上使用专门设计的预训练任务。利用预训练的上下文感知词表示作为通用语义特征非常有效,其极大地提高了NLP任务的性能。

  • 大语言模型(LLM): 拓展PLM通常会提高下游任务的模型性能。许多研究通过训练越来越大的PLM来探索性能极限。GPT-3通过上下文学习来解决少样本任务,但gpt-2表现不佳。

大模型目前已经具备了开放世界的理解能力。大模型往往也是通用的,而通用是理解领域的前提。一般来说训练语料越广泛而多样,通用大模型能力越强。大模型具备强大的组合创新能力,其能够将任意两种学科组合创新,“举一反三”成为可能。大模型也具备强大的评估评价能力。例如,GPT4其在语义相关任务中具有出色的评估能力,这使得高质量的自动化评估成为可能。基于n-gram的自动评估指标无法聚焦于翻译质量,后续可使用GPT-4类大模型对习语翻译质量打分。大模型对于用户的指令提示高度敏感,能够遵循指令完成任务,大模型的智能本质上情景化生成能力。基于思维链等技术,大模型初步具备复杂任务的分解能力,具备一定的完成复杂任务所需的动作规划能力。大模型已经具备了常识、符号和逻辑推理等复杂推理能力。大模型在学习语言的过程中捕捉到数据中价值观的共性,并在某些情况下将它们表达出来(价值对齐)。大模型具备了统一的任务形式,所有的任务都可以统一为生成范式。

百亿参数量级别的模型通常需要数百甚至上千个GPU或TPU。例如,GPT_NeoX-20B使用了12个为微服务器,每个服务器配备了8个NVIDIA A100-SXM4-40GB GPU,LLaMA使用了2048个A100-80G GPU。为了准确估计所需的计算资源,还是建议使用衡量涉及计算量的指标,例如计算FLOPS(每秒浮点数运算次数)。

千亿参数量级别的模型通常需要数千个GPU或TPU进行训练。例如,OPT(175B)使用了992个A100-80GB GPU,GLM(130B)使用了96个NVIDIA DGX-A100(8x40G) GPU节点集群。

大语言模型的公共API。当下OpenAI提供了七个主要的 GPT-3系列模型接口:ada、babbage(1B)、curie(6.7B)、davinci(175B)、text-ada-001、text-babbage-001和 text-curie-001。

已有的大模型

在这里插入图片描述

  1. GPT-3 [55]

  2. PaLM [56](将参数规模提升到了破纪录的5400亿)

  3. Galactica [34]

  4. LLaMA(65B)

  5. DeepSpeed和Megatron-LM,为了支持分布式训练,发布了一些优化框架来促进并行算法的实现和部署

  6. GPT-4提出开发特殊的基础设施和优化方法,可靠地预测远小于大模型的小模型的性能;其也采用了类似于InstructGPT的技术,在产生高质量、无害的回答方面表现出很强的对齐能力。

  7. InstructGPT设计了一种有效的微调方法,使LLM与人类价值观保持一直。其中利用了基于人类反馈的强化学习技术(P. F. Christiano, J. Leike, T. B. Brown, M. Martic, S. Legg, and D. Amodei, “Deep reinforcement learning from human preferences,” in Advances in Neural Infor mation Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, I. Guyon, U. von Luxburg, S. Bengio, H. M. Wallach, R. Fergus, S. V. N. Vishwanathan, and R. Garnett, Eds., 2017, pp. 4299–4307)。他将人类纳入训练循环中,采用精心设计的标注策略。

  8. NLLB(最大版本54.5B)

  9. Flan-T5(11B)可以作为研究指令微调的首选模型,因为它从三个方面探索了指令微调:增加任务数量、扩大模型规模和使用思维链提示数据进行微调。

  10. codeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码成能力的候选模型,其提出了一个新的基准测试MTPB,专门用于多轮程序合成,由115个专家生成的问题组成,为了解决这些问题࿰

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
LLM(基于学习的管理方法)是一种在智能决策广泛应用的方法。LLM适用于各种领域,如金融、医疗、交通等。 首先,LLM利用机器学习算法对大量数据进行分析和预测。它可以通过学习历史数据的模式和趋势,将其应用于决策问题。通过分析数据,LLM可以发现隐藏在大量数据的规律和关联,为决策提供有力的支持。例如,在金融领域LLM可以分析市场数据、企业财务报表等信息,预测股票的涨跌趋势,从而帮助投资者做出明智的投资决策。 其次,LLM还可以进行优化和调整。它可以不断学习和改进,根据反馈信息进行自适应调整。通过与环境的互动,LLM可以不断优化模型,并根据情况调整决策策略。例如,在交通管理LLM可以通过分析交通流量数据,根据实时情况调整路线规划,降低交通拥堵,提高通行效率。 此外,LLM在智能决策应用还包括风险评估、问题诊断和策略制定等方面。通过对历史数据和现有情况的分析,LLM可以预测潜在风险和问题,并提供相应的策略和措施。例如,在医疗领域LLM可以通过分析患者的病历和病情数据,预测患者的病情发展趋势,帮助医生制定更准确的治疗方案。 综上所述,LLM在智能决策应用广泛且重要。它利用机器学习算法对大量数据进行分析和预测,为决策提供有力的支持。同时,LLM还可以进行优化和调整,根据环境的变化不断改进决策策略。LLM应用可以提高决策的准确性和效率,在各个领域发挥重要作用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

河南-殷志强

希望我的文章能帮助到你

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值