关于LLM的简介

爱吃麻辣烫的皮卡丘

于 2023-11-14 17:03:35 发布

阅读量50

点赞数

分类专栏：机器学习文章标签：语言模型

本文链接：https://blog.csdn.net/weixin_53017755/article/details/134400830

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

说明：以下总结内容均来自于daawhale的学习课程《动手学大模型应用开发》中的在线阅读资料
动手学大模型应用开发

一、大模型简介

大语言模型（Large Language Model, LLM）是一种旨在理解和生成人类语言的人工智能模型，通常包含数百亿（或者更多）的模型参数，多用于自然语言处理领域和检索领域，目前在计算机视觉领域，研究人员还在努力让计算机理解图像和文字，以改善多媒体交互

二、大模型的能力与特点

1. 大模型的能力

区分大语言模型与以前的预训练语言模型的最大特点就是涌现能力。所谓涌现能力就是指小参数模型在某些任务上的表现不太明显或者比较差，但是随着模型参数的增大，却展现出了很好的潜力，使得模型具有了更好的处理任务的能力，以下是三个典型的在llm方面的涌现能力

上下文学习：上下文学习是指模型可以通过用户在输入时提供的少量示例或者指令来完成相应的输出或者任务，而不需要额外的训练或者参数更新
指令遵循：即根据用户的指令，给出响应。也可以通过自然语言描述的多任务数据进行微调，即指令微调。llm被证实在同样使用指令描述的未见过的具体示例的任务上表现良好，这表明llm具有很好的泛化能力
逐步推理：llm可以通过利用“思维链”的策略，利用中间步骤的提示机制来完成推理步骤较多的复杂任务或者是数学问题等
大模型可以作为开发各种AI应用的一个基准模型，使用大量的无标记数据开发出一个可以适用于众多下游任务的统一的大模型，从而缩短每个具体应用的开发时间，节省成本

2. 大模型的特点

大模型主要具有以下的特点：

上下文感知：能够理解并依赖于前文的内容预测出下文的输出，使得输出结果更加连贯
模型参数巨大：通常拥有数百亿的模型参数，可以处理各种复杂任务
预训练与微调：现有的大模型一般都是通过海量的无标记的数据经过训练形成预训练模型，也就是拥有了通用的语言表示、理解能力和知识。再经过少量的带有标记的数据经过微调，使其可以适用于不同的下游任务
多语言支持：现有的大模型由于训练资料巨大，并且模型本身也可以学习到不同语言之间的差异性，已经可以支持多种语言
涌现能力：相较于参数较小的模型，大模型可以处理更多更复杂的任务
多领域应用：现有的大模型已经被应用到了各种领域，比如说文本生成，机器翻译，摘要总结
伦理与风险：llm虽然具有强大的功能，但并不是完美的，比如存在幻视，生成不存在的事实作为答案，在伦理方面也需要注意

三、常见大模型

闭源大模型

GPT系列，Claude 系列（由 OpenAI 离职人员创建的 Anthropic 公司开发），PaLM 系列（由 Google 开发），PaLM 系列（由 Google 开发），文心一言（基于百度文心大模型的知识增强语言大模型）讯飞星火认知大模型

闭源大模型

LLaMA 系列模型（是 Meta 开源的一组参数规模从 7B 到 70B 的基础语言模型）、GLM 系列（模型是清华大学和智谱 AI 等合作研发的开源语言大模型）、通义千问（由阿里巴巴基于“通义”大模型研发）、Baichuan （由百川智能开发的开源可商用的语言大模型）。

LangChain

LangChain 框架是一个开源工具，充分利用了大型语言模型的强大能力，以便开发各种下游应用。它的目标是为各种大型语言模型应用提供通用接口，从而简化应用程序的开发流程。具体来说，LangChain 框架可以实现数据感知和环境互动，也就是说，它能够让语言模型与其他数据来源连接，并且允许语言模型与其所处的环境进行互动。
LangChian 作为一个大语言模型开发框架，可以将 LLM 模型（对话模型、embedding模型等）、向量数据库、交互层 Prompt、外部知识、外部代理工具整合到一起，进而可以自由构建 LLM 应用。 LangChain 主要由以下 6 个核心模块组成:

模型输入/输出（Model I/O）：与语言模型交互的接口
数据连接（Data connection）：与特定应用程序的数据进行交互的接口
链（Chains）：将组件组合实现端到端应用。记忆（Memory）：用于链的多次运行之间持久化应用程序状态；
代理（Agents）：扩展模型的推理能力。用于复杂的应用的调用序列；
回调（Callbacks）：扩展模型的推理能力。用于复杂的应用的调用序列；

爱吃麻辣烫的皮卡丘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于LLM的简介

大语言模型（Large Language Model, LLM）是一种旨在理解和生成人类语言的人工智能模型，通常包含数百亿（或者更多）的模型参数，多用于自然语言处理领域和检索领域，目前在计算机视觉领域，研究人员还在努力让计算机理解图像和文字，以改善多媒体交互。
复制链接

扫一扫