1. 语言类大模型
- 包括
GPT-3
、GPT-3.5
、GPT-4
系列模型。并且,OpenAl在训练GPT-3的同时,训练了参数不同、复杂度各不相同的A、B、C、D四项大模型(基座模型),用于不同场景的应用; - 其中,A、B、C、D模型的全称分别是
ada
、babbage
、curie
和davinci
,四个模型并不是GPT-3的微调模型,而是独立训练的四个模型; - 四个模型的参数规模和复杂程度按照A-B-C-D顺序依次递增(为了更好的满足更多的适用场景训练不同规模的模型是目前业内的基本共识);
- 虽不如GPT-3.5和GPT-4那么有名,但A、B、C、D四大模型却是目前OpenAl大模型生态中功能最丰富、API种类最多的四个模型。
- 同样的,谷歌
PaLM2 Models
中的四项大模型:Gecko
(壁虎)、Otter
(水獭)、Bison
(野牛)、Unicorn
(独角兽),最小的Gecko模型可以在移动端运行,并计划在下一代安卓系统中集成。
2. 图像多模态大模型
- 最新版为
DALL·E
(达利)v2,是DALL·E
模型的第二版训练版,能够根据描述生成图像; - DALL·E模型为基于
GPT-3
开发的模型,总共包含120亿个参数,不难看出DALL·E对图像的理解能力源于大语言模型; - OpenAl将大语言模型的理解能力“复制”到视觉领域的核心方法:将图像视作一种一种语言,将其转化为Token,并和文本Token—起进行训练。
3. 语音识别模型
- 最新版为
Whisper v2-large model
,是Whisper
模型的升级版,能够执行多语言语音识别以及语音翻译和语言识别; - Whisper模型是为数不多的OpenAl的开源模型,该模型通过68万小时的多语言和多任务监督数据进行的训练,目前提供了原始论文进行方法介绍;
- Whisper模型可以本地部署,也可以像其他OpenAl大模型一样通过调用API进行在线使用,并且根据官网介绍,Whisper在线模型会有额外运行速度上的优化,通过调用API进行使用,效率更高。
4. 文本向量化模型
Embedding
文本嵌入模型,用于将文本转化为词向量,即用一个数组(向量)来表示一个文本,该文本可以是短语、句子或者文章;- 最新一代Embedding模型是基于ada模型微调的
text-embedding-ada-002
模型; - 通过将文本转化为词向量,就可以让计算机进一步的“读懂文本”,通过词向量的计算和分析和相似度计算,可以对其背后的文本进行搜索、聚类、推荐、异常检测和分类等。
5. 审查模型
Moderation
模型,旨在检查内容是否符合OpenAl的使用政策。这些模型提供了查找以下类别内容的分类功能:仇恨、仇恨/威胁、自残、性、性/未成年人、暴力和暴力/图片等。
6. 编程大模型
Codex
大模型,用GitHub数十亿行代码训练而成,能够“读懂"代码,并且能够根据自然语言描述进行代码创建;- Codex最擅长Python,同时精通JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL,甚至Shell 等十几种编程语言;
- 该模型发布于2021年8月10日,目前代码编写功能已经合并入GPT-3.5,官网显示该模型为已弃用
(deprecated
)状态,意为后续不再单独维护,但并不表示OpenAl已放弃编程大模型,相反越来越多的编程功能被集成到语言大模型中; - 目前该模型集成于
Visual Studio Code
、GitHub Copilot
、Azure OpenAl Service
等产品中,用于提供自动编程功能支持。
OpenAl API命名规则
- 通用模型API:如GPT-3.5-turbo,GPT-4,ada…
- 停止维护但仍可使用的API:如GPT-3.5-turbo-0301 (3月1号停止维护),GPT-4-0314 (3月14号停止维护)…
- 面向特定功能的微调模型API:如ada-code-search-code(基于ada微调的编程大模型),babbage-similarity(基于babbage微调的的文本相似度检索模型)…
- 多版本编号模型API:如text-davinci-001 (达芬奇文本模型1号)、text-embedding-ada-002(基于ada的Embedding模型2号)…