大模型的名字通常包含两个部分:名称和后缀。名称传达模型的定位与特点,而后缀则反映其技术参数或训练细节。本文将深入解析这些命名规则,让你对这些名字背后的“学问”有更直观的了解。
名称篇
在大模型的命名上,国内外都展现了各自的特色。
国内:文化与科技的结合
国内的大模型命名多融入中国传统文化,既有古风雅韵,也体现了科技创新。
- 旧词新用派
-
- 文心一言(百度)
- 通义千问(阿里)
这些名字借用了传统文化中的经典词语,焕发出科技与人文结合的新光彩。
- 历史与神话人物派
-
- 盘古(华为)
- 轩辕(度小满)
- 孟子(澜舟科技)
模型名称直接取材于中国历史和神话人物,既有厚重感,也易于引发共鸣。
- 古词新用派
-
- 星火(科大讯飞)
- 天工(昆仑万维)
- 子曰(网易有道)
采用古代诗词中的经典词汇,简单而充满深意。
- 道家学派
-
- 紫东太初(中科院)
- 八卦炉(阿里达摩院)
这些名字充满道家哲学意味,寓意智慧的起源与炼化。
- 电影角色派
-
- MOSS(复旦大学)
借用了电影中的经典人工智能角色,颇具现代科技的寓意。
- MOSS(复旦大学)
国外:多元与创新
国外的大模型命名同样别具特色,充分体现了科学与艺术的结合。
- 技术术语派
-
- GPT:即“Generative Pre-trained Transformer”(生成式预训练转换器)。
- Stable Diffusion:直接命名为扩散模型技术的英文名称。
简单直接,凸显模型技术特性。
- 人名派
-
- Claude:取自信息论之父克劳德·香农(Claude Shannon)。
- DALL·E:结合了艺术家萨尔瓦多·达利(Salvador Dalí)与电影角色瓦力(WALL·E)。
这些名字用人名或艺术家角色赋予模型更多的文化内涵。
- 历史与神话派
-
- Gemini:源于希腊神话中的双子座,暗示双重性与潜力。
后缀篇
模型后缀则集中体现技术规格和应用方向,具体包括以下几类:
1. 版本号
版本号的命名体现了模型的更新迭代。例如:
- Llama 2 和 Llama 3:清晰地表明了模型的不同版本。
- ChatGPT 3.5 和 ChatGPT 4:用数字区分主版本,方便用户了解模型的进步。
2. 参数量级
参数量级的后缀直接展示了模型的规模:
- “B”代表十亿(Billion):如“70B”表示模型有70亿参数。
- “T”代表万亿(Trillion):如“1T”表示模型拥有1万亿参数,适合更复杂的任务。
参数越大,模型越强,但也需要更多计算资源。企业用户和研究机构会更关注高参数模型,而普通用户可能更注重使用体验和效率。
3. 数据量与训练轮次
后缀如“4e1t”:
- 4e:代表4个Epoch,即模型完整遍历数据集4次。
- 1t:指训练中使用了1万亿个Tokens。
更大的Token数据量和更多训练轮次通常能提升模型的能力,但同时显著增加了训练时间和计算成本。
4. 权重量化
常见的“INT4”或“INT8”后缀表示权重量化的位数。量化可以显著降低内存占用,但可能影响模型精度。
- INT8(8位整数):
例如,一个标准模型需要100GB内存,经过INT8量化后,可能只需要25GB,但大部分任务的精度几乎不受影响。如智能手机中的语音助手、翻译工具等。 - INT4(4位整数):
相比INT8进一步降低内存占用,例如从25GB降到12.5GB。但由于精度下降,INT4更适用于对准确性要求较低的任务。物联网设备或边缘计算场景(如智能摄像头)。
5. 数据集与语言
如果后缀中出现某种语言的缩写(如“Chinese”),表明该模型专为该语言优化。
6. 技术和方法
模型名称中还常体现特定技术或方法,如:
- clip-vit-large-patch14:表示模型基于Vision Transformer架构,并采用14x14像素分块处理图像。
- Instruct:说明模型经过指令微调(Instruction Tuning),能更好地理解任务描述。
- SFT:表示模型经过监督式微调(Supervised Fine-Tuning),专注于特定领域优化。
总结
无论是名称的独特性还是后缀的技术细节,大模型的命名都反映了背后的文化理念与技术创新。从国内传统文化的复兴到国外多元化的思路,这些名字无不体现了对人工智能未来的深刻思考。